步骤 1：创建 Maven 项目

打开 IntelliJ IDEA，选择 File > New > Project。
选择 Maven，勾选 Create from archetype，选择 org.apache.maven.archetypes:maven-archetype-quickstart。
填写 GroupId（如 com.example）和 ArtifactId（如 spark-example），点击 Next。
配置 Maven 设置，点击 Finish。

步骤 2：添加 Spark 依赖

在 pom.xml 中添加以下依赖：

xml

<dependencies><!-- Spark Core --><dependency><groupId>org.apache.spark</groupId><artifactId>spark-core_2.12</artifactId><version>3.4.1</version> <!-- 根据你的 Spark 版本调整 --></dependency><!-- Spark SQL (可选) --><dependency><groupId>org.apache.spark</groupId><artifactId>spark-sql_2.12</artifactId><version>3.4.1</version></dependency><!-- Spark Streaming (可选) --><dependency><groupId>org.apache.spark</groupId><artifactId>spark-streaming_2.12</artifactId><version>3.4.1</version></dependency>
</dependencies>

步骤 3：编写 Spark 程序

创建一个 Scala 或 Java 类，编写 Spark 程序。以下是一个简单的 Scala 示例：

scala

import org.apache.spark.sql.SparkSessionobject WordCount {def main(args: Array[String]): Unit = {// 创建 SparkSessionval spark = SparkSession.builder().appName("WordCount").master("local[*]") // 本地模式，使用所有 CPU 核心.getOrCreate()// 读取文本文件val textFile = spark.sparkContext.textFile("src/main/resources/input.txt")// 计算单词计数val counts = textFile.flatMap(line => line.split(" ")).map(word => (word, 1)).reduceByKey(_ + _)// 输出结果counts.collect().foreach(println)// 停止 SparkSessionspark.stop()}
}

步骤 4：配置运行环境

添加 Scala 支持：
- 若项目未自动识别 Scala，右键点击项目 > Add Framework Support > 勾选 Scala。
- 下载并配置 Scala SDK（版本需与 Spark 兼容，如 Scala 2.12.x）。
设置运行参数：
- 点击 Run > Edit Configurations。
- 添加新的 Application 配置，设置：
  - Main class：WordCount（或你的主类名）。
  - JVM options（可选）：-Xmx2g（设置最大堆内存）。

步骤 5：运行程序

在项目根目录下创建 src/main/resources/input.txt 文件，添加测试文本。
点击运行按钮或使用快捷键（如 Shift + F10）执行程序。
查看控制台输出，验证单词计数结果。

步骤 6：打包并提交到集群（可选）

如果需要在 Spark 集群上运行，需打包项目：

在 pom.xml 中添加打包插件：

xml

<build><plugins><plugin><groupId>org.apache.maven.plugins</groupId><artifactId>maven-shade-plugin</artifactId><version>3.4.1</version><executions><execution><phase>package</phase><goals><goal>shade</goal></goals><configuration><filters><filter><artifact>*:*</artifact><excludes><exclude>META-INF/*.SF</exclude><exclude>META-INF/*.DSA</exclude><exclude>META-INF/*.RSA</exclude></excludes></filter></filters></configuration></execution></executions></plugin></plugins>
</build>

执行 mvn clean package 生成 JAR 文件。

使用 spark-submit 提交到集群：

bash

spark-submit \--class "WordCount" \--master yarn \  # 或 "spark://host:port"--deploy-mode cluster \/path/to/your-jar/spark-example-1.0-SNAPSHOT.jar

步骤 1：创建 Maven 项目

步骤 2：添加 Spark 依赖

步骤 3：编写 Spark 程序

步骤 4：配置运行环境

步骤 5：运行程序

步骤 6：打包并提交到集群（可选）

相关文章

【C语言练习】032. 编写带参数的函数

Java虚拟机的基本结构

uniapp引入七鱼客服微信小程序SDK

手撕算法（定制整理版2）

数字IC后端培训教程之数字后端项目典型案例分析

window 显示驱动开发-将虚拟地址映射到内存段（二）

Termius ssh连接服务器 vim打开的文件无法复制问题

杨校老师项目之基于SSM与JSP的鲜花销售系统-【成品设计含文档】

集成学习——Bagging，Boosting

【笔试训练】给一个数组构建二叉树|从前序遍历与中序遍历构建二叉树|二叉树中的最大路径和

Swift实战：如何优雅地从二叉搜索树中挑出最接近的K个值

Linux512 ssh免密登录 ssh配置回顾

编译原理AST以Babel为例进行解读、Webpack中自定义loader与plugin

51c大模型~合集127

《Effective Python》第1章 Pythonic 思维详解——深入理解流程控制中的解构利器match

Nacos源码—8.Nacos升级gRPC分析五

[手写系列]Go手写db — — 完整教程

十三、动态对象创建（Dynamic Object Creation）

一、网络基础

前端面试测试题目（一）