Spark的最简安装

1. 下载并解压 Spark

首先,我们需要下载 Spark 安装包。您可以选择以下方式之一:

方式一:从官网下载(推荐)

# 在 hadoop01 节点上执行
cd /home/hadoop/app
wget https://archive.apache.org/dist/spark/spark-2.3.1/spark-2.3.1-bin-hadoop2.7.tgz

方式二:如果已有安装包,直接解压

cd /home/hadoop/app
# 如果已经有安装包,直接解压
tar -zxvf spark-2.3.1-bin-hadoop2.7.tgz
# 创建软链接
ln -s spark-2.3.1-bin-hadoop2.7 spark

在这里插入图片描述

2. 测试运行 Spark

(1) 准备测试数据集
cd /home/hadoop/app/spark
# 创建测试文件
cat > djt.log << EOF
hadoop hadoop hadoop spark spark spark
EOF# 查看文件内容
cat djt.log

在这里插入图片描述

(2) Spark shell 测试运行单词词频统计
# 启动 Spark shell
bin/spark-shell# 等待 Spark shell 启动完成,看到 scala> 提示符后,依次输入以下命令:

在 Spark shell 中输入以下命令:

// 读取本地文件
val line = sc.textFile("/home/hadoop/app/spark/djt.log")// WordCount 统计并打印
line.flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).collect().foreach(println)

预期输出:

(spark,3)
(hadoop,3)

在这里插入图片描述

3. Spark 实现 WordCount(Scala 程序)

步骤1:下载 Hadoop 及 winutils.exe

1.1 下载 Hadoop 2.7.1 安装包

链接参考https://blog.csdn.net/qq_39900031/article/details/121080109

好的,我把 Windows 下 Hadoop 环境配置的 完整详细过程整理给你(以 Hadoop 2.7.1 + JDK1.8 为例):


一、准备工作

  1. 安装 JDK1.8

    • 下载 JDK1.8 并安装,推荐路径如:C:\Java\jdk1.8.0_221

    • 配置环境变量:

      • JAVA_HOME=C:\Java\jdk1.8.0_221
      • PATH 中添加:%JAVA_HOME%\bin
      • 新建 CLASSPATH=.;%JAVA_HOME%\lib\dt.jar;%JAVA_HOME%\lib\tools.jar
  2. 下载 Hadoop 2.7.1

    • 地址:http://archive.apache.org/dist/hadoop/core/hadoop-2.7.1/
    • 解压到:C:\hadoop-2.7.1
  3. 下载 HadoopOnWindows 适配包

    • GitHub 或 CSDN 提供的 hadooponwindows-master.zip
    • 解压后,把里面的 bin 和 etc 文件夹 覆盖到 C:\hadoop-2.7.1 目录下。

二、配置 Hadoop 环境变量

系统环境变量中新建:

  • HADOOP_HOME=C:\hadoop-2.7.1
  • PATH 添加:%HADOOP_HOME%\bin;%HADOOP_HOME%\sbin

三、修改配置文件

进入 C:\hadoop-2.7.1\etc\hadoop 目录:

  1. hadoop-env.cmd

    set JAVA_HOME=C:\Java\jdk1.8.0_221
    
  2. core-site.xml

    <configuration><property><name>fs.defaultFS</name><value>hdfs://localhost:9000</value></property><property><name>hadoop.tmp.dir</name><value>C:/hadoop-2.7.1/tmp</value>

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/diannao/100472.shtml
繁体地址,请注明出处:http://hk.pswp.cn/diannao/100472.shtml
英文地址,请注明出处:http://en.pswp.cn/diannao/100472.shtml

如若内容造成侵权/违法违规/事实不符,请联系英文站点网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

OpenCV 风格迁移、DNN模块 案例解析及实现

图像风格迁移是计算机视觉领域极具趣味性的技术之一 —— 它能将普通照片&#xff08;内容图像&#xff09;与艺术画作&#xff08;风格图像&#xff09;的特征融合&#xff0c;生成兼具 “内容轮廓” 与 “艺术风格” 的新图像。OpenCV 的 DNN&#xff08;深度神经网络&#x…

MySQL 日志:undo log、redo log、binlog以及MVCC的介绍

一、MySQL 日志&#xff1a;undo log、redo log、binlogundo log&#xff08;回滚日志&#xff09;&#xff1a;是 Innodb 存储引擎层生成的日志&#xff0c;实现了事务中的原子性&#xff0c;主要用于事务回滚和 MVCC&#xff08;隔离性&#xff09;。 redo log&#xff08;重…

【面板数据】省及地级市农业新质生产力数据集(2002-2025年)

农业新质生产力是以科技创新为核心驱动力&#xff0c;以科技化、数字化、网络化和智能化为主线&#xff0c;通过技术革命性突破、生产要素创新性配置、产业深度转型升级&#xff0c;实现农业全要素生产率显著跃升的先进生产力形态 本数据基于2002-2025年各省政府工作报告中关于…

20250917在荣品RD-RK3588-MID开发板的Android13系统下使用tinyplay播放wav格式的音频

input keyevent 24 1|console:/sdcard # cat /proc/asound/cards console:/sdcard # ls -l /dev/snd/【需要打开Android13内置的音乐应用才会有声音出来&#xff0c;原因未知&#xff01;】 1|console:/sdcard # tinyplay /sdcard/Music/kiss8.wav -D 1 -d 020250917在荣品RD-R…

总共分为几种IP

IP&#xff08;Internet Protocol&#xff09;地址根据不同的分类标准可分为多种类型&#xff0c;以下是常见的分类方式&#xff1a;按版本分类IPv4&#xff1a;32位地址&#xff0c;格式为四组十进制数字&#xff08;如192.168.1.1&#xff09;&#xff0c;约43亿个地址&#…

【Linux】常用命令(六)

【Linux】常用命令&#xff08;六&#xff09;1. yum命令1.1 基本语法1.2 常用命令2. 从服务器把数据cp到本地3. uname命令3.1 常用命令1. yum命令 全称&#xff1a;Yellowdog Updater, Modified作用&#xff1a;是 RPM 包管理器的前端工具&#xff0c;用于基于 RPM 的 Linux …

go grpc开发使用

1、安装proto 下载 Windows 版本 打开官方发布页面 访问 Protocol Buffers 的 GitHub Releases 页面&#xff1a; &#x1f449; https://github.com/protocolbuffers/protobuf/releases 解压 ZIP 文件 将下载的 ZIP 文件解压到一个你容易找到的目录&#xff0c;例如&#xff1…

MyBatis分页:PageHelper

MyBatis分页&#xff1a;PageHelper &#x1f4d6; 前言&#xff1a;为什么需要分页&#xff1f; 在处理大量数据时&#xff0c;一次性从数据库查询并返回所有结果是不可行的&#xff0c;这会带来巨大的性能和内存开销。分页是解决这一问题的标准方案。而PageHelper是一个极其流…

Gin框架:构建高性能Go Web应用

Gin框架&#xff1a;构建高性能Go Web应用 Gin是Go语言中最受欢迎的Web框架之一&#xff0c;以其高性能、简洁API和丰富的中间件支持而闻名。本文将带你从零开始&#xff0c;逐步掌握Gin框架的核心概念和高级特性&#xff0c;并通过实际代码示例演示如何构建高效的Web应用程序。…

IO进程——线程、IO模型

一、线程Thread1、引入1.1 概念相当于是一个轻量级的进程&#xff0c;为了提高系统的性能引入线程&#xff0c;在同一进程中可以创建多个线程&#xff0c;共享进程资源1.2 进程和线程比较相同点&#xff1a;都为操作系统提供了并发执行的能力不同点&#xff1a;调度和资源&…

人工智能概念:NLP任务的评估指标(BLEU、ROUGE、PPL、BERTScore、RAGAS)

文章目录一、评估指标基础1. 准确率&#xff08;Accuracy&#xff09;2. 精确率&#xff08;Precision&#xff09;3. 召回率&#xff08;Recall&#xff09;4. F1-Score5. 示例二、文本生成专用指标1. BLEU&#xff1a;机器翻译与标准化文案的“质量标尺”1.1 计算流程&#x…

团队对 DevOps 理解不统一会带来哪些问题

团队对DevOps理念与实践的理解不统一、片面甚至扭曲&#xff0c;是导致众多企业DevOps转型失败的根本原因&#xff0c;它将直接引发一系列深层次的、相互关联的严重问题。核心体现在&#xff1a;转型极易沦为“为了工具而工具”的盲目自动化&#xff0c;导致最核心的文化变革被…

企业级实战:构建基于Qt、C++与YOLOv8的模块化工业视觉检测系统(基于QWidget)

目录一、概述二、项目目标与技术架构2.1 核心目标2.2 技术选型2.3 软件架构三、AI推理DLL的开发 (Visual Studio 2019)3.1 定义DLL接口 (DetectorAPI.h)3.2 实现核心功能 (DetectorAPI.cpp)四、Qt Widget GUI应用程序的开发4.1 项目配置 (.pro 文件)4.2 UI设计 (mainwindow.ui)…

SVN自动化部署工具 脚本

SVN自动化部署工具 功能概述 这是一个自动化部署SVN仓库的bash脚本&#xff0c;主要功能包括&#xff1a; 自动安装SVN服务&#xff08;如未安装&#xff09; 创建SVN项目仓库 配置多用户权限 设置自动同步到网站目录 提供初始检出功能 下载地址 https://url07.ctfile…

Facebook主页变现功能被封?跨境玩家该如何申诉和预防

不少跨境玩家在运营Facebook公共主页时&#xff0c;最期待的就是通过变现工具获得稳定收入。但现实中&#xff0c;经常会遇到一个扎心的问题&#xff1a;主页好不容易做起来&#xff0c;却突然收到提示——“你的变现功能已被停用”。这意味着收入中断&#xff0c;甚至可能导致…

安装es、kibana、logstash

下载 elk 下载地址 elasticsearch地址: https://www.elastic.co/cn/downloads/elasticsearch kibana地址: https://www.elastic.co/cn/downloads/kibana logstash地址: https://www.elastic.co/cn/downloads/logstash 解压elk 创建es全家桶文件夹 cd /usr/local mkdir elk …

Django admin 后台开发案例【字段/图片】

这是一个简单的django admin 管理后台,这个应用案例主要是给运营人员进行填写数据 主要功能包括: 上传图片功能【选择上传时可以预览】【替换已有数据中的图片时可以预览新旧图片】 每条数据都将会记录操作历史。记录操作人是谁?修改内容是什么?并且定位责任到某一员。 …

【C++】const和static的用法

目录&#x1f680;前言&#x1f4bb;const&#xff1a;“只读”的守护者&#x1f4af;修饰普通变量&#x1f4af;修饰指针&#x1f4af;修饰函数&#x1f4af;修饰类成员&#x1f4af;修饰对象&#x1f31f;static&#xff1a;“静态存储”与“作用域控制”&#x1f4af;修饰全…

F019 vue+flask海外购商品推荐可视化分析系统一带一路【三种推荐算法】

文章结尾部分有CSDN官方提供的学长 联系方式名片 B站up&#xff1a; 麦麦大数据 关注B站&#xff0c;有好处&#xff01; 编号: F019 关键词&#xff1a;海外购 推荐系统 一带一路 python 视频 VueFlask 海外购电商大数据推荐系统源码 &#xff08;三种推荐算法 全新界面布局…

【大数据专栏】流式处理框架-Apache Fink

Apache Fink 1 前言 1.1 功能 1.2 用户 国际 国内 1.3 特点 ◆ 结合Java、Scala两种语言 ◆ 从基础到实战 ◆ 系统学习Flink的核心知识 ◆ 快速完成从入门到上手企业开发的能力提升 1.4 安排 ◆ 初识Flink ◆ 编程模型及核心概念 ◆ DataSet API编程 ◆ Data…