Scala 可以轻松实现简单的数据采集任务,结合 Akka HTTP(高效HTTP客户端)和 Jsoup(HTML解析库)是常见方案。Scala因为受众比较少,而且随着这两年python的热门语言,更让Scala不为人知,今天我将结合我所学的知识实现一个简单的Scala爬虫代码示例。

在这里插入图片描述

以下就是我整理的一个完整示例,演示如何抓取网页标题和链接:

示例代码

import akka.actor.ActorSystem
import akka.http.scaladsl.Http
import akka.http.scaladsl.model._
import akka.stream.scaladsl._
import org.jsoup.Jsoup
import scala.concurrent._
import scala.util.{Success, Failure}object WebScraper {// sbt依赖配置(build.sbt):// libraryDependencies ++= Seq(//   "com.typesafe.akka" %% "akka-http" % "10.5.0",//   "com.typesafe.akka" %% "akka-stream" % "2.8.0",//   "org.jsoup" % "jsoup" % "1.16.1"// )def main(args: Array[String]): Unit = {// 目标网站(示例:Scala官网)val targetUrl = "https://www.scala-lang.org/"// 创建Actor系统(Akka基础组件)implicit val system: ActorSystem = ActorSystem("WebScraper")import system.dispatcher  // 线程池// 1. 发送HTTP GET请求val responseFuture: Future[HttpResponse] = Http().singleRequest(HttpRequest(uri = targetUrl))// 2. 处理响应:提取HTML -> 解析数据responseFuture.flatMap { response =>response.status match {case StatusCodes.OK =>// 将响应体转为字符串val htmlString = response.entity.toStrict(5.seconds).map(_.data.utf8String)htmlString.map { html =>// 3. 使用Jsoup解析HTMLval doc = Jsoup.parse(html)// 提取页面标题val title = doc.title()println(s"网页标题: $title\n")// 提取所有链接 (示例:打印前5个)val links = doc.select("a[href]")println(s"发现 ${links.size()} 个链接,示例:")links.stream().limit(5).forEach { link =>val href = link.attr("abs:href")  // 获取绝对URLval text = link.text().trim.take(30)  // 截取部分文本println(s"- [$text] -> $href")}}case _ =>Future.failed(new RuntimeException(s"请求失败: ${response.status}"))}}.onComplete {// 4. 处理最终结果case Success(_) =>println("\n数据采集完成!")system.terminate()  // 关闭Actor系统case Failure(ex) =>println(s"发生错误: ${ex.getMessage}")system.terminate()}}
}

关键步骤解析

1、发送HTTP请求

  • 使用 akka.http.scaladsl.Http().singleRequest() 发送GET请求
  • 支持异步非阻塞IO,适合高并发采集

2、处理响应

  • 检查HTTP状态码(仅处理200 OK)
  • 将响应实体转换为字符串(data.utf8String

3、解析HTML

  • Jsoup 提供类似jQuery的DOM操作:
    • doc.title() 获取页面标题
    • doc.select("a[href]") 选择所有带链接的<a>标签
    • attr("abs:href") 获取绝对URL(避免相对路径问题)

4、资源清理

  • 完成后调用 system.terminate() 关闭Actor系统

扩展建议

  • 并发采集:结合 SourceFlow 实现多URL并行处理
  • 错误处理:添加重试机制(使用 akka.pattern.retry
  • 数据存储:将结果写入文件(scala.util.Using)或数据库
  • 动态内容:如需执行JavaScript,可集成 Selenium 或 Playwright

执行前准备

1、在 build.sbt 中添加依赖:

libraryDependencies ++= Seq("com.typesafe.akka" %% "akka-http" % "10.5.0","com.typesafe.akka" %% "akka-stream" % "2.8.0",  // Akka 2.6+ 兼容"org.jsoup" % "jsoup" % "1.16.1"
)

2、运行程序(支持 Scala 2.13/3.x)

以上就是全部的内容,总体来说步骤还是很详细的,对于小型爬虫还是非常适合的。如果任何问题都可以这里留言一起讨论。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/diannao/90499.shtml
繁体地址,请注明出处:http://hk.pswp.cn/diannao/90499.shtml
英文地址,请注明出处:http://en.pswp.cn/diannao/90499.shtml

如若内容造成侵权/违法违规/事实不符,请联系英文站点网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【IO复用】五种IO模型

文章目录五种IO模型Linux设计哲学BIONIOAIOSIOIO多路复用五种IO模型 Linux设计哲学 在linux系统中&#xff0c;实际上所有的I/O设备都被抽象为了文件这个概念&#xff0c;一切皆文件&#xff0c;磁盘、网络数据、终端&#xff0c;甚至进程间通信工具管道pipe等都被当做文件对…

FeatherScan v4.0 – 适用于Linux的全自动内网信息收集工具

前言 在平时渗透打靶的时候&#xff0c;经常要自己手工输入命令&#xff0c;做各种基本的信息收集&#xff0c;非常的繁琐&#xff0c;所以自研了一款工具&#xff0c;这款工具没有接入AI&#xff0c;因为不合适&#xff0c;接入了AI的话在一些不能上网的环境下进行信息收集&a…

如何精准筛选优质SEO服务资源?

核心要点&#xff1a; 中小企业选择SEO服务常陷困惑——效果难量化、承诺不透明、策略模糊化。本文剖析核心痛点&#xff0c;拆解技术合规性、策略透明度、行业经验匹配度等关键筛选维度&#xff0c;提供一套清晰的评估路径&#xff0c;助您在复杂市场中找到真正专业的合作伙伴…

在教育领域中,如何通过用户ID跑马灯来对视频进行加密?

文章目录前言一、什么是用户跑马灯二、用代码如何实现用户ID跑马灯的功能三、如何通过用户ID跑马灯来对视频进行加密&#xff1f;总结前言 在教育领域&#xff0c;优质视频课程易遭非法传播。为强化版权保护与责任追溯&#xff0c;引入基于用户ID的跑马灯水印技术成为有效手段…

MCP协议:AI时代的“万能插座”如何重构IT生态与未来

MCP协议&#xff1a;AI时代的“万能插座”如何重构IT生态与未来 在人工智能技术爆炸式发展的浪潮中&#xff0c;一个名为Model Context Protocol&#xff08;MCP&#xff09; 的技术协议正以惊人的速度重塑IT行业的底层逻辑。2024年11月由Anthropic首次发布&#xff0c;MCP在短…

同步,异步复位问题

1.同步复位的基本原理是&#xff0c;复位信号仅在时钟的有效边沿影响或重置触发器的状态。复位的主要目标之一是使 ASIC 在仿真时进入已知状态。由于复位树的扇出较大&#xff0c;复位信号相对于时钟周期可能成为 “晚到信号”。即使复位信号会通过复位缓冲树进行缓冲&#xff…

数组和指针回顾,练习与解析

代码见&#xff1a;登录 - Gitee.com 1.数组和指针练习与解析 1.1数组名 1.sizeof(数组名)&#xff0c;这里的数组名表示整个数组&#xff0c;计算的是整个数组的大小。 2.&数组名&#xff0c;这里的数组名表示整个数组&#xff0c;取出的是整个数组的地址。 3.除此之…

【牛客刷题】活动安排

文章目录一、题目介绍二、解题思路2.1 核心问题2.2 贪心策略2.3 正确性证明三、算法分析3.1 为什么按结束时间排序&#xff1f;3.2 复杂度分析3.3 算法流程图解3.3.1 流程图说明3.3.2 关键步骤说明四、模拟演练五、完整代码一、题目介绍 活动安排 题目描述 给定 nnn 个活动&am…

第1讲:C语言常见概念

目录 一、什么是C语言&#xff1f; 二、C语言的历史与成就 三、编译器选择&#xff08;VS2022&#xff09; 1、编译与链接 2、编译器对比 3、VS2022的优缺点 四、VS项目与源文件、头文件介绍 五、第一个C语言程序 六、main函数 七、printf和库函数 八、关键字介绍 …

WinUI3入门18:从APP打开商店链接以及实现内购

初级代码游戏的专栏介绍与文章目录-CSDN博客 我的github&#xff1a;codetoys&#xff0c;所有代码都将会位于ctfc库中。已经放入库中我会指出在库中的位置。 这些代码大部分以Linux为目标但部分代码是纯C的&#xff0c;可以在任何平台上使用。 源码指引&#xff1a;github源…

BI布局拖拽 (1) 深入react-gird-layout源码

因为有个拖拉拽的需求&#xff0c;类似于quickBi那样的效果。在网上调研了一下发现react-grid-layout实现效果类似&#xff0c;但其也有局限性&#xff0c;比如不支持嵌套&#xff0c;不支持在多个gridLyaout之间互相拖拽。 要求&#xff1a;基于react-grid-layout的思路&#…

CentOS环境搭建-快速升级G++版本

在CentOS环境中快速升级G编译器版本&#xff0c;对于追求最新语言特性的开发者来说至关重要。由于CentOS默认的软件仓库可能不提供G的最新版本&#xff0c;我们通常需要借助第三方软件源&#xff0c;如Developer Toolset或使用Spack等包管理器来完成这一任务。下面将详细介绍两…

分布式接口幂等性的演进和最佳实践,含springBoot 实现(Java版本)

一、背景&#xff1a;为什么需要幂等性 在微服务、分布式架构下&#xff0c;网络不可靠、请求重试机制&#xff08;如前端超时重发、客户端重发、网关重试、消息消费失败重试等&#xff09;会带来重复请求&#xff0c;如果接口没有幂等性&#xff0c;可能导致&#xff1a; 重复…

OGRE 3D----6. 背景图片渲染实现详解

1. 背景图片渲染原理 1.1 渲染队列机制 Ogre3D 使用渲染队列(Render Queue)来控制对象的渲染顺序。背景图片需要在所有其他对象之前渲染,因此我们将其设置为 RENDER_QUEUE_BACKGROUND。 1.2 视图变换控制 为了让背景图片始终保持在场景的最远处,我们需要: 使用单位投影…

K线连续涨跌统计与分析工具

K线连续涨跌统计与分析工具 1. 概述 本工具是一个用于分析金融时间序列数据(特别是K线数据)的Python脚本,主要功能是统计连续n根同方向K线后,第n+1根K线的涨跌情况。该工具不仅提供统计分析功能,还支持图形化标记以验证结果,帮助交易者和量化分析师识别市场中的特定模式…

jQuery EasyUI 简介

jQuery EasyUI 简介 引言 随着互联网技术的飞速发展,前端开发变得越来越重要。jQuery EasyUI 作为一款流行的前端UI框架,极大地简化了前端开发的工作流程,提高了开发效率。本文将详细介绍 jQuery EasyUI 的起源、特点、使用方法以及在实际项目中的应用。 一、jQuery Easy…

《测试开发:从技术角度提升测试效率与质量》

测试开发的核心工作内容与职责解析 一、测试开发的定位与核心价值 测试开发&#xff08;Test Development&#xff0c;简称 TestDev 或 SDET&#xff09;是融合软件开发能力与测试工程思维的复合型岗位&#xff0c;不同于传统测试工程师&#xff0c;其核心目标是通过技术手段提…

20250710解决KickPi的K7开发板刷机之后出现DDR异常:ch:1 dq0 fail,write:0x1,read:0x20300

20250710解决KickPi的K7开发板刷机之后出现DDR异常&#xff1a;ch:1 dq0 fail,write:0x1,read:0x20300 2025/7/10 20:36[BEGIN] 2025/7/10 19:29:03 /DDR 2f85f4b2d4 cym 25/03/04-14:38.55,fwver: v1.09 In ch0 ttot10 ch0 ttot10 ch1 ttot10 ch0 ttot18 LPDDR4, 2112MHz chan…

Ansible:强大的自动部署工具

文章目录零、Ansible介绍一、安装 ansible二、配置SSH密钥1.检查密钥是否存在2.两边的机器要互相有对方的密钥三、自动部署1.传输文件(1)inventory.ini(2)sync_blt.yml(3)执行命令2.安装软件(1)inventory.ini(2)install_efvs.yml(3)执行命令零、Ansible介绍 Ansible 是一个开源…

Nacos的基本功能以及使用Feign进行微服务间的通信

Nacos是Dynamic Naming and Configuration Service的缩写。What’s Nacos? 下面结合SpringBoot项目&#xff0c;为你介绍Nacos的基本功能以及如何使用Feign进行微服务间的通信。 一、Nacos的基本功能 Nacos是阿里巴巴开源的一个更易于构建云原生应用的动态服务发现、配置管…