今天我将使用Java的HttpClient(在Java 11及以上版本中内置)来编写一个入门级的网络爬虫示例。

这个示例将演示如何发送HTTP GET请求,获取响应内容,并处理可能出现的异常。

在这里插入图片描述

以下是一个基于Java HttpClient(Java 11+)的网络爬虫基础实现示例,包含详细注释和异常处理:

import java.net.URI;
import java.net.http.HttpClient;
import java.net.http.HttpRequest;
import java.net.http.HttpResponse;
import java.time.Duration;public class WebCrawlerExample {public static void main(String[] args) {// 目标URL(请替换为实际需要爬取的网站)String targetUrl = "https://example.com";try {String htmlContent = fetchHtmlContent(targetUrl);System.out.println("网页内容获取成功!");System.out.println("获取内容长度:" + htmlContent.length() + " 字符");// 这里可以添加内容解析逻辑// parseHtml(htmlContent);} catch (Exception e) {System.err.println("爬取失败: " + e.getMessage());}}/*** 使用HttpClient获取网页HTML内容* @param url 目标网址* @return 网页HTML字符串* @throws Exception 网络请求异常*/private static String fetchHtmlContent(String url) throws Exception {// 1. 创建HttpClient实例HttpClient client = HttpClient.newBuilder().version(HttpClient.Version.HTTP_2)  // 使用HTTP/2协议.connectTimeout(Duration.ofSeconds(10)) // 设置连接超时.followRedirects(HttpClient.Redirect.NORMAL) // 跟随重定向.build();// 2. 构建HTTP请求HttpRequest request = HttpRequest.newBuilder().uri(URI.create(url)).timeout(Duration.ofSeconds(15)) // 设置请求超时.header("User-Agent", "Mozilla/5.0 (compatible; MyCrawler/1.0)") // 设置UA标识.header("Accept", "text/html") // 指定接受HTML内容.GET() // GET请求.build();// 3. 发送请求并获取响应HttpResponse<String> response = client.send(request, HttpResponse.BodyHandlers.ofString());// 4. 检查HTTP状态码int statusCode = response.statusCode();if (statusCode != 200) {throw new RuntimeException("HTTP错误状态码: " + statusCode);}// 5. 返回HTML内容return response.body();}/*** (示例)HTML内容解析方法* @param html 网页HTML内容*//*private static void parseHtml(String html) {// 实际项目中可使用Jsoup等库解析HTMLSystem.out.println("解析HTML...");// 示例:简单提取标题String title = html.substring(html.indexOf("<title>") + 7, html.indexOf("</title>"));System.out.println("网页标题: " + title);}*/
}

关键组件说明:

  1. HttpClient - Java 11+ 内置的HTTP客户端

    • 支持HTTP/2和WebSocket
    • 异步/同步两种请求模式
    • 超时控制机制
  2. 请求配置

    • User-Agent:标识爬虫身份(建议遵守robots.txt规则)
    • timeout:防止长时间阻塞
    • 自动重定向处理
  3. 异常处理

    • 连接超时
    • HTTP错误状态码(非200)
    • 网络中断
    • URL格式错误
  4. 扩展建议

    // 在HttpClient构建器中可添加:
    .proxy(ProxySelector.of(new InetSocketAddress("proxy.com", 8080))) // 设置代理
    .authenticator(Authenticator.getDefault()) // 认证支持// 异步请求示例:
    client.sendAsync(request, HttpResponse.BodyHandlers.ofString()).thenApply(HttpResponse::body).thenAccept(System.out::println);
    

使用注意事项:

  1. 遵守robots.txt

    • 检查目标网站/robots.txt的爬取规则
    • 例如:https://example.com/robots.txt
  2. 频率限制

    • 在循环请求时添加延迟:
    Thread.sleep(1000); // 每次请求间隔1秒
    
  3. 内容解析

    • 建议使用Jsoup库解析HTML:
    Document doc = Jsoup.parse(html);
    Elements links = doc.select("a[href]");
    
  4. 错误重试

    int retry = 0;
    while (retry < 3) {try {// 请求代码...break; // 成功则跳出循环} catch (Exception e) {retry++;Thread.sleep(2000); // 等待后重试}
    }
    

完整项目建议添加:

  • 用户代理轮换
  • IP代理池
  • 分布式爬取
  • 数据存储模块

以上就是今天我要说简单的入门级爬虫教程,总体的思路是这样,具体操作还得根据项目网站实际情况来做具体的部署,如果大家有啥疑问可以留言讨论。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/pingmian/84153.shtml
繁体地址,请注明出处:http://hk.pswp.cn/pingmian/84153.shtml
英文地址,请注明出处:http://en.pswp.cn/pingmian/84153.shtml

如若内容造成侵权/违法违规/事实不符,请联系英文站点网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

图表类系列各种样式PPT模版分享

图标图表系列PPT模版&#xff0c;柱状图PPT模版&#xff0c;线状图PPT模版&#xff0c;折线图PPT模版&#xff0c;饼状图PPT模版&#xff0c;雷达图PPT模版&#xff0c;树状图PPT模版 图表类系列各种样式PPT模版分享&#xff1a;图表系列PPT模板https://pan.quark.cn/s/20d40aa…

Sonic EVM L1:沉睡的雄狮已苏醒

Sonic 链 , 是 Fantom 基金会升级后的Layer-1区块链&#xff0c;继承了 Fantom Opera 的高性能特性&#xff0c;并通过全面技术优化成为EVM兼容的高吞吐量公链。 官方网站 : https://www.soniclabs.com 一、Sonic 链概述 1. 为什么从 Fantom 更名为 Sonic Sonic 链是 Fant…

篮球杯软件赛国赛C/C++ 大学 B 组补题

3.gcd 模拟 map<pair<int,int>,int>m; void solve(){int n;cin>>n;forr(i,1,n){int ux,uy,vx,vy;cin>>ux>>uy>>vx>>vy;int dxvx-ux,dyvy-uy;if(dx!0&&dy!0){int gabs(__gcd(dx,dy));dx/g,dy/g;//dxdy中除去公共部分(gcd) 就…

技术栈RabbitMq的介绍和使用

目录 1. 什么是消息队列&#xff1f;2. 消息队列的优点3. RabbitMQ 消息队列概述4. RabbitMQ 安装5. Exchange 四种类型5.1 direct 精准匹配5.2 fanout 广播5.3 topic 正则匹配 6. RabbitMQ 队列模式6.1 简单队列模式6.2 工作队列模式6.3 发布/订阅模式6.4 路由模式6.5 主题模式…

项目部署到Linux上时遇到的错误(Redis,MySQL,无法正确连接,地址占用问题)

Redis无法正确连接 在运行jar包时出现了这样的错误 查询得知问题核心在于Redis连接失败&#xff0c;具体原因是客户端发送了密码认证请求&#xff0c;但Redis服务器未设置密码 1.为Redis设置密码&#xff08;匹配客户端配置&#xff09; 步骤&#xff1a; 1&#xff09;.修…

Linux边缘智能:物联网的终极进化

Linux边缘智能&#xff1a;物联网的终极进化 从数据中心到万物终端的智能革命 引言&#xff1a;边缘计算的范式转变 随着物联网设备的爆炸式增长&#xff0c;传统的云计算架构已无法满足实时性、隐私保护和带宽效率的需求。边缘智能应运而生&#xff0c;将计算能力从云端下沉到…

Linux Shell 中的 dash 符号 “-”

Shell中的-&#xff1a;小符号的大智慧 在Unix/Linux系统中&#xff0c;-符号是一个约定俗成的特殊标记&#xff0c;它表示命令应该使用标准输入或标准输出而非文件。这个看似简单的短横线&#xff0c;完美诠释了Unix"一切皆文件"的设计哲学。 作为标准输入/输出的…

JMeter 实现 MQTT 协议压力测试 !

想象一下&#xff0c;你的智能家居系统连接了上千个设备&#xff0c;传感器数据通过 MQTT 协议飞速传输&#xff0c;但突然服务器崩溃&#xff0c;灯光、空调全失控&#xff01;如何确保你的 MQTT 经纪人能承受高负载&#xff1f;答案是 JMeter&#xff01;通过安装 MQTT 插件&…

CKA考试知识点分享(6)---PriorityClass

CKA 版本&#xff1a;1.32 第六套题是涉及PriorityClass相关。 注意&#xff1a;本文不是题目&#xff0c;只是为了学习相关知识点做的实验。仅供参考 实验目的 创建一套PriorityClass &#xff0c;验证PriorityClass的运作策略。 1 环境准备 创建2个pc&#xff0c;一个为高…

暴力破解篇补充-字典

在皮卡丘靶场的第二期&#xff0c;暴力破解模块中&#xff0c;我相信大家短暂的接触了字典这个概念&#xff0c;字典事实上就是包含了大量弱口令的txt文本文件 所以这篇文章用于分享一些字典&#xff1a;https://wwhc.lanzoue.com/ihdl12ybhbhi&#xff08;弱口令字典&#xff…

关于VS2022中C++导入第三方库的方式

首先&#xff0c;新建一个Cpp项目(控制台项目即可&#xff0c;其他项目也无所谓)&#xff0c;右键点击项目名称(Test1)选择属性或者在VS2022工具栏选择调试标签->属性按钮打开属性页。 注意点: 在开始其他操作前请注意先进行 配置和平台选项框的选择。配置选框选定了是配置…

C++中vector类型的介绍和使用

文章目录 一、vector 类型的简介1.1 基本介绍1.2 常见用法示例1.3 常见成员函数简表 二、vector 数据的插入2.1 push_back() —— 在尾部插入一个元素2.2 emplace_back() —— 在尾部“就地”构造对象2.3 insert() —— 在任意位置插入一个或多个元素2.4 emplace() —— 在任意…

在Vue或React项目中使用Tailwind CSS实现暗黑模式切换:从系统适配到手动控制

在现代Web开发中&#xff0c;暗黑模式(Dark Mode)已成为提升用户体验的重要功能。本文将带你使用Tailwind CSS在React项目(Vue项目类似)中实现两种暗黑模式控制方式&#xff1a; 系统自动适配 - 根据用户设备偏好自动切换手动切换 - 通过按钮让用户自由选择 一、项目准备 使…

Linux C语言网络编程详细入门教程:如何一步步实现TCP服务端与客户端通信

文章目录 Linux C语言网络编程详细入门教程&#xff1a;如何一步步实现TCP服务端与客户端通信前言一、网络通信基础概念二、服务端与客户端的完整流程图解三、每一步的详细讲解和代码示例1. 创建Socket&#xff08;服务端和客户端都要&#xff09;2. 绑定本地地址和端口&#x…

Tomcat 安装和配置

一、Tomcat官网 Apache Tomcat - Welcome! 选择解压到任意一个盘&#xff01;&#xff01; 二、Tomcat配置 1&#xff09;在系统变量处新建一个变量CATALINA_HOME。CATALINA_HOME环境变量的值&#xff0c;设置为Tomcat的解压安装目录 2&#xff09;找到系统变量Path&#xff0…

动态规划 熟悉30题 ---上

本来是要写那个二维动态规划嘛&#xff0c;但是我今天在问题时候&#xff0c;一个大佬就把他初一时候教练让他练dp的30题发出来了&#xff08;初一&#xff0c;啊虽然知道计算机这一专业&#xff0c;很多人从小就学了&#xff0c;但是我每次看到一些大佬从小学还是会很羡慕吧或…

基于stm32F10x 系列微控制器的智能电子琴(附完整项目源码、详细接线及讲解视频)

注&#xff1a;成品使用演示、项目源码、项目文档在文章末尾网盘链接中自取 所用硬件&#xff1a;STM32F103C8T6、无源蜂鸣器、44矩阵键盘、flash存储模块、OLED显示屏、RGB三色灯、面包板、杜邦线、usb转ttl串口 stm32f103c8t6 面包板 …

时间同步技术在电力系统中的应用

随着电力自动化技术的发展&#xff0c;时间同步不仅可以为电力系统的事后故障分析提供支持&#xff0c;而且已经参与到电力系统的实时控制中来&#xff0c;其可靠性对电力系统的稳定运行影响越来越大。在电力系统中&#xff0c;时间同步技术广泛应用于调度控制中心、发电厂、变…

XMLGregorianCalendar跟Date、localDateTime以及String有什么区别

1. java.util.Date&#xff08;已过时&#xff0c;不推荐新代码使用&#xff09; 特点 表示时间戳&#xff1a;存储自 1970-01-01 00:00:00 UTC&#xff08;Unix 纪元&#xff09; 以来的毫秒数。 问题&#xff1a; 不区分日期和时间&#xff0c;也没有时区支持&#xff08;依…

Python网页自动化Selenium中文文档

1. 安装 1.1. 安装 Selenium Python bindings 提供了一个简单的API&#xff0c;让你使用Selenium WebDriver来编写功能/校验测试。 通过Selenium Python的API&#xff0c;你可以非常直观的使用Selenium WebDriver的所有功能。 Selenium Python bindings 使用非常简洁方便的A…