系列文章目录

01 初始爬虫
02 数据解析与提取


文章目录

  • 系列文章目录
  • 前言
  • 1 爬虫和Python
  • 2 爬虫的矛盾
    • 2.1 爬虫与反爬
    • 2.2 robots
      • 核心字段
      • 重要规则说明
      • 非标准扩展指令
      • 协议生效条件
      • 局限性
      • 验证工具
    • 2.3 一个爬虫demo
  • 3 Web请求与HTTP协议
    • 3.1 一个web请求的全过程
    • 3.2 判断页面源代码位置
    • 3.3 HTTP 协议
      • HTTP 请求
      • HTTP 响应
    • 3.4 requests 模块入门
  • 总结


前言

  • Datawhale是一个专注于AI与数据科学的开源组织,汇集了众多领域院校和知名企业的优秀学习者,聚合了一群有开源精神和探索精神的团队成员
  • 零基础网络爬虫技术

1 爬虫和Python

爬虫就是通过编写程序来爬取互联网上的图片、音频、视频、数据等。

  • Python 是一门上手快、语法简单的编程语言。

2 爬虫的矛盾

2.1 爬虫与反爬

  • 首先,爬虫在法律上不是被禁止的

  • 爬虫分为:

    • 善意爬虫,不破坏被爬取的网站的资源,正常访问,一般频率不高,不窃取用户隐私;
    • 恶意爬虫,影响⽹站的正常运营如抢票,秒杀,疯狂请求⽹站资源造成⽹站宕机;
  • 因此网站有了反爬机制,制定相应的策略或者技术手段,防止爬虫程序进行网站数据的爬取。

  • 爬虫程序就有了反反爬策略,制定相关的策略或者技术手段,破解网站中具备的反爬机制。

  • 最后,双方制定君子协议: robots 协议

  • 根据协议,网站管理员可以在网站域名的根目录下放一个 robots.txt 的文本文件,里面可以指定不同的网络爬虫能访问的页面和禁止访问的页面。网络爬虫在采集这个网站之前,首先获取到这个文件,然后解析到其中的规则,最后根据规则来采集网站的数据。

2.2 robots

  • robots.txt 文件由一组规则组成,每组规则以 User-agent 开头,后接允许或禁止的路径规则。

核心字段

  • User-agent :指定规则适用的爬虫名称(如 * 表示所有爬虫)。
  • Disallow :指定禁止爬虫访问的路径(路径需为绝对路径)。
  • Allow :指定允许爬虫访问的路径(某些搜索引擎支持,但非标准协议的一部分)。
  • Sitemap :告知爬虫网站的XML站点地图位置(帮助索引内容)。

重要规则说明

  • 路径匹配
    • 使用前缀匹配(如 Disallow: /admin 会禁止 /admin//admin.php 等)。
    • 支持通配符(如 * 匹配任意字符,$ 匹配路径结尾,但需搜索引擎支持)。
  • 大小写敏感 :路径区分大小写(如 /Images//images/ 是不同的)。
  • 优先级Allow 规则通常优先于 Disallow(若同时存在冲突规则)。
  • 最长匹配原则 :当多条规则冲突时,选择最长匹配的路径规则。

非标准扩展指令

部分搜索引擎支持额外指令(非协议官方标准):

  • Crawl-Delay :设置爬虫抓取间隔(如 Crawl-Delay: 10 表示每10秒请求一次)。
  • Host :指定首选域名(如 Host: www.example.com)。
  • Clean-param :声明某些参数不影响页面内容(如 Clean-param: sessionid /index.php)。

协议生效条件

  • 文件必须位于网站根目录(如 https://www.example.com/robots.txt)。
  • 文件编码需为 UTF-8 ,且无BOM头。
  • 遵循协议的爬虫会遵守规则,但恶意爬虫可能无视协议。

局限性

  • 不保证隐私robots.txt 无法阻止直接访问,敏感内容需通过身份验证或其他方式保护。
  • 动态URL处理 :无法完全阻止参数生成的动态页面被爬取。
  • 缓存延迟 :爬虫可能不会实时更新规则,需等待重新抓取。

验证工具

  • Google Search Console、Bing Webmaster Tools 提供 robots.txt 测试功能。
  • 在线工具(如 Robots.txt Checker )可验证规则是否正确。

2.3 一个爬虫demo

  • 获取百度首页

请添加图片描述


3 Web请求与HTTP协议

3.1 一个web请求的全过程

请添加图片描述

3.2 判断页面源代码位置

  • 上面是服务器渲染,即服务器直接把数据全部写入到html中。
  • 下面是客户端渲染,⼀般是第⼀次请求服务器返回⼀堆HTML框架结构。然后再次请求到真正保存数据的服务器,由这个服务器返回数据,最后在浏览器上对数据进⾏加载。

请添加图片描述

3.3 HTTP 协议

协议:就是两个计算机之间为了能够流畅的进⾏沟通⽽设置的⼀个君⼦协定。

  • 常⻅的协议有TCP/IP,SOAP协议,HTTP协议,SMTP协议等等。

HTTP协议:Hyper Text Transfer Protocol(超⽂本传输协议)的缩写,是⽤于从万维⽹(WWW:World Wide Web )服务器传输超⽂本到本地浏览器的传送协议。

HTTP 请求

  • 有三块内容:
  1. 请求⾏ -> 请求⽅式(get/post) 请求url地址 协议
  2. 请求头 -> 放⼀些服务器要使⽤的附加信息
  3. 请求体 -> ⼀般放⼀些请求参数

请求⽅式:

  • GET: 显示提交

  • POST: 隐示提交

  • 请求头中最常⻅的⼀些重要内容(爬⾍需要):

    • User-Agent:请求载体的身份标识(⽤啥发送的请求)
    • Referer:防盗链(这次请求是从哪个⻚⾯来的?反爬会⽤到)
    • cookie:本地字符串数据信息(⽤户登录信息,反爬的token)

HTTP 响应

  • 也有三块内容:
  1. 状态⾏ -> 协议 状态码
  2. 响应头 -> 放⼀些客户端要使⽤的⼀些附加信息
  3. 响应体 -> 服务器返回的真正客户端要⽤的
  • 响应头中⼀些重要的内容:
    • Content-Type:返回内容的内容类型,比如Content-Type: text/html; charset=utf-8
    • 各种神奇的莫名其妙的字符串(这个需要经验了,⼀般都是token字样,防⽌各种攻击和反爬)

3.4 requests 模块入门

  • 常⽤的抓取⻚⾯的模块通常使⽤⼀个⽐urllib还要简单的第三⽅模块requests

总结

  • Python爬虫的入门介绍。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/news/910407.shtml
繁体地址,请注明出处:http://hk.pswp.cn/news/910407.shtml
英文地址,请注明出处:http://en.pswp.cn/news/910407.shtml

如若内容造成侵权/违法违规/事实不符,请联系英文站点网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

前端面试十之vuex

Vuex 是一个专为 Vue.js 应用程序设计的状态管理模式和库,它集中管理应用的所有组件的状态,并以相应的规则保证状态以一种可预测的方式发生变化。以下是关于 Vuex 的详细介绍: 1. 核心概念 State(状态) 它是 Vuex 中存…

Django中为api自定义一些装饰器:如参数校验等

在Django中使用了rest_framework时,一般我们会定义ModelSerializer来校验request.data中参数是否存在和参数类型。 但当我们只是想简单校验一些api的url上是否存在某些参数时,该怎么办?当然我们也可以通过定义Serializer来实现,但…

uni-app项目实战笔记21--uniapp缓存的写入和读取

一、缓存的写入 uni.setStorageSync("storageClassList",classifyList.value) 二、缓存的读取,如果缓存不存在,则返回空数组 const storageClassList uni.getStorageSync("storageClassList") || []; 三、对读取到的数据进行转…

Zama密码分析资助计划

1. 引言 2025年5月,Zama团队正式启动了 Zama 密码分析资助计划(Cryptanalysis Grant Program),以支持那些致力于“破解”系统的研究人员: 无论是通过密码分析、侧信道攻击、故障注入,还是其他创新性方法。…

【数据结构与算法】数据结构初阶:详解顺序表和链表(一)

🔥个人主页:艾莉丝努力练剑 ❄专栏传送门:《C语言》、《数据结构与算法》 🍉学习方向:C/C方向 ⭐️人生格言:为天地立心,为生民立命,为往圣继绝学,为万世开太平 前言&am…

Arrays.asList() 的不可变陷阱:问题、原理与解决方案

🚨 Arrays.asList() 的不可变陷阱:问题、原理与解决方案 #Java集合 #开发陷阱 #源码解析 #编程技巧 一、问题现象:无法修改的集合 当开发者使用 Arrays.asList() 转换数组为集合时,尝试添加/删除元素会抛出异常: St…

uniapp对接融云IM即时通讯,语音消息无法播放

uniapp对接融云IM即时通讯,语音消息无法播放 问题背景解决方案1.本地音频播放2.远程音频播放 问题背景 最近使用uniapp对接融云的即时通讯sdk,发送语音消息后,本地音频(local)和远程音频(remote&#xff0…

【C++开发】CMake构建工具

目录 1,CMake介绍 2,配置文件CMakeLists.txt 1,CMake介绍 CMake 是一个开源的、跨平台的自动化构建系统生成工具,广泛用于 C 和 C 项目的构建管理。它使用一个名为 CMakeLists.txt 的配置文件来定义如何构建项目,并能…

大模型MetaGPT面试题汇总及参考答案

目录 MetaGPT 的核心目标与设计理念是什么? 它如何实现多角色协同(如 Planner、Coder、Reviewer、Tester)? 不同 agent 之间的通信机制是怎样的? MetaGPT 是如何进行任务拆分与任务分配的? 它如何实现可执行的反馈循环(self-correcting)? 在实际项目中如何监控各…

深入理解 HTTP 状态码 —— 前端后端必备知识

📚深入理解 HTTP 状态码 —— 前端后端必备知识 作者:lvzi 日期:2025 年 6 月 22 日 标签:HTTP、前端、后端、状态码、Web基础 💡引言 在 Web 开发过程中,我们经常会遇到形如 200 OK、404 Not Found、500…

Python商务数据分析——Python 入门基础知识学习笔记

一、简介 1.1 Python 特性 解释型语言:代码无需编译可直接运行,适合快速开发。 动态类型:变量类型在运行时确定(如x1后x"str"仍合法)。 面向对象:支持类、对象、继承等特性,代码可…

IT小白到高手:HCIA、HCIP、HCIE认证攻略

大家好,这里是G-LAB IT实验室。6月22日,周日!HCIA+CCNA开新班啦! 01 华为HCIA、HCIP、HCIE有必要考证吗 在如今竞争激烈的IT行业,华为的认证体系已成为众多网络工程师的重要参考。…

【IndexDB】前端IndexedDB终极指南

前端 IndexedDB 详细教程 IndexedDB 是一个浏览器内置的 NoSQL 数据库系统,允许在客户端存储大量结构化数据,并支持高性能搜索。相比 localStorage,IndexedDB 更适合存储大量数据并提供更复杂的查询功能。 基本概念 数据库:每个…

扩散模型与强化学习(1):字节Seedance中的人类偏好优化实践

扩散模型与强化学习(0):专栏汇总与导航 前言:最近强化学习在Diffusion Models得到了越来越多广泛的应用,本专栏将系统性地介绍当前Diffusion Models中实用且前沿的技术进展。这篇博客介绍字节最新的视频生成模型Seedance 1.0: Exploring the …

【内存】Linux 内核优化实战 - vm.max_map_count

目录 vm.max_map_count参数全面解析一、参数定义与核心作用二、默认值与关键调整场景1. 默认限制与不足场景2. 典型报错案例 三、操作指南:查看与修改方法四、场景化建议值与配置示例五、关键注意事项六、延伸知识:内存映射的底层逻辑 vm.max_map_count参…

组件之间的双向绑定:v-model

🤍 前端开发工程师、技术日更博主、已过CET6 🍨 阿珊和她的猫_CSDN博客专家、23年度博客之星前端领域TOP1 🕠 牛客高级专题作者、打造专栏《前端面试必备》 、《2024面试高频手撕题》、《前端求职突破计划》 🍚 蓝桥云课签约作者、…

GetX 实现 MVVM 架构, 高效 路由管理 和 状态管理

GetX是Flutter中的一个高效的状态管理与路由管理框架,结合MVVM架构能简化代码逻辑。以下是使用GetX实现MVVM架构,并完成路由和状态管理的核心思路与实践: 一、MVVM架构在GetX中的映射 MVVM(Model-View-ViewModel)与G…

Qt项目,记事本

一、项目说明 项目功能: (1)打开文件:点击打开文件按钮弹出对话框,选择文本文件后,在主窗口编辑界面显示内容。 (2)关闭文件:关闭打开的文件,并询问是否保存…

【全开源】填表问卷统计预约打卡表单系统+uniapp前端

一.系统介绍 填表问卷统计预约打卡表单系统是ThinkPHPUniApp开发的一款集信息填表、预约报名,签到打卡、活动通知、报名投票、班级统计等功能的自定义表单统计小程序。 二.搭建环境 系统环境:CentOS、 运行环境:宝塔 Linux 网站环境&…

开源 python 应用 开发(一)python、pip、pyAutogui、python opencv安装

最近有个项目需要做视觉自动化处理的工具,最后选用的软件为python,刚好这个机会进行系统学习。短时间学习,需要快速开发,所以记录要点步骤,防止忘记。 链接: 开源 python 应用 开发(一&#x…