使用Selenium来抓取动态网页。动态网页通常是指那些通过JavaScript动态加载内容的网页,这些内容在初始HTML中并不存在,因此使用传统的requests库无法获取到这些动态生成的内容。Selenium可以模拟浏览器行为,等待JavaScript执行并渲染页面,从而获取到完整的页面内容。

在这里插入图片描述

下面是一个使用 Selenium 编写的动态网页爬虫示例,用于抓取京东商品搜索页面的信息(商品名称和价格),并附有详细注释:

from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
import time# 设置 Chrome 浏览器选项
chrome_options = Options()
chrome_options.add_argument('--headless')  # 无头模式,不显示浏览器窗口
chrome_options.add_argument('--disable-gpu')  # 禁用GPU加速
chrome_options.add_argument('--no-sandbox')  # Linux 系统需要添加此参数# 创建 WebDriver 服务 (需要下载对应版本的 chromedriver)
service = Service(executable_path='./chromedriver')  # 替换为你的 chromedriver 路径# 初始化浏览器驱动
driver = webdriver.Chrome(service=service, options=chrome_options)try:# 1. 打开目标网页driver.get('https://search.jd.com/Search?keyword=手机')print("已打开京东搜索页面...")# 2. 等待页面加载 - 显式等待(推荐)# 等待直到商品列表元素出现(最长等待10秒)WebDriverWait(driver, 10).until(EC.presence_of_element_located((By.CSS_SELECTOR, ".gl-item")))print("商品列表加载完成!")# 3. 模拟滚动页面以加载更多内容(针对懒加载页面)# 动态页面通常需要滚动才能加载更多元素for i in range(3):  # 滚动3次driver.execute_script("window.scrollTo(0, document.body.scrollHeight);")print(f"滚动页面 {i+1}/3...")time.sleep(1.5)  # 等待新内容加载# 4. 定位所有商品元素# 使用 CSS 选择器获取商品列表项items = driver.find_elements(By.CSS_SELECTOR, '.gl-item')print(f"共找到 {len(items)} 个商品")# 5. 遍历并提取数据results = []for item in items:try:# 在单个商品元素内查找名称和价格name = item.find_element(By.CSS_SELECTOR, '.p-name em').text.strip()price = item.find_element(By.CSS_SELECTOR, '.p-price i').text.strip()results.append({'name': name, 'price': price})except Exception as e:print(f"提取商品时出错: {str(e)}")continue# 6. 打印抓取结果print("\n抓取结果:")for i, result in enumerate(results[:5], 1):  # 只打印前5个结果print(f"{i}. {result['name']} - 价格: {result['price']}")print(f"\n共抓取 {len(results)} 条商品数据")except Exception as e:print(f"爬虫执行出错: {str(e)}")finally:# 7. 关闭浏览器driver.quit()print("浏览器已关闭")

代码详细解释:

1、导入必要模块

  • webdriver:控制浏览器
  • By:元素定位方式
  • WebDriverWaitexpected_conditions:显式等待
  • Options:浏览器配置选项

2、浏览器设置

  • headless 模式:后台运行不显示界面
  • 禁用 GPU 和沙盒模式:提高稳定性和兼容性

3、、初始化驱动

  • 需要下载对应 Chrome 版本的 chromedriver
  • 指定 driver 路径和服务

4、页面加载等待

  • 使用显式等待(WebDriverWait)确保目标元素加载完成
  • time.sleep() 更高效智能

5、模拟滚动

  • 执行 JavaScript 滚动到底部
  • 分次滚动并等待加载(针对懒加载页面)

6、元素定位

  • 使用 CSS 选择器定位商品列表项
  • 在单个商品元素内进一步提取名称和价格

7、异常处理

  • 捕获单个商品提取时的异常
  • 整体爬虫的异常捕获

8、资源清理

  • finally 块确保关闭浏览器释放资源

使用前准备:

1、安装必要库:

pip install selenium webdriver-manager

2、下载对应浏览器版本的驱动:

  • Chrome:https://chromedriver.chromium.org/downloads

  • 或使用 webdriver-manager 自动管理:

    from webdriver_manager.chrome import ChromeDriverManager
    service = Service(ChromeDriverManager().install())
    

常见问题解决:

1、元素定位失败

  • 检查网页结构是否更新
  • 使用浏览器开发者工具验证选择器

2、内容加载不全

  • 增加滚动次数和等待时间
  • 调整显式等待超时时间

3、反爬措施应对

  • 添加 user-agent 头:

    chrome_options.add_argument('user-agent=Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36')
    
  • 添加代理:

    chrome_options.add_argument('--proxy-server=http://your-proxy-ip:port')
    

这个爬虫可以扩展用于其他动态网站,只需修改:目标 URL、元素定位选择器、滚动/等待策略、数据提取逻辑等就能实现一个完整的爬虫过程。如有不懂可以留言讨论。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/pingmian/89024.shtml
繁体地址,请注明出处:http://hk.pswp.cn/pingmian/89024.shtml
英文地址,请注明出处:http://en.pswp.cn/pingmian/89024.shtml

如若内容造成侵权/违法违规/事实不符,请联系英文站点网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

element el-table中使用el-image图片预览被其他表格遮挡

或者::v-deep .el-table__cell {position: static !important;}

MyBatis与Spring整合优化实战指南:从配置到性能调优

一、SqlSessionFactory配置最佳实践 1.1 数据源配置优化 <!-- Spring配置示例 --> <bean id"dataSource" class"com.zaxxer.hikari.HikariDataSource" destroy-method"close"><property name"driverClassName" value&q…

LUA(初学)

条件语句if if then endlocal a 2 if a < 6 thenprint(a) end2条件语句if else if then else endlocal a 2 local b 3 if a > 6 thenprint(a) elseprint(b) end3while循环语句 while do endlocal a 2 while a < 5 doa a 1print(a) end3 4 5for循环语句 for do …

JMeter 连接与配置 ClickHouse 数据库

其他人都需要好几十积分提供jar包&#xff0c;我5积分提供给大家 jar包地址&#xff1a;https://download.csdn.net/download/weixin_41853064/91370401 1、将jar包内的文件放入jmeter/lib/exc目录并重启jmeter 2、配置jmeter JDBC连接 3、复制 click hourse的类名&#xff1…

Kmeams聚类算法详解

文章目录一、聚类任务的简介1.1 聚类的核心特征1.2 聚类的典型应用场景二、Kmeans的思想和数学原理2.1 核心思想2.2 数学原理三、Kmeans计算过程示例3.1 数据集3.2 步骤1&#xff1a;确定K值并初始化簇中心3.3 步骤2&#xff1a;计算样本到簇中心的距离并分配簇3.4 步骤3&#…

平升智慧水务整体解决方案,大数据驱动的智慧水务,让城市供水更智能

平升电子智慧水务整体解决方案 智慧供水整体解决方案&#xff0c;在调度中心搭建智慧水务平台&#xff0c;为供水各环节安装智能测控设备&#xff0c;应用物联网、互联网、大数据、云计算、人工智能等新一代信息技术&#xff0c;构建智慧水务综合管理系统&#xff0c;贯穿从水源…

Samba配置使用

主要作用&#xff1a;将Linux系统中的文件共享给windows配置过程&#xff1a;&#xff08;1&#xff09;打开命令终端&#xff1a;获取超级用户权限后运行以下指令:apt-get install samba&#xff08;2&#xff09;修改samba配置文件&#xff1a;gedit /etc/samba/smb.conf :找…

Datawhale AI数据分析 笔记

Part1&#xff1a;数据分析入门--信息统计知识点&#xff1a;什么是提示词&#xff08;Prompt&#xff09;&#xff1f;在人工智能&#xff08;AI&#xff09;领域&#xff0c;"提示词"是一个关键概念&#xff0c;它指的是输入给AI模型的文本或指令&#xff0c;用于引…

JAVA青企码协会模式系统源码支持微信公众号+微信小程序+H5+APP

Java青企码协会系统源码&#xff1a;构建全渠道数字化管理平台&#xff08;多端融合精准服务&#xff09;在政策红利与数字化转型的双重驱动下&#xff0c;青年企业协会正面临资源对接低效、会员粘性不足、跨域协同困难等痛点。基于Java技术栈的青企码协会系统&#xff0c;通过…

Python 中调用阿里云 OCR(Optical Character Recognition,光学字符识别)服务

在 Python 中调用阿里云 OCR&#xff08;Optical Character Recognition&#xff0c;光学字符识别&#xff09;服务&#xff0c;通常需要使用阿里云的 SDK。OCR 服务属于阿里云“视觉智能&#xff08;Vision Intelligence&#xff09;”产品线的一部分&#xff0c;调用时需通过…

网络基础协议综合实验

本文结合所学的一些基础网络协议来完成一个综合性的实验&#xff08;实验完整代码放在最后&#xff09;会先说明使用协议的原理&#xff0c;然后分析具体在拓补图中的应用过程&#xff0c;最后再给出配置明确实验目标&#xff1a;拓扑分 核心层&#xff08;R1&#xff09;、汇聚…

图机器学习(5)——无监督图学习与浅层嵌入方法

图机器学习&#xff08;5&#xff09;——无监督图学习0. 前言1. 无监督图嵌入2. 矩阵分解2.1 图分解2.2 高阶邻接保留嵌入2.3 带有全局结构信息的图表示3. skip-gram 模型3.1 DeepWalk3.2 Node2Vec3.3 Edge2Vec3.4 Graph2Vec0. 前言 无监督机器学习是指训练过程中不利用任何目…

lua中检查静态常量是否正确引用

lua中检查静态常量是否正确引用思路代码因在项目开发中会出现引用了不存在的常量&#xff0c;为了方便检查这种情况&#xff0c;所以想着添加针对性脚本check 思路 加载要检查的常量结构到KEYWORD通过gmatch匹配指定路径下的所有文件&#xff0c;依次检查引用到目标变量的key是…

考完数通,能转云计算/安全方向吗?转型路径与拓展路线分析

不少网工考完 HCIE数通 后&#xff0c;都会面临一个现实问题&#xff1a;“能不能往云计算、安全这些热门方向转&#xff1f;”可以&#xff0c;而且非常值得。但怎么转、学什么、有没有路线图&#xff0c;是关键。一、为什么考完HCIE数通后适合转方向&#xff1f;技术基础扎实…

2.逻辑回归、Softmax回归——鸢尾花大作战

逻辑回归 逻辑回归其实并不是回归&#xff0c;而是一个分类算法 分类问题&#xff1a;邮件分类、图像识别、疾病诊断、文字情感分析、金融欺诈检测 根据历史数据&#xff0c;预测样本是属于哪个类别&#xff0c;通过数据拟合分界 主要用于二分类任务 逻辑回归公式 事实上是在多…

【Lucene/Elasticsearch】**Query Rewrite** 机制

这段话描述的是 Lucene/Elasticsearch 的 **Query Rewrite** 机制&#xff0c;核心一句话&#xff1a;> **把“高级”或“逻辑”查询&#xff08;如 PrefixQuery、WildcardQuery、RangeQuery&#xff09;在真正执行前&#xff0c;拆成最底层的、可直接倒排索引查的“原子查询…

小智完整MCP交互流程(以调节音量为例)

1. 初始化阶段 - MCP工具注册 在 mcp_server.cc 中&#xff0c;音量控制工具在 AddCommonTools() 中注册&#xff1a; AddTool("self.audio_speaker.set_volume", "Set the volume of the audio speaker. If the current volume is unknown, you must call self…

极狐GitLab CEO 柳钢——极狐 GitLab 打造中国企业专属 AI 编程平台,引领编程新潮流

当下&#xff0c;AI 编程已成为人工智能大模型领域的耀眼明星&#xff0c;是公认的最好应用领域之一。其发展速度惊人&#xff0c;从最初简单的代码建议、代码补全等基础智能功能&#xff0c;一路高歌猛进&#xff0c;如今已涵盖智能单元测试、智能代码审核、智能体编程、代码仓…

tiktok 弹幕 逆向分析

声明: 本文章中所有内容仅供学习交流使用&#xff0c;不用于其他任何目的&#xff0c;抓包内容、敏感网址、数据接口等均已做脱敏处理&#xff0c;严禁用于商业用途和非法用途&#xff0c;否则由此产生的一切后果均与作者无关&#xff01; 逆向分析部分python代码部分python代码…

Java学习打卡22(JAVA中的错误Error和异常Exception)

异常&#xff08; Exception &#xff09;&#xff1a;软件程序在运行过程中&#xff0c;出现的不期而至的各种情况&#xff0c;如&#xff1a;文件找不到、网络连接失败、非法参数等。要理解JAVA异常处理是如何工作的&#xff0c;需要掌握以下三种类型的异常&#xff1a;检查性…