一、Selenium 库核心认知

Selenium 库是 Web 应用程序测试与自动化操作的利器 ,能驱动浏览器(如 Edge、Firefox 等)执行点击、输入、打开、验证等操作 。与 Requests 库差异显著:Requests 库仅能获取网页原始代码,而 Selenium 基于浏览器驱动程序工作,浏览器可渲染网页源代码,借此能轻松拿到渲染后的数据信息(如 JS 动态加载内容 ),完美解决 Requests 库无法处理的动态页面数据提取难题。

二、使用 Selenium 库前的准备

(一)安装 WebDriver

浏览器依托内核(如 Edge 浏览器基于 Chromium 内核 )运行,Selenium 驱动浏览器需对应内核的 WebDriver 。以 Edge 浏览器为例:

  1. 确定浏览器内核版本:打开 Edge 浏览器,在设置 - 关于 Microsoft Edge 中查看版本。
  2. 下载匹配的 EdgeDriver:访问微软官方 EdgeDriver 下载页(Microsoft Edge WebDriver | Microsoft Edge Developer ),选择与浏览器版本适配的 EdgeDriver(版本尽量贴近 )。
  3. 配置驱动程序:解压下载的 EdgeDriver,将 msedgedriver.exe(Windows 系统 )移动到 Python 安装目录的 Scripts 文件夹(通过 where python(Windows)或 which python3(macOS/Linux )命令查找 Python 路径 ),完成环境关联。

(二)安装 Selenium 库

在命令提示符(Windows)或终端(macOS/Linux )执行:

pip install selenium 

 

安装后,用 pip show selenium 查看库信息,确认安装成功。

三、驱动浏览器(以 Edge 为例 )

Selenium 支持多种浏览器,驱动 Edge 浏览器代码如下:

from selenium import webdriver  
from selenium.webdriver.edge.options import Options  # 创建浏览器配置对象
edge_options = Options()  
# 绑定 Edge 浏览器可执行文件路径(需替换为你电脑中 Edge 的实际安装路径)
edge_options.binary_location = r"C:\Program Files (x86)\Microsoft\Edge\Application\msedge.exe"  
# 初始化 Edge 浏览器驱动,通过配置对象关联浏览器
driver = webdriver.Edge(options=edge_options)  

四、加载网页

(一)get() 方法加载单网页

get(url) 可在当前浏览器会话打开指定网页,示例:

from selenium import webdriver  
from selenium.webdriver.edge.options import Options  edge_options = Options()  
edge_options.binary_location = r"C:\Program Files (x86)\Microsoft\Edge\Application\msedge.exe"  
driver = webdriver.Edge(options=edge_options)  
# 加载人民邮电出版社官网期刊页
driver.get('https://www.ptpress.com.cn/periodical')  

执行后,Edge 浏览器自动启动并打开目标网页,用于后续数据提取、交互操作。

(二)execute_script() 方法打开多标签页

该方法通过执行 JavaScript 脚本,在同一浏览器打开多个标签页,格式:execute_script(script, *args) ,script 为 JavaScript 脚本字符串。示例:

from selenium import webdriver  
from selenium.webdriver.edge.options import Options  edge_options = Options()  
edge_options.binary_location = r"C:\Program Files (x86)\Microsoft\Edge\Application\msedge.exe"  
driver = webdriver.Edge(options=edge_options)  
# 先打开主页面
driver.get('https://www.ptpress.com.cn/')  
# 打开新标签页(人民邮电出版社登录页)
driver.execute_script("window.open('https://www.ptpress.com.cn/login','_blank');")  
# 打开另一个新标签页(数艺社页面 )
driver.execute_script("window.open('https://www.shuyishe.com/','_blank');")  

借助 JavaScript 的 window.open 方法,实现多标签页批量打开,满足复杂网页跳转需求。

五、获取渲染后的网页代码

浏览器加载网页并渲染后,用 page_source 方法提取渲染后的完整代码(含 JS 动态加载内容 ),示例:

from selenium import webdriver  
from selenium.webdriver.edge.options import Options  edge_options = Options()  
edge_options.binary_location = r"C:\Program Files (x86)\Microsoft\Edge\Application\msedge.exe"  
driver = webdriver.Edge(options=edge_options)  
driver.get('https://www.ptpress.com.cn/')  
# 获取渲染后的网页源代码
rendered_html = driver.page_source  
print(rendered_html)  

page_source 获取的代码,可用于正则表达式、XPath 等方式提取目标数据(如商品价格、新闻内容 )。

六、获取和操作网页元素

(一)获取网页中的指定元素

Selenium 提供多种元素定位方法(替代正则表达式筛选 ),常用如下:

  • find_element(By.ID, "id值"):通过元素 id 定位(页面唯一 )。
  • find_element(By.NAME, "name值"):按 name 属性定位。
  • find_element(By.XPATH, "XPath 表达式"):灵活的路径定位,适配复杂页面。

示例(定位搜索框并输入内容 ):

from selenium import webdriver  
from selenium.webdriver.edge.options import Options  
from selenium.webdriver.common.by import By  edge_options = Options()  
edge_options.binary_location = r"C:\Program Files (x86)\Microsoft\Edge\Application\msedge.exe"  
driver = webdriver.Edge(options=edge_options)  
driver.get('https://www.ptpress.com.cn/')  # 用 XPath 定位搜索框(需替换为实际页面 XPath )
search_box = driver.find_element(By.XPATH, '//input[@placeholder="搜索图书、作者、ISBN"]')  
# 输入搜索关键词(这里通过 input 交互,模拟用户输入 )
a = input("请输入搜索关键词:")  
search_box.send_keys(a)  

通过 find_element 系列方法,精准定位元素后,可执行输入、点击等交互操作。

(二)获取多个元素与批量操作

find_elements() 方法(注意复数 )可获取页面中匹配条件的多个元素,示例(提取页面中所有图书封面图片元素 ):

from selenium import webdriver  
from selenium.webdriver.edge.options import Options  
from selenium.webdriver.common.by import By  edge_options = Options()  
edge_options.binary_location = r"C:\Program Files (x86)\Microsoft\Edge\Application\msedge.exe"  
driver = webdriver.Edge(options=edge_options)  
driver.get('https://www.ptpress.com.cn/search?keyword=python')  # 定位所有图书封面图片元素(假设用 XPath 匹配 )
book_covers = driver.find_elements(By.XPATH, '//img[@class="book-cover"]')  
for cover in book_covers:  # 可获取元素属性(如 src )或执行点击等操作print(cover.get_attribute('src'))  

遍历获取的元素列表,能批量提取信息(如图片链接 )或执行交互,提升自动化效率。

以上是 Selenium 库驱动浏览器的核心流程与操作!后续还会深入讲解元素高级交互、自动化测试框架集成等更多实战内容,关注我,带你玩转浏览器自动化 ~

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/diannao/92203.shtml
繁体地址,请注明出处:http://hk.pswp.cn/diannao/92203.shtml
英文地址,请注明出处:http://en.pswp.cn/diannao/92203.shtml

如若内容造成侵权/违法违规/事实不符,请联系英文站点网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

从实践出发--探究C/C++空类的大小,真的是1吗?

文章目录测试代码VS2022正常运行编译失败GCC总结Author: NemaleSu Data: 2025/07/21 测试环境: Win11:VS2022Ubuntu22.04:gcc (Ubuntu 11.4.0-1ubuntu1~22.04) 11.4.0 相信众多cpper听过太多书籍、视频、文档、博客等资料,说C/C…

数据结构自学Day11-- 排序算法

一、排序算法的概念排序(Sorting)是指:将一组“无序”的数据,按照某种“顺序规则”排列成“有序”的过程。1、按排序顺序分类:升序:从小到大排列,如 1, 3, 5, 7, 9降序:从大到小排列…

电子元器件—三极管(一篇文章搞懂电路中的三极管)(笔记)(面试考试必备知识点)

三极管的定义及工作原理1. 定义三极管(Transistor)是一种具有三层半导体材料(P-N-P 或 N-P-N)构成的半导体器件,用于信号放大、开关控制和信号调制等应用。三极管有三个引脚:发射极(Emitter&…

数据结构之克鲁斯卡尔算法

前言:和Prim算法一样,Kruskal 算法也是用来生成最小生成树的,这篇文章来学习一下Kruskal算法的实现 一、实现流程 初始化的时候,将所有的边用一个数组存储,并且按权值从小到大进行排序,每次选一个权值最小的…

MongoDB 查询时区问题

MongoDB默认时区是UTC&#xff0c;比北京时区晚八小时&#xff0c;北京时间UTC8h。 // 北京时间的 2024-10-01 08:00:00 // (>) 大于 - $gt // (<) 小于 - $lt // (>) 大于等于 - $gte // (< ) 小于等于 - $lte// Z代表UTC时区1、{"gmtCreate":{"$…

Windows VS2019 编译 Apache Thrift 0.15.0

随着微服务架构的普及,高效的跨语言远程过程调用(RPC) 成为了构建分布式系统的重要基础。Apache Thrift 是 Facebook 开源的一个轻量级、高性能的 RPC 框架,它允许开发者通过一个通用的接口定义语言(IDL)来定义服务接口和数据结构,并自动生成多种语言的客户端和服务端代…

搭建种草商城框架指南

一、引言在当今电商市场&#xff0c;种草商城以其独特的社交化购物模式受到越来越多用户的喜爱。搭建一个功能完善、体验良好的种草商城框架&#xff0c;需要综合考虑前端界面、后端服务、数据库设计等多个方面。本文将为你详细介绍搭建种草商城框架的关键要点和技术选型。二、…

docker--挂载

设置容器的挂载 需要注意 挂载行为会覆盖容器目标目录的原有内容(未验证)。 查看容器的挂载情况 在容器外部查看: docker inspect <容器名或容器ID> | grep -A n "Mounts" -A n 的含义 -A 是 --after-context 的缩写,表示显示匹配行及其后 n 行。 "Mo…

以Streamable HTTP方式访问mcp server的过程

一、mcp server 部署 使用fastmcp框架 部署 mcp server&#xff0c; 以下是源代码 # 引入 fastmcp 依赖包 from fastmcp import FastMCP# 新建fastmcp实例&#xff0c; 名字叫做 weather mcp FastMCP("weather")mcp.tool(name"weather", tags{"weath…

二次元 IP 虚拟数字人宣传:漫画角色动态直播与衍生周边预售联动

当漫画角色从静态画稿中走出&#xff0c;以动态直播的形式与粉丝实时互动&#xff0c;再顺势开启衍生周边预售 —— 虚拟数字人技术正重塑二次元 IP 的宣传逻辑。这种 “动态直播 周边预售” 的联动模式&#xff0c;不仅打破了次元壁&#xff0c;更让 IP 热度高效转化为商业价…

如何在服务器上获取Linux目录大小

目前我在管理一台hostease的服务器时遇到服务器磁盘空间不足的情况。随着在系统中添加更多文件&#xff0c;这些系统文件目录也变得越来越大。过大的目录也消耗了系统资源&#xff0c;导致系统运行缓慢。后来我通过下列的方法对服务器上的磁盘空间使用进行了逐一检查。在这篇综…

来伊份养馋记社区零售 4.0 上海首店落沪:重构 “家门口” 的生活服务生态

7 月 19 日&#xff0c;来伊份与养馋记战略合作的首个 “社区零售 4.0” 门店在上海松江泗泾镇泗宝路正式开业。这不仅是双方自今年 1 月达成战略合作后的实质性落地&#xff0c;更是 3 月 “社区生活新生态” 构想的首次规模化实践&#xff0c;标志着零食行业巨头与社区零售新…

从C++开始的编程生活(3)——引用类型、内联inline和nullptr

前言 本系列文章承接C语言的学习&#xff0c;需要有C语言的基础才能学会哦~ 第3篇主要讲的是有关于C的引用类型、内联inline和nullptr。 C才起步&#xff0c;都很简单呢&#xff01; 目录 前言 引用类型 基本语法 特性 应用 const引用 基本语法 引用与指针的关系 内联…

makefile-- 其他函数

fuctionsjoin​$(join <list1>,<list2>)连接函数把list2 中单词对应的添加到list1 的后面若list1 的单词个数> list2 &#xff0c;多出的list1 保持不变若list2 的单词个数> list21&#xff0c;多出的list2 添加到list1 后面foreach​$(foreach <var>…

【unity实战】使用unity的Navigation+LineRenderer实现一个3D人物寻路提前指示预测移动轨迹的效果,并可以适配不同的地形

文章目录 前言 实战 1、实现要点 1.1 NavMesh.CalculatePath方法计算两个点之间的导航路径 1.2 寻找投射的地面点 2、代码实现如下 3、烘培地面导航网格 4、添加导航玩家代理,并挂载前面的脚本 5、创建Line Renderer,并放在角色下面作为子物体 6、运行游戏查看效果 专栏推荐 …

宝塔申请证书错误,提示 module ‘OpenSSL.crypto‘ has no attribute ‘sign‘

遇到"module OpenSSL.crypto has no attribute sign"错误时&#xff0c;通常是由于pyOpenSSL版本兼容性问题导致的‌。以下是解决方案&#xff1a;通过SSH连接到服务器&#xff0c;执行以下命令安装指定版本的pyOpenSSL&#xff1a;btpip install pyOpenSSL24.2.1-U然…

【ffmpeg源码学习】详解pkg-config的作用

文章目录 前言 一、什么是pkg-config? 二、为什么需要 pkg-config? 三、pkg-config 的工作原理 3.1 .pc 文件 3.2 查询流程 3.3 查找路径 四、pkg-config 在 FFmpeg 中的作用 五、pkg-config 的常用命令 六、在项目中的实际用法 6.1 makefile示例: 6.2 cmake示例: 6.3 gcc命…

PHPStorm携手ThinkPHP8:开启高效开发之旅

目录一、前期准备1.1 开发环境搭建1.2 配置 Xdebug二、PHPStorm 集成 ThinkPHP82.1 导入 ThinkPHP8 项目2.2 配置 PHP 解释器2.3 配置服务器三、ThinkPHP8 项目开发基础3.1 项目结构剖析3.2 控制器与方法创建3.3 视图渲染与数据传递四、数据库操作与模型定义4.1 数据库配置4.2 …

HTTP性能优化实战技术详解(2025)

HTTP性能优化实战技术详解本文基于提供的文章大纲&#xff0c;对HTTP性能优化进行扩展说明。文章结构清晰&#xff0c;从理解瓶颈到具体优化策略&#xff0c;再到监控与高级技巧&#xff0c;逐步展开。每个部分包括背景介绍、核心原理、实施步骤、示例或工具推荐&#xff0c;确…

探索文件系统:软硬链接的奥秘

目录 1.文件系统 1.1 磁盘物理存储结构 1.2 磁盘逻辑存储结构 1.3 inode编号 2. 软硬链接 2.1 软链接 2.2 硬链接 2.3 目录文件的软硬链接 1.文件系统 在一台电脑中&#xff0c;大部分文件都不是被打开的&#xff0c;这些文件都在磁盘中进行保存。已经打开的文件需要管…