文章目录

    • 初始化解析器
    • 路径查找
      • 查找所有标签
      • 查找指定 id 的标签
      • 查找指定 class 的标签
      • 查找包含指定 class 的标签
      • 复杂路径查找
        • 示例1
        • 示例2
    • 常见操作
      • 获取所有标签的链接
      • 获取 div 标签的文本内容, 其他标签类似
      • 其他元素操作

初始化解析器


from lxml import html
from lxml.html import HtmlElementpage = '''
<html><head></head>
<body><div id="overlay" class="hidden"><div id="loader"></div></div><header id="rootHeader" class="login"><div class="wrapper content login"><table width="186" border="0"></table><div class="login">example content</div><a href="https://www.example.com">Torrent Kitty - Free Torrent To Magnet Link Conversion Service</a></div></header><div class="becbdbcf otherClassName">Your Internet and Goverment can track your torrent Activity! Hide yourIP with a VPN!</div><a href="https://example.com">Torrent Kitty - Free Torrent To Magnet Link Conversion Service</a>
</body></html>
'''rootElement: HtmlElement = html.fromstring(page)# 简单查找,获取指定类别的所有标签elements: list[HtmlElement] = rootElement.find_class('login')
print(elements)

路径查找

  • HtmlElement.xpath(‘xxxxxxxxxxxxxxxx’)

如果匹配不到元素返回空数组

查找所有标签


elements = rootElement.xpath('//*')
print(elements)

查找指定 id 的标签


elements = rootElement.xpath('//*[@id="overlay"]')
print(elements)

查找指定 class 的标签


elements = rootElement.xpath('//*[@class="login"]')
print(elements)

查找包含指定 class 的标签


elements = rootElement.xpath('//*[contains(@class, "login")]')
print(elements)

复杂路径查找

示例1

1、查找 class 为login 的 header
2、在 header 下查找 class 包含content的 div
3、在 div 下查找所有 table 标签


elements = rootElement.xpath('//header[@class="login"]/div[contains(@class, "content")]/table')
print(elements)
示例2

1、查找 id 为overlay 的 div
2、在 div 下查找第二个 div
3、在第二个 div 下查找所有 table 标签


elements = rootElement.xpath('//div[@id="overlay"]/div[2]/table')
print(elements)

常见操作

获取所有标签的链接


# 如果想获取其他属性值,把@后面改成对应的属性名称即可
urls = rootElement.xpath('//a/@href') 
print(urls)

获取 div 标签的文本内容, 其他标签类似


pText = rootElement.xpath('//div[@class="login"]/text()')
print(pText)

其他元素操作


elements = rootElement.xpath('//*')
for element in elements:print(element.text) # 文本不拼接(不包含子元素内的文本)print(element.text_content()) # 拼接元素内所有文本 # 获取 class 的值,如果想获取其他属性值改成对应属性名称即可# 使用get获取,如果没有值可以提供默认值print(element.get('class', '没有值')) # print(element.get('class'))  # 获取所有属性,类型 dict, key为属性名,value为属性值print(element.attrib) if 'src' in element.attrib:print('src 属性存在')# 遍历属性attrib = element.attribfor key in attrib: print(key, attrib[key])items = element.find('div')print(items) # 获取element下的所有 div 标签# 在 element 下查找所有 table 标签items = element.xpath('table') print(items)# 在 element 下查找 id 为 overlay 的标签, 如果找不到返回 Noneitems = element.get_element_by_id('overlay', None) print(items)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/web/94989.shtml
繁体地址,请注明出处:http://hk.pswp.cn/web/94989.shtml
英文地址,请注明出处:http://en.pswp.cn/web/94989.shtml

如若内容造成侵权/违法违规/事实不符,请联系英文站点网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

(CVPR-2025)VideoMage:文本生成视频扩散模型的多主体与动作定制化

VideoMage&#xff1a;文本生成视频扩散模型的多主体与动作定制化 paper title&#xff1a;VideoMage: Multi-Subject and Motion Customization of Text-to-Video Diffusion Models paper是National Taiwan University发表在CVPR 2025的工作 Code:链接 图1. 多主体与动作定制化…

OpenCV轮廓近似与Python命令行参数解析

在计算机视觉任务中&#xff0c;轮廓分析是目标检测、形状识别的核心步骤。而approxPolyDP函数作为轮廓简化的关键工具&#xff0c;能有效减少轮廓顶点数量&#xff0c;降低计算复杂度&#xff1b;同时&#xff0c;argparse库则能让Python脚本更灵活、易用。本文将结合具体案例…

基于Springboot在线音乐推荐平台

目录 一、项目介绍 二、功能介绍 三、核心代码 四、效果图 源码获取 前言 在经济繁荣的浪潮过去后&#xff0c;社会的焦点逐渐从物质追求转向了文化和生活品质的提升[1]。文化生活的繁荣成为人们关注的焦点之一&#xff0c;而音乐&#xff0c;作为文化的一部分&#xff0…

LeetCode算法日记 - Day 26: 归并排序、交易逆序对的总数

目录 1. 归并排序 1.1 题目解析 1.2 解法 1.3 代码实现 2. 交易逆序对的总数 2.1 题目解析 2.2 解法 2.3 代码实现 1. 归并排序 912. 排序数组 - 力扣&#xff08;LeetCode&#xff09; 给你一个整数数组 nums&#xff0c;请你将该数组升序排列。 你必须在 不使用任…

C++(Qt)软件调试---vcpkg安装crashpad(34)

C(Qt)软件调试—vcpkg安装crashpad&#xff08;34&#xff09; 文章目录C(Qt)软件调试---vcpkg安装crashpad&#xff08;34&#xff09;[toc]1 概述&#x1f41c;2 环境配置3 qt使用crashpad库捕获异常4 cmake中添加crashpad5 相关地址&#x1f410;更多精彩内容&#x1f449;内…

Kafka 副本同步异常与 ISR 收缩故障排查实录

背景 某高流量 Kafka 集群&#xff08;原 10G 网卡&#xff09;在切中心时频繁触发带宽报警&#xff0c;扩容至 25G 网卡后出现副本同步异常&#xff1a; 操作流程&#xff1a;停机→升级网卡→重启→触发分区同步→切换首选 Leader现象&#xff1a; 写入流量上升后&#xff0c…

顶点 (VS)vs 片段(FS):OpenGL纹理滚动着色器的性能博弈与设计哲学

一个微妙的选择&#xff0c;影响整个应用性能表现在实时图形渲染中&#xff0c;实现纹理滚动效果是一种常见需求。但当我们在顶点着色器和片段着色器之间做出不同实现选择时&#xff0c;会对性能产生显著影响。今天&#xff0c;我们将深入探讨这两种实现的差异&#xff0c;帮助…

基于博客系统的自动化测试项目

目录 一、引言 二、项目背景 三、项目功能 1&#xff09;初始登录界面 2&#xff09;博客首页 3&#xff09;博客详情页 4&#xff09;博客编辑页 四、测试工具 1&#xff09;基础操作系统环境 2&#xff09;浏览器环境 3&#xff09;开发与测试工具环境 4&#xf…

R 语言 eulerr 包绘制韦恩图:比例精准

在数据可视化中,韦恩图是展示多组数据交集关系的常用工具,尤其在生物信息(如基因差异表达分析)、统计分析等领域高频使用。但传统绘图工具常面临椭圆比例失衡、数值显示混乱、样式调整繁琐等问题,而 R 语言的eulerr包恰好能解决这些痛点 —— 它支持按数据比例自动适配图形…

CRYPT32!CryptMsgUpdate函数分析和asn.1 editor nt5inf.cat 的总览信息

0000: 30 83 09 69 2f ; SEQUENCE (9692f Bytes) 0005: 06 09 ; OBJECT_IDENTIFIER (9 Bytes) 0007: | 2a 86 48 86 f7 0d 01 07 02| ; "PKCS 7 已签名 (1.2.840.113549.1.7.2)" 0010: …

04数据库约束实战:从入门到精通

感谢黑马程序员提供的免费课程约束概念&#xff1a;约束是作用于表中字段上的规则&#xff0c;用于限制存储在表中的数据。目的&#xff1a;保证数据库中数据的正确、有效性和完整性。常见的几种约束&#xff1a;注意&#xff1a;约束是作用于表中字段上的&#xff0c;可以在创…

WPF+IOC学习记录

最近在学WPF&#xff0c;上一篇文章记录了WPF的MVVM自己实现和用框架的区别&#xff08;WPFMVVM入门学习&#xff09;&#xff0c;接下这篇文章记录一下在WPF中使用IOC&#xff0c;这里演示用的是微软官方的DependencyInjection&#xff0c;也可以用其他的第三方框架。 项目源…

从零开始学习单片机16

STM32单片机STM32和51单片机的区别51单片机的外设资源少&#xff0c;寄存器少&#xff0c;运行速度慢&#xff0c;价格便宜&#xff0c;容易上手STM32单片机的外设资源更多&#xff0c;寄存器多&#xff0c;运行速度相对快&#xff0c;价格相对贵&#xff0c;上手相对较难STM32…

[特殊字符]论一个 bug 如何经过千难万险占领线上

谨以此文献给每一个曾与 Bug 搏斗、最终却目睹它成功上线的你 本文旨在揭露 Bug 的狡猾&#xff0c;绝非鼓励以下行为。若你照做&#xff0c;后果自负&#x1f436;每一个在线上逍遥法外的 Bug&#xff0c;都不是偶然。它是一场精心策划的奇迹&#xff0c;是开发、联调、测试、…

Day12-python文件操作(二)

目录前言一、Excel文档操作1.1、xlrd和xlwt库1.2、openpyxl库1.3、pandas库总结前言 今天继续学习文件操作相关内容&#xff0c;为后续办公自动化打基础。 一、Excel文档操作 1.1、xlrd和xlwt库 如果要兼容 Excel 2007 以前的版本&#xff0c;也就是xls格式的 Excel 文件&am…

CollageIt:简单易用的照片拼贴工具

在数字图像处理领域&#xff0c;制作照片拼贴是一种常见的创意表达方式。CollageIt作为一款体积小巧、简单易用的照片拼贴工具&#xff0c;能够帮助用户轻松将多张图片拼合成一张精美的拼贴画。它不仅操作简单&#xff0c;还支持多种图片格式&#xff0c;确保用户可以快速制作出…

Java全栈工程师的实战面试:从基础到微服务的全面解析

Java全栈工程师的实战面试&#xff1a;从基础到微服务的全面解析 一、开场介绍 面试官&#xff1a;你好&#xff0c;欢迎来到我们公司。我是今天的面试官&#xff0c;负责技术部分的评估。请先简单介绍一下你自己。 应聘者&#xff1a;您好&#xff0c;我叫李明&#xff0c;25岁…

驱动开发系列68 - GLSL编译器实现 - 算数指令折叠及访存优化

一 : 指令合并概述 指令折叠的意思,原本一个语句会产生多条指令,通过折叠,可以删除一些中间指令,减少指令数量,并且能够减少寄存器占用。提高执行效率。 举一个例子: MUL A, B, 4 ; A = B * 4MAD D, A, 2, F ; D = A * 2 + F MAD G, A, 3, I ; G …

深入解析Qt节点编辑器框架:高级特性与性能优化(四)

文章目录一、高级交互特性&#xff1a;超越基础操作的用户体验提升1. 节点组管理&#xff1a;折叠与嵌套的层级组织2. 智能连接线路由&#xff1a;避免交叉与视觉混乱3. 批量操作与快捷键&#xff1a;提升操作效率二、性能优化&#xff1a;应对大规模节点场景的核心策略1. 图形…

Python 入门操作指南

引言 Python 是一种简单易学却功能强大的编程语言,广泛应用于数据分析、人工智能、Web 开发等领域。对于初学者而言,掌握 Python 的入门操作是迈向编程世界的第一步。本文将以总分总的结构,系统介绍 Python 的安装方法、推荐的开发工具、第一个 Python 程序示例,以及包管理…