本文将深入讲解两大主流短视频平台(抖音、B站)的爬虫实战技术,提供可直接运行的代码解决方案,并分享突破反爬机制的核心技巧。


一、平台特性与爬虫难点对比

平台数据价值主要反爬措施推荐抓取方式
抖音视频数据、用户画像、热榜签名验证、TLS指纹、滑块验证Web接口+签名破解
B站弹幕、评论、视频元数据Referer校验、Cookie验证、频率限制API接口+模拟登录

二、抖音爬虫实战:获取用户视频数据

核心原理:破解X-Bogus签名

抖音通过X-Bogus参数保护接口,需使用JavaScript逆向技术生成签名。

python

import requests
import execjs  # 执行JS代码
import json# 加载本地JS签名生成脚本(需提前保存)
with open('douyin_xbogus.js', 'r') as f:js_code = f.read()
ctx = execjs.compile(js_code)def get_douyin_user_videos(user_id):headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36','Cookie': '你的抖音Cookie'  # 通过浏览器获取}# 构造原始URLbase_url = f"https://www.douyin.com/aweme/v1/web/aweme/post/?device_platform=webapp&user_id={user_id}"# 通过JS生成X-Bogus签名xbogus = ctx.call('generateXbogus', base_url)signed_url = base_url + "&X-Bogus=" + xbogustry:response = requests.get(signed_url, headers=headers)data = response.json()# 解析视频数据videos = []for aweme in data['aweme_list']:video_info = {'id': aweme['aweme_id'],'desc': aweme['desc'],'create_time': aweme['create_time'],'duration': aweme['duration'] // 1000,  # 转为秒'likes': aweme['statistics']['digg_count'],'comments': aweme['statistics']['comment_count'],'url': aweme['video']['play_addr']['url_list'][0]}videos.append(video_info)return videosexcept Exception as e:print(f"抓取失败: {str(e)}")return []# 使用示例
if __name__ == "__main__":user_id = "123456789"  # 替换为目标用户IDvideo_data = get_douyin_user_videos(user_id)print(f"获取到{len(video_data)}个视频")for video in video_data[:3]:print(video['desc'])
关键技术点:
  1. X-Bogus签名生成

    • 需要逆向抖音官方JavaScript生成算法

    • 使用PyExecJS执行JS代码生成有效签名

  2. 关键参数获取

    • user_id:通过分享链接获取(需URL解码)

    • Cookie:登录后从浏览器开发者工具获取

  3. 数据解析技巧

    • 视频真实地址在play_addr.url_list

    • 时间戳需要转换格式

注:完整X-Bogus生成JS代码需单独获取(因篇幅限制未展示)


三、B站爬虫实战:获取视频弹幕与评论

方案1:直接获取弹幕数据(无需登录)

python

import requests
import re
import xml.etree.ElementTree as ETdef get_bilibili_danmaku(cid):""" 通过视频CID获取弹幕 """url = f"https://api.bilibili.com/x/v1/dm/list.so?oid={cid}"response = requests.get(url)response.encoding = 'utf-8'# 解析XML弹幕数据danmaku = []root = ET.fromstring(response.text)for d in root.findall('d'):attrs = d.attrib['p'].split(',')danmaku.append({'time': float(attrs[0]),'type': int(attrs[1]),'size': int(attrs[2]),'color': f"#{int(attrs[3]):06X}",'timestamp': int(attrs[4]),'text': d.text})return danmaku# 使用示例
cid = "45678901"  # 通过视频API获取
danmaku_data = get_bilibili_danmaku(cid)
print(f"获取到{len(danmaku_data)}条弹幕")
方案2:获取视频评论(需模拟登录)

python

import requests
import time
import randomdef get_bilibili_comments(bvid):headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36','Referer': f'https://www.bilibili.com/video/{bvid}','Cookie': '你的B站Cookie'}comments = []page = 1while True:url = f"https://api.bilibili.com/x/v2/reply?jsonp=jsonp&pn={page}&type=1&oid={get_aid(bvid)}&sort=2"try:response = requests.get(url, headers=headers)data = response.json()if data['code'] != 0:print(f"错误: {data['message']}")break# 解析评论数据for reply in data['data']['replies']:comments.append({'user': reply['member']['uname'],'content': reply['content']['message'],'like': reply['like'],'time': time.strftime("%Y-%m-%d %H:%M", time.localtime(reply['ctime']))})print(f"已获取第{page}页评论")page += 1# 随机延迟防止封禁time.sleep(random.uniform(1.5, 3))# 检查是否还有下一页if page > data['data']['page']['count'] // 20:breakexcept Exception as e:print(f"抓取出错: {str(e)}")breakreturn commentsdef get_aid(bvid):""" 将BV号转换为AV号 """table = 'fZodR9XQDSUm21yCkr6zBqiveYah8bt4xsWpHnJE7jL5VG3guMTKNPAwcF'tr = {table[i]: i for i in range(58)}s = [11, 10, 3, 8, 4, 6]xor = 177451812add = 8728348608r = 0for i in range(6):r += tr[bvid[s[i]]] * 58 ** ireturn (r - add) ^ xor# 使用示例
if __name__ == "__main__":bvid = "BV1gK4y1N7Jb"  # 替换为目标视频BV号comment_data = get_bilibili_comments(bvid)print(f"获取到{len(comment_data)}条评论")
关键技术点:
  1. CID/AID获取

    • 弹幕需要CID参数(通过视频API获取)

    • 评论需要AID(BV号需转换为AV号)

  2. 反爬突破技巧

    • 必须携带Referer请求头

    • Cookie需定期更新(有效期约1天)

    • 请求间隔需随机化(1-3秒)

  3. 数据解析

    • 弹幕为XML格式,属性包含位置/颜色/时间

    • 评论API返回分页JSON数据


四、高级反爬对抗方案

反爬类型解决方案工具推荐
签名验证JavaScript逆向PyExecJS/Frida
TLS指纹修改客户端指纹curl_cffi/requests_toolbelt
滑块验证打码平台/OCR识别ddddocr/第三方打码API
IP限制代理IP轮换快代理/站大爷

代理IP示例代码

python

from itertools import cycleproxies = cycle(['http://user:pass@192.168.1.1:8080','http://user:pass@192.168.1.2:8080'
])def make_request(url):proxy = next(proxies)try:return requests.get(url, proxies={"http": proxy}, timeout=10)except:return make_request(url)  # 自动切换下一个代理

五、法律合规边界

  1. 允许操作

    • 抓取公开视频信息(非隐私内容)

    • 个人学习研究目的

    • 遵守robots.txt限制

  2. 禁止行为

    • 破解付费内容

    • 抓取用户私信/手机号等隐私

    • 商业用途未经授权

    • 高频请求影响服务(>1次/秒)

建议:商业项目使用官方API(抖音开放平台/B站开放接口),个人学习控制请求频率


六、最佳实践建议

  1. 数据存储优化

    • 使用消息队列(RabbitMQ)缓冲请求

    • 分布式存储(MongoDB分片集群)

  2. 错误处理机制

    python

    # 重试装饰器示例
    from tenacity import retry, stop_after_attempt, wait_random@retry(stop=stop_after_attempt(3), wait=wait_random(min=2, max=5))
    def safe_request(url):response = requests.get(url)response.raise_for_status()return response
  3. 监控体系

    • 成功率监控(Prometheus)

    • 代理IP可用性检测

    • 自动切换签名算法版本

通过本指南,你可快速构建抖音/B站数据采集系统。随着平台反爬策略升级,需要持续关注接口变化并更新破解方案。建议优先考虑官方API方案,复杂场景可结合Selenium模拟真人操作。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/pingmian/90684.shtml
繁体地址,请注明出处:http://hk.pswp.cn/pingmian/90684.shtml
英文地址,请注明出处:http://en.pswp.cn/pingmian/90684.shtml

如若内容造成侵权/违法违规/事实不符,请联系英文站点网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

WSL切换网络模式

WSL切换网络模式问题WSL从NAT改成MIRRORED找到WSL Setting修改配置重启电脑(注意不是重启WSL)运行pio run验证IP问题 从鱼香ROS买了一个小鱼车,开始学习,然而装环境都要搞死我了。 垃圾VirtualBox我新买的电脑,装个Vi…

[Linux入门] Linux 远程访问及控制全解析:从入门到实战

目录 一、SSH 远程管理:为什么它是远程访问的首选? 1️⃣什么是 SSH? 2️⃣SSH 为什么比传统工具更安全? 3️⃣SSH 的 “三大组成部分” 4️⃣SSH 工作的 “五步流程” 5️⃣常用 SSH 工具 二、实战:构建 SSH 远…

n8n AI资讯聚合与分发自动化教程:从数据获取到微信与Notion集成

引言 n8n简介:自动化工作流利器 n8n是一款功能强大的开源自动化工具,采用独特的“公平代码”(Fair-Code)许可模式,旨在帮助用户连接各种应用程序和服务,从而实现工作流的自动化。它通过直观的可视化界面&am…

递归查询美国加速-技术演进与行业应用深度解析

在当今数据驱动的时代,递归查询已成为处理层级数据的核心技术,尤其在美国科技领域获得广泛应用。本文将深入解析递归查询在美国加速发展的关键因素,包括技术演进、行业应用场景以及性能优化策略,帮助读者全面理解这一重要技术趋势…

【AIGC专栏】WebUI实现图片的缩放

图片的缩放包含如下的各类不同的缩放模型。 Lanczos Lanczos重采样是一种数学上精确的方法,用于图像放大或缩小。它使用了一种称为 sinc 函数的数学公式,可以在保留图像细节的同时减少锯齿效应。 Nearest 最近邻插值是一种简单的图像放大方法,通过复制最近的像素值来填充新…

Libevent(4)之使用教程(3)配置

Libevent(4)之使用教程(3)配置事件 Author: Once Day Date: 2025年7月27日 一位热衷于Linux学习和开发的菜鸟,试图谱写一场冒险之旅,也许终点只是一场白日梦… 漫漫长路,有人对你微笑过嘛… 本文档翻译于:Fast portable non-bl…

若依前后端分离版学习笔记(三)——表结构介绍

前言: 这一节将ruoyi框架中数据库中的表结构过一遍,查看都有哪些表及其表结构及关联关系,为后续代码学习做准备。 一 代码生成表记录代码生成的业务表及相关字段1 代码生成业务表 CREATE TABLE gen_table (table_id bigint(20) NOT NULL AUTO…

NFS服务安装与使用

概述 内网需要使用NFS服务挂载到其他服务器,用做数据备份使用。 安装 # Centos yum install -y nfs-utils # Ubuntu apt install nfs-common配置 # 编辑 vim /etc/exports # 输入内容 /public/KOL-ESbackup 172.29.1.0/24 192.168.8.63 192.168.8.64 192.168.8.65(r…

使用adb 发送广播 动态改变app内的值

前言 在开发过程中有时候我们需要做一些调试工作。可以通过adb发送广播实现。 广播注册 注意最后一个参数,Context.RECEIVER_EXPORTED 这是Android 34以后强制要求的,方便外部发送这个广播。否则会报错val filter IntentFilter()filter.addAction("…

【Web安全】逻辑漏洞之URL跳转漏洞:原理、场景与防御

文章目录前言一、漏洞本质二、攻击原理正常跳转流程漏洞触发流程三、抓包的关键时机:跳转参数生成时四、风险场景1.登录/注册后跳转2.退出登录跳转3.分享/广告链接跳转4.密码重置链接跳转五、漏洞挖掘:怎么找到这种漏洞?1.找到跳转参数2.篡改…

新手开发 App,容易陷入哪些误区?

新手开发 App 时,常因对流程和用户需求理解不足陷入误区,不仅拖慢进度,还可能导致产品无人问津。​功能堆砌是最常见的陷阱。不少新手总想 “一步到位”,在初期版本就加入十几项功能,比如做社区团购 App 时&#xff0c…

Linux学习篇11——Linux软件包管理利器:RPM与YUM详解与实战指南,包含如何配置失效的YUM镜像地址

引言 本文主要梳理 Linux 系统中的软件包的概念,同时介绍RPM与YUM两大核心管理工具的常用指令、区别联系以及实战技巧等。本文作为作者学习Linux系统的第11篇文章,依旧旨在总结当前的学习内容,同时巩固知识以便日后的学习复习回顾。如有说的…

Vue3+ElementPlus实现可拖拽/吸附/搜索/收起展开的浮动菜单组件

在开发后台管理系统时,我们经常会用到浮动菜单来快速访问某些功能。本篇文章将分享一个基于 Vue3 ElementPlus 实现的浮动菜单组件,支持拖拽移动、边缘吸附、二级菜单展开、菜单搜索过滤、视频弹窗等交互效果,极大提升了用户操作的便捷性与美…

CSS 盒子模型学习版的理解

文章目录一、盒子模型构建流程(一句话抓关键)二、核心逻辑提炼三、代码验证四、一句话总结流程通过手绘图示,清晰拆解 Content(内容)→ Padding(内边距)→ Border(边框)→…

解决线程安全的几个方法

线程安全:线程安全问题的发现与解决-CSDN博客 Java中所使用的并发机制依赖于JVM的实现和CPU的指令。 所以了解并掌握深入Java并发编程基础的前提知识是熟悉JVM的实现了解CPU的指令。 1.volatile简介 在多线程并发编程中,有两个重要的关键字&#xff1a…

大模型应用班-第2课 DeepSeek使用与提示词工程课程重点 学习ollama 安装 用deepseek-r1:1.5b 分析PDF 内容

DeepSeek使用与提示词工程课程重点Homework:ollama 安装 用deepseek-r1:1.5b 分析PDF 内容python 代码建构:1.小模型 1.5b 可以在 笔记本上快速执行2.分析结果还不错3. 重点是提示词 prompt 的写法一、DeepSeek模型创新与特点1. DeepSeek-V3模型特点采用…

在FreeBSD系统下使用llama-cpp运行飞桨开源大模型Ernie4.5 0.3B(失败)

先上结论,截止到目前2025.7.25日,还不能用。也就是Ernie4.5模型无法在llama.cpp 和Ollama上进行推理,原因主要就llama是不支持Ernie4.5异构MoE架构。 不局限于FreeBSD系统,Windows也测试失败,理论上Ubuntu下也是不行。…

OpenCV图像梯度、边缘检测、轮廓绘制、凸包检测大合集

一、图像梯度 在图像处理中,「梯度(Gradient)」是一个非常基础但又极其重要的概念。它是图像边缘检测、特征提取、纹理分析等众多任务的核心。梯度的本质是在空间上描述像素灰度值变化的快慢和方向。 但我们如何在图像中计算梯度?…

GitHub 趋势日报 (2025年07月25日)

📊 由 TrendForge 系统生成 | 🌐 https://trendforge.devlive.org/ 🌐 本日报中的项目描述已自动翻译为中文 📈 今日获星趋势图 今日获星趋势图1814Resume-Matcher985neko714Qwen3-Coder622OpenBB542BillionMail486hrms219hyper…

编程语言Java——核心技术篇(五)IO流:数据洪流中的航道设计

🌟 你好,我是 励志成为糕手 ! 🌌 在代码的宇宙中,我是那个追逐优雅与性能的星际旅人。 ✨ 每一行代码都是我种下的星光,在逻辑的土壤里生长成璀璨的银河; 🛠️ 每一个算法都是我绘制…