前言

在当今短视频盛行的时代,抖音作为国内领先的短视频平台,吸引了大量内容创作者。对于创作者而言,了解自己发布的视频表现(如播放量、发布时间等)至关重要。本文将介绍如何使用Python的Selenium库来自动化获取抖音创作者平台上的视频数据。

技术栈

  • Python 3

  • Selenium

  • Chrome浏览器

实现步骤

1. 环境准备

首先需要安装必要的Python库:

bash

复制

下载

pip install selenium

同时需要下载对应版本的ChromeDriver,并将其放在系统PATH路径下或与脚本同一目录。

2. 代码解析

2.1 导入所需库

python

复制

下载

import os
import time
from selenium import webdriver
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.common.by import By
from selenium.webdriver.support import expected_conditions as EC
2.2 设置Chrome用户数据目录

python

复制

下载

account_en = "73118918368"
base_dir = os.getcwd()
new_user_data_directory = os.path.join(base_dir, f"{account_en}")
if not os.path.exists(new_user_data_directory):os.makedirs(new_user_data_directory)

这段代码创建了一个独立的Chrome用户数据目录,可以保存登录状态,避免每次运行都需要重新登录。

2.3 配置Chrome选项

python

复制

下载

options = webdriver.ChromeOptions()
options.add_argument(f"user-data-dir={new_user_data_directory}")  # 使用新的用户数据目录
options.add_argument("profile-directory=Default")
options.add_argument("--start-maximized")  # 最大化窗口
driver = webdriver.Chrome(options=options)
2.4 访问抖音创作者平台

python

复制

下载

driver.get("https://creator.douyin.com/creator-micro/content/manage")
time.sleep(1)
2.5 获取视频卡片信息

python

复制

下载

video_cards = WebDriverWait(driver, 10).until(EC.presence_of_all_elements_located((By.CSS_SELECTOR, ".video-card-info-aglKIQ"))

这里使用了显式等待(WebDriverWait)来确保元素加载完成,比单纯的time.sleep更加可靠。

2.6 解析视频数据

python

复制

下载

for card in video_cards:try:# 获取标题信息title = card.find_element(By.CSS_SELECTOR, ".info-title-text-YTLo9y").texttitle_part = title.split(' ')[0] if ' ' in title else title# 获取发布时间time_element = card.find_element(By.CSS_SELECTOR, ".info-time-iAYLF0")publish_time = time_element.text# 获取播放量play_count = card.find_element(By.XPATH,".//div[contains(@class, 'metric-item-u1CAYE') and .//div[text()='播放']]//div[contains(@class, 'metric-value-k4R5P_')]").textprint(f"标题: {title_part}")print(f"发布时间: {publish_time}")print(f"播放量: {play_count}")print("-" * 30)except Exception as e:print(f"处理卡片时出错: {e}")continue

3. 完整代码

[完整代码见文章开头部分]

关键点解析

  1. 用户数据目录:通过设置独立的用户数据目录,可以保存登录状态,避免每次都需要重新登录。

  2. 元素定位

    • 使用CSS选择器定位标题和发布时间

    • 使用XPath定位播放量,结合contains函数处理动态类名

  3. 异常处理:使用try-except块捕获处理单个卡片时的异常,确保一个卡片出错不会影响整个程序。

  4. 显式等待:使用WebDriverWait代替硬性等待,提高脚本的稳定性和执行效率。

应用场景

  1. 内容分析:定期收集视频数据,分析哪些类型的内容更受欢迎

  2. 效果追踪:监控视频播放量的变化趋势

  3. 自动化报告:将收集的数据自动生成可视化报告

注意事项

  1. 抖音的页面结构可能会更新,需要定期检查CSS选择器和XPath是否需要调整

  2. 频繁请求可能会触发反爬机制,建议合理设置请求间隔

  3. 需要先手动登录一次账号,保存登录状态

扩展思路

  1. 将数据保存到数据库或Excel中

  2. 添加定时任务,定期自动收集数据

  3. 增加更多指标的采集,如点赞数、评论数等

  4. 开发可视化面板展示数据变化

结语

通过本文介绍的方法,你可以轻松实现抖音创作者平台视频数据的自动化采集。这只是一个起点,你可以在此基础上开发更多实用的功能,帮助自己或团队更好地分析视频表现,优化内容策略。

希望这篇文章对你有所帮助!如果你有任何问题或建议,欢迎在评论区留言讨论。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/diannao/90871.shtml
繁体地址,请注明出处:http://hk.pswp.cn/diannao/90871.shtml
英文地址,请注明出处:http://en.pswp.cn/diannao/90871.shtml

如若内容造成侵权/违法违规/事实不符,请联系英文站点网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

SpringCloud之Eureka

SpringCloud之Eureka 推荐参考:https://www.springcloud.cc/spring-cloud-dalston.html#_service_discovery_eureka_clients 1. 什么是Eureka Eureka 用于简化分布式系统的服务治理,基于REST的服务,用于服务的注册与发现。通过注册发现、客户…

squash压缩合并

要将test分支的多次提交合并到dev分支并压缩为一个commit,核心是使用 git merge --squash 命令(压缩合并),具体步骤如下: 详细步骤: 1. 切换到dev分支并拉取最新代码先确保本地dev分支是最新的,…

飞书CEO谢欣:挑战巨头,打造AI新时代的Office

引言:飞书要做AI时代办公协作的逐梦者与破局者。文 | 大力财经在AI浪潮席卷的当下,企业对AI既满怀期待又充满焦虑。“AI到底能不能用?AI到底怎么用?”成为萦绕在众多企业心头的难题。7月9日召开的飞书未来无限大会,飞书…

React 组件中怎么做事件代理?它的原理是什么?

在 React 组件中,**事件代理(Event Delegation)**其实是 React 内部实现的一部分,开发者通常无需手动实现事件代理,但理解它的原理和使用方式对于优化性能和掌握底层机制非常重要。一、React 中事件代理的原理React 使…

Vue 2现代模式打包:双包架构下的性能突围战

文章目录一、场景痛点:兼容性与性能的撕裂二、技术解析:Modern Mode的双引擎驱动1. 基础认知:什么是Modern Mode?2. 原理深入:HTML智能分发与Safari 10修复3. 性能收益对比表三、Vue 2项目实战:启用Modern模…

UniHttp中HttpApiProcessor生命周期钩子介绍以及公共参数填充-以百度天气接口为例

目录 引言 一、UniHttp与HttpApiProcessor简介 1、生命周期钩子的重要性 2、公共参数填充的需求 3、生命周期钩子相关介绍 二、HttpApiProcessor的实际应用 1、在Yml中定义相关参数 2、自定义HttpAPI注解 3、对接接口的定义 4、HttpApiProcessor的具体实现 5、实际调…

pytorch深度学习—RNN-循环神经网络

结合生活实例,先简单认识一下什么是循环神经网络先想个问题:为什么需要 “循环”?你平时看句子、听语音、看视频,都是 “按顺序” 来的吧?比如 “我吃苹果” 和 “苹果吃我”,字一样但顺序不同,…

深度学习常见名词解释、评价指标

目录 一、鲁棒性(robustness) 二、泛化能力(Generalization Ability) 核心含义: 如何衡量泛化能力? 三、先验信息(Prior Information) 四、mIoU (Mean Intersection over Union&#xff0…

docker-compose安装常用中间件

分为3大部分:数据库:mysql,redis,mongodb,elasticsearch,neo4j,minio,influxdb,canal-server应用中间件:nacos,apollo,zookeeper&…

基于无人机 RTK 和 yolov8 的目标定位算法

目录 背景 算法思路 代码实现 验证 背景 在城市交通巡检中如何进行车辆违停判断很重要,一个方法是通过精确坐标判断车辆中心是否位于违停框中,我们假设无人机坐标已知,并且无人机云台镜头垂直地面朝下,可根据图像分辨率、无人机参…

go入门 - day1 - 环境搭建

0. 介绍 go语言可以做什么? a. 区块链 b. 分布式/微服务/云原生 c. 服务器/游戏软件go的优势 a. 代码量比C和Java少 b. 编译速度比Java或者C快上5到6倍,比Scale块10被 c. 性能比C慢20%,但是比Java、python等快上5到10倍 d. 内存管理和C媲美&a…

【华为OD】MVP争夺战(C++、Java、Python)

文章目录题目描述输入描述输出描述示例解题思路算法思路核心步骤代码实现C实现Java实现Python实现算法要点复杂度分析解题总结题目描述 在星球争霸篮球赛对抗赛中,最大的宇宙战队希望每个人都能拿到MVP,MVP的条件是单场最高分得分获得者。可以并列所以宇…

Datawhale 2025 AI夏令营 MCP Server Task2

魔搭MCP &Agent赛事(MCP Server开发)/夏令营:动手开发MCP Server学习链接:魔搭MCP &Agent赛事(MCP Server开发) - Datawhale Task1回顾 1.task1应用功能 luner_info每日黄历 这是一个可以获取某天…

敏捷开发方法全景解析

核心理念:敏捷开发是以快速响应变化为核心的项目管理方法论,通过迭代式交付、自组织团队和持续反馈,实现高质量软件的高效交付。其本质是拥抱变化优于遵循计划,强调"可工作的软件高于详尽的文档"。 一、敏捷核心思想体系 #mermaid-svg-y7iyWsQGVWn3IpEi {font-fa…

Socket到底是什么(简单来说)

简单来说: Socket 抽象了网络通信的复杂底层细节,让应用程序开发者可以专注于发送和接收数据,而不用去操心数据在网络上是如何传输的。 它就像一个“黑盒子”,你只需要把数据扔进去,或者从里面取数据,至于数…

linux系统mysql性能优化

1、系统最大打开文件描述符数查看限制 ulimit -n更改配置 # 第一步 sudo vim /etc/security/limits.conf* soft nofile 1048576 * hard nofile 1048576# 第二步 sudo vim /etc/sysctl.conffs.file-max 1048576# 第三步(重启系统) sudo reboot验证生效 u…

免费的需要尝试claude code的API安利,截至今天可用(7月13号)

安装方法放最后(很简单,但是你得搞定网络) 注册如下: 链接如下(有详细说明): 🚀 AnyRouter|Claude Code 免费共享平台 安装(windows用户特殊点&#xff0…

Java 属性配置文件读取方法详解

Java 属性配置文件读取方法详解 一、配置文件基础概念 1. 配置文件类型对比类型格式优点缺点适用场景Propertieskeyvalue简单易读,Java原生支持不支持层级结构简单配置,JDBC参数XML标签层级结构结构化强,支持复杂数据类型冗余,解析…

NW728NW733美光固态闪存NW745NW746

美光NW系列固态闪存深度解析:NW728、NW733、NW745与NW746的全方位评测技术架构与核心创新美光NW系列固态闪存(包括NW728、NW733、NW745、NW746)的技术根基源于其先进的G9 NAND架构。该架构通过5纳米制程工艺和多层3D堆叠技术,在单…

【面试八股文】2025最新软件测试面试

一、测试基础 1、测试策略或测试包括哪些,测试要覆盖哪些方面 UI、功能、性能、可靠性、易用性、兼容性、安全性、安装卸载 2、设计测试用例的办法 等价类、边界值、错误推测法、场景法等设计方法来编写测试用例的 (1)等价类分为有效等价…