惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

酷 壳 – CoolShell
酷 壳 – CoolShell
H
Hacker News: Front Page
P
Palo Alto Networks Blog
T
ThreatConnect
Apple Machine Learning Research
Apple Machine Learning Research
博客园_首页
T
True Tiger Recordings
P
Privacy & Cybersecurity Law Blog
B
Blog
IT之家
IT之家
Last Week in AI
Last Week in AI
F
Full Disclosure
Hacker News: Ask HN
Hacker News: Ask HN
C
Comments on: Blog
Microsoft Azure Blog
Microsoft Azure Blog
C
Cybersecurity and Infrastructure Security Agency CISA
Microsoft Security Blog
Microsoft Security Blog
博客园 - 【当耐特】
N
News and Events Feed by Topic
NISL@THU
NISL@THU
腾讯CDC
雷峰网
雷峰网
Security Latest
Security Latest
李成银的技术随笔
M
Microsoft Research Blog - Microsoft Research
L
LangChain Blog
L
Lohrmann on Cybersecurity
cs.CL updates on arXiv.org
cs.CL updates on arXiv.org
C
Check Point Blog
Y
Y Combinator Blog
Recent Announcements
Recent Announcements
博客园 - Franky
N
News | PayPal Newsroom
V
V2EX
A
About on SuperTechFans
The Register - Security
The Register - Security
月光博客
月光博客
奇客Solidot–传递最新科技情报
奇客Solidot–传递最新科技情报
Google Online Security Blog
Google Online Security Blog
MyScale Blog
MyScale Blog
Cisco Talos Blog
Cisco Talos Blog
Vercel News
Vercel News
WordPress大学
WordPress大学
C
Cyber Attacks, Cyber Crime and Cyber Security
The Hacker News
The Hacker News
IntelliJ IDEA : IntelliJ IDEA – the Leading IDE for Professional Development in Java and Kotlin | The JetBrains Blog
IntelliJ IDEA : IntelliJ IDEA – the Leading IDE for Professional Development in Java and Kotlin | The JetBrains Blog
爱范儿
爱范儿
A
Arctic Wolf
L
LINUX DO - 最新话题
freeCodeCamp Programming Tutorials: Python, JavaScript, Git & More

博客园 - pmh905001

pycharm的没落,vs code的兴起 爬虫-今日头条我的收藏-增量式下载网页内容(五) 爬虫-今日头条我的收藏-增量式导入到Elastic Search(四) 今日头条源代块一行代码很长情况下的拖动问题 爬虫-今日头条我的收藏-增量式导入到mongodb(三) 爬虫-今日头条我的收藏-增量式(二) openpyxl一个bug 爬虫-今日头条我的收藏(一) pystray被隐藏菜单项显示出来的问题 pyinstaller生成的exe程序使用使用默认程序打开execel文件 pyinstaller生成的exe文件的所在的工作目录问题 windows下python的keyboard库在锁屏之后再次登陆快捷键(热键)失效问题 pyinstaller 报错ImportError: No module named _bootlocale windows下gitbash 鼠标左键选中文字自动自行终止命令 ctrl+c ^C spring-security 如何使用用户名或邮箱登录 tomcat jndi context.xml的特殊字符转义问题 struts2的优缺点以及如何改造 jetty-maven-plugin 版本导致jetty启动失败问题 Eclipse下pom.xml的提示 Cannot access defaults field of Properties
爬虫-今日头条我的收藏-反爬虫分析(六)
pmh905001 · 2026-01-31 · via 博客园 - pmh905001

技术复盘:今日头条收藏列表接口爬取方案演进分析

​一、问题背景​

近期维护的今日头条收藏列表爬虫出现功能失效,原基于Python requests库的接口调用方案无法正常工作。核心问题表现为:

  1. ​请求特征暴露​:requests库默认携带的User-Agent: python-requests/x.x等标识信息,触发头条反爬系统的客户端指纹识别机制。

  2. ​动态参数防御​:接口新增msToken(动态令牌)和a_bogus(设备指纹签名)参数,二者均具备动态生成特性​:

    • msToken:服务端生成的182位随机字符串,7天有效期内需动态续取

    • a_bogus:前端生成的168位哈希值,每次请求强制刷新

​二、技术尝试与失败分析​

​方案一:CURL命令模拟(表面验证通过,实际失效)​​
  • ​实现逻辑​:通过浏览器开发者工具提取有效CURL命令,尝试复用请求参数

  • ​失败原因​:

    1. ​静态参数陷阱​:max_behot_time等分页参数依赖接口历史响应,但头条已升级为服务端游标控制模式

    2. ​动态签名失效​:a_bogus依赖浏览器环境生成的设备指纹​(CPU核心数、内存容量等),CURL无法复现真实环境

    3. ​行为特征差异​:CURL请求缺少浏览器特有的Sec-Fetch-*系列安全头字段

​核心参数失效机制​

msToken

服务端/前端

随机字符串/接口获取

7天

a_bogus

前端

设备指纹+哈希+魔改Base64

单次有效

参数

生成位置

核心逻辑

时效性

防爬强度

​三、技术路线调整​

基于上述分析,原基于requests的纯接口调用方案已不可行。现规划以下替代方案:

​方案二:浏览器环境模拟(推荐方向)​​
  • ​技术路线​:采用Playwright/Selenium等无头浏览器工具,完整复现浏览器行为链

  • ​关键突破点​:

    1. ​会话保持​:通过Cookie持久化存储维持登录态

    2. ​动态参数捕获​:通过浏览器开发者工具拦截并还原a_bogus生成逻辑

    3. ​设备指纹伪造​:注入自定义JavaScript重写navigator对象属性

​四、后续实施计划​

  1. ​环境搭建​:部署无头浏览器集群(建议使用Chromium内核)

  2. ​参数逆向​:通过Chrome DevTools Protocol捕获完整请求链

  3. ​系统集成​:开发动态参数注入模块与分布式任务调度