爬虫-今日头条我的收藏(一)
pmh905001
·
2023-11-18
·
via 博客园 - pmh905001
背景:
- 我在今日头条下收藏很多文章,使用的过程中我发现头条的按照关键字搜索总是无法全部搜索出来。也给头条反馈了很多次,总是爱理不理。实在忍受不了这种敷衍,决定自己写一个爬虫。至少可以通过查找关键字搜素标题、tag查找到需要的内容。
- 有了这些数据可以用来自己的做文本分析、智能分类等功能等后续数据挖掘功能。之前学过veka里面很多数据挖掘算法可以捡起来用了
思路:
- 先解决有无问题,做一个最基础版本一次性抓取我的收藏原始数据,不做增量抓取,不抓取每篇文章的内容
- 头条我的收藏列表是get请求,返回的是json格式数据,直接使用requests发送请求到头条。
- 滚动到收藏列表底部的时候,网页会发送新的ajax请求到头条,收藏内容滚动到下一页。通过不断发送请求指定max_behot_time不断取出每页的内容,直到has_more返回False
- 关于持久化,sqlite/mongodb/mysql/pg/文本文件。简单实现来看一个文本就解决问题,每页的json类容就是一行。之后再把这些文件内容导入到数据库。
实现:
posted on
2023-11-18 21:15
pmh905001
阅读(401)
评论()
收藏
举报
此内容由惯性聚合(RSS阅读器)自动聚合整理,仅供阅读参考。 原文来自 — 版权归原作者所有。