互联网数据的挖掘和分析
基本上使用python语言完成
一、抓取
列表页
详细页
授权(API)&未授权(爬虫)
普通抓取&需登录
二、html解析
1. BeautifulSoup
2. 正则
三、文本分析&自然语言处理
四、性能优化
1. 反抓取屏蔽 http代理
2. 性能优化
多线程抓取
























http://weibo.com/gaotianpu
基本上使用python语言完成
一、抓取
列表页
详细页
授权(API)&未授权(爬虫)
普通抓取&需登录
二、html解析
1. BeautifulSoup
2. 正则
三、文本分析&自然语言处理
四、性能优化
1. 反抓取屏蔽 http代理
2. 性能优化
多线程抓取
[url=http://t.sina.com.cn/1084588625?s=6uyXnP][img]http://service.t.sina.com.cn/widget/qmd/1084588625/a57ab42b/1.png[/img][/url]
此内容由惯性聚合(RSS阅读器)自动聚合整理,仅供阅读参考。 原文来自 — 版权归原作者所有。