惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

AI
AI
TaoSecurity Blog
TaoSecurity Blog
H
Heimdal Security Blog
Help Net Security
Help Net Security
cs.CV updates on arXiv.org
cs.CV updates on arXiv.org
Microsoft Azure Blog
Microsoft Azure Blog
www.infosecurity-magazine.com
www.infosecurity-magazine.com
Google DeepMind News
Google DeepMind News
爱范儿
爱范儿
The Cloudflare Blog
OSCHINA 社区最新新闻
OSCHINA 社区最新新闻
人人都是产品经理
人人都是产品经理
大猫的无限游戏
大猫的无限游戏
N
News | PayPal Newsroom
V2EX - 技术
V2EX - 技术
博客园 - 【当耐特】
D
Darknet – Hacking Tools, Hacker News & Cyber Security
S
Secure Thoughts
C
CERT Recently Published Vulnerability Notes
罗磊的独立博客
Exploit-DB.com RSS Feed
Exploit-DB.com RSS Feed
钛媒体:引领未来商业与生活新知
钛媒体:引领未来商业与生活新知
P
Privacy & Cybersecurity Law Blog
有赞技术团队
有赞技术团队
S
Schneier on Security
S
SegmentFault 最新的问题
Google Online Security Blog
Google Online Security Blog
H
Hacker News: Front Page
The Last Watchdog
The Last Watchdog
Schneier on Security
Schneier on Security
PCI Perspectives
PCI Perspectives
IT之家
IT之家
Project Zero
Project Zero
博客园 - 司徒正美
P
Privacy International News Feed
Recent Commits to openclaw:main
Recent Commits to openclaw:main
Jina AI
Jina AI
Security Latest
Security Latest
Hacker News - Newest:
Hacker News - Newest: "LLM"
腾讯CDC
C
CXSECURITY Database RSS Feed - CXSecurity.com
阮一峰的网络日志
阮一峰的网络日志
C
Check Point Blog
aimingoo的专栏
aimingoo的专栏
V
Vulnerabilities – Threatpost
W
WeLiveSecurity
NISL@THU
NISL@THU
Webroot Blog
Webroot Blog
N
Netflix TechBlog - Medium
L
Lohrmann on Cybersecurity

博客园 - 疯吻IT

timestamp for this request was 1000ms ahead of the server's time GitHub无法访问、443 Operation timed out的解决办法 - 疯吻IT Ccxt: ModuleNotFoundError:没有名为“ ccxt”的模块 机器翻译数据集 CENTOS手动安装修复python ,YUM CENTOS手动安装修复YUM Python3 找不到库 UnicodeDecodeError: 'ascii' codec can't decode byte 0xa0 in position 0: ordinal not in range(128) rnn_model.fit Incompatible shapes Mysql 密码过期 帝国cms打开慢 如何快速获得权重站 HTTP 404 Not Found Error with .woff or .woff2 Font Files php报错 syntax error, unexpected T_VARIABLE 修改帝国cms栏目后,如何更新 用python 发 帝国cms 文章 帝国cms更新报错解决办法 帝国cms 不能正常显示最新文章 帝国CMS Table '***.phome_ecms_news_data_' doesn't exist 多版本python及多版本pip使用 python 去重
数据集
疯吻IT · 2019-02-12 · via 博客园 - 疯吻IT

下面就介绍一些获取数据的方法:

1 爬虫
最好的方法就是自己写爬虫,优点是可以自由的定制想要的数据,缺点是周期较长。

但现在随着python的兴起,越来越多的架包的开发,爬虫越来越简单实现。

跟着下面这个教程可以很快的实现一个强大的爬虫:

CSDN 爬虫教程
http://blog.csdn.net/u012052268/article/category/6889435

2 数据平台
国内一些机构贡献了一些数据集出来,大家可以在上面下载。

2.1 数据堂
数据堂 是国内比较大的大数据交易平台,上面有许多数据覆盖面很广,但是要收费,推荐有财力的实验室采购。网址: http://www.datatang.com/

2.2 搜狗实验室
搜狗实验室是比较权威的数据提供方提供的数据质量很高而且数据是免费的。网址:
http://www.sogou.com/labs/

2.3 自然语言处理与信息检索共享平台
是中科大的信息平台,上面有一些自然语言相关的数据集。网址:
http://www.nlpir.org/?action-category-catid-28

2.4 聚数力
http://dataju.cn/Dataju/web/home

3 人工收集的
这是几个博主自己总结的,质量很高。

https://zhuanlan.zhihu.com/p/25138563

https://www.zhihu.com/question/53655758/answer/146351918

https://www.douban.com/note/269081724/
---------------------
作者:最小森林
来源:CSDN
原文:https://blog.csdn.net/u012052268/article/details/78035272
版权声明:本文为博主原创文章,转载请附上博文链接!