惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

Help Net Security
Help Net Security
S
SegmentFault 最新的问题
T
The Blog of Author Tim Ferriss
J
Java Code Geeks
博客园 - 三生石上(FineUI控件)
月光博客
月光博客
C
Check Point Blog
M
MIT News - Artificial intelligence
GbyAI
GbyAI
H
Hackread – Cybersecurity News, Data Breaches, AI and More
U
Unit 42
D
Docker
G
Google Developers Blog
云风的 BLOG
云风的 BLOG
H
Help Net Security
D
DataBreaches.Net
Microsoft Azure Blog
Microsoft Azure Blog
B
Blog RSS Feed
Engineering at Meta
Engineering at Meta
Cyber Security Advisories - MS-ISAC
Cyber Security Advisories - MS-ISAC
B
Blog
Cloudbric
Cloudbric
Blog — PlanetScale
Blog — PlanetScale
K
KPMG report finds enterprise disconnect between AI and its ROI | CIO
T
Troy Hunt's Blog
N
News | PayPal Newsroom
V2EX - 技术
V2EX - 技术
H
Heimdal Security Blog
S
Security @ Cisco Blogs
V
Visual Studio Blog
The Last Watchdog
The Last Watchdog
博客园 - Franky
大猫的无限游戏
大猫的无限游戏
Exploit-DB.com RSS Feed
Exploit-DB.com RSS Feed
Webroot Blog
Webroot Blog
Security Archives - TechRepublic
Security Archives - TechRepublic
C
Cyber Attacks, Cyber Crime and Cyber Security
Last Week in AI
Last Week in AI
爱范儿
爱范儿
博客园 - 聂微东
S
Securelist
小众软件
小众软件
酷 壳 – CoolShell
酷 壳 – CoolShell
Cisco Talos Blog
Cisco Talos Blog
奇客Solidot–传递最新科技情报
奇客Solidot–传递最新科技情报
C
CXSECURITY Database RSS Feed - CXSecurity.com
V
Vulnerabilities – Threatpost
让小产品的独立变现更简单 - ezindie.com
让小产品的独立变现更简单 - ezindie.com
O
OpenAI News
Apple Machine Learning Research
Apple Machine Learning Research

博客园 - 疯吻IT

timestamp for this request was 1000ms ahead of the server's time GitHub无法访问、443 Operation timed out的解决办法 - 疯吻IT Ccxt: ModuleNotFoundError:没有名为“ ccxt”的模块 机器翻译数据集 CENTOS手动安装修复python ,YUM CENTOS手动安装修复YUM Python3 找不到库 UnicodeDecodeError: 'ascii' codec can't decode byte 0xa0 in position 0: ordinal not in range(128) rnn_model.fit Incompatible shapes Mysql 密码过期 帝国cms打开慢 如何快速获得权重站 HTTP 404 Not Found Error with .woff or .woff2 Font Files php报错 syntax error, unexpected T_VARIABLE 修改帝国cms栏目后,如何更新 用python 发 帝国cms 文章 帝国cms更新报错解决办法 帝国cms 不能正常显示最新文章 帝国CMS Table '***.phome_ecms_news_data_' doesn't exist 多版本python及多版本pip使用 python 去重
数据集
疯吻IT · 2019-02-12 · via 博客园 - 疯吻IT

下面就介绍一些获取数据的方法:

1 爬虫
最好的方法就是自己写爬虫,优点是可以自由的定制想要的数据,缺点是周期较长。

但现在随着python的兴起,越来越多的架包的开发,爬虫越来越简单实现。

跟着下面这个教程可以很快的实现一个强大的爬虫:

CSDN 爬虫教程
http://blog.csdn.net/u012052268/article/category/6889435

2 数据平台
国内一些机构贡献了一些数据集出来,大家可以在上面下载。

2.1 数据堂
数据堂 是国内比较大的大数据交易平台,上面有许多数据覆盖面很广,但是要收费,推荐有财力的实验室采购。网址: http://www.datatang.com/

2.2 搜狗实验室
搜狗实验室是比较权威的数据提供方提供的数据质量很高而且数据是免费的。网址:
http://www.sogou.com/labs/

2.3 自然语言处理与信息检索共享平台
是中科大的信息平台,上面有一些自然语言相关的数据集。网址:
http://www.nlpir.org/?action-category-catid-28

2.4 聚数力
http://dataju.cn/Dataju/web/home

3 人工收集的
这是几个博主自己总结的,质量很高。

https://zhuanlan.zhihu.com/p/25138563

https://www.zhihu.com/question/53655758/answer/146351918

https://www.douban.com/note/269081724/
---------------------
作者:最小森林
来源:CSDN
原文:https://blog.csdn.net/u012052268/article/details/78035272
版权声明:本文为博主原创文章,转载请附上博文链接!