惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

Attack and Defense Labs
Attack and Defense Labs
The GitHub Blog
The GitHub Blog
C
Check Point Blog
博客园_首页
MongoDB | Blog
MongoDB | Blog
N
Netflix TechBlog - Medium
F
Full Disclosure
Microsoft Security Blog
Microsoft Security Blog
爱范儿
爱范儿
Recent Announcements
Recent Announcements
阮一峰的网络日志
阮一峰的网络日志
G
GRAHAM CLULEY
Cyber Security Advisories - MS-ISAC
Cyber Security Advisories - MS-ISAC
T
Threat Research - Cisco Blogs
C
Cybersecurity and Infrastructure Security Agency CISA
V
Vulnerabilities – Threatpost
K
Kaspersky official blog
博客园 - 司徒正美
S
Schneier on Security
T
The Exploit Database - CXSecurity.com
Project Zero
Project Zero
云风的 BLOG
云风的 BLOG
Cisco Talos Blog
Cisco Talos Blog
Know Your Adversary
Know Your Adversary
雷峰网
雷峰网
V
V2EX - 技术
freeCodeCamp Programming Tutorials: Python, JavaScript, Git & More
Spread Privacy
Spread Privacy
罗磊的独立博客
K
KPMG report finds enterprise disconnect between AI and its ROI | CIO
S
Security Affairs
SecWiki News
SecWiki News
Schneier on Security
Schneier on Security
O
OpenAI News
Jina AI
Jina AI
PCI Perspectives
PCI Perspectives
Cyberwarzone
Cyberwarzone
Y
Y Combinator Blog
Apple Machine Learning Research
Apple Machine Learning Research
B
Blog RSS Feed
I
InfoQ
D
Docker
P
Palo Alto Networks Blog
Recorded Future
Recorded Future
M
MIT News - Artificial intelligence
博客园 - Franky
B
Blog
Scott Helme
Scott Helme
博客园 - 叶小钗
D
DataBreaches.Net

博客园 - Ivan Zou

示例 - 17行代码实现一个简单高效的多线程蜘蛛程序 示例 - 10行代码在C#中获取页面元素布局信息 Spider Studio 新版本 (20140225) - 设置菜单调整 / 提供JQueryContext布局相关的方法 示例 - 如何在NodeJS中调用SS生成的DLL 示例 - 25行代码等价实现 - 借助Nodejs在服务端使用jQuery采集17173游戏排行信息 Spider Studio 新版本 (码年吉祥版) - 浏览器视图 / 脚本库上线! 分享: 利用Readability解决网页正文提取问题 分享一个天气历史数据的采集脚本 分享 - Hybrid 开发将博客园集成到自己的网站中 - 效果高大上 :) Spider Studio 新版本 (20140109) - 修复浏览器对部分网页不支持的BUG Spider Studio 新版本 (20140108) - 优化设置菜单 / 生成程序集支持版本号 Spider Studio 界面功能布局 C# 脚本代码自动登录淘宝获取用户信息 API - 使用数据仓库 - 基础篇 示例 - 如何在ASP.NET中应用Spider Studio生成的DLL? 示例 - 如何在多线程中应用SpiderStudio生成的DLL? 示例 - 如何在Console应用程序中应用SpiderStudio生成的DLL? C#中另辟蹊径解决JSON / XML互转的问题 Spider Studio 新版本 (x-mas) - 可以引入第三方程序集, 可以将脚本生成为DLL
示例 - 数据仓库的妙用
Ivan Zou · 2014-01-06 · via 博客园 - Ivan Zou

当初为了在SS中设置数据仓库这个功能, 团队中有一些争议. 主要是集中在为啥要提供这个功能, 到底有没有必要等问题上, 但最终这个功能还是上了. 相信初用者也会有同样的疑问, 我想介绍一下数据仓库的一些妙用, 也顺便为大家解析一下这个疑惑.

用处1, 临时保存中间数据:

以采集网易国际新闻为例. 打开http://news.163.com/world/, 可以看到这是一个列表页面, 每页有几十条新闻, 还有很多很多页. 每条新闻点开之后可以看到正文, 这个正文就是我们最终要采集的内容. 如果在一个脚本中完成刚才的流程, 会显得有点复杂, 纵使各位技术高超, 估计开始之前也要构思一番. 我推荐一个简单步骤, 可以无需经过大脑, 提笔就干!

1. 在数据仓库中创建数据集 NEWS.163.COM.LIST

2. 编写脚本A完成对http://news.163.com/world/的采集, 结果 (标题, URL) 都输出到 NEWS.163.COM.LIST

DataManager.AppendData("news.163.com.list", DataEntry.Create().Set("Title", ...).Set("Url", ...));

3. 编写脚本B从 NEWS.163.COM.LIST 中读取链接 (标题, URL), 然后逐一打开来采集正文

var de = DataManager.ReadData("news.163.com.list");
var title = de.Get("Title");
var url = de.Get("Url");

4. 运行

是不是很便捷? 手脚麻利一点的话, 估计在别人构思完成之前, 你的脚本都写好了 :)

用处2, 并行运行提升采集性能:

SS中集成了采集小精灵, 这是一个有趣的小程序. 它可以独立运行SS中的脚本, 并将结果写回到数据仓库中. 如果我们同时运行多个采集精灵, 就能够实现并行抓取. 不用担心它们会重复抓取, 因为DataManager.ReadData是根据游标来工作的, 它只进不退, 每读取一次, 就往前移一格, 所以每次读取的都不一样.

下面给出一个比较完整的脚本范例供大家参考:

脚本A

public void Run()
{
    Default.Navigate("http://news.163.com/world/");
    Default.Ready();
    while(Default.Available)
    {
        var rows = Default.SelectNodes("...");
        foreach(var r in rows)
        {
            var title = r.SelectSingleNode("a").Text();
            var url = r.SelectSingleNode("a").Attr("href");
            DataManager.AppendData("news.163.com.list", DataEntry.Create().Set("Title", title).Set("Url", url));
        }
        var nextPage = Default.SelectSingleNode("...");
        if(nextPage.IsEmpty()) return;
        nextPage.Click();
        Default.Reset();
        Default.Ready();
    }
}

脚本B

public void Run()
{
    while(Default.Available)
    {
        var de = DataManager.ReadData("news.163.com.list");
        if(de == null) return;
        var url = de.Get("Url");
        Default.Navigate(url);
        Default.Ready();
        var content = Default.SelectSingleNode("...");
        DataManager.AppendData("news.163.com.content", de.Set("Content", content)); //请预先创建数据集 NEWS.163.COM.CONTENT
    }
}

然后, 多个采集精灵同时运行起来是不是很有赶脚? (体验版虽然只能运行一个采集精灵, 但还是可以通过让SS和采集精灵同时运行脚本B来提高效率的).

最后, enjoy~!