惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

Attack and Defense Labs
Attack and Defense Labs
The GitHub Blog
The GitHub Blog
C
Check Point Blog
博客园_首页
MongoDB | Blog
MongoDB | Blog
N
Netflix TechBlog - Medium
F
Full Disclosure
Microsoft Security Blog
Microsoft Security Blog
爱范儿
爱范儿
Recent Announcements
Recent Announcements
阮一峰的网络日志
阮一峰的网络日志
G
GRAHAM CLULEY
Cyber Security Advisories - MS-ISAC
Cyber Security Advisories - MS-ISAC
T
Threat Research - Cisco Blogs
C
Cybersecurity and Infrastructure Security Agency CISA
V
Vulnerabilities – Threatpost
K
Kaspersky official blog
博客园 - 司徒正美
S
Schneier on Security
T
The Exploit Database - CXSecurity.com
Project Zero
Project Zero
云风的 BLOG
云风的 BLOG
Cisco Talos Blog
Cisco Talos Blog
Know Your Adversary
Know Your Adversary
雷峰网
雷峰网
V
V2EX - 技术
freeCodeCamp Programming Tutorials: Python, JavaScript, Git & More
Spread Privacy
Spread Privacy
罗磊的独立博客
K
KPMG report finds enterprise disconnect between AI and its ROI | CIO
S
Security Affairs
SecWiki News
SecWiki News
Schneier on Security
Schneier on Security
O
OpenAI News
Jina AI
Jina AI
PCI Perspectives
PCI Perspectives
Cyberwarzone
Cyberwarzone
Y
Y Combinator Blog
Apple Machine Learning Research
Apple Machine Learning Research
B
Blog RSS Feed
I
InfoQ
D
Docker
P
Palo Alto Networks Blog
Recorded Future
Recorded Future
M
MIT News - Artificial intelligence
博客园 - Franky
B
Blog
Scott Helme
Scott Helme
博客园 - 叶小钗
D
DataBreaches.Net

博客园 - Ivan Zou

示例 - 17行代码实现一个简单高效的多线程蜘蛛程序 示例 - 10行代码在C#中获取页面元素布局信息 Spider Studio 新版本 (20140225) - 设置菜单调整 / 提供JQueryContext布局相关的方法 示例 - 如何在NodeJS中调用SS生成的DLL 示例 - 25行代码等价实现 - 借助Nodejs在服务端使用jQuery采集17173游戏排行信息 Spider Studio 新版本 (码年吉祥版) - 浏览器视图 / 脚本库上线! 分享一个天气历史数据的采集脚本 分享 - Hybrid 开发将博客园集成到自己的网站中 - 效果高大上 :) Spider Studio 新版本 (20140109) - 修复浏览器对部分网页不支持的BUG Spider Studio 新版本 (20140108) - 优化设置菜单 / 生成程序集支持版本号 示例 - 数据仓库的妙用 Spider Studio 界面功能布局 C# 脚本代码自动登录淘宝获取用户信息 API - 使用数据仓库 - 基础篇 示例 - 如何在ASP.NET中应用Spider Studio生成的DLL? 示例 - 如何在多线程中应用SpiderStudio生成的DLL? 示例 - 如何在Console应用程序中应用SpiderStudio生成的DLL? - Ivan Zou C#中另辟蹊径解决JSON / XML互转的问题 - Ivan Zou Spider Studio 新版本 (x-mas) - 可以引入第三方程序集, 可以将脚本生成为DLL
分享: 利用Readability解决网页正文提取问题
Ivan Zou · 2014-01-22 · via 博客园 - Ivan Zou

做数据抓取和分析的各位亲们, 有没有遇到下面的难题呢?

- 如何从各式各样的网页中提取正文!?

虽然可以用SS为各种网站写脚本做解析, 但是互联网各类网站何止千万种, 纵使累死我们也是做不完的. 这里我给大家热情推荐使用Readability来彻底解决这个难题 (呵呵, 不是做广告, 真心热爱这个好东东)

Raedability网站(www.readability.com)最引以为傲的就是其强大的解析引擎, 号称世界上最强大的文本解析神器. Safari中的"阅读器"功能就是用它来实现的! 他们还提供了API可以调用解析器的功能, 而我做了一个c#的代理类来方便大家使用.

开始之前请大家自行注册readability并申请appkey, 免费的. 

代理类代码:

public static class ReadabilityProxy
{
    public static Article Parse(string url, string token) //token就是各位的appkey
    {
        WebClient wc = new WebClient();
        wc.Encoding = Encoding.UTF8;
        var encUrl = HttpUtility.UrlEncode(url);
        Uri u = new Uri(string.Format("https://readability.com/api/content/v1/parser?url={0}&token={1}", encUrl, token));
        var json = wc.DownloadString(u);
        JavaScriptSerializer se = new JavaScriptSerializer();
        return se.Deserialize(json, typeof(Article)) as Article;
    }
}

public class Article
{
    public string Domain;
    public string Next_Page_Id;
    public string Url;
    public string Content;
    public string Short_Url;
    public string Excerpt;
    public string Direction;
    public int Word_Count;
    public int Total_Pages;
    public string Date_Published;
    public string Dek;
    public string Lead_Image_Url;
    public string Title;
    public int Rendered_Pages;

    public virtual void Decode()
    {
        this.Excerpt = HttpUtility.HtmlDecode(this.Excerpt);
        this.Content = HttpUtility.HtmlDecode(this.Content);
    }
}

由于readability返回的Content, Excerpt都是编码过的, 因此我提供了Article.Decode方法来解码.

在ConsoleApp中测试效果:

class Program
{
    static void Main(string[] args)
    {
        var article = ReadabilityProxy.Parse("http://www.mot.gov.cn/st2010/shanghai/sh_zhaobiaoxx/201203/t20120330_1219097.html", "***此处省略n个字***"); 
        article.Decode();
        Console.WriteLine(article.Title);
        Console.WriteLine(article.Excerpt);
        Console.WriteLine(article.Content);
        Console.ReadLine();
    }
}

怎么样? 效果不错吧, 赶快试试吧!