惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

Forbes - Security
Forbes - Security
T
Tailwind CSS Blog
Hugging Face - Blog
Hugging Face - Blog
Blog — PlanetScale
Blog — PlanetScale
WordPress大学
WordPress大学
aimingoo的专栏
aimingoo的专栏
Y
Y Combinator Blog
U
Unit 42
I
InfoQ
CTFtime.org: upcoming CTF events
CTFtime.org: upcoming CTF events
V
Visual Studio Blog
B
Blog RSS Feed
Vercel News
Vercel News
F
Fortinet All Blogs
Know Your Adversary
Know Your Adversary
T
Troy Hunt's Blog
博客园 - 【当耐特】
MongoDB | Blog
MongoDB | Blog
大猫的无限游戏
大猫的无限游戏
A
About on SuperTechFans
Jina AI
Jina AI
小众软件
小众软件
T
Threatpost
有赞技术团队
有赞技术团队
人人都是产品经理
人人都是产品经理
The Hacker News
The Hacker News
T
The Exploit Database - CXSecurity.com
C
CXSECURITY Database RSS Feed - CXSecurity.com
Exploit-DB.com RSS Feed
Exploit-DB.com RSS Feed
Microsoft Azure Blog
Microsoft Azure Blog
Recent Announcements
Recent Announcements
酷 壳 – CoolShell
酷 壳 – CoolShell
Scott Helme
Scott Helme
B
Blog
腾讯CDC
Last Week in AI
Last Week in AI
P
Proofpoint News Feed
S
Schneier on Security
N
News and Events Feed by Topic
Microsoft Security Blog
Microsoft Security Blog
K
Kaspersky official blog
G
Google Developers Blog
T
Tor Project blog
PCI Perspectives
PCI Perspectives
S
Secure Thoughts
Google Online Security Blog
Google Online Security Blog
Latest news
Latest news
Google DeepMind News
Google DeepMind News
MyScale Blog
MyScale Blog
罗磊的独立博客

博客园 - lmllouk

找nopcommerce兼职人员 CS2001 CS2008 Adobe CS4 Dreamweaver 产品许可证已过期 CSS实现网页背景渐变 jQuery 多级下拉菜单解决方案 确保已安装类型(.aspx)的应用程序 sql server 行合并 灌水 的论坛 取消svn版本控制 - lmllouk - 博客园 抓屏 - lmllouk - 博客园 fatal error C1083: Cannot open include file: 'ceconfig.h': No such file or directory PowerDesigner constraint name 长度限制问题 不同服务器数据库之间的数据操作 使用PowerDesigner进行代码生成(转) 怎样给 ActiveX 控件签名并打包发布 温州到杭州火车 通过CertEnroll在CA上(1创建证书请求2得到证书3安装证书) orcale 常见错误 C++ BUILDER AnsiString 用法 - lmllouk
ArachNode.Net 之配置
lmllouk · 2012-05-26 · via 博客园 - lmllouk

1、首先运行存储过程:dbo.arachnode_usp_arachnode.net_RESET_DATABASE或者从类 Arachnode.Console。Pragram.cs中执行

ArachnodeDAO arachnodeDAO = new ArachnodeDAO();
arachnodeDAO.ExecuteSql("EXEC [dbo].[arachnode_usp_arachnode.net_RESET_DATABASE]");

 _crawler.Crawl(new CrawlRequest(new Discovery("http://taobao.com"), int.MaxValue, UriClassificationType.Domain | UriClassificationType.FileExtension, UriClassificationType.Domain | UriClassificationType.FileExtension, 1));

2、在SQL  Server 2008数据库中,对表cfg.Configuration执行如下一段代码:

use [arachnode.net]
  update cfg.Configuration 
  set Value = 'D:\LuceneDotNetIndex\Index'
  where [KEY] = 'LuceneDotNetIndexDirectory'
  
  update cfg.Configuration 
  set Value = 'D:\LuceneDotNetIndex\DownloadedFiles'
  where [KEY] = 'DownloadedFilesDirectory'

  update cfg.Configuration 
  set Value = 'D:\LuceneDotNetIndex\DownloadedImages'
  where [KEY] = 'DownloadedImagesDirectory'
  
  update cfg.Configuration 
  set Value = 'D:\LuceneDotNetIndex\DownloadedWebPages'
  where [KEY] = 'DownloadedWebPagesDirectory'
  
  update cfg.Configuration 
  set Value = 'D:\LuceneDotNetIndex\ConsoleOutputLogs'
  where [KEY] = 'ConsoleOutputLogsDirectory'

3、将数据库中的表cfg.CrawlActions中的字段

AutoCommit=true|LuceneDotNetIndexDirectory=D:\LuceneDotNetIndex\Index|CheckIndexes=false|RebuildIndexOnLoad=false|WebPageIDLowerBound=1|WebPageIDUpperBound=100000

 

4、配制数据库的链接:

Arachnode.Configuration中的

 connectionString="Data Source=HENRYWEN-TUCU\SQLEXPRESS;Initial Catalog=arachnode.net;Integrated Security=True;Connection Timeout=3600;"或者项目Function右键--属性--数据库--连接字符

5、去掉开发工具(VS2008):look up turning off 'Just My Code' - this is a Visual Studio option

工具--选项--调试--去掉启用仅我的代码

6.激活CLR功能,运行SQL Sever 外围应用配置器,选择功能的外围应用配置器,选择CLR集成,点选激活CLR集成,保存配置。

sql2008 启动clr

exec sp_configure 'show advanced options', '1';
go
reconfigure;
go
exec sp_configure 'clr enabled', '1'
go
reconfigure;
exec sp_configure 'show advanced options', '1';
go

7.新建一个查询,执行存储过程:"[dbo].[arachnode_usp_arachnode.net_RESET_DATABASE]"。

8.新建一个查询,执行:"ALTER DATABASE[arachnode.net]SET TRUSTWORTHY ON"。将数据库赋予合适的权限。

  • 首先按照百度百科“Arachnode.net”词条的内容把该执行的斗志行了,该打开的都打开了。
  • 在表“dbo.CrawlRequests”中添加需要怕的网站信息。注意起始地址“AbsoluteUri”字段有约束条件,不能包含"http://www",但是必须包含“http://”,且至少含有三个“/”。
  • 在表“cfg.Configuration”中指定“DownloadedFilesDirectory”、 “DownloadedImagesDirectory”、“DownloadedWebPagesDirectory”、 “LuceneDotNetIndexDirectory”四个字段的值,都是本地磁盘目录路径。
  • 在表“cfg.CrawlActions”中包含“LuceneDotNetIndexDirectory”的 “Settings”行中给“LuceneDotNetIndexDirectory=”后面加上本地磁盘路径。不知道是否必须和上面的 LuceneDotNetIndexDirectory一致。

最后把console main中的

 wasTheCrawlRequestAddedForCrawling = _crawler.Crawl(new CrawlRequest(new Discovery(" http://nbc.com"), int.MaxValue, UriClassificationType.None, UriClassificationType.None, 1, RenderType.None, RenderType.None));

                 改成自己的链接即可测试