惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

S
Schneier on Security
有赞技术团队
有赞技术团队
T
The Blog of Author Tim Ferriss
F
Fortinet All Blogs
D
DataBreaches.Net
F
Full Disclosure
腾讯CDC
博客园 - 【当耐特】
MyScale Blog
MyScale Blog
Stack Overflow Blog
Stack Overflow Blog
小众软件
小众软件
Hugging Face - Blog
Hugging Face - Blog
Last Week in AI
Last Week in AI
OSCHINA 社区最新新闻
OSCHINA 社区最新新闻
爱范儿
爱范儿
The GitHub Blog
The GitHub Blog
Engineering at Meta
Engineering at Meta
大猫的无限游戏
大猫的无限游戏
freeCodeCamp Programming Tutorials: Python, JavaScript, Git & More
S
SegmentFault 最新的问题
The Register - Security
The Register - Security
WordPress大学
WordPress大学
博客园 - 聂微东
雷峰网
雷峰网
J
Java Code Geeks
Exploit-DB.com RSS Feed
Exploit-DB.com RSS Feed
P
Privacy International News Feed
酷 壳 – CoolShell
酷 壳 – CoolShell
A
Arctic Wolf
Scott Helme
Scott Helme
C
Cyber Attacks, Cyber Crime and Cyber Security
T
Tor Project blog
博客园 - 三生石上(FineUI控件)
Know Your Adversary
Know Your Adversary
AWS News Blog
AWS News Blog
G
Google Developers Blog
www.infosecurity-magazine.com
www.infosecurity-magazine.com
C
CERT Recently Published Vulnerability Notes
O
OpenAI News
Project Zero
Project Zero
K
KPMG report finds enterprise disconnect between AI and its ROI | CIO
Application and Cybersecurity Blog
Application and Cybersecurity Blog
云风的 BLOG
云风的 BLOG
N
News and Events Feed by Topic
MongoDB | Blog
MongoDB | Blog
让小产品的独立变现更简单 - ezindie.com
让小产品的独立变现更简单 - ezindie.com
Microsoft Security Blog
Microsoft Security Blog
Cisco Talos Blog
Cisco Talos Blog
P
Palo Alto Networks Blog
Schneier on Security
Schneier on Security

Rat's Blog - SSBC

手撕包菜SSBC改进版之一键部署开心版 - Rat's Blog 很好用的DHT磁力链接搜索引擎快速安装方法 - Rat's Blog
手撕包菜SSBC DHT磁力链一键安装包 - Rat's Blog
博主: Rat's · 2017-06-15 · via Rat's Blog - SSBC

说明

1、抛弃django自带的web server,使用更适用于生产环境的Nginx+Gunicorn
2、增加绑定域名的功能。

更新

[2017.07.05]
在冰剑的增加入库黑名单功能的基础上,修复了爬虫爬一段时间就挂掉的bug,再也不用使用爬虫自动重启脚本了,即可以跳过下面第2个步骤。

安装

系统要求:Centos7纯净版,主机内存最好1G或以上且有swap
使用方法:解析域名到主机IP上。
提示:本方法还不算是完全的一键安装,适合喜欢折腾的人,如果想一个脚本就全部安装完成的请参考:手撕包菜SSBC改进版之一键部署开心版

1、安装脚本
使用ssh登录vps运行:

wget --no-check-certificate https://www.moerats.com/usr/down/ssbc/ssbc1.4.sh && sh ssbc1.4.sh

2、定时重启爬虫
下载脚本并给执行权限:

wget --no-check-certificate https://www.moerats.com/usr/down/ssbc/ssbc-reboot.sh && chmod +x ssbc-reboot.sh

增加计划任务:

crontab -e

i进入编辑模式:

0,30 * * * * sh /root/ssbc-reboot.sh

意思是每小时的0分和30分自动执行ssbc-reboot.sh这个文件,然后按Esc键退出编辑模式,然后按着shift并同时连按2次z,即回到shell界面。

3、上传程序
中文模板下载地址:手撕包菜中文模板2017-02-25.zip

下载模板后解压然后用WinSCPftp工具上传到/root/ssbc-master/web/目录,再执行命令:

ln -s /usr/lib/python2.7/site-packages/django/contrib/admin/static/admin /root/ssbc-master/web/static/admin
killall gunicorn
cd /root/ssbc-master/
nohup gunicorn ssbc.wsgi:application -b 127.0.0.1:8000 --reload>/dev/zero 2>&1&

冰剑新增功能:增加入库黑名单机制。下载地址:手撕包菜爬虫增加入库黑名单 修复崩溃bug 201707.rar,下载后可直接使用,内附使用说明书。

常见问题及解决

1.必须centos7吗?
非常建议使用centos7,centos6可能会有意想不到的错误
2.如何设置首页关键字?
登录管理员后台,点击Rec keywordss,右上角新增
3.怎么查看入库的文件?
登录管理员后台,点击 Hashs 
4.怎么查看每天入库了多少文件,以便清楚入库效率?
登录管理员后台,点击 Status reports 
5.如何确认web服务器、采集、入库正在运行?
运行 ps -ef|grep python|grep -v grep
结果里面有
gunicorn ssbc.wsgi:application -b 127.0.0.1:8000 --reload 
python simdht_worker.py  
python index_worker.py
即表示正在运行。
——————————————————————————————————————
去除搜索页 右下角广告
[root@localhost ssbc-master]# cd web/static/js
[root@localhost js]# vi ssbc.js   找到如下3行,在前面添加//进行注释,保存
//        document.write('<script src="http://v.6dvip.com/ge/?s=47688"><\/script>');
//            document.writeln("<script language=\"JavaScript\" type=\"text/javascript\" src=\"http://js.6dad.com/js/xiaoxia.js\"></script>");
//           document.writeln("<script language=\"JavaScript\" type=\"text/javascript\" src=\"http://js.ta80.com/js/12115.js\"></script>");
——————————————————————————————————————
如何修改扩展名归类?
workers/metautils.py文件中有如下代码:
def get_category(ext):
    ext = ext + '.'
    cats = {
        u'video': '.avi.mp4.rmvb.m2ts.wmv.mkv.flv.qmv.rm.mov.vob.asf.3gp.mpg.mpeg.m4v.f4v.',
        u'image': '.jpg.bmp.jpeg.png.gif.tiff.',
        u'document': '.pdf.isz.chm.txt.epub.bc!.doc.ppt.',
        u'music': '.mp3.ape.wav.dts.mdf.flac.',
        u'package': '.zip.rar.7z.tar.gz.iso.dmg.pkg.',
        u'software': '.exe.app.msi.apk.'
    }

意思是:扩展名为.exe、.app、.msi、,.apk的文件都属于software类型。
如果你把u'software': '.exe.app.msi.apk.' 改为 u'software': 'app.msi.apk.',那么exe将会被归为other类型。
所以在这里修改归类设置。
——————————————————————————————————————
如何禁止某些格式/分类的文件入库?
workers/metadata.py文件中有如下代码:
info['extension'] = metautils.get_extension(bigfname).lower()
info['category'] = metautils.get_category(info['extension'])
所以如果你要排除扩展名为.exe的文件,或者类型为software,可以在上面代码后面加上
##########这是增加的过滤-开始############
#按扩张名过滤,禁止扩展名为.exe的入库
if info['extension'] == 'exe':
    return # 直接返回,跳过下面的入库
#按文件类型过滤,禁止类型为software的入库
if info['category'] == 'software':
    return
#禁止类型为other的入库
if info['category'] == 'other':
    return
##########这是增加的过滤-结束############
——————————————————————————————————————
如何重建索引?
第一步:
删除/data目录
第二步:
进入数据库,把search_hash表中所有记录的tagged字段置为0。
UPDATE search_hash SET tagged=0
然后启动sphinx、index_worker.py。
——————————————————————————————————————
MySQL server has gone away提示怎么办?
ssbc 运行一段时间后,大概半个小时,就莫名奇妙停止不爬了。 错误提示如下:
MySQL server has gone away
通过错误提示可以看出,其实是ssbc与mysql(maridb)断开连接了,导致程序异常,当然就插入不了数据了。
有3种解决办法:
方法1是写个脚本,定时重启爬虫。
方法2是修改下代码,当mysql断开连接时,再次重连mysql就可以拉。
方法3是修改Mysql配置,将闲置时间wait_timeout设置长一点。
——————————————————————————————————————
哪里设置爬虫线程?让爬虫爬快/慢点?
在workers/simdht_worker.py里面把MAX_QUEUE_LT、MAX_QUEUE_PT、max_node_qsize设大/小一点。
如何关闭调试模式?设置404页面?
请参考 http://www.githubs.cn/post/19
——————————————————————————————————————
如何在搜索结果页面添加迅雷链接?
在web/views.py文件加入以下代码生成迅雷链接:
import base64
xunleiurl = 'AAmagnet:?xt=urn:btih:' + d['info']['info_hash'] + 'ZZ'
d['xunlei_url'] = 'thunder://' + base64.b64encode(xunleiurl)
可以在模板中用“ {{xunlei_url}} ”调用。位置要放在return render(request, 'info.html', d)的前面。
——————————————————————————————————————
SSBC如何搬家?
数据库用mysqldump导出sql,在新服务器上运行一键包,再导入刚才的sql。
——————————————————————————————————————
提示duplicate id 'xxxx'解决办法
进入数据库,执行语句
update search_hash set tagged=True where id=xxxx;

相关教程:很好用的DHT磁力链接搜索引擎快速安装方法
原文地址:http://www.hostloc.com/thread-370912-1-1.html


版权声明:本文为原创文章,版权归 Rat's Blog 所有,转载请注明出处!

本文链接:https://www.moerats.com/archives/176/

如教程需要更新,或者相关链接出现404,可以在文章下面评论留言。