惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

T
The Blog of Author Tim Ferriss
S
Securelist
D
Docker
The Register - Security
The Register - Security
GbyAI
GbyAI
Recorded Future
Recorded Future
Engineering at Meta
Engineering at Meta
Stack Overflow Blog
Stack Overflow Blog
云风的 BLOG
云风的 BLOG
P
Proofpoint News Feed
罗磊的独立博客
博客园 - 【当耐特】
F
Full Disclosure
WordPress大学
WordPress大学
腾讯CDC
小众软件
小众软件
大猫的无限游戏
大猫的无限游戏
D
DataBreaches.Net
SecWiki News
SecWiki News
L
Lohrmann on Cybersecurity
I
InfoQ
MyScale Blog
MyScale Blog
量子位
Cyberwarzone
Cyberwarzone
博客园 - 三生石上(FineUI控件)
The Hacker News
The Hacker News
F
Fortinet All Blogs
freeCodeCamp Programming Tutorials: Python, JavaScript, Git & More
Jina AI
Jina AI
博客园_首页
H
Help Net Security
K
Kaspersky official blog
酷 壳 – CoolShell
酷 壳 – CoolShell
Threat Intelligence Blog | Flashpoint
Threat Intelligence Blog | Flashpoint
www.infosecurity-magazine.com
www.infosecurity-magazine.com
Webroot Blog
Webroot Blog
Blog — PlanetScale
Blog — PlanetScale
V
Vulnerabilities – Threatpost
Y
Y Combinator Blog
The Cloudflare Blog
P
Proofpoint News Feed
V
Visual Studio Blog
C
Cyber Attacks, Cyber Crime and Cyber Security
T
Tailwind CSS Blog
爱范儿
爱范儿
P
Privacy International News Feed
Security Archives - TechRepublic
Security Archives - TechRepublic
The GitHub Blog
The GitHub Blog
C
Cybersecurity and Infrastructure Security Agency CISA
B
Blog RSS Feed

博客园 - 林宁

apache2 SSI 再论mysql_unbuffered_query与mysql_query的区别 Linux下的软链接和硬链接的不同(转载) TortoiseSVN 简明使用 php自带SOAP扩展调用web service 在linux下定时执行PHP脚本(定时执行crontab使用方法详解) php中构造函数和析构函数执行过程 如何从一个php文件向另一个地址post数据,不用表单和隐藏的变量(转) 字符截取 Linux若干小结备查寻 用 PHP 读取和编写 XML DOM 基本数据结构和php内置函数(转摘) 表单提交按钮图片形式的几种写法 php防注入 随机数、随机数种子 10 件(也许)你不了解 PHP 的事情 手机中的IMEI是什么意思? mysql替换数据库中的部分内容 一个很不错的验证类,扩展型很好(转载)
百度(baidu)的职业道德
林宁 · 2007-12-06 · via 博客园 - 林宁

很久以来网站都会关注一个问题:我的网站怎样才能被baidu或google抓取,都希望能够有尽可能多的被抓去,增大网站的访问量。
但是今天发现baidu的一个关键字搜索后竟然能够抓取到某些后台相关信息,极大地泄露了用户的信息,这样也许就关系到搜索引擎行业的职业道德问题了,同样用google就没有搜索出来(且不管它对中文搜索能力如何),搜索引擎这把“双刃剑”,在给人们带来方便的同时,是否也带来了也写“搜索道德”上的思考?作为一名web程序员,我立刻搜索了(呵呵,我这搜索可是正当地^_^)下尽量防止被“蜘蛛乱爬”的方法,但都不是绝对的。
php方法(对于有些不希望被突然抓取的页面):
1)分析   USER   AGENT   参数来防止.  
  用file_get_content()时,   $_SERVER["HTTP_USER_AGENT"]为空.  
  baidu   的   $_SERVER["HTTP_USER_AGENT"]   ==   Baiduspider+(+http://www.baidu.com/search/spider.htm)  
  google   的为   Googlebot/2.1   (+http://www.google.com/bot.html)   
 
2)在页面中加个SESSION标识,检测来源页面(正常情况下应该是你的网站,抓取的话就是空了)或在SESSION里记录访问时间。如果连续打开网页时间间隔太快。   就认为是被恶意抓取了。   就可以出   403   或者   ban   ip
3)根据baidu的 http://www.baidu.com/search/spider.htm  提示不让baidu抓取,同样google就访问
http://www.google.com/bot.html

不过这些都只对君子而也,如若小人,被抓都是不可避免的。