惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

Cyber Security Advisories - MS-ISAC
Cyber Security Advisories - MS-ISAC
Webroot Blog
Webroot Blog
U
Unit 42
A
About on SuperTechFans
宝玉的分享
宝玉的分享
月光博客
月光博客
C
CERT Recently Published Vulnerability Notes
P
Privacy International News Feed
Microsoft Security Blog
Microsoft Security Blog
G
Google Developers Blog
P
Privacy & Cybersecurity Law Blog
cs.CL updates on arXiv.org
cs.CL updates on arXiv.org
奇客Solidot–传递最新科技情报
奇客Solidot–传递最新科技情报
S
Securelist
CTFtime.org: upcoming CTF events
CTFtime.org: upcoming CTF events
Spread Privacy
Spread Privacy
L
Lohrmann on Cybersecurity
Apple Machine Learning Research
Apple Machine Learning Research
K
Kaspersky official blog
Hugging Face - Blog
Hugging Face - Blog
B
Blog
I
Intezer
Last Week in AI
Last Week in AI
T
Threat Research - Cisco Blogs
V
V2EX
L
LangChain Blog
AI
AI
G
GRAHAM CLULEY
T
Tor Project blog
人人都是产品经理
人人都是产品经理
D
Docker
WordPress大学
WordPress大学
Google DeepMind News
Google DeepMind News
I
InfoQ
Y
Y Combinator Blog
C
Comments on: Blog
GbyAI
GbyAI
www.infosecurity-magazine.com
www.infosecurity-magazine.com
酷 壳 – CoolShell
酷 壳 – CoolShell
T
Tailwind CSS Blog
aimingoo的专栏
aimingoo的专栏
钛媒体:引领未来商业与生活新知
钛媒体:引领未来商业与生活新知
腾讯CDC
N
News and Events Feed by Topic
MyScale Blog
MyScale Blog
H
Help Net Security
Vercel News
Vercel News
T
Tenable Blog
博客园 - 三生石上(FineUI控件)
爱范儿
爱范儿

老董笔记

尚硅谷机构在哪?尚硅谷培训怎么样?靠谱吗-互联网IT百科 韩顺平介绍,传智讲师,开办泰牛,入尚硅谷等一系列-互联网IT百科 pandas多重索引标准样式(写入excel有空行)-互联网IT百科 cannot join with no overlapping index names-互联网IT百科 pandas多列变多行(即宽表变长表)melt和stack函数-互联网IT百科 pandas多行转多列(长表变宽表)pivot和unstack-互联网IT百科 Index contains duplicate entries, cannot reshape完美解决-互联网IT百科 single positional indexer is out-of-bounds-互联网IT百科 Can only compare identically-labeled Series objects-互联网IT百科 pandas transform用法详解(多个案例)-互联网IT百科 python四舍五入精确实现-互联网IT百科 pandas的groupby使用apply分组排序-互联网IT百科 index 0 is out of bounds for axis 0 with size 0-互联网IT百科 pandas分组过滤filter函数-互联网IT百科 联想Win10系统如何禁用触摸屏关闭触摸-互联网IT百科 groupby分组计算transform转换返回相同长度序列-互联网IT百科 brooks seo教程python教程,brooks seo教程网盘,布鲁seo资源-互联网IT百科 电脑右键文件夹一直转圈电卡死怎么回事-互联网IT百科 施琪嘉的心理成长课(荐)-互联网IT百科 百度SEO公司_SEO推广公司哪家好_SEO外包服务如何选-老董笔记 groupby后agg同1列用多个聚合函数、不同列用不同函数、自定义函数-互联网IT百科 pandas的groupby单列多列分组聚合运算-互联网IT百科 DataFrameGroupBy对象及分组个数、分组大小、组名索引、组数据详解-互联网IT百科 pandas中groupby之Grouper and axis must be same length-互联网IT百科 pandas中groupby的分组原理-互联网IT百科 pandas的groupby的使用详解大全-互联网IT百科 openpyxl单元格自动换行强制换行Alignment(wrapText=True)-互联网IT百科 python教程全套(可就业)-互联网IT百科 联想win10系统CPU显示100%,电脑呼呼响怎么回事-互联网IT百科 如何自制CPU,CPU原理是怎么样的?-互联网IT百科 多款视频制作工具(免费)分享及素材推荐-互联网IT百科 pandas坑:创建df后多行数据重复-互联网IT百科 pandas坑:非空字典创建df后为空df-互联网IT百科 3种方法创建字节串bytes及其使用-互联网IT百科 yield是什么?为什么可以暂停程序,让出CPU-互联网IT百科 python自定义异常实现(BaseException与Exception差别)-互联网IT百科 基于生成器实现上下文管理器(contextmanager装饰器)-互联网IT百科 什么是上下文管理器,基于类自定义上下文管理器-互联网IT百科 cookie与session是什么?有何关系-互联网IT百科 requests使用http代理(含auth认证代理)、socks代理-互联网IT百科 requests的SSL证书验证及警告处理-互联网IT百科 requests自动登录的2种方法(session对象与cookie)-互联网IT百科 requests会话对象Session跨请求保持cookie-互联网IT百科 requests上传多个文件及表单信息-互联网IT百科 requests上传单个文件-互联网IT百科 requests之post字符串、json数据及含中文字符处理-互联网IT百科 requests的post请求提交表单的2种方式-互联网IT百科 封装requests自定义请求函数限制最大请求次数-互联网IT百科 requests的r.raw流式下载与r.content的区别-互联网IT百科 什么是前端和后端,前后端开发的区别-互联网IT百科 requests二进制响应r.content下载图片视频及解码gzip和deflate-互联网IT百科 客户端、终端、服务端是什么意思-互联网IT百科 文本文件和二进制的区别(人和动物的区别)-互联网IT百科 什么是同步异步,同步异步的区别-互联网IT百科 python枚举项比较运算及相同的key和value的处理-互联网IT百科 python枚举类Enum应用场景及枚举类获取标签和值-互联网IT百科 python抽象类的定义和实现(abc模块)-互联网IT百科 类的约束子类继承父类与鸭子类型-互联网IT百科 openpyxl add_image指定单元格插入图片设置图片大小-互联网IT百科 openpyxl unmerge_cells取消合并单元格指定单元格坐标指定行列位置-互联网IT百科 openpyxl合并单元格指定行列位置,指定起始单元格-互联网IT百科 seo教程_seo视频教程_冯耀宗seo|附子seo-互联网IT百科 pip 安装 Could not install packages due to an OSError: [WinError 5] 拒绝访问。: 'D:\\-互联网IT百科 DataFrame的[],loc,iloc多条件判断筛选(布尔索引的本质)-互联网IT百科 DataFrame的iloc位置索引,切片,布尔索引筛选单多行多列-互联网IT百科 DataFrame的loc标签,切片,布尔索引选择单行多行多列-互联网IT百科 DataFrame直接索引,切片,布尔索引选择单行多行-互联网IT百科 selenium不重启更改代理ip(使用隧道代理)-互联网IT百科 什么是多态,统一函数接口实现多态-互联网IT百科 单下划线变量和方法-单前导下划线-互联网IT百科 java面试 :​​​​​​​servlet的配置文件 web.xml-互联网IT百科 Java面试 :如何解决servlet线程安全-互联网IT百科 Java面试 :servlet的生命周期及servlet常用方法-互联网IT百科 Java面试 :类的加载机制是什么?-互联网IT百科 面试: Redis集群方案哪些方案?-互联网IT百科 面试:Redis适合在哪些场景使用-互联网IT百科 面试:Redis所有数据放到内存中的原因是什么?-互联网IT百科 面试:Redis有哪几种数据淘汰策略?-互联网IT百科 面试:Redis相比memcached有哪些优势?-互联网IT百科 面试:Redis是什么?-互联网IT百科 前端面试题演示jQuery的链式调用过程-互联网IT百科 前端面试题演示一下jQuery扩展插件-互联网IT百科 Java IO和NIO的区别是什么-互联网IT百科 从浏览器地址栏输入URL到显示页面的过程-互联网IT百科 类外部如何访问私有属性私有方法-互联网IT百科 seo快排浏览器指纹(基本指纹|高级指纹|硬件指纹|协议栈指纹)-互联网IT百科 Reindexing only valid with uniquely valued Index objects-互联网IT百科 pandas空dataframe对象添加列cannot set a frame with no defined index and a scalar-互联网IT百科 selenium谷歌浏览器崩溃out of memory彻底解决-互联网IT百科 pycharm破解(2022年亲测)pycharm激活码完美2099年-互联网IT百科 pycharm破解到2099年-互联网IT百科 抖音美食短视频创造者学员必备剪辑视频基础课-老董笔记 陈小叔《落地实践班:抖音流量引流+抖音变现》-老董笔记 自媒体高效创作工具大全课 最好用的自媒体工具大全-老董笔记 shopee狼群团队:shopee虾皮全套课程(附相关文件)无水印版-老董笔记 12节影评变现课,教你写出好玩|涨粉|又赚钱的影评-老董笔记 精品课程:新手玩拼多多从0到高手赚钱全攻略【完结】-老董笔记 百微商学院:微博SEO实战引流玩法 快速实现被动获客-老董笔记 微商百度霸屏玩法和短视频批量引流玩法(课件+录音)-老董笔记 selenium消除启动特征避免被反爬-互联网IT百科
python采集百度PC搜索结果页真实url-互联网IT百科
2020-08-24 · via 老董笔记

  1000个读者有1000个哈姆雷特,1000个seo有1000种需求,采集百度搜索结果页的真实url就是一项。很多SEO工具实现的过程也需要采集真实url这一步,下面的代码就是采集百度PC排名的真实url。

  1、准备关键词文件kwd.txt(一行一个关键词)。

  2、结果会保存成bdpc_real_url.txt。

  3、线程数默认是1,现在百度反爬比之前严重!线程最好是1。【多线程写同一个文件需要加锁否则可能数据错乱】

# ‐*‐ coding: utf‐8 ‐*‐
"""
采集百度pc首页排名的真实url
准备kwd.txt,一行一个词
线程数自己设,默认2
"""
import requests
from pyquery import PyQuery as pq
import threading
import queue
import time
import gc


class BdpcRealUrl(threading.Thread):

    def __init__(self):
        threading.Thread.__init__(self)

    # 读取txt文件 获取待查询url
    @staticmethod
    def read_txt(filepath):
        q = queue.Queue()
        for url in open(filepath, encoding='utf-8'):
            url = url.strip()
            q.put(url)
        return q

    # 获取某待查询url的serp源码
    def get_html(self,url,retry=2):
        try:
            r = requests.get(url=url,headers=my_header,timeout=5)
        except Exception as e:
            print('获取源码失败',e)
            time.sleep(6)
            if retry > 0:
                self.get_html(url,retry-1)
        else:
            html = r.content.decode('utf-8',errors='ignore')  # 用r.text有时候识别错误
            url = r.url  # 反爬会重定向,取定向后的地址
            return html,url

    # 获取某待查询url的serp源码所有排名url
    def get_encrpt_urls(self,html,url):
        encrypt_url_list = []
        doc = pq(html)
        title = doc('title').text()
        if '_百度搜索' in title and 'https://www.baidu.com/s?ie=utf-8' in url:
            try:
                a_list = doc('.t a').items()
            except Exception as e:
                print('未提取到serp上的解密url', e)
            else:
                for a in a_list:
                    encrypt_url = a.attr('href')
                    if encrypt_url.find('http://www.baidu.com/link?url=') == 0:
                        encrypt_url_list.append(encrypt_url)
        else:
            print(title,'源码异常,可能反爬')
            time.sleep(100)
        return encrypt_url_list

    # 解密某条加密url
    def decrypt_url(self,encrypt_url,retry=1):
        real_url = None # 默认None
        try:
            encrypt_url = encrypt_url.replace('http://','https://')
            # print(encrypt_url)
            r = requests.head(encrypt_url,headers=my_header)
        except Exception as e:
            print(encrypt_url,'解密失败',e)
            time.sleep(6)
            if retry > 0:
                self.decrypt_url(encrypt_url,retry-1)
        else:
            real_url = r.headers['Location']
        return real_url

    # 获取结果页真实url
    def get_real_urls(self, encrypt_url_list):
        if encrypt_url_list:
            real_url_list = [self.decrypt_url(encrypt_url) for encrypt_url in encrypt_url_list]
            return real_url_list
        else:
            return []

    # 线程函数
    def run(self):
        while 1:
            kwd = q.get()
            # url带上tn等参数 否则会被反爬
            url = "https://www.baidu.com/s?ie=utf-8&rsv_bp=1&tn=87048150_dg&wd={0}".format(kwd)
            try:
                html,now_url = self.get_html(url)
                encrypt_url_list = self.get_encrpt_urls(html,now_url)
                real_urls = self.get_real_urls(encrypt_url_list)
            except Exception as e:
                print(e)
            else:
                for real_url in real_urls:
                    f.write(real_url + '
')
                    print(real_url)
                f.flush()
            finally:
                del kwd
                gc.collect()
                q.task_done()


if __name__ == "__main__":

    start = time.time()
    my_header = {
        'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36',
        'Cookie':'BIDUPSID=EB1F44AB7896D7EFA4F0FD243C29FF17; PSTM=1567562976; BAIDUID=EB1F44AB7896D7EFA4F0FD243C29FF17:SL=0:NR=10:FG=1; BDUSS=BZWlZuSXpNWmNjM3BTSktnM2xhbGhIdUlqeW1ITEdvclpzSHpIS3p2WUMwc2hkRVFBQUFBJCQAAAAAAAAAAAEAAAAGtiZkNzcyNDgzMjAwZG9uZwAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAJFoV0CRaFdeF; plus_cv=1::m:49a3f4a6; MSA_WH=400_655; lsv=globalTjs_3a11c3d-globalT_androidcss_4630b37-wwwT_androidcss_c5f9a54-searchboxcss_591d86b-globalBcss_aad48cc-wwwBcss_777000e-framejs_c9ac861-atomentryjs_5cd4b30-globalBjs_99ad350-wwwjs_b674808; BD_UPN=19314353; BDORZ=FFFB88E999055A3F8A630C64834BD6D0; BDICON=10294984.98; delPer=0; BD_CK_SAM=1; rsv_i=c2b6G%2F3avQC%2FfgLjK6Tg5dByzXJGjTHszykjx0XgYlZZgizi3%2F9wOVrzCucTWKLxPYYUs%2BqPpygizpeQMUWhVScLKRxzaaw; FEED_SIDS=732051_1030_14; plus_lsv=f197ee21ffd230fd; Hm_lvt_12423ecbc0e2ca965d84259063d35238=1572225355,1572415847,1572418912; Hm_lpvt_12423ecbc0e2ca965d84259063d35238=1572418912; BAIDULOC=12966109.384666294_4841881.341700486_100_131_1572418911981; SE_LAUNCH=5%3A26206981_0%3A26206981; BDPASSGATE=IlPT2AEptyoA_yiU4VKH3kIN8efjWvW4AfvESkplQFStfCaWmhH3BrUzWz0HSieXBDP6wZTXdMsDxXTqXlVXa_EqnBsZolpOaSaXzKGoucHtVM69-t5yILXoHUE2sA8PbRhL-3MEF2ZELlQvcgjchQZrchW8z3JTpxz1z5Xocc0T1UKR2VLJxJyTS7xvRHvcPNuz94rXnEpKKSmBUADHRVjYcSQyWXkD5NOtjsAm1Q0WrkoXGurSRvAa1G8vJpFeXAio1fWU60ul269v5HViViwh9UOI7u46MnJZ; H_WISE_SIDS=137151_137734_137755_136649_137663_137071_128070_134982_136665_120196_136768_137002_137788_136366_132909_136456_137690_135847_131246_137746_132378_136681_118893_118876_118846_118827_118802_132782_136800_136431_136093_133352_136862_137089_129652_136194_124637_137105_137572_133847_132551_137468_134046_129646_131423_137212_137466_136034_110085_127969_137613_131951_136611_137252_128196_137696_136636_137767_137207_134347_134231_137618_137449; kleck=638cabc3ad33a7a082343c4553a47c42; BDRCVFR[x4e6higC8W6]=mk3SLVN4HKm; PSINO=7; H_PS_PSSID=1440_21084_20697_29567_29220; sug=3; sugstore=0; ORIGIN=0; bdime=0; H_PS_645EC=db34IWhem1lYO7OwXVBPbsx2yQuIu3jmqGT9FUp09TItjsTj8omDTLnov6%2BIZQe6dqc',
        'Host':'www.baidu.com',
        'Upgrade-Insecure-Requests':'1'}
    q = BdpcRealUrl.read_txt('kwd.txt') 
    f = open('bdpc_real_url.txt','w+',encoding='utf-8')
    # 设置线程数
    for i in list(range(1)):
        t = BdpcRealUrl()
        t.setDaemon(True)
        t.start()
    q.join()
    f.flush()
    f.close()
    end = time.time()
    print('耗时{0}min'.format((end - start) / 60))
https://baike.baidu.com/item/%E6%90%9C%E7%B4%A2%E5%BC%95%E6%93%8E%E4%BC%98%E5%8C%96/3132?fromtitle=seo&fromid=102990&fr=aladdin
https://www.seoqe.com/
http://www.shangpaiming.com/
https://www.xminseo.com/
http://www.sshz.com/
https://www.seodt.com/
http://fanyi.baidu.com/?aldtype=85#en/zh/Seo
https://www.yuntask.com/
https://www.godaddy.com/online-marketing/seo-tools
http://www.zhantengwang.com/
https://baike.baidu.com/item/%E6%90%9C%E7%B4%A2%E5%BC%95%E6%93%8E%E8%90%A5%E9%94%80/9387327?fromtitle=sem&fromid=2554866&fr=aladdin
http://www.zhihu.com/question/20307058
http://www.jiuzhilan.com/tag/sem/
https://baike.baidu.com/item/%E6%89%AB%E6%8F%8F%E7%94%B5%E5%AD%90%E6%98%BE%E5%BE%AE%E9%95%9C/8062773?fr=aladdin
https://baijiahao.baidu.com/s?id=1595599564161960109&wfr=spider&for=pc
http://tieba.baidu.com/f?kw=sem&fr=ala0&tpl=5
http://www.mysemlife.com/
https://www.niaogebiji.com/pc/article/catlist/?type=article&catid=106
https://www.semfenxi.com/
http://fanyi.baidu.com/?aldtype=85#en/zh/Sem
https://baike.baidu.com/item/PHP/9337?fr=aladdin
https://www.php.net/
https://www.runoob.com/php/php-tutorial.html
http://tieba.baidu.com/f?kw=php&fr=ala0&tpl=5
https://www.php.net/downloads.php
https://www.php.cn/
https://www.w3school.com.cn/php/index.asp
https://www.baidu.com/s?tn=news&rtt=1&bsst=1&wd=php&cl=2&origin=ps
https://www.python.org/
https://www.runoob.com/python/python-tutorial.html
https://baike.baidu.com/item/Python/407313?fr=aladdin
https://www.python.org/getit/
http://www.zhihu.com/topic/19552832
https://www.liaoxuefeng.com/wiki/0014316089557264a6b348958f449949df42a6d3a2e542c000
https://www.runoob.com/python/python-intro.html
https://www.baidu.com/s?tn=news&rtt=1&bsst=1&wd=python&cl=2&origin=ps
http://baijiahao.baidu.com/s?id=1648241919117346415&wfr=spider&for=pc
http://www.java.com/
https://baike.baidu.com/item/Java/85979?fr=aladdin
https://www.oracle.com/technetwork/java/javase/downloads/
http://tieba.baidu.com/f?kw=java&fr=ala0&tpl=5
https://www.java.com/zh_CN/download
https://www.oracle.com/technetwork/java/index.html
https://baike.baidu.com/item/java/13130360
https://www.baidu.com/s?tn=news&rtt=1&bsst=1&wd=java&cl=2&origin=ps
https://www.jb51.net/list/list_207_1.htm
https://baike.baidu.com/item/c%E8%AF%AD%E8%A8%80/105958?fromtitle=c&fromid=7252092&fr=aladdin
https://www.runoob.com/cprogramming/c-tutorial.html
http://tieba.baidu.com/f?kw=c&fr=ala0&tpl=5
http://www.chem17.com/
https://www.autohome.com.cn/3801/
http://om.cn/
https://baike.pcauto.com.cn/149.html
http://c.biancheng.net/c/
https://baike.baidu.com/item/C-BLOCK/9778228?fr=aladdin
https://www.runoob.com/cprogramming/c-100-examples.html
https://baike.baidu.com/item/c%E8%AF%AD%E8%A8%80/105958?fromtitle=c&fromid=7252092&fr=aladdin
https://www.runoob.com/cprogramming/c-tutorial.html
http://tieba.baidu.com/f?kw=c&fr=ala0&tpl=5
http://www.chem17.com/
https://www.autohome.com.cn/3801/
http://om.cn/
https://baike.pcauto.com.cn/149.html
http://c.biancheng.net/c/
https://baike.baidu.com/item/C-BLOCK/9778228?fr=aladdin
https://www.runoob.com/cprogramming/c-100-examples.html
http://tieba.baidu.com/f?kw=%B1%E0%B3%CC&fr=ala0&tpl=5
http://ask.csdn.net/
https://baike.baidu.com/item/%E7%BC%96%E7%A8%8B/139828?fr=aladdin
https://www.bccn.net/
http://www.maocode.com/
http://image.baidu.com/search/index?tn=baiduimage&ct=201326592&lm=-1&cl=2&ie=gb18030&word=%B1%E0%B3%CC&fr=ala&ala=1&alatpl=adress&pos=0&hs=2&xthttps=000000
http://www.zhihu.com/topic/19554298
https://baike.baidu.com/item/%E7%BC%96%E7%A8%8B%E8%AF%AD%E8%A8%80/9845131
https://www.codemao.cn/
https://www.iplaysoft.com/category/programming
http://www.python66.com/
http://seo.chinaz.com/www.python66.com/
http://www.juhemulu.com/site.asp?SiteID=10704
http://www.kuz8.com/v.php?id=6406763
https://ask.seowhy.com/site/40672
http://pr.chinaz.com/www.python66.cn
https://ask.seowhy.com/site/30467
https://www.cnblogs.com/caoj/p/7815750.html
https://blog.csdn.net/qq_42127861/article/details/90749741
https://www.cnblogs.com/xxtalhr/p/10768593.html


  采集百度PC排名的真实url代码大家复制下来测试一把,有问题反馈哦。

很赞哦!

python编程网提示:转载请注明来源www.python66.com。
有宝贵意见可添加站长微信(底部),获取技术资料请到公众号(底部)。同行交流请加群 python学习会