惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

Cyber Security Advisories - MS-ISAC
Cyber Security Advisories - MS-ISAC
Webroot Blog
Webroot Blog
U
Unit 42
A
About on SuperTechFans
宝玉的分享
宝玉的分享
月光博客
月光博客
C
CERT Recently Published Vulnerability Notes
P
Privacy International News Feed
Microsoft Security Blog
Microsoft Security Blog
G
Google Developers Blog
P
Privacy & Cybersecurity Law Blog
cs.CL updates on arXiv.org
cs.CL updates on arXiv.org
奇客Solidot–传递最新科技情报
奇客Solidot–传递最新科技情报
S
Securelist
CTFtime.org: upcoming CTF events
CTFtime.org: upcoming CTF events
Spread Privacy
Spread Privacy
L
Lohrmann on Cybersecurity
Apple Machine Learning Research
Apple Machine Learning Research
K
Kaspersky official blog
Hugging Face - Blog
Hugging Face - Blog
B
Blog
I
Intezer
Last Week in AI
Last Week in AI
T
Threat Research - Cisco Blogs
V
V2EX
L
LangChain Blog
AI
AI
G
GRAHAM CLULEY
T
Tor Project blog
人人都是产品经理
人人都是产品经理
D
Docker
WordPress大学
WordPress大学
Google DeepMind News
Google DeepMind News
I
InfoQ
Y
Y Combinator Blog
C
Comments on: Blog
GbyAI
GbyAI
www.infosecurity-magazine.com
www.infosecurity-magazine.com
酷 壳 – CoolShell
酷 壳 – CoolShell
T
Tailwind CSS Blog
aimingoo的专栏
aimingoo的专栏
钛媒体:引领未来商业与生活新知
钛媒体:引领未来商业与生活新知
腾讯CDC
N
News and Events Feed by Topic
MyScale Blog
MyScale Blog
H
Help Net Security
Vercel News
Vercel News
T
Tenable Blog
博客园 - 三生石上(FineUI控件)
爱范儿
爱范儿

老董笔记

尚硅谷机构在哪?尚硅谷培训怎么样?靠谱吗-互联网IT百科 韩顺平介绍,传智讲师,开办泰牛,入尚硅谷等一系列-互联网IT百科 pandas多重索引标准样式(写入excel有空行)-互联网IT百科 cannot join with no overlapping index names-互联网IT百科 pandas多列变多行(即宽表变长表)melt和stack函数-互联网IT百科 pandas多行转多列(长表变宽表)pivot和unstack-互联网IT百科 Index contains duplicate entries, cannot reshape完美解决-互联网IT百科 single positional indexer is out-of-bounds-互联网IT百科 Can only compare identically-labeled Series objects-互联网IT百科 pandas transform用法详解(多个案例)-互联网IT百科 python四舍五入精确实现-互联网IT百科 pandas的groupby使用apply分组排序-互联网IT百科 index 0 is out of bounds for axis 0 with size 0-互联网IT百科 pandas分组过滤filter函数-互联网IT百科 联想Win10系统如何禁用触摸屏关闭触摸-互联网IT百科 groupby分组计算transform转换返回相同长度序列-互联网IT百科 brooks seo教程python教程,brooks seo教程网盘,布鲁seo资源-互联网IT百科 电脑右键文件夹一直转圈电卡死怎么回事-互联网IT百科 施琪嘉的心理成长课(荐)-互联网IT百科 百度SEO公司_SEO推广公司哪家好_SEO外包服务如何选-老董笔记 groupby后agg同1列用多个聚合函数、不同列用不同函数、自定义函数-互联网IT百科 pandas的groupby单列多列分组聚合运算-互联网IT百科 DataFrameGroupBy对象及分组个数、分组大小、组名索引、组数据详解-互联网IT百科 pandas中groupby之Grouper and axis must be same length-互联网IT百科 pandas中groupby的分组原理-互联网IT百科 pandas的groupby的使用详解大全-互联网IT百科 openpyxl单元格自动换行强制换行Alignment(wrapText=True)-互联网IT百科 python教程全套(可就业)-互联网IT百科 联想win10系统CPU显示100%,电脑呼呼响怎么回事-互联网IT百科 如何自制CPU,CPU原理是怎么样的?-互联网IT百科 多款视频制作工具(免费)分享及素材推荐-互联网IT百科 pandas坑:创建df后多行数据重复-互联网IT百科 pandas坑:非空字典创建df后为空df-互联网IT百科 3种方法创建字节串bytes及其使用-互联网IT百科 yield是什么?为什么可以暂停程序,让出CPU-互联网IT百科 python自定义异常实现(BaseException与Exception差别)-互联网IT百科 基于生成器实现上下文管理器(contextmanager装饰器)-互联网IT百科 什么是上下文管理器,基于类自定义上下文管理器-互联网IT百科 cookie与session是什么?有何关系-互联网IT百科 requests使用http代理(含auth认证代理)、socks代理-互联网IT百科 requests的SSL证书验证及警告处理-互联网IT百科 requests自动登录的2种方法(session对象与cookie)-互联网IT百科 requests会话对象Session跨请求保持cookie-互联网IT百科 requests上传多个文件及表单信息-互联网IT百科 requests上传单个文件-互联网IT百科 requests之post字符串、json数据及含中文字符处理-互联网IT百科 requests的post请求提交表单的2种方式-互联网IT百科 封装requests自定义请求函数限制最大请求次数-互联网IT百科 requests的r.raw流式下载与r.content的区别-互联网IT百科 什么是前端和后端,前后端开发的区别-互联网IT百科 requests二进制响应r.content下载图片视频及解码gzip和deflate-互联网IT百科 客户端、终端、服务端是什么意思-互联网IT百科 文本文件和二进制的区别(人和动物的区别)-互联网IT百科 什么是同步异步,同步异步的区别-互联网IT百科 python枚举项比较运算及相同的key和value的处理-互联网IT百科 python枚举类Enum应用场景及枚举类获取标签和值-互联网IT百科 python抽象类的定义和实现(abc模块)-互联网IT百科 类的约束子类继承父类与鸭子类型-互联网IT百科 openpyxl add_image指定单元格插入图片设置图片大小-互联网IT百科 openpyxl unmerge_cells取消合并单元格指定单元格坐标指定行列位置-互联网IT百科 openpyxl合并单元格指定行列位置,指定起始单元格-互联网IT百科 seo教程_seo视频教程_冯耀宗seo|附子seo-互联网IT百科 pip 安装 Could not install packages due to an OSError: [WinError 5] 拒绝访问。: 'D:\\-互联网IT百科 DataFrame的[],loc,iloc多条件判断筛选(布尔索引的本质)-互联网IT百科 DataFrame的iloc位置索引,切片,布尔索引筛选单多行多列-互联网IT百科 DataFrame的loc标签,切片,布尔索引选择单行多行多列-互联网IT百科 DataFrame直接索引,切片,布尔索引选择单行多行-互联网IT百科 selenium不重启更改代理ip(使用隧道代理)-互联网IT百科 什么是多态,统一函数接口实现多态-互联网IT百科 单下划线变量和方法-单前导下划线-互联网IT百科 java面试 :​​​​​​​servlet的配置文件 web.xml-互联网IT百科 Java面试 :如何解决servlet线程安全-互联网IT百科 Java面试 :servlet的生命周期及servlet常用方法-互联网IT百科 Java面试 :类的加载机制是什么?-互联网IT百科 面试: Redis集群方案哪些方案?-互联网IT百科 面试:Redis适合在哪些场景使用-互联网IT百科 面试:Redis所有数据放到内存中的原因是什么?-互联网IT百科 面试:Redis有哪几种数据淘汰策略?-互联网IT百科 面试:Redis相比memcached有哪些优势?-互联网IT百科 面试:Redis是什么?-互联网IT百科 前端面试题演示jQuery的链式调用过程-互联网IT百科 前端面试题演示一下jQuery扩展插件-互联网IT百科 Java IO和NIO的区别是什么-互联网IT百科 从浏览器地址栏输入URL到显示页面的过程-互联网IT百科 类外部如何访问私有属性私有方法-互联网IT百科 seo快排浏览器指纹(基本指纹|高级指纹|硬件指纹|协议栈指纹)-互联网IT百科 Reindexing only valid with uniquely valued Index objects-互联网IT百科 pandas空dataframe对象添加列cannot set a frame with no defined index and a scalar-互联网IT百科 selenium谷歌浏览器崩溃out of memory彻底解决-互联网IT百科 pycharm破解(2022年亲测)pycharm激活码完美2099年-互联网IT百科 pycharm破解到2099年-互联网IT百科 抖音美食短视频创造者学员必备剪辑视频基础课-老董笔记 陈小叔《落地实践班:抖音流量引流+抖音变现》-老董笔记 自媒体高效创作工具大全课 最好用的自媒体工具大全-老董笔记 shopee狼群团队:shopee虾皮全套课程(附相关文件)无水印版-老董笔记 12节影评变现课,教你写出好玩|涨粉|又赚钱的影评-老董笔记 精品课程:新手玩拼多多从0到高手赚钱全攻略【完结】-老董笔记 百微商学院:微博SEO实战引流玩法 快速实现被动获客-老董笔记 微商百度霸屏玩法和短视频批量引流玩法(课件+录音)-老董笔记 selenium消除启动特征避免被反爬-互联网IT百科
selenium各种坑和bug记录解决-互联网IT百科
2020-12-17 · via 老董笔记

  selenium很笨重并且有各种奇葩问题,鄙人在使用之中记录了一些奇葩问题供大家参照!我用的是selenium3.14版本。

  须知:selenium遇见的坑很多和webdriver和浏览器的版本有关系,这个版本没问题换个版本就出问题了!坑是收集不完的,但是也未必全能踩到坑。边用边总结吧!(持续更新)

  1 规避检测失败,selenium启动浏览器后特征非常多

  selenium驱动的浏览器后比较简单通用的特征:window.navigator.webdriver值是true,正常的浏览器这个值是未定义的(undefined)。对方网站根据这个特征容易识别出来你是爬虫!为了规避检测需要配置。

option.add_experimental_option("excludeSwitches", ['enable-automation']) 

  但是ChromeDriver 79.0.3945.36版本修复了非无头模式下排除“启用自动化”时window.navigator.webdriver是未定义的问题,无法通过更改enable-automation设置解决window.navigator.webdriver==true的问题。所以新版版本很新的话该方法就失效了!查看最新方式可以看新版浏览器修改window.navigator.webdriver

  上述只是1个最简单通用的特征,但是还有很多特征值存在,很多站如美团、头条、支付宝都对selenium做了一些反爬,更多知识参考selenium消除启动特征

  2 send_keys丢失字符

  用send_keys一次输入多个字符容易丢失,比如输入"我喜欢你"四个字,可能只输入了喜欢2个字。测试用for循环一个字一个字输入也会丢失。

  解决:定位输入框元素后先clear(),再click(),最后for循环依次输入(send_keys)多数情况下能正常!如果还不正常可以在输入文字之间time.sleep个0.01秒。实在不行可以通过js的方式来赋值 selenium用js完成元素定位和赋值

  3 更改窗口大小及uer_agent和手机模式(移动仿真)不同

  改窗口大小用option.add_argument('--window-size=xxx,xxx'),但是这个改的是浏览器窗口大小。即使配了移动的UA依然不是真正的模拟移动设备!

  PC设备和移动设备之间差别在于分辨率!要想模拟手机除了上述两项外还有进行分辨率的配置!如下才能达到移动仿真:

	iphone_ua = 'Mozilla/5.0 (iPhone; CPU iPhone OS 11_0 like Mac OS X) AppleWebKit/604.1.38 (KHTML, like Gecko) Version/11.0 Mobile/15A372 
        mobile_emulation = {
          "deviceMetrics": {"width": 375, "height": 667, 'pixelRatio': 3}, #分辨率配置
          "userAgent": iphone_ua # UA
                           }
        option.add_experimental_option("mobileEmulation", mobile_emulation)  

  4 请求网页后要等待,quit()前要等待

  打开一个网页后必须配备等待时间再进行各种操作,否则可能加载不全导致出错!个人习惯用显式等待,用selenium的WebDriverWait和expected_conditions两个类配合!

  如果代码层面没有任何等待,那么使用quit()方法后程序会很快退出,有时候代码中要实现的效果没执行完就退出了(个人观点是selenium一些方法是异步非阻塞的,也就是代码层面的操作指令发出去了,但是不考虑webdriver驱动浏览器有没有完成操作,代码层面继续往下执行到了quit就退出。)!

  5 长时间运行卡死,崩溃,内存不足

  用selenium爬了三天三夜,不是用的无头模式而是正常界面化的运行。最后浏览器左下角显示正在载入内存...然后程序一直卡死不动了,此外,有时候还会直接出现浏览器崩溃!改为无头模式之后同等数据量下运行未出现异常,但是加大数据量后照旧会出现该问题。

  网上很多人让清除缓存,其实是没效果的。这问题不在于删不删除浏览器缓存,而是浏览器的内存回收延迟,参考:selenium操作谷歌浏览器崩溃卡死解决。如果有能力可以研究一下chrome内核自己封装一个浏览器,这样可控性高,或许可以找到自主回收的方案。

  6 gcm_channel_status_request.cc(145)] GCM channel request failed

  在cmd下运行脚本一会报一个下以上的错误!但是该错误并不影响脚本的效果。个人觉得selenium+python运行期间,谷歌浏览器插件或应用会和谷歌GCM服务进行通信,因为国内的屏蔽导致访问不通。详情查看http://www.python66.com/bbs/163.html,国外的网站https://stackoverflow.com/也有类似的分析。

  7 add_argument('--disable-infobars')设置无效

  用selenium浏览器后,浏览器顶部会显示Chrome正在受到自动软件的控制这几个字,看上去非常恶心,上述设置在谷歌76版本及以上版本就无效了,但是高版本的谷歌还能通过一些方法设置,详情查看屏蔽Chrome提示受到自动软件控制

  8 headless模式报错,正常模式可以

  这种情况一般是因为headless模式的时候浏览器UA有个HeadlessChrome字样,比如:Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) HeadlessChrome/80.0.3987.122 Safari/537.36 ,此外,headless模式分辨率是800*600,可能这些特征被反爬了,可以先增加一个UA配置试试。

ua = 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36'
options.add_argument("user-agent=" + ua);

  9 浏览器安全级别与driver.execute_cdp_cmd

  在一次测试中发现浏览器的安全级别设置会影响能否执行driver.execute_cdp_cmd命令,有待进一步验证。

很赞哦!

python编程网提示:转载请注明来源www.python66.com。
有宝贵意见可添加站长微信(底部),获取技术资料请到公众号(底部)。同行交流请加群 python学习会