解决python错误 UnicodeDecodeError: 'gb2312' codec can't decode byte 0x8b in position 1: illegal multibyt

推荐订阅源

The Blog of Author Tim Ferriss

Securelist

Docker

The Register - Security

小众软件

Lohrmann on Cybersecurity

量子位

freeCodeCamp Programming Tutorials: Python, JavaScript, Git & More

Kaspersky official blog

酷壳 – CoolShell

Threat Intelligence Blog | Flashpoint

www.infosecurity-magazine.com

Webroot Blog

Blog — PlanetScale

Vulnerabilities – Threatpost

Cyber Attacks, Cyber Crime and Cyber Security

Tailwind CSS Blog

爱范儿

Privacy International News Feed

Security Archives - TechRepublic

The GitHub Blog

Cybersecurity and Infrastructure Security Agency CISA

Blog RSS Feed

博客园 - 番茄的梦想

Debian防火墙的ufw的使用 Linux—nvm教程 LNMP一键安装包安装的mysql远程连接不上的问题 linux service文件格式 linux if命令微软sdk及运行时下载地址 pip相关介绍结构（位置）伪类选择器如何清除mstsc记录 ubuntu开启远程桌面功能使用Windows远程桌面工具来远程连接控制Ubuntu系统缓存头Cache-Control的含义和使用正则表达式以A开头B结尾取中间的内容 nginx 不带www的域名跳转www域名 IIS配置导入导出 CSS中hover选择器的使用详解 html 锚点三种实现方法重置自增长id 如何解决Visual Studio2012 与此版本的Windows不兼容

解决python错误 UnicodeDecodeError: 'gb2312' codec can't decode byte 0x8b in position 1: illegal multibyt

番茄的梦想 · 2023-08-21 · via 博客园 - 番茄的梦想

报错的代码：

url= 'http://kaijiang.500.com/shtml/ssq/19001.shtml'
page =urllib.request.urlopen(url)
content = page.read().decode('gb2312')

报这个错的原因是获取到的网页内容是经过压缩了的，打开url可以看到请求head

Accept-Encoding:gzip, deflate

一种方式是请求时把Accept-Encoding设为空，这样的话网页数据未压缩，会相对比较大，增加网络传输时间

另一种方式就是对请求后的数据解压，显然这个方式处理会更快，如下

content = gzip.decompress(page.read()).decode('gb2312')

可是修改之后发现运行还是报错，这时候发现应该是因为网页中含有编码集之外的字符（网页内容指定charset是gb2312），就算加到更大范围还是报错（PS：汉字字符集范围 gb2312 < gbk < gb18030）

这时候选择忽略这些无法解码的字符

content = gzip.decompress(page.read()).decode('gb2312','ignore')

再运行代码，发现这个问题已经解决了

此内容由惯性聚合(RSS阅读器)自动聚合整理，仅供阅读参考。原文来自 — 版权归原作者所有。