本站的合作过的网站：北风网极客学院柠檬学院图灵学院

开启辅助访问最新回复帖子最新发表帖子

恭喜Java学习者论坛（https://www.javaxxz.com）已经为数万Java学习者服务超过8年了！积累会员资料超过10000G+！
成为本站VIP会员，下载本站10000G+会员资源，购买链接：点击进入购买VIP会员

Java学习者论坛»论坛 › 论坛互动 › 经验心得总结 › python爬虫中文乱码解决方法

发新帖

查看: 738|回复: 0

[默认分类] python爬虫中文乱码解决方法

TA的每日心情

	开心 2021-12-13 21:45

签到天数: 15 天

[LV.4]偶尔看看III

发表于 2020-8-10 09:02:26 | 显示全部楼层 |阅读模式

本站已经为数万初学者服务超过7年！成为本站VIP会员，免金币下载本站10000G+VIP会员资料！

python爬虫中文乱码

前几天用python来爬取全国行政区划编码的时候，遇到了中文乱码的问题，折腾了一会儿，才解决。现特记录一下，方便以后查看。

我是用python的requests和bs4库来实现爬虫，这两个库的简单用法可参照python爬取当当网的书籍信息并保存到csv文件
乱码未处理前部分代码

[code] url = "要爬取的网页"
r = requests.get(url, timeout=30)
soup = BeautifulSoup(r.text, "lxml")

复制代码

[/code]
乱码原因
我爬取的网页使用的编码是GBK。所以要按GBK编码，才能避免中文乱码。
解决乱码的代码

[code] url = "要爬取的网页"
r = requests.get(url, timeout=30)
r.encoding="GBK" #增加encoding=‘GBK’，解决中文乱码问题
soup = BeautifulSoup(r.text, "lxml")

复制代码

[/code]
【原创声明】转载请标明出处：https://www.cnblogs.com/surecheun/p/9694052.html

相关帖子

回复

使用道具举报

发新帖

|手机版|Java学习者论坛 ( 声明：本站资料整理自互联网，用于Java学习者交流学习使用，对资料版权不负任何法律责任，若有侵权请及时联系客服屏蔽删除 )

GMT+8, 2026-6-19 02:53 , Processed in 0.620522 second(s), 38 queries .

Powered by Discuz! X3.4

© 2001-2017 Comsenz Inc.

快速回复 返回顶部 返回列表