TA的每日心情  | 开心 2021-12-13 21:45 | 
|---|
 
  签到天数: 15 天 [LV.4]偶尔看看III  
 | 
 
| 
 
   爬取网页时由于编码格式的问题,导致中文乱码,解决方法就是将原文件转码成latin1编码(使用encode函数) ,再解码成gbk编码(使用decode函数)   
即可输出正确中文。  
  如下:  
  
-  1 # coding:UTF-8
 -  2 
 -  3 import requests
 -  4 
 -  5 headers={"User-Agent":"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36",
 -  6          "Host":"www.dy2018.com"}
 -  7 
 -  8 url=("https://www.dy2018.com/1/")
 -  9  
 - 10 r = requests.get(url,headers=headers)
 - 11 
 - 12 data = r.text.encode("latin1").decode("gbk")  [b]###将原文件转码成latin1编码(使用encode函数) ,再解码成gbk编码(使用decode函数) [/b]13 
 - 14 with open("t1.txt","w",encoding="utf-8") as f:
 - 15     f.write(data)
 - 16     f.close
 
  复制代码 
  
  |   
 
 
 
 |