使用beautifulSoup库解析爬取的页面数据时中文乱码

xiaoyu_01 · 2024 年9 月 27 日 04:09

使用beautifulSoup库解析html数据时中文乱码

在用beutifulsoup爬取网页的信息时，我们会遇到信息变成乱码的情况，之所以出现这种情况，是因为requests和beautifulsoup模块都会自行评测原网页的编码格式。

对html数据进行格式设置

r= requests.get('https://www.baidu.com/');
r.encoding = 'gbk2312';
soup=BeautifulSoup(r.text,"html.parser")