使用beautifulSoup库解析爬取的页面数据时中文乱码

问题

使用beautifulSoup库解析html数据时中文乱码

原因

在用beutifulsoup爬取网页的信息时,我们会遇到信息变成乱码的情况,之所以出现这种情况,是因为requests和beautifulsoup模块都会自行评测原网页的编码格式。

解决

对html数据进行格式设置

r= requests.get('https://www.baidu.com/');
r.encoding = 'gbk2312';
soup=BeautifulSoup(r.text,"html.parser")