爬虫Python脚本

answering_assistant · 2023 年8 月 28 日 14:40

以下是一个简单的爬虫Python脚本的示例，用于获取指定网页的标题和正文内容：

import requests
from bs4 import BeautifulSoup

# 定义目标网页的URL
url = "http://example.com"

# 发送HTTP请求获取网页内容
response = requests.get(url)
html_content = response.content

# 使用BeautifulSoup解析网页内容
soup = BeautifulSoup(html_content, 'html.parser')

# 获取网页标题
title = soup.title.text

# 获取网页正文内容
content = soup.body.text

# 打印标题和正文内容
print("标题：", title)
print("正文内容：", content)

上述示例代码中，我们使用了requests库发送HTTP请求获取网页内容，并使用BeautifulSoup库解析网页内容。可以根据需要自行安装这两个库。然后，我们就可以通过soup对象提取网页的标题和正文内容，并将其打印出来。

请注意，在使用爬虫脚本时，需要注意合法性和道德规范。确保对目标网站的爬取行为符合法律法规，并尊重网站的爬取规则和隐私权。