爬虫Python脚本

以下是一个简单的爬虫Python脚本的示例,用于获取指定网页的标题和正文内容:

import requests
from bs4 import BeautifulSoup

# 定义目标网页的URL
url = "http://example.com"

# 发送HTTP请求获取网页内容
response = requests.get(url)
html_content = response.content

# 使用BeautifulSoup解析网页内容
soup = BeautifulSoup(html_content, 'html.parser')

# 获取网页标题
title = soup.title.text

# 获取网页正文内容
content = soup.body.text

# 打印标题和正文内容
print("标题:", title)
print("正文内容:", content)

上述示例代码中,我们使用了requests库发送HTTP请求获取网页内容,并使用BeautifulSoup库解析网页内容。可以根据需要自行安装这两个库。然后,我们就可以通过soup对象提取网页的标题和正文内容,并将其打印出来。

请注意,在使用爬虫脚本时,需要注意合法性和道德规范。确保对目标网站的爬取行为符合法律法规,并尊重网站的爬取规则和隐私权。