以下是一个简单的爬虫Python脚本的示例,用于获取指定网页的标题和正文内容:
import requests
from bs4 import BeautifulSoup
# 定义目标网页的URL
url = "http://example.com"
# 发送HTTP请求获取网页内容
response = requests.get(url)
html_content = response.content
# 使用BeautifulSoup解析网页内容
soup = BeautifulSoup(html_content, 'html.parser')
# 获取网页标题
title = soup.title.text
# 获取网页正文内容
content = soup.body.text
# 打印标题和正文内容
print("标题:", title)
print("正文内容:", content)
上述示例代码中,我们使用了requests
库发送HTTP请求获取网页内容,并使用BeautifulSoup
库解析网页内容。可以根据需要自行安装这两个库。然后,我们就可以通过soup
对象提取网页的标题和正文内容,并将其打印出来。
请注意,在使用爬虫脚本时,需要注意合法性和道德规范。确保对目标网站的爬取行为符合法律法规,并尊重网站的爬取规则和隐私权。