当先锋百科网

首页 1 2 3 4 5 6 7

Python在网络爬虫方面非常强大。在这篇文章中,我们将介绍如何使用Python爬取新闻并将其保存至本地。


# 导入所需模块
import requests
from bs4 import BeautifulSoup

# 新闻网站URL
url = 'https://news.baidu.com/'

# 发送请求获取网页内容
r = requests.get(url)
r.encoding = 'utf-8'

# 使用BeautifulSoup解析HTML
soup = BeautifulSoup(r.text, 'html.parser')

# 获取新闻标题和链接
news = soup.select('.text a')
for n in news:
    print(n.text, n['href'])

python爬新闻并保存

代码中,我们使用requests模块发送请求获取新闻网站的HTML代码,并使用BeautifulSoup解析HTML。然后我们可以使用CSS选择器从HTML中获取需要的信息。在这里,我们使用了一个名为“text”的CSS类,它涵盖了新闻标题和链接。


# 导入所需模块
import requests
from bs4 import BeautifulSoup

# 新闻网站URL
url = 'https://news.baidu.com/'

# 发送请求获取网页内容
r = requests.get(url)
r.encoding = 'utf-8'

# 使用BeautifulSoup解析HTML
soup = BeautifulSoup(r.text, 'html.parser')

# 获取新闻标题和链接
news = soup.select('.text a')

# 将新闻写入本地文件
with open('news.txt', 'w', encoding='utf-8') as f:
    for n in news:
        f.write(n.text + '\n' + n['href'] + '\n')

在上述代码中,我们将新闻逐一写入本地文件“news.txt”中。我们使用了Python的“with open”语句来打开文件,并使用循环语句将所有新闻内容逐一写入文件中。

如此简单,我们就使用Python爬取了新闻,并将其保存至本地。如果你有其他爬虫需求,也可以使用Python来实现。祝你好运!