当先锋百科网

首页 1 2 3 4 5 6 7

Python是一门可以用来爬虫的语言,可以用它爬取各种网站上的数据。在这篇文章中,我们将介绍如何使用Python爬取小说并保存到本地。


import requests
from bs4 import BeautifulSoup

url = 'http://www.xxxxxx.com/xxxxx.html'   # 小说页面地址
file_path = './novel.txt'                  # 小说本地保存路径

# 请求页面数据
response = requests.get(url)
response.encoding = response.apparent_encoding
html = response.text

# 解析页面数据,获取小说内容
soup = BeautifulSoup(html, 'html.parser')
novel_div = soup.find('div', id='novel_content')   # 找到小说内容所在的div
novel_text = novel_div.text                        # 获取小说内容

# 保存小说到本地文件
with open(file_path, 'w', encoding='utf-8') as f:
    f.write(novel_text)

python爬小说源码

首先,我们需要知道小说所在的页面地址和保存到本地的文件路径。在代码中,我们定义了两个变量分别保存这两个信息。

接下来,我们使用requests库发起请求,并设置编码方式,同时将页面数据保存在变量html中。

然后,我们使用BeautifulSoup库解析页面数据,找到小说内容所在的div,并将内容保存在novel_text变量中。

最后,我们使用Python内置函数open打开文件,并将novel_text写入文件中。

使用以上这段简单的代码,我们就能轻松的爬取小说并保存到本地了。当然,这仅仅是开始,我们还可以在此基础上进行各种拓展和优化,让我们的爬虫更加高效、灵活。