当先锋百科网

首页 1 2 3 4 5 6 7

Python可以帮助我们爬取各种网站上的数据,包括小说内容。正如我们所知,小说是一类很受欢迎的读物。现在,我们将使用Python爬取小说内容并输出到控制台。


import requests
from bs4 import BeautifulSoup

url = "http://novel.com/xxxx"  # 小说网址

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; ...) Gecko/20100101 Firefox/64.0',
}

res = requests.get(url, headers=headers)  # 向服务器发送请求

res.encoding = 'utf-8'  # 防止出现乱码

soup = BeautifulSoup(res.text, 'html.parser')  # 解析HTML

content = soup.find_all('div', {'class': 'content'})  # 获取小说正文内容

for c in content:
    print(c.text)  # 输出小说正文内容

python爬小说内容

在这段代码中,我们使用了requests库和BeautifulSoup库来请求和解析HTML。我们通过headers模拟了用户的浏览器,防止被服务器拒绝访问。

接下来,我们通过find_all()函数从HTML文档中获取小说的正文内容。我们使用一个循环来遍历返回的内容,并将每个小说段落的文本输出到控制台。

最后,我们可以通过简单的修改这段代码来适应不同的小说网站,获取自己需要的小说内容。