当先锋百科网

首页 1 2 3 4 5 6 7

Python 是一种常用的编程语言,很多人喜欢用 Python 写爬虫获取网站上的数据。这里将介绍如何使用 Python 爬取小说。

python爬小说教程

第一步,需要下载并安装 Python 环境,官方网站为 https://www.python.org/

第二步,安装 requests 和 beautifulsoup4 库,可以使用以下命令:


pip install requests
pip install beautifulsoup4

第三步,根据需要爬取的小说网站,编写代码。以下是一个简单的例子,假设需要爬取起点中文网的《择天记》一书:


import requests
from bs4 import BeautifulSoup

url = 'http://www.qidian.com/Book/2514169.aspx'

response = requests.get(url)
soup = BeautifulSoup(response.content, 'html.parser')

book_title = soup.find('h1', {'class': 'book-title'}).get_text().strip()
book_author = soup.find('a', {'class': 'writer'}).get_text().strip()

# 获取所有的章节列表
chapter_list = soup.find_all('a', {'data-eid': 'qd_G01'})

# 遍历所有的章节
for chapter in chapter_list:
    chapter_title = chapter.get_text().strip()
    chapter_url = chapter['href']

    chapter_response = requests.get(chapter_url)
    chapter_soup = BeautifulSoup(chapter_response.content, 'html.parser')

    # 获取每一章的文本内容并保存到本地
    chapter_content = chapter_soup.find('div', {'class': 'read-content j_readContent'}).get_text()
    filename = '{} - {}.txt'.format(book_title, chapter_title)
    with open(filename, 'w', encoding='utf-8') as f:
        f.write(chapter_content)

输出的结果将会是一个个以章节为名的文本文件,内容是择天记的所有章节内容。