当先锋百科网

首页 1 2 3 4 5 6 7

Python是目前互联网爬虫最流行的编程语言之一,它能够轻松地完成网站信息的抓取、数据的爬取等任务。今天我们就来看看如何利用Python编写爬虫程序来爬取小说目录。

import requests
from bs4 import BeautifulSoup

# 定义爬虫函数
def spider():
    url = 'https://www.lingdiankanshu.co/88241/'
    # 设置请求头,避免被反爬虫
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}
    response = requests.get(url, headers=headers)
    # 对网页内容进行解析
    soup = BeautifulSoup(response.text, 'html.parser')
    # 找到小说目录所在的div标签
    div_tag = soup.find('div', {'class': 'ml_box'})
    # 找到所有的a标签
    a_tags = div_tag.find_all('a')
    # 遍历所有的a标签,并输出小说目录名称及链接
    for a_tag in a_tags:
        print(a_tag.get_text(), '->', a_tag.get('href'))

if __name__ == '__main__':
    spider()

python爬小说目录

首先,我们需要引入requests库和BeautifulSoup库来辅助完成网页内容的抓取与解析。然后,定义spider函数,并在函数内部发送请求,获取小说目录所在的div标签。之后,找到所有的a标签,遍历打印出小说目录名称及链接。运行代码,即可轻松地爬取小说目录信息。