当先锋百科网

首页 1 2 3 4 5 6 7

Python是一种非常强大的编程语言,能够轻松地实现各种自动化任务,其中之一就是爬虫。在这篇文章中,我们将介绍如何使用Python来爬取淘宝评价信息。


import requests
from bs4 import BeautifulSoup

def get_comments(keyword):
    url = 'https://s.taobao.com/search?q={}&imgfile=&js=1&stats_click=search_radio_all%3A1&initiative_id=staobaoz_20210413&ie=utf8'.format(keyword)
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.11 Safari/537.36'}
    req = requests.get(url, headers=headers)
    soup = BeautifulSoup(req.text, 'html.parser')
    items = soup.select('.item')
    for item in items:
        comment_url = item.select('.pic a')[0]['href']
        get_comment_detail(comment_url)


def get_comment_detail(comment_url):
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.11 Safari/537.36'}
    req = requests.get(comment_url, headers=headers)
    soup = BeautifulSoup(req.text, 'html.parser')
    comments = soup.select('.tm-rate-fulltxt')
    for comment in comments:
        print(comment.text.strip())


get_comments('手机')

python爬淘宝评价

如上所示,我们使用了Requests和BeautifulSoup模块来获取淘宝页面和解析HTML。get_comments函数用于获取搜索结果页面的每个物品,然后通过get_comment_detail函数获取每个物品的评价信息。我们在评价信息所在的类(tm-rate-fulltxt)内提取评价文本并将其打印出来。

我们可以使用任何搜索关键字来替换get_comments()函数中的“手机”参数。当我们运行脚本时,将打印出搜索结果中每个物品的评价信息。