当先锋百科网

首页 1 2 3 4 5 6 7

随着互联网时代的到来,网络数据的获取变得越来越重要。当我们需要获取一些特定数据时,我们可以使用爬虫工具来获取数据。在本文中,我们将介绍如何使用Python编写代码,利用爬虫技术,从某些网站上获取星级信息。


import requests
from bs4 import BeautifulSoup

# 定义目标网站url
url = "https://www.tripadvisor.cn/Attraction_Review-g60763-d108555-Reviews-Empire_State_Building-New_York_City_New_York.html"

# 发送请求
response = requests.get(url)

# 验证请求结果是否成功
if response.status_code == 200:
    # 使用html.parser进行解析
    soup = BeautifulSoup(response.text, "html.parser")
    # 获取所有名为 "rating" 的标签元素
    rating_list = soup.find_all("div", class_="rating")

    for rating in rating_list:
        # 获取星数
        stars = rating.find("span", class_="ui_bubble_rating")["class"][1].split("_")[1]
        print(stars)
else:
    print("请求失败")

python爬取星级信息

代码说明:

  • 首先,我们定义了要爬取的目标网站url。
  • 然后,通过Python的requests库发起请求,并将结果保存在response中。
  • 接下来,利用BeautifulSoup库对请求结果进行解析,找到所有名为 "rating" 的标签元素。
  • 在循环过程中,我们通过find方法以及CSS选择器语法获取星数信息,并将其打印出来。
  • 最后,我们判断是否成功发起请求,并在失败时打印信息。

在本文中,我们学习了如何使用Python编写爬虫程序,并进行网页解析,获取特定数据。当然,涉及到数据获取我们需要注意法律法规的规定,不能违反法律法规进行爬取。