工商局信息是企业、商家开展经营活动必不可少的资源,如果能够爬取相关信息,对于企业来说是一个很大的便利。本文将介绍如何使用 Python 爬取工商局信息。
# 调用 requests 库和 Beautiful Soup 库
import requests
from bs4 import BeautifulSoup
# 定义获取页面 HTML 代码的函数
def getHtml(url):
try:
r = requests.get(url)
r.raise_for_status()
r.encoding = r.apparent_encoding
return r.text
except:
return ''
# 定义解析 HTML 代码的函数
def parseHtml(html):
soup = BeautifulSoup(html, 'html.parser')
# 获取公司名称
name = soup.select('div.title h1')[0].text
# 获取企业信息表格数据
tableData = soup.select('table tbody tr')
# 遍历表格数据,获取企业信息
for data in tableData:
print(data.find_all('td')[0].text)
print(data.find_all('td')[1].text)
# 调用函数,完成爬取工商局信息的过程
url = 'http://www.gsxt.gov.cn/index.html'
html = getHtml(url)
parseHtml(html)

以上代码实现了获取工商局网站首页 HTML 代码,并解析页面获取公司名称和企业信息表格数据的功能,最后遍历表格数据输出企业信息。在获取企业信息表格数据时,使用了 Beautiful Soup 库提供的 CSS 选择器语法,使用'>'符号来获取子节点的标签内容,使用' '符号来获取后代节点的标签内容。
爬取工商局信息需要注意网站的反爬机制,防止被网站拦截。此外,所爬取的信息要用途明确,不得用于非法用途。