爬虫(一)：豆瓣电影的前250排名信息

一：框架

使用requests+beautifulsoup进行豆瓣电影前250名的信息爬取

二：流程

2.1 使用requests进行的网页信息获取

如上图所示，所有关于电影信息都在都在标签lo的下面，我们的任务就是将获取的页码beautifusoup定位到指定的位置。
如下代码所示，使用requests获取到所需要的数据

def get_html(url, code="utf-8"):
    kv = {'User-Agent': 'Mozilla/5.0'}
    try:
        r = requests.get(url, headers=kv)
        r.encoding = code
        r.raise_for_status()
        return r.text
    except:
        print("请求失败")

通过网页的url（https://movie.douban.com/top250?start=25&filter=）特点知道，每次点击下一个页面都是通过start加上25，一共是个页面
在每次传递的时候，参数的时候进行下面操作

    for i in range(10):
        get_url = url.format(i*25)

获取到的html文本传递到beautifulsoup中进行解析，其中通过find方法寻找到指定标签的数据并且将结果存储在列表中

def parse_html(html, i):
    soup = BeautifulSoup(html, "html.parser")
    info_page = soup.find("ol", attrs={"class": "grid_view"})
    films = info_page.find_all('li')
    for film in films:
        rank = film.find("em").text  # 排名
        name = film.find("span", attrs={"class": "title"}).text  # 名字
        description = film.find('span', attrs={'class': 'inq'}).text  # 短评
        socre = film.find("span", attrs={"class": "rating_num"}).text  # 得分
        list_info.append([int(rank) + i*25, name, description, socre])

将所有结果存储起来，主要使用的是excel存储，整个过程的完整代码如下

# beautifulsoup+requests爬取豆瓣电影排行榜信息
from bs4 import BeautifulSoup
import requests
import xlwt

list_info = []
url = "https://movie.douban.com/top250?start={}"


def get_html(url, code="utf-8"):
    kv = {'User-Agent': 'Mozilla/5.0'}
    try:
        r = requests.get(url, headers=kv)
        r.encoding = code
        r.raise_for_status()
        return r.text
    except:
        print("请求失败")


def parse_html(html, i):
    soup = BeautifulSoup(html, "html.parser")
    info_page = soup.find("ol", attrs={"class": "grid_view"})
    films = info_page.find_all('li')
    for film in films:
        rank = film.find("em").text  # 排名
        name = film.find("span", attrs={"class": "title"}).text  # 名字
        description = film.find('span', attrs={'class': 'inq'}).text  # 短评
        socre = film.find("span", attrs={"class": "rating_num"}).text  # 得分
        list_info.append([int(rank) + i*25, name, description, socre])


def save_Films(list_infos, filePath):
    for i in list:
        with open(filePath, 'a', encoding="utf-8") as f:
            f.write(str(i) + '\n')


def save_excel(list_infos, filename, list_names):
    workbook = xlwt.Workbook()
    sheet_01 = workbook.add_sheet("sheet_01")
    row = 0
    cow = 0
    for list_name in list_names:
        sheet_01.write(row, cow, list_name)
        cow += 1
    row += 1
    for list_info in list_infos:
        cow = 0
        for l in list_info:
            sheet_01.write(row, cow, l)
            cow += 1
        row += 1
    workbook.save(filename)


if __name__ == "__main__":
    file_name = "./douban_text.xls"
    list_names = ["排名", "名字", "短评", "评分"]
    for i in range(10):
        get_url = url.format(i*25)
        html = get_html(url=url)
        parse_html(html, i)
    save_excel(list_info, file_name,list_names)

save主要是存储在txt文本中，如需使用，修改file_name的后缀名即可

【超多代码、超多图解】Node.js一文全解析

华为鸿蒙系统手机最新进展,这是华为鸿蒙系统最新进展，华为胡厚崑：依然是安卓坚定支持者...

原标题：这是华为鸿蒙系统最新进展，华为胡厚崑：依然是安卓坚定支持者过去一段时间，中国用户对于国产操作系统、国产芯片的讨论一时间热情高涨，尤其是对于华为自研操作系统非常关注。尤其是华为鸿蒙OS也被称为最有可能挑战安卓操作系统的最佳候选者。

国内可用GPT4(6月24号更新)

GPT-4.0是OpenAI的最新语言模型，具有强大的自然语言处理能力。它在理解和处理问题方面的精度提高了，这得益于其更广泛的常识和问题解决能力。在内容创作方面，GPT-4.0比以往任何时候都更具创造性和协作性，可以与用户共同在创意和技术写作任务上进行生成、编辑和迭代，例如创作歌曲、编写剧本

使用unity发布抖音小游戏

1.要选择对应的unity版本如果使用 native 方案：确认游戏工程运行在 Unity 2019.4.8f1 或者 Unity 2019.4.35f1 如果使用 wasm 方案：建议使用 unity 最新版，比如 2021.2 之后的版本，在 wasm 方面做了很多

springboot+Spring-security+Spring-Session+Redis+nginx 实现 Session 共享

java内存分配策略

JVM采用分代的垃圾回收策略：不同对象的生命周期是不一样的。目前JVM分代主要是分三个年代：新生代：所有新创建的对象都首先在新生代进行内存分配。新生代具体又分为3个区，一个Eden区、一个From Survivor区和一个To Sruvivor区。大部分对象都被分配

gRPC 官方文档中文版

Go 教程 gRPC 基础: Go 本教程提供了 Go 程序员如何使用 gRPC 的

JS超集对TypeScript的Map对象以及联合类型的深入实战

文章目录

SpringCloud各个组件的说明

SpringCloud组件使用 1、Eureka 1、什么是服务治理在传统的RPC远程调用框架中，管理每个服务与服务之间依赖关

VC++实现生成右键菜单及添加图标

用VC++实现弹出菜单比较简单，这里介绍其中的一种来实现一个鼠标右键弹出菜单，效果如下图所示：