首页 1 2 3 4 5 6 7

豆瓣电影排行python爬虫实战（刚开始学习）

作为一名刚学了几天的新手在这里只使用了request 和 re 库

分析网页 https://movie.douban.com/top250?start=0&filter= 注意 start 每次下一页就会+25

正则：观察网页源代码得到

电影名 titlepat = 'class="">.*?<span class="title">(.*?)</span>'

人数 countpat = '<span>(.*?)人评价</span>'

评分 gradepat = ' <span class="rating_num" property="v:average">(.*?)</span>'

短评 briefcommentpat = '<span class="inq">(.*?)</span>'

对于向文件的存取有很多不足之处没有进行很深的了解若有好的建议求大牛指教

以下是源码：

import requests
import re

def geturl(url):
    headers = {'User-Agent':'Mozilla/50'}
    r = requests.get(url,headers=headers)
    r.encoding = r.apparent_encoding
    return r.text

def getdata(url):
    data = geturl(url)
    titlepat = 'class="">.*?<span class="title">(.*?)</span>'
    countpat = '<span>(.*?)人评价</span>'
    gradepat = ' <span class="rating_num" property="v:average">(.*?)</span>'
    briefcommentpat = '<span class="inq">(.*?)</span>'
    titles = re.compile(titlepat,re.S).findall(data)
    counts = re.compile(countpat).findall(data)
    grades = re.compile(gradepat).findall(data)
    briefcomments = re.compile(briefcommentpat).findall(data)
    print(titles)
    print(counts)
    print(grades)
    print(briefcomments)
    f = open("豆瓣电影排名.txt", 'a')
    for i in range(0,len(briefcomments)):
        f.write('名称:'+titles[i]+'\t')
        f.write('评分:'+grades[i] + '\t')
        f.write('人数:'+counts[i] + '\n')
        f.write(briefcomments[i] + '\n')
    f.close()

if '__main__'==__name__:
    page=0
    while page<=225:
        print(page)
        url = "https://movie.douban.com/top250?start="+str(page)
        getdata(url)
        page+=25

linux防火墙命令及配置

防火墙 1、执行firewall-cmd --permanent --zone=public --add-port=3306/tcp，提示FirewallD is not running。 2、通过systemctl status

DBA日常工作职责 - 我对DBA的七点建议

DBA的工作职责是什么？每天DBA应该做哪些工作？稳定环境中的DBA该如何成长与工作？这是很多人都曾经提出过的问题，我潦潦草草的、随心所欲的记录一下我的观点和建议，供参考： 1.实时监控数据库告警日志这是必须进行的工作，并且应该根据不同的严重级别，发

Ruby On Rails 路径穿越漏洞（CVE-2018-3760）

Ruby On Rails 路径穿越漏洞（CVE-2018-3760）前言：这个漏洞作为路径穿越的典型例子，比较经典，18年跟着文档分析了一遍，最近又重新理了一遍，捎带着写了一遍源码跟踪分析的过程，个人感觉整个跟入调用的思想还是比较清晰的，分析的过程写的比较详细，

ubuntu1804在登录界面卡死解决方案

1.开机的时候按住shift进入grub界面，按e键，在quite splash后添加nomodeset，F10，进入系统。 2.进入系统后，调出终端后，修改 /etc/default/grub文件，同样将GRUB_CMDLINE_LINUX_DEFAULT=”quiet spl

【 flask2.3.2】 Object of type MyModel is not JSON serializable jsonify() 兼容Numpy类型或对象类型

参考：

TIA PORTAL西门子PLC的CPU固件版本兼容问题

以S7-1200为例，现在新出的PLC的固件都是V4.4的版本了，而原来的软件如V15.0组态不到V4.4，只能组态到V4.2，在想继续使用V15.0的情况下，这个PLC还可以用吗？答案是可以的

CSS3实现checkbox和radio自定义样式

实现思路原理很简单，先把页面上<input type="checkbox">的display设置为none，从而把它隐藏掉，然后利用CSS3代码来绘制与checkbox（radio）相连的label元素，用label来模拟checkbox（radio）。

My97DatePicker日期控件

除了支持常规在input单击或获得焦点调用外,还支持使用其他的元素如:<img><div>等触发WdatePicker函数来调用弹出日期框可以通过配置isShowWeek属性决定是否限制周,并且在返回日期的时候还可以通过自带的自定义事件和API函数

VBA学习笔记（一）

VBA学习笔记基础代码本人为VBA的初学者，简单学一些代码提高工作效率，在此处记载一些自己的心得，同时也将自己简单的代码记录于此，代码简单，并且没有过多的高端用法，甚至有很多用的不当和错误的地方，有

ASP.NET　访问Excel 失败的解决方法(续)

今天在windows2003配置访问Excel时出现如下错误: 检索 COM 类工厂中 CLSID 为 {000209FF-0000-0000-C000-000000000046} 的组件时失败，原因是出现以下错误: 8000401a