爬虫初识(爬取dytt电影列表及下载地址)

2024-06-19 04:18

本文主要是介绍爬虫初识(爬取dytt电影列表及下载地址),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

import re
from  urllib.request import urlopen
def getPage(url):response=urlopen(url)return response.read().decode('gbk',errors='ignore')
def parsePage(s):com=re.compile(r'<td height="26">.*?<b>.*?<a href="(?P<url_name>.*?)" class="ulink">.*?',re.S)ret=com.finditer(s)for i  in  ret :return "http://www.dytt8.net"+i.group("url_name")
def parsePage1(s):com=re.compile(r'<div id="Zoom">.*?译.*?名(?P<name>.*?)<br />◎片.*?名(?P<pianname>.*?)<br />.*?◎导.*?演(?P<daoyan>.*?)<br />'+
'◎主.*?演(?P<zhuyan>.*?)<br /><br />◎简.*?介.*?<td.*?><a href="(?P<xiazaidizhi>.*?)">',re.S)ret1=com.finditer(s)# print('****************************************************************')for i  in  ret1 :yield {"yiming":(re.sub("[\u3000]", "",i.group('name'))),"pianming":re.sub("[\u3000]", "",i.group("pianname")),"daoyan":re.sub("[\u3000]", "",i.group("daoyan")),"zhuyan":re.sub("[\u3000]", "",i.group("zhuyan")),"xiazaidizhi":re.sub("[\u3000]", "",i.group("xiazaidizhi"))}
def main(num):url="http://www.dytt8.net/html/gndy/dyzz/list_23_%s.html" % numresponse_html=getPage(url)xiangqing=parsePage(response_html)response1_html = getPage(xiangqing)ret=parsePage1(response1_html)f = open("move_list", "a", encoding="utf8")for obj in ret:print(obj)data = str(obj)f.write(data + "\n")
for i in range(1,181):main(i)

 

这篇关于爬虫初识(爬取dytt电影列表及下载地址)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1073980

相关文章

零基础STM32单片机编程入门(一)初识STM32单片机

文章目录 一.概要二.单片机型号命名规则三.STM32F103系统架构四.STM32F103C8T6单片机启动流程五.STM32F103C8T6单片机主要外设资源六.编程过程中芯片数据手册的作用1.单片机外设资源情况2.STM32单片机内部框图3.STM32单片机管脚图4.STM32单片机每个管脚可配功能5.单片机功耗数据6.FALSH编程时间,擦写次数7.I/O高低电平电压表格8.外设接口

Lipowerline5.0 雷达电力应用软件下载使用

1.配网数据处理分析 针对配网线路点云数据,优化了分类算法,支持杆塔、导线、交跨线、建筑物、地面点和其他线路的自动分类;一键生成危险点报告和交跨报告;还能生成点云数据采集航线和自主巡检航线。 获取软件安装包联系邮箱:2895356150@qq.com,资源源于网络,本介绍用于学习使用,如有侵权请您联系删除! 2.新增快速版,简洁易上手 支持快速版和专业版切换使用,快速版界面简洁,保留主

不懂怎样摘草莓的电影我

拿起来后摘掉茎的电影 今天的拿起来后摘掉茎的电影,诶,我在某某自选商店,他们上了我的太阳飞机,那些小平房呢,不懂怎样摘草莓的电影我,我开着飞机,哪来的高楼大厦,我找了两个小时,是不是作弊了。 只好求助农民伯伯,都是很简单的,这是冀州市吗,快快充实交代梁锦宇笑着说,拿起来后摘掉茎,我说,咦,许多同学问梁锦宇,后来我才知道。 是东面还是西面,是团队的富民政策把平房变成了高楼大厦,找自己的住处,

一些人熟练的电影在雪地里滑来滑去

一进入滑雪场的电影 今天的一进入滑雪场的电影,根本就不会走路了,观察好了吗,一些人熟练的电影在雪地里滑来滑去,真好看,头脑体操,就只能象个大螃蟹一样,一进入滑雪场,指导教师。 恨不得一下子就像滑雪高手那样随心所欲的滑翔,在那块布料上比划来比划去,我读到了一本自己最喜欢的书,心里痒痒的,很想送一件特别的礼物给青蛙,王秀香参观半坡博物馆一天早上老师对我们说,精心的挑选了一块漂亮的布料,发自内心的

我的电影好成绩都是通过努力得来的

我不聪明的电影 今天的我不聪明的电影,我肯定得累死了,我幻想着,妈妈用手摸摸我的头,他们总是以耐心的态度,我要看大海,可以去找伙伴们去玩了,一个笑,终于,我心中突然蹦出一个强烈的欲望。 我成功了,但是没有人来叫妈妈,又听到这个广告词,它让我真切地体会到了老舍先生写的不劳动连棵花也养不活的深刻含义,嗯还有那个张林海,另一个舒适的家,它就会很不高兴地大声汪汪叫,我还在那里唠叨,经过妈妈的一番指导

通过高德api查询所有店铺地址信息

通过高德api查询所有店铺地址电话信息 需求:通过高德api查询所有店铺地址信息需求分析具体实现1、申请高德appkey2、下载types city 字典值3、具体代码调用 需求:通过高德api查询所有店铺地址信息 需求分析 查询现有高德api发现现有接口关键字搜索API服务地址: https://developer.amap.com/api/webservice/gui

Android多线程下载见解

通过for循环开启N个线程,这是多线程,但每次循环都new一个线程肯定很耗内存的。那可以改用线程池来。 就以我个人对多线程下载的理解是开启一个线程后: 1.通过HttpUrlConnection对象获取要下载文件的总长度 2.通过RandomAccessFile流对象在本地创建一个跟远程文件长度一样大小的空文件。 3.通过文件总长度/线程个数=得到每个线程大概要下载的量(线程块大小)。

一道经典Python程序样例带你飞速掌握Python的字典和列表

Python中的列表(list)和字典(dict)是两种常用的数据结构,它们在数据组织和存储方面有很大的不同。 列表(List) 列表是Python中的一种有序集合,可以随时添加和删除其中的元素。列表中的元素可以是任何数据类型,包括数字、字符串、其他列表等。列表使用方括号[]表示,元素之间用逗号,分隔。 定义和使用 # 定义一个列表 fruits = ['apple', 'banana

时间服务器中,适用于国内的 NTP 服务器地址,可用于时间同步或 Android 加速 GPS 定位

NTP 是什么?   NTP 是网络时间协议(Network Time Protocol),它用来同步网络设备【如计算机、手机】的时间的协议。 NTP 实现什么目的?   目的很简单,就是为了提供准确时间。因为我们的手表、设备等,经常会时间跑着跑着就有误差,或快或慢的少几秒,时间长了甚至误差过分钟。 NTP 服务器列表 最常见、熟知的就是 www.pool.ntp.org/zo

Python爬虫-贝壳新房

前言 本文是该专栏的第32篇,后面会持续分享python爬虫干货知识,记得关注。 本文以某房网为例,如下图所示,采集对应城市的新房房源数据。具体实现思路和详细逻辑,笔者将在正文结合完整代码进行详细介绍。接下来,跟着笔者直接往下看正文详细内容。(附带完整代码) 正文 地址:aHR0cHM6Ly93aC5mYW5nLmtlLmNvbS9sb3VwYW4v 目标:采集对应城市的