urllib库 + re模块爬取内涵吧的文字段子

本文主要是介绍urllib库 + re模块爬取内涵吧的文字段子，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

源码

# !/usr/bin/env python
# -*- coding:utf-8 -*-"""
爬去内涵吧的段子关键点:1.分析url2.分析html源码中段子的标题和内容,构建正则表达式3.findall()方法
"""import urllib.request
import reclass Spider(object):def __init__(self):"""page:页码"""self.page=1self.url="http://www.neihan8.com/wenzi/index.html"def load_page(self):"""加载网页数据"""request_header={"User-Agent":"Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.108 Safari/537.36",}req=urllib.request.Request(self.url,headers=request_header)resp=urllib.request.urlopen(req)html=resp.read().decode('utf-8')# print(html)self.parse_page(html)self.page+=1if self.page!=1:self.url=re.sub(r'index\w*\.html$','index_'+str(self.page)+'.html',self.url)# print(self.url)def parse_page(self,html):"""解析网页数据,提取段子标题和内容""""""<h3><a href="/article/209245.html" class="title" title="弹壳">弹壳</a></h3><div class="desc"> 　　70年代，有一天，我们村里要放电影，村里人大字不识一个，很多小孩没上过学，放的是打仗的片子，到电影队收幕的时候，村里的小孩都去扒那个幕布。　　电影队的人很奇怪，就问小孩：“你</div>"""# re.S,全文匹配patern=re.compile(r'<h3><a\shref="(.*?)"\sclass="title"\stitle="\w*?">(.*?)</a></h3>.*?<div class="desc">(.*?)</div>',re.S)items=patern.findall(html)# print(items.__len__())for item in items:href='http://www.neihan8.com'+item[0]title=item[1]desc=item[2]data=href+'\n'+title+'\n'+desc+'\n\n'print(data)self.save(data)def save(self,data):"""保存数据到本地磁盘"""with open('duanzi.txt',mode='a') as f:f.write(data)f.flush()def work(self):"""爬虫调度器"""while True:key=input("继续请按回车键,退出请按q键 >>>")if key=="q":breakelse:print("加载中...")self.load_page()if __name__ == '__main__':spider=Spider()spider.work()