本文主要是介绍urllib库 + re模块爬取内涵吧的文字段子,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
源码
# !/usr/bin/env python
# -*- coding:utf-8 -*-"""
爬去内涵吧的段子关键点:1.分析url2.分析html源码中段子的标题和内容,构建正则表达式3.findall()方法
"""import urllib.request
import reclass Spider(object):def __init__(self):"""page:页码"""self.page=1self.url="http://www.neihan8.com/wenzi/index.html"def load_page(self):"""加载网页数据"""request_header={"User-Agent":"Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.108 Safari/537.36",}req=urllib.request.Request(self.url,headers=request_header)resp=urllib.request.urlopen(req)html=resp.read().decode('utf-8')# print(html)self.parse_page(html)self.page+=1if self.page!=1:self.url=re.sub(r'index\w*\.html$','index_'+str(self.page)+'.html',self.url)# print(self.url)def parse_page(self,html):"""解析网页数据,提取段子标题和内容""""""<h3><a href="/article/209245.html" class="title" title="弹壳">弹壳</a></h3><div class="desc"> 70年代,有一天,我们村里要放电影,村里人大字不识一个,很多小孩没上过学,放的是打仗的片子,到电影队收幕的时候,村里的小孩都去扒那个幕布。 电影队的人很奇怪,就问小孩:“你</div>"""# re.S,全文匹配patern=re.compile(r'<h3><a\shref="(.*?)"\sclass="title"\stitle="\w*?">(.*?)</a></h3>.*?<div class="desc">(.*?)</div>',re.S)items=patern.findall(html)# print(items.__len__())for item in items:href='http://www.neihan8.com'+item[0]title=item[1]desc=item[2]data=href+'\n'+title+'\n'+desc+'\n\n'print(data)self.save(data)def save(self,data):"""保存数据到本地磁盘"""with open('duanzi.txt',mode='a') as f:f.write(data)f.flush()def work(self):"""爬虫调度器"""while True:key=input("继续请按回车键,退出请按q键 >>>")if key=="q":breakelse:print("加载中...")self.load_page()if __name__ == '__main__':spider=Spider()spider.work()
运行效果
这篇关于urllib库 + re模块爬取内涵吧的文字段子的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!