本文主要是介绍Python_Python网络小说爬虫,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
前言:
为了搭建爬虫基础框架,测试正则表达式,最初目的是帮别人下载一篇小说,所以进行爬虫试验,小说地址:http://dangdu.dangdang.com/catalog/167378.shtml,项目编辑的IDE为PyCharm PROFESSIONAL 2019.3,编码过程中用到了python中的两个库,分别是re、urllirb。
其实,等到这篇小说爬取完成后,别人已经在网页端看完了,看完了,完了~
1. 基础知识:
会写正则表达式,能看得懂浏览器中的部分源代码,这就足够了
2. 项目过程:
2.1 获取章节的超链接和标题
home_html = urllib.request.urlopen("http://dangdu.dangdang.com/catalog/167378.shtml").read()
home_html = home_html.decode("utf-8")
我们通过打印home_html可以看到小说主页的源代码,其实和在浏览器端右键鼠标查看源代码是一致的:
这篇关于Python_Python网络小说爬虫的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!