Python爬虫初级(七)—— 丁香园评论留言板爬取

2023-11-04 08:50

本文主要是介绍Python爬虫初级(七)—— 丁香园评论留言板爬取,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

欢迎关注公众号K的笔记阅读博主更多优质学习内容
K的笔记公众号

上一篇内容:Python爬虫初级(六)—— 正则表达式库入门

观察待爬取页面,判断爬取可行性

我们首先查看待爬取页面:http://www.dxy.cn/bbs/thread/626626#626626,具体形式为下图:
丁香园待爬取页面我们查看源代码信息:
页面源代码可以发现留言板块的内容在页面源代码全部直接显示了出来,那么我们可以尝试直接进行爬取,我们采取的思路首先是 requests 库 + bs4 库,这两者的具体用法在前面的文章均已涉及。

检测爬取链接,初步尝试爬取

首先我们可以在IDLE上检查爬取链接是否正常,直接展示代码:

>>> import requests
>>> import re
>>> from bs4 import BeautifulSoup
>>> url = "http://www.dxy.cn/bbs/thread/626626#626626"
>>> headers = {"user-agent":"Mozilla/5.0"}
>>> res = requests.get(url, headers=headers, stream=True)
>>> res.status_code
200
>>> text = res.text
>>> soup = BeautifulSoup(text)
>>> text[1000:1300]
'og:description" content="我遇到一个“怪”病人,向大家请教。她,42岁。反复惊吓后晕厥30余年。每次受响声惊吓后发生跌倒,短暂意识丧失。无逆行性遗忘,无抽搐,无口吐白沫,无大小便失禁。多次跌倒致外伤。婴儿时有惊厥史。入院查体无殊。ECG、24小时动态心电图无殊;头颅MRI示小软化灶;脑电图无殊。入院后有数次类似发作。请问该患者该做何诊断,还需做什么检查,治疗方案怎样?"/>\n        <meta property="og:author" content="楼医生"/>\n        <meta property="og:release_date" content'

我们想要抓取链接,先在上面的源代码中对标题层级结构进行分析:
标题代码

然后直接写出相关代码:

>>> title = soup("div", id="postview")[0].tr.th.h1.contents[0]
['\n                    晕厥待查——请教各位同仁                 ']
>>> title = title.replace(" ", "")
>>> title = title.replace("\n", "")
>>>> title
'晕厥待查——请教各位同仁'

下面同理可以查看其他信息,下面我们为了便于操作直接采用 CSS 类名查找:

>>> context = soup.select("[class~=postbody]")
# 返回所有内容信息 

返回的信息内容如下:
爬取返回内容对内容进行清理:

>>> cont = context[1].contents[0]
>>> cont = cont.replace(" ", "")
>>> cont = cont.replace("\n", "")
>>> cont
'从发作的症状上比较符合血管迷走神经性晕厥,直立倾斜试验能协助诊断。在行直立倾斜实验前应该做常规的体格检查、ECG、UCG、holter和X-ray胸片除外器质性心脏病。'

测试代码写完后,我们写出完整代码:

import requests
from bs4 import BeautifulSoupdef getHTML(url):try:headers = {"user-agent":"Mozilla/5.0"}res = requests.get(url, headers=headers, stream=True)res.raise_for_statusres.encoding = res.apparent_encodingreturn res.textexcept:return ""def ParseFromPage(html):commentList = []soup = BeautifulSoup(html)title = soup("div", id="postview")[0].tr.th.h1.contents[0]title = title.replace(" ", "")title = title.replace("\n", "")context = soup.select("[class~=postbody]")for i in range(len(context)):cont = context[i].contents[0]cont = cont.replace(" ", "")commentList.append(cont)return title, commentListdef main():base_url = "http://www.dxy.cn/bbs/thread/626626#626626"html = getHTML(base_url)title, cList = ParseFromPage(html)print(title, cList)main()

拓展一

我们爬取完单一页面后,我们可以考虑,是否可以爬取更多的页面。我们的思考出发点是丁香园每个页面的链接下面都会存在一个引向其他同类型页面的链接,比如:
链接抓取我们可以看到,下面的 “骨折手术后一周突发心跳骤停,抢救无效死亡,什么原因?”这段话不就是我们要找的链接,点开后也确实如我们所料,页面结构的解析和本页面的解析一样,我们完全可以复用这段代码,只需要改变一下 url 即可。下面我们尝试通过 re 库获取此 url 链接:

>>> import re
>>> href = re.findall(r'&#149; <a href="(.*?)" target', text)
>>> href
['http://job.dxy.cn/bbs/topic/43200651', 'http://www.dxy.cn/bbs/topic/43177945', 'http://Radiology.dxy.cn/bbs/topic/43179123', 'http://www.dxy.cn/bbs/topic/43172871']

这里我们看到有四个链接,但并不是每个链接都是我们需要的,通过观察后我们发现,只有以 “http://www.dxy.cn/bbs/topic” 开头的链接才是我们需要的,我们可以将查找链接的方式改为:

>>> re.findall(r'<a href="(http://www.dxy.cn/bbs/topic/.*?) target="_blank"',text)
['http://www.dxy.cn/bbs/topic/43177945"', 'http://www.dxy.cn/bbs/topic/43172871"']

我们看到返回了两个正确结果,为了不增大网站压力,我们修改主函数,仅仅爬取十条链接的内容,并存储到 dxy.txt 文件中,主函数代码如下:

def main():base_url = "http://www.dxy.cn/bbs/thread/626626#626626"for i in range(10):html = getHTML(base_url)title, cList = ParseFromPage(html)with open("dxy.txt", "a", encoding="utf-8") as f:f.write(title)f.write("\n")for i in range(len(cList)):f.write(cList[i])f.write("\n")f.write("\n")try:url_list = re.findall(r'<a href="(http://www.dxy.cn/bbs/topic/.*?) target="_blank"',html)base_url = url_list[0]except:continue

此代码应能正确爬取链接,代码规范有待网友指正。

拓展二

我们还可以使用 lxml 爬取内容,事实上此代码会更加简洁, lxml 的具体用法将在下期内容展开,以下直接简单使用之:

from lxml import html, etree
>>> tree1 = html.tostring(tree.xpath('//td[@class="postbody"]')[1])
>>> txt = HTMLParser().unescape(tree1.decode('utf-8'))
>>> txt.replace(" ","")
'<tdclass="postbody">\n\n从发作的症状上比较符合血管迷走神经性晕厥,直立倾斜试验能协助诊断。在行直立倾斜实验前应该做常规的体格检查、ECG、UCG、holter和X-ray胸片除外器质性心脏病。<br><br>贴一篇“口服氨酰心安和依那普利治疗血管迷走性晕厥的疗效观察”<br>作者:林文华任自文丁燕生<br><br><ahref="http://www.ccheart.com.cn/ccheart_site/Templates/jieru/200011/1-1.htm"target="_blank"class="ilink"rel="nofollow">http://www.ccheart.com.cn/ccheart_site/Templates/jieru/200011/1-1.htm</a>\n\t</td>\n'                           '

其他信息的抽取以及代码的结构化同上即可。

下一篇内容:Python爬虫初级(八)—— lxml 详解及代理IP爬取

这篇关于Python爬虫初级(七)—— 丁香园评论留言板爬取的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/344612

相关文章

Python函数作用域示例详解

《Python函数作用域示例详解》本文介绍了Python中的LEGB作用域规则,详细解析了变量查找的四个层级,通过具体代码示例,展示了各层级的变量访问规则和特性,对python函数作用域相关知识感兴趣... 目录一、LEGB 规则二、作用域实例2.1 局部作用域(Local)2.2 闭包作用域(Enclos

Python实现对阿里云OSS对象存储的操作详解

《Python实现对阿里云OSS对象存储的操作详解》这篇文章主要为大家详细介绍了Python实现对阿里云OSS对象存储的操作相关知识,包括连接,上传,下载,列举等功能,感兴趣的小伙伴可以了解下... 目录一、直接使用代码二、详细使用1. 环境准备2. 初始化配置3. bucket配置创建4. 文件上传到os

使用Python实现可恢复式多线程下载器

《使用Python实现可恢复式多线程下载器》在数字时代,大文件下载已成为日常操作,本文将手把手教你用Python打造专业级下载器,实现断点续传,多线程加速,速度限制等功能,感兴趣的小伙伴可以了解下... 目录一、智能续传:从崩溃边缘抢救进度二、多线程加速:榨干网络带宽三、速度控制:做网络的好邻居四、终端交互

Python中注释使用方法举例详解

《Python中注释使用方法举例详解》在Python编程语言中注释是必不可少的一部分,它有助于提高代码的可读性和维护性,:本文主要介绍Python中注释使用方法的相关资料,需要的朋友可以参考下... 目录一、前言二、什么是注释?示例:三、单行注释语法:以 China编程# 开头,后面的内容为注释内容示例:示例:四

Python中win32包的安装及常见用途介绍

《Python中win32包的安装及常见用途介绍》在Windows环境下,PythonWin32模块通常随Python安装包一起安装,:本文主要介绍Python中win32包的安装及常见用途的相关... 目录前言主要组件安装方法常见用途1. 操作Windows注册表2. 操作Windows服务3. 窗口操作

Python中re模块结合正则表达式的实际应用案例

《Python中re模块结合正则表达式的实际应用案例》Python中的re模块是用于处理正则表达式的强大工具,正则表达式是一种用来匹配字符串的模式,它可以在文本中搜索和匹配特定的字符串模式,这篇文章主... 目录前言re模块常用函数一、查看文本中是否包含 A 或 B 字符串二、替换多个关键词为统一格式三、提

python常用的正则表达式及作用

《python常用的正则表达式及作用》正则表达式是处理字符串的强大工具,Python通过re模块提供正则表达式支持,本文给大家介绍python常用的正则表达式及作用详解,感兴趣的朋友跟随小编一起看看吧... 目录python常用正则表达式及作用基本匹配模式常用正则表达式示例常用量词边界匹配分组和捕获常用re

python实现对数据公钥加密与私钥解密

《python实现对数据公钥加密与私钥解密》这篇文章主要为大家详细介绍了如何使用python实现对数据公钥加密与私钥解密,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 目录公钥私钥的生成使用公钥加密使用私钥解密公钥私钥的生成这一部分,使用python生成公钥与私钥,然后保存在两个文

python删除xml中的w:ascii属性的步骤

《python删除xml中的w:ascii属性的步骤》使用xml.etree.ElementTree删除WordXML中w:ascii属性,需注册命名空间并定位rFonts元素,通过del操作删除属... 可以使用python的XML.etree.ElementTree模块通过以下步骤删除XML中的w:as

使用Python绘制3D堆叠条形图全解析

《使用Python绘制3D堆叠条形图全解析》在数据可视化的工具箱里,3D图表总能带来眼前一亮的效果,本文就来和大家聊聊如何使用Python实现绘制3D堆叠条形图,感兴趣的小伙伴可以了解下... 目录为什么选择 3D 堆叠条形图代码实现:从数据到 3D 世界的搭建核心代码逐行解析细节优化应用场景:3D 堆叠图