Python爬虫初级(七)—— 丁香园评论留言板爬取

2023-11-04 08:50

本文主要是介绍Python爬虫初级(七)—— 丁香园评论留言板爬取,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

欢迎关注公众号K的笔记阅读博主更多优质学习内容
K的笔记公众号

上一篇内容:Python爬虫初级(六)—— 正则表达式库入门

观察待爬取页面,判断爬取可行性

我们首先查看待爬取页面:http://www.dxy.cn/bbs/thread/626626#626626,具体形式为下图:
丁香园待爬取页面我们查看源代码信息:
页面源代码可以发现留言板块的内容在页面源代码全部直接显示了出来,那么我们可以尝试直接进行爬取,我们采取的思路首先是 requests 库 + bs4 库,这两者的具体用法在前面的文章均已涉及。

检测爬取链接,初步尝试爬取

首先我们可以在IDLE上检查爬取链接是否正常,直接展示代码:

>>> import requests
>>> import re
>>> from bs4 import BeautifulSoup
>>> url = "http://www.dxy.cn/bbs/thread/626626#626626"
>>> headers = {"user-agent":"Mozilla/5.0"}
>>> res = requests.get(url, headers=headers, stream=True)
>>> res.status_code
200
>>> text = res.text
>>> soup = BeautifulSoup(text)
>>> text[1000:1300]
'og:description" content="我遇到一个“怪”病人,向大家请教。她,42岁。反复惊吓后晕厥30余年。每次受响声惊吓后发生跌倒,短暂意识丧失。无逆行性遗忘,无抽搐,无口吐白沫,无大小便失禁。多次跌倒致外伤。婴儿时有惊厥史。入院查体无殊。ECG、24小时动态心电图无殊;头颅MRI示小软化灶;脑电图无殊。入院后有数次类似发作。请问该患者该做何诊断,还需做什么检查,治疗方案怎样?"/>\n        <meta property="og:author" content="楼医生"/>\n        <meta property="og:release_date" content'

我们想要抓取链接,先在上面的源代码中对标题层级结构进行分析:
标题代码

然后直接写出相关代码:

>>> title = soup("div", id="postview")[0].tr.th.h1.contents[0]
['\n                    晕厥待查——请教各位同仁                 ']
>>> title = title.replace(" ", "")
>>> title = title.replace("\n", "")
>>>> title
'晕厥待查——请教各位同仁'

下面同理可以查看其他信息,下面我们为了便于操作直接采用 CSS 类名查找:

>>> context = soup.select("[class~=postbody]")
# 返回所有内容信息 

返回的信息内容如下:
爬取返回内容对内容进行清理:

>>> cont = context[1].contents[0]
>>> cont = cont.replace(" ", "")
>>> cont = cont.replace("\n", "")
>>> cont
'从发作的症状上比较符合血管迷走神经性晕厥,直立倾斜试验能协助诊断。在行直立倾斜实验前应该做常规的体格检查、ECG、UCG、holter和X-ray胸片除外器质性心脏病。'

测试代码写完后,我们写出完整代码:

import requests
from bs4 import BeautifulSoupdef getHTML(url):try:headers = {"user-agent":"Mozilla/5.0"}res = requests.get(url, headers=headers, stream=True)res.raise_for_statusres.encoding = res.apparent_encodingreturn res.textexcept:return ""def ParseFromPage(html):commentList = []soup = BeautifulSoup(html)title = soup("div", id="postview")[0].tr.th.h1.contents[0]title = title.replace(" ", "")title = title.replace("\n", "")context = soup.select("[class~=postbody]")for i in range(len(context)):cont = context[i].contents[0]cont = cont.replace(" ", "")commentList.append(cont)return title, commentListdef main():base_url = "http://www.dxy.cn/bbs/thread/626626#626626"html = getHTML(base_url)title, cList = ParseFromPage(html)print(title, cList)main()

拓展一

我们爬取完单一页面后,我们可以考虑,是否可以爬取更多的页面。我们的思考出发点是丁香园每个页面的链接下面都会存在一个引向其他同类型页面的链接,比如:
链接抓取我们可以看到,下面的 “骨折手术后一周突发心跳骤停,抢救无效死亡,什么原因?”这段话不就是我们要找的链接,点开后也确实如我们所料,页面结构的解析和本页面的解析一样,我们完全可以复用这段代码,只需要改变一下 url 即可。下面我们尝试通过 re 库获取此 url 链接:

>>> import re
>>> href = re.findall(r'&#149; <a href="(.*?)" target', text)
>>> href
['http://job.dxy.cn/bbs/topic/43200651', 'http://www.dxy.cn/bbs/topic/43177945', 'http://Radiology.dxy.cn/bbs/topic/43179123', 'http://www.dxy.cn/bbs/topic/43172871']

这里我们看到有四个链接,但并不是每个链接都是我们需要的,通过观察后我们发现,只有以 “http://www.dxy.cn/bbs/topic” 开头的链接才是我们需要的,我们可以将查找链接的方式改为:

>>> re.findall(r'<a href="(http://www.dxy.cn/bbs/topic/.*?) target="_blank"',text)
['http://www.dxy.cn/bbs/topic/43177945"', 'http://www.dxy.cn/bbs/topic/43172871"']

我们看到返回了两个正确结果,为了不增大网站压力,我们修改主函数,仅仅爬取十条链接的内容,并存储到 dxy.txt 文件中,主函数代码如下:

def main():base_url = "http://www.dxy.cn/bbs/thread/626626#626626"for i in range(10):html = getHTML(base_url)title, cList = ParseFromPage(html)with open("dxy.txt", "a", encoding="utf-8") as f:f.write(title)f.write("\n")for i in range(len(cList)):f.write(cList[i])f.write("\n")f.write("\n")try:url_list = re.findall(r'<a href="(http://www.dxy.cn/bbs/topic/.*?) target="_blank"',html)base_url = url_list[0]except:continue

此代码应能正确爬取链接,代码规范有待网友指正。

拓展二

我们还可以使用 lxml 爬取内容,事实上此代码会更加简洁, lxml 的具体用法将在下期内容展开,以下直接简单使用之:

from lxml import html, etree
>>> tree1 = html.tostring(tree.xpath('//td[@class="postbody"]')[1])
>>> txt = HTMLParser().unescape(tree1.decode('utf-8'))
>>> txt.replace(" ","")
'<tdclass="postbody">\n\n从发作的症状上比较符合血管迷走神经性晕厥,直立倾斜试验能协助诊断。在行直立倾斜实验前应该做常规的体格检查、ECG、UCG、holter和X-ray胸片除外器质性心脏病。<br><br>贴一篇“口服氨酰心安和依那普利治疗血管迷走性晕厥的疗效观察”<br>作者:林文华任自文丁燕生<br><br><ahref="http://www.ccheart.com.cn/ccheart_site/Templates/jieru/200011/1-1.htm"target="_blank"class="ilink"rel="nofollow">http://www.ccheart.com.cn/ccheart_site/Templates/jieru/200011/1-1.htm</a>\n\t</td>\n'                           '

其他信息的抽取以及代码的结构化同上即可。

下一篇内容:Python爬虫初级(八)—— lxml 详解及代理IP爬取

这篇关于Python爬虫初级(七)—— 丁香园评论留言板爬取的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/344612

相关文章

Python将博客内容html导出为Markdown格式

《Python将博客内容html导出为Markdown格式》Python将博客内容html导出为Markdown格式,通过博客url地址抓取文章,分析并提取出文章标题和内容,将内容构建成html,再转... 目录一、为什么要搞?二、准备如何搞?三、说搞咱就搞!抓取文章提取内容构建html转存markdown

Python获取中国节假日数据记录入JSON文件

《Python获取中国节假日数据记录入JSON文件》项目系统内置的日历应用为了提升用户体验,特别设置了在调休日期显示“休”的UI图标功能,那么问题是这些调休数据从哪里来呢?我尝试一种更为智能的方法:P... 目录节假日数据获取存入jsON文件节假日数据读取封装完整代码项目系统内置的日历应用为了提升用户体验,

Python FastAPI+Celery+RabbitMQ实现分布式图片水印处理系统

《PythonFastAPI+Celery+RabbitMQ实现分布式图片水印处理系统》这篇文章主要为大家详细介绍了PythonFastAPI如何结合Celery以及RabbitMQ实现简单的分布式... 实现思路FastAPI 服务器Celery 任务队列RabbitMQ 作为消息代理定时任务处理完整

Python Websockets库的使用指南

《PythonWebsockets库的使用指南》pythonwebsockets库是一个用于创建WebSocket服务器和客户端的Python库,它提供了一种简单的方式来实现实时通信,支持异步和同步... 目录一、WebSocket 简介二、python 的 websockets 库安装三、完整代码示例1.

揭秘Python Socket网络编程的7种硬核用法

《揭秘PythonSocket网络编程的7种硬核用法》Socket不仅能做聊天室,还能干一大堆硬核操作,这篇文章就带大家看看Python网络编程的7种超实用玩法,感兴趣的小伙伴可以跟随小编一起... 目录1.端口扫描器:探测开放端口2.简易 HTTP 服务器:10 秒搭个网页3.局域网游戏:多人联机对战4.

使用Python实现快速搭建本地HTTP服务器

《使用Python实现快速搭建本地HTTP服务器》:本文主要介绍如何使用Python快速搭建本地HTTP服务器,轻松实现一键HTTP文件共享,同时结合二维码技术,让访问更简单,感兴趣的小伙伴可以了... 目录1. 概述2. 快速搭建 HTTP 文件共享服务2.1 核心思路2.2 代码实现2.3 代码解读3.

Python使用自带的base64库进行base64编码和解码

《Python使用自带的base64库进行base64编码和解码》在Python中,处理数据的编码和解码是数据传输和存储中非常普遍的需求,其中,Base64是一种常用的编码方案,本文我将详细介绍如何使... 目录引言使用python的base64库进行编码和解码编码函数解码函数Base64编码的应用场景注意

Python基于wxPython和FFmpeg开发一个视频标签工具

《Python基于wxPython和FFmpeg开发一个视频标签工具》在当今数字媒体时代,视频内容的管理和标记变得越来越重要,无论是研究人员需要对实验视频进行时间点标记,还是个人用户希望对家庭视频进行... 目录引言1. 应用概述2. 技术栈分析2.1 核心库和模块2.2 wxpython作为GUI选择的优

Python如何使用__slots__实现节省内存和性能优化

《Python如何使用__slots__实现节省内存和性能优化》你有想过,一个小小的__slots__能让你的Python类内存消耗直接减半吗,没错,今天咱们要聊的就是这个让人眼前一亮的技巧,感兴趣的... 目录背景:内存吃得满满的类__slots__:你的内存管理小助手举个大概的例子:看看效果如何?1.

Python+PyQt5实现多屏幕协同播放功能

《Python+PyQt5实现多屏幕协同播放功能》在现代会议展示、数字广告、展览展示等场景中,多屏幕协同播放已成为刚需,下面我们就来看看如何利用Python和PyQt5开发一套功能强大的跨屏播控系统吧... 目录一、项目概述:突破传统播放限制二、核心技术解析2.1 多屏管理机制2.2 播放引擎设计2.3 专