百度百科数据爬取 python 词条数据获取

2024-03-05 08:20

本文主要是介绍百度百科数据爬取 python 词条数据获取,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

最近需要补充一些电力名词的解释,尤其是文字相关内容。百度百科上的词条质量有差异,因此我们需要先手工选择一些高质量词条。

假设我们选择了互感器页面中的仪用变压器词条,首先:

import requests  
from bs4 import BeautifulSoup  
import time
import re
import random

接下来,解析获取到的response:

# 百度百科会增加一些字段,例如para_df21d,para_fr44h,需要识别
def has_para_content_mark(child_class):i=0for t in child_class:if t[0:5]=="para_": i+=1if t[0:5]=="MARK_":i+=1if t[0:8]=="content_":i+=1return  i==3# 百度百科会增加一些字段,例如text_sd55g4,text_fw92g,需要识别    
def has_text(child_class):i=0for t in child_class:if t[0:5]=="text_": i+=1return  i==1# 爬取内容,并解析出开头的简介和正文内容   
def get_response(url):random_sleep_time = random.randint(100, 2000) / 1000.0  # 将毫秒转换为秒# 随机睡眠time.sleep(random_sleep_time)   print(url)# 发送HTTP请求并获取响应  response = requests.get(url)  contents=[]# 检查响应状态码,确保请求成功  if response.status_code == 200:  # 解析HTML内容  soup = BeautifulSoup(response.text, "html.parser")  # 找到class属性为"lemmaSummary_M04mg", "J-summary"的div元素  div_with_class_summary  = soup.find_all("div", class_=re.compile(r"\bJ-summary\b"))# 找到class属性为"J-lemma-content"的div元素  div_with_class = soup.find("div", class_="J-lemma-content")  # 使用find_all查找所有class属性中包含"J-summary"的divj_summary_divs = soup.find_all("div", class_=re.compile(r"\bJ-summary\b"))# 打印结果for div in j_summary_divs:# 找到所有在div_container中的span元素span_elements = div.find_all("span")tmp=""# 遍历所有span元素并输出内容for span in span_elements:if span.get("class") and has_text(span.get("class")):tmp+=span.textcontents.append(tmp)contents.append("\n")if div_with_class:  # 遍历div中的所有子元素  for child in div_with_class.descendants: tmp_1=""# 检查子元素是否是span标签且class属性为"text_wRvkv"  if child.name == "div"  and child.get("class") and has_para_content_mark(child.get("class")):# 打印span元素的文本内容  for new_child in child.descendants: if new_child.name == "span" and new_child.get("class") and has_text(new_child.get("class")):tmp_1+=new_child.textcontents.append(tmp_1)contents.append("\n")    #  检查子元素是否是h2标签  elif child.name == "h2":  # 打印h2标签的内容  contents.append("####\n"+child.text+"\n")elif child.name == "h3":  # 打印h2标签的内容  contents.append("##"+child.text+"\n")return "".join(contents)else:  return "Failed to retrieve the{}.".format(url)

最后打印结果,发现可以复制词条中的主要内容,例如二级标题、三级标题和正文,以及每个百科最开始的概念介绍:

# 发送HTTP请求并获取响应  
url=r"https://baike.baidu.com/item/%E5%A4%AA%E9%98%B3%E8%83%BD%E5%85%89%E4%BC%8F%E5%8F%91%E7%94%B5/1158149?fromModule=lemma_inlink"
response = get_response(url) 
for content in contents:print(content)

解析效果如下(全文过长,这里只有部分):

光伏发电是根据光生伏特效应原理,利用太阳电池将太阳光能直接转化为电能。不论是独立使用还是并网发电,光伏发电系统主要由太阳电池板(组件)、控制器和逆变器三大部分组成,它们主要由电子元器件构成,但不涉及机械部件。所以,光伏发电设备极为精炼,可靠稳定寿命长、安装维护简便。理论上讲,光伏发电技术可以用于任何需要电源的场合,上至航天器,下至家用电源,大到兆瓦级电站,小到玩具,光伏电源可以无处不在。20221215日,入选中国工程院院刊《Engineering》发布“2022全球十大工程成就”。
####
分类
##发电模式
太阳能发电分光热发电和光伏发电。不论产销量、发展速度和发展前景、光热发电都赶不上光伏发电。可能因光伏发电普及较广而接触光热发电较少,通常民间所说的太阳能发电往往指的就是太阳能光伏发电,简称光电。
##输送方式
太阳能光伏发电分为独立光伏发电、并网光伏发电、分布式光伏发电

你也可以使用其他手段来避开反爬措施,但是我们的工作中,需要人工核验词条,因此采取了“把地址复制到excel中,爬虫批量爬取”的方法。你可以新建一个xlsx,然后新增两个列名“address”和“content”,然后运行:

import csv  
import pandas as pd  # 读取CSV文件  
df = pd.read_excel(r'D:\data\百科词条2.xlsx')  # 对第一列应用f1函数  
df["content"]= df.iloc[:, 0].apply(get_response)  # 将结果写回到原文件中  
df.to_excel('D:\data\百科词条2.xlsx', index=False)

为避免爬虫,也可以采用“手工保存网页,然后解析html”的方式

这篇关于百度百科数据爬取 python 词条数据获取的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/775873

相关文章

Python如何获取域名的SSL证书信息和到期时间

《Python如何获取域名的SSL证书信息和到期时间》在当今互联网时代,SSL证书的重要性不言而喻,它不仅为用户提供了安全的连接,还能提高网站的搜索引擎排名,那我们怎么才能通过Python获取域名的S... 目录了解SSL证书的基本概念使用python库来抓取SSL证书信息安装必要的库编写获取SSL证书信息

如何使用C#串口通讯实现数据的发送和接收

《如何使用C#串口通讯实现数据的发送和接收》本文详细介绍了如何使用C#实现基于串口通讯的数据发送和接收,通过SerialPort类,我们可以轻松实现串口通讯,并结合事件机制实现数据的传递和处理,感兴趣... 目录1. 概述2. 关键技术点2.1 SerialPort类2.2 异步接收数据2.3 数据解析2.

详解如何使用Python提取视频文件中的音频

《详解如何使用Python提取视频文件中的音频》在多媒体处理中,有时我们需要从视频文件中提取音频,本文为大家整理了几种使用Python编程语言提取视频文件中的音频的方法,大家可以根据需要进行选择... 目录引言代码部分方法扩展引言在多媒体处理中,有时我们需要从视频文件中提取音频,以便进一步处理或分析。本文

python多种数据类型输出为Excel文件

《python多种数据类型输出为Excel文件》本文主要介绍了将Python中的列表、元组、字典和集合等数据类型输出到Excel文件中,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参... 目录一.列表List二.字典dict三.集合set四.元组tuplepython中的列表、元组、字典

VSCode配置Anaconda Python环境的实现

《VSCode配置AnacondaPython环境的实现》VisualStudioCode中可以使用Anaconda环境进行Python开发,本文主要介绍了VSCode配置AnacondaPytho... 目录前言一、安装 Visual Studio Code 和 Anaconda二、创建或激活 conda

pytorch+torchvision+python版本对应及环境安装

《pytorch+torchvision+python版本对应及环境安装》本文主要介绍了pytorch+torchvision+python版本对应及环境安装,安装过程中需要注意Numpy版本的降级,... 目录一、版本对应二、安装命令(pip)1. 版本2. 安装全过程3. 命令相关解释参考文章一、版本对

大数据spark3.5安装部署之local模式详解

《大数据spark3.5安装部署之local模式详解》本文介绍了如何在本地模式下安装和配置Spark,并展示了如何使用SparkShell进行基本的数据处理操作,同时,还介绍了如何通过Spark-su... 目录下载上传解压配置jdk解压配置环境变量启动查看交互操作命令行提交应用spark,一个数据处理框架

讯飞webapi语音识别接口调用示例代码(python)

《讯飞webapi语音识别接口调用示例代码(python)》:本文主要介绍如何使用Python3调用讯飞WebAPI语音识别接口,重点解决了在处理语音识别结果时判断是否为最后一帧的问题,通过运行代... 目录前言一、环境二、引入库三、代码实例四、运行结果五、总结前言基于python3 讯飞webAPI语音

基于Python开发PDF转PNG的可视化工具

《基于Python开发PDF转PNG的可视化工具》在数字文档处理领域,PDF到图像格式的转换是常见需求,本文介绍如何利用Python的PyMuPDF库和Tkinter框架开发一个带图形界面的PDF转P... 目录一、引言二、功能特性三、技术架构1. 技术栈组成2. 系统架构javascript设计3.效果图

通过ibd文件恢复MySql数据的操作方法

《通过ibd文件恢复MySql数据的操作方法》文章介绍通过.ibd文件恢复MySQL数据的过程,包括知道表结构和不知道表结构两种情况,对于知道表结构的情况,可以直接将.ibd文件复制到新的数据库目录并... 目录第一种情况:知道表结构第二种情况:不知道表结构总结今天干了一件大事,安装1Panel导致原来服务