Python爬虫实战 | (5) 爬取人民网新闻指定页面

2023-11-03 09:59

本文主要是介绍Python爬虫实战 | (5) 爬取人民网新闻指定页面,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

在本篇博客中,我们将使用requests+正则表达式爬取指定页面的新闻内容,使用正则表达式解析网页,获取新闻的题目、日期、来源、正文内容。

首先,搭建起主体程序,爬虫四部曲:

import json
import requests
from requests.exceptions import RequestException
import re
import timedef get_page(url):passdef get_parser(html):passdef write_tofile(title,article):passif __name__=='__main__':#指定新闻urlurl = 'http://it.people.com.cn/n1/2019/0325/c1009-30993121.html'#发送请求,获取响应html = get_page(url)#解析响应title,article = get_parser(html)#数据存储write_tofile(title,article)

发送请求,获取响应。编写get_page()函数:

def get_page(url):try:# 添加User-Agent,放在headers中,伪装成浏览器headers = {'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_5) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.100 Safari/537.36'}response = requests.get(url, headers=headers)if response.status_code == 200:response.encoding = response.apparent_encodingreturn response.textreturn Noneexcept RequestException:return None

解析响应,提取题目、日期、来源,正文:

题目、日期、来源:

正文(分布在各个p标签中):

def get_parser(html):#提取题目 日期 来源html = str(html)pattern = re.compile('<h1>(.*?)</h1>.*?<div class="fl">(.*?)&nbsp;&nbsp;来源:<a.*?>(.*?)</a></div>',re.S)title = pattern.findall(html)[0]print(title)#正文#可以提取两次 第一次缩小范围,第二词再从小范围HTML代码中提取pattern = re.compile('<div class="fl text_con_left">(.*?)<div class="edit clearfix">',re.S)article = pattern.findall(html)[0]pattern = re.compile('<p>(.*?)</p>',re.S)article = pattern.findall(article)return title,article

数据存储:

def write_tofile(title,article):with open('news.txt','w',encoding='utf-8') as f:f.write(title[0].replace('&nbsp;','')+'\t'+title[1]+'\t'+title[2]+'\n')for i in article:f.write(i.strip())

完整代码:

import json
import requests
from requests.exceptions import RequestException
import re
import timedef get_page(url):try:# 添加User-Agent,放在headers中,伪装成浏览器headers = {'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_5) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.100 Safari/537.36'}response = requests.get(url, headers=headers)if response.status_code == 200:response.encoding = response.apparent_encodingreturn response.textreturn Noneexcept RequestException:return Nonedef get_parser(html):#提取题目 日期 来源html = str(html)pattern = re.compile('<h1>(.*?)</h1>.*?<div class="fl">(.*?)&nbsp;&nbsp;来源:<a.*?>(.*?)</a></div>',re.S)title = pattern.findall(html)[0]print(title)#正文#可以提取两次 第一次缩小范围,第二词再从小范围HTML代码中提取pattern = re.compile('<div class="fl text_con_left">(.*?)<div class="edit clearfix">',re.S)article = pattern.findall(html)[0]pattern = re.compile('<p>(.*?)</p>',re.S)article = pattern.findall(article)return title,articledef write_tofile(title,article):with open('news.txt','w',encoding='utf-8') as f:f.write(title[0].replace('&nbsp;','')+'\t'+title[1]+'\t'+title[2]+'\n')for i in article:f.write(i.strip())if __name__=='__main__':#指定新闻urlurl = 'http://tc.people.com.cn/n1/2019/0227/c183008-30906013.html'#发送请求,获取响应html = get_page(url)#解析响应title,article = get_parser(html)#数据存储write_tofile(title,article)

 

 

 

 

 

 

 

 

 

 

 

这篇关于Python爬虫实战 | (5) 爬取人民网新闻指定页面的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/337401

相关文章

网页解析 lxml 库--实战

lxml库使用流程 lxml 是 Python 的第三方解析库,完全使用 Python 语言编写,它对 XPath表达式提供了良好的支 持,因此能够了高效地解析 HTML/XML 文档。本节讲解如何通过 lxml 库解析 HTML 文档。 pip install lxml lxm| 库提供了一个 etree 模块,该模块专门用来解析 HTML/XML 文档,下面来介绍一下 lxml 库

python: 多模块(.py)中全局变量的导入

文章目录 global关键字可变类型和不可变类型数据的内存地址单模块(单个py文件)的全局变量示例总结 多模块(多个py文件)的全局变量from x import x导入全局变量示例 import x导入全局变量示例 总结 global关键字 global 的作用范围是模块(.py)级别: 当你在一个模块(文件)中使用 global 声明变量时,这个变量只在该模块的全局命名空

性能分析之MySQL索引实战案例

文章目录 一、前言二、准备三、MySQL索引优化四、MySQL 索引知识回顾五、总结 一、前言 在上一讲性能工具之 JProfiler 简单登录案例分析实战中已经发现SQL没有建立索引问题,本文将一起从代码层去分析为什么没有建立索引? 开源ERP项目地址:https://gitee.com/jishenghua/JSH_ERP 二、准备 打开IDEA找到登录请求资源路径位置

如何在页面调用utility bar并传递参数至lwc组件

1.在app的utility item中添加lwc组件: 2.调用utility bar api的方式有两种: 方法一,通过lwc调用: import {LightningElement,api ,wire } from 'lwc';import { publish, MessageContext } from 'lightning/messageService';import Ca

【Python编程】Linux创建虚拟环境并配置与notebook相连接

1.创建 使用 venv 创建虚拟环境。例如,在当前目录下创建一个名为 myenv 的虚拟环境: python3 -m venv myenv 2.激活 激活虚拟环境使其成为当前终端会话的活动环境。运行: source myenv/bin/activate 3.与notebook连接 在虚拟环境中,使用 pip 安装 Jupyter 和 ipykernel: pip instal

C#实战|大乐透选号器[6]:实现实时显示已选择的红蓝球数量

哈喽,你好啊,我是雷工。 关于大乐透选号器在前面已经记录了5篇笔记,这是第6篇; 接下来实现实时显示当前选中红球数量,蓝球数量; 以下为练习笔记。 01 效果演示 当选择和取消选择红球或蓝球时,在对应的位置显示实时已选择的红球、蓝球的数量; 02 标签名称 分别设置Label标签名称为:lblRedCount、lblBlueCount

【机器学习】高斯过程的基本概念和应用领域以及在python中的实例

引言 高斯过程(Gaussian Process,简称GP)是一种概率模型,用于描述一组随机变量的联合概率分布,其中任何一个有限维度的子集都具有高斯分布 文章目录 引言一、高斯过程1.1 基本定义1.1.1 随机过程1.1.2 高斯分布 1.2 高斯过程的特性1.2.1 联合高斯性1.2.2 均值函数1.2.3 协方差函数(或核函数) 1.3 核函数1.4 高斯过程回归(Gauss

【学习笔记】 陈强-机器学习-Python-Ch15 人工神经网络(1)sklearn

系列文章目录 监督学习:参数方法 【学习笔记】 陈强-机器学习-Python-Ch4 线性回归 【学习笔记】 陈强-机器学习-Python-Ch5 逻辑回归 【课后题练习】 陈强-机器学习-Python-Ch5 逻辑回归(SAheart.csv) 【学习笔记】 陈强-机器学习-Python-Ch6 多项逻辑回归 【学习笔记 及 课后题练习】 陈强-机器学习-Python-Ch7 判别分析 【学

滚雪球学Java(87):Java事务处理:JDBC的ACID属性与实战技巧!真有两下子!

咦咦咦,各位小可爱,我是你们的好伙伴——bug菌,今天又来给大家普及Java SE啦,别躲起来啊,听我讲干货还不快点赞,赞多了我就有动力讲得更嗨啦!所以呀,养成先点赞后阅读的好习惯,别被干货淹没了哦~ 🏆本文收录于「滚雪球学Java」专栏,专业攻坚指数级提升,助你一臂之力,带你早日登顶🚀,欢迎大家关注&&收藏!持续更新中,up!up!up!! 环境说明:Windows 10

nudepy,一个有趣的 Python 库!

更多资料获取 📚 个人网站:ipengtao.com 大家好,今天为大家分享一个有趣的 Python 库 - nudepy。 Github地址:https://github.com/hhatto/nude.py 在图像处理和计算机视觉应用中,检测图像中的不适当内容(例如裸露图像)是一个重要的任务。nudepy 是一个基于 Python 的库,专门用于检测图像中的不适当内容。该