访问微博热搜榜,获取微博热搜榜前50条热搜名称、链接及其实时热度,并将获取到的数据以邮件的形式发送,每20秒一次发送到个人邮箱中。

本文主要是介绍访问微博热搜榜,获取微博热搜榜前50条热搜名称、链接及其实时热度,并将获取到的数据以邮件的形式发送,每20秒一次发送到个人邮箱中。,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

一、需求

访问微博热搜榜(Sina Visitor System),获取微博热搜榜前50条热搜名称、链接及其实时热度,并将获取到的数据通过邮件的形式,每20秒发送到个人邮箱中。

注意事项:

  1. 定义请求头

本实验需要获取User-Agent、Accept、Accept-Language、Cookie四个字段,前三个字段可能都是相同的,主要是Cookie不同。具体获取流程如下:

 打开目标网页,本实验目标网页为Sina Visitor System

按键盘上面F12进入开发者模式,此时页面如下:

 按键盘上面F5刷新页面,此时开发者模式中会有网页相关信息,页面如下:

依次点击Network、All、以及summary(即目标链接的地址),各个位置如下图所示:

点击summary后出现右侧窗口,点击Header能够得到相关报文字段,如下图所示:

cookie获取

def job():print('**************开始爬取微博热搜**************')header = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/100.0.4896.60 Safari/537.36','Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8','Accept-Language': 'zh-CN,zh-Hans;q=0.9','Cookie':#填上自己的}url = 'https://s.weibo.com/top/summary'html = page_request(url=url, header=header)page_parse(html)

邮件发送程序。

以网易邮箱为例,开通自己的授权码,QQ邮箱同理。

登录自己的网易邮箱

会生成一个授权码,你把那个授权码填到代码里就可以了。

class Email163(object):HOST = 'smtp.qq.com'#网易邮箱是 smtp.163.comPORT = '25'#默认的不用改PASSWORD = 'XXXXXXXXX'填写自己的授权码FROM_ADDR = 'XXX@qq.com'#填上自己的邮箱SUBTYPE_PLAIN = 'plain'SUBTYPE_HTML = 'html'ATTACHMENT = 'attachment'EMBEDDED = 'embedded'def __init__(self, body: str, to_addrs: str) -> None:msg = MIMEText(body, self.SUBTYPE_PLAIN, 'utf-8')msg['From'] = self.FROM_ADDRmsg['To'] = to_addrs# 设置邮件的格式以及发送主题msg['subject'] = Header('微博热搜', 'utf-8')self.msg = msg.as_string()self.to_addrs = to_addrsdef send_default_email(self) -> None:try:smtp = smtplib.SMTP()smtp.connect(self.HOST, self.PORT)smtp.login(self.FROM_ADDR, self.PASSWORD)smtp.sendmail(self.FROM_ADDR, self.to_addrs, self.msg)smtp.close()print(f'邮件成功发送给:{self.to_addrs}')except smtplib.SMTPException:raise Exception(f'给{self.to_addrs}发送邮件失败')

完整代码

# 爬虫相关模块
from bs4 import BeautifulSoup
# 发送邮箱相关模块
import smtplib
from email.mime.text import MIMEText
from email.header import Header
import urllib.request
# 定时模块
import schedule
import time
# 请求网页
import urllib.request
import gzip
class Email163(object):HOST = 'smtp.163.com'PORT = '25'PASSWORD = 'XXXXXXXXXXX'#授权码FROM_ADDR = '自己的邮箱'#填自己的SUBTYPE_PLAIN = 'plain'SUBTYPE_HTML = 'html'ATTACHMENT = 'attachment'EMBEDDED = 'embedded'def __init__(self, body: str, to_addrs: str) -> None:msg = MIMEText(body, self.SUBTYPE_PLAIN, 'utf-8')msg['From'] = self.FROM_ADDRmsg['To'] = to_addrs# 设置邮件的格式以及发送主题msg['subject'] = Header('微博热搜', 'utf-8')self.msg = msg.as_string()self.to_addrs = to_addrsdef send_default_email(self) -> None:try:smtp = smtplib.SMTP()smtp.connect(self.HOST, self.PORT)smtp.login(self.FROM_ADDR, self.PASSWORD)smtp.sendmail(self.FROM_ADDR, self.to_addrs, self.msg)smtp.close()print(f'邮件成功发送给:{self.to_addrs}')except smtplib.SMTPException:raise Exception(f'给{self.to_addrs}发送邮件失败')
def page_request(url, header):request = urllib.request.Request(url, headers=header)html = ''try:response = urllib.request.urlopen(request)if response.info().get('Content-Encoding') == 'gzip':# 如果响应使用gzip压缩,则解压缩数据compressed_data = response.read()decompressed_data = gzip.decompress(compressed_data)html = decompressed_data.decode('utf-8')else:html = response.read().decode('utf-8')except urllib.error.URLError as e:if hasattr(e, 'code'):print(e.code)if hasattr(e, 'reason'):print(e.reason)return html
# 解析网页
def page_parse(html):soup = BeautifulSoup(html, 'lxml')news = []# 处理热搜前50urls_title = soup.select('#pl_top_realtimehot > table > tbody > tr > td.td-02 > a')hotness = soup.select('#pl_top_realtimehot > table > tbody > tr > td.td-02 > span')for i in range(len(urls_title)):new = {}title = urls_title[i].get_text()url = urls_title[i].get('href')# 个别链接会出现异常if url == 'javascript:void(0);':url = urls_title[i].get('href_to')# 热搜top没有显示热度if i == 0:hot = 'top'else:hot = hotness[i - 1].get_text()new['title'] = titlenew['url'] = "https://s.weibo.com" + urlnew['hot'] = hotnews.append(new)print(len(news))print(news)for element in news:print(element['title'] + '\t' + element['hot'] + '\t' + element['url'])content = ''for i in range(len(news)):content += str(i) + '、\t' + news[i]['title'] + '\t' + '热度:' + news[i]['hot'] + '\t' + '链接:' + news[i]['url'] + ' \n'get_time = time.strftime('%Y-%m-%d %X', time.localtime(time.time())) + '\n'content += '获取事件时间为' + get_timeto_addrs = '接收邮箱'#填上自己的email163 = Email163(content, to_addrs)email163.send_default_email()
def job():print('**************开始爬取微博热搜**************')header = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/100.0.4896.60 Safari/537.36','Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8','Accept-Language': 'zh-CN,zh-Hans;q=0.9','Cookie':'自己的cookie'#填自己的}url = 'https://s.weibo.com/top/summary'html = page_request(url=url, header=header)page_parse(html)
if __name__ == "__main__":# 定时爬取,每隔20s爬取一次微博热搜榜并将爬取结果发送至个人邮箱# 可以将20修改成其他时间schedule.every(20).seconds.do(job)while True:schedule.run_pending()

这篇关于访问微博热搜榜,获取微博热搜榜前50条热搜名称、链接及其实时热度,并将获取到的数据以邮件的形式发送,每20秒一次发送到个人邮箱中。的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/316342

相关文章

Python获取中国节假日数据记录入JSON文件

《Python获取中国节假日数据记录入JSON文件》项目系统内置的日历应用为了提升用户体验,特别设置了在调休日期显示“休”的UI图标功能,那么问题是这些调休数据从哪里来呢?我尝试一种更为智能的方法:P... 目录节假日数据获取存入jsON文件节假日数据读取封装完整代码项目系统内置的日历应用为了提升用户体验,

微信公众号脚本-获取热搜自动新建草稿并发布文章

《微信公众号脚本-获取热搜自动新建草稿并发布文章》本来想写一个自动化发布微信公众号的小绿书的脚本,但是微信公众号官网没有小绿书的接口,那就写一个获取热搜微信普通文章的脚本吧,:本文主要介绍微信公众... 目录介绍思路前期准备环境要求获取接口token获取热搜获取热搜数据下载热搜图片给图片加上标题文字上传图片

Java利用JSONPath操作JSON数据的技术指南

《Java利用JSONPath操作JSON数据的技术指南》JSONPath是一种强大的工具,用于查询和操作JSON数据,类似于SQL的语法,它为处理复杂的JSON数据结构提供了简单且高效... 目录1、简述2、什么是 jsONPath?3、Java 示例3.1 基本查询3.2 过滤查询3.3 递归搜索3.4

MySQL大表数据的分区与分库分表的实现

《MySQL大表数据的分区与分库分表的实现》数据库的分区和分库分表是两种常用的技术方案,本文主要介绍了MySQL大表数据的分区与分库分表的实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有... 目录1. mysql大表数据的分区1.1 什么是分区?1.2 分区的类型1.3 分区的优点1.4 分

Mysql删除几亿条数据表中的部分数据的方法实现

《Mysql删除几亿条数据表中的部分数据的方法实现》在MySQL中删除一个大表中的数据时,需要特别注意操作的性能和对系统的影响,本文主要介绍了Mysql删除几亿条数据表中的部分数据的方法实现,具有一定... 目录1、需求2、方案1. 使用 DELETE 语句分批删除2. 使用 INPLACE ALTER T

Python Dash框架在数据可视化仪表板中的应用与实践记录

《PythonDash框架在数据可视化仪表板中的应用与实践记录》Python的PlotlyDash库提供了一种简便且强大的方式来构建和展示互动式数据仪表板,本篇文章将深入探讨如何使用Dash设计一... 目录python Dash框架在数据可视化仪表板中的应用与实践1. 什么是Plotly Dash?1.1

Spring定时任务只执行一次的原因分析与解决方案

《Spring定时任务只执行一次的原因分析与解决方案》在使用Spring的@Scheduled定时任务时,你是否遇到过任务只执行一次,后续不再触发的情况?这种情况可能由多种原因导致,如未启用调度、线程... 目录1. 问题背景2. Spring定时任务的基本用法3. 为什么定时任务只执行一次?3.1 未启用

Redis 中的热点键和数据倾斜示例详解

《Redis中的热点键和数据倾斜示例详解》热点键是指在Redis中被频繁访问的特定键,这些键由于其高访问频率,可能导致Redis服务器的性能问题,尤其是在高并发场景下,本文给大家介绍Redis中的热... 目录Redis 中的热点键和数据倾斜热点键(Hot Key)定义特点应对策略示例数据倾斜(Data S

使用Python实现获取网页指定内容

《使用Python实现获取网页指定内容》在当今互联网时代,网页数据抓取是一项非常重要的技能,本文将带你从零开始学习如何使用Python获取网页中的指定内容,希望对大家有所帮助... 目录引言1. 网页抓取的基本概念2. python中的网页抓取库3. 安装必要的库4. 发送HTTP请求并获取网页内容5. 解

Python实现将MySQL中所有表的数据都导出为CSV文件并压缩

《Python实现将MySQL中所有表的数据都导出为CSV文件并压缩》这篇文章主要为大家详细介绍了如何使用Python将MySQL数据库中所有表的数据都导出为CSV文件到一个目录,并压缩为zip文件到... python将mysql数据库中所有表的数据都导出为CSV文件到一个目录,并压缩为zip文件到另一个