python爬取微博热门消息(二)—— configs中参数的设置及程序执行过程

本文主要是介绍python爬取微博热门消息(二)—— configs中参数的设置及程序执行过程,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

这一节,主要讲述配置文件configs.py参数的含义,以及cookie的获取方式。

感兴趣的小伙伴可以 收藏 + 关注 哦!


另外,关于本项目的效果展示,以及教程,点击一下链接即可。

python爬取微博热门消息(一)——效果展示

python爬取微博热门消息(三)—— 爬取微博热门信息的功能函数

python爬取微博热门消息(四)—— 完整代码


目录

一、常用参数

二、执行过程

三、代码


一、常用参数

1、url

url 即为我们热搜网址,是我们进行爬取的网址,该网址界面如下:

2、flag

flag 为bool型,取值为 True 或 False,是否爬取微博热搜所有的内容

  • True: 爬取微博热搜的所有内容
  • False: 爬取微博某个话题的内容

3、index

index为int型,取值为[0,50]。因为一页有50个热搜+top。爬取特定热搜,例如第2个热搜内容: ***, 则index = 2,便会直接爬取该热搜信息

4、str_time

当前时间, such as 2021-01-11_1551

二、执行过程

1、爬取所有内容

将参数flag设置为 True,运行即可

2、爬取特定内容

我们以‘ 6:迪丽热巴双马尾 ’为例

(1) 先将参数flag设置为 True,直到 information --> 2021-01-11_1746 --> topic.txt 文件生成即可停止运行;

(2) 再修改以下参数:

    -- flag: False

    -- index: 6

    -- str_time:  2021-01-11_1746

注:有时候我们爬取下来的内容乱码,我们只需多次爬取乱码的热搜话题即可。 

三、代码

configs.py

import argparsedef parse_args():parser = argparse.ArgumentParser(description='trending topic of microblog')# 热搜网址parser.add_argument('--url', default='https://s.weibo.com/top/summary?Refer=top_hot&topnav=1&wvr=6')# 全部内容 or 特定内容"""flag: True or False,是否爬取微博所有的内容index: 爬取特定热搜,例如第2个热搜内容: ***, 则index = 2,便会直接爬取该热搜信息str_time: 当前时间, such as 2021-01-11_1551"""parser.add_argument('--flag', default=False)parser.add_argument('--index', default=6)parser.add_argument('--str_time', default='2021-01-11_1746')return parser.parse_args()

 

这篇关于python爬取微博热门消息(二)—— configs中参数的设置及程序执行过程的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/320066

相关文章

浅析Spring Security认证过程

类图 为了方便理解Spring Security认证流程,特意画了如下的类图,包含相关的核心认证类 概述 核心验证器 AuthenticationManager 该对象提供了认证方法的入口,接收一个Authentiaton对象作为参数; public interface AuthenticationManager {Authentication authenticate(Authenti

python: 多模块(.py)中全局变量的导入

文章目录 global关键字可变类型和不可变类型数据的内存地址单模块(单个py文件)的全局变量示例总结 多模块(多个py文件)的全局变量from x import x导入全局变量示例 import x导入全局变量示例 总结 global关键字 global 的作用范围是模块(.py)级别: 当你在一个模块(文件)中使用 global 声明变量时,这个变量只在该模块的全局命名空

作业提交过程之HDFSMapReduce

作业提交全过程详解 (1)作业提交 第1步:Client调用job.waitForCompletion方法,向整个集群提交MapReduce作业。 第2步:Client向RM申请一个作业id。 第3步:RM给Client返回该job资源的提交路径和作业id。 第4步:Client提交jar包、切片信息和配置文件到指定的资源提交路径。 第5步:Client提交完资源后,向RM申请运行MrAp

Andrej Karpathy最新采访:认知核心模型10亿参数就够了,AI会打破教育不公的僵局

夕小瑶科技说 原创  作者 | 海野 AI圈子的红人,AI大神Andrej Karpathy,曾是OpenAI联合创始人之一,特斯拉AI总监。上一次的动态是官宣创办一家名为 Eureka Labs 的人工智能+教育公司 ,宣布将长期致力于AI原生教育。 近日,Andrej Karpathy接受了No Priors(投资博客)的采访,与硅谷知名投资人 Sara Guo 和 Elad G

C++11第三弹:lambda表达式 | 新的类功能 | 模板的可变参数

🌈个人主页: 南桥几晴秋 🌈C++专栏: 南桥谈C++ 🌈C语言专栏: C语言学习系列 🌈Linux学习专栏: 南桥谈Linux 🌈数据结构学习专栏: 数据结构杂谈 🌈数据库学习专栏: 南桥谈MySQL 🌈Qt学习专栏: 南桥谈Qt 🌈菜鸡代码练习: 练习随想记录 🌈git学习: 南桥谈Git 🌈🌈🌈🌈🌈🌈🌈🌈🌈🌈🌈🌈🌈�

如何在页面调用utility bar并传递参数至lwc组件

1.在app的utility item中添加lwc组件: 2.调用utility bar api的方式有两种: 方法一,通过lwc调用: import {LightningElement,api ,wire } from 'lwc';import { publish, MessageContext } from 'lightning/messageService';import Ca

【Python编程】Linux创建虚拟环境并配置与notebook相连接

1.创建 使用 venv 创建虚拟环境。例如,在当前目录下创建一个名为 myenv 的虚拟环境: python3 -m venv myenv 2.激活 激活虚拟环境使其成为当前终端会话的活动环境。运行: source myenv/bin/activate 3.与notebook连接 在虚拟环境中,使用 pip 安装 Jupyter 和 ipykernel: pip instal

Android实现任意版本设置默认的锁屏壁纸和桌面壁纸(两张壁纸可不一致)

客户有些需求需要设置默认壁纸和锁屏壁纸  在默认情况下 这两个壁纸是相同的  如果需要默认的锁屏壁纸和桌面壁纸不一样 需要额外修改 Android13实现 替换默认桌面壁纸: 将图片文件替换frameworks/base/core/res/res/drawable-nodpi/default_wallpaper.*  (注意不能是bmp格式) 替换默认锁屏壁纸: 将图片资源放入vendo

【机器学习】高斯过程的基本概念和应用领域以及在python中的实例

引言 高斯过程(Gaussian Process,简称GP)是一种概率模型,用于描述一组随机变量的联合概率分布,其中任何一个有限维度的子集都具有高斯分布 文章目录 引言一、高斯过程1.1 基本定义1.1.1 随机过程1.1.2 高斯分布 1.2 高斯过程的特性1.2.1 联合高斯性1.2.2 均值函数1.2.3 协方差函数(或核函数) 1.3 核函数1.4 高斯过程回归(Gauss

4B参数秒杀GPT-3.5:MiniCPM 3.0惊艳登场!

​ 面壁智能 在 AI 的世界里,总有那么几个时刻让人惊叹不已。面壁智能推出的 MiniCPM 3.0,这个仅有4B参数的"小钢炮",正在以惊人的实力挑战着 GPT-3.5 这个曾经的AI巨人。 MiniCPM 3.0 MiniCPM 3.0 MiniCPM 3.0 目前的主要功能有: 长上下文功能:原生支持 32k 上下文长度,性能完美。我们引入了