本文主要是介绍python爬取微博热门消息(二)—— configs中参数的设置及程序执行过程,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
这一节,主要讲述配置文件configs.py中参数的含义,以及cookie的获取方式。
感兴趣的小伙伴可以 收藏 + 关注 哦!
另外,关于本项目的效果展示,以及教程,点击一下链接即可。
python爬取微博热门消息(一)——效果展示
python爬取微博热门消息(三)—— 爬取微博热门信息的功能函数
python爬取微博热门消息(四)—— 完整代码
目录
一、常用参数
二、执行过程
三、代码
一、常用参数
1、url
url 即为我们热搜网址,是我们进行爬取的网址,该网址界面如下:
2、flag
flag 为bool型,取值为 True 或 False,是否爬取微博热搜所有的内容
- True: 爬取微博热搜的所有内容
- False: 爬取微博某个话题的内容
3、index
index为int型,取值为[0,50]。因为一页有50个热搜+top。爬取特定热搜,例如第2个热搜内容: ***, 则index = 2,便会直接爬取该热搜信息
4、str_time
当前时间, such as 2021-01-11_1551
二、执行过程
1、爬取所有内容
将参数flag设置为 True,运行即可
2、爬取特定内容
我们以‘ 6:迪丽热巴双马尾 ’为例
(1) 先将参数flag设置为 True,直到 information --> 2021-01-11_1746 --> topic.txt 文件生成即可停止运行;
(2) 再修改以下参数:
-- flag: False
-- index: 6
-- str_time: 2021-01-11_1746
注:有时候我们爬取下来的内容乱码,我们只需多次爬取乱码的热搜话题即可。
三、代码
configs.py
import argparsedef parse_args():parser = argparse.ArgumentParser(description='trending topic of microblog')# 热搜网址parser.add_argument('--url', default='https://s.weibo.com/top/summary?Refer=top_hot&topnav=1&wvr=6')# 全部内容 or 特定内容"""flag: True or False,是否爬取微博所有的内容index: 爬取特定热搜,例如第2个热搜内容: ***, 则index = 2,便会直接爬取该热搜信息str_time: 当前时间, such as 2021-01-11_1551"""parser.add_argument('--flag', default=False)parser.add_argument('--index', default=6)parser.add_argument('--str_time', default='2021-01-11_1746')return parser.parse_args()
这篇关于python爬取微博热门消息(二)—— configs中参数的设置及程序执行过程的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!