搜狗微信搜索爬虫

2024-08-30 13:20
文章标签 微信 搜索 爬虫 搜狗

本文主要是介绍搜狗微信搜索爬虫,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

文章目录

  • 前言
  • 列表采集
  • 详情采集

前言

最近在做一个语料采集的项目,其中有涉及到公众号内容采集(非指定公众号而是指定关键词的采集),于是考虑使用搜狗采集,记录一下采集过程

列表采集

打开搜狗页面输入关键词,选择微信,直接搜索,查看F12发现需要的列表内容直接就在DOC文档里,postman验证一下直接URL输入就可以采集到,属于是比较容易的采集类型
在这里插入图片描述
在这里插入图片描述

详情采集

通过列表采集到的url是/link这样的形式,需要拼接还会有跳转,这一步是需要解决的
在这里插入图片描述
如图示的原始链接为https://weixin.sogou.com/link?url=dn9a_-gY295K0Rci_xozVXfdMkSQTLW6ft3wfAVofsP5Peu-UiA4DGseIEA7zE2zlj4s3ji8u8GVgrFeYQugDsScNWNhR16IPBQ5xHZTJMofuyJy4xt5exMSe0Q-wpcGJiUoSonxbEsfuSSrjQIuccSq-1fNJZF2hUQpUjvo0qtu8iygQXIjl1SrWJX0d6AM35pMJkC9ozB6UxBa1hZYHbMhGiRiC_qmt8AmPpzYfLfmn_8ekF_xC_Q1IvX2-Tzra8RdgdEqMnT4Z9KRwPzScjgZHTk8WJz5yDYUgTcZbC3xbso0aod2jCXucl6fR1sLiZqwg0yoRFw.&type=2&query=%E7%99%BD%E6%9C%AF&token=257BEA52D17286B8C8C1E719A6019408C81F185666D13FAB
输入到浏览器的地址栏之后会跳转到https://mp.weixin.qq.com/s?src=3&timestamp=1724989355&ver=1&signature=H1efLtkgEVg8AFd308YzX-KoqdIOg9nVsLPiC9D5eFwfkKlZHD3z1mE1QcOd2EkpFE-Lv64BBp7789obYbg42mkHTeflcuuyMt5HmcMKTmcd3tv0VVUdULJ3lXMuZH2KWzzSibjV4Nb14b0aGU8TP6LrFyJJ4CXAbTG97Z*c4=
在这里插入图片描述
其中需要一步转换过程,postman直接调用一下转换前的链接
在这里插入图片描述
算是有点意料之外的转换方式了,写个正则抽出来拼接一下就行了

这篇关于搜狗微信搜索爬虫的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1120938

相关文章

W外链微信推广短连接怎么做?

制作微信推广链接的难点分析 一、内容创作难度 制作微信推广链接时,首先需要创作有吸引力的内容。这不仅要求内容本身有趣、有价值,还要能够激起人们的分享欲望。对于许多企业和个人来说,尤其是那些缺乏创意和写作能力的人来说,这是制作微信推广链接的一大难点。 二、精准定位难度 微信用户群体庞大,不同用户的需求和兴趣各异。因此,制作推广链接时需要精准定位目标受众,以便更有效地吸引他们点击并分享链接

认识、理解、分类——acm之搜索

普通搜索方法有两种:1、广度优先搜索;2、深度优先搜索; 更多搜索方法: 3、双向广度优先搜索; 4、启发式搜索(包括A*算法等); 搜索通常会用到的知识点:状态压缩(位压缩,利用hash思想压缩)。

hdu1240、hdu1253(三维搜索题)

1、从后往前输入,(x,y,z); 2、从下往上输入,(y , z, x); 3、从左往右输入,(z,x,y); hdu1240代码如下: #include<iostream>#include<algorithm>#include<string>#include<stack>#include<queue>#include<map>#include<stdio.h>#inc

hdu 4517 floyd+记忆化搜索

题意: 有n(100)个景点,m(1000)条路,时间限制为t(300),起点s,终点e。 访问每个景点需要时间cost_i,每个景点的访问价值为value_i。 点与点之间行走需要花费的时间为g[ i ] [ j ] 。注意点间可能有多条边。 走到一个点时可以选择访问或者不访问,并且当前点的访问价值应该严格大于前一个访问的点。 现在求,从起点出发,到达终点,在时间限制内,能得到的最大

AI基础 L9 Local Search II 局部搜索

Local Beam search 对于当前的所有k个状态,生成它们的所有可能后继状态。 检查生成的后继状态中是否有任何状态是解决方案。 如果所有后继状态都不是解决方案,则从所有后继状态中选择k个最佳状态。 当达到预设的迭代次数或满足某个终止条件时,算法停止。 — Choose k successors randomly, biased towards good ones — Close

hdu4277搜索

给你n个有长度的线段,问如果用上所有的线段来拼1个三角形,最多能拼出多少种不同的? import java.io.BufferedInputStream;import java.io.BufferedReader;import java.io.IOException;import java.io.InputStream;import java.io.InputStreamReader;

Python3 BeautifulSoup爬虫 POJ自动提交

POJ 提交代码采用Base64加密方式 import http.cookiejarimport loggingimport urllib.parseimport urllib.requestimport base64from bs4 import BeautifulSoupfrom submitcode import SubmitCodeclass SubmitPoj():de

uniapp设置微信小程序的交互反馈

链接:uni.showToast(OBJECT) | uni-app官网 (dcloud.net.cn) 设置操作成功的弹窗: title是我们弹窗提示的文字 showToast是我们在加载的时候进入就会弹出的提示。 2.设置失败的提示窗口和标签 icon:'error'是设置我们失败的logo 设置的文字上限是7个文字,如果需要设置的提示文字过长就需要设置icon并给

Python:豆瓣电影商业数据分析-爬取全数据【附带爬虫豆瓣,数据处理过程,数据分析,可视化,以及完整PPT报告】

**爬取豆瓣电影信息,分析近年电影行业的发展情况** 本文是完整的数据分析展现,代码有完整版,包含豆瓣电影爬取的具体方式【附带爬虫豆瓣,数据处理过程,数据分析,可视化,以及完整PPT报告】   最近MBA在学习《商业数据分析》,大实训作业给了数据要进行数据分析,所以先拿豆瓣电影练练手,网络上爬取豆瓣电影TOP250较多,但对于豆瓣电影全数据的爬取教程很少,所以我自己做一版。 目

Golang 网络爬虫框架gocolly/colly(五)

gcocolly+goquery可以非常好地抓取HTML页面中的数据,但碰到页面是由Javascript动态生成时,用goquery就显得捉襟见肘了。解决方法有很多种: 一,最笨拙但有效的方法是字符串处理,go语言string底层对应字节数组,复制任何长度的字符串的开销都很低廉,搜索性能比较高; 二,利用正则表达式,要提取的数据往往有明显的特征,所以正则表达式写起来比较简单,不必非常严谨; 三,使