短视频评论截取提取软件技术思路

2024-06-07 19:36

本文主要是介绍短视频评论截取提取软件技术思路,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

关于开发短视频评论所需要用到得技术第一篇

前言:根据业务需要,我们需要通过短视频找到准客户,这个软件应该是叫短视频评论提取软件,或者是短视频评论采集。无所谓叫什么都可以 进入正题。

第一篇只讲解所应该用到得基础工作

一:视频页面分析

找到对应得视频页面,此页面必须带评论。分析出页面中包含得 1:视频名称 2:作者名称

3:作者UID得url 4:获取评论显示得位置 (注意这里得视频评论显示位置,必须登录某视频账号才能进行查看、是否需要点击元素查看评论)

这里展示一下我们第一个版本的douyin视频评论截取软件截图。

V:290615413 

string htmlContent = html;
            try
            {
                // string title = "";//获取title值 标题 视频名称
                Regex regex = new Regex(@"<span class=""j5WZzJdp IoRNNcMW hVNC9qgC"">(.*?)</span>", RegexOptions.IgnoreCase);
                Match match = regex.Match(htmlContent);
                if (match.Success)
                {
                    // 获取匹配到的第一个组(即<title>和</title>之间的内容)
                    title = match.Groups[1].Value;
                    //发布时间:
                    title = title.Replace("<span>", "");
                    title = title.Replace("/", "");

                }
            }
            catch
            {
                //MessageBox.Show("608");
            }

二:字符串函数

通过视频页面分析找到对应的标签 通过字符串函数进行解析 或者是使用正则表达式也是可以的。 简单一些的 解析 则是 视频名称最好解析,建立一个储存视频名称的变量,然后获取 视频名称标签中的 名称即可。 首先要获取打开页面中的html 这里获取的html不是普通的静态 html 而是动态的。

三:UI自动操作

在开始获取评论的时候视频中获取评论有两种方式 一种是 直接进入视频详情页直接可以获取到评论数据,我们只需要做到多少毫秒自动下拉一次获取到隐藏的评论即可。 这种方法虽然简单但是速度快和时间久会被屏蔽 1-5个小时左右

第二种方法是直接进入视频的层页面,进入层页面后无法直接看到评论,必须点击评论的图标才能打开评论,打开评论后才会加载评论,加载评论后才能提取到评论 所以要分析点击层的标签 分析后写入自动点击的代码即可。

下面代码是 douyin视频层需要 下拉评论层的代码

 chromeBrowser2.ExecuteScriptAsync(@"
                    var commentList = document.querySelector('div[data-e2e=""comment-list""]');
                    if (commentList) {
                        commentList.scrollTop = commentList.scrollHeight;
                    }
                ");

四:点击层分析

通过UI自动操作这段文字可以看出,只有用评论视频层才能在基本不被屏蔽的情况下进行评论提取。我们这里分析出点击层后写入点击层代码,但是不能一直点击 必须只点击一次。

点击层的实例代码

  chromeBrowser2.ExecuteScriptAsync(@"
                    var divElement = document.querySelector('div.kT7icnwc');
                    if (divElement) {
                        divElement.click();
                    }
                ");

五:会员session和COOKIE得储存

我们看了其它的软件,使用时必须先通过浏览器打开短视频的网页,登录后通过浏览器的开发者工具找到COOIKE。然后在添加到软件中才可以使用。这种方式过于落后,并且没有技术储备的软件使用者无法顺畅的操作这个。我们作了 直接通过软件登录并且自动保存和加载COOKIE解决这个问题。

六:我们的目标是做到,软件使用者无需自己搞COOKIE也可以使用,所以我们采用了云端的数据处理来解决这个问题

七:关于我们目标开发的短视频评论节流提取 软件的版本和功能

我们开发了多个版本

第一个版本是:只能通过关键词搜索视频进行视频评论提取。不需要登录短视频账号,也无需使用COOKIE 只需要建立任务即可,但是不能关闭软件,关闭软件数据将无法监视。但是可以通过历史任务记录进行提取。

第二个版本:

功能1:通过关键词进行搜索视频来提取视频评论

功能2:通过短视频博主的首页进行评论提取。

功能3:通过单个视频进行视频提取。

功能4:监控视频评论。

功能5:可以随时关闭软件 随时开启 随时监控

这篇关于短视频评论截取提取软件技术思路的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1040105

相关文章

使用Java解析JSON数据并提取特定字段的实现步骤(以提取mailNo为例)

《使用Java解析JSON数据并提取特定字段的实现步骤(以提取mailNo为例)》在现代软件开发中,处理JSON数据是一项非常常见的任务,无论是从API接口获取数据,还是将数据存储为JSON格式,解析... 目录1. 背景介绍1.1 jsON简介1.2 实际案例2. 准备工作2.1 环境搭建2.1.1 添加

JAVA利用顺序表实现“杨辉三角”的思路及代码示例

《JAVA利用顺序表实现“杨辉三角”的思路及代码示例》杨辉三角形是中国古代数学的杰出研究成果之一,是我国北宋数学家贾宪于1050年首先发现并使用的,:本文主要介绍JAVA利用顺序表实现杨辉三角的思... 目录一:“杨辉三角”题目链接二:题解代码:三:题解思路:总结一:“杨辉三角”题目链接题目链接:点击这里

python解析HTML并提取span标签中的文本

《python解析HTML并提取span标签中的文本》在网页开发和数据抓取过程中,我们经常需要从HTML页面中提取信息,尤其是span元素中的文本,span标签是一个行内元素,通常用于包装一小段文本或... 目录一、安装相关依赖二、html 页面结构三、使用 BeautifulSoup javascript

流媒体平台/视频监控/安防视频汇聚EasyCVR播放暂停后视频画面黑屏是什么原因?

视频智能分析/视频监控/安防监控综合管理系统EasyCVR视频汇聚融合平台,是TSINGSEE青犀视频垂直深耕音视频流媒体技术、AI智能技术领域的杰出成果。该平台以其强大的视频处理、汇聚与融合能力,在构建全栈视频监控系统中展现出了独特的优势。视频监控管理系统EasyCVR平台内置了强大的视频解码、转码、压缩等技术,能够处理多种视频流格式,并以多种格式(RTMP、RTSP、HTTP-FLV、WebS

综合安防管理平台LntonAIServer视频监控汇聚抖动检测算法优势

LntonAIServer视频质量诊断功能中的抖动检测是一个专门针对视频稳定性进行分析的功能。抖动通常是指视频帧之间的不必要运动,这种运动可能是由于摄像机的移动、传输中的错误或编解码问题导致的。抖动检测对于确保视频内容的平滑性和观看体验至关重要。 优势 1. 提高图像质量 - 清晰度提升:减少抖动,提高图像的清晰度和细节表现力,使得监控画面更加真实可信。 - 细节增强:在低光条件下,抖

透彻!驯服大型语言模型(LLMs)的五种方法,及具体方法选择思路

引言 随着时间的发展,大型语言模型不再停留在演示阶段而是逐步面向生产系统的应用,随着人们期望的不断增加,目标也发生了巨大的变化。在短短的几个月的时间里,人们对大模型的认识已经从对其zero-shot能力感到惊讶,转变为考虑改进模型质量、提高模型可用性。 「大语言模型(LLMs)其实就是利用高容量的模型架构(例如Transformer)对海量的、多种多样的数据分布进行建模得到,它包含了大量的先验

三相直流无刷电机(BLDC)控制算法实现:BLDC有感启动算法思路分析

一枚从事路径规划算法、运动控制算法、BLDC/FOC电机控制算法、工控、物联网工程师,爱吃土豆。如有需要技术交流或者需要方案帮助、需求:以下为联系方式—V 方案1:通过霍尔传感器IO中断触发换相 1.1 整体执行思路 霍尔传感器U、V、W三相通过IO+EXIT中断的方式进行霍尔传感器数据的读取。将IO口配置为上升沿+下降沿中断触发的方式。当霍尔传感器信号发生发生信号的变化就会触发中断在中断

《x86汇编语言:从实模式到保护模式》视频来了

《x86汇编语言:从实模式到保护模式》视频来了 很多朋友留言,说我的专栏《x86汇编语言:从实模式到保护模式》写得很详细,还有的朋友希望我能写得更细,最好是覆盖全书的所有章节。 毕竟我不是作者,只有作者的解读才是最权威的。 当初我学习这本书的时候,只能靠自己摸索,网上搜不到什么好资源。 如果你正在学这本书或者汇编语言,那你有福气了。 本书作者李忠老师,以此书为蓝本,录制了全套视频。 试

Jenkins 插件 地址证书报错问题解决思路

问题提示摘要: SunCertPathBuilderException: unable to find valid certification path to requested target...... 网上很多的解决方式是更新站点的地址,我这里修改了一个日本的地址(清华镜像也好),其实发现是解决不了上述的报错问题的,其实,最终拉去插件的时候,会提示证书的问题,几经周折找到了其中一遍博文

SAM2POINT:以zero-shot且快速的方式将任何 3D 视频分割为视频

摘要 我们介绍 SAM2POINT,这是一种采用 Segment Anything Model 2 (SAM 2) 进行零样本和快速 3D 分割的初步探索。 SAM2POINT 将任何 3D 数据解释为一系列多向视频,并利用 SAM 2 进行 3D 空间分割,无需进一步训练或 2D-3D 投影。 我们的框架支持各种提示类型,包括 3D 点、框和掩模,并且可以泛化到不同的场景,例如 3D 对象、室