短视频评论截取提取软件技术思路

2024-06-07 19:36

本文主要是介绍短视频评论截取提取软件技术思路,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

关于开发短视频评论所需要用到得技术第一篇

前言:根据业务需要,我们需要通过短视频找到准客户,这个软件应该是叫短视频评论提取软件,或者是短视频评论采集。无所谓叫什么都可以 进入正题。

第一篇只讲解所应该用到得基础工作

一:视频页面分析

找到对应得视频页面,此页面必须带评论。分析出页面中包含得 1:视频名称 2:作者名称

3:作者UID得url 4:获取评论显示得位置 (注意这里得视频评论显示位置,必须登录某视频账号才能进行查看、是否需要点击元素查看评论)

这里展示一下我们第一个版本的douyin视频评论截取软件截图。

V:290615413 

string htmlContent = html;
            try
            {
                // string title = "";//获取title值 标题 视频名称
                Regex regex = new Regex(@"<span class=""j5WZzJdp IoRNNcMW hVNC9qgC"">(.*?)</span>", RegexOptions.IgnoreCase);
                Match match = regex.Match(htmlContent);
                if (match.Success)
                {
                    // 获取匹配到的第一个组(即<title>和</title>之间的内容)
                    title = match.Groups[1].Value;
                    //发布时间:
                    title = title.Replace("<span>", "");
                    title = title.Replace("/", "");

                }
            }
            catch
            {
                //MessageBox.Show("608");
            }

二:字符串函数

通过视频页面分析找到对应的标签 通过字符串函数进行解析 或者是使用正则表达式也是可以的。 简单一些的 解析 则是 视频名称最好解析,建立一个储存视频名称的变量,然后获取 视频名称标签中的 名称即可。 首先要获取打开页面中的html 这里获取的html不是普通的静态 html 而是动态的。

三:UI自动操作

在开始获取评论的时候视频中获取评论有两种方式 一种是 直接进入视频详情页直接可以获取到评论数据,我们只需要做到多少毫秒自动下拉一次获取到隐藏的评论即可。 这种方法虽然简单但是速度快和时间久会被屏蔽 1-5个小时左右

第二种方法是直接进入视频的层页面,进入层页面后无法直接看到评论,必须点击评论的图标才能打开评论,打开评论后才会加载评论,加载评论后才能提取到评论 所以要分析点击层的标签 分析后写入自动点击的代码即可。

下面代码是 douyin视频层需要 下拉评论层的代码

 chromeBrowser2.ExecuteScriptAsync(@"
                    var commentList = document.querySelector('div[data-e2e=""comment-list""]');
                    if (commentList) {
                        commentList.scrollTop = commentList.scrollHeight;
                    }
                ");

四:点击层分析

通过UI自动操作这段文字可以看出,只有用评论视频层才能在基本不被屏蔽的情况下进行评论提取。我们这里分析出点击层后写入点击层代码,但是不能一直点击 必须只点击一次。

点击层的实例代码

  chromeBrowser2.ExecuteScriptAsync(@"
                    var divElement = document.querySelector('div.kT7icnwc');
                    if (divElement) {
                        divElement.click();
                    }
                ");

五:会员session和COOKIE得储存

我们看了其它的软件,使用时必须先通过浏览器打开短视频的网页,登录后通过浏览器的开发者工具找到COOIKE。然后在添加到软件中才可以使用。这种方式过于落后,并且没有技术储备的软件使用者无法顺畅的操作这个。我们作了 直接通过软件登录并且自动保存和加载COOKIE解决这个问题。

六:我们的目标是做到,软件使用者无需自己搞COOKIE也可以使用,所以我们采用了云端的数据处理来解决这个问题

七:关于我们目标开发的短视频评论节流提取 软件的版本和功能

我们开发了多个版本

第一个版本是:只能通过关键词搜索视频进行视频评论提取。不需要登录短视频账号,也无需使用COOKIE 只需要建立任务即可,但是不能关闭软件,关闭软件数据将无法监视。但是可以通过历史任务记录进行提取。

第二个版本:

功能1:通过关键词进行搜索视频来提取视频评论

功能2:通过短视频博主的首页进行评论提取。

功能3:通过单个视频进行视频提取。

功能4:监控视频评论。

功能5:可以随时关闭软件 随时开启 随时监控

这篇关于短视频评论截取提取软件技术思路的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1040105

相关文章

linux进程D状态的解决思路分享

《linux进程D状态的解决思路分享》在Linux系统中,进程在内核模式下等待I/O完成时会进入不间断睡眠状态(D状态),这种状态下,进程无法通过普通方式被杀死,本文通过实验模拟了这种状态,并分析了如... 目录1. 问题描述2. 问题分析3. 实验模拟3.1 使用losetup创建一个卷作为pv的磁盘3.

Java如何获取视频文件的视频时长

《Java如何获取视频文件的视频时长》文章介绍了如何使用Java获取视频文件的视频时长,包括导入maven依赖和代码案例,同时,也讨论了在运行过程中遇到的SLF4J加载问题,并给出了解决方案... 目录Java获取视频文件的视频时长1、导入maven依赖2、代码案例3、SLF4J: Failed to lo

Python实现多路视频多窗口播放功能

《Python实现多路视频多窗口播放功能》这篇文章主要为大家详细介绍了Python实现多路视频多窗口播放功能的相关知识,文中的示例代码讲解详细,有需要的小伙伴可以跟随小编一起学习一下... 目录一、python实现多路视频播放功能二、代码实现三、打包代码实现总结一、python实现多路视频播放功能服务端开

Python实现视频转换为音频的方法详解

《Python实现视频转换为音频的方法详解》这篇文章主要为大家详细Python如何将视频转换为音频并将音频文件保存到特定文件夹下,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 目录1. python需求的任务2. Python代码的实现3. 代码修改的位置4. 运行结果5. 注意事项

使用Python在Excel中插入、修改、提取和删除超链接

《使用Python在Excel中插入、修改、提取和删除超链接》超链接是Excel中的常用功能,通过点击超链接可以快速跳转到外部网站、本地文件或工作表中的特定单元格,有效提升数据访问的效率和用户体验,这... 目录引言使用工具python在Excel中插入超链接Python修改Excel中的超链接Python

C#从XmlDocument提取完整字符串的方法

《C#从XmlDocument提取完整字符串的方法》文章介绍了两种生成格式化XML字符串的方法,方法一使用`XmlDocument`的`OuterXml`属性,但输出的XML字符串不带格式,可读性差,... 方法1:通过XMLDocument的OuterXml属性,见XmlDocument类该方法获得的xm

C#提取PDF表单数据的实现流程

《C#提取PDF表单数据的实现流程》PDF表单是一种常见的数据收集工具,广泛应用于调查问卷、业务合同等场景,凭借出色的跨平台兼容性和标准化特点,PDF表单在各行各业中得到了广泛应用,本文将探讨如何使用... 目录引言使用工具C# 提取多个PDF表单域的数据C# 提取特定PDF表单域的数据引言PDF表单是一

C#实现添加/替换/提取或删除Excel中的图片

《C#实现添加/替换/提取或删除Excel中的图片》在Excel中插入与数据相关的图片,能将关键数据或信息以更直观的方式呈现出来,使文档更加美观,下面我们来看看如何在C#中实现添加/替换/提取或删除E... 在Excandroidel中插入与数据相关的图片,能将关键数据或信息以更直观的方式呈现出来,使文档更

Java后端接口中提取请求头中的Cookie和Token的方法

《Java后端接口中提取请求头中的Cookie和Token的方法》在现代Web开发中,HTTP请求头(Header)是客户端与服务器之间传递信息的重要方式之一,本文将详细介绍如何在Java后端(以Sp... 目录引言1. 背景1.1 什么是 HTTP 请求头?1.2 为什么需要提取请求头?2. 使用 Spr

Python视频处理库VidGear使用小结

《Python视频处理库VidGear使用小结》VidGear是一个高性能的Python视频处理库,本文主要介绍了Python视频处理库VidGear使用小结,文中通过示例代码介绍的非常详细,对大家的... 目录一、VidGear的安装二、VidGear的主要功能三、VidGear的使用示例四、VidGea