短视频评论截取提取软件技术思路

2024-06-07 19:36

本文主要是介绍短视频评论截取提取软件技术思路,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

关于开发短视频评论所需要用到得技术第一篇

前言:根据业务需要,我们需要通过短视频找到准客户,这个软件应该是叫短视频评论提取软件,或者是短视频评论采集。无所谓叫什么都可以 进入正题。

第一篇只讲解所应该用到得基础工作

一:视频页面分析

找到对应得视频页面,此页面必须带评论。分析出页面中包含得 1:视频名称 2:作者名称

3:作者UID得url 4:获取评论显示得位置 (注意这里得视频评论显示位置,必须登录某视频账号才能进行查看、是否需要点击元素查看评论)

这里展示一下我们第一个版本的douyin视频评论截取软件截图。

V:290615413 

string htmlContent = html;
            try
            {
                // string title = "";//获取title值 标题 视频名称
                Regex regex = new Regex(@"<span class=""j5WZzJdp IoRNNcMW hVNC9qgC"">(.*?)</span>", RegexOptions.IgnoreCase);
                Match match = regex.Match(htmlContent);
                if (match.Success)
                {
                    // 获取匹配到的第一个组(即<title>和</title>之间的内容)
                    title = match.Groups[1].Value;
                    //发布时间:
                    title = title.Replace("<span>", "");
                    title = title.Replace("/", "");

                }
            }
            catch
            {
                //MessageBox.Show("608");
            }

二:字符串函数

通过视频页面分析找到对应的标签 通过字符串函数进行解析 或者是使用正则表达式也是可以的。 简单一些的 解析 则是 视频名称最好解析,建立一个储存视频名称的变量,然后获取 视频名称标签中的 名称即可。 首先要获取打开页面中的html 这里获取的html不是普通的静态 html 而是动态的。

三:UI自动操作

在开始获取评论的时候视频中获取评论有两种方式 一种是 直接进入视频详情页直接可以获取到评论数据,我们只需要做到多少毫秒自动下拉一次获取到隐藏的评论即可。 这种方法虽然简单但是速度快和时间久会被屏蔽 1-5个小时左右

第二种方法是直接进入视频的层页面,进入层页面后无法直接看到评论,必须点击评论的图标才能打开评论,打开评论后才会加载评论,加载评论后才能提取到评论 所以要分析点击层的标签 分析后写入自动点击的代码即可。

下面代码是 douyin视频层需要 下拉评论层的代码

 chromeBrowser2.ExecuteScriptAsync(@"
                    var commentList = document.querySelector('div[data-e2e=""comment-list""]');
                    if (commentList) {
                        commentList.scrollTop = commentList.scrollHeight;
                    }
                ");

四:点击层分析

通过UI自动操作这段文字可以看出,只有用评论视频层才能在基本不被屏蔽的情况下进行评论提取。我们这里分析出点击层后写入点击层代码,但是不能一直点击 必须只点击一次。

点击层的实例代码

  chromeBrowser2.ExecuteScriptAsync(@"
                    var divElement = document.querySelector('div.kT7icnwc');
                    if (divElement) {
                        divElement.click();
                    }
                ");

五:会员session和COOKIE得储存

我们看了其它的软件,使用时必须先通过浏览器打开短视频的网页,登录后通过浏览器的开发者工具找到COOIKE。然后在添加到软件中才可以使用。这种方式过于落后,并且没有技术储备的软件使用者无法顺畅的操作这个。我们作了 直接通过软件登录并且自动保存和加载COOKIE解决这个问题。

六:我们的目标是做到,软件使用者无需自己搞COOKIE也可以使用,所以我们采用了云端的数据处理来解决这个问题

七:关于我们目标开发的短视频评论节流提取 软件的版本和功能

我们开发了多个版本

第一个版本是:只能通过关键词搜索视频进行视频评论提取。不需要登录短视频账号,也无需使用COOKIE 只需要建立任务即可,但是不能关闭软件,关闭软件数据将无法监视。但是可以通过历史任务记录进行提取。

第二个版本:

功能1:通过关键词进行搜索视频来提取视频评论

功能2:通过短视频博主的首页进行评论提取。

功能3:通过单个视频进行视频提取。

功能4:监控视频评论。

功能5:可以随时关闭软件 随时开启 随时监控

这篇关于短视频评论截取提取软件技术思路的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1040105

相关文章

Python实现word文档内容智能提取以及合成

《Python实现word文档内容智能提取以及合成》这篇文章主要为大家详细介绍了如何使用Python实现从10个左右的docx文档中抽取内容,再调整语言风格后生成新的文档,感兴趣的小伙伴可以了解一下... 目录核心思路技术路径实现步骤阶段一:准备工作阶段二:内容提取 (python 脚本)阶段三:语言风格调

一文详解如何在Python中从字符串中提取部分内容

《一文详解如何在Python中从字符串中提取部分内容》:本文主要介绍如何在Python中从字符串中提取部分内容的相关资料,包括使用正则表达式、Pyparsing库、AST(抽象语法树)、字符串操作... 目录前言解决方案方法一:使用正则表达式方法二:使用 Pyparsing方法三:使用 AST方法四:使用字

Python获取C++中返回的char*字段的两种思路

《Python获取C++中返回的char*字段的两种思路》有时候需要获取C++函数中返回来的不定长的char*字符串,本文小编为大家找到了两种解决问题的思路,感兴趣的小伙伴可以跟随小编一起学习一下... 有时候需要获取C++函数中返回来的不定长的char*字符串,目前我找到两种解决问题的思路,具体实现如下:

基于Python和MoviePy实现照片管理和视频合成工具

《基于Python和MoviePy实现照片管理和视频合成工具》在这篇博客中,我们将详细剖析一个基于Python的图形界面应用程序,该程序使用wxPython构建用户界面,并结合MoviePy、Pill... 目录引言项目概述代码结构分析1. 导入和依赖2. 主类:PhotoManager初始化方法:__in

详解C#如何提取PDF文档中的图片

《详解C#如何提取PDF文档中的图片》提取图片可以将这些图像资源进行单独保存,方便后续在不同的项目中使用,下面我们就来看看如何使用C#通过代码从PDF文档中提取图片吧... 当 PDF 文件中包含有价值的图片,如艺术画作、设计素材、报告图表等,提取图片可以将这些图像资源进行单独保存,方便后续在不同的项目中使

用js控制视频播放进度基本示例代码

《用js控制视频播放进度基本示例代码》写前端的时候,很多的时候是需要支持要网页视频播放的功能,下面这篇文章主要给大家介绍了关于用js控制视频播放进度的相关资料,文中通过代码介绍的非常详细,需要的朋友可... 目录前言html部分:JavaScript部分:注意:总结前言在javascript中控制视频播放

Python基于wxPython和FFmpeg开发一个视频标签工具

《Python基于wxPython和FFmpeg开发一个视频标签工具》在当今数字媒体时代,视频内容的管理和标记变得越来越重要,无论是研究人员需要对实验视频进行时间点标记,还是个人用户希望对家庭视频进行... 目录引言1. 应用概述2. 技术栈分析2.1 核心库和模块2.2 wxpython作为GUI选择的优

Python实现常用文本内容提取

《Python实现常用文本内容提取》在日常工作和学习中,我们经常需要从PDF、Word文档中提取文本,本文将介绍如何使用Python编写一个文本内容提取工具,有需要的小伙伴可以参考下... 目录一、引言二、文本内容提取的原理三、文本内容提取的设计四、文本内容提取的实现五、完整代码示例一、引言在日常工作和学

C++字符串提取和分割的多种方法

《C++字符串提取和分割的多种方法》在C++编程中,字符串处理是一个常见的任务,尤其是在需要从字符串中提取特定数据时,本文将详细探讨如何使用C++标准库中的工具来提取和分割字符串,并分析不同方法的适用... 目录1. 字符串提取的基本方法1.1 使用 std::istringstream 和 >> 操作符示

基于Python开发批量提取Excel图片的小工具

《基于Python开发批量提取Excel图片的小工具》这篇文章主要为大家详细介绍了如何使用Python中的openpyxl库开发一个小工具,可以实现批量提取Excel图片,有需要的小伙伴可以参考一下... 目前有一个需求,就是批量读取当前目录下所有文件夹里的Excel文件,去获取出Excel文件中的图片,并