WAIC | 知乎CTO李大海:基于AI的智能社区多模态数据融合研究与实践

2024-02-22 07:30

本文主要是介绍WAIC | 知乎CTO李大海:基于AI的智能社区多模态数据融合研究与实践,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

在 WAIC 2021 AI 开发者论坛上,知乎合伙人兼 CTO 李大海发表主题演讲《基于 AI 的智能社区多模态数据融合研究与实践》。在演讲中,他主要介绍了知乎在智能社区时代多模态数据融合中的研究以及实践进展。

以下为李大海在 WAIC 2021 AI 开发者论坛上的演讲内容,机器之心进行了不改变原意的编辑、整理:

WAIC | 知乎CTO李大海:基于AI的智能社区多模态数据融合研究与实践

我今天的主题是基于 AI 的智能社区多模态数据融合应用实践。

多模态最近很火,刚刚「好未来」的吴总也讲了这个主题。虽然都是多模态,但大家业务场景不同,使用的侧重面不一样。我们更侧重于对比学习利用多模态把视频和文本对齐这个角度上做工作。

简单说一下「知乎」,知乎是一个以问答为主的在线社区,今年已经是知乎上线的第十个年头,在十年里面,经历了四个阶段,第一个阶段是封闭阶段,封闭运营,运营两年,从 2013 年开始开放,就不断的在拓展讨论的场景和讨论话题,用户规模不断扩大。2018 年知乎提出了智能社区的概念跟战略,通过技术升级把人工智能技术全面应用在内容生产、内容分发、社区治理等领域里面。

这也是我第二次带参加 AI 开发者大会,去年因为疫情关系,通过直播参与。这两年我们也看到,也是由于疫情和 5G 技术的发展,视频、直播等的形态越来越普及。知乎上也是一样,有越来越多用户,在知乎上通过视频分享自己的知识、经验、见解。在这个过程中我们也认识到视频跟图文有各自的优缺点和适用场景,视频会更直观,图文有非线性的结构,喜欢用户可以快速略过,可以在不同模块之间进行跳动,两个适用场景不一样。

一、图文多模态预训练

当知乎决定把视频当成主要的媒介形态时,我们希望通过媒介升级,让它变成知乎内容的重要承载形式。这个是我们的一个认知,进行这样的工作在技术上需要对视频进行智能化。

从业务和产品上来看,视频在知乎的发展,不是凭空出现的,是从一个个问题和图文回答中逐步涌现出来的,因此,在技术上,我们也不应该从零搭建针对视频的算法体系,那样既不经济,还需要考虑图文和视频两套系统之间的兼容性问题。举个例子,经过这么多年的发展,知乎已经有一个超过 50 万话题的话题树,我们没有必要在视频上放弃这套系统,那样既会增加产品复杂度,也需要考虑两套话题系统的对齐问题。

在规划视频智能化技术工作的时候,很自然的就考虑以多模态为核心工作,后面逻辑很简单,因为利用多模态的算法对齐能力,能够很快地把知乎过去积攒数据的能力和积攒的各种数据用起来,在工作里面首先做最基本的图文多模态的预训练。

WAIC | 知乎CTO李大海:基于AI的智能社区多模态数据融合研究与实践

预训练模型采用的是双流对比学习框架,很像是在推进里面用的双塔模型,左边是图像流,右边是文本流。

文本流这边会采用成熟的自然语言预训练模型 Bert/Roberta。左边的图像流我们做了较多的尝试。大家看到右侧模型是当前做完尝试以后,在线上发现效果比较好的,是由三部分组成。

第一部分是用 ResNet 预训练模型去提取图像全局的信息,第二部分是利用 Detectron2 预训练模型去抽取图像的对象检测位置跟边界信息,第三部分是在图像里面进行对象检测以后得到的文本信息。对三个信息进行融合以后,作为图片流的输出;这部分输出与文本流的输出进行比对,将画面中的目标位置、目标类别与文本描述进行对齐,利用知乎上的上亿级图片及图片附加的描述信息作为训练样本,可以实现较好的对图片的理解能力。

图文的多模态预训练模型在视频领域已经可以有很好的应用了。下面展示产品化其中一个工作,在去年下半年发布了一款图文一键转视频工具,内部也叫做 PPT 视频创作工具,是给我们的图文创作者使用的。知乎上的图文创作者可以利用这样一个工具,快速把自己的文字回答或者文章转化成为一个视频。

WAIC | 知乎CTO李大海:基于AI的智能社区多模态数据融合研究与实践

这个转化过程中,主要思路就是把文章里每一段话或者每一个句子通过模型找到相对应的图片或者动图或者一段短视频,通过预训练模型可以把每一段文字跟素材库里面的图片进行相关性计算。相关性高的可以主动拿出来,通过这种方式可以去生成还不错的 PPT 视频。

同时还有另一个应用,创作者可以主动输入关键词,在素材库里面找到和关键词匹配度最高图片,让它自己主动构建视频素材流。

WAIC | 知乎CTO李大海:基于AI的智能社区多模态数据融合研究与实践

二、视频搜索相关性

完成了这些基础的工作以后,就具备了文本跟图片的对齐能力,可以开始基于能力去构造视频跟文本的对齐功能,形成对齐网络。

在实际工作中会把视频里面的关键帧抽取出来,通过训练模型对每个关键帧生成表示,通过 Transformer 模型进行转化,转化完以后再用搜索的 query 进行预训练,就可以得到搜索 query 和视频相关性的预测。在线上实际结果,使用模型会比线上的用户搜索满意度提高 1% 的绝对值,效果还是非常显著的。

WAIC | 知乎CTO李大海:基于AI的智能社区多模态数据融合研究与实践

三、视频话题匹配与排序

知乎本身经过这么多年发展,构建了超过 50 万的话题数。除了视频搜索之外,在用户发布一条视频的时候,我们也希望视频能够跟 50 万个话题产生关系,能够自动标注出视频跟哪个话题相关。有了这样一个标注后,对于后续视频的分发,视频的理解以及其他用户可见的产品特性都是非常有帮助的,尤其是基于前面的模型构建视频与话题的匹配度的应用。

WAIC | 知乎CTO李大海:基于AI的智能社区多模态数据融合研究与实践

这个应用首先的基础关键帧抽取没有变化,但同时还会利用视频的标题,再去融合到一个 Encoder 中。然后会跟话题进行相关性的计算,这是一个 Ranking 的部分,在 Ranking 之前有 50 万的话题基础,可以说是一个极限多匹配的典型场景。

在这个场景里面,真实落地会有召回动作。在实操上综合使用多种索引方式去做召回,有 PMI 的索引,有 Embedding 的索引,以及简单的 Lablel Name 的索引。这些索引用的都是视频的标题,在我们的产品里面,视频可以是视频实体,本身就有标题,也可以是视频回答,视频回答本身是跟问题相关的。

不管怎么样都会有对应文本信息,例如搜索「饭后吃苹果的八大好处」「吃苹果都会有什么好处」,可以通过基本的文本信息,从几十万的话题里面招回几百个话题再进行精排。

WAIC | 知乎CTO李大海:基于AI的智能社区多模态数据融合研究与实践

四、后深度学习时代的 AI 应用

这次的主题是《后深度学习时代的 AI 应用》,其实在对比后深度学习时代和前深度学习时代,可以看到业界、学术界的进展更多聚焦在相对底层的领域,比如学习框架、调参的方法论,模型结构都在不断往前发展。但是到最近一两年,方法论加上数据结合在一起产生的预训练模型,也生产出了大量的计算结果。

知乎更偏向于利用 AI 技术去开发应用,那么在后深度学习时代 AI 技术怎么用?基于 AI 技术的应用要如何做?这是我们要面临的挑战。

我们需要用到预训练模型,用到抽象程度更高的,业界公认的最好的训练成果。刚刚展示的我们的产品和工作成果中,大量运用了各种各样的预训练模型。用了预训练模型以后,再针对场景去构建自己的训练样本,并基于目标做微调,这是在知乎内部重点做的工作。

「在 AI 时代,重要的是前人栽树,后人乘凉。」我们也在思考,用优秀的预训练模型完成自己工作的同时,能为后人带来什么呢?在我今天的分享里面提到的模型都是已经上线,已经产生收益的具体模型,知乎还在不断去构建综合图文、视频还有声音等媒介统一的大型预训练模型,这样预训练模型基于知乎积累的大量图文视频数据会越来越成熟。

希望当我们工作做的比较成熟的时候,可以把这些模型完全开放出来,提供给学界和工业界更多的开发者朋友们使用。

当然,在整个知乎视频智能化工作中,光有多模态学习也是不够的,我们还做了很多其他工作,这里我简单介绍下一项技术:语音复刻技术。这项技术是在我们推出的一个图文一键转视频的工具上。通过批量化复刻语音,提高生产效率。

这篇关于WAIC | 知乎CTO李大海:基于AI的智能社区多模态数据融合研究与实践的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/734535

相关文章

详谈redis跟数据库的数据同步问题

《详谈redis跟数据库的数据同步问题》文章讨论了在Redis和数据库数据一致性问题上的解决方案,主要比较了先更新Redis缓存再更新数据库和先更新数据库再更新Redis缓存两种方案,文章指出,删除R... 目录一、Redis 数据库数据一致性的解决方案1.1、更新Redis缓存、删除Redis缓存的区别二

Redis事务与数据持久化方式

《Redis事务与数据持久化方式》该文档主要介绍了Redis事务和持久化机制,事务通过将多个命令打包执行,而持久化则通过快照(RDB)和追加式文件(AOF)两种方式将内存数据保存到磁盘,以防止数据丢失... 目录一、Redis 事务1.1 事务本质1.2 数据库事务与redis事务1.2.1 数据库事务1.

关于Java内存访问重排序的研究

《关于Java内存访问重排序的研究》文章主要介绍了重排序现象及其在多线程编程中的影响,包括内存可见性问题和Java内存模型中对重排序的规则... 目录什么是重排序重排序图解重排序实验as-if-serial语义内存访问重排序与内存可见性内存访问重排序与Java内存模型重排序示意表内存屏障内存屏障示意表Int

Oracle Expdp按条件导出指定表数据的方法实例

《OracleExpdp按条件导出指定表数据的方法实例》:本文主要介绍Oracle的expdp数据泵方式导出特定机构和时间范围的数据,并通过parfile文件进行条件限制和配置,文中通过代码介绍... 目录1.场景描述 2.方案分析3.实验验证 3.1 parfile文件3.2 expdp命令导出4.总结

更改docker默认数据目录的方法步骤

《更改docker默认数据目录的方法步骤》本文主要介绍了更改docker默认数据目录的方法步骤,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一... 目录1.查看docker是否存在并停止该服务2.挂载镜像并安装rsync便于备份3.取消挂载备份和迁

Docker集成CI/CD的项目实践

《Docker集成CI/CD的项目实践》本文主要介绍了Docker集成CI/CD的项目实践,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学... 目录一、引言1.1 什么是 CI/CD?1.2 docker 在 CI/CD 中的作用二、Docke

不删数据还能合并磁盘? 让电脑C盘D盘合并并保留数据的技巧

《不删数据还能合并磁盘?让电脑C盘D盘合并并保留数据的技巧》在Windows操作系统中,合并C盘和D盘是一个相对复杂的任务,尤其是当你不希望删除其中的数据时,幸运的是,有几种方法可以实现这一目标且在... 在电脑生产时,制造商常为C盘分配较小的磁盘空间,以确保软件在运行过程中不会出现磁盘空间不足的问题。但在

Java如何接收并解析HL7协议数据

《Java如何接收并解析HL7协议数据》文章主要介绍了HL7协议及其在医疗行业中的应用,详细描述了如何配置环境、接收和解析数据,以及与前端进行交互的实现方法,文章还分享了使用7Edit工具进行调试的经... 目录一、前言二、正文1、环境配置2、数据接收:HL7Monitor3、数据解析:HL7Busines

Mybatis拦截器如何实现数据权限过滤

《Mybatis拦截器如何实现数据权限过滤》本文介绍了MyBatis拦截器的使用,通过实现Interceptor接口对SQL进行处理,实现数据权限过滤功能,通过在本地线程变量中存储数据权限相关信息,并... 目录背景基础知识MyBATis 拦截器介绍代码实战总结背景现在的项目负责人去年年底离职,导致前期规

Redis KEYS查询大批量数据替代方案

《RedisKEYS查询大批量数据替代方案》在使用Redis时,KEYS命令虽然简单直接,但其全表扫描的特性在处理大规模数据时会导致性能问题,甚至可能阻塞Redis服务,本文将介绍SCAN命令、有序... 目录前言KEYS命令问题背景替代方案1.使用 SCAN 命令2. 使用有序集合(Sorted Set)