90后CEO率图鸭投身开源,视频通信也成“隐形”红海

2023-11-02 21:48

本文主要是介绍90后CEO率图鸭投身开源,视频通信也成“隐形”红海,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

过去,小编经常通过写信和打电话与不在一处的亲人朋友沟通交流。

现在的小编只要手握各种移动式便携设备,随时随地视频通话或观看直播就可以和异地亲人虽不见面但胜似见面。

我们感慨技术迭代发展的同时,也惊觉随着移动网络的快速进步,视频通信确实已经不声不响地占据了互联网流量市场的主体地位,这不连人们在日常生活中保持的通信习惯都被悄悄改变啦!


图片描述
网络用图,出处不明

近日,小编了解到一家专攻视频通信的企业免费开放其研发的视频通信技术,目前已经将下载地址放入码云,并着手安排工程师帮助用户接入该项技术。

开放技术,有意思!先来了解下这家企业!

据小编了解,这家企业名为图鸭科技,由前掌赢科技首席科学家武俊敏于2016年8月创立。

团队成员主要来自上海交大和南京大学,拥有专利80余项,目前在上海和南京还配备两个研发中心。

除了做视频通信之外,还涉及到视频压缩和分析的相关技术研发,妥妥的一枚创业型技术公司!

初次见到图鸭科技CEO武俊敏,感觉和初创企业的特质很相似,年纪轻轻(妥妥的90后)且态度认真,最重要的是还有一股对技术、对行业的“霸气”。

说到技术上的霸气外漏,现于上海交大攻读博士学位的武俊敏,曾经作为前掌赢首席科学家,在即时通讯美颜算法的的研发过程中帮助掌赢融资1亿人民币。

在可圈可点的职业生涯中,作为simpleeye lab负责人,他又带领团队开发出三套算法。

值得提及的是,他研究的表情迁移比iPhone X 早三年;即时通讯美颜算法比美图早一年;图片压缩技术比Webp提升50%。

小编不觉感叹,90后CEO,四个字:技术有为!

聊天中,说到投身创业大军的初衷,武俊敏腼腆地笑了:“就在2016年7月,我去了美国,当时参加了CVPR 会议,我看到很多人,因为一个技术、一些基本的技术就融到了很多资金,我就联想到我自己,可以在技术上做到比他们更好,那为什么不去创业呢?”

抱着这个想法,回国后,武俊敏踏上了创业征程。


图片描述

谈到将音视频技术研发作为创业项目的想法,武俊敏表示,自己在上一家公司主要参与的技术项目就是有关于音视频方面的(当时视频分析做的多一些),可以说在这个领域有一定的技术积累,所以创业也就顺理成章地选择了该领域中比较难的视频压缩。

“刚开始的时候我想做的是VR方面的通信,后来逐步想把VR通信转变为一个普通通信,现在来看在通信领域我们已经解决了两个问题,一个是压缩问题,另一个是传输问题。”武俊敏补充道。

作为国内第一家将视频和通信“并举”的公司,在言谈中小编除了感受到武俊敏对音视频技术的满满自信之外,还有对行业认知的“轻车熟路”。

如今的视频行业究竟如何?武俊敏也有自己的看法,或许对渴望投身于此的小伙伴们有些经验之谈的帮助。

他认为如今的视频分析行业其实可以分为两个部分,一个是纯的视频分析方面,另一个是与传统行业相结合的问题。说到纯的视频分析,目前的市场风口主要集中在三个领域,分别是人脸识别、自动驾驶和相机。

自动驾驶,无论从入市的企业量级以及目前的融资水平来看,有望成为万亿级的市场,这一点武俊敏表示毋庸多言,但他对相机应用的前景判断还是挺出人意料的。

他表示,这几年相机应用层出不穷。从美图秀秀到足迹,再到FaceU, 现在来看或许会有一些新的东西加入,例如3D交互,这个领域会迎来新高峰。

此外,因为视频分析没有办法成为一个独立行业,所以需要与传统行业做一些结合。这方面,武俊敏提到了近几年发展势头正盛的新零售。

“新零售、无人零售,也是视频分析大举进攻的一个行业。具体来说,视频分析技术会把店面中顾客浏览的轨迹以及停留的时间进行实时传输,做一个分析优化,进而判断不同的需求……这是视频分析给零售行业带来的一个新变化。”他补充道。

关于视频创业的问题,不少小伙伴或许很关心,对此武俊敏提到了三个关键词,分别是压缩、传输和分析。

具体来说压缩,就是让视频变的更小一点;传输,就是让一个视频如何更加流畅;分析的意思是让视频更加智能,做好这三方面才能更好的把握视频创业的成功,其中涉及到的技术创新,对创业者来说都是很艰苦的。

据图鸭科技内部介绍,早在去年8月份,视频类应用不断增多扩展,带来高带宽、高流量高并发的现象后,武俊敏就瞄准了这个市场。“这是一个充满暴利的市场,粗算下来可能会达到十倍的利润。我们要做的就是打破这个局面,帮助相关领域的企业打通通道、节省成本。”他说。

关于视频通信,我们需要了解什么?

目前,图鸭科技的视频通信VoIP技术,端对端延时已经可以控制在50~100ms,P2P穿透率达到70%,可以帮助企业极大的降低带宽成本,并能根据机型自动匹配X264与X265,进一步降低20%流量,实现无缝切换。

延时、穿透率、X264与X265?说了这么多,视频通信系统的基础架构到底由哪些部分组成?

一个视频通信的基础架构可能涉及到采集(音视频采集)、前处理(例如噪声处理、人脸识别等)、音视频编解码、流媒体协议、系统架构(如数据库、文件系统)、CDN、播放控制(如音视频同步)和交互技术等。

具体的传输过程一般涉及到三个步骤,分别是:

数据发送方采集数据,其中包括音频、视频以及文本等;

通过网络将压缩的数据传送到接收方;

数据接收方接收到数据后,解码得到多媒体数据进行显示和播放。

文字描述相对简单,但实质上这是一个非常复杂的过程。网络波动、视频丢包等问题的出现需要被及时处理,同时不同硬件的适配需要在也很短的时间内得到响应。

此外,在日常应用中,不同的业务对视频通信系统的技术要求也存在差异性。

例如视频会议中,需要双方或多方的视频通信过程实时进行,延时尽可能低,同时要保持通信过程流畅;视频监控系统则要求清晰度较高,有效保留画面中的重要细节。

这样看来构建高效稳定的视频通信系统,除了具备有效实时的原始数据之外,最重要的就是压缩与传输。

通常来说,在低延时业务中,对压缩速度的要求非常高。例如如果需要达到每秒20帧的帧率,就要求压缩每一帧的时间低于50毫秒,同时还要兼顾压缩性能。

据了解,目前主流的视频编码标准为H.264/AVC,目测可以获得不错的压缩性能和传输速度。下一代的视频编码标准是H.265/HEVC,虽然其码率相比H.264在同等编码质量的情况下可以节省高达50%,但由于专利问题和巨大的计算量,还没有得到广泛应用。

对此,武俊敏表示,关于视频压缩效率的优化,目前来看压缩算法并没有完全被使用,只用了20%-60%,最主要的原因在于我们的计算性能还是不够领先,但算法还有进一步优化的空间。

压缩是难点,传输更不容易!

传输方面,目前最常用的两种传输协议是传输控制协议TCP和用户数据包协议UDP。其中TCP是面向连接的可靠传输协议,但延时相对较大;UDP是无连接、不可靠的传输协议,延时相对较小。

“大家都知道,通信行业主要就是流畅和网络之间的矛盾。因为网络随时变动,不是丢包,就是包特别多的时候传不过来……要解决流量适应网络的问题,还要同时保证流量传送的信息要尽可能完整,是特别困难的。”武俊敏说。

在图鸭科技这次开源的视频通信技术中采用了UDP协议,减少了端对端延迟,并实时对传输数据进行网络丢包、网络速度和网络抖动的统计,再返给编码器,以此确保视频传输的稳定性。此外,还采用长期参考帧的模式,在网络丢包30%的情况下仍可保证视频流畅。

未来要实现流畅高质量的视频通信,武俊敏认为编码端还是需要根据实时的网络状态进行压缩率的调整,可以通过改变量化参数、改变分辨率或改变帧率等方法实现。对网络状态的实时感知,还需要网络传输模块进行统计监测并实时提供信息。

投身开源,图鸭科技背后的想法是什么?

据悉,图鸭科技在此次的开源中主要开放了服务器的源代码和客户端的网络模块代码,不开源的部分也将免费提供给用户使用。

面对开源,武俊敏坦率告诉小编,其实技术并没有没有国界,每个人都会很容易接触到。如果想通过提升技术壁垒来创造商业壁垒,这是一个短暂有效还比较困难的事儿。从商业角度来看,开源是一种趋势;从公益角度出发,更是值得提倡的。

“未来,我们会逐步升级整个系统,把项目做得越来越好,现在只是开源的第一步,如果后面做得特别好,我们会把其他部分开源出来,例如视频分析的技术开源。我们都认为,开源会让技术向前跨进一步,对后期分析或者其他业务有促进作用。视频覆盖程度越广,视频的智能化程度就会带来更多机会。我们就是要先把这个门槛儿较高的市场激活,开源带领我们先进门,后面才能搅活市场。”武俊敏说。

关于图鸭科技

早前,小编了解到其实图鸭科技已经完成天使轮千万级融资,由中兴合创领投,华院数据和拉尔夫创投跟投。谈到融资,武俊敏很低调,坦然表示这么大笔钱肯定要拿来在技术上做大量的优化与改进。

“一方面我们的压缩技术比别人更好,另一方面来我们通信技术也做起来了,这样制造了两个技术点的融合,全球就我们一家公司把通信和压缩放在一起,这点我特别兴奋也很自豪,要一直努力做下去。”

现在图鸭科技的客户群主要包括教育、视频通信芯片,还有一些机器人行业以及视频会议,未来例如视频游戏、在线教育、视频客服等也会广泛采用音视频分析技术。

谈到音视频分析技术的适配性和有效性,武俊敏为小编举了例子说明。

目前合作的一家在芯片领域的厂商,要把视频很流畅的传输到云端,之前用的RTSP,RTMP延时比较高,而图鸭科技的技术延时降低到100毫秒,并且比较流畅;另外在直播领域,之前用的是云通信,一个月的耗费是5万块钱人民币,现在采用压缩技术后,一个月变成5000块钱人民币,流畅性的利用率却是原来的10倍。

“对于未来,我们会做AR和VR;对于人才,我们会补充一些运营人才,高端人才还会是主流,因为招人的要求很高,所以宁可招的少一点,也要精英人才、复合型人才。”武俊敏强调。

武俊敏表示:未来会一直致力于研究视频压缩和分析方向的研究,Make video smaller and smarter,这就是我们的目标。

这篇关于90后CEO率图鸭投身开源,视频通信也成“隐形”红海的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/333525

相关文章

流媒体平台/视频监控/安防视频汇聚EasyCVR播放暂停后视频画面黑屏是什么原因?

视频智能分析/视频监控/安防监控综合管理系统EasyCVR视频汇聚融合平台,是TSINGSEE青犀视频垂直深耕音视频流媒体技术、AI智能技术领域的杰出成果。该平台以其强大的视频处理、汇聚与融合能力,在构建全栈视频监控系统中展现出了独特的优势。视频监控管理系统EasyCVR平台内置了强大的视频解码、转码、压缩等技术,能够处理多种视频流格式,并以多种格式(RTMP、RTSP、HTTP-FLV、WebS

综合安防管理平台LntonAIServer视频监控汇聚抖动检测算法优势

LntonAIServer视频质量诊断功能中的抖动检测是一个专门针对视频稳定性进行分析的功能。抖动通常是指视频帧之间的不必要运动,这种运动可能是由于摄像机的移动、传输中的错误或编解码问题导致的。抖动检测对于确保视频内容的平滑性和观看体验至关重要。 优势 1. 提高图像质量 - 清晰度提升:减少抖动,提高图像的清晰度和细节表现力,使得监控画面更加真实可信。 - 细节增强:在低光条件下,抖

阿里开源语音识别SenseVoiceWindows环境部署

SenseVoice介绍 SenseVoice 专注于高精度多语言语音识别、情感辨识和音频事件检测多语言识别: 采用超过 40 万小时数据训练,支持超过 50 种语言,识别效果上优于 Whisper 模型。富文本识别:具备优秀的情感识别,能够在测试数据上达到和超过目前最佳情感识别模型的效果。支持声音事件检测能力,支持音乐、掌声、笑声、哭声、咳嗽、喷嚏等多种常见人机交互事件进行检测。高效推

金融业开源技术 术语

金融业开源技术  术语 1  范围 本文件界定了金融业开源技术的常用术语。 本文件适用于金融业中涉及开源技术的相关标准及规范性文件制定和信息沟通等活动。

安全管理体系化的智慧油站开源了。

AI视频监控平台简介 AI视频监控平台是一款功能强大且简单易用的实时算法视频监控系统。它的愿景是最底层打通各大芯片厂商相互间的壁垒,省去繁琐重复的适配流程,实现芯片、算法、应用的全流程组合,从而大大减少企业级应用约95%的开发成本。用户只需在界面上进行简单的操作,就可以实现全视频的接入及布控。摄像头管理模块用于多种终端设备、智能设备的接入及管理。平台支持包括摄像头等终端感知设备接入,为整个平台提

90、k8s之secret+configMap

一、secret配置管理 配置管理: 加密配置:保存密码,token,其他敏感信息的k8s资源 应用配置:我们需要定制化的给应用进行配置,我们需要把定制好的配置文件同步到pod当中容器 1.1、加密配置: secret: [root@master01 ~]# kubectl get secrets ##查看加密配置[root@master01 ~]# kubectl get se

系统架构师考试学习笔记第三篇——架构设计高级知识(20)通信系统架构设计理论与实践

本章知识考点:         第20课时主要学习通信系统架构设计的理论和工作中的实践。根据新版考试大纲,本课时知识点会涉及案例分析题(25分),而在历年考试中,案例题对该部分内容的考查并不多,虽在综合知识选择题目中经常考查,但分值也不高。本课时内容侧重于对知识点的记忆和理解,按照以往的出题规律,通信系统架构设计基础知识点多来源于教材内的基础网络设备、网络架构和教材外最新时事热点技术。本课时知识

K8S(Kubernetes)开源的容器编排平台安装步骤详解

K8S(Kubernetes)是一个开源的容器编排平台,用于自动化部署、扩展和管理容器化应用程序。以下是K8S容器编排平台的安装步骤、使用方式及特点的概述: 安装步骤: 安装Docker:K8S需要基于Docker来运行容器化应用程序。首先要在所有节点上安装Docker引擎。 安装Kubernetes Master:在集群中选择一台主机作为Master节点,安装K8S的控制平面组件,如AP

【STM32】SPI通信-软件与硬件读写SPI

SPI通信-软件与硬件读写SPI 软件SPI一、SPI通信协议1、SPI通信2、硬件电路3、移位示意图4、SPI时序基本单元(1)开始通信和结束通信(2)模式0---用的最多(3)模式1(4)模式2(5)模式3 5、SPI时序(1)写使能(2)指定地址写(3)指定地址读 二、W25Q64模块介绍1、W25Q64简介2、硬件电路3、W25Q64框图4、Flash操作注意事项软件SPI读写W2

MiniGPT-3D, 首个高效的3D点云大语言模型,仅需一张RTX3090显卡,训练一天时间,已开源

项目主页:https://tangyuan96.github.io/minigpt_3d_project_page/ 代码:https://github.com/TangYuan96/MiniGPT-3D 论文:https://arxiv.org/pdf/2405.01413 MiniGPT-3D在多个任务上取得了SoTA,被ACM MM2024接收,只拥有47.8M的可训练参数,在一张RTX