首页
Python
Java
前端
数据库
Linux
Chatgpt专题
开发者工具箱
cocktail专题
Looking to Listen at the Cocktail Party 代码详解
这个是清华某位大佬对论文《Looking to Listen at the Cocktail Party 》的一个复现。代码链接 网络结构如下图: 由于AVSpeech这个数据集里是一些视频的片段,而输入网络的是视频中的人脸区域。所以先要做人脸识别,并把人脸截取。 这个代码中使用了Python的一个pretrained的mtcnn的包直接做的。 def face_detect(file,d
阅读更多...