cocktail专题

Looking to Listen at the Cocktail Party 代码详解

这个是清华某位大佬对论文《Looking to Listen at the Cocktail Party 》的一个复现。代码链接 网络结构如下图: 由于AVSpeech这个数据集里是一些视频的片段,而输入网络的是视频中的人脸区域。所以先要做人脸识别,并把人脸截取。 这个代码中使用了Python的一个pretrained的mtcnn的包直接做的。 def face_detect(file,d