cocktail专题

Looking to Listen at the Cocktail Party 代码详解

这个是清华某位大佬对论文《Looking to Listen at the Cocktail Party 》的一个复现。代码链接网络结构如下图：由于AVSpeech这个数据集里是一些视频的片段，而输入网络的是视频中的人脸区域。所以先要做人脸识别，并把人脸截取。这个代码中使用了Python的一个pretrained的mtcnn的包直接做的。 def face_detect(file,d