SSLVC用视觉线索进行声源定位的创新方法
在CS598ps_project中,我们提出了一种创造性的方法,通过使用监督学习方法检测和跟踪视觉线索,从单个通道输入为多个源重建3D音频。我们还讨论了一种类似的方法,通过使用面部和语音可能性,或简单地对视频流进行多模态说话人识别,来改进视频流中说话人的分类。视频资产在:
下载地址
用户评论