spec2image 源码
spec2image 该算法将任意声音文件转换为二维形状的图像序列,与鼠标的听觉皮层的色调图一致。 前处理 每个window * sample_rate点对原始声音信号执行傅里叶变换。 默认参数与语音识别任务window = 20ms , overlap = 50% 。 然后生成一个频谱图。 出于记忆的目的,首先缩小听觉皮层的色调图。 每个色调主题图的原始形状均为'2000, 2500 2000,2500 '2000, 2500 。 使用形状为(4, 4)块进行平均,将最终形状变为(500, 625) 。 色调映射的权重 对于频谱图中的每个时间点,提取封装了所有频率幅度的矢量。 随后,对每
下载地址
用户评论