Skr Eric的机器学习课堂(九)– 语音识别、图像识别和人脸识别
语音识别 1.梅尔频率倒谱系数(MFCC)矩阵 首先将音频输入按照时间顺序划分为若干片段,将每个片段做傅里叶变换,得到相对应的频率分布,从中提取与人类语言内容相关性最强的十三的特征频率所对应的能量强度,构成一个样本。将从每个片段中所获得的频率样本按行组成一个矩阵,即梅尔频率倒谱系数(MFCC)矩阵。MFCC矩阵反映了该音频输入的内容特征,可被用于对语音内容的识别。 # -*- coding: utf-8 -*- from __future__ import unicode_literals import numpy as np import scipy.io.wavfile as wf im
下载地址
用户评论