本次最强大脑人机挑战的项目是听声识人,背后的技术背景是声纹识别技术。实际上声纹识别是一种行为识别技术,是通过测试、采集声音的波形和变化,与登记过的声音模板进行匹配。该项技术最早由40年代末的贝尔实验室开发,主要用于军事情报领域。随着技术发展,逐步在法医鉴定、法庭证据等领域得到广泛使用。 声纹识别的理论基础 每一个声音都具有独特的特征,通过该特征能将不同人的声音进行有效的区分。 这种特征主要由两个因素决定,第一个是声腔的尺寸,具体包括咽喉、鼻腔和口腔等,这些器官的形状、尺寸和位置决定了声带张力的大小和声音频率的范围。就像指纹一样,每个人的声音也就有独特的特征。第二个因素是发声器官被操纵的方式,发声器官之间相互作用就会产生清晰的语音。人在学习说话的过程中,通过模拟周围不同人的说话方式,就会逐渐形成自己的声纹特征。 理论上来说,声纹就像指纹一样,很少会有两个人具有相同的声纹特征。 ? 小度声纹识别技术解析 最强大脑中,小度机器人拥有的声纹识别技术,实际上属于动态声音实时检测技术,同时还包括VAD、降噪、去混响等(VAD的目的是检测是不是人的声音,降噪和去混响是排除环境干扰)。???? 考虑到挑战场景是从合唱团中找到特点的人声,难点在于如何对语音信号中说话人相关的信息提取和表示,以及如何去区分类似人声的细微差异。一般而言对一段语音说话人相关特征的提取主要是按照如图所示的流程进行: 对于收集到的语音,首先会进行有效语音检测(VAD),将收集到的语音中非有效部分的语音进行切除,然后进行声学特征提取。由于语音信号是一种短时非平稳不定长的信号,因此一般提取特征都是采取加窗得到以帧为单位的特征。目前采用的声学特征普遍为经典的梅尔频率倒谱系数MFCC、感知现行预测系数PLP,以及目前火热的基于深度学习的特征deep feature。在得到声学特征之后,就是说话人信息的进一步提取。这里采用的建模方法主要采用ivector算法以及带残差处理的深度卷积神经中国络算法。通过建模后,我们就能够对语音进行更深层次的特征表示,使得说话人相关的信息进一步被呈现。最后得到的模型,就能够将特征提取阶段得到的特征进一步转化为能够表征说话人特性的样本。 这样,我们就能够将特定说话人的语音彻底转换为能够表征该说话人特性的模型。(在实际的比赛过程中,21个合唱队员在进行唱歌时,我们通过分别将这21个队员的唱歌声音送入到该模型中,最后得到21个能够表征这些队员信息的模型)。 识别匹配阶段就相对容易理解了,在采集到测试语音之后,进行相应的特征提取操作,然后通过与模版库里面的所有模板样本进行相似距离计算,然后选择距离最近的一个作为最后的判决结果。(在实际比赛过程中,这就相当于三次测试,每次测试,我们将线人的暗号语音送入到模型中,提取特征,然后再分别与21个模型进行打分比较,得分最高者即是机器认为的最有可能的线人)。整个过程如下图所示: 本次声纹识别的难度 可能大家最感兴趣的是,最强人工智能的小度和我们的小选手小宝3题只对了1题。这里我简单说下影响大家发挥的因素,如下: 1、噪音问题 2、多人唱歌 3、声音记忆遗忘 4、特征迁移 排名第一的是噪音问题,包括现场噪音和音乐噪音,这个比上场人脸识别的影响更大(上期存在着光线的影响),音乐本身也会影响机器和选手的判断;第二是多人唱歌,众所周知,声纹的识别主要靠频谱特征,而多人会出现频谱混叠的现象,使得特征分离和识别难度较大;第三,主要是对人类选手的影响,一般的人记忆时间的序列会比空间的要难,尤其是在记忆三串声音序列后,容易出现混淆,这也是为什么doctorWei一再希望小宝多听几遍的原因;最后说下特征迁移,挑战中是通过记忆说话,到辨识唱歌。而往往人们说话和唱歌声纹是不同的,这就存在一个特征迁移的问题,对应到我们的两位选手需要一定的归纳推理能力。 以上4个因素使得最终结果不是那么完美,但是也正是这些不完美才会让我们在技术上不断进步,不断超越过去的自己
温馨提示:答案为网友推荐,仅供参考