在语音识别中,按照从微观到宏观的顺序排列正确的是()。

如题所述

第1个回答  2023-08-07

流程:输入-编码-解码-输出

语言识别输入的是声音,属于计算机无法识别的模拟信号,所以需要通过模型将其转化成数字信号,并对其中的特征进行提取,编码时,会将声音切成很小的片段,成为 帧 ,类似于视频中最小时间单位的帧。帧和帧之间会有一定的重叠。

对于得到的每一帧,按照人耳听声的特定的MCFF规则,提取其中的特征,转成 多维向量 。向量中的每一个维度可以看做是这一帧中的特征。

解码过程是将得到的向量变成文字的过程,其中用到两个模型 声学模型 和 语言模型 。声学模型是将特征向量转化成单个字母(中文的拼音声母和韵母),成为音素。语言模型是将音素拼接起来成为单词或者汉字。两种模型都需要大量的语言数据进行训练。

传统识别方式:隐马尔可夫模型(HMM)
端到端识别方式:神经网络(DNN,deep neural network)
两种识别方式主要的差异在声学模型上。
目前中文的识别率在97%以上,距离理想的99%还有很大的差距。

“远场”。下面主要说3个概念:
语音激活检测、语音唤醒、以及麦克风阵列。
1)语音激活检测(voice active detection,VAD)
A)需求背景:在近场识别场景,比如使用语音输入法时,用户可以用手按着语音按键说话,结束之后松开,由于近场情况下信噪比(signal to noise ratio, SNR))比较高,信号清晰,简单算法也能做到有效可靠。
但远场识别场景下,用户不能用手接触设备,这时噪声比较大,SNR下降剧烈,必须使用VAD了。
B)定义:判断什么时候有语音什么时候没有语音(静音)。
后续的语音信号处理或是语音识别都是在VAD截取出来的有效语音片段上进行的。

相似回答