語かたり音おん辨べん識

语音识别（speech recognition）技わざ术，也被称しょう为自じ动语音おん识别（英語えいご：Automatic Speech Recognition, ASR）、電腦でんのう語ご音おん識別しきべつ（英語えいご：Computer Speech Recognition）或ある是ぜ語かたり音おん轉うたて文ぶん本ほん識別しきべつ（英語えいご：Speech To Text, STT），其目标是以電腦でんのう自動じどう将人まさと类的语音内容ないよう转换为相應おう的てき文字もじ。与あずか说话人じん识别（英えい语：Speaker recognition）及说话人じん确认不同ふどう，后きさき者しゃ尝试识别或ある确认发出语音的てき说话人じん而非其中所しょ包含ほうがん的てき词汇内容ないよう。

语音识别技わざ术的应用包括ほうかつ语音拨号、语音导航、室内しつない设备控ひかえ制せい、语音文ぶん档检索さく、简单的てき听写数すう据すえ录入等とう。语音识别技わざ术与其他自然しぜん语言处理技わざ术如机つくえ器き翻こぼし译及语音合成ごうせい技わざ术相结合，可か以构建けん出で更さら加か复杂的てき应用，例れい如语音おん到いた语音的てき翻こぼし译。^[1]

语音识别技わざ术所涉わたる及的领域包括ほうかつ：信号しんごう处理、模も式しき识别、概がい率りつ论和わ信しん息いき论、发声机つくえ理り和わ听觉机つくえ理り、人工じんこう智能ちのう等ひとし等ひとし。

历史

早さ在ざい计算机つくえ发明之の前まえ，自じ动语音おん识别的てき设想就已经被提ひさげ上うえ了りょう议事日程にってい，早期そうき的てき声こえ码器可か被ひ视作语音识别及合成ごうせい的てき雏形。而1920年代ねんだい生せい产的「Radio Rex」玩具おもちゃ狗いぬ是ぜ最早もはや的てき语音识别器き，当とう这只狗いぬ的てき名字みょうじ被ひ呼よび唤的时候，它能够从底そこ座ざ上じょう弹出来でき^[2]。最早もはや的てき基もと于电子こ计算机つくえ的てき语音识别系けい统是由よしAT&T贝尔实验室しつ开发的てきAudrey语音识别系けい统，它能够识别10个英文えいぶん数字すうじ。其识别方法ほう是ぜ跟踪语音中ちゅう的てき共振きょうしん峰ほう。该系统得到いた了りょう98%的てき正せい确率。^[3]。到いた1950年代ねんだい末まつ，伦敦学院がくいん(Colledge of London)的てきDenes已やめ经将语法概がい率りつ加入かにゅう语音识别中ちゅう。

1960年代ねんだい，人工じんこう神しん经网络被引入了りょう语音识别。这一时代的两大突破是线性预测编码Linear Predictive Coding (LPC)，及动态时间规整Dynamic Time Warp技わざ术。

语音识别技わざ术的最さい重大じゅうだい突破とっぱ是ぜ隐含马尔科か夫おっと模型もけいHidden Markov Model的てき应用。从Baum提出ていしゅつ相しょう关数学がく推理すいり，经过Rabiner等とう人的じんてき研究けんきゅう，卡内基もと梅うめ隆たかし大学だいがく的てき李り开复最さい终实现了第だい一个基于隐马尔科夫模型的大词汇量语音识别系统Sphinx^[4]。此后严格来らい说语音おん识别技わざ术并没ぼつ有ゆう脱だつ离HMM框かまち架か。

2012年ねん，微ほろ软研究けんきゅう院いん的てき俞栋和わ邓力等とう人ひと提出ていしゅつ了りょう上下じょうげ文相ぶんしょう关的深度しんど神しん经网络与隐马尔可夫おっと模型もけい融合ゆうごう的てき声こえ学がく模型もけい（CD-DNN-HMM），性能せいのう得え到いた了りょう很大提ひさげ升ます。2011 年ねん丹たん尼に尔·波は维发布Kaldi语音识别工具こうぐ包つつみ，得とく到いた广泛应用。

近年きんねん来らい，又また兴起了りょう基もと于端はし对端(End-to-End，E2E）的てき语音识别方案ほうあん。

尽つき管かん多た年来ねんらい研究けんきゅう人じん员一直ちょく尝试将はた“听写机つくえ”推广，语音识别技わざ术在目前もくぜん还无法ほう支持しじ无限领域，无限说话人的じんてき听写机つくえ应用。

模型もけい

目前もくぜん，主流しゅりゅう的てき大だい词汇量りょう语音识别系けい统多采さい用よう统计模も式しき识别技わざ术。典型てんけい的てき基もと于统计模式しき识别方法ほうほう的てき语音识别系けい统由以下いか几个基本きほん模も块所构成：

信号しんごう处理及特征せい提ひっさげ取ど模も块。该模块的主要しゅよう任にん务是从输入信にゅうしん号ごう中ちゅう提ひっさげ取ど特とく征せい，供きょう声ごえ学がく模型もけい处理。同どう时，它一般也包括了一些信号处理技术，以尽可能かのう降くだ低てい环境噪声、信道のぶみち、说话人じん等とう因いん素もと对特征せい造成ぞうせい的てき影かげ响。
声こえ学がく模型もけい。典型てんけい系けい统多采さい用よう基もと于一阶隐马尔科夫模型进行建模。
发音词典。发音词典包含ほうがん系けい统所能のう处理的てき词汇集しゅう及其发音。发音词典实际提供ていきょう了りょう声ごえ学がく模型もけい建けん模も单元与あずか语言模型もけい建けん模も单元间的映うつ射しゃ。
语言模型もけい。语言模型もけい对系统所针对的てき语言进行建けん模も。理り论上，包括ほうかつ正せい则语言ごと，上下じょうげ文ぶん无关文法ぶんぽう在ざい内的ないてき各かく种语言げん模型もけい都と可か以作为语言げん模型もけい，但ただし目前もくぜん各かく种系统普遍ふへん采さい用よう的てき还是基もと于统计的N元もと文法ぶんぽう及其变体。
解かい码器。解かい码器是ぜ语音识别系けい统的核心かくしん之の一いち，其任务是对输入いれ的てき信号しんごう，根ね据すえ声ごえ学がく、语言模型もけい及词典てん，寻找能のう够以最大さいだい概がい率りつ输出该信号ごう的てき词串。

从数学がく角度かくど可か以更加か清楚せいそ的てき了解りょうかい上述じょうじゅつ模も块之间的关系。首くび先さき，统计语音识别的てき最さい基本きほん问题是ぜ，给定输入信号しんごう或ある特とく征せい序列じょれつ $O=\{O_{1},O_{2},\cdots O_{n}\}$ ，符号ふごう集しゅう（词典） ${\mathcal {W}}=\{W_{1},W_{2},\cdots ,W_{n}\}$ ，求もとめ解かい符号ふごう串くし $W=W_{1},W_{2},\cdots ,W_{k}$ 使つかい得とく：

W=\arg \max P(W|O)

通つう过贝叶斯公式しき，上うえ式しき可か以改写うつし为

W=\arg \max {\frac {P(O|W)P(W)}{P(O)}}

由よし于对于确定じょう的てき输入串くし $O$ ， $P(O)$ 是ぜ确定的てき，因いん此省略しょうりゃく它并不ふ会かい影かげ响上式しき的てき最さい终结果はて，因いん此，一般来说语音识别所讨论的问题可以用下面的公式来表示，可か以将它称为语音おん识别的てき基本きほん公式こうしき。 $W=\arg \max P(O|W)P(W)$

从这个角度ど来らい看み，信号しんごう处理模も块提供ていきょう了りょう对输入信にゅうしん号ごう的てき预处理り，也就是ぜ说，提供ていきょう了りょう从采集しゅう的てき语音信号しんごう(记为 $S$ )到いた特とく征せい序列じょれつ $O$ 的てき映うつ射い ${\mathcal {O}}:S\rightarrow O$ 。而声学がく模型もけい本身ほんみ定てい义了一些更具推广性的声学建模单元 ${\mathcal {\mu }}=\{u_{1},u_{2},\cdots ,u_{m}\}$ ，并且提供ていきょう了りょう在ざい给定输入特とく征せい下か，估计 $P(O|u_{k})$ 的てき方法ほうほう。

为了将はた声こえ学がく模型もけい建けん模も单元串くし $U=u_{1},u_{2},\cdots ,u_{l}$ 映うつ射い到いた符号ふごう集しゅう ${\mathcal {W}}$ ，就需要よう发音词典发挥作用さよう。它实际上定てい义了映うつ射い ${\mathcal {D}}:w\in {\mathcal {W}}\rightarrow U$ 的てき映うつ射しゃ。为了表示ひょうじ方便ほうべん，也可以定义一个由 ${\mathcal {W}}$ 到いた $U$ 的てき全集ぜんしゅう ${\mathcal {U}}$ 的てき笛ふえ卡尔积，而发音おん词典 ${\mathcal {D}}$ 则是这个笛ふえ卡尔积的一いち个子集しゅう。并且有ゆう：

P(W,U)=\left\{{\begin{array}{*{20}c}{1,(W,U)\in D}\\{0,(W,U)\notin D}\\\end{array}}\right.

最さい后きさき，语言模型もけい则提供ていきょう了りょう $P(W)$ 。这样，基本きほん公式こうしき就可以更加か具体ぐたい的てき写うつし成なり：

W=\arg \max P(W)\cdot P(W,U)\cdot \prod _{u_{i}\in U}P(O|u_{i})

对于解かい码器来らい说，就是要よう在ざい由ゆかり ${\mathcal {W}}$ , ${\mathcal {\mu }}$ , $u_{i}$ 以及时间标度 $t$ 张成的てき搜索そうさく空そら间中，找到上うえ式しき所しょ指ゆび明あかり的てき $W$ 。

系けい统构成なり

声こえ学がく特とく征せい

声こえ学がく特とく征せい的てき提ひっさげ取ど与あずか选择是ぜ语音识别的てき一いち个重要よう环节。声こえ学がく特とく征せい的てき提ひっさげ取ど既すんで是ぜ一个信息大幅度压缩的过程，也是一个信号解卷过程，目的もくてき是ぜ使し模も式しき划分器き能のう更さら好地こうち划分。

由よし于语音信いんしん号ごう的てき时变特性とくせい，特とく征せい提ひっさげ取ど必须在ざい一小段语音信号上进行，也即进行短たん时分析ぶんせき。这一段被认为是平稳的分析区间称之为帧，帧与帧之间的偏へん移うつり通常つうじょう取と帧长的てき1/2或ある1/3。通常つうじょう要よう对信号ごう进行预加重かじゅう以提升ます高だか频，对信号ごう加か窗まど以避免めん短たん时语音おん段だん边缘的てき影かげ响。

常用じょうよう的てき一些声学特征

线性预测系けい数すう（Linear Predictive Coefficient，LPC）：线性预测分析ぶんせき从人的てき发声机つくえ理り入手にゅうしゅ，通つう过对声ごえ道どう的てき短たん管かん级联模型もけい的てき研究けんきゅう，认为系けい统的传递函数かんすう符合ふごう全ぜん极点数字すうじ滤波器き的てき形式けいしき，从而n时刻的てき信号しんごう可か以用前ぜん若干じゃっかん时刻的てき信号しんごう的てき线性组合来らい估计。通つう过使实际语音的てき采さい样值和わ线性预测采さい样值之の间达到いた均ひとし方かた差さ最小さいしょうLMS，即そく可か得え到いた线性预测系けい数すうLPC。对LPC的てき计算方法ほうほう有ゆう自じ相あい关法（德とく宾Durbin法ほう）、协方差さ法ほう、格かく型がた法ほう等とう等とう。计算上じょう的てき快速かいそく有效ゆうこう保ほ证了这一声学特征的广泛使用。与あずかLPC这种预测参さん数すう模型もけい类似的てき声こえ学がく特とく征せい还有线谱对LSP、反射はんしゃ系けい数すう等とう等とう。

倒たおせ谱系数すう：利用りよう同どう态处理り方法ほうほう，对语音信いんしん号ごう求もとめ离散傅でん立たて叶かのう变换DFT后きさき取と对数，再さい求もとめ反はん变换iDFT就可得え到いた倒たおせ谱系数すう。对LPC倒たおせ谱（LPCCEP），在ざい获得滤波器き的てき线性预测系けい数すう后きさき，可か以用一个递推公式计算得出。实验表明ひょうめい，使用しよう倒たおせ谱可以提高だか特とく征せい参さん数すう的てき稳定性せい。

梅うめ尔频率りつ倒たおせ谱系数すう（Mel-Frequency Cepstral Coefficients，MFCCs）和わ感知かんち线性预测（Perceptual Linear Predictive，PLP）：不同ふどう于LPC等とう通どおり过对人的じんてき发声机つくえ理り的てき研究けんきゅう而得到いた的てき声こえ学がく特とく征せい，Mel倒たおせ谱系数すうMFCC和わ感知かんち线性预测PLP是ぜ受人的てき听觉系けい统研究けんきゅう成果せいか推动而导出で的てき声こえ学がく特とく征せい。对人的てき听觉机つくえ理り的てき研究けんきゅう发现，当とう两个频率相近すけちか的てき音おと调同时发出で时，人にん只ただ能のう听到一いち个音调。临界带宽指ゆび的てき就是这样一种令人的主观感觉发生突变的带宽边界，当とう两个音おん调的频率差さ小しょう于临界かい带宽时，人にん就会把わ两个音おん调听成なり一いち个，这称之の为屏蔽效应。Mel刻こく度ど是ぜ对这一临界带宽的度量方法之一。

MFCC的てき计算首くび先さき用ようFFT将はた时域信号しんごう转化成かせい频域，之これ后きさき对其对数能のう量りょう谱用依よ照あきらMel刻こく度ど分布ぶんぷ的てき三角さんかく滤波器き组进行ぎょう卷まき积，最さい后きさき对各个滤波なみ器き的てき输出构成的てき向むこう量りょう进行离散余弦よげん变换DCT，取前とりまえN个系数すう。PLP仍用德とく宾法去さ计算LPC参さん数すう，但ただし在ざい计算自じ相あい关参まいり数すう时用的てき也是对听觉激励げきれい的てき对数能のう量りょう谱进行ぎょうDCT的てき方法ほうほう。

中ちゅう文ぶん聲ごえ學がく特徵とくちょう

以國語ご發音はつおん為ため例れい，我わが們會將しょう一個字的發音切割成兩個部分，分別ふんべつ是ぜ聲ごえ母はは（initials）與あずか韻いん母はは（finals）。而在發音はつおん的てき過程かてい之の中なか，聲こえ母はは轉變てんぺん至いたり韻いん母はは是ぜ一個漸進而非瞬間的改變，因いん此我使用しよう右文ゆうぶん相關そうかん聲ごえ韻いん母はは模も式しき（Right-Context-Dependent Initial Final, RCDIF）作為さくい分析ぶんせき方法ほうほう，可か以更精せい準じゅん的てき辨べん識出正確せいかく的てき音節おんせつ（syllable）。

而根據こんきょ聲ごえ母はは的てき不同ふどう特徵とくちょう，又また可か以將聲ごえ母はは分ぶん為ため下面かめん四よん類るい：

左ひだり：ㄅ之これ時じ頻しき圖ず右みぎ：ㄆ之これ時じ頻しき圖ず

爆破ばくは音おん（Plosive）：

發音はつおん時じ嘴くちばし唇くちびる緊閉後ご，吐出としゅつ氣流きりゅう製造せいぞう出で類似るいじ爆破ばくは的てき聲音こわね。其聲音おん震幅しんぷく變化へんか會かい先さき降くだ至極しごく小しょう值後（代表だいひょう嘴くちばし唇くちびる緊閉）後ご在ざい急きゅう劇げき上じょう升ます，而端視し是ぜ否いや有ゆう持續じぞく送おく氣き，倘若有ゆう持續じぞく送おく氣き（aspirated），則のり震幅しんぷく可能かのう會かい有ゆう另一いち個こ波なみ峰ほう，若わか無む（un-aspirated）則のり在ざい波なみ峰ほう之これ後ご，震幅しんぷく將しょう有ゆう所しょ下降かこう。如：ㄆ與あずかㄅ便びん是ぜ前述ぜんじゅつ的てき關係かんけい，ㄆ有ゆう持續じぞく送おく氣き，而ㄅ則すなわち無む。右みぎ圖ず左ひだり為ためㄅ，右みぎ圖ず右みぎ為ためㄆ。

摩擦音まさつおん（Fricative）：

發音はつおん時じ，舌頭ぜっとう緊貼硬かた腭，形成けいせい狹窄きょうさく的てき通どおり道どう，氣流きりゅう通過つうか時じ造成ぞうせい湍流發生はっせい摩擦まさつ，由ゆかり此發出はっしゅつ聲ごえ響ひびき。由よし於摩擦音まさつおん是ぜ透過とうか穩定輸出ゆしゅつ氣流きりゅう，使つかい得とく聲音こわね震幅しんぷく變化へんか相しょう較於爆破ばくは音おん變化へんか幅はば度ど較小。如ㄏ、ㄒ等とう皆みな為ため摩擦音まさつおん。

爆ばく擦こす音おと（Affricate）：

此類型がた的てき發聲はっせい模型もけい兼けん具ぐ爆破ばくは音おん與あずか摩擦音まさつおん的てき發聲はっせい特性とくせい。其主要よう發聲はっせい構造こうぞう如同摩擦音まさつおん是ぜ由よし舌頭ぜっとう緊貼硬かた腭使氣流きりゅう通過つうか時じ產さん生せい摩擦まさつ的てき聲音こわね。而其通どおり道どう更さら加か緊密きんみつ，使つかい得とく氣流きりゅう會かい在ざい瞬間しゅんかん衝出，產さん生出おいで如同爆破ばくは音おん般的特徵とくちょう。如：ㄑ、ㄔ等とう。

鼻音びおん（Nasal）：

鼻音びおん（ㄋ）之の特徵とくちょう

發音はつおん時じ，軟腭會下えげ壓あつ，下しも壓あつ後ご，由ゆかり氣管きかん吐出としゅつ的てき氣流きりゅう被ひ阻塞，無法むほう進入しんにゅう口腔こうくう，因いん而轉往鼻腔びこう。也因此鼻腔與口腔こうくう會かい產さん生せい共振きょうしん，如右圖ず的てき時じ頻しき譜ふ上じょう可か以明顯あらわ地ち看み到いた零れい點てん(formants)分ぶん佈有共振きょうしん的てき現象げんしょう，而這樣さま的てき共振きょうしん現象げんしょう在ざい右文ゆうぶん相關そうかん聲ごえ韻いん母はは模も式しき（Right-Context-Dependent Initial Final, RCDIF）下しも與あずか韻いん母はは倆相對たい較下更さら加か明あかり顯あらわ。因よし此，此一現象可作為辨識鼻音（Nasal）的てき重要じゅうよう依據いきょ之の一いち。右みぎ圖ず便びん為ため鼻音びおんㄋ之これ特徵とくちょう，其中紅べに點てん便びん為ため零れい點てん（formants）

而韻母はは又また有ゆう雙そう母音ぼいん、單たん母音ぼいん之これ分ぶん，端はし視し再さい發生はっせい時じ是ぜ否いや有ゆう音調おんちょう的てき改變かいへん。而根據こんきょ聲帶せいたい振動しんどう與あずか否いや，又また分ぶん為ため清音せいおん（unvoiced：聲帶せいたい不ふ震動しんどう）等とう差異さい，以上いじょう發音はつおん時じ不同ふどう的てき方式ほうしき，在ざい時じ頻しき圖上ずじょう大だい多可たか以找到相對そうたい應おう的てき特徵とくちょう，透過とうか處理しょり二維的時頻圖，藉由傳統でんとう影像えいぞう處理しょり的てき方式ほうしき，達たち到いた語ご音おと辨べん識的目的もくてき。

中なか文子ふみこ母音ぼいん特徵とくちょう

中ちゅう文ぶん裡うら共有きょうゆう21個いっこ子音しいん：ㄅㄆㄇㄈㄉㄊㄋㄌㄍㄎㄏㄐㄑㄒㄓㄔㄕㄖㄗㄘㄙ

16個こ母音ぼいん：ㄚㄛㄜㄝㄞㄟㄠㄡㄢㄣㄤㄥㄦㄧㄨㄩ

母音ぼいん的てき形成けいせい是ぜ依よ脣形而定，而子音おん是ぜ口腔こうくう或ある是ぜ鼻腔びこう中ちゅう某ぼう些部位い將はた氣流きりゅう暫時ざんじ堵と住じゅう後ご放ひ開ひらき而形成けいせい的てき，因いん此：

子音しいん的てき能のう量りょう較小、頻しき率りつ偏へん高だか，時間じかん偏へん短たん，大だい多た出現しゅつげん在ざい母音ぼいん前まえ。

母音ぼいん的てき能のう量りょう較大、頻しき率りつ偏へん低てい，時じ間あいだ偏へん長ちょう，出現しゅつげん在ざい子音しいん後ご或ある是ぜ獨立どくりつ出現しゅつげん。

子こ母音ぼいん這樣的てき差異さい可か以在時じ頻しき圖上ずじょう很容易えき的てき驗けん證しょう，並なみ且用這個差異さい來らい進行しんこう簡單かんたん的てき子こ母音ぼいん辨べん識。

vowel_voice_123.png

由よし上うえ圖ず可か以發現はつげん子音しいん的てき振幅しんぷく都と偏へん小しょう，母音ぼいん的てき振幅しんぷく都と比較ひかく大だい。以「請」字じ為ため例れい，第だい一いち個こ子音しいんㄑ的てき振幅しんぷく都と較小，直ちょく到いた母音ぼいん一いち出現しゅつげん之これ後ご，振幅しんぷく才ざい明あかり顯あらわ變へん大だい。

但ただし如果出現しゅつげん雙そう母音ぼいん的てき字じ（例れい如：一いちㄡ），振幅しんぷく會かい一いち直ちょく都と很大，導しるべ致音與あずか音おと之の間あいだ的てき分界ぶんかい不ふ清楚せいそ，這時就比較ひかく難なん單純たんじゅん用よう振幅しんぷく來らい判斷はんだん音おん的てき變化へんか。

声こえ学がく模型もけい

语音识别系けい统的模型もけい通常つうじょう由よし声ごえ学がく模型もけい和わ语言模型もけい两部分ぶぶん组成，分ふん别对应于语音到いた音おと节概がい率りつ的てき计算和音わおん节到字じ概がい率りつ的てき计算。本ほん节和下か一节分别介绍声学模型和语言模型方面的技术。

HMM声ごえ学がく建けん模も：马尔可か夫おっと模型もけい的てき概念がいねん是ぜ一个离散时域有限ゆうげん状じょう态自动机，隐马尔可夫おっと模型もけいHMM是ぜ指ゆび这一马尔可夫模型的内部状态外界不可见，外界がいかい只ただ能のう看み到いた各かく个时刻こく的てき输出值。对语音おん识别系けい统，输出值通常つうじょう就是从各个帧计算而得的てき声こえ学がく特とく征せい。用ようHMM刻こく画が语音信号しんごう需作出で两个假かり设，一是内部状态的转移只与上一状态有关，另一是输出值只与当前状态（或ある当とう前まえ的てき状じょう态转移うつり）有ゆう关，这两个假设大大だい降くだ低てい了りょう模型もけい的てき复杂度ど。HMM的てき评估、解かい码和训练相しょう应的算法さんぽう是ぜ前ぜん向こう算法さんぽう、Viterbi算法さんぽう和わ前ぜん向こう后きさき向こう算法さんぽう。

语音识别中ちゅう使用しようHMM通常つうじょう是ぜ用よう从左向こう右みぎ单向、带自环、带跨越えつ的てき拓つぶせ扑结构来らい对识别基元もと建けん模も，一个音素就是一个三至五状态的HMM，一个词就是构成词的多个音素的HMM串くし行ゆき起おこし来らい构成的てきHMM，而连续语音おん识别的てき整せい个模型がた就是词和静せい音おん组合起おこり来らい的てきHMM。上下じょうげ文相ぶんしょう关建模も：协同发音，指ゆび的てき是ぜ一个音受前后相邻音的影响而发生变化，从发声ごえ机つくえ理り上じょう看み就是人的じんてき发声器官きかん在ざい一个音转向另一个音时其特性只能渐变，从而使し得とく后きさき一个音的频谱与其他条件下的频谱产生差异。上下じょうげ文相ぶんしょう关建模も方法ほうほう在ざい建けん模も时考虑了这一影かげ响，从而使し模型もけい能のう更さら准じゅん确地描述语音，只ただ考こう虑前一音的影响的称为Bi-Phone，考こう虑前一音和后一音的影响的称为Tri-Phone。

英えい语的上下じょうげ文相ぶんしょう关建模も通常つうじょう以音素もと为基元もと，由ゆかり于有些音素もと对其后きさき音素おんそ的てき影かげ响是相似そうじ的てき，因いん而可以通过音素もと解かい码状态的聚类进行模型もけい参さん数すう的てき共ども享とおる。聚类的てき结果称しょう为senone。决策树用もちい来らい实现高だか效こう的てきtriphone对senone的てき对应，通つう过回答かいとう一系列前后音所属类别（元もと/辅音、清きよし/浊音等とう等とう）的てき问题，最さい终确定てい其HMM状じょう态应使用しよう哪个senone。分ぶん类回归树CART模型もけい用よう以进行ぎょう词到音素おんそ的てき发音标注。

语言模型もけい

语言模型もけい主要しゅよう分ぶん为规则模型もけい和わ统计模型もけい两种。统计语言模型もけい是ぜ用よう概がい率りつ统计的てき方法ほうほう来らい揭示けいじ语言单位内在ないざい的てき统计规律，其中n元もと语法简单有效ゆうこう，被ひ广泛使用しよう。

n元もと语法：该模型がた基もと于这样一种假设，第だいn个词的てき出で现只与あずか前面ぜんめんN-1个词相しょう关，而与其它任にん何なん词都不ふ相あい关，整せい句く的てき概がい率りつ就是各かく个词出で现概率りつ的てき乘じょう积。这些概がい率りつ可か以通过直接ちょくせつ从语料りょう中ちゅう统计N个词同どう时出现的次じ数すう得とく到いた。由よし于计算さん量りょう太たい大だい，N一般取值不会很大，常用じょうよう的てき是ぜ二元にげん语法（Bi-Gram）和わ三さん元げん语法（Tri-Gram）。

语言模型もけい的てき性能せいのう通どおり常用じょうよう交叉こうさ熵和かず复杂度ど（Perplexity）来らい衡量。交叉こうさ熵的意い义是用よう该模型がた对文本ほん识别的てき难度，或ある者もの从压缩的角度かくど来らい看み，每まい个词平均へいきん要用ようよう几个位い来らい编码。复杂度ど的てき意い义是用よう该模型がた表示ひょうじ这一文本平均的分支数，其倒数すう可か视为每ごと个词的てき平均へいきん概がい率りつ。平滑へいかつ是ぜ指ゆび对没观察到的てきN元もと组合赋予一いち个概率りつ值，以保证词序列じょれつ总能通どおり过语言げん模型もけい得え到いた一いち个概率りつ值。通常つうじょう使用しよう的てき平滑へいかつ技わざ术有图灵估计、删除插值平滑へいかつ、Katz平滑へいかつ和かずKneser-Ney平滑へいかつ。

搜索そうさく

连续语音识别中ちゅう的てき搜索そうさく，就是寻找一个词模型序列以描述输入语音信号，从而得え到いた词解码序列じょれつ。搜索そうさく所しょ依よ据すえ的てき是ぜ对公式しき中ちゅう的てき声こえ学がく模型もけい打だ分ぶん和わ语言模型もけい打だ分ぶん。在ざい实际使用しよう中ちゅう，往往おうおう要よう依よ据すえ经验给语言げん模型もけい加か上じょう一いち个高权重，并设置おけ一个长词惩罚分数。

Viterbi：基もと于动态规划的Viterbi算法さんぽう在ざい每まい个时间点上じょう的てき各かく个状态，计算解かい码状态序列じょれつ对观察序列じょれつ的てき后きさき验概率りつ，保留ほりゅう概がい率りつ最大さいだい的てき路ろ径みち，并在每ごと个节点てん记录下相おりあい应的状じょう态信息いき以便最さい后きさき反はん向こう获取词解码序列じょれつ。Viterbi算法さんぽう在ざい不ふ丧失最さい优解的てき条件下じょうけんか，同どう时解决了连续语音识别中ちゅうHMM模型もけい状じょう态序列じょれつ与あずか声こえ学がく观察序列じょれつ的てき非ひ线性时间对准、词边界かい检测和わ词的识别，从而使し这一算法成为语音识别搜索的基本策略。

由よし于语音おん识别对当前ぜん时间点てん之の后きさき的てき情じょう况无法ほう预测，基き于目标函数すう的てき启发式しき剪枝难以应用。由よし于Viterbi算法さんぽう的てき时齐特性とくせい，同どう一时刻的各条路径对应于同样的观察序列，因いん而具有ぐゆう可か比ひ性せい，束たばBeam搜索そうさく在ざい每まい一时刻只保留概率最大的前若干条路径，大幅おおはば度ど的てき剪枝提ひさげ高だか了りょう搜索そうさく的てき效率こうりつ。这一时齐Viterbi-Beam算法さんぽう是ぜ当とう前ぜん语音识别搜索そうさく中ちゅう最さい有效ゆうこう的てき算法さんぽう。 N-best搜索そうさく和わ多おお遍あまね搜索そうさく：为在搜索そうさく中ちゅう利用りよう各かく种知识源，通常つうじょう要よう进行多おお遍あまね搜索そうさく，第だい一遍使用代价低的知识源，产生一个候选列表或词候选网格，在ざい此基础上进行使用しよう代だい价高的てき知ち识源的てき第だい二遍搜索得到最佳路径。此前介かい绍的知ち识源有ゆう声ごえ学がく模型もけい、语言模型もけい和音わおん标词典てん，这些可か以用于第一いち遍へん搜索そうさく。为实现更高だか级的语音识别或ある口くち语理解りかい，往往おうおう要よう利用りよう一些代价更高的知识源，如4阶或5阶的N-Gram、4阶或更さら高だか的てき上下じょうげ文相ぶんしょう关模型がた、词间相しょう关模型がた、分段ぶんだん模型もけい或ある语法分析ぶんせき，进行重おも新しん打だ分ぶん。最新さいしん的てき实时大だい词表连续语音识别系けい统许多おお都と使用しよう这种多おお遍あまね搜索そうさく策略さくりゃく。

N-best搜索そうさく产生一いち个候选列表ひょう，在ざい每まい个节点てん要よう保留ほりゅうN条じょう最さい好このみ的てき路ろ径みち，会かい使し计算复杂度ど增加ぞうか到いたN倍ばい。简化的てき做法是ぜ只ただ保留ほりゅう每ごと个节点てん的てき若干じゃっかん词候选，但ただし可能かのう丢失次じ优候选。一个折衷办法是只考虑两个词长的路径，保留ほりゅうk条じょう。词候选网格かく以一种更紧凑的方式给出多候选，对N-best搜索そうさく算法さんぽう作さく相しょう应改动后可か以得到いた生成せいせい候こう选网格かく的てき算法さんぽう。

前ぜん向こう后きさき向こう搜索そうさく算法さんぽう是ぜ一个应用多遍搜索的例子。当とう应用简单知ち识源进行了りょう前ぜん向むこう的てきViterbi搜索そうさく后きさき，搜索そうさく过程中ちゅう得え到いた的てき前ぜん向こう概がい率りつ恰恰可か以用在ざい后きさき向こう搜索そうさく的てき目め标函数すう的てき计算中ちゅう，因いん而可以使用しよう启发式しき的てきA算法さんぽう进行后きさき向こう搜索そうさく，经济地ち搜索そうさく出でN条じょう候こう选。

系けい统实现

语音识别系けい统选择识别基元もと的てき要求ようきゅう是ぜ，有ゆう准じゅん确的定てい义，能のう得え到いた足あし够数据すえ进行训练，具有ぐゆう一般いっぱん性せい。英えい语通常つうじょう采さい用よう上下じょうげ文相ぶんしょう关的音素おんそ建けん模も，汉语的てき协同发音不ふ如英语严重じゅう，可か以采用よう音おん节建模も。系けい统所需的训练数すう据すえ大小だいしょう与あずか模型もけい复杂度ど有ゆう关。模型もけい设计得とく过于复杂以至于超出で了りょう所しょ提供ていきょう的てき训练数すう据すえ的てき能力のうりょく，会かい使し得とく性能せいのう急きゅう剧下降かこう。

听写机つくえ：大だい词汇量りょう、非ひ特定とくてい人じん、连续语音识别系けい统通常つうじょう称しょう为听写うつし机つくえ。其架构就是ぜ建立こんりゅう在ざい前述ぜんじゅつ声ごえ学がく模型もけい和わ语言模型もけい基もと础上的てきHMM拓つぶせ扑结构。训练时对每ごと个基元もと用よう前ぜん向こう后きさき向こう算法さんぽう获得模型もけい参さん数すう，识别时，将はた基もと元もと串くし接せっ成なり词，词间加か上じょう静しずか音おん模型もけい并引入にゅう语言模型もけい作さく为词间转移うつり概がい率りつ，形成けいせい循环结构，用ようViterbi算法さんぽう进行解かい码。针对汉语易えき于分割ぶんかつ的てき特とく点てん，先さき进行分割ぶんかつ再さい对每一段进行解码，是ぜ用よう以提高だか效率こうりつ的てき一いち个简化か方法ほうほう。

对话系けい统：用よう于实现人机つくえ口こう语对话的系けい统称为对话系统。受目前ぜん技わざ术所限げん，对话系けい统往往是面めん向こう一いち个狭窄きょうさく领域、词汇量りょう有限ゆうげん的てき系けい统，其题材ざい有ゆう旅たび游ゆう查询、订票、数かず据すえ库检索等とう等とう。其前端はし是ぜ一个语音识别器，识别产生的てきN-best候こう选或词候选网格かく，由ゆかり语法分析ぶんせき器き进行分析ぶんせき获取语义信しん息いき，再さい由よし对话管理かんり器き确定应答信しん息いき，由ゆかり语音合成ごうせい器き输出。由よし于目前まえ的てき系けい统往往おうおう词汇量りょう有限ゆうげん，也可以用提ひっさげ取ど关键词的方法ほうほう来らい获取语义信しん息いき。

自じ适应与強健きょうけん性せい

语音识别系けい统的性能せいのう受许多た因いん素的すてき影かげ响，包括ほうかつ不同ふどう的てき说话人じん、说话方式ほうしき、环境噪音、传输信道のぶみち等とう等とう。提ひさげ高だか系けい统強健きょうけん性せい，是ぜ要よう提ひさげ高だか系けい统克服こくふく这些因いん素もと影かげ响的能力のうりょく，使つかい系けい统在不同ふどう的てき应用环境、条件下じょうけんか性能せいのう稳定；自じ适应的てき目的もくてき，是ぜ根ね据すえ不同ふどう的てき影かげ响来源げん，自じ动地、有ゆう针对性せい地ち对系统进行ぎょう调整，在ざい使用しよう中ちゅう逐步提ひさげ高性能こうせいのう（其中以李开复博士はかせ的てき不ふ特定とくてい语音识别系けい统为例れい）。以下いか对影响系统性能せいのう的てき不同ふどう因いん素もと分ぶん别介绍解决办法ほう。

解かい决办法ほう按针对语音おん特とく征せい的てき方法ほうほう（以下いか称たたえ特とく征せい方法ほうほう）和かず模型もけい调整的てき方法ほうほう（以下いか称たたえ模型もけい方法ほうほう）分ぶん为两类。前者ぜんしゃ需要じゅよう寻找更さら好このみ的てき、高こう強健きょうけん性せい的てき特とく征せい参さん数すう，或ある是ぜ在ざい现有的てき特とく征せい参さん数すう基き础上，加入かにゅう一些特定的处理方法。后きさき者しゃ是ぜ利用りよう少量しょうりょう的てき自じ适应语料来らい修正しゅうせい或ある变换原はら有ゆう的てき说话人じん无关（SI）模型もけい，从而使し其成为说话人自じ适应（SA）模型もけい。

说话人じん自じ适应的てき特とく征せい方法ほうほう有ゆう说话人じん规一化和说话人子空间法，模型もけい方法ほうほう有ゆう贝叶斯方法ほう、变换法ほう和わ模型もけい合あい并法。

语音系けい统中的てき噪声，包括ほうかつ环境噪声和わ录音过程加入かにゅう的てき电子噪声。提ひさげ高だか系けい统鲁棒性せい的てき特とく征せい方法ほうほう包括ほうかつ语音增强ぞうきょう和わ寻找对噪声ごえ干ひ扰不敏感びんかん的てき特とく征せい，模型もけい方法ほうほう有ゆう并行模型もけい组合PMC方法ほうほう和わ在ざい训练中ちゅう人じん为加入かにゅう噪声。信道のぶみち畸变包括ほうかつ录音时话筒とう的てき距离、使用しよう不同ふどう灵敏度ど的てき话筒、不同ふどう增益ぞうえき的てき前まえ置おけ放ひ大和やまと不同ふどう的てき滤波器き设计等とう等とう。特とく征せい方法ほうほう有ゆう从倒谱矢量りょう中ちゅう减去其长时平均へいきん值和RASTA滤波，模型もけい方法ほうほう有ゆう倒たおせ谱平移うつり。

最大さいだい后きさき验概率りつ

最大さいだい後ご驗けん機き率りつ估計是ぜ後ご驗けん機き率りつ分布ぶんぷ的てき眾數。利用りよう最大さいだい後ご驗けん機き率りつ估計可か以獲得かくとく對たい實驗じっけん數すう據よりどころ中ちゅう無法むほう直接ちょくせつ觀かん察到的てき量的りょうてき點てん估計。它與最大さいだい似に然しか估計中ちゅう的てき經典きょうてん方法ほうほう有ゆう密みつ切きり關係かんけい，但ただし是ぜ它使用しよう了りょう一個增廣的優化目標，進しん一步考慮了被估計量的先驗機率分布。所以ゆえん最大さいだい後ご驗けん機き率りつ估計可か以看作さく是ぜ規則きそく化か的てき最大さいだい似に然しか估計。

以此為ため基礎きそ的てき自適じてき性せい方法ほうほう有ゆう以下いか特性とくせい：

越えつ大だい的てき調整ちょうせい測はか資し（adaptation data）可か以讓結果けっか越えつ接近せっきん理想りそう的てき客きゃく製せい化か模型もけい
當とう調整ちょうせい測はか資し（adaptation data）不足ふそく時じ，無法むほう顯著けんちょ提ひさげ升ます模型もけい的てき精せい準じゅん度ど

最大さいだい似に然しか線せん性せい回歸かいき

最大さいだい似に然しか線せん性せい回歸かいき（Maximum Likelihood Linear Regression (MLLR)）是ぜ一種基於詞網的最大似然線性回歸（Lattice-MLLR）無む監督かんとく自適じてき應おう算法さんぽう,並なみ進行しんこう了りょう改あらため進しん。是ぜ一種基於變換的方法，對數たいすう據よりどころ量りょう依賴いらい較小，常用じょうよう於數據よりどころ量りょう較少的てき情況じょうきょう或ある進行しんこう快速かいそく自適じてき應おう。

一種基於詞網的最大似然線性回歸（Lattice-MLLR）無む監督かんとく自適じてき應おう算法さんぽう,並なみ進行しんこう了りょう改あらため進しん。 Lattice-MLLR是ぜ根據こんきょ解かい碼得到いた的てき詞し網もう估計MLLR變換へんかん參さん數すう,詞し網もう的てき潛在せんざい誤あやま識率遠とお小しょう於識別べつ結果けっか,因いん此可以使參さん數すう估計更さら為ため準じゅん確かく。 Lattice-MLLR的てき一個很大的缺點是計算量極大,較難實用じつよう。MLLR 是ぜ一種基於變換的方法，對數たいすう據よりどころ量りょう依賴いらい較小，常用じょうよう於數據よりどころ量りょう較少的てき情況じょうきょう或ある進行しんこう快速かいそく自適じてき應おう。

以此為ため基礎きそ的てき自適じてき性せい方法ほうほう有ゆう以下いか特性とくせい：

在ざい少量しょうりょう的てき調整ちょうせい測はか資し（adaptation data）可か以顯著ちょ提ひさげ升ます模型もけい的てき精せい準じゅん度ど
當とう調整ちょうせい測はか資し（adaptation data）達たち到いた一定いってい量りょう後ご，精せい準じゅん度ど的てき提ひさげ升ます會かい進入しんにゅう飽和ほうわ狀態じょうたい，有明ありあけ顯あらわ的てき效率こうりつ上うえ界かい

而最大さいだい似に然しか線せん性せい回歸かいき（Maximum Likelihood Linear Regression(MLLR) ）也有やゆう許多きょた變形へんけい。其中區く塊かたまり對たい角かく最大さいだい似に然しか線せん性せい回歸かいき（block-diagonal Maximum Likelihood Linear Regression(MLLR)）可か以再更さら少量しょうりょう的てき調整ちょうせい測はか資し下か提つつみ升ます更さら大だい的てき精せい準じゅん度ど，然しか而其進入しんにゅう準じゅん度ど的てき飽和ほうわ狀態じょうたい也更快かい，精せい準じゅん度ど上限じょうげん也更低ひく。

綜合そうごう以上いじょう，端はし視し調整ちょうせい測はか資し（adaptation data）的てき多寡たか，可か以選擇せんたく適當てきとう的てき方法ほうほう，讓ゆずる模型もけい的てき精せい準じゅん度ど最高さいこう。

参まいり见

参考さんこう文献ぶんけん

^ 語かたり音おん輸入ゆにゅう法ほう
^ 5.1 Automatic Speech Recognition (ASR) History, www.icsi.berkeley.edu/eecs225d/spr95/lecture05.ps.gz
^ Davis, Biddulph and Balashek Automatic Recognition of Spoken Digits, Journal of the Acoustical Society of America Vol 24 No 6, November 1952
^ Automatic Speech Recognition: The Development of the Sphinx Recognition System KF Lee, R Reddy - 1988 - Kluwer Academic Publishers Norwell, MA, USA

外部がいぶ链接

[1]（页面存そん档备份，存そん于互联网档案あん馆） - CMU Sphinx 最早もはや的てき语音识别软件
[2]（页面存そん档备份，存そん于互联网档案あん馆） - HTK 由よし剑桥大学だいがく开发的てき一套完备的语音识别系统
simon（页面存そん档备份，存そん于互联网档案あん馆） - 一个开源的语音识别软件
[3]（页面存そん档备份，存そん于互联网档案あん馆） - 灵云开发者しゃ社しゃ区く，提供ていきょう免めん费及商用しょうよう的てき语音识别SDK

[1] 語かたり音おん輸入ゆにゅう法ほう

[2] 5.1 Automatic Speech Recognition (ASR) History, www.icsi.berkeley.edu/eecs225d/spr95/lecture05.ps.gz

[3] Davis, Biddulph and Balashek Automatic Recognition of Spoken Digits, Journal of the Acoustical Society of America Vol 24 No 6, November 1952

[4] Automatic Speech Recognition: The Development of the Sphinx Recognition System KF Lee, R Reddy - 1988 - Kluwer Academic Publishers Norwell, MA, USA

[1]

[2]

[3]

[4]