(Translated by https://www.hiragana.jp/)
語音辨識 - 维基百科,自由的百科全书

かたりおんべん

ios鍵盤けんばんおん輸入ゆにゅうほう むぎかつふう

语音识别(speech recognition)わざ术,也被しょう动语おん识别英語えいごAutomatic Speech Recognition, ASR)、電腦でんのうおん識別しきべつ英語えいごComputer Speech Recognitionあるかたりおんうたてぶんほん識別しきべつ英語えいごSpeech To Text, STT,其目标是以電腦でんのう自動じどう将人まさと类的语音内容ないよう转换为相おうてき文字もじあずか说话じん识别えいSpeaker recognition说话じん确认不同ふどうきさきしゃ尝试识别ある确认发出语音てき说话じん而非其中しょ包含ほうがんてき词汇内容ないよう

语音识别わざ术的应用包括ほうかつ语音拨号、语音导航、室内しつない设备ひかえせい语音ぶん档检さく、简单てき听写すうすえ录入とう。语音识别わざ术与其他自然しぜん语言处理わざ术如つくえこぼし语音合成ごうせいわざ术相结合,以构けんさら复杂てき应用,れい如语おんいた语音てきこぼし译。[1]

语音识别わざ术所わたる及的领域包括ほうかつ信号しんごう处理しき识别がいりつしんいき、发声つくえ听觉つくえ人工じんこう智能ちのうひとしひとし

历史

编辑

ざい计算つくえ发明まえ动语おん识别てき设想就已经被ひさげうえりょう议事日程にってい早期そうきてきこえ码器视作语音识别及合成ごうせいてき雏形。而1920年代ねんだいせい产的「Radio Rex」玩具おもちゃいぬ最早もはやてき语音识别とう这只いぬてき名字みょうじよび唤的时候,它能够从そこじょう出来でき[2]最早もはやてきもと于电计算つくえてき语音识别けい统是よしAT&T贝尔实验しつ开发てきAudrey语音识别けい统,它能够识别10个英文えいぶん数字すうじ。其识别方ほう跟踪语音ちゅうてき共振きょうしんほう。该系统得いたりょう98%てきせい确率。[3]いた1950年代ねんだいまつ,伦敦学院がくいん(Colledge of London)てきDenesやめ经将语法がいりつ加入かにゅう语音识别ちゅう

1960年代ねんだい人工じんこうしん经网络被引入りょう语音识别。这一时代的两大突破是线性预测编码Linear Predictive Coding (LPC), 及动态时间规整Dynamic Time Warpわざ术。

语音识别わざ术的さい重大じゅうだい突破とっぱ隐含马尔おっと模型もけいHidden Markov Modelてき应用。从Baum提出ていしゅつしょう关数がく推理すいり,经过Rabinerとう人的じんてき研究けんきゅう卡内もとうめたかし大学だいがくてき开复さい终实现了だい一个基于隐马尔科夫模型的大词汇量语音识别系统Sphinx[4]。此后严格らい说语おん识别わざ术并ぼつゆうだつ离HMMかまち

2012ねんほろ研究けんきゅういんてき俞栋邓力とうひと提出ていしゅつりょう上下じょうげ文相ぶんしょう关的深度しんどしん经网络与隐马尔可おっと模型もけい融合ゆうごうてきこえがく模型もけい(CD-DNN-HMM),性能せいのういたりょう很大ひさげます。2011 ねんたん尔·发布Kaldi语音识别工具こうぐつつみとくいた广泛应用。

近年きんねんらいまた兴起りょうもとはし对端(End-to-End,E2E)てき语音识别方案ほうあん

つきかん年来ねんらい研究けんきゅうじん员一ちょく尝试はた“听写つくえ”推广,语音识别わざ术在目前もくぜん还无ほう支持しじ无限领域,无限说话人的じんてき听写つくえ应用。

模型もけい

编辑

目前もくぜん主流しゅりゅうてきだい词汇りょう语音识别けい统多さいよう统计しき识别わざ术。典型てんけいてきもと于统计模しき识别方法ほうほうてき语音识别けい统由以下いか几个基本きほん块所构成:

  • 信号しんごう处理及特せいひっさげ块。该模块的主要しゅようにん务是从输入信にゅうしんごうちゅうひっさげとくせいきょうごえがく模型もけい处理。どう时,它一般也包括了一些信号处理技术,以尽可能かのうくだてい环境噪声、信道のぶみち、说话じんとういんもと对特せい造成ぞうせいてきかげ响。
  • こえがく模型もけい典型てんけいけい统多さいようもと于一阶隐马尔科夫模型进行建模。
  • 发音词典。发音词典包含ほうがんけい统所のう处理てき词汇しゅう及其发音。发音词典实际提供ていきょうりょうごえがく模型もけいけん单元あずか语言模型もけいけん单元间的うつしゃ
  • 语言模型もけい。语言模型もけい对系统所针对てき语言进行けん论上,包括ほうかつせい则语ごと上下じょうげぶん无关文法ぶんぽうざい内的ないてきかく种语げん模型もけい以作为语げん模型もけいただし目前もくぜんかく种系统普遍ふへんさいようてき还是もと于统计的Nもと文法ぶんぽう及其变体。
  • かい码器かい码器语音识别けい统的核心かくしんいち,其任务是对输いれてき信号しんごうすえごえがく、语言模型もけい及词てん,寻找のう够以最大さいだいがいりつ输出该信ごうてき词串。

从数がく角度かくど以更清楚せいそてき了解りょうかい上述じょうじゅつ块之间的关系。くびさき,统计语音识别てきさい基本きほん问题,给定输入信号しんごうあるとくせい序列じょれつ 符号ふごうしゅう(词典) もとめかい符号ふごうくし 使つかいとく

 

つう贝叶斯公しきうえしき以改うつし

 

よし于对于确じょうてき输入くし  确定てきいん省略しょうりゃく它并かいかげ响上しきてきさい终结はていん此,一般来说语音识别所讨论的问题可以用下面的公式来表示,以将它称为语おん识别てき基本きほん公式こうしき 

从这个角らい信号しんごう处理提供ていきょうりょう对输入信にゅうしんごうてき预处,也就说,提供ていきょうりょう从采しゅうてき语音信号しんごう(记为 )いた とくせい序列じょれつ てきうつ 。而声がく模型もけい本身ほんみてい义了一些更具推广性的声学建模单元 ,并且提供ていきょうりょうざい给定输入とくせい,估计 てき方法ほうほう

为了はたこえがく模型もけいけん单元くし うついた符号ふごうしゅう ,就需よう发音词典发挥作用さよう。它实际上てい义了うつ てきうつしゃ。为了表示ひょうじ方便ほうべん,也可以定义一个由 いた てき全集ぜんしゅう てきふえ卡尔积,而发おん词典 则是这个ふえ卡尔积的いち个子しゅう。并且ゆう

 

さいきさき,语言模型もけい提供ていきょうりょう 。这样,基本きほん公式こうしき就可以更具体ぐたいてきうつしなり

 

对于かい码器らい说,就是ようざいゆかり , , 以及时间标度 张成てき搜索そうさくそら间中,找到うえしきしょゆびあかりてき 

けい统构なり

编辑

こえがくとくせい

编辑

こえがくとくせいてきひっさげあずか选择语音识别てきいち个重よう环节。こえがくとくせいてきひっさげすんで一个信息大幅度压缩的过程,也是一个信号解卷过程,目的もくてき使しき划分のうさら好地こうち划分。

よし于语音信いんしんごうてき时变特性とくせいとくせいひっさげ必须ざい一小段语音信号上进行,也即进行たん分析ぶんせき。这一段被认为是平稳的分析区间称之为帧,帧与帧之间的へんうつり通常つうじょう帧长てき1/2ある1/3。通常つうじょうよう对信ごう进行预加重かじゅう以提ますだか频,对信ごうまど以避めんたん时语おんだん边缘てきかげ响。

常用じょうようてき一些声学特征

编辑
  • 线性预测けいすう(Linear Predictive Coefficient,LPC):线性预测分析ぶんせき从人てき发声つくえ入手にゅうしゅつう过对ごえどうてきたんかん级联模型もけいてき研究けんきゅう,认为けい统的传递函数かんすう符合ふごうぜん极点数字すうじ滤波てき形式けいしき,从而n时刻てき信号しんごう以用ぜん若干じゃっかん时刻てき信号しんごうてき线性组合らい估计。つう过使实际语音てきさい样值线性预测さい样值间达いたひとしかた最小さいしょうLMS,そくいた线性预测けいすうLPC。对LPCてき计算方法ほうほうゆうあい关法(とく宾Durbinほう)、协方ほうかくがたほうとうとう。计算じょうてき快速かいそく有效ゆうこう证了这一声学特征的广泛使用。あずかLPC这种预测さんすう模型もけい类似てきこえがくとくせい还有线谱对LSP、反射はんしゃけいすうとうとう
  • たおせ谱系すう利用りようどう态处方法ほうほう,对语音信いんしんごうもとめ离散でんたてかのう变换DFTきさき对数,さいもとめはん变换iDFT就可いたたおせ谱系すう。对LPCたおせ谱(LPCCEP),ざい获得滤波てき线性预测けいすうきさき以用一个递推公式计算得出。实验表明ひょうめい使用しようたおせ谱可以提だかとくせいさんすうてき稳定せい
  • うめ尔频りつたおせ谱系すう(Mel-Frequency Cepstral Coefficients,MFCCs)感知かんち线性预测(Perceptual Linear Predictive,PLP):不同ふどう于LPCとうどおり过对人的じんてき发声つくえてき研究けんきゅう而得いたてきこえがくとくせい,Melたおせ谱系すうMFCC感知かんち线性预测PLP受人てき听觉けい研究けんきゅう成果せいか推动而导てきこえがくとくせい。对人てき听觉つくえてき研究けんきゅう发现,とう两个频率相近すけちかてきおと调同时发时,にんただのう听到いち个音调。临界带宽ゆびてき就是这样一种令人的主观感觉发生突变的带宽边界,とう两个おん调的频率しょう于临かい带宽时,にん就会两个おん调听なりいち个,这称为屏蔽效应。Melこく对这一临界带宽的度量方法之一。

MFCCてき计算くびさきようFFTはた时域信号しんごう化成かせい频域これきさき对其对数のうりょう谱用あきらMelこく分布ぶんぷてき三角さんかく滤波组进ぎょうまきさいきさき对各个滤なみてき输出构成てきむこうりょう进行离散余弦よげん变换DCT,取前とりまえN个系すう。PLP仍用とく宾法计算LPCさんすうただしざい计算あいまいりすう时用てき也是对听觉激励げきれいてき对数のうりょう谱进ぎょうDCTてき方法ほうほう

ちゅうぶんごえがく特徵とくちょう

编辑

以國發音はつおんためれいわが們會しょう一個字的發音切割成兩個部分,分別ふんべつごえはは(initials)あずかいんはは(finals)。而在發音はつおんてき過程かていなかこえはは轉變てんぺんいたりいんはは一個漸進而非瞬間的改變,いん此我使用しよう右文ゆうぶん相關そうかんごえいんははしき(Right-Context-Dependent Initial Final, RCDIF)作為さくい分析ぶんせき方法ほうほう以更せいじゅんてきべん識出正確せいかくてき音節おんせつ(syllable)。

根據こんきょごえははてき不同ふどう特徵とくちょうまた以將ごえははぶんため下面かめんよんるい

 
ひだり:ㄅこれしき みぎ:ㄆこれしき

發音はつおんくちばしくちびる緊閉吐出としゅつ氣流きりゅう製造せいぞう類似るいじ爆破ばくはてき聲音こわね。其聲おん震幅しんぷく變化へんかかいさきくだ至極しごくしょう值後(代表だいひょうくちばしくちびる緊閉)ざいきゅうげきじょうます,而端いやゆう持續じぞくおく,倘若ゆう持續じぞくおく(aspirated),のり震幅しんぷく可能かのうかいゆういちなみほうわか(un-aspirated)のりざいなみほうこれ震幅しんぷくしょうゆうしょ下降かこう。如:ㄆあずか便びん前述ぜんじゅつてき關係かんけい,ㄆゆう持續じぞくおく,而ㄅすなわちみぎひだりためㄅ,みぎみぎためㄆ。


發音はつおん舌頭ぜっとう緊貼かた腭,形成けいせい狹窄きょうさくてきどおりどう氣流きりゅう通過つうか造成ぞうせい湍流發生はっせい摩擦まさつゆかり發出はっしゅつごえひびきよし摩擦音まさつおん透過とうか穩定輸出ゆしゅつ氣流きりゅう使つかいとく聲音こわね震幅しんぷく變化へんかしょう較於爆破ばくはおん變化へんかはば較小。如ㄏ、ㄒとうみなため摩擦音まさつおん

此類がたてき發聲はっせい模型もけいけん爆破ばくはおんあずか摩擦音まさつおんてき發聲はっせい特性とくせい。其主よう發聲はっせい構造こうぞう如同摩擦音まさつおんよし舌頭ぜっとう緊貼かた腭使氣流きりゅう通過つうかさんせい摩擦まさつてき聲音こわね。而其どおりどうさら緊密きんみつ使つかいとく氣流きりゅうかいざい瞬間しゅんかん衝出,さん生出おいで如同爆破ばくはおん般的特徵とくちょう。如:ㄑ、ㄔとう

 
鼻音びおん(ㄋ)特徵とくちょう

發音はつおん,軟腭會下えげあつしもあつゆかり氣管きかん吐出としゅつてき氣流きりゅう阻塞,無法むほう進入しんにゅう口腔こうくういん而轉往鼻腔びこう。也因此鼻腔與口腔こうくうかいさんせい共振きょうしん,如右てきしきじょう以明あらわいたれいてん(formants)ぶん佈有共振きょうしんてき現象げんしょう,而這さまてき共振きょうしん現象げんしょうざい右文ゆうぶん相關そうかんごえいんははしき(Right-Context-Dependent Initial Final, RCDIF)しもあずかいんはは倆相たい較下さらあかりあらわよし此,此一現象可作為辨識鼻音(Nasal)てき重要じゅうよう依據いきょいちみぎ便びんため鼻音びおんこれ特徵とくちょう,其中べにてん便びんためれいてん(formants)

而韻ははまたゆうそう母音ぼいんたん母音ぼいんこれぶんはしさい發生はっせいいやゆう音調おんちょうてき改變かいへん。而根據こんきょ聲帶せいたい振動しんどうあずかいやまたぶんため清音せいおん(unvoiced:聲帶せいたい震動しんどうとう差異さい以上いじょう發音はつおん不同ふどうてき方式ほうしきざいしき圖上ずじょうだい多可たか以找到相對そうたいおうてき特徵とくちょう透過とうか處理しょり二維的時頻圖,藉由傳統でんとう影像えいぞう處理しょりてき方式ほうしきたちいたおとべん識的目的もくてき


なか文子ふみこ母音ぼいん特徵とくちょう

编辑

ちゅうぶんうら共有きょうゆう21個いっこ子音しいん:ㄅ ㄆ ㄇ ㄈ ㄉ ㄊ ㄋ ㄌ ㄍ ㄎ ㄏ ㄐ ㄑ ㄒ ㄓ ㄔ ㄕ ㄖ ㄗ ㄘ ㄙ

16母音ぼいん:ㄚ ㄛ ㄜ ㄝ ㄞ ㄟ ㄠ ㄡ ㄢ ㄣ ㄤ ㄥ ㄦ ㄧ ㄨ ㄩ

母音ぼいんてき形成けいせい脣形而定,而子おん口腔こうくうある鼻腔びこうちゅうぼう些部はた氣流きりゅう暫時ざんじじゅうひらき形成けいせいてきいん此:

子音しいんてきのうりょう較小、しきりつへんだか時間じかんへんたんだい出現しゅつげんざい母音ぼいんまえ

母音ぼいんてきのうりょう較大、しきりつへんていあいだへんちょう出現しゅつげんざい子音しいんある獨立どくりつ出現しゅつげん

母音ぼいん這樣てき差異さい以在しき圖上ずじょう很容えきてきけんしょうなみ且用這個差異さいらい進行しんこう簡單かんたんてき母音ぼいんべん識。

 
vowel_voice_123.png

よしうえ發現はつげん子音しいんてき振幅しんぷくへんしょう母音ぼいんてき振幅しんぷく比較ひかくだい。以「請」ためれいだいいち子音しいんてき振幅しんぷく較小,ちょくいた母音ぼいんいち出現しゅつげんこれ振幅しんぷくざいあかりあらわへんだい

ただし如果出現しゅつげんそう母音ぼいんてきれい如:いちㄡ),振幅しんぷくかいいちちょく很大,しるべ致音あずかおとあいだてき分界ぶんかい清楚せいそ,這時就比較ひかくなん單純たんじゅんよう振幅しんぷくらい判斷はんだんおんてき變化へんか

こえがく模型もけい

编辑

语音识别けい统的模型もけい通常つうじょうよしごえがく模型もけい语言模型もけい部分ぶぶん组成,ふん别对应于语音いたおとがいりつてき计算和音わおん节到がいりつてき计算。ほん节和一节分别介绍声学模型和语言模型方面的技术。

HMMごえがくけん马尔おっと模型もけいてき概念がいねん一个离散时域有限ゆうげんじょう态自动机隐马尔可おっと模型もけいHMMゆび这一马尔可夫模型的内部状态外界不可见,外界がいかいただのういたかく个时こくてき输出值。对语おん识别けい统,输出值通常つうじょう就是从各个帧计算而得てきこえがくとくせいようHMMこく语音信号しんごう需作两个かり设,一是内部状态的转移只与上一状态有关,另一是输出值只与当前状态(あるとうまえてきじょう态转うつりゆう关,这两个假设大だいくだていりょう模型もけいてき复杂。HMMてき评估、かい码和训练しょう应的算法さんぽうぜんこう算法さんぽう、Viterbi算法さんぽうぜんこうきさきこう算法さんぽう

语音识别ちゅう使用しようHMM通常つうじょうよう从左こうみぎ单向、带自环、带跨えつてきつぶせ扑结构らい对识别基もとけん,一个音素就是一个三至五状态的HMM,一个词就是构成词的多个音素的HMMくしゆきおこしらい构成てきHMM,而连续语おん识别てきせい个模がた就是词和せいおん组合おこりらいてきHMM。 上下じょうげ文相ぶんしょう关建:协同发音,ゆびてき一个音受前后相邻音的影响而发生变化,从发ごえつくえじょう就是人的じんてき发声器官きかんざい一个音转向另一个音时其特性只能渐变,从而使とくきさき一个音的频谱与其他条件下的频谱产生差异。上下じょうげ文相ぶんしょう关建方法ほうほうざいけん时考虑了这一かげ响,从而使模型もけいのうさらじゅん确地描述语音,ただこう虑前一音的影响的称为Bi-Phone,こう虑前一音和后一音的影响的称为Tri-Phone。

えい语的上下じょうげ文相ぶんしょう关建通常つうじょう以音もと为基もとゆかり于有些音もと对其きさき音素おんそてきかげ响是相似そうじてきいん而可以通过音もとかい码状态的聚类进行模型もけいさんすうてきどもとおる。聚类てき结果しょう为senone。决策树もちいらい实现だかこうてきtriphone对senoneてき对应,つう回答かいとう一系列前后音所属类别(もと/辅音、きよし/浊音とうとうてき问题,さい终确てい其HMMじょう态应使用しよう哪个senone。ぶん类回归树CART模型もけいよう以进ぎょう词到音素おんそてき发音标注。

语言模型もけい

编辑

语言模型もけい主要しゅようぶん规则模型もけい统计模型もけい两种。统计语言模型もけいようがいりつ统计てき方法ほうほうらい揭示けいじ语言单位内在ないざいてき统计规律,其中nもと语法简单有效ゆうこう广泛使用しよう

nもと语法:该模がたもと于这样一种假设,だいn个词てき现只あずか前面ぜんめんN-1个词しょう关,而与其它にんなん词都あい关,せいてきがいりつ就是かく个词现概りつてきじょう积。这些がいりつ以通过直接ちょくせつ从语りょうちゅう统计N个词どう时出现的すうとくいたよし于计さんりょうたいだい,N一般取值不会很大,常用じょうようてき二元にげん语法(Bi-Gram)さんげん语法(Tri-Gram)。

语言模型もけいてき性能せいのうどおり常用じょうよう交叉こうさかず复杂(Perplexity)らい衡量。交叉こうさ熵的义是よう该模がた对文ほん识别てき难度,あるもの从压缩的角度かくどらいまい个词平均へいきん要用ようよう几个らい编码。复杂てき义是よう该模がた表示ひょうじ这一文本平均的分支数,其倒すう视为ごと个词てき平均へいきんがいりつ平滑へいかつゆび对没观察到てきNもと组合赋予いち个概りつ值,以保证词序列じょれつ总能どおり过语げん模型もけいいたいち个概りつ值。通常つうじょう使用しようてき平滑へいかつわざ术有图灵估计、删除插值平滑へいかつKatz平滑へいかつかずKneser-Ney平滑へいかつ

搜索そうさく

编辑

连续语音识别ちゅうてき搜索そうさく,就是寻找一个词模型序列以描述输入语音信号,从而いた词解码序列じょれつ搜索そうさくしょすえてき对公しきちゅうてきこえがく模型もけいぶん语言模型もけいぶんざい实际使用しようちゅう往往おうおうようすえ经验给语げん模型もけいじょういち个高权重,并设おけ一个长词惩罚分数。

Viterbi:もと于动态规划的Viterbi算法さんぽうざいまい个时间点じょうてきかく个状态,计算かい码状态序列じょれつ对观察序列じょれつてききさき验概りつ保留ほりゅうがいりつ最大さいだいてきみち,并在ごと个节てん记录下相おりあい应的じょう态信いき以便さいきさきはんこう获取词解码序列じょれつ。Viterbi算法さんぽうざい丧失さい优解てき条件下じょうけんかどう时解决了连续语音识别ちゅうHMM模型もけいじょう序列じょれつあずかこえがく观察序列じょれつてき线性时间对准、词边かい检测词的识别,从而使这一算法成为语音识别搜索的基本策略。

よし于语おん识别对当ぜん时间てんきさきてきじょう况无ほう预测,于目标函すうてき启发しき剪枝难以应用。よし于Viterbi算法さんぽうてき时齐特性とくせいどう一时刻的各条路径对应于同样的观察序列,いん具有ぐゆうせいたばBeam搜索そうさくざいまい一时刻只保留概率最大的前若干条路径,大幅おおはばてき剪枝ひさげだかりょう搜索そうさくてき效率こうりつ。这一时齐Viterbi-Beam算法さんぽうとうぜん语音识别搜索そうさくちゅうさい有效ゆうこうてき算法さんぽう。 N-best搜索そうさくおおあまね搜索そうさく:为在搜索そうさくちゅう利用りようかく种知识源,通常つうじょうよう进行おおあまね搜索そうさくだい一遍使用代价低的知识源,产生一个候选列表或词候选网格,ざい此基础上进行使用しようだい价高てき识源てきだい二遍搜索得到最佳路径。此前かい绍的识源ゆうごえがく模型もけい、语言模型もけい和音わおん标词てん,这些以用于第いちへん搜索そうさく。为实现更だか级的语音识别あるくち理解りかい往往おうおうよう利用りよう一些代价更高的知识源,如4阶或5阶的N-Gram、4阶或さらだかてき上下じょうげ文相ぶんしょう关模がた、词间しょう关模がた分段ぶんだん模型もけいある语法分析ぶんせき,进行おもしんぶん最新さいしんてき实时だい词表连续语音识别けい统许おお使用しよう这种おおあまね搜索そうさく策略さくりゃく

N-best搜索そうさく产生いち个候选列ひょうざいまい个节てんよう保留ほりゅうNじょうさいこのみてきみちかい使计算复杂增加ぞうかいたNばい。简化てき做法ただ保留ほりゅうごと个节てんてき若干じゃっかん词候选,ただし可能かのう丢失优候选。一个折衷办法是只考虑两个词长的路径,保留ほりゅうkじょう。词候选网かく以一种更紧凑的方式给出多候选,对N-best搜索そうさく算法さんぽうさくしょう应改动后以得いた生成せいせいこう选网かくてき算法さんぽう

ぜんこうきさきこう搜索そうさく算法さんぽう一个应用多遍搜索的例子。とう应用简单识源进行りょうぜんむこうてきViterbi搜索そうさくきさき搜索そうさく过程ちゅういたてきぜんこうがいりつ恰恰以用ざいきさきこう搜索そうさくてき标函すうてき计算ちゅういん而可以使用しよう启发しきてきA算法さんぽう进行きさきこう搜索そうさく,经济搜索そうさくNじょうこう选。

けい统实现

编辑

语音识别けい统选择识别基もとてき要求ようきゅうゆうじゅん确的てい义,のういたあし够数すえ进行训练,具有ぐゆう一般いっぱんせいえい通常つうじょうさいよう上下じょうげ文相ぶんしょう关的音素おんそけん,汉语てき协同发音如英语严じゅう以采ようおん节建けい统所需的训练すうすえ大小だいしょうあずか模型もけい复杂ゆう关。模型もけい设计とく过于复杂以至于超りょうしょ提供ていきょうてき训练すうすえてき能力のうりょくかい使とく性能せいのうきゅう下降かこう

听写つくえだい词汇りょう特定とくていじん、连续语音识别けい通常つうじょうしょう为听うつしつくえ。其架构就建立こんりゅうざい前述ぜんじゅつごえがく模型もけい语言模型もけいもと础上てきHMMつぶせ扑结构。训练时对ごと个基もとようぜんこうきさきこう算法さんぽう获得模型もけいさんすう,识别时,はたもともとくしせっなり词,词间じょうしずかおん模型もけい并引にゅう语言模型もけいさく为词间转うつりがいりつ形成けいせい循环结构,ようViterbi算法さんぽう进行かい码。针对汉语えき分割ぶんかつてきとくてんさき进行分割ぶんかつさい对每一段进行解码,よう以提だか效率こうりつてきいち个简方法ほうほう

对话けい统:よう于实现人つくえこう语对话的けい统称为对话系统。受目ぜんわざ术所げん,对话けい统往往是めんこういち狭窄きょうさく领域、词汇りょう有限ゆうげんてきけい统,其题ざいゆうたびゆう查询、订票、かずすえ检索とうとう。其前はし一个语音识别器,识别产生てきN-bestこう选或词候选网かくゆかり语法分析ぶんせき进行分析ぶんせき获取语义しんいきさいよし对话管理かんり确定应答しんいきゆかり语音合成ごうせい输出。よし于目まえてきけい往往おうおう词汇りょう有限ゆうげん,也可以用ひっさげ关键词的方法ほうほうらい获取语义しんいき

适应与強健きょうけんせい

编辑

语音识别けい统的性能せいのう受许いん素的すてきかげ响,包括ほうかつ不同ふどうてき说话じん、说话方式ほうしき、环境噪音、传输信道のぶみちとうとうひさげだかけい強健きょうけんせいようひさげだかけい克服こくふく这些いんもとかげ响的能力のうりょく使つかいけい统在不同ふどうてき应用环境、条件下じょうけんか性能せいのう稳定;适应てき目的もくてきすえ不同ふどうてきかげ响来げん动地、ゆう针对せい对系统进ぎょう调整,ざい使用しようちゅう逐步ひさげ高性能こうせいのう(其中以李开复博士はかせてき特定とくてい语音识别けい统为れい)。以下いか对影响系统性能せいのうてき不同ふどういんもとぶん别介绍解决办ほう

かい决办ほう按针对语おんとくせいてき方法ほうほう以下いかたたえとくせい方法ほうほうかず模型もけい调整てき方法ほうほう以下いかたたえ模型もけい方法ほうほうぶん为两类。前者ぜんしゃ需要じゅよう寻找さらこのみてきこう強健きょうけんせいてきとくせいさんすうあるざい现有てきとくせいさんすう础上,加入かにゅう一些特定的处理方法。きさきしゃ利用りよう少量しょうりょうてき适应语料らい修正しゅうせいある变换はらゆうてき说话じん无关(SI)模型もけい,从而使其成为说话人适应(SA)模型もけい

说话じん适应てきとくせい方法ほうほうゆう说话じん规一化和说话人子空间法,模型もけい方法ほうほうゆう贝叶斯方ほう、变换ほう模型もけいあい并法。

语音けい统中てき噪声,包括ほうかつ环境噪声录音过程加入かにゅうてき电子噪声。ひさげだかけい鲁棒せいてきとくせい方法ほうほう包括ほうかつ语音增强ぞうきょう寻找对噪ごえ扰不敏感びんかんてきとくせい模型もけい方法ほうほうゆう并行模型もけい组合PMC方法ほうほうざい训练ちゅうじん加入かにゅう噪声。信道のぶみち畸变包括ほうかつ录音时话とうてき距离、使用しよう不同ふどう灵敏てき话筒、不同ふどう增益ぞうえきてきまえおけ大和やまと不同ふどうてき滤波设计とうとうとくせい方法ほうほうゆう从倒谱矢りょうちゅう减去其长时平均へいきん值和RASTA滤波,模型もけい方法ほうほうゆうたおせ谱平うつり

最大さいだいきさき验概りつ

编辑

最大さいだいけんりつ估計けんりつ分布ぶんぷてき眾數。利用りよう最大さいだいけんりつ估計獲得かくとくたい實驗じっけんすうよりどころちゅう無法むほう直接ちょくせつかん察到てき量的りょうてきてん估計。它與最大さいだいしか估計ちゅうてき經典きょうてん方法ほうほうゆうみつきり關係かんけいただし使用しようりょう一個增廣的優化目標,しん一步考慮了被估計量的先驗機率分布。所以ゆえん最大さいだいけんりつ估計以看さく規則きそくてき最大さいだいしか估計。

以此ため基礎きそてき自適じてきせい方法ほうほうゆう以下いか特性とくせい

  • えつだいてき調整ちょうせいはか(adaptation data)以讓結果けっかえつ接近せっきん理想りそうてききゃくせい模型もけい
  • とう調整ちょうせいはか(adaptation data)不足ふそく無法むほう顯著けんちょひさげます模型もけいてきせいじゅん

最大さいだいしかせんせい回歸かいき

编辑

最大さいだいしかせんせい回歸かいき(Maximum Likelihood Linear Regression (MLLR))一種基於詞網的最大似然線性回歸(Lattice-MLLR)監督かんとく自適じてきおう算法さんぽう,なみ進行しんこうりょうあらためしん一種基於變換的方法,對數たいすうよりどころりょう依賴いらい較小,常用じょうよう於數よりどころりょう較少てき情況じょうきょうある進行しんこう快速かいそく自適じてきおう

一種基於詞網的最大似然線性回歸(Lattice-MLLR)監督かんとく自適じてきおう算法さんぽう,なみ進行しんこうりょうあらためしん。 Lattice-MLLR根據こんきょかい碼得いたてきもう估計MLLR變換へんかんさんすう,もうてき潛在せんざいあやま識率とおしょう於識べつ結果けっか,いん此可以使さんすう估計さらためじゅんかく。 Lattice-MLLRてき一個很大的缺點是計算量極大,較難實用じつよう。MLLR 一種基於變換的方法,對數たいすうよりどころりょう依賴いらい較小,常用じょうよう於數よりどころりょう較少てき情況じょうきょうある進行しんこう快速かいそく自適じてきおう

以此ため基礎きそてき自適じてきせい方法ほうほうゆう以下いか特性とくせい

  • ざい少量しょうりょうてき調整ちょうせいはか(adaptation data)以顯ちょひさげます模型もけいてきせいじゅん
  • とう調整ちょうせいはか(adaptation data)たちいた一定いっていりょうせいじゅんてきひさげますかい進入しんにゅう飽和ほうわ狀態じょうたい有明ありあけあらわてき效率こうりつうえかい

最大さいだいしかせんせい回歸かいき(Maximum Likelihood Linear Regression(MLLR) )也有やゆう許多きょた變形へんけい。其中かたまりたいかく最大さいだいしかせんせい回歸かいき(block-diagonal Maximum Likelihood Linear Regression(MLLR))以再さら少量しょうりょうてき調整ちょうせいはかつつみますさらだいてきせいじゅんしか而其進入しんにゅうじゅんてき飽和ほうわ狀態じょうたい也更かいせいじゅん上限じょうげん也更ひく

綜合そうごう以上いじょうはし調整ちょうせいはか(adaptation data)てき多寡たか選擇せんたく適當てきとうてき方法ほうほうゆずる模型もけいてきせいじゅん最高さいこう

まいり

编辑

参考さんこう文献ぶんけん

编辑
  1. ^ かたりおん輸入ゆにゅうほう
  2. ^ 5.1 Automatic Speech Recognition (ASR) History, www.icsi.berkeley.edu/eecs225d/spr95/lecture05.ps.gz
  3. ^ Davis, Biddulph and Balashek Automatic Recognition of Spoken Digits, Journal of the Acoustical Society of America Vol 24 No 6, November 1952
  4. ^ Automatic Speech Recognition: The Development of the Sphinx Recognition System KF Lee, R Reddy - 1988 - Kluwer Academic Publishers Norwell, MA, USA

外部がいぶ链接

编辑