目前 もくぜん ,主流 しゅりゅう 的 てき 大 だい 词汇量 りょう 语音识别系 けい 统多采 さい 用 よう 统计模 も 式 しき 识别技 わざ 术。典型 てんけい 的 てき 基 もと 于统计模式 しき 识别方法 ほうほう 的 てき 语音识别系 けい 统由以下 いか 几个基本 きほん 模 も 块所构成:
信号 しんごう 处理及特征 せい 提 ひっさげ 取 ど 模 も 块。该模块的主要 しゅよう 任 にん 务是从输入信 にゅうしん 号 ごう 中 ちゅう 提 ひっさげ 取 ど 特 とく 征 せい ,供 きょう 声 ごえ 学 がく 模型 もけい 处理。同 どう 时,它一般也包括了一些信号处理技术,以尽可能 かのう 降 くだ 低 てい 环境噪声、信道 のぶみち 、说话人 じん 等 とう 因 いん 素 もと 对特征 せい 造成 ぞうせい 的 てき 影 かげ 响。
声 こえ 学 がく 模型 もけい 。典型 てんけい 系 けい 统多采 さい 用 よう 基 もと 于一阶隐马尔科夫模型进行建模。
发音词典 。发音词典包含 ほうがん 系 けい 统所能 のう 处理的 てき 词汇集 しゅう 及其发音。发音词典实际提供 ていきょう 了 りょう 声 ごえ 学 がく 模型 もけい 建 けん 模 も 单元与 あずか 语言模型 もけい 建 けん 模 も 单元间的映 うつ 射 しゃ 。
语言模型 もけい 。语言模型 もけい 对系统所针对的 てき 语言进行建 けん 模 も 。理 り 论上,包括 ほうかつ 正 せい 则语言 ごと ,上下 じょうげ 文 ぶん 无关文法 ぶんぽう 在 ざい 内的 ないてき 各 かく 种语言 げん 模型 もけい 都 と 可 か 以作为语言 げん 模型 もけい ,但 ただし 目前 もくぜん 各 かく 种系统普遍 ふへん 采 さい 用 よう 的 てき 还是基 もと 于统计的N元 もと 文法 ぶんぽう 及其变体。
解 かい 码器 。解 かい 码器是 ぜ 语音识别系 けい 统的核心 かくしん 之 の 一 いち ,其任务是对输入 いれ 的 てき 信号 しんごう ,根 ね 据 すえ 声 ごえ 学 がく 、语言模型 もけい 及词典 てん ,寻找能 のう 够以最大 さいだい 概 がい 率 りつ 输出该信号 ごう 的 てき 词串。
从数学 がく 角度 かくど 可 か 以更加 か 清楚 せいそ 的 てき 了解 りょうかい 上述 じょうじゅつ 模 も 块之间的关系。首 くび 先 さき ,统计语音识别的 てき 最 さい 基本 きほん 问题是 ぜ ,给定输入信号 しんごう 或 ある 特 とく 征 せい 序列 じょれつ
O
=
{
O
1
,
O
2
,
⋯
O
n
}
{\displaystyle O=\{O_{1},O_{2},\cdots O_{n}\}}
,符号 ふごう 集 しゅう (词典)
W
=
{
W
1
,
W
2
,
⋯
,
W
n
}
{\displaystyle {\mathcal {W}}=\{W_{1},W_{2},\cdots ,W_{n}\}}
,求 もとめ 解 かい 符号 ふごう 串 くし
W
=
W
1
,
W
2
,
⋯
,
W
k
{\displaystyle W=W_{1},W_{2},\cdots ,W_{k}}
使 つかい 得 とく :
W
=
arg
max
P
(
W
|
O
)
{\displaystyle W=\arg \max P(W|O)}
通 つう 过贝叶斯公式 しき ,上 うえ 式 しき 可 か 以改写 うつし 为
W
=
arg
max
P
(
O
|
W
)
P
(
W
)
P
(
O
)
{\displaystyle W=\arg \max {\frac {P(O|W)P(W)}{P(O)}}}
由 よし 于对于确定 じょう 的 てき 输入串 くし
O
{\displaystyle O}
,
P
(
O
)
{\displaystyle P(O)}
是 ぜ 确定的 てき ,因 いん 此省略 しょうりゃく 它并不 ふ 会 かい 影 かげ 响上式 しき 的 てき 最 さい 终结果 はて ,因 いん 此,一般来说语音识别所讨论的问题可以用下面的公式来表示,可 か 以将它称为语音 おん 识别的 てき 基本 きほん 公式 こうしき 。
W
=
arg
max
P
(
O
|
W
)
P
(
W
)
{\displaystyle W=\arg \max P(O|W)P(W)}
从这个角度 ど 来 らい 看 み ,信号 しんごう 处理模 も 块提供 ていきょう 了 りょう 对输入信 にゅうしん 号 ごう 的 てき 预处理 り ,也就是 ぜ 说,提供 ていきょう 了 りょう 从采集 しゅう 的 てき 语音信号 しんごう (记为
S
{\displaystyle S}
)到 いた
特 とく 征 せい 序列 じょれつ
O
{\displaystyle O}
的 てき 映 うつ 射 い
O
:
S
→
O
{\displaystyle {\mathcal {O}}:S\rightarrow O}
。而声学 がく 模型 もけい 本身 ほんみ 定 てい 义了一些更具推广性的声学建模单元
μ みゅー
=
{
u
1
,
u
2
,
⋯
,
u
m
}
{\displaystyle {\mathcal {\mu }}=\{u_{1},u_{2},\cdots ,u_{m}\}}
,并且提供 ていきょう 了 りょう 在 ざい 给定输入特 とく 征 せい 下 か ,估计
P
(
O
|
u
k
)
{\displaystyle P(O|u_{k})}
的 てき 方法 ほうほう 。
为了将 はた 声 こえ 学 がく 模型 もけい 建 けん 模 も 单元串 くし
U
=
u
1
,
u
2
,
⋯
,
u
l
{\displaystyle U=u_{1},u_{2},\cdots ,u_{l}}
映 うつ 射 い 到 いた 符号 ふごう 集 しゅう
W
{\displaystyle {\mathcal {W}}}
,就需要 よう 发音词典发挥作用 さよう 。它实际上定 てい 义了映 うつ 射 い
D
:
w
∈
W
→
U
{\displaystyle {\mathcal {D}}:w\in {\mathcal {W}}\rightarrow U}
的 てき 映 うつ 射 しゃ 。为了表示 ひょうじ 方便 ほうべん ,也可以定义一个由
W
{\displaystyle {\mathcal {W}}}
到 いた
U
{\displaystyle U}
的 てき 全集 ぜんしゅう
U
{\displaystyle {\mathcal {U}}}
的 てき 笛 ふえ 卡尔积,而发音 おん 词典
D
{\displaystyle {\mathcal {D}}}
则是这个笛 ふえ 卡尔积的一 いち 个子集 しゅう 。并且有 ゆう :
P
(
W
,
U
)
=
{
1
,
(
W
,
U
)
∈
D
0
,
(
W
,
U
)
∉
D
{\displaystyle P(W,U)=\left\{{\begin{array}{*{20}c}{1,(W,U)\in D}\\{0,(W,U)\notin D}\\\end{array}}\right.}
最 さい 后 きさき ,语言模型 もけい 则提供 ていきょう 了 りょう
P
(
W
)
{\displaystyle P(W)}
。这样,基本 きほん 公式 こうしき 就可以更加 か 具体 ぐたい 的 てき 写 うつし 成 なり :
W
=
arg
max
P
(
W
)
⋅
P
(
W
,
U
)
⋅
∏
u
i
∈
U
P
(
O
|
u
i
)
{\displaystyle W=\arg \max P(W)\cdot P(W,U)\cdot \prod _{u_{i}\in U}P(O|u_{i})}
对于解 かい 码器来 らい 说,就是要 よう 在 ざい 由 ゆかり
W
{\displaystyle {\mathcal {W}}}
,
μ みゅー
{\displaystyle {\mathcal {\mu }}}
,
u
i
{\displaystyle u_{i}}
以及时间标度
t
{\displaystyle t}
张成的 てき 搜索 そうさく 空 そら 间中,找到上 うえ 式 しき 所 しょ 指 ゆび 明 あかり 的 てき
W
{\displaystyle W}
。
声 こえ 学 がく 特 とく 征 せい 的 てき 提 ひっさげ 取 ど 与 あずか 选择是 ぜ 语音识别的 てき 一 いち 个重要 よう 环节。声 こえ 学 がく 特 とく 征 せい 的 てき 提 ひっさげ 取 ど 既 すんで 是 ぜ 一个信息大幅度压缩的过程,也是一个信号解卷过程,目的 もくてき 是 ぜ 使 し 模 も 式 しき 划分器 き 能 のう 更 さら 好地 こうち 划分。
由 よし 于语音信 いんしん 号 ごう 的 てき 时变特性 とくせい ,特 とく 征 せい 提 ひっさげ 取 ど 必须在 ざい 一小段语音信号上进行,也即进行短 たん 时分析 ぶんせき 。这一段被认为是平稳的分析区间称之为帧,帧与帧之间的偏 へん 移 うつり 通常 つうじょう 取 と 帧长的 てき 1/2或 ある 1/3。通常 つうじょう 要 よう 对信号 ごう 进行预加重 かじゅう 以提升 ます 高 だか 频,对信号 ごう 加 か 窗 まど 以避免 めん 短 たん 时语音 おん 段 だん 边缘的 てき 影 かげ 响。
线性预测系 けい 数 すう (Linear Predictive Coefficient,LPC):线性预测分析 ぶんせき 从人的 てき 发声机 つくえ 理 り 入手 にゅうしゅ ,通 つう 过对声 ごえ 道 どう 的 てき 短 たん 管 かん 级联模型 もけい 的 てき 研究 けんきゅう ,认为系 けい 统的传递函数 かんすう 符合 ふごう 全 ぜん 极点数字 すうじ 滤波器 き 的 てき 形式 けいしき ,从而n时刻的 てき 信号 しんごう 可 か 以用前 ぜん 若干 じゃっかん 时刻的 てき 信号 しんごう 的 てき 线性组合来 らい 估计。通 つう 过使实际语音的 てき 采 さい 样值和 わ 线性预测采 さい 样值之 の 间达到 いた 均 ひとし 方 かた 差 さ 最小 さいしょう LMS,即 そく 可 か 得 え 到 いた 线性预测系 けい 数 すう LPC。对LPC的 てき 计算方法 ほうほう 有 ゆう 自 じ 相 あい 关法(德 とく 宾Durbin法 ほう )、协方差 さ 法 ほう 、格 かく 型 がた 法 ほう 等 とう 等 とう 。计算上 じょう 的 てき 快速 かいそく 有效 ゆうこう 保 ほ 证了这一声学特征的广泛使用。与 あずか LPC这种预测参 さん 数 すう 模型 もけい 类似的 てき 声 こえ 学 がく 特 とく 征 せい 还有线谱对LSP、反射 はんしゃ 系 けい 数 すう 等 とう 等 とう 。
倒 たおせ 谱系数 すう :利用 りよう 同 どう 态处理 り 方法 ほうほう ,对语音信 いんしん 号 ごう 求 もとめ 离散傅 でん 立 たて 叶 かのう 变换DFT后 きさき 取 と 对数,再 さい 求 もとめ 反 はん 变换iDFT就可得 え 到 いた 倒 たおせ 谱系数 すう 。对LPC倒 たおせ 谱(LPCCEP),在 ざい 获得滤波器 き 的 てき 线性预测系 けい 数 すう 后 きさき ,可 か 以用一个递推公式计算得出。实验表明 ひょうめい ,使用 しよう 倒 たおせ 谱可以提高 だか 特 とく 征 せい 参 さん 数 すう 的 てき 稳定性 せい 。
梅 うめ 尔频率 りつ 倒 たおせ 谱系数 すう (Mel-Frequency Cepstral Coefficients,MFCCs)和 わ 感知 かんち 线性预测 (Perceptual Linear Predictive,PLP):不同 ふどう 于LPC等 とう 通 どおり 过对人的 じんてき 发声机 つくえ 理 り 的 てき 研究 けんきゅう 而得到 いた 的 てき 声 こえ 学 がく 特 とく 征 せい ,Mel倒 たおせ 谱系数 すう MFCC和 わ 感知 かんち 线性预测PLP是 ぜ 受人的 てき 听觉系 けい 统研究 けんきゅう 成果 せいか 推动而导出 で 的 てき 声 こえ 学 がく 特 とく 征 せい 。对人的 てき 听觉机 つくえ 理 り 的 てき 研究 けんきゅう 发现,当 とう 两个频率相近 すけちか 的 てき 音 おと 调同时发出 で 时,人 にん 只 ただ 能 のう 听到一 いち 个音调。临界带宽指 ゆび 的 てき 就是这样一种令人的主观感觉发生突变的带宽边界,当 とう 两个音 おん 调的频率差 さ 小 しょう 于临界 かい 带宽时,人 にん 就会把 わ 两个音 おん 调听成 なり 一 いち 个,这称之 の 为屏蔽效应。Mel刻 こく 度 ど 是 ぜ 对这一临界带宽的度量方法之一。
MFCC的 てき 计算首 くび 先 さき 用 よう FFT 将 はた 时域 信号 しんごう 转化成 かせい 频域 ,之 これ 后 きさき 对其对数能 のう 量 りょう 谱用依 よ 照 あきら Mel刻 こく 度 ど 分布 ぶんぷ 的 てき 三角 さんかく 滤波器 き 组进行 ぎょう 卷 まき 积 ,最 さい 后 きさき 对各个滤波 なみ 器 き 的 てき 输出构成的 てき 向 むこう 量 りょう 进行离散余弦 よげん 变换 DCT,取前 とりまえ N个系数 すう 。PLP仍用德 とく 宾法去 さ 计算LPC参 さん 数 すう ,但 ただし 在 ざい 计算自 じ 相 あい 关参 まいり 数 すう 时用的 てき 也是对听觉激励 げきれい 的 てき 对数能 のう 量 りょう 谱进行 ぎょう DCT的 てき 方法 ほうほう 。
以國語 ご 發音 はつおん 為 ため 例 れい ,我 わが 們會將 しょう 一個字的發音切割成兩個部分,分別 ふんべつ 是 ぜ 聲 ごえ 母 はは (initials)與 あずか 韻 いん 母 はは (finals)。而在發音 はつおん 的 てき 過程 かてい 之 の 中 なか ,聲 こえ 母 はは 轉變 てんぺん 至 いたり 韻 いん 母 はは 是 ぜ 一個漸進而非瞬間的改變,因 いん 此我使用 しよう 右文 ゆうぶん 相關 そうかん 聲 ごえ 韻 いん 母 はは 模 も 式 しき (Right-Context-Dependent Initial Final, RCDIF)作為 さくい 分析 ぶんせき 方法 ほうほう ,可 か 以更精 せい 準 じゅん 的 てき 辨 べん 識出正確 せいかく 的 てき 音節 おんせつ (syllable)。
而根據 こんきょ 聲 ごえ 母 はは 的 てき 不同 ふどう 特徵 とくちょう ,又 また 可 か 以將聲 ごえ 母 はは 分 ぶん 為 ため 下面 かめん 四 よん 類 るい :
左 ひだり :ㄅ之 これ 時 じ 頻 しき 圖 ず 右 みぎ :ㄆ之 これ 時 じ 頻 しき 圖 ず
發音 はつおん 時 じ 嘴 くちばし 唇 くちびる 緊閉後 ご ,吐出 としゅつ 氣流 きりゅう 製造 せいぞう 出 で 類似 るいじ 爆破 ばくは 的 てき 聲音 こわね 。其聲音 おん 震幅 しんぷく 變化 へんか 會 かい 先 さき 降 くだ 至極 しごく 小 しょう 值後(代表 だいひょう 嘴 くちばし 唇 くちびる 緊閉)後 ご 在 ざい 急 きゅう 劇 げき 上 じょう 升 ます ,而端視 し 是 ぜ 否 いや 有 ゆう 持續 じぞく 送 おく 氣 き ,倘若有 ゆう 持續 じぞく 送 おく 氣 き (aspirated),則 のり 震幅 しんぷく 可能 かのう 會 かい 有 ゆう 另一 いち 個 こ 波 なみ 峰 ほう ,若 わか 無 む (un-aspirated)則 のり 在 ざい 波 なみ 峰 ほう 之 これ 後 ご ,震幅 しんぷく 將 しょう 有 ゆう 所 しょ 下降 かこう 。如:ㄆ與 あずか ㄅ便 びん 是 ぜ 前述 ぜんじゅつ 的 てき 關係 かんけい ,ㄆ有 ゆう 持續 じぞく 送 おく 氣 き ,而ㄅ則 すなわち 無 む 。右 みぎ 圖 ず 左 ひだり 為 ため ㄅ,右 みぎ 圖 ず 右 みぎ 為 ため ㄆ。
發音 はつおん 時 じ ,舌頭 ぜっとう 緊貼硬 かた 腭,形成 けいせい 狹窄 きょうさく 的 てき 通 どおり 道 どう ,氣流 きりゅう 通過 つうか 時 じ 造成 ぞうせい 湍流發生 はっせい 摩擦 まさつ ,由 ゆかり 此發出 はっしゅつ 聲 ごえ 響 ひびき 。由 よし 於摩擦音 まさつおん 是 ぜ 透過 とうか 穩定輸出 ゆしゅつ 氣流 きりゅう ,使 つかい 得 とく 聲音 こわね 震幅 しんぷく 變化 へんか 相 しょう 較於爆破 ばくは 音 おん 變化 へんか 幅 はば 度 ど 較小。如ㄏ、ㄒ等 とう 皆 みな 為 ため 摩擦音 まさつおん 。
此類型 がた 的 てき 發聲 はっせい 模型 もけい 兼 けん 具 ぐ 爆破 ばくは 音 おん 與 あずか 摩擦音 まさつおん 的 てき 發聲 はっせい 特性 とくせい 。其主要 よう 發聲 はっせい 構造 こうぞう 如同摩擦音 まさつおん 是 ぜ 由 よし 舌頭 ぜっとう 緊貼硬 かた 腭使氣流 きりゅう 通過 つうか 時 じ 產 さん 生 せい 摩擦 まさつ 的 てき 聲音 こわね 。而其通 どおり 道 どう 更 さら 加 か 緊密 きんみつ ,使 つかい 得 とく 氣流 きりゅう 會 かい 在 ざい 瞬間 しゅんかん 衝出,產 さん 生出 おいで 如同爆破 ばくは 音 おん 般的特徵 とくちょう 。如:ㄑ、ㄔ等 とう 。
鼻音 びおん (ㄋ)之 の 特徵 とくちょう
發音 はつおん 時 じ ,軟腭會下 えげ 壓 あつ ,下 しも 壓 あつ 後 ご ,由 ゆかり 氣管 きかん 吐出 としゅつ 的 てき 氣流 きりゅう 被 ひ 阻塞,無法 むほう 進入 しんにゅう 口腔 こうくう ,因 いん 而轉往鼻腔 びこう 。也因此鼻腔與口腔 こうくう 會 かい 產 さん 生 せい 共振 きょうしん ,如右圖 ず 的 てき 時 じ 頻 しき 譜 ふ 上 じょう 可 か 以明顯 あらわ 地 ち 看 み 到 いた 零 れい 點 てん (formants)分 ぶん 佈有共振 きょうしん 的 てき 現象 げんしょう ,而這樣 さま 的 てき 共振 きょうしん 現象 げんしょう 在 ざい 右文 ゆうぶん 相關 そうかん 聲 ごえ 韻 いん 母 はは 模 も 式 しき (Right-Context-Dependent Initial Final, RCDIF)下 しも 與 あずか 韻 いん 母 はは 倆相對 たい 較下更 さら 加 か 明 あかり 顯 あらわ 。因 よし 此,此一現象可作為辨識鼻音(Nasal)的 てき 重要 じゅうよう 依據 いきょ 之 の 一 いち 。右 みぎ 圖 ず 便 びん 為 ため 鼻音 びおん ㄋ之 これ 特徵 とくちょう ,其中紅 べに 點 てん 便 びん 為 ため 零 れい 點 てん (formants)
而韻母 はは 又 また 有 ゆう 雙 そう 母音 ぼいん 、單 たん 母音 ぼいん 之 これ 分 ぶん ,端 はし 視 し 再 さい 發生 はっせい 時 じ 是 ぜ 否 いや 有 ゆう 音調 おんちょう 的 てき 改變 かいへん 。而根據 こんきょ 聲帶 せいたい 振動 しんどう 與 あずか 否 いや ,又 また 分 ぶん 為 ため 清音 せいおん (unvoiced:聲帶 せいたい 不 ふ 震動 しんどう )等 とう 差異 さい ,以上 いじょう 發音 はつおん 時 じ 不同 ふどう 的 てき 方式 ほうしき ,在 ざい 時 じ 頻 しき 圖上 ずじょう 大 だい 多可 たか 以找到相對 そうたい 應 おう 的 てき 特徵 とくちょう ,透過 とうか 處理 しょり 二維的時頻圖,藉由傳統 でんとう 影像 えいぞう 處理 しょり 的 てき 方式 ほうしき ,達 たち 到 いた 語 ご 音 おと 辨 べん 識的目的 もくてき 。
中 ちゅう 文 ぶん 裡 うら 共有 きょうゆう 21個 いっこ 子音 しいん :ㄅ ㄆ ㄇ ㄈ ㄉ ㄊ ㄋ ㄌ ㄍ ㄎ ㄏ ㄐ ㄑ ㄒ ㄓ ㄔ ㄕ ㄖ ㄗ ㄘ ㄙ
16個 こ 母音 ぼいん :ㄚ ㄛ ㄜ ㄝ ㄞ ㄟ ㄠ ㄡ ㄢ ㄣ ㄤ ㄥ ㄦ ㄧ ㄨ ㄩ
母音 ぼいん 的 てき 形成 けいせい 是 ぜ 依 よ 脣形而定,而子音 おん 是 ぜ 口腔 こうくう 或 ある 是 ぜ 鼻腔 びこう 中 ちゅう 某 ぼう 些部位 い 將 はた 氣流 きりゅう 暫時 ざんじ 堵 と 住 じゅう 後 ご 放 ひ 開 ひらき 而形成 けいせい 的 てき ,因 いん 此:
子音 しいん 的 てき 能 のう 量 りょう 較小、頻 しき 率 りつ 偏 へん 高 だか ,時間 じかん 偏 へん 短 たん ,大 だい 多 た 出現 しゅつげん 在 ざい 母音 ぼいん 前 まえ 。
母音 ぼいん 的 てき 能 のう 量 りょう 較大、頻 しき 率 りつ 偏 へん 低 てい ,時 じ 間 あいだ 偏 へん 長 ちょう ,出現 しゅつげん 在 ざい 子音 しいん 後 ご 或 ある 是 ぜ 獨立 どくりつ 出現 しゅつげん 。
子 こ 母音 ぼいん 這樣的 てき 差異 さい 可 か 以在時 じ 頻 しき 圖上 ずじょう 很容易 えき 的 てき 驗 けん 證 しょう ,並 なみ 且用這個差異 さい 來 らい 進行 しんこう 簡單 かんたん 的 てき 子 こ 母音 ぼいん 辨 べん 識。
vowel_voice_123.png
由 よし 上 うえ 圖 ず 可 か 以發現 はつげん 子音 しいん 的 てき 振幅 しんぷく 都 と 偏 へん 小 しょう ,母音 ぼいん 的 てき 振幅 しんぷく 都 と 比較 ひかく 大 だい 。以「請」字 じ 為 ため 例 れい ,第 だい 一 いち 個 こ 子音 しいん ㄑ的 てき 振幅 しんぷく 都 と 較小,直 ちょく 到 いた 母音 ぼいん 一 いち 出現 しゅつげん 之 これ 後 ご ,振幅 しんぷく 才 ざい 明 あかり 顯 あらわ 變 へん 大 だい 。
但 ただし 如果出現 しゅつげん 雙 そう 母音 ぼいん 的 てき 字 じ (例 れい 如:一 いち ㄡ),振幅 しんぷく 會 かい 一 いち 直 ちょく 都 と 很大,導 しるべ 致音與 あずか 音 おと 之 の 間 あいだ 的 てき 分界 ぶんかい 不 ふ 清楚 せいそ ,這時就比較 ひかく 難 なん 單純 たんじゅん 用 よう 振幅 しんぷく 來 らい 判斷 はんだん 音 おん 的 てき 變化 へんか 。
语音识别系 けい 统的模型 もけい 通常 つうじょう 由 よし 声 ごえ 学 がく 模型 もけい 和 わ 语言模型 もけい 两部分 ぶぶん 组成,分 ふん 别对应于语音到 いた 音 おと 节概 がい 率 りつ 的 てき 计算和音 わおん 节到字 じ 概 がい 率 りつ 的 てき 计算。本 ほん 节和下 か 一节分别介绍声学模型和语言模型方面的技术。
HMM声 ごえ 学 がく 建 けん 模 も :马尔可 か 夫 おっと 模型 もけい 的 てき 概念 がいねん 是 ぜ 一个离散时域有限 ゆうげん 状 じょう 态自动机 ,隐马尔可夫 おっと 模型 もけい HMM是 ぜ 指 ゆび 这一马尔可夫模型的内部状态外界不可见,外界 がいかい 只 ただ 能 のう 看 み 到 いた 各 かく 个时刻 こく 的 てき 输出值。对语音 おん 识别系 けい 统,输出值通常 つうじょう 就是从各个帧计算而得的 てき 声 こえ 学 がく 特 とく 征 せい 。用 よう HMM刻 こく 画 が 语音信号 しんごう 需作出 で 两个假 かり 设,一是内部状态的转移只与上一状态有关,另一是输出值只与当前状态(或 ある 当 とう 前 まえ 的 てき 状 じょう 态转移 うつり )有 ゆう 关,这两个假设大大 だい 降 くだ 低 てい 了 りょう 模型 もけい 的 てき 复杂度 ど 。HMM的 てき 评估、解 かい 码和训练相 しょう 应的算法 さんぽう 是 ぜ 前 ぜん 向 こう 算法 さんぽう 、Viterbi算法 さんぽう 和 わ 前 ぜん 向 こう 后 きさき 向 こう 算法 さんぽう 。
语音识别中 ちゅう 使用 しよう HMM通常 つうじょう 是 ぜ 用 よう 从左向 こう 右 みぎ 单向、带自环、带跨越 えつ 的 てき 拓 つぶせ 扑结构来 らい 对识别基元 もと 建 けん 模 も ,一个音素就是一个三至五状态的HMM,一个词就是构成词的多个音素的HMM串 くし 行 ゆき 起 おこし 来 らい 构成的 てき HMM,而连续语音 おん 识别的 てき 整 せい 个模型 がた 就是词和静 せい 音 おん 组合起 おこり 来 らい 的 てき HMM。
上下 じょうげ 文相 ぶんしょう 关建模 も :协同发音,指 ゆび 的 てき 是 ぜ 一个音受前后相邻音的影响而发生变化,从发声 ごえ 机 つくえ 理 り 上 じょう 看 み 就是人的 じんてき 发声器官 きかん 在 ざい 一个音转向另一个音时其特性只能渐变,从而使 し 得 とく 后 きさき 一个音的频谱与其他条件下的频谱产生差异。上下 じょうげ 文相 ぶんしょう 关建模 も 方法 ほうほう 在 ざい 建 けん 模 も 时考虑了这一影 かげ 响,从而使 し 模型 もけい 能 のう 更 さら 准 じゅん 确地描述语音,只 ただ 考 こう 虑前一音的影响的称为Bi-Phone,考 こう 虑前一音和后一音的影响的称为Tri-Phone。
英 えい 语的上下 じょうげ 文相 ぶんしょう 关建模 も 通常 つうじょう 以音素 もと 为基元 もと ,由 ゆかり 于有些音素 もと 对其后 きさき 音素 おんそ 的 てき 影 かげ 响是相似 そうじ 的 てき ,因 いん 而可以通过音素 もと 解 かい 码状态的聚类 进行模型 もけい 参 さん 数 すう 的 てき 共 ども 享 とおる 。聚类的 てき 结果称 しょう 为senone。决策树 用 もちい 来 らい 实现高 だか 效 こう 的 てき triphone对senone的 てき 对应,通 つう 过回答 かいとう 一系列前后音所属类别(元 もと /辅音、清 きよし /浊音等 とう 等 とう )的 てき 问题,最 さい 终确定 てい 其HMM状 じょう 态应使用 しよう 哪个senone。分 ぶん 类回归树 CART模型 もけい 用 よう 以进行 ぎょう 词到音素 おんそ 的 てき 发音标注。
语言模型 もけい 主要 しゅよう 分 ぶん 为规则模型 もけい 和 わ 统计模型 もけい 两种。统计语言模型 もけい 是 ぜ 用 よう 概 がい 率 りつ 统计的 てき 方法 ほうほう 来 らい 揭示 けいじ 语言单位内在 ないざい 的 てき 统计规律,其中n元 もと 语法 简单有效 ゆうこう ,被 ひ 广泛使用 しよう 。
n元 もと 语法:该模型 がた 基 もと 于这样一种假设,第 だい n个词的 てき 出 で 现只与 あずか 前面 ぜんめん N-1个词相 しょう 关,而与其它任 にん 何 なん 词都不 ふ 相 あい 关,整 せい 句 く 的 てき 概 がい 率 りつ 就是各 かく 个词出 で 现概率 りつ 的 てき 乘 じょう 积。这些概 がい 率 りつ 可 か 以通过直接 ちょくせつ 从语料 りょう 中 ちゅう 统计N个词同 どう 时出现的次 じ 数 すう 得 とく 到 いた 。由 よし 于计算 さん 量 りょう 太 たい 大 だい ,N一般取值不会很大,常用 じょうよう 的 てき 是 ぜ 二元 にげん 语法 (Bi-Gram)和 わ 三 さん 元 げん 语法(Tri-Gram)。
语言模型 もけい 的 てき 性能 せいのう 通 どおり 常用 じょうよう 交叉 こうさ 熵 和 かず 复杂度 ど (Perplexity)来 らい 衡量。交叉 こうさ 熵的意 い 义是用 よう 该模型 がた 对文本 ほん 识别的 てき 难度,或 ある 者 もの 从压缩的角度 かくど 来 らい 看 み ,每 まい 个词平均 へいきん 要用 ようよう 几个位 い 来 らい 编码。复杂度 ど 的 てき 意 い 义是用 よう 该模型 がた 表示 ひょうじ 这一文本平均的分支数,其倒数 すう 可 か 视为每 ごと 个词的 てき 平均 へいきん 概 がい 率 りつ 。平滑 へいかつ 是 ぜ 指 ゆび 对没观察到的 てき N元 もと 组合赋予一 いち 个概率 りつ 值,以保证词序列 じょれつ 总能通 どおり 过语言 げん 模型 もけい 得 え 到 いた 一 いち 个概率 りつ 值。通常 つうじょう 使用 しよう 的 てき 平滑 へいかつ 技 わざ 术有图灵估计 、删除插值平滑 へいかつ 、Katz平滑 へいかつ 和 かず Kneser-Ney平滑 へいかつ 。
连续语音识别中 ちゅう 的 てき 搜索 そうさく ,就是寻找一个词模型序列以描述输入语音信号,从而得 え 到 いた 词解码序列 じょれつ 。搜索 そうさく 所 しょ 依 よ 据 すえ 的 てき 是 ぜ 对公式 しき 中 ちゅう 的 てき 声 こえ 学 がく 模型 もけい 打 だ 分 ぶん 和 わ 语言模型 もけい 打 だ 分 ぶん 。在 ざい 实际使用 しよう 中 ちゅう ,往往 おうおう 要 よう 依 よ 据 すえ 经验给语言 げん 模型 もけい 加 か 上 じょう 一 いち 个高权重,并设置 おけ 一个长词惩罚分数。
Viterbi:基 もと 于动态规划的Viterbi算法 さんぽう 在 ざい 每 まい 个时间点上 じょう 的 てき 各 かく 个状态,计算解 かい 码状态序列 じょれつ 对观察序列 じょれつ 的 てき 后 きさき 验概率 りつ ,保留 ほりゅう 概 がい 率 りつ 最大 さいだい 的 てき 路 ろ 径 みち ,并在每 ごと 个节点 てん 记录下相 おりあい 应的状 じょう 态信息 いき 以便最 さい 后 きさき 反 はん 向 こう 获取词解码序列 じょれつ 。Viterbi算法 さんぽう 在 ざい 不 ふ 丧失最 さい 优解的 てき 条件下 じょうけんか ,同 どう 时解决了连续语音识别中 ちゅう HMM模型 もけい 状 じょう 态序列 じょれつ 与 あずか 声 こえ 学 がく 观察序列 じょれつ 的 てき 非 ひ 线性时间对准、词边界 かい 检测和 わ 词的识别,从而使 し 这一算法成为语音识别搜索的基本策略。
由 よし 于语音 おん 识别对当前 ぜん 时间点 てん 之 の 后 きさき 的 てき 情 じょう 况无法 ほう 预测,基 き 于目标函数 すう 的 てき 启发式 しき 剪枝难以应用。由 よし 于Viterbi算法 さんぽう 的 てき 时齐特性 とくせい ,同 どう 一时刻的各条路径对应于同样的观察序列,因 いん 而具有 ぐゆう 可 か 比 ひ 性 せい ,束 たば Beam搜索 そうさく 在 ざい 每 まい 一时刻只保留概率最大的前若干条路径,大幅 おおはば 度 ど 的 てき 剪枝提 ひさげ 高 だか 了 りょう 搜索 そうさく 的 てき 效率 こうりつ 。这一时齐Viterbi-Beam算法 さんぽう 是 ぜ 当 とう 前 ぜん 语音识别搜索 そうさく 中 ちゅう 最 さい 有效 ゆうこう 的 てき 算法 さんぽう 。 N-best搜索 そうさく 和 わ 多 おお 遍 あまね 搜索 そうさく :为在搜索 そうさく 中 ちゅう 利用 りよう 各 かく 种知识源,通常 つうじょう 要 よう 进行多 おお 遍 あまね 搜索 そうさく ,第 だい 一遍使用代价低的知识源,产生一个候选列表或词候选网格,在 ざい 此基础上进行使用 しよう 代 だい 价高的 てき 知 ち 识源的 てき 第 だい 二遍搜索得到最佳路径。此前介 かい 绍的知 ち 识源有 ゆう 声 ごえ 学 がく 模型 もけい 、语言模型 もけい 和音 わおん 标词典 てん ,这些可 か 以用于第一 いち 遍 へん 搜索 そうさく 。为实现更高 だか 级的语音识别或 ある 口 くち 语理解 りかい ,往往 おうおう 要 よう 利用 りよう 一些代价更高的知识源,如4阶或5阶的N-Gram、4阶或更 さら 高 だか 的 てき 上下 じょうげ 文相 ぶんしょう 关模型 がた 、词间相 しょう 关模型 がた 、分段 ぶんだん 模型 もけい 或 ある 语法分析 ぶんせき ,进行重 おも 新 しん 打 だ 分 ぶん 。最新 さいしん 的 てき 实时大 だい 词表连续语音识别系 けい 统许多 おお 都 と 使用 しよう 这种多 おお 遍 あまね 搜索 そうさく 策略 さくりゃく 。
N-best搜索 そうさく 产生一 いち 个候选列表 ひょう ,在 ざい 每 まい 个节点 てん 要 よう 保留 ほりゅう N条 じょう 最 さい 好 このみ 的 てき 路 ろ 径 みち ,会 かい 使 し 计算复杂度 ど 增加 ぞうか 到 いた N倍 ばい 。简化的 てき 做法是 ぜ 只 ただ 保留 ほりゅう 每 ごと 个节点 てん 的 てき 若干 じゃっかん 词候选,但 ただし 可能 かのう 丢失次 じ 优候选。一个折衷办法是只考虑两个词长的路径,保留 ほりゅう k条 じょう 。词候选网格 かく 以一种更紧凑的方式给出多候选,对N-best搜索 そうさく 算法 さんぽう 作 さく 相 しょう 应改动后可 か 以得到 いた 生成 せいせい 候 こう 选网格 かく 的 てき 算法 さんぽう 。
前 ぜん 向 こう 后 きさき 向 こう 搜索 そうさく 算法 さんぽう 是 ぜ 一个应用多遍搜索的例子。当 とう 应用简单知 ち 识源进行了 りょう 前 ぜん 向 むこう 的 てき Viterbi搜索 そうさく 后 きさき ,搜索 そうさく 过程中 ちゅう 得 え 到 いた 的 てき 前 ぜん 向 こう 概 がい 率 りつ 恰恰可 か 以用在 ざい 后 きさき 向 こう 搜索 そうさく 的 てき 目 め 标函数 すう 的 てき 计算中 ちゅう ,因 いん 而可以使用 しよう 启发式 しき 的 てき A算法 さんぽう 进行后 きさき 向 こう 搜索 そうさく ,经济地 ち 搜索 そうさく 出 で N条 じょう 候 こう 选。
语音识别系 けい 统选择识别基元 もと 的 てき 要求 ようきゅう 是 ぜ ,有 ゆう 准 じゅん 确的定 てい 义,能 のう 得 え 到 いた 足 あし 够数据 すえ 进行训练,具有 ぐゆう 一般 いっぱん 性 せい 。英 えい 语通常 つうじょう 采 さい 用 よう 上下 じょうげ 文相 ぶんしょう 关的音素 おんそ 建 けん 模 も ,汉语的 てき 协同发音不 ふ 如英语严重 じゅう ,可 か 以采用 よう 音 おん 节建模 も 。系 けい 统所需的训练数 すう 据 すえ 大小 だいしょう 与 あずか 模型 もけい 复杂度 ど 有 ゆう 关。模型 もけい 设计得 とく 过于复杂以至于超出 で 了 りょう 所 しょ 提供 ていきょう 的 てき 训练数 すう 据 すえ 的 てき 能力 のうりょく ,会 かい 使 し 得 とく 性能 せいのう 急 きゅう 剧下降 かこう 。
听写机 つくえ :大 だい 词汇量 りょう 、非 ひ 特定 とくてい 人 じん 、连续语音识别系 けい 统通常 つうじょう 称 しょう 为听写 うつし 机 つくえ 。其架构就是 ぜ 建立 こんりゅう 在 ざい 前述 ぜんじゅつ 声 ごえ 学 がく 模型 もけい 和 わ 语言模型 もけい 基 もと 础上的 てき HMM拓 つぶせ 扑结构。训练时对每 ごと 个基元 もと 用 よう 前 ぜん 向 こう 后 きさき 向 こう 算法 さんぽう 获得模型 もけい 参 さん 数 すう ,识别时,将 はた 基 もと 元 もと 串 くし 接 せっ 成 なり 词,词间加 か 上 じょう 静 しずか 音 おん 模型 もけい 并引入 にゅう 语言模型 もけい 作 さく 为词间转移 うつり 概 がい 率 りつ ,形成 けいせい 循环结构,用 よう Viterbi算法 さんぽう 进行解 かい 码。针对汉语易 えき 于分割 ぶんかつ 的 てき 特 とく 点 てん ,先 さき 进行分割 ぶんかつ 再 さい 对每一段进行解码,是 ぜ 用 よう 以提高 だか 效率 こうりつ 的 てき 一 いち 个简化 か 方法 ほうほう 。
对话系 けい 统:用 よう 于实现人机 つくえ 口 こう 语对话的系 けい 统称为对话系统。受目前 ぜん 技 わざ 术所限 げん ,对话系 けい 统往往是面 めん 向 こう 一 いち 个狭窄 きょうさく 领域、词汇量 りょう 有限 ゆうげん 的 てき 系 けい 统,其题材 ざい 有 ゆう 旅 たび 游 ゆう 查询、订票、数 かず 据 すえ 库 检索等 とう 等 とう 。其前端 はし 是 ぜ 一个语音识别器,识别产生的 てき N-best候 こう 选或词候选网格 かく ,由 ゆかり 语法分析 ぶんせき 器 き 进行分析 ぶんせき 获取语义信 しん 息 いき ,再 さい 由 よし 对话管理 かんり 器 き 确定应答信 しん 息 いき ,由 ゆかり 语音合成 ごうせい 器 き 输出。由 よし 于目前 まえ 的 てき 系 けい 统往往 おうおう 词汇量 りょう 有限 ゆうげん ,也可以用提 ひっさげ 取 ど 关键词的方法 ほうほう 来 らい 获取语义信 しん 息 いき 。
语音识别系 けい 统的性能 せいのう 受许多 た 因 いん 素的 すてき 影 かげ 响,包括 ほうかつ 不同 ふどう 的 てき 说话人 じん 、说话方式 ほうしき 、环境噪音、传输信道 のぶみち 等 とう 等 とう 。提 ひさげ 高 だか 系 けい 统強健 きょうけん 性 せい ,是 ぜ 要 よう 提 ひさげ 高 だか 系 けい 统克服 こくふく 这些因 いん 素 もと 影 かげ 响的能力 のうりょく ,使 つかい 系 けい 统在不同 ふどう 的 てき 应用环境、条件下 じょうけんか 性能 せいのう 稳定;自 じ 适应的 てき 目的 もくてき ,是 ぜ 根 ね 据 すえ 不同 ふどう 的 てき 影 かげ 响来源 げん ,自 じ 动地、有 ゆう 针对性 せい 地 ち 对系统进行 ぎょう 调整,在 ざい 使用 しよう 中 ちゅう 逐步提 ひさげ 高性能 こうせいのう (其中以李开复博士 はかせ 的 てき 不 ふ 特定 とくてい 语音识别系 けい 统为例 れい )。以下 いか 对影响系统性能 せいのう 的 てき 不同 ふどう 因 いん 素 もと 分 ぶん 别介绍解决办法 ほう 。
解 かい 决办法 ほう 按针对语音 おん 特 とく 征 せい 的 てき 方法 ほうほう (以下 いか 称 たたえ 特 とく 征 せい 方法 ほうほう )和 かず 模型 もけい 调整的 てき 方法 ほうほう (以下 いか 称 たたえ 模型 もけい 方法 ほうほう )分 ぶん 为两类。前者 ぜんしゃ 需要 じゅよう 寻找更 さら 好 このみ 的 てき 、高 こう 強健 きょうけん 性 せい 的 てき 特 とく 征 せい 参 さん 数 すう ,或 ある 是 ぜ 在 ざい 现有的 てき 特 とく 征 せい 参 さん 数 すう 基 き 础上,加入 かにゅう 一些特定的处理方法。后 きさき 者 しゃ 是 ぜ 利用 りよう 少量 しょうりょう 的 てき 自 じ 适应语料来 らい 修正 しゅうせい 或 ある 变换原 はら 有 ゆう 的 てき 说话人 じん 无关(SI)模型 もけい ,从而使 し 其成为说话人自 じ 适应(SA)模型 もけい 。
说话人 じん 自 じ 适应的 てき 特 とく 征 せい 方法 ほうほう 有 ゆう 说话人 じん 规一化和说话人子空间法,模型 もけい 方法 ほうほう 有 ゆう 贝叶斯方法 ほう 、变换法 ほう 和 わ 模型 もけい 合 あい 并法。
语音系 けい 统中的 てき 噪声,包括 ほうかつ 环境噪声和 わ 录音过程加入 かにゅう 的 てき 电子噪声。提 ひさげ 高 だか 系 けい 统鲁棒性 せい 的 てき 特 とく 征 せい 方法 ほうほう 包括 ほうかつ 语音增强 ぞうきょう 和 わ 寻找对噪声 ごえ 干 ひ 扰不敏感 びんかん 的 てき 特 とく 征 せい ,模型 もけい 方法 ほうほう 有 ゆう 并行模型 もけい 组合PMC方法 ほうほう 和 わ 在 ざい 训练中 ちゅう 人 じん 为加入 かにゅう 噪声。信道 のぶみち 畸变包括 ほうかつ 录音时话筒 とう 的 てき 距离、使用 しよう 不同 ふどう 灵敏度 ど 的 てき 话筒、不同 ふどう 增益 ぞうえき 的 てき 前 まえ 置 おけ 放 ひ 大和 やまと 不同 ふどう 的 てき 滤波器 き 设计等 とう 等 とう 。特 とく 征 せい 方法 ほうほう 有 ゆう 从倒谱矢量 りょう 中 ちゅう 减去其长时平均 へいきん 值和RASTA滤波,模型 もけい 方法 ほうほう 有 ゆう 倒 たおせ 谱平移 うつり 。
最大 さいだい 後 ご 驗 けん 機 き 率 りつ 估計是 ぜ 後 ご 驗 けん 機 き 率 りつ 分布 ぶんぷ 的 てき 眾數。利用 りよう 最大 さいだい 後 ご 驗 けん 機 き 率 りつ 估計可 か 以獲得 かくとく 對 たい 實驗 じっけん 數 すう 據 よりどころ 中 ちゅう 無法 むほう 直接 ちょくせつ 觀 かん 察到的 てき 量的 りょうてき 點 てん 估計。它與最大 さいだい 似 に 然 しか 估計中 ちゅう 的 てき 經典 きょうてん 方法 ほうほう 有 ゆう 密 みつ 切 きり 關係 かんけい ,但 ただし 是 ぜ 它使用 しよう 了 りょう 一個增廣的優化目標,進 しん 一步考慮了被估計量的先驗機率分布。所以 ゆえん 最大 さいだい 後 ご 驗 けん 機 き 率 りつ 估計可 か 以看作 さく 是 ぜ 規則 きそく 化 か 的 てき 最大 さいだい 似 に 然 しか 估計。
以此為 ため 基礎 きそ 的 てき 自適 じてき 性 せい 方法 ほうほう 有 ゆう 以下 いか 特性 とくせい :
越 えつ 大 だい 的 てき 調整 ちょうせい 測 はか 資 し (adaptation data)可 か 以讓結果 けっか 越 えつ 接近 せっきん 理想 りそう 的 てき 客 きゃく 製 せい 化 か 模型 もけい
當 とう 調整 ちょうせい 測 はか 資 し (adaptation data)不足 ふそく 時 じ ,無法 むほう 顯著 けんちょ 提 ひさげ 升 ます 模型 もけい 的 てき 精 せい 準 じゅん 度 ど
最大 さいだい 似 に 然 しか 線 せん 性 せい 回歸 かいき
编辑
最大 さいだい 似 に 然 しか 線 せん 性 せい 回歸 かいき (Maximum Likelihood Linear Regression (MLLR))是 ぜ 一種基於詞網的最大似然線性回歸(Lattice-MLLR)無 む 監督 かんとく 自適 じてき 應 おう 算法 さんぽう ,並 なみ 進行 しんこう 了 りょう 改 あらため 進 しん 。是 ぜ 一種基於變換的方法,對數 たいすう 據 よりどころ 量 りょう 依賴 いらい 較小,常用 じょうよう 於數據 よりどころ 量 りょう 較少的 てき 情況 じょうきょう 或 ある 進行 しんこう 快速 かいそく 自適 じてき 應 おう 。
一種基於詞網的最大似然線性回歸(Lattice-MLLR)無 む 監督 かんとく 自適 じてき 應 おう 算法 さんぽう ,並 なみ 進行 しんこう 了 りょう 改 あらため 進 しん 。 Lattice-MLLR是 ぜ 根據 こんきょ 解 かい 碼得到 いた 的 てき 詞 し 網 もう 估計MLLR變換 へんかん 參 さん 數 すう ,詞 し 網 もう 的 てき 潛在 せんざい 誤 あやま 識率遠 とお 小 しょう 於識別 べつ 結果 けっか ,因 いん 此可以使參 さん 數 すう 估計更 さら 為 ため 準 じゅん 確 かく 。 Lattice-MLLR的 てき 一個很大的缺點是計算量極大,較難實用 じつよう 。MLLR 是 ぜ 一種基於變換的方法,對數 たいすう 據 よりどころ 量 りょう 依賴 いらい 較小,常用 じょうよう 於數據 よりどころ 量 りょう 較少的 てき 情況 じょうきょう 或 ある 進行 しんこう 快速 かいそく 自適 じてき 應 おう 。
以此為 ため 基礎 きそ 的 てき 自適 じてき 性 せい 方法 ほうほう 有 ゆう 以下 いか 特性 とくせい :
在 ざい 少量 しょうりょう 的 てき 調整 ちょうせい 測 はか 資 し (adaptation data)可 か 以顯著 ちょ 提 ひさげ 升 ます 模型 もけい 的 てき 精 せい 準 じゅん 度 ど
當 とう 調整 ちょうせい 測 はか 資 し (adaptation data)達 たち 到 いた 一定 いってい 量 りょう 後 ご ,精 せい 準 じゅん 度 ど 的 てき 提 ひさげ 升 ます 會 かい 進入 しんにゅう 飽和 ほうわ 狀態 じょうたい ,有明 ありあけ 顯 あらわ 的 てき 效率 こうりつ 上 うえ 界 かい
而最大 さいだい 似 に 然 しか 線 せん 性 せい 回歸 かいき (Maximum Likelihood Linear Regression(MLLR) )也有 やゆう 許多 きょた 變形 へんけい 。其中區 く 塊 かたまり 對 たい 角 かく 最大 さいだい 似 に 然 しか 線 せん 性 せい 回歸 かいき (block-diagonal Maximum Likelihood Linear Regression(MLLR))可 か 以再更 さら 少量 しょうりょう 的 てき 調整 ちょうせい 測 はか 資 し 下 か 提 つつみ 升 ます 更 さら 大 だい 的 てき 精 せい 準 じゅん 度 ど ,然 しか 而其進入 しんにゅう 準 じゅん 度 ど 的 てき 飽和 ほうわ 狀態 じょうたい 也更快 かい ,精 せい 準 じゅん 度 ど 上限 じょうげん 也更低 ひく 。
綜合 そうごう 以上 いじょう ,端 はし 視 し 調整 ちょうせい 測 はか 資 し (adaptation data)的 てき 多寡 たか ,可 か 以選擇 せんたく 適當 てきとう 的 てき 方法 ほうほう ,讓 ゆずる 模型 もけい 的 てき 精 せい 準 じゅん 度 ど 最高 さいこう 。