出自 しゅつじ 維基百科 ひゃっか ,自由 じゆう 嘅百科全書 ひゃっかぜんしょ
字 じ 嵌入 かんにゅう (粵拼 :zi6 ham3 jap6 ;英文 えいぶん :word embedding ),又 また 叫 さけべ 詞 し 嵌入 かんにゅう ,係 かかり 自然 しぜん 語 ご 言 げん 處理 しょり 上 うえ 嘅一 いち 個 こ 重要 じゅうよう 概念 がいねん ,指 ゆび 用 よう 多 た 維實數 じっすう 向 むかい 量 りょう 表示 ひょうじ 一 いち 隻 せき 字 じ 嘅意思 いし 。齋 とき 靠 もたれ 日常 にちじょう 觀察 かんさつ 經 けい 已 やめ 可知 かち ,人 にん 能 のう 夠由字 じ 詞 し 嗰度理解 りかい 啲字嘅意思 いし ,但 ただし 電腦 でんのう 冇呢樣 さま 能力 のうりょく ,淨 きよし 係 がかり 能 のう 夠處理 しょり 一 いち 大 だい 拃嘅數字 すうじ ;於是自然 しぜん 語 ご 言 げん 處理 しょり 上 じょう 就出咗一 いち 個 こ 諗頭-攞一 いち 段 だん 字 じ 詞 し 做 input ,同 どう 段 だん 字 じ 入 いれ 面 めん 每 ごと 隻 せき 字 じ 都 と 俾若干 じゃっかん 個數 こすう 佢(而呢若干 じゃっかん 個數 こすう 結合 けつごう 成 なり 一 いち 個 こ 向 むかい 量 りょう ),用 よう 呢啲數 すう 嚟表示 ひょうじ 隻 せき 字 じ 詞 し 嘅意思 いし [ 1] 。
想像 そうぞう 而家
n
=
2
{\displaystyle n=2}
,
A
{\displaystyle A}
同 どう
B
{\displaystyle B}
係 かかり 兩 りょう 隻 せき 字 じ 詞 し 嘅字嵌入 かんにゅう ,可 か 以畫做空間 くうかん 入 いれ 面 めん 嘅兩點 てん ,跟住分析 ぶんせき 者 しゃ 就可以計兩 りょう 點 てん 之 の 間 あいだ 嘅距離 きょり 。
家 いえ 陣 じん 攞段字 じ 詞 し 俾個 AI 分析 ぶんせき ,段 だん 嘢入面 めん 每 ごと 隻 せき 字 じ 詞 し 都 と 有 ゆう 件 けん 字 じ 嵌入 かんにゅう ,每 まい 件 けん 字 じ 嵌入 かんにゅう 係 がかり 個 こ 以實數 じっすう 表示 ひょうじ 嘅
n
{\displaystyle n}
維向 むかい 量 りょう ,啲實數 すう 會 かい 表示 ひょうじ 隻 せき 字 じ 詞 し 嘅意思 いし ,所以 ゆえん 啲數值相近 きん 嘅字嵌入 かんにゅう 會 かい 係 がかり 表示 ひょうじ 緊意思 いし 上 うえ 相近 すけちか 嘅字詞 し [ 2] 。
想像 そうぞう 每 ごと 隻 せき 字 じ 詞 し 嘅字嵌入 かんにゅう 有 ゆう 30 個 こ 實數 じっすう (
n
=
30
{\displaystyle n=30}
[ 註 1] ),當 とう 中 なか 第 だい 一個實數表示嗰隻字詞同「貓科 」有 ゆう 幾 いく 強 きょう 嘅語義 ごぎ 關聯 かんれん ,第 だい 二個實數表示嗰隻字詞同「人類 じんるい 」有 ゆう 幾 いく 強 きょう 嘅語義 ごぎ 關聯 かんれん ,第 だい 三個實數表示嗰隻字詞同「昆蟲 こんちゅう 」有 ゆう 幾 いく 強 きょう 嘅語義 ごぎ 關聯 かんれん ... 等 とう 等 とう ,數 すう 值愈正 せい 就表示 ひょうじ 語義 ごぎ 關聯 かんれん 愈 いよいよ 勁,即 そく 係 がかり
Cat
(貓 )呢隻字 じ 詞 し 嘅字嵌入 かんにゅう 係 がかり [0.9, 0.1, -0.8...]
;
Tiger
(老 ろう 虎 とら )呢隻字 じ 詞 し 嘅字嵌入 かんにゅう 係 がかり [0.7, -0.6, -0.75...]
;
Nebula
(星雲 せいうん )呢隻字 じ 詞 し 嘅字嵌入 かんにゅう 係 がかり [-0.9, -0.95, -0.95...]
;
姑 しゅうと 且唔好 こう 諗「點 てん 樣 さま 知 ち 一隻字詞嘅字嵌入數值係乜」嘅問題 もんだい 住 じゅう 。假想 かそう 而家每 ごと 隻 せき 字 じ 詞 し 都 と 有 ゆう 咗件字 じ 嵌入 かんにゅう ,一件字嵌入係個向量,所以 ゆえん 可 か 以當做空間 くうかん 入 いれ 面 めん 嘅一點 てん 噉嚟睇-好 こう 似 に 附圖 ふず 噉;當 とう 咗兩隻 せき 字 じ 詞 し 係 がかり 空間 くうかん 入 いれ 面 めん 嘅兩點 てん ,分析 ぶんせき 者 しゃ 就有得 とく 計 けい 兩 りょう 點 てん 之 の 間 あいだ 嘅歐 おう 幾里 いくさと 得 とく 距離 きょり (Euclidean distance),得 とく 出 で 個數 こすう 值嚟反映 はんえい 「嗰兩隻 せき 字 じ 詞 し 喺意思 いし 上 じょう 爭 そう 幾 いく 遠 とお 」[ 註 2] 。
↑ 喺實際 ぎわ 應用 おうよう 上 じょう ,
n
{\displaystyle n}
嘅數值閒閒 あいだ 哋會係 がかり 幾 いく 百 ひゃく 。
↑ 技術 ぎじゅつ 化 か 啲講,實際 じっさい 應用 おうよう 上 じょう 通常 つうじょう 會同 かいどう 呢個距離 きょり 值做標準 ひょうじゅん 化 か 。
↑ Lebret, Rémi; Collobert, Ronan (2013). "Word Emdeddings through Hellinger PCA". Conference of the European Chapter of the Association for Computational Linguistics (EACL) . Vol. 2014.
↑ Jurafsky, Daniel; H. James, Martin (2000). Speech and language processing : an introduction to natural language processing, computational linguistics, and speech recognition . Upper Saddle River, N.J.: Prentice Hall.