(Translated by https://www.hiragana.jp/)
譜聚類 - 維基百科,自由嘅百科全書 とべ內容

聚類

出自しゅつじ維基百科ひゃっか自由じゆう百科全書ひゃっかぜんしょ
ゆうりょうせきれんどおりもとけん嘅圖

聚類英文えいぶんSpectral clusteringがかりいちしゅ聚類分析ぶんせき方法ほうほうよう聚類嘅對象たいしょうためいちぶく啲綟,啲對象たいしょうあいだ距離きょりあるものさぞ相似そうじがかり表示ひょうじなり啲綟あいだ啲加有權ゆうけん嘅檠。聚類がかりもとろんたい於個ひしげのりじん分析ぶんせき結果けっかひしげのりじん對應たいおうかえし啲圖がかりゆうせきれんどおりもとけんよし於矩じん特徵とくちょうまた喊做しき所以ゆえんしゅ方法ほうほう喊做聚類。聚類嘅圖ろん理論りろん基礎きそがかりゆかり Donath & Hoffman (1973) どう Fiedler (1973) 奠定嘅。[1][2]

數學すうがく基礎きそ

[編輯へんしゅう]

縮減しゅくげん

[編輯へんしゅう]

喺第いち縮減しゅくげん,而個目的もくてきがかりしたがえうら便びん鏟走所有しょゆう啲權じゅう象徵しょうちょう距離きょりふとしだい嘅檠。以下いかかかり啲方ほう

εいぷしろん鄰舍

[編輯へんしゅう]
わかはてぼう檠嘅けんじゅう大過たいか,就由鏟走じょう檠。
喺 k-nn 最近さいきん鄰舍うら便びん,一粒綟啲所有檠都根據檠嘅權重排序。ゆう檠個けんじゅう大過たいかだいさいほそけんじゅう嘅(象徵しょうちょうとおだい鄰舍),就着したがえ鏟走。 -nn がかりさぞ對稱たいしょう嘅,そくせき檠權おも可能かのうたい嚟講がかりほそだいさいほそ檠權じゅうこれたいまたさぞほそ佢個だいさいほそ檠權じゅうとく喊做がかり k-nn ただ需要じゅよういたじょう保留ほりゅう喺圖うら便びん嘅,たいあるもの其中いたりしょういち對象たいしょうほそ佢第さいほそ檠權じゅうそくがかりごと對象たいしょういたりしょうゆうじょう檠。相反あいはんいち「 佮埋嘅 k-nn ただつつみ含有がんゆう啲檠、啲對於兩個りゃんこ對象たいしょうみやこゆうほそさいほそ檠權じゅう嘅,そくがかりごと對象たいしょう最多さいたゆうじょう檠。

ぜん連接れんせつ

[編輯へんしゅう]
藉助相似そうじ函數かんすう,檠權じゅうがかり根據こんきょ對象たいしょうあいだ距離きょりけいだし相似そうじ函數かんすう嘅一個例係高斯相似度函數まいりすうひかえせい鄰舍だいぼそ上高かみたかさんすうあるもの噉。

ひしげのりじん

[編輯へんしゅう]

透過とうか檠權おも以幫對象たいしょうせいけん鄰接のりじん次數じすうのりじんいれ便びん對角線たいかくせん上包うわづつみ含有がんゆうどおりこう綟啲檠嘅けんじゅう總和そうわ(喺圖縮減しゅくげんこれ)。かかり噉計とくさんしゅひしげのりじん

  • 歸一きいつのりじん ,
  • 歸一きいつのりじん
  • 歸一きいつのりじん .

たい所有しょゆう啲向りょうゆう

[3]

よし於拉のりじんがかり對稱たいしょうどううめはんせいじょう嘅,所有しょゆう特徵とくちょう值都がかりじつ值而且大於或しゃとう於零。たい於拉のりじん證明しょうめいいたりしょうゆういち特徵とくちょう值係れいわかはてゆかりせきれんどおりもとけんせいかかり噉拉のりじん就係いち壆矩じん(Blockのりじん見上みかみだかはばどううめのりじん)。まい一壆都有一個等於零嘅特徵值。たい於特ちょう值係れい嘅特しるしむこうりょう必須ひっすゆうよしため所有しょゆう啲檠けんじゅうかかりせい嘅,一隻連通元件啲綟所有必須ひっすしょうどう所以ゆえんゆう)。たいみやこゆう類似るいじ分析ぶんせきただゆうがかり特徵とくちょうむこうりょういれ便びん啲欄がかりゆかりけん,而對於特徵とくちょうむこうりょう啲欄かかりとう於1。

たい於聚るい分析ぶんせきひしげのりじん啲最ほそ特徵とくちょう值同うめ特徵とくちょうむこうりょう

演算えんざんほう

[編輯へんしゅう]

かくしき演算えんざんほう

[編輯へんしゅう]

さぞどう嘅譜聚類演算えんざんほうゆう開發かいはつ嚟:

歸一きいつ聚類:

  1. けい歸一きいつ嘅拉のりじん
  2. けいまえまい特徵とくちょうむこうりょうかかりゆうさいほそ特徵とくちょう值嘅)
  3. まい特徵とくちょうむこうりょう啲行なみようぶんひき方法ほうほうせい聚類,たとえk-平均へいきん演算えんざんほう

Shi佮Malik嘅歸いち聚類:[4]

  1. けい歸一きいつ嘅拉のりじん
  2. けいまえ特徵とくちょうむこうりょうかかりゆうさいほそ特徵とくちょう值嘅)
  3. まい特徵とくちょうむこうりょう啲行なみようぶんひき方法ほうほうせい聚類

Ng、Jordan佮Weiss嘅歸いち聚類 :[5]

  1. けい歸一きいつ嘅拉のりじん
  2. けいまえ特徵とくちょうむこうりょうかかりゆうさいほそ特徵とくちょう值嘅)
  3. まい特徵とくちょうむこうりょう啲行なみようぶんひき方法ほうほうせい聚類

まいりすう揀選

[編輯へんしゅう]

せき過程かていさんすうどう演算えんざんほう嘅揀せん,Ulrike von Luxburg教程きょうてい推薦すいせんがかり[6]

  • 鄰舍嘅揀せん:k-nn いんため識別しきべつさぞどう密度みつど嘅聚るい識別しきべつとくこう啲並生成せいせいとくまれ疏拉のりじんまた以喺だい啲嘅いき變化へんか,而同さぞかい改變かいへんいた聚類分析ぶんせきこう
  • 鄰舍啲參すう嘅揀せん
    • たい於k-nn かかり噉揀せん嘅,そく啲連どおりもとけんさぞしょうあずか聚類うら便びんおうゆう嘅。
    • たい於普どおり k-nn よう大過たいかk-nn嘅,いんため普通ふつうk-nn 包含ほうがんいた嘅檠しょうk-nn 。揀選啟發けいはつしき方法ほうほうなか未知みち
    • たい鄰舍おう該揀かかりとう於最ちょうじょう檠喺さいほそ生成せいせいじゅ(minimum spanning tree)嘅。
    • たい於啲ぜん連接れんせつ有高ありだか相似そうじ函數かんすう嘅應該揀かかりれいいた結果けっかはば對應たいおうかえし k-nn あるもの鄰舍經驗けいけん法則ほうそくなかゆうとう於最ちょうじょう檠喺さいほそ生成せいせいじゅ嘅或しゃ作爲さくい平均へいきん距離きょりいたせき最近さいきん鄰舍嘅,其中 .
  • 聚類すう嘅揀せんひしげのりじん啲特ちょう值,あきらだいほそはいじょなみ跳躍ちょうやくたとえ如喺うえだかしめせ意圖いといれ便びん8對象たいしょうすうよりどころしゅうだい3どうだい4特徵とくちょう值之あいだ嘅。
  • ひしげのりじん嘅揀せんいんためたい嚟講,特徵とくちょうむこうりょういれ便びん啲欄がかりとう於1,攞譬如k-means 演算えんざんほう嚟聚るいかいいくこのみ

IrisはなすうよりどころしゅうかかりSir Ronald Fisher爵士 (1936) 作爲さくい判別はんべつ分析ぶんせき嘅例使用しよういた嘅。[7]ゆう個數こすうよりどころしゅうまた喊做「Anderson's IrisはなすうよりどころしゅういんためEdgar Anderson收集しゅうしゅう唨啲すうよりどころ嚟量Irisはな形態けいたい變化へんか[8]個數こすうよりどころしゅうよし 50 せき標本ひょうほん組成そせいまいせき標本ひょうほんぶんためさんせき物種ものだね:Iris setosa、Iris versicolor、Iris virginica。分別ふんべつゆう測量そくりょういたがくへんどう花瓣はなびら嘅長どううめひろし所以ゆえん個數こすうよりどころしゅうつつみ含有がんゆう150觀察かんさつ值同うめ4變量へんりょう

就好喺散佈圖のりじんひだり便びんだいいちぶく圖形ずけいいた噉,さん種類しゅるいがたいち圖形ずけいちゅう啲紅しょく)戥其類型るいけい顯著けんちょさぞどう。另外兩個りゃんこ物種ものだね互相あいだこうなんぶんひらき中間ちゅうかんだいぶく圖形ずけい顯示けんじ對象たいしょうあいだ啲歐距離きょり嘅灰ねつ灰色はいいろこしふかし對象たいしょうはなれとくえつこん。呢啲對象たいしょうけいやめがかり噉重しん排列はいれつほうそく戥其對象たいしょうゆう相似そうじ距離きょり對象たいしょう互相あいだ擺近。使用しよういた嘅軟けんようそう聚類嘅方ほうなみ顯示けんじいたじょう結構けっこう(Dendrogram)。みぎ便びんだいさんぶく圖形ずけい顯示けんじいた聚類嘅結果けっか以睇とく,啲聚るい戥三種類型有一定嘅一致性。

ひだり便びんりょうはば圖像ずぞう顯示けんじいたk-nn あるもの普通ふつう k-nn うら便びんがかりあたり啲檠保留ほりゅういた黑色こくしょくあるものさぞ保留ほりゅういた白色はくしょく)。たい於參すう最長さいちょう檠首さきがかり喺最ほそ生成せいせいじゅちゅう確定かくていいたしかこれ所有しょゆう觀察かんさつ值計對應たいおう嘅鄰しゃすう平均へいきん值大がいがかり 60 鄰舍,かかり噉揀これけいひしげのりじんどううめのりじん啲特ちょう值。特徵とくちょう值圖顯示けんじいた喺第二個或者第三個特徵值之後有好大跳躍。しかこれたいまえさんまい特徵とくちょうむこうりょう進行しんこう3聚類嘅 k平均へいきん聚類。

たね 聚類結果けっか
1 2 3
setosa 0 0 50
versicolor 43 7 0
virginica 7 43 0

混淆こんこうのりじん表明ひょうめいいた聚類喺某しゅ程度ていどじょうおもしん發現はつげん啲物しゅ聚類ほう完全かんぜん正確せいかく噉分Setosa聚類;喺 VersicolorどうVirginica聚類嘅情きょうゆう7 觀測かんそく各自かくじ錯誤さくご分類ぶんるいいた對應たいおう錯誤さくご分類ぶんるいりつがかり

  1. W. E. Donath, A. J. Hoffman: Lower bounds for the partitioning of graphs 互聯もう檔案かんかえりかえり檔日2021ねん7がつ9ごう,.. In: IBM Journal of Research and Development. 17(5), (1973), S. 420–425.
  2. M. Fiedler: Algebraic connectivity of graphs. In: Czechoslovak Mathematical Journal. 23(2), (1973), S. 298–305.
  3. Ulrike von Luxburg (2007). "A Tutorial on Spectral Clustering" (PDF). 喺2018-01-06搵到. 互聯もう檔案かんかえりかえり檔日2011-02-06. そん副本ふくほん (PDF)原著げんちょ (PDF)喺2011-02-06。喺2021-10-03搵到
  4. J. Shi, J. Malik: Normalized cuts and image segmentation. In: IEEE Transactions on Pattern Analysis and Machine Intelligence. 22(8), (2000), S. 888–905. doi:10.1109/34.868688
  5. A. Y. Ng, M. I. Jordan, Y. Weiss: On spectral clustering: Analysis and an algorithm. In: Advances in Neural Information Processing Systems. 2, 2002, S. 849–856.
  6. Ulrike von Luxburg: A tutorial on spectral clustering. (PDF). In: Statistics and Computing. 17(4), (2007), S. 395–416. doi:10.1007/s11222-007-9033-z
  7. R. A. Fisher: The use of multiple measurements in taxonomic problems 互聯もう檔案かんかえりかえり檔日2017ねん5がつ16ごう,.. In: Annals of Eugenics. 7(2), (1936), S. 179–188. doi:10.1111/j.1469-1809.1936.tb02137.x
  8. E. Anderson: The species problem in Iris. In: Annals of the Missouri Botanical Garden. 1936, S. 457–509.