(Translated by https://www.hiragana.jp/)
数据挖掘 - 维基百科,自由的百科全书 とべ转到内容ないよう

かずすえ挖掘

本页使用了标题或全文手工转换
维基百科ひゃっか自由じゆうてき百科ひゃっかぜん

かずすえ挖掘英語えいごData miningいち个跨学科がっかてき计算つくえ科学かがくぶんささえ[1][2][3] 。它是よう人工じんこう智能ちのうつくえがく统计がくかずすえてき交叉こうさ方法ほうほうざい相對そうたい較大がたてきかずすえしゅうちゅう发现しきてき计算过程[1]

かずすえ挖掘过程てき总体标是从一个数据集中提取信息,并将其转换成理解りかいてき结构,以进いち使用しよう[1]じょりょう原始げんし分析ぶんせき骤,它还わたる及到すうすえ库和かずすえ管理かんり方面ほうめんかずすえ预处えいdata pre-processing模型もけいあずか推断すいだん方面ほうめん考量こうりょう、兴趣度量どりょう复杂てきこう虑,以及发现结构、视化ざい线更新こうしんとうきさき处理[1]かずすえ挖掘資料しりょう知識ちしき發現はつげん”(Knowledge-Discovery in Databases, KDD)てき分析ぶんせき[4]ほん质上ぞく于机がく习的范畴。

类似词语“資料しりょう”、“かずすえ鱼”かずかずすえさがせ测”ゆびようすうすえ挖掘方法ほうほうらいさい样(可能かのう)过小以致无法もたれ统计推断すいだん出所しゅっしょ发现にんなんしきてき有效ゆうこうせいてきさらだい总体すうすえしゅうてき部分ぶぶん过这些方法ほうほう建立こんりゅうしんてきかり设来检验さら大数たいすうすえ总体。

歷史れきし

[编辑]

資料しりょうさがせかんいんためうみりょう有用ゆうよう資料しりょう快速かいそく增長ぞうちょうてき產物さんぶつ使用しよう計算けいさん進行しんこう歷史れきし資料しりょう分析ぶんせき,1960年代ねんだい數字すうじ方式ほうしき採集さいしゅう資料しりょうやめけい實現じつげん。1980年代ねんだい关系すうすえずいちょのう夠適おう動態どうたい按需分析ぶんせき資料しりょうてき結構けっこう查詢げん發展はってんおこりらいかずすえ仓库開始かいしようらいそんもうか大量たいりょうてき資料しりょう

いんためめん處理しょり資料しりょうちゅう大量たいりょう資料しりょうてき挑戰ちょうせん,於是資料しりょうさがせかんおううん而生,たい於這些問題もんだい,它的主要しゅよう方法ほうほう資料しりょう統計とうけい分析ぶんせき人工じんこう智能ちのう搜索そうさく技術ぎじゅつ

定義ていぎ

[编辑]

資料しりょうさがせかんゆう以下いか這些不同ふどうてき定義ていぎ

  1. したがえ資料しりょうちゅうつつみ取出とりでかくれ含的過去かこ知的ちてき有價ゆうか值的潛在せんざいしんいき[5]
  2. 一門いちもんしたがえ大量たいりょう資料しりょうある資料しりょうちゅうひっさげ有用ゆうようしんじいきてき科學かがく[6]

儘管通常つうじょう資料しりょうさがせかん應用おうよう資料しりょう分析ぶんせきただしぞう人工じんこう智能ちのう一樣いちよう,它也一個具有豐富含義的詞彙,可用かよう不同ふどうてき領域りょういき。 它与KDD(Knowledge discovery in databases)てき关系:KDD从数すえちゅうべん有效ゆうこうてきしん颖的、潜在せんざい有用ゆうようてきさい终可理解りかいてきしきてき过程;而数すえ挖掘KDDどおり特定とくていてき算法さんぽうざい接受せつじゅてき计算效率こうりつげんせいない生成せいせい特定とくていしきてきいち个步骤。 こと实上,ざい现今てき文献ぶんけんちゅう,这两个术语经つね区分くぶんてき使用しよう

ほん

[编辑]

かずすえ挖掘ほん质上ぞく于机がく习的内容ないよう

れい如《かずすえ挖掘:实用つくえがく习技术及Java实现》いち[7]だい部分ぶぶんつくえがく习的内容ないよう。这本书最はつたださけべ做“实用つくえがく习”,“かずすえ挖掘”一词是后来为了营销才加入的[8]通常つうじょうじょう况下,使用しようさら为正しきてき术语,(だい规模)かずすえ分析ぶんせき分析ぶんせきがくあるもの指出さしで实际てき研究けんきゅう方法ほうほうれい人工じんこう智能ちのうつくえがく习)かいさらじゅん确一些。

过程

[编辑]

かずすえ挖掘てき实际工作こうさく对大规模すうすえ进行动或はん动的分析ぶんせき,以提过去知的ちてきゆう价值てき潜在せんざいしんいきれい如数すえてきぶん组(つう聚类分析ぶんせき)、かずすえてき异常记录(つう异常检测すうすえ间的关系(つう关联しき规则挖掘)。这通常つうじょうわたる及到すうすえ库技术,れいそら索引さくいんえいspatial index。这些潜在せんざいしんいきどおり过对输入すうすえ处理きさきてき总结らいてい现,これきさき以用于进いち分析ぶんせき如机がく习和预测分析ぶんせき。举个れい,进行すうすえ挖掘操作そうさ可能かのうようすうすえぶんなり组,しかきさき使用しよう决策支持しじけい以获どくさらせい确的预测结果。过数すえ收集しゅうしゅうかずすえ预处、结果かい释和せんうつし报告算数さんすうすえ挖掘てき骤,ただし它们确实ぞく于“資料しりょう知識ちしき發現はつげん”(KDD)过程,ただ过是一些额外的环节。

かずすえ库知识发现(KDD)过程通常つうじょうてい义为以下いか阶段:

(1) 选择
(2) 预处
(3) 变换
(4) すうすえ挖掘
(5) かい释/评估。[4]

预处

[编辑]

ざい运用すうすえ挖掘算法さんぽうまえ,必须收集しゅうしゅう标数すえしゅうよし于数すえ挖掘ただのう发现实际存在そんざい于数すえちゅうてきしきもく标数すえしゅう必须だいいたあし包含ほうがん这些しき,而其あまりてきあし够简洁以ざい一个可接受的时间范围内挖掘。つね见的すうすえげん資料しりょうちょうある資料しりょうくらもうかざいすうすえ挖掘まえゆう必要ひつよう预处らい分析ぶんせき变量かずすえしかきさきようきよし标集。かずすえきよしうつりじょ包含ほうがん噪声含有がんゆうかけしつすうすえてき观测りょう

かずすえ挖掘

[编辑]

かずすえ挖掘わたる及六类常见的任务: [4]

  • 异常检测(异常/变化/偏差へんさ检测)– 识别寻常てきすうすえ记录,错误すうすえ需要じゅよういち调查。
  • 关联规则がく赖建)– 搜索そうさく变量间的关系。れい如,一个超市可能会收集顾客购买习惯的数据。运用关联规则がく习,ちょう以确てい哪些产品经常いちおこり买,并利用りよう这些しんいき帮助营销。这有时被しょう为市场购ぶつ分析ぶんせき
  • 聚类ざい未知数みちすうすえてき结构,发现すうすえてき类别与结构。
  • 分類ぶんるい对新てきすうすえ推广やめ知的ちてき结构てきにん务。れい如,一个电子邮件程序可能试图将一个电子邮件分类为“正常せいじょう郵件”ある“垃圾邮件”。
  • 迴歸 – 试图找到のう够以最小さいしょう误差对该すうすえけんてき函数かんすう
  • 汇总えいAutomatic summarization提供ていきょうりょう一个更紧凑的数据集表示,包括ほうかつ生成せいせい视化报表。

结果验证

[编辑]

かずすえ挖掘てき价值一般いっぱん带着一定いっていてき目的もくてき,而这目的もくてきいやいた实现一般可以通过结果验证来实现。验证ゆびつう提供ていきょうきゃく观证すえ对规てい要求ようきゅうやめいた满足てき认定”,而这个“认定”かつ动的さく划、实施完成かんせいあずか“规定要求ようきゅうてき内容ないよう紧密しょう关。かずすえ挖掘过程ちゅうてきすうすえ验证てき“规定要求ようきゅうてき设定,往往おうおうあずかかずすえ挖掘よう达到てき基本きほん标、过程标和さい终目标有关。验证てき结果可能かのう“规定要求ようきゅうとくいた完全かんぜん满足,あるもの完全かんぜんぼつゆういた满足,以及其他かい于两しゃ间的满足程度ていどてきじょう况。验证以由すうすえ挖掘てきじん自己じこ完成かんせい,也可以通过其他人たにん参与さんよある完全かんぜんどおり他人たにんてき项目,以与すうすえ挖掘しゃ毫无关联てき方式ほうしき进行验证。一般验证过程中,すうすえ挖掘しゃ不可能ふかのう参与さんよてきただし对于认定过程ちゅうてききゃく观证すえてき收集しゅうしゅう、认定てき评估とう过程如果どおり过与验证提出ていしゅつしゃ无关てきじんらい实现,往往おうおうさら具有ぐゆうきゃく观性。つう过结はて验证,すうすえ挖掘しゃ以得いた自己じこしょ挖掘てきすうすえ价值高低こうていてき评估。

隐私问题及伦[9]

[编辑]

あずか資料しりょうさがせかんゆうせきてきかえ牽扯到隐私問題もんだいれい如:いち僱主透過とうか訪問ほうもん醫療いりょう記錄きろくらいふるい選出せんしゅつ些有糖尿とうにょうびょうあるもの嚴重げんじゅう心臟しんぞう病的びょうてきじんしたがえ意圖いと削減さくげん保險ほけん支出ししゅつしか而,這種做法かいしるべ倫理りんり法律ほうりつ問題もんだい

たい政府せいふ商業しょうぎょう資料しりょうてき挖掘,可能かのうかいわたる及到てき國家こっか安全あんぜんあるもの商業しょうぎょう機密きみつるいてき問題もんだい。這對於保みつ也是しょうてき挑戰ちょうせん[10]

資料しりょうさがせかんゆう很多合法ごうほうてき用途ようとれい如可以在患者かんじゃぐんてき資料しりょうちゅう查出ぼう藥物やくぶつ副作用ふくさようてき關聯かんれん。這種關聯かんれん可能かのうざい1000にん中也ちゅうやかい出現しゅつげんいちれいただし藥物やくぶつがく相關そうかんてき項目こうもく就可以運用うんよう此方こちらほう減少げんしょうたい藥物やくぶつゆう不良ふりょう反應はんのうてき病人びょうにん數量すうりょうかえゆう可能かのう挽救生命せいめいただし这當ちゅうかえ存在そんざい資料しりょう可能かのう濫用らんようてき问题。

資料しりょうさがせかん實現じつげんりょうよう其他方法ほうほう不可能ふかのう實現じつげんてき方法ほうほうらい發現はつげん訊,ただし必須ひっす受到規範きはんおうとうざい適當てきとうてき說明せつめい使用しよう

如果資料しりょう收集しゅうしゅう特定とくていてき個人こじん麼就かい出現しゅつげん一些涉及保密、法律ほうりつ倫理りんりてき問題もんだい[11]

2018ねん5がつ25にちおうめい一般いっぱん資料しりょう保護ほご規範きはん(General Data Protection Regulation,GDPR)正式せいしき上路あげろ保障ほしょう個人こじん資料しりょう蒐集しゅうしゅうてき同意どういけんあずか刪除要求ようきゅうざい進入しんにゅうもう站時かい進行しんこう個人こじん資料しりょう蒐集しゅうしゅう處理しょり利用りよう告知こくちなみざい當事とうじじん同意どういしも蒐集しゅうしゅう[12]

方法ほうほう

[编辑]

かずすえ挖掘てき方法ほうほう包括ほうかつ監督かんとくしき學習がくしゅう監督かんとくしき學習がくしゅうはん监督がく增强ぞうきょうがく監督かんとくしき學習がくしゅう包括ほうかつ分類ぶんるい、估计、あずかはか监督しきがく包括ほうかつ:聚类,关联规则分析ぶんせき

れい

[编辑]

かずすえ挖掘ざいれいくだりぎょうちゅうてき應用おうようれい公司こうし跟蹤きゃくてき購買こうばい情況じょうきょう發現はつげんぼうきゃく購買こうばいりょう大量たいりょうてきしんいと襯衣,這時資料しりょうさがせかん系統けいとう就在此客しんいと襯衣あいだ建立こんりゅう關聯かんれん。銷售门就かいいた此信いき直接ちょくせつ發送はっそうしんいと襯衣てきとうまえぎょうじょう,以及所有しょゆう关于丝衬衫的资料发給該客。這樣れい售商てん通過つうか資料しりょうさがせかん系統けいとう發現はつげんりょう以前いぜん知的ちてきせき於客てきしんしんいき,并且扩大经营范围。

かずすえ

[编辑]

通常つうじょう作為さくいあずか資料しりょう倉庫そうこ分析ぶんせき相關そうかんてき技術ぎじゅつ資料しりょうさがせかんしょ於它們的中間ちゅうかんしか而,ゆうかえかい出現しゅつげんじゅうふんわらいてき應用おうようれい如發掘出ほりだし存在そんざいただしおこりらい奮人心的しんてきしき特別とくべつてき因果いんが關係かんけい),這些根本こんぽん相關そうかんてき、甚至引人あやまにゅう歧途てきある毫無值的關聯かんれんざい統計とうけいがく文獻ぶんけんうら通常つうじょうおどけしょうため資料しりょう挖泥えいData dredging」(Data dredging, data fishing, or data snooping)。

資料しりょうさがせかん意味いみちょ掃瞄可能かのうそん在任ざいにんなん關係かんけいてき資料しりょうしかこうふるい選出せんしゅつ符合ふごうてきしき,(這也さけべさく過度かどひきはいしき」)。大量たいりょうてきすうよりどころ集中しゅうちゅう總會そうかいゆう碰巧ある特定とくていてき資料しりょうゆうちょれいじん奮的關係かんけい」。よし此,一些結論看上去十分令人懷疑。儘管如此,いち探索たんさくせい資料しりょう分析ぶんせき かえ需要じゅよう應用おうよう統計とうけい分析ぶんせきひろ資料しりょう所以ゆえんこのみてき統計とうけい方法ほうほうすうよりどころ資料しりょうてきかいげんなみ很清晰。

さら危險きけん出現しゅつげん根本こんぽん存在そんざいてき關聯かんれんせい投資とうし分析ぶんせき乎最容易よういはん這種錯誤さくござい一本いっぽんさけべ做《顧客こきゃくてきゆうていざい哪裡?》てき書中しょちゅううつしどう:「そうゆう相當そうとう數量すうりょうてき可憐かれんじんせわし於從じょう千次的賭輪盤的輪子上尋找可能的重複模式。十分じゅうぶん不幸ふこうてき們通常會じょうかい找到。」[13]

多數たすうてき資料しりょうさがせかん研究けんきゅうせきちゅう發現はつげん大量たいりょうてき資料しりょう集中しゅうちゅういち高度こうど詳細しょうさいてきしきざいだいせわし人的じんてき資料しりょうさがせかんいち書中しょちゅう西にしどるよし亞大あだいがくれつ顛哥りん大學だいがく研究けんきゅうしゃ討論とうろんりょういち交替こうたいしきようらい發現はつげん一個資料集當中兩個元素的最小區別,它的目標もくひょう發現はつげん一個更簡單的模式來描述相關數據。[14]

まいり

[编辑]
方法ほうほう
应用领域
应用实例
あい关主题

かずすえ挖掘关于分析ぶんせきかずすえてきゆう关从すうすえちゅうひっさげしんじいきてきしんいきまいり见:

參考さんこう文獻ぶんけん

[编辑]
  1. ^ 1.0 1.1 1.2 1.3 Data Mining Curriculum. ACM SIGKDDえいSIGKDD. 2006-04-30 [2014-01-27]. (原始げんし内容ないようそん档于2013-10-14). 
  2. ^ Clifton, Christopher. Encyclopædia Britannica: Definition of Data Mining. 2010 [2010-12-09]. (原始げんし内容ないようそん于2011-02-05). 
  3. ^ Hastie, Trevor; Tibshirani, Robert; Friedman, Jerome. The Elements of Statistical Learning: Data Mining, Inference, and Prediction. 2009 [2012-08-07]. (原始げんし内容ないようそん档于2009-11-10). 
  4. ^ 4.0 4.1 4.2 Fayyad, Usama; Piatetsky-Shapiro, Gregory; Smyth, Padhraic. From Data Mining to Knowledge Discovery in Databases (PDF). 1996 [17 December 2008]. (原始げんし内容ないよう (PDF)そん档于2009-11-06). 
  5. ^ W. Frawley and G. Piatetsky-Shapiro and C. Matheus (Fall 1992). "Knowledge Discovery in Databases: An Overview". AI Magazine: pp. 213-228. ISSN 0738-4602.
  6. ^ D. Hand, H. Mannila, P. Smyth (2001). "Principles of Data Mining". MIT Press, Cambridge, MA. ISBN 0-262-08290-X .
  7. ^ Witten, Ian H.; Frank, Eibe; Hall, Mark A. Data Mining: Practical Machine Learning Tools and Techniques 3. Elsevier. 30 January 2011. ISBN 978-0-12-374856-0. 
  8. ^ Bouckaert, Remco R.; Frank, Eibe; Hall, Mark A.; Holmes, Geoffrey; Pfahringer, Bernhard; Reutemann, Peter; Witten, Ian H. WEKA Experiences with a Java open-source project. Journal of Machine Learning Research. 2010, 11: 2533–2541. the original title, "Practical machine learning", was changed ... The term "data mining" was [added] primarily for marketing reasons. 
  9. ^ 大數たいすうよりどころ語意ごい分析ぶんせきてきだい航海こうかい時代じだいすうよりどころてきかくれ私權しけんゆううたぐおもんばか?. 碟聯播網. 2019-06-02. (原始げんし内容ないようそん于2020-04-14). 
  10. ^ K.A. Taipale (December 15, 2003). "Data Mining and Domestic Security: Connecting the Dots to Make Sense of Data". Colum. Sci. & Tech. L. Rev. 5 (2). SSRN 546782 / OCLC 45263753 .
  11. ^ Chip Pitts (March 15, 2007). "The End of Illegal Domestic Spying? Don't Count on It". Wash. Spec.
  12. ^ 個人こじん資料しりょう保護ほご辦公しつ 7がつ10日とおか正式せいしき上路あげろ. 自由時報じゆうじほう. 2018-06-26. (原始げんし内容ないようそん于2019-12-12). 
  13. ^ Fred Schwed, Jr (1940). "Where Are the Customers' Yachts?". ISBN 0-471-11979-2 .
  14. ^ T. Menzies, Y. Hu (November 2003). "Data Mining For Very Busy People". IEEE Computer: pp. 18-25. ISSN 0018-9162.

延伸えんしん阅读

[编辑]

外部がいぶ連結れんけつ

[编辑]