数 かず 据 すえ 挖掘 (英語 えいご :Data mining )是 ぜ 一 いち 个跨学科 がっか 的 てき 计算机 つくえ 科学 かがく 分 ぶん 支 ささえ [ 1] [ 2] [ 3] 。它是用 よう 人工 じんこう 智能 ちのう 、机 つくえ 器 き 学 がく 习 、统计学 がく 和 わ 数 かず 据 すえ 库的 てき 交叉 こうさ 方法 ほうほう 在 ざい 相對 そうたい 較大型 がた 的 てき 数 かず 据 すえ 集 しゅう 中 ちゅう 发现模 も 式 しき 的 てき 计算过程[ 1] 。
数 かず 据 すえ 挖掘过程的 てき 总体目 め 标是从一个数据集中提取信息,并将其转换成可 か 理解 りかい 的 てき 结构,以进一 いち 步 ほ 使用 しよう [ 1] 。除 じょ 了 りょう 原始 げんし 分析 ぶんせき 步 ふ 骤,它还涉 わたる 及到数 すう 据 すえ 库和数 かず 据 すえ 管理 かんり 方面 ほうめん 、数 かず 据 すえ 预处理 り 、模型 もけい 与 あずか 推断 すいだん 方面 ほうめん 考量 こうりょう 、兴趣度 ど 度量 どりょう 、复杂度 ど 的 てき 考 こう 虑,以及发现结构、可 か 视化 及在 ざい 线更新 こうしん 等 とう 后 きさき 处理[ 1] 。数 かず 据 すえ 挖掘是 ぜ “資料 しりょう 庫 こ 知識 ちしき 發現 はつげん ”(Knowledge-Discovery in Databases, KDD)的 てき 分析 ぶんせき 步 ふ 骤[ 4] ,本 ほん 质上属 ぞく 于机器 き 学 がく 习的范畴。
类似词语“資料 しりょう 採 と 礦 ”、“数 かず 据 すえ 捕 ど 鱼”和 かず “数 かず 据 すえ 探 さがせ 测”指 ゆび 用 よう 数 すう 据 すえ 挖掘方法 ほうほう 来 らい 采 さい 样(可能 かのう )过小以致无法可 か 靠 もたれ 地 ち 统计推断 すいだん 出所 しゅっしょ 发现任 にん 何 なん 模 も 式 しき 的 てき 有效 ゆうこう 性 せい 的 てき 更 さら 大 だい 总体数 すう 据 すえ 集 しゅう 的 てき 部分 ぶぶん 。不 ふ 过这些方法 ほうほう 可 か 以建立 こんりゅう 新 しん 的 てき 假 かり 设来检验更 さら 大数 たいすう 据 すえ 总体。
資料 しりょう 探 さがせ 勘 かん 是 ぜ 因 いん 為 ため 海 うみ 量 りょう 有用 ゆうよう 資料 しりょう 快速 かいそく 增長 ぞうちょう 的 てき 產物 さんぶつ 。使用 しよう 計算 けいさん 機 き 進行 しんこう 歷史 れきし 資料 しりょう 分析 ぶんせき ,1960年代 ねんだい 數字 すうじ 方式 ほうしき 採集 さいしゅう 資料 しりょう 已 やめ 經 けい 實現 じつげん 。1980年代 ねんだい ,关系数 すう 据 すえ 库 隨 ずい 著 ちょ 能 のう 夠適應 おう 動態 どうたい 按需分析 ぶんせき 資料 しりょう 的 てき 結構 けっこう 化 か 查詢語 ご 言 げん 發展 はってん 起 おこり 來 らい 。数 かず 据 すえ 仓库開始 かいし 用 よう 來 らい 存 そん 儲 もうか 大量 たいりょう 的 てき 資料 しりょう 。
因 いん 為 ため 面 めん 臨處理 しょり 資料 しりょう 庫 こ 中 ちゅう 大量 たいりょう 資料 しりょう 的 てき 挑戰 ちょうせん ,於是資料 しりょう 探 さがせ 勘 かん 應 おう 運 うん 而生,對 たい 於這些問題 もんだい ,它的主要 しゅよう 方法 ほうほう 是 ぜ 資料 しりょう 統計 とうけい 分析 ぶんせき 和 わ 人工 じんこう 智能 ちのう 搜索 そうさく 技術 ぎじゅつ 。
資料 しりょう 探 さがせ 勘 かん 有 ゆう 以下 いか 這些不同 ふどう 的 てき 定義 ていぎ :
「從 したがえ 資料 しりょう 中 ちゅう 提 つつみ 取出 とりで 隱 かくれ 含的過去 かこ 未 み 知的 ちてき 有價 ゆうか 值的潛在 せんざい 信 しん 息 いき 」[ 5]
「一門 いちもん 從 したがえ 大量 たいりょう 資料 しりょう 或 ある 資料 しりょう 庫 こ 中 ちゅう 提 ひっさげ 取 ど 有用 ゆうよう 信 しんじ 息 いき 的 てき 科學 かがく 」[ 6]
儘管通常 つうじょう 資料 しりょう 探 さがせ 勘 かん 應用 おうよう 於資料 しりょう 分析 ぶんせき ,但 ただし 是 ぜ 像 ぞう 人工 じんこう 智能 ちのう 一樣 いちよう ,它也是 ぜ 一個具有豐富含義的詞彙,可用 かよう 於不同 ふどう 的 てき 領域 りょういき 。
它与KDD(Knowledge discovery in databases)的 てき 关系是 ぜ :KDD是 ぜ 从数据 すえ 中 ちゅう 辨 べん 别有效 ゆうこう 的 てき 、新 しん 颖的、潜在 せんざい 有用 ゆうよう 的 てき 、最 さい 终可理解 りかい 的 てき 模 も 式 しき 的 てき 过程;而数据 すえ 挖掘是 ぜ KDD通 どおり 过特定 とくてい 的 てき 算法 さんぽう 在 ざい 可 か 接受 せつじゅ 的 てき 计算效率 こうりつ 限 げん 制 せい 内 ない 生成 せいせい 特定 とくてい 模 も 式 しき 的 てき 一 いち 个步骤。
事 こと 实上,在 ざい 现今的 てき 文献 ぶんけん 中 ちゅう ,这两个术语经常 つね 不 ふ 加 か 区分 くぶん 的 てき 使用 しよう 。
数 かず 据 すえ 挖掘本 ほん 质上属 ぞく 于机器 き 学 がく 习的内容 ないよう 。
例 れい 如《数 かず 据 すえ 挖掘:实用机 つくえ 器 き 学 がく 习技术及Java实现》一 いち 书[ 7] 大 だい 部分 ぶぶん 是 ぜ 机 つくえ 器 き 学 がく 习的内容 ないよう 。这本书最初 はつ 只 ただ 叫 さけべ 做“实用机 つくえ 器 き 学 がく 习”,“数 かず 据 すえ 挖掘”一词是后来为了营销才加入的[ 8] 。通常 つうじょう 情 じょう 况下,使用 しよう 更 さら 为正式 しき 的 てき 术语,(大 だい 规模)数 かず 据 すえ 分析 ぶんせき 和 わ 分析 ぶんせき 学 がく ,或 ある 者 もの 指出 さしで 实际的 てき 研究 けんきゅう 方法 ほうほう (例 れい 如人工 じんこう 智能 ちのう 和 わ 机 つくえ 器 き 学 がく 习)会 かい 更 さら 准 じゅん 确一些。
数 かず 据 すえ 挖掘的 てき 实际工作 こうさく 是 ぜ 对大规模数 すう 据 すえ 进行自 じ 动或半 はん 自 じ 动的分析 ぶんせき ,以提取 と 过去未 み 知的 ちてき 有 ゆう 价值的 てき 潜在 せんざい 信 しん 息 いき ,例 れい 如数据 すえ 的 てき 分 ぶん 组(通 つう 过聚类分析 ぶんせき )、数 かず 据 すえ 的 てき 异常记录(通 つう 过异常检测 )和 わ 数 すう 据 すえ 之 の 间的关系(通 つう 过关联式 しき 规则 挖掘)。这通常 つうじょう 涉 わたる 及到数 すう 据 すえ 库技术,例 れい 如空 そら 间索引 さくいん 。这些潜在 せんざい 信 しん 息 いき 可 か 通 どおり 过对输入数 すう 据 すえ 处理之 の 后 きさき 的 てき 总结来 らい 呈 てい 现,之 これ 后 きさき 可 か 以用于进一 いち 步 ほ 分析 ぶんせき ,比 ひ 如机器 き 学 がく 习和预测分析 ぶんせき 。举个例 れい 子 こ ,进行数 すう 据 すえ 挖掘操作 そうさ 时可能 かのう 要 よう 把 わ 数 すう 据 すえ 分 ぶん 成 なり 多 た 组,然 しか 后 きさき 可 か 以使用 しよう 决策支持 しじ 系 けい 统 以获得 どく 更 さら 加 か 精 せい 确的预测结果。不 ふ 过数据 すえ 收集 しゅうしゅう 、数 かず 据 すえ 预处理 り 、结果解 かい 释和撰 せん 写 うつし 报告都 と 不 ふ 算数 さんすう 据 すえ 挖掘的 てき 步 ふ 骤,但 ただし 是 ぜ 它们确实属 ぞく 于“資料 しりょう 庫 こ 知識 ちしき 發現 はつげん ”(KDD)过程,只 ただ 不 ふ 过是一些额外的环节。
数 かず 据 すえ 库知识发现(KDD)过程通常 つうじょう 定 てい 义为以下 いか 阶段:
(1) 选择
(2) 预处理 り
(3) 变换
(4) 数 すう 据 すえ 挖掘
(5) 解 かい 释/评估。[ 4]
在 ざい 运用数 すう 据 すえ 挖掘算法 さんぽう 之 の 前 まえ ,必须收集 しゅうしゅう 目 め 标数据 すえ 集 しゅう 。由 よし 于数据 すえ 挖掘只 ただ 能 のう 发现实际存在 そんざい 于数据 すえ 中 ちゅう 的 てき 模 も 式 しき ,目 もく 标数据 すえ 集 しゅう 必须大 だい 到 いた 足 あし 以包含 ほうがん 这些模 も 式 しき ,而其余 あまり 的 てき 足 あし 够简洁以在 ざい 一个可接受的时间范围内挖掘。常 つね 见的数 すう 据 すえ 源 げん 如資料 しりょう 超 ちょう 市 し 或 ある 資料 しりょう 倉 くら 儲 もうか 。在 ざい 数 すう 据 すえ 挖掘之 の 前 まえ ,有 ゆう 必要 ひつよう 预处理 り 来 らい 分析 ぶんせき 多 た 变量数 かず 据 すえ 。然 しか 后 きさき 要 よう 清 きよし 理 り 目 め 标集。数 かず 据 すえ 清 きよし 理 り 移 うつり 除 じょ 包含 ほうがん 噪声 和 わ 含有 がんゆう 缺 かけ 失 しつ 数 すう 据 すえ 的 てき 观测量 りょう 。
数 かず 据 すえ 挖掘涉 わたる 及六类常见的任务: [ 4]
异常检测 (异常/变化/偏差 へんさ 检测)– 识别不 ふ 寻常的 てき 数 すう 据 すえ 记录,错误数 すう 据 すえ 需要 じゅよう 进一 いち 步 ほ 调查。
关联规则学 がく 习 (依 よ 赖建模 も )– 搜索 そうさく 变量之 の 间的关系。例 れい 如,一个超市可能会收集顾客购买习惯的数据。运用关联规则学 がく 习,超 ちょう 市 し 可 か 以确定 てい 哪些产品经常一 いち 起 おこり 买,并利用 りよう 这些信 しん 息 いき 帮助营销。这有时被称 しょう 为市场购物 ぶつ 篮分析 ぶんせき 。
聚类 – 是 ぜ 在 ざい 未知数 みちすう 据 すえ 的 てき 结构下 か ,发现数 すう 据 すえ 的 てき 类别与结构。
分類 ぶんるい – 是 ぜ 对新的 てき 数 すう 据 すえ 推广已 やめ 知的 ちてき 结构的 てき 任 にん 务。例 れい 如,一个电子邮件程序可能试图将一个电子邮件分类为“正常 せいじょう 郵件”或 ある “垃圾邮件”。
迴歸 – 试图找到能 のう 够以最小 さいしょう 误差对该数 すう 据 すえ 建 けん 模 も 的 てき 函数 かんすう 。
汇总 – 提供 ていきょう 了 りょう 一个更紧凑的数据集表示,包括 ほうかつ 生成 せいせい 可 か 视化和 わ 报表。
数 かず 据 すえ 挖掘的 てき 价值一般 いっぱん 带着一定 いってい 的 てき 目的 もくてき ,而这目的 もくてき 是 ぜ 否 いや 得 え 到 いた 实现一般可以通过结果验证来实现。验证是 ぜ 指 ゆび “通 つう 过提供 ていきょう 客 きゃく 观证据 すえ 对规定 てい 要求 ようきゅう 已 やめ 得 え 到 いた 满足的 てき 认定”,而这个“认定”活 かつ 动的策 さく 划、实施和 わ 完成 かんせい ,与 あずか “规定要求 ようきゅう ”的 てき 内容 ないよう 紧密相 しょう 关。数 かず 据 すえ 挖掘过程中 ちゅう 的 てき 数 すう 据 すえ 验证的 てき “规定要求 ようきゅう ”的 てき 设定,往往 おうおう 与 あずか 数 かず 据 すえ 挖掘要 よう 达到的 てき 基本 きほん 目 め 标、过程目 め 标和最 さい 终目标有关。验证的 てき 结果可能 かのう 是 ぜ “规定要求 ようきゅう ”得 とく 到 いた 完全 かんぜん 满足,或 ある 者 もの 完全 かんぜん 没 ぼつ 有 ゆう 得 え 到 いた 满足,以及其他介 かい 于两者 しゃ 之 の 间的满足程度 ていど 的 てき 状 じょう 况。验证可 か 以由数 すう 据 すえ 挖掘的 てき 人 じん 自己 じこ 完成 かんせい ,也可以通过其他人 たにん 参与 さんよ 或 ある 完全 かんぜん 通 どおり 过他人 たにん 的 てき 项目,以与数 すう 据 すえ 挖掘者 しゃ 毫无关联的 てき 方式 ほうしき 进行验证。一般验证过程中,数 すう 据 すえ 挖掘者 しゃ 是 ぜ 不可能 ふかのう 不 ふ 参与 さんよ 的 てき ,但 ただし 对于认定过程中 ちゅう 的 てき 客 きゃく 观证据 すえ 的 てき 收集 しゅうしゅう 、认定的 てき 评估等 とう 过程如果通 どおり 过与验证提出 ていしゅつ 者 しゃ 无关的 てき 人 じん 来 らい 实现,往往 おうおう 更 さら 具有 ぐゆう 客 きゃく 观性。通 つう 过结果 はて 验证,数 すう 据 すえ 挖掘者 しゃ 可 か 以得到 いた 对自己 じこ 所 しょ 挖掘的 てき 数 すう 据 すえ 价值高低 こうてい 的 てき 评估。
與 あずか 資料 しりょう 探 さがせ 勘 かん 有 ゆう 關 せき 的 てき ,還 かえ 牽扯到隐私問題 もんだい ,例 れい 如:一 いち 個 こ 僱主可 か 以透過 とうか 訪問 ほうもん 醫療 いりょう 記錄 きろく 來 らい 篩 ふるい 選出 せんしゅつ 那 な 些有糖尿 とうにょう 病 びょう 或 ある 者 もの 嚴重 げんじゅう 心臟 しんぞう 病的 びょうてき 人 じん ,從 したがえ 而意圖 いと 削減 さくげん 保險 ほけん 支出 ししゅつ 。然 しか 而,這種做法會 かい 導 しるべ 致倫理 りんり 和 わ 法律 ほうりつ 問題 もんだい 。
對 たい 於政府 せいふ 和 わ 商業 しょうぎょう 資料 しりょう 的 てき 挖掘,可能 かのう 會 かい 涉 わたる 及到的 てき ,是 ぜ 國家 こっか 安全 あんぜん 或 ある 者 もの 商業 しょうぎょう 機密 きみつ 之 の 類 るい 的 てき 問題 もんだい 。這對於保密 みつ 也是個 こ 不 ふ 小 しょう 的 てき 挑戰 ちょうせん 。[ 10]
資料 しりょう 探 さがせ 勘 かん 有 ゆう 很多合法 ごうほう 的 てき 用途 ようと ,例 れい 如可以在患者 かんじゃ 群 ぐん 的 てき 資料 しりょう 庫 こ 中 ちゅう 查出某 ぼう 藥物 やくぶつ 和 わ 其副作用 ふくさよう 的 てき 關聯 かんれん 。這種關聯 かんれん 可能 かのう 在 ざい 1000人 にん 中也 ちゅうや 不 ふ 會 かい 出現 しゅつげん 一 いち 例 れい ,但 ただし 藥物 やくぶつ 學 がく 相關 そうかん 的 てき 項目 こうもく 就可以運用 うんよう 此方 こちら 法 ほう 減少 げんしょう 對 たい 藥物 やくぶつ 有 ゆう 不良 ふりょう 反應 はんのう 的 てき 病人 びょうにん 數量 すうりょう ,還 かえ 有 ゆう 可能 かのう 挽救生命 せいめい ;但 ただし 这當中 ちゅう 還 かえ 是 ぜ 存在 そんざい 着 ぎ 資料 しりょう 庫 こ 可能 かのう 被 ひ 濫用 らんよう 的 てき 问题。
資料 しりょう 探 さがせ 勘 かん 實現 じつげん 了 りょう 用 よう 其他方法 ほうほう 不可能 ふかのう 實現 じつげん 的 てき 方法 ほうほう 來 らい 發現 はつげん 資 し 訊,但 ただし 它必須 ひっす 受到規範 きはん ,應 おう 當 とう 在 ざい 適當 てきとう 的 てき 說明 せつめい 下 か 使用 しよう 。
如果資料 しりょう 是 ぜ 收集 しゅうしゅう 自 じ 特定 とくてい 的 てき 個人 こじん ,那 な 麼就會 かい 出現 しゅつげん 一些涉及保密、法律 ほうりつ 和 わ 倫理 りんり 的 てき 問題 もんだい 。[ 11]
2018年 ねん 5月 がつ 25日 にち ,歐 おう 盟 めい 一般 いっぱん 資料 しりょう 保護 ほご 規範 きはん (General Data Protection Regulation,GDPR)正式 せいしき 上路 あげろ ,保障 ほしょう 個人 こじん 資料 しりょう 蒐集 しゅうしゅう 的 てき 同意 どうい 權 けん 與 あずか 刪除要求 ようきゅう ,在 ざい 進入 しんにゅう 網 もう 站時會 かい 進行 しんこう 個人 こじん 資料 しりょう 蒐集 しゅうしゅう 、處理 しょり 及利用 りよう 之 の 告知 こくち ,並 なみ 在 ざい 當事 とうじ 人 じん 同意 どうい 之 の 下 しも 做蒐集 しゅうしゅう 。[ 12]
数 かず 据 すえ 挖掘的 てき 方法 ほうほう 包括 ほうかつ 監督 かんとく 式 しき 學習 がくしゅう 、非 ひ 監督 かんとく 式 しき 學習 がくしゅう 、半 はん 监督学 がく 习 、增强 ぞうきょう 学 がく 习 。監督 かんとく 式 しき 學習 がくしゅう 包括 ほうかつ :分類 ぶんるい 、估计、預 あずか 測 はか 。非 ひ 监督式 しき 学 がく 习包括 ほうかつ :聚类,关联规则分析 ぶんせき 。
数 かず 据 すえ 挖掘在 ざい 零 れい 售行 くだり 業 ぎょう 中 ちゅう 的 てき 應用 おうよう :零 れい 售公司 こうし 跟蹤客 きゃく 戶 ど 的 てき 購買 こうばい 情況 じょうきょう ,發現 はつげん 某 ぼう 個 こ 客 きゃく 戶 ど 購買 こうばい 了 りょう 大量 たいりょう 的 てき 真 しん 絲 いと 襯衣,這時資料 しりょう 探 さがせ 勘 かん 系統 けいとう 就在此客戶 ど 和 わ 真 しん 絲 いと 襯衣之 の 間 あいだ 建立 こんりゅう 關聯 かんれん 。銷售部 ぶ 门就會 かい 看 み 到 いた 此信息 いき ,直接 ちょくせつ 發送 はっそう 真 しん 絲 いと 襯衣的 てき 當 とう 前 まえ 行 ぎょう 情 じょう ,以及所有 しょゆう 关于真 ま 丝衬衫的资料发給該客戶 ど 。這樣零 れい 售商店 てん 通過 つうか 資料 しりょう 探 さがせ 勘 かん 系統 けいとう 就發現 はつげん 了 りょう 以前 いぜん 未 み 知的 ちてき 關 せき 於客戶 ど 的 てき 新 しん 信 しん 息 いき ,并且扩大经营范围。
通常 つうじょう 作為 さくい 與 あずか 資料 しりょう 倉庫 そうこ 和 わ 分析 ぶんせき 相關 そうかん 的 てき 技術 ぎじゅつ ,資料 しりょう 探 さがせ 勘 かん 處 しょ 於它們的中間 ちゅうかん 。然 しか 而,有 ゆう 時 じ 還 かえ 會 かい 出現 しゅつげん 十 じゅう 分 ふん 可 か 笑 わらい 的 てき 應用 おうよう ,例 れい 如發掘出 ほりだし 不 ふ 存在 そんざい 但 ただし 看 み 起 おこり 來 らい 振 ふ 奮人心的 しんてき 模 も 式 しき (特別 とくべつ 的 てき 因果 いんが 關係 かんけい ),這些根本 こんぽん 不 ふ 相關 そうかん 的 てき 、甚至引人誤 あやま 入 にゅう 歧途的 てき 、或 ある 是 ぜ 毫無價 か 值的關聯 かんれん ,在 ざい 統計 とうけい 學 がく 文獻 ぶんけん 裡 うら 通常 つうじょう 被 ひ 戲 おどけ 稱 しょう 為 ため 「資料 しりょう 挖泥 」(Data dredging, data fishing, or data snooping )。
資料 しりょう 探 さがせ 勘 かん 意味 いみ 著 ちょ 掃瞄可能 かのう 存 そん 在任 ざいにん 何 なん 關係 かんけい 的 てき 資料 しりょう ,然 しか 後 こう 篩 ふるい 選出 せんしゅつ 符合 ふごう 的 てき 模 も 式 しき ,(這也叫 さけべ 作 さく 「過度 かど 匹 ひき 配 はい 模 も 式 しき 」)。大量 たいりょう 的 てき 數 すう 據 よりどころ 集中 しゅうちゅう 總會 そうかい 有 ゆう 碰巧或 ある 特定 とくてい 的 てき 資料 しりょう ,有 ゆう 著 ちょ 「令 れい 人 じん 振 ふ 奮的關係 かんけい 」。因 よし 此,一些結論看上去十分令人懷疑。儘管如此,一 いち 些探索 たんさく 性 せい 資料 しりょう 分析 ぶんせき 還 かえ 是 ぜ 需要 じゅよう 應用 おうよう 統計 とうけい 分析 ぶんせき 尋 ひろ 找資料 しりょう ,所以 ゆえん 好 このみ 的 てき 統計 とうけい 方法 ほうほう 和 わ 數 すう 據 よりどころ 資料 しりょう 的 てき 界 かい 限 げん 並 なみ 不 ふ 是 ぜ 很清晰。
更 さら 危險 きけん 是 ぜ 出現 しゅつげん 根本 こんぽん 不 ふ 存在 そんざい 的 てき 關聯 かんれん 性 せい 。投資 とうし 分析 ぶんせき 家 か 似 に 乎最容易 ようい 犯 はん 這種錯誤 さくご 。在 ざい 一本 いっぽん 叫 さけべ 做《顧客 こきゃく 的 てき 遊 ゆう 艇 てい 在 ざい 哪裡?》的 てき 書中 しょちゅう 寫 うつし 道 どう :「總 そう 是 ぜ 有 ゆう 相當 そうとう 數量 すうりょう 的 てき 可憐 かれん 人 じん ,忙 せわし 於從上 じょう 千次的賭輪盤的輪子上尋找可能的重複模式。十分 じゅうぶん 不幸 ふこう 的 てき 是 ぜ ,他 た 們通常會 じょうかい 找到。」[ 13]
多數 たすう 的 てき 資料 しりょう 探 さがせ 勘 かん 研究 けんきゅう 都 と 關 せき 注 ちゅう 於發現 はつげん 大量 たいりょう 的 てき 資料 しりょう 集中 しゅうちゅう ,一 いち 個 こ 高度 こうど 詳細 しょうさい 的 てき 模 も 式 しき 。在 ざい 《大 だい 忙 せわし 人的 じんてき 資料 しりょう 探 さがせ 勘 かん 》一 いち 書中 しょちゅう , 西 にし 弗 どる 吉 よし 尼 に 亞大 あだい 學 がく 和 わ 不 ふ 列 れつ 顛哥倫 りん 比 ひ 亞 あ 大學 だいがく 研究 けんきゅう 者 しゃ 討論 とうろん 了 りょう 一 いち 個 こ 交替 こうたい 模 も 式 しき ,用 よう 來 らい 發現 はつげん 一個資料集當中兩個元素的最小區別,它的目標 もくひょう 是 ぜ 發現 はつげん 一個更簡單的模式來描述相關數據。[ 14]
方法 ほうほう
应用领域
应用实例
相 あい 关主题
数 かず 据 すえ 挖掘是 ぜ 关于分析 ぶんせき 数 かず 据 すえ 的 てき ;有 ゆう 关从数 すう 据 すえ 中 ちゅう 提 ひっさげ 取 ど 信 しんじ 息 いき 的 てき 信 しん 息 いき ,参 まいり 见:
^ 1.0 1.1 1.2 1.3 Data Mining Curriculum . ACM SIGKDD . 2006-04-30 [2014-01-27 ] . (原始 げんし 内容 ないよう 存 そん 档于2013-10-14).
^ Clifton, Christopher. Encyclopædia Britannica: Definition of Data Mining . 2010 [2010-12-09 ] . (原始 げんし 内容 ないよう 存 そん 档 于2011-02-05).
^ Hastie, Trevor ; Tibshirani, Robert ; Friedman, Jerome . The Elements of Statistical Learning: Data Mining, Inference, and Prediction . 2009 [2012-08-07 ] . (原始 げんし 内容 ないよう 存 そん 档于2009-11-10).
^ 4.0 4.1 4.2 Fayyad, Usama ; Piatetsky-Shapiro, Gregory ; Smyth, Padhraic. From Data Mining to Knowledge Discovery in Databases (PDF) . 1996 [17 December 2008] . (原始 げんし 内容 ないよう (PDF) 存 そん 档于2009-11-06).
^ W. Frawley and G. Piatetsky-Shapiro and C. Matheus (Fall 1992). "Knowledge Discovery in Databases: An Overview ". AI Magazine : pp. 213-228. ISSN 0738-4602 .
^ D. Hand, H. Mannila, P. Smyth (2001). "Principles of Data Mining ". MIT Press, Cambridge, MA. ISBN 0-262-08290-X .
^ Witten, Ian H. ; Frank, Eibe; Hall, Mark A. Data Mining: Practical Machine Learning Tools and Techniques 3. Elsevier. 30 January 2011. ISBN 978-0-12-374856-0 .
^ Bouckaert, Remco R.; Frank, Eibe; Hall, Mark A.; Holmes, Geoffrey; Pfahringer, Bernhard; Reutemann, Peter; Witten, Ian H. WEKA Experiences with a Java open-source project. Journal of Machine Learning Research. 2010, 11 : 2533–2541. the original title, "Practical machine learning", was changed ... The term "data mining" was [added] primarily for marketing reasons.
^ 《大數 たいすう 據 よりどころ 及語意 ごい 分析 ぶんせき 的 てき 大 だい 航海 こうかい 時代 じだい 》數 すう 據 よりどころ 的 てき 隱 かくれ 私權 しけん 是 ぜ 否 ひ 有 ゆう 疑 うたぐ 慮 おもんばか ? . 飛 ひ 碟聯播網. 2019-06-02. (原始 げんし 内容 ないよう 存 そん 档 于2020-04-14).
^ K.A. Taipale (December 15, 2003). "Data Mining and Domestic Security: Connecting the Dots to Make Sense of Data ". Colum. Sci. & Tech. L. Rev. 5 (2). SSRN 546782 / OCLC 45263753 .
^ Chip Pitts (March 15, 2007). "The End of Illegal Domestic Spying? Don't Count on It ". Wash. Spec.
^ 個人 こじん 資料 しりょう 保護 ほご 辦公室 しつ 7月 がつ 10日 とおか 正式 せいしき 上路 あげろ . 自由時報 じゆうじほう . 2018-06-26. (原始 げんし 内容 ないよう 存 そん 档 于2019-12-12).
^ Fred Schwed, Jr (1940). "Where Are the Customers' Yachts? ". ISBN 0-471-11979-2 .
^ T. Menzies, Y. Hu (November 2003). "Data Mining For Very Busy People ". IEEE Computer : pp. 18-25. ISSN 0018-9162 .
Cabena, Peter; Hadjnian, Pablo; Stadler, Rolf; Verhees, Jaap; Zanasi, Alessandro (1997); Discovering Data Mining: From Concept to Implementation , Prentice Hall , ISBN 0-13-743980-6
M.S. Chen, J. Han, P.S. Yu (1996) "Data mining: an overview from a database perspective (页面存 そん 档备份 ,存 そん 于互联网档案 あん 馆 )". Knowledge and data Engineering, IEEE Transactions on 8 (6), 866–883
Feldman, Ronen; Sanger, James (2007); The Text Mining Handbook , Cambridge University Press , ISBN 978-0-521-83657-9
Guo, Yike; and Grossman, Robert (editors) (1999); High Performance Data Mining: Scaling Algorithms, Applications and Systems , Kluwer Academic Publishers
Han, Jiawei , Micheline Kamber, and Jian Pei. Data mining: concepts and techniques . Morgan kaufmann, 2006.
Hastie, Trevor , Tibshirani, Robert and Friedman, Jerome (2001); The Elements of Statistical Learning: Data Mining, Inference, and Prediction , Springer, ISBN 0-387-95284-5
Liu, Bing (2007); Web Data Mining: Exploring Hyperlinks, Contents and Usage Data , Springer , ISBN 3-540-37881-2
Murphy, Chris. Is Data Mining Free Speech?. InformationWeek (UMB ). 16 May 2011: 12.
Nisbet, Robert; Elder, John; Miner, Gary (2009); Handbook of Statistical Analysis & Data Mining Applications , Academic Press /Elsevier, ISBN 978-0-12-374765-5
Poncelet, Pascal; Masseglia, Florent; and Teisseire, Maguelonne (editors) (October 2007); "Data Mining Patterns: New Methods and Applications", Information Science Reference , ISBN 978-1-59904-162-9
Tan, Pang-Ning; Steinbach, Michael; and Kumar, Vipin (2005); Introduction to Data Mining , ISBN 0-321-32136-7
Theodoridis, Sergios; and Koutroumbas, Konstantinos (2009); Pattern Recognition , 4th Edition, Academic Press, ISBN 978-1-59749-272-0
Weiss, Sholom M.; and Indurkhya, Nitin (1998); Predictive Data Mining , Morgan Kaufmann
Witten, Ian H. ; Frank, Eibe; Hall, Mark A. Data Mining: Practical Machine Learning Tools and Techniques 3. Elsevier. 30 January 2011. ISBN 978-0-12-374856-0 . (See also Free Weka software )
Ye, Nong (2003); The Handbook of Data Mining , Mahwah, NJ: Lawrence Erlbaum
创建数 すう 据 すえ 仓库
Concepts Variants Elements Fact Dimension Filling
基本 きほん 概念 がいねん 數學 すうがく 模型 もけい 學習 がくしゅう 範式 はんしき 主要 しゅよう 應用 おうよう 相關 そうかん 領域 りょういき