维基百科 ひゃっか ,自由 じゆう 的 てき 百科 ひゃっか 全 ぜん 书
关联规则学 がく 习 (英語 えいご :Association rule learning )是 ぜ 一种在大型数据库中发现变量之间的有趣性关系的方法。它的目的 もくてき 是 ぜ 利用 りよう 一些有趣性的量度来识别数据库中发现的强规则。[1] 基 もと 于强规则的 てき 概念 がいねん ,Rakesh Agrawal等 とう 人 じん [2] 引入了 りょう 关联规则以发现由超 ちょう 市 し 的 てき POS 系 けい 统记录的大 だい 批交易 こうえき 数 すう 据 すえ 中 ちゅう 产品之 の 间的规律性 せい 。例 れい 如,从销售数据 すえ 中 ちゅう 发现的 てき 规则 {洋 よう 葱 ねぎ , 馬鈴薯 じゃがいも }→{汉堡} 会 かい 表明 ひょうめい 如果顾客一起买洋葱和馬鈴薯,他 た 们也有 ゆう 可能 かのう 买汉堡的肉 にく 。此类信 しん 息 いき 可 か 以作为做出 で 促销定 てい 价或 ある 产品植 うえ 入 いれ 等 とう 营销活 かつ 动决定 じょう 的 てき 根 ね 据 すえ 。除 じょ 了 りょう 上面 うわつら 购物篮分析 ぶんせき 中 なか 的 てき 例 れい 子 こ 以外 いがい , 关联规则如今还被用 よう 在 ざい 许多应用领域中 ちゅう ,包括 ほうかつ 网络用法 ようほう 探 さがせ 勘 かん 、入 にゅう 侵 おかせ 检测 、连续生 せい 产 及生物 せいぶつ 信 しん 息 いき 学 がく 中 なか 。与 あずか 序列 じょれつ 探 さがせ 勘 かん 相 そう 比 ひ ,关联规则学 がく 习通常 つうじょう 不 ふ 考 こう 虑在事 ごと 务中、或 ある 事 こと 务间的 てき 项目的 もくてき 顺序。
表 ひょう 1:关联规则的 てき 简单例 れい 子 こ
TID
网球拍 はく
网球
运动鞋
羽毛 うもう 球 だま
1
1
1
1
0
2
1
1
0
0
3
1
0
0
0
4
1
0
1
0
5
0
1
1
1
6
1
1
0
0
根 ね 据 すえ 韩家炜等[3] ,关联规则定 てい 义为:
假 かり 设
I
=
{
I
1
,
I
2
,
…
,
I
m
}
{\displaystyle I=\{I_{1},I_{2},\ldots ,I_{m}\}}
是 これ 项目 的 てき 集合 しゅうごう (項 こう 集 しゅう )。给定一个交易数据库
D
=
{
t
1
,
t
2
,
…
,
t
n
}
{\displaystyle D=\{t_{1},t_{2},\ldots ,t_{n}\}}
,其中每 ごと 个交易 こうえき (Transaction)
t
{\displaystyle t}
是 これ
I
{\displaystyle I}
的 てき 子 こ 集 しゅう ,即 そく
t
⊆
I
{\displaystyle t\subseteq I}
,每 まい 一个交易都与一个唯一的标识符TID(Transaction ID)对应。关联规则 是 ぜ 形 がた 如
X
⇒
Y
{\displaystyle X\Rightarrow Y}
的 てき 蕴涵 式 しき ,其中
X
,
Y
⊆
I
{\displaystyle X,Y\subseteq I}
且
X
∩
Y
=
∅
{\displaystyle X\cap Y=\emptyset }
,
X
{\displaystyle X}
和 わ
Y
{\displaystyle Y}
分 ぶん 别称为关联规则的先 さき 导 (antecedent 或 ある left-hand-side, LHS)和 わ 后 きさき 继 (consequent 或 ある right-hand-side, RHS)。关联规则
X
⇒
Y
{\displaystyle X\Rightarrow Y}
在 ざい
D
{\displaystyle D}
中 なか 的 てき 支持 しじ 度 ど (support)是 これ
D
{\displaystyle D}
中 ちゅう 交易 こうえき 包含 ほうがん
X
∪
Y
{\displaystyle X\cup Y}
的 てき 百分比 ひゃくぶんひ ,即 そく 概 がい 率 りつ
P
(
X
∪
Y
|
D
)
{\displaystyle P(X\cup Y|D)}
;置 おけ 信 しんじ 度 たび (confidence)是 ぜ 包含 ほうがん
X
{\displaystyle X}
的 てき 交易 こうえき 中 ちゅう 同 どう 时包含 ほうがん
Y
{\displaystyle Y}
的 てき 百分比 ひゃくぶんひ ,即 そく 条件 じょうけん 概 がい 率 りつ
P
(
Y
|
X
)
{\displaystyle P\left(Y|X\right)}
。如果同 どう 时满足 あし 最小 さいしょう 支持 しじ 度 ど 阈值和 わ 最小 さいしょう 置 おけ 信 しん 度 ど 阈值 ,则认为关联规则是有利 ゆうり 或 ある 有用 ゆうよう 的 てき 。这些阈值由 よし 用 よう 户或者 しゃ 专家设定。
用 もちい 一个简单的例子说明。表 ひょう 1是 ぜ 顾客购买记录的 てき 数 すう 据 すえ 库D,包含 ほうがん 6个交易 こうえき 。项集
I
=
{\displaystyle I=}
{网球拍 はく ,网球,运动鞋,羽毛 うもう 球 だま }。考 こう 虑关联规则:网球拍 はく
⇒
{\displaystyle \Rightarrow }
网球,交易 こうえき 1,2,3,4,6包含 ほうがん 网球拍 はく ,交易 こうえき 1,2,6同 どう 时包含 ほうがん 网球拍 はく 和 わ 网球,支持 しじ 度 ど
s
u
p
p
o
r
t
=
3
6
=
0.5
{\displaystyle support={\frac {3}{6}}=0.5}
,置 おけ 信 しんじ 度 たび
c
o
n
f
i
d
e
n
t
=
3
5
=
0.6
{\displaystyle confident={\frac {3}{5}}=0.6}
。若 わか 给定最小 さいしょう 支持 しじ 度 ど
α あるふぁ
=
0.5
{\displaystyle \alpha =0.5}
,最小 さいしょう 置 おけ 信 しんじ 度 たび
β べーた
=
0.6
{\displaystyle \beta =0.6}
,关联规则网球拍 はく
⇒
{\displaystyle \Rightarrow }
网球是 ぜ 有 ゆう 趣 おもむき 的 てき ,认为购买网球拍 はく 和 わ 购买网球之 の 间存在 そんざい 强 きょう 关联。
关联规则有 ゆう 以下 いか 常 つね 见分类[3] :
根 ね 据 すえ 关联规则所 しょ 处理的 てき 值的类型
如果考 こう 虑关联规则中的 てき 数 すう 据 すえ 项是否 ひ 出 で 现,则这种关联规则是布 ぬの 尔关联规则 (Boolean association rules)。例 れい 如上 じょじょう 面 めん 的 てき 例 れい 子 こ 。
如果关联规则中 ちゅう 的 てき 数 すう 据 すえ 项是数量 すうりょう 型 がた 的 てき ,这种关联规则是 ぜ 数量 すうりょう 关联规则 (quantitative association rules)。例 れい 如年龄("20-25")
⇒
{\displaystyle \Rightarrow }
购买("网球拍 はく "),年 ねん 龄是一个数量型的数据项。在 ざい 这种关联规则中 ちゅう ,一般 いっぱん 将 はた 数量 すうりょう 离散化 か (discretize)为区间。
根 ね 据 すえ 关联规则所 しょ 涉 わたる 及的数 すう 据 すえ 维数
如果关联规则各 かく 项只涉 わたる 及一个维,则它是 ぜ 单维关联规则 (single-dimensional association rules),例 れい 如购买("网球拍 はく ")
⇒
{\displaystyle \Rightarrow }
购买("网球")只 ただ 涉 わたる 及“购买”一 いち 个维度 ど 。
如果关联规则涉 わたる 及两个或两个以上 いじょう 维度,则它是 ぜ 多 た 维关联规则 (multi-dimensional association rules),例 れい 如年龄("20-25")
⇒
{\displaystyle \Rightarrow }
购买("网球拍 はく ")涉 わたる 及“年 とし 龄”和 かず “购买”两个维度。
根 ね 据 すえ 关联规则所 しょ 涉 わたる 及的抽象 ちゅうしょう 层次
如果不 ふ 涉 わたる 及不同 どう 层次的 てき 数 すう 据 すえ 项,得 とく 到 いた 的 てき 是 ぜ 单层关联规则 (single-level association rules)。
在 ざい 不同 ふどう 抽象 ちゅうしょう 层次中 ちゅう 挖掘出 で 的 てき 关联规则称 しょう 为广义关联规则 (generalized association rules)。例 れい 如年龄("20-25")
⇒
{\displaystyle \Rightarrow }
购买("HEAD网球拍 はく ")和年 かずとし 龄("20-25")
⇒
{\displaystyle \Rightarrow }
购买("网球拍 はく ")是 ぜ 广义关联规则,因 いん 为"HEAD网球拍 はく "和 わ "网球拍 はく "属 ぞく 于不同 ふどう 的 てき 抽象 ちゅうしょう 层次。
Apriori演算 えんざん 法 ほう 所 しょ 使用 しよう 的 てき 前 まえ 置 おけ 统计量 りょう 包括 ほうかつ :
最大 さいだい 规则物件 ぶっけん 数 すう :规则中 ちゅう 物件 ぶっけん 组所包含 ほうがん 的 てき 最大 さいだい 物件 ぶっけん 数量 すうりょう ;
最小 さいしょう 支援 しえん :规则中 ちゅう 物件 ぶっけん 或 ある 是 ぜ 物件 ぶっけん 组必须符合 ふごう 的 てき 最低 さいてい 案 あん 例 れい 数 すう ;
最小 さいしょう 信心 しんじん 水 すい 准 じゅん :计算规则所 しょ 必须符合 ふごう 的 てき 最低 さいてい 信心 しんじん 水 すい 准 じゅん 门槛。
^ Piatetsky-Shapiro, Gregory (1991), Discovery, analysis, and presentation of strong rules , in Piatetsky-Shapiro, Gregory; and Frawley, William J.; eds., Knowledge Discovery in Databases , AAAI/MIT Press, Cambridge, MA.
^ Agrawal, R.; Imieliński, T.; Swami, A. Mining association rules between sets of items in large databases. Proceedings of the 1993 ACM SIGMOD international conference on Management of data - SIGMOD '93. 1993: 207. ISBN 0897915925 . doi:10.1145/170035.170072 .
^ 3.0 3.1 J. Han, M. Kamber. Data Mining: Concepts and Techniques. Morgan Kaufmann: 2000