关联规则学がく习

关联规则学がく习（英語えいご：Association rule learning）是ぜ一种在大型数据库中发现变量之间的有趣性关系的方法。它的目的もくてき是ぜ利用りよう一些有趣性的量度来识别数据库中发现的强规则。^[1] 基もと于强规则的てき概念がいねん，Rakesh Agrawal等とう人じん^[2]引入了りょう关联规则以发现由超ちょう市し的てきPOS系けい统记录的大だい批交易こうえき数すう据すえ中ちゅう产品之の间的规律性せい。例れい如，从销售数据すえ中ちゅう发现的てき规则 {洋よう葱ねぎ, 馬鈴薯じゃがいも}→{汉堡} 会かい表明ひょうめい如果顾客一起买洋葱和馬鈴薯，他た们也有ゆう可能かのう买汉堡的肉にく。此类信しん息いき可か以作为做出で促销定てい价或ある产品植うえ入いれ等とう营销活かつ动决定じょう的てき根ね据すえ。除じょ了りょう上面うわつら购物篮分析ぶんせき（英えい语：market basket analysis）中なか的てき例れい子こ以外いがい，关联规则如今还被用よう在ざい许多应用领域中ちゅう，包括ほうかつ网络用法ようほう探さがせ勘かん（英えい语：Web usage mining）、入にゅう侵おかせ检测、连续生せい产（英えい语：Continuous production）及生物せいぶつ信しん息いき学がく中なか。与あずか序列じょれつ探さがせ勘かん（英えい语：sequence mining）相そう比ひ，关联规则学がく习通常つうじょう不ふ考こう虑在事ごと务中、或ある事こと务间的てき项目的もくてき顺序。

基本きほん概念がいねん

表ひょう1：关联规则的てき简单例れい子こ
TID	网球拍はく	网球	运动鞋	羽毛うもう球だま
1	1	1	1	0
2	1	1	0	0
3	1	0	0	0
4	1	0	1	0
5	0	1	1	1
6	1	1	0	0

根ね据すえ韩家炜等^[3]，关联规则定てい义为：

假かり设 $I=\{I_{1},I_{2},\ldots ,I_{m}\}$ 是これ项目的てき集合しゅうごう（項こう集しゅう）。给定一个交易数据库 $D=\{t_{1},t_{2},\ldots ,t_{n}\}$ ，其中每ごと个交易こうえき（Transaction） $t$ 是これ $I$ 的てき子こ集しゅう，即そく $t\subseteq I$ ，每まい一个交易都与一个唯一的标识符TID（Transaction ID）对应。关联规则是ぜ形がた如 $X\Rightarrow Y$ 的てき蕴涵式しき，其中 $X,Y\subseteq I$ 且 $X\cap Y=\emptyset$ ， $X$ 和わ $Y$ 分ぶん别称为关联规则的先さき导（antecedent 或ある left-hand-side, LHS）和わ后きさき继（consequent 或ある right-hand-side, RHS）。关联规则 $X\Rightarrow Y$ 在ざい $D$ 中なか的てき支持しじ度ど（support）是これ $D$ 中ちゅう交易こうえき包含ほうがん $X\cup Y$ 的てき百分比ひゃくぶんひ，即そく概がい率りつ $P(X\cup Y|D)$ ；置おけ信しんじ度たび（confidence）是ぜ包含ほうがん $X$ 的てき交易こうえき中ちゅう同どう时包含ほうがん $Y$ 的てき百分比ひゃくぶんひ，即そく条件じょうけん概がい率りつ $P\left(Y|X\right)$ 。如果同どう时满足あし最小さいしょう支持しじ度ど阈值和わ最小さいしょう置おけ信しん度ど阈值，则认为关联规则是有利ゆうり或ある有用ゆうよう的てき。这些阈值由よし用よう户或者しゃ专家设定。

用もちい一个简单的例子说明。表ひょう1是ぜ顾客购买记录的てき数すう据すえ库D，包含ほうがん6个交易こうえき。项集 $I=$ {网球拍はく,网球,运动鞋,羽毛うもう球だま}。考こう虑关联规则：网球拍はく $\Rightarrow$ 网球，交易こうえき1,2,3,4,6包含ほうがん网球拍はく，交易こうえき1,2,6同どう时包含ほうがん网球拍はく和わ网球，支持しじ度ど $support={\frac {3}{6}}=0.5$ ，置おけ信しんじ度たび $confident={\frac {3}{5}}=0.6$ 。若わか给定最小さいしょう支持しじ度ど $\alpha =0.5$ ，最小さいしょう置おけ信しんじ度たび $\beta =0.6$ ，关联规则网球拍はく $\Rightarrow$ 网球是ぜ有ゆう趣おもむき的てき，认为购买网球拍はく和わ购买网球之の间存在そんざい强きょう关联。

分ぶん类

关联规则有ゆう以下いか常つね见分类^[3]：

根ね据すえ关联规则所しょ处理的てき值的类型

如果考こう虑关联规则中的てき数すう据すえ项是否ひ出で现，则这种关联规则是布ぬの尔关联规则（Boolean association rules）。例れい如上じょじょう面めん的てき例れい子こ。
如果关联规则中ちゅう的てき数すう据すえ项是数量すうりょう型がた的てき，这种关联规则是ぜ数量すうりょう关联规则（quantitative association rules）。例れい如年龄("20-25") $\Rightarrow$ 购买("网球拍はく")，年ねん龄是一个数量型的数据项。在ざい这种关联规则中ちゅう，一般いっぱん将はた数量すうりょう离散化か（discretize）为区间。

根ね据すえ关联规则所しょ涉わたる及的数すう据すえ维数

如果关联规则各かく项只涉わたる及一个维，则它是ぜ单维关联规则（single-dimensional association rules），例れい如购买("网球拍はく") $\Rightarrow$ 购买("网球")只ただ涉わたる及“购买”一いち个维度ど。
如果关联规则涉わたる及两个或两个以上いじょう维度，则它是ぜ多た维关联规则（multi-dimensional association rules），例れい如年龄("20-25") $\Rightarrow$ 购买("网球拍はく")涉わたる及“年とし龄”和かず“购买”两个维度。

根ね据すえ关联规则所しょ涉わたる及的抽象ちゅうしょう层次

如果不ふ涉わたる及不同どう层次的てき数すう据すえ项，得とく到いた的てき是ぜ单层关联规则（single-level association rules）。
在ざい不同ふどう抽象ちゅうしょう层次中ちゅう挖掘出で的てき关联规则称しょう为广义关联规则（generalized association rules）。例れい如年龄("20-25") $\Rightarrow$ 购买("HEAD网球拍はく")和年かずとし龄("20-25") $\Rightarrow$ 购买("网球拍はく")是ぜ广义关联规则，因いん为"HEAD网球拍はく"和わ"网球拍はく"属ぞく于不同ふどう的てき抽象ちゅうしょう层次。

算法さんぽう

Apriori 演算えんざん法ほう

Apriori演算えんざん法ほう所しょ使用しよう的てき前まえ置おけ统计量りょう包括ほうかつ：

最大さいだい规则物件ぶっけん数すう：规则中ちゅう物件ぶっけん组所包含ほうがん的てき最大さいだい物件ぶっけん数量すうりょう；
最小さいしょう支援しえん：规则中ちゅう物件ぶっけん或ある是ぜ物件ぶっけん组必须符合ふごう的てき最低さいてい案あん例れい数すう；
最小さいしょう信心しんじん水すい准じゅん：计算规则所しょ必须符合ふごう的てき最低さいてい信心しんじん水すい准じゅん门槛。

F-P算法さんぽう

参考さんこう文献ぶんけん

^ Piatetsky-Shapiro, Gregory (1991), Discovery, analysis, and presentation of strong rules, in Piatetsky-Shapiro, Gregory; and Frawley, William J.; eds., Knowledge Discovery in Databases, AAAI/MIT Press, Cambridge, MA.
^ Agrawal, R.; Imieliński, T.; Swami, A. Mining association rules between sets of items in large databases. Proceedings of the 1993 ACM SIGMOD international conference on Management of data - SIGMOD '93. 1993: 207. ISBN 0897915925. doi:10.1145/170035.170072.
^ ^3.0 ^3.1 J. Han, M. Kamber. Data Mining: Concepts and Techniques. Morgan Kaufmann: 2000

[piatetsky-1] Piatetsky-Shapiro, Gregory (1991), Discovery, analysis, and presentation of strong rules, in Piatetsky-Shapiro, Gregory; and Frawley, William J.; eds., Knowledge Discovery in Databases, AAAI/MIT Press, Cambridge, MA.

[mining-2] Agrawal, R.; Imieliński, T.; Swami, A. Mining association rules between sets of items in large databases. Proceedings of the 1993 ACM SIGMOD international conference on Management of data - SIGMOD '93. 1993: 207. ISBN 0897915925. doi:10.1145/170035.170072.

[data_mining-3] 3.0 ^3.1 J. Han, M. Kamber. Data Mining: Concepts and Techniques. Morgan Kaufmann: 2000

[1]

[2]

[3]