(Translated by https://www.hiragana.jp/)
关联规则学习 - 维基百科,自由的百科全书 とべ转到内容ないよう

关联规则がく

本页使用了标题或全文手工转换
维基百科ひゃっか自由じゆうてき百科ひゃっかぜん

关联规则がく英語えいごAssociation rule learning一种在大型数据库中发现变量之间的有趣性关系的方法。它的目的もくてき利用りよう一些有趣性的量度来识别数据库中发现的强规则。[1] もと于强规则てき概念がいねん,Rakesh Agrawalとうじん[2]引入りょう关联规则以发现由ちょうてきPOSけい统记录的だい交易こうえきすうすえちゅう产品间的规律せいれい如,从销售数すえちゅう发现てき规则 {ようねぎ, 馬鈴薯じゃがいも}→{汉堡} かい表明ひょうめい如果顾客一起买洋葱和馬鈴薯,们也ゆう可能かのう买汉堡的にく。此类しんいき以作为做促销ていある产品うえいれとう营销かつ动决じょうてきすえじょりょう上面うわつら购物篮分析ぶんせきえいmarket basket analysisなかてきれい以外いがい, 关联规则如今还被ようざい许多应用领域ちゅう包括ほうかつ网络用法ようほうさがせかんえいWeb usage miningにゅうおかせ检测连续せいえいContinuous production生物せいぶつしんいきがくなかあずか序列じょれつさがせかんえいsequence miningそう,关联规则がく通常つうじょうこう虑在ごと务中、あること务间てき目的もくてき顺序。

基本きほん概念がいねん

[编辑]
ひょう1:关联规则てき简单れい
TID 网球はく 网球 运动鞋 羽毛うもうだま
1 1 1 1 0
2 1 1 0 0
3 1 0 0 0
4 1 0 1 0
5 0 1 1 1
6 1 1 0 0

すえ韩家炜等[3],关联规则てい义为:

かり これ项目てき集合しゅうごうこうしゅう)。给定一个交易数据库 ,其中ごと交易こうえき(Transaction) これ てきしゅうそく まい一个交易都与一个唯一的标识符TID(Transaction ID)对应。关联规则がた てき蕴涵しき,其中 ぶん别称为关联规则的さき(antecedent ある left-hand-side, LHS)きさき(consequent ある right-hand-side, RHS)。关联规则 ざい なかてき支持しじ(support)これ ちゅう交易こうえき包含ほうがん てき百分比ひゃくぶんひそくがいりつ おけしんじたび(confidence)包含ほうがん てき交易こうえきちゅうどう包含ほうがん てき百分比ひゃくぶんひそく条件じょうけんがいりつ 。如果どう时满あし最小さいしょう支持しじ阈值最小さいしょうおけしん阈值,则认为关联规则是有利ゆうりある有用ゆうようてき。这些阈值よしよう户或しゃ专家设定。

もちい一个简单的例子说明。ひょう1顾客购买记录てきすうすえ库D,包含ほうがん6个交易こうえき。项集 {网球はく,网球,运动鞋,羽毛うもうだま}。こう虑关联规则:网球はく网球,交易こうえき1,2,3,4,6包含ほうがん网球はく交易こうえき1,2,6どう包含ほうがん网球はく网球,支持しじおけしんじたびわか给定最小さいしょう支持しじ最小さいしょうおけしんじたび,关联规则网球はく网球ゆうおもむきてき,认为购买网球はく购买网球存在そんざいきょう关联。


ぶん

[编辑]

关联规则ゆう以下いかつね见分类[3]

すえ关联规则しょ处理てき值的类型

  • 如果こう虑关联规则中てきすうすえ项是现,则这种关联规则是ぬの尔关联规则(Boolean association rules)。れい如上じょじょうめんてきれい
  • 如果关联规则ちゅうてきすうすえ项是数量すうりょうがたてき,这种关联规则数量すうりょう关联规则(quantitative association rules)。れい如年龄("20-25")购买("网球はく"),ねん龄是一个数量型的数据项。ざい这种关联规则ちゅう一般いっぱんはた数量すうりょう离散(discretize)为区间。

すえ关联规则しょわたる及的すうすえ维数

  • 如果关联规则かく项只わたる及一个维,则它单维关联规则(single-dimensional association rules),れい如购买("网球はく")购买("网球")ただわたる及“购买”いち个维
  • 如果关联规则わたる及两个或两个以上いじょう维度,则它维关联规则(multi-dimensional association rules),れい如年龄("20-25")购买("网球はく")わたる及“とし龄”かず“购买”两个维度。

すえ关联规则しょわたる及的抽象ちゅうしょう层次

  • 如果わたる及不どう层次てきすうすえ项,とくいたてき单层关联规则(single-level association rules)。
  • ざい不同ふどう抽象ちゅうしょう层次ちゅう挖掘てき关联规则しょう广义关联规则(generalized association rules)。れい如年龄("20-25")购买("HEAD网球はく")和年かずとし龄("20-25")购买("网球はく")广义关联规则,いん为"HEAD网球はく""网球はく"ぞく不同ふどうてき抽象ちゅうしょう层次。

算法さんぽう

[编辑]

Apriori 演算えんざんほう

[编辑]

Apriori演算えんざんほうしょ使用しようてきまえおけ统计りょう包括ほうかつ

  • 最大さいだい规则物件ぶっけんすう:规则ちゅう物件ぶっけん组所包含ほうがんてき最大さいだい物件ぶっけん数量すうりょう
  • 最小さいしょう支援しえん:规则ちゅう物件ぶっけんある物件ぶっけん组必须符合ふごうてき最低さいていあんれいすう
  • 最小さいしょう信心しんじんすいじゅん:计算规则しょ必须符合ふごうてき最低さいてい信心しんじんすいじゅん门槛。

F-P算法さんぽう

[编辑]

参考さんこう文献ぶんけん

[编辑]
  1. ^ Piatetsky-Shapiro, Gregory (1991), Discovery, analysis, and presentation of strong rules, in Piatetsky-Shapiro, Gregory; and Frawley, William J.; eds., Knowledge Discovery in Databases, AAAI/MIT Press, Cambridge, MA.
  2. ^ Agrawal, R.; Imieliński, T.; Swami, A. Mining association rules between sets of items in large databases. Proceedings of the 1993 ACM SIGMOD international conference on Management of data - SIGMOD '93. 1993: 207. ISBN 0897915925. doi:10.1145/170035.170072. 
  3. ^ 3.0 3.1 J. Han, M. Kamber. Data Mining: Concepts and Techniques. Morgan Kaufmann: 2000