新浪博客

weka –Apriori算法 关联规则挖掘实验

2013-12-23 17:02阅读:

一、Apriori算法参数含义

本次共进行了9组实验,使用了weka安装目录data文件夹下的contact-lenses.arff数据。


ToolsàArffViewer打开contact-lenses,可以看到实验数据contact-lenses共有24条记录,5个属性值。具体内容如下:



结合实验结果阐释下列12个参数的含义
1. car 如果设为真,则会挖掘类关联规则而不是全局关联规则。
2. classindex 类属性索引。如果设置为-1,最后的属性被当做类属性。
3. delta 以此数值为迭代递减单位。不断减小支持度直至达到最小支持度或产生了满足数量要求的规则。
4. lowerBoundMinSupport 最小支持度下界。
5. metricType 度量类型。设置对规则进行排序的度量依据。可以是:置信度(类关联规则只能用置信度挖掘),提升度(lift),杠杆率(leverage),确信度(conviction)
Weka中设置了几个类似置信度(confidence)的度量来衡量规则的关联程度,它们分别是:
a) Lift P(A,B)/(P(A)P(B)) Lift=1时表示AB独立。这个数越大(>1),越表明AB存在于一个购物篮中不是偶然现象,有较强的关联度.
b) Leverage :P(A,B)-P(A)P(B)
Leverage=0AB独立,Leverage越大AB的关系越密切
c) Conviction:P(A)P(!B)/P(A,!B) !B表示B没有发生) Conviction也是用来衡量AB的独立性。从它和lift的关系(对B取反,代入Lift公式后求倒数)可以看出,这个值越大, AB越关联。
6. minMtric 度量的最小值。
7. numRules 要发现的规则数。
8. outputItemSets 如果设置为真,会在结果中输出项集。
9. removeAllMissingCols 移除全部为缺省值的列。
10. significanceLevel 重要程度。重要性测试(仅用于置信度)。
11. upperBoundMinSupport 最小支持度上界。 从这个值开始迭代减小最小支持度。
12. verbose 如果设置为真,则算法会以冗余模式运行。


二、实验结果及分析

1. 以其中一组实验为例做详细分析

具体参数设置如下


完整的实验结果输出及具体分析

=== Run information === // 实验运行信息

Scheme: weka.associations.Apriori -I -N 10 -T 0 -C 0.9 -D 0.05 -U 1.0 -M 0.5 -S -1.0 -c -1
Relation: contact-lenses //数据的名称 contact-lenses
Instances: 24 //数据的记录数 24
Attributes: 5 //属性数目 5以及各属性名称
age
spectacle-prescrip
astigmatism
tear-prod-rate
contact-lenses
=== Associator model (full training set) ===
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
% scheme -所选的关联规则挖掘方案: Apriori算法
% 算法的参数设置:-I -N 10 -T 0 -C 0.9 -D 0.05 -U 1.0 -M 0.5 -S -1.0 -c -1 ;
% 各参数依次表示:
% I - 输出项集,若设为false则该值缺省;
% N 10 - 规则数为10;
% T 0 – 度量单位选为置信度,(T1-提升度,T2杠杆率,T3确信度);
% C 0.9 – 度量的最小值为0.9;
% D 0.05 - 递减迭代值为0.05;
% U 1.0 - 最小支持度上界为1.0;
% M 0.5 - 最小支持度下届设为0.5;
% S -1.0 - 重要程度为-1.0;
% c -1 - 类索引为-1输出项集设为真
% (由于car, removeAllMissingCols, verbose都保持为默认值False,因此在结果的参数设置为缺省,若设为True,则会在结果的参数设置信息中分别表示为A, R,V)
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%


Apriori // Apriori算法运行结果
=======

Minimum support: 0.5 (12 instances) //最小支持度0.5,即最少需要12个实例
Minimum metric : 0.9 //最小度量<</span>置信度>: 0.9

我的更多文章

下载客户端阅读体验更佳

APP专享