2007年1月12日
今天去探访了一家航空货运客户,了解了一些需求,是一个很标准的数据仓库项目。现有的面包黄油系统(业务系统)有很多,foc,icargo,xx等等,现在他们做统计、预算要用到一批报表,报表的数据源都是手工从各个系统的查询界面抓取到excel里面,然后再把excel手工制作成报表的样子。
好一个恶梦般的报表制作过程啊,数据仓库正是为了解决这个恶梦而产生的。但是老板今天没有着重介绍关于数据仓库的东西,而是引导他们认识“模型”这个东西,我想原因大概有两个:
1)挖掘更多的需求。
他们手工制作那批报表是几个小姑娘在做,客户“低估”了小姑娘的价值,也同时低估了这个系统的价值,只有挖出更多的需求才能赚钱。
2)推出关键竞争力:模型
一起来竞争这个项目还有两家公司,我们只是候选人之一,所以得有有竞争力的东西拿上台面来。老板选择了“模型”,这个竞争力刚在前不久的一个项目中胜出了,那家客户对老板提出的模型很感兴趣,所以选择了我们。
那什么是“模型”?
例子就是今天提到油价对他们成本的影响,他们估计油价占成本的50%左右,而且油价非常不稳定,所以导致收益也跟着波动,于是这里的模型就是收益随油价波动的一个相关曲线,继而可以设定油价预警线,在这个油价的时候收益可能只有5%,所以需要预警了,这个是只有一个油价因素的简单模型,实际情况得加入货物重量,飞行时间,维修费用等等因素建立一个互相制约的模型,进而可以根据某几个因素的变动从而对其他因素作出调整以达到收益最大化。
这个idea看起来很诱人,先不管它,再来看看数据挖掘中是怎么对模型作出定义和解释的。
很不幸,在data mining中他们不叫做模型,而是叫做模式(pattern),不过还好,名字不同,意义相通。
DM的功能就是:指定的DM任务中要找的模式,DM任务又分为描述(descriptive)和预测(predictive),那dm就是指定描述和预测的模式。也是说模式是dm的一个目标,模式经过评估和表示后就是知识,dm这个知识发现过程(kdd)也就结束了。
模式包括
1)概念/类描述:特征化和区分
比如顾客的概念包括:bigSpenders和bugetSpenders,这两个名词就是一个概念,每个概念都有它自己的特征,这就是特征化,每个概念都有用来区分和其他概念不同的东西,这个就是区分。
dm找到这种模式可以做什么?比如特征化后发现购买国产mp3的顾客都是bugetSpender,比如象我。
2)关联分析(association analysis)
关联分析就是发现关联规则(association rule)
关联规则是形如 X=>Y 的东西,即 A1C A2^ ...^Am => B1^ B2^ ... ^Bn 这种形式,其中Ai(i属于[1,m]) Bj(j属于[1,n])是属性-值对(attribute-value pairs),X=>Y 解释为:“满足X中的条件的数据多半也满足Y中条件”
比如:age(x,20...29) ^ income(x,20k...29k) => buys(x,"ipod") [support=2%,confidence=60%]
//support是支持度,就是所有数据中符合这条规则的数据占比
//confidence是置信度,就是满足规则左边条件的客户60%的可能买ipod.我买的是meizu的,但是不属于那另外的40%,-_-
最近在做规则评分的项目,用上了jboss rules (drools),这条规则用drools的drl语法就是:
When
c:Customer(20<=age,age<=29 , 20000<=income,income<=29000)
then
c.buys(new Mp3("ipod"));
drools里面的规则的置信度都是100%的 -_-
dm中把以上属性或谓词(predicate,例如buys这个动作)称之为纬度,于是上面这条规则就是多维关联规则(multidimensional association rule)了,好拉风的名词。
3)分类(classification)和预测(prediction)
分类和前面的“类描述”很容易混淆。
分类是:找出描述并区分数据类或概念的模型(model)或函数,以便能用模型预测类标记为未知的对象类。
导出模型(derived model)是基于训练数据(training data,就是已知数据)的分析,它可以用多种形式来表达,比如分类(if-then)规则,判定树(decision trees),数学公式,神经网络(neural networks)
分类可以用来预测数据对象的类标记,当被预测的值是数值数据时,通常称之为预测。
4)聚类分析(clustering analysis)
过程:本着最大化类内的相似性,最小话类间的相似性的原则进行聚类或分组
5)孤立点分析
孤立点(outlier):和一般的不一样的那些家伙。在一些应用中,比如欺诈分析,罕见的事情反而更有趣。孤立点分析也成为孤立点挖掘(outlier mining)
6)演变分析(evolution analysis)
描述行为随时间变化的规律和趋势,并对其建模。这个在计量经济学里面专门有时间序列分析来整。
OK,就这些了,了解了这些模式对数据挖掘也就有了一个大概的了解了,因为dm也有人称之为模式分析,大致的过程就是发现上面这些模式或者运用这些模式,还不一定全用上。
回到今天俺老板力推的模型,实际上就是一个关联分析,这个我在学计量经济学的时候还整了个关于各种电脑配件价格和一些市场因素的关联小模型来忽悠过老师,不过建立一个收益、成本因素的关联模型来给客户就不是那么好忽悠了。关于忽悠,dm中也有介绍,就是模式是不是有趣(interesting)的。怎么衡量是否有趣呢,有两个比较重要的指标,就是前面提到的confidence和support.
这次客户对我们的idea的评价是很有意思,看起来也就是很有趣了,不过只有建立模型并找到模式才能知道他们的confidence和support是多少了,希望是真正的有趣。
分享到:
- 2007-01-15 09:23
- 浏览 4224
- 评论(2)
- 论坛回复 / 浏览 (2 / 5282)
- 查看更多
相关推荐
人工智能-数据挖掘-基于数据挖掘技术的电动汽车负荷短期组合预测模型.pdf
数据挖掘的体系结构 数据挖掘的过程模型 Fayyad模型 CRISP-DM模型
高级数据挖掘课程-大数据挖掘之互联网金融风控模型 共27页.pptx
人工智能-数据挖掘-基于GIS和数据挖掘的土壤重金属污染评价与扩散模型研究.pdf
文中将Multi-Agent技术应用到数据挖掘中,并提出了基于Multi-Agent智能化的数据挖掘模型,讨论了模型的运行过程 排版不太好,可以凑合着看一下
基于ARIMA-Kalman滤波器数据挖掘模型的油井产量预测.pdf
人工智能-数据挖掘-数据挖掘可视化模型及其应用研究.pdf
环境数据处理与数学模型课件 01-课程介绍.ppt 环境数据处理与数学模型课件 02-环境数据处理的基本概念.ppt 环境数据处理与数学模型课件 03-环境数据分析方法-.ppt 环境数据处理与数学模型课件 04-环境数据分析方法-2...
人工智能-数据挖掘-基于数据挖掘技术的信用评分卡模型.pdf
关于SAS-Weblogic的数据挖掘模型的应用分析.pdf
MVC本来是存在于Desktop程序中的,M是指数据模型,V是指用户界面,C则是控制器。使用MVC的目的是将M和V的实现代码分离,从而使同一个程序可以使用不同的表现形式。比如一批统计数据你可以分别用柱状图、饼图来表示。...
人工智能-数据挖掘-基于数据挖掘方法的陆面过程模型参数本地化研究.pdf
在数据挖掘过程中应用SPSS 数据挖掘软件,用它来节省金钱,及时实施您的项目并得到最好的结果。 【目录表】 简介————2 什么是数据挖掘?————2 数据挖掘与OLAP、报告有什么不同?————2 数据挖掘和统计学...
人工智能-数据挖掘-基于数据挖掘技术的商业银行个人信用风险评估模型及其应用.pdf
用户访问模式中数据挖掘的模型与算法.pdf
高级数据挖掘课程-大数据挖掘之互联网金融风控模型 含R语言程序源代码、PPT课件资料.rar
【广发金工】基于舆情的资产配置模型-互联网大数据挖掘系列专题之(十一).pdf
数据挖掘数据仓库构架的拓展.caj 用于电子商务中的数据挖掘技术研究.caj 数据挖掘技术在Web预取中的应用研究.caj Web数据挖掘技术及工具研究.kdh 电子商务与Web数据挖掘.caj SDSS中空间数据挖掘部件的设计与实现.kdh...
数据挖掘数据仓库构架的拓展.caj 数据挖掘方法的研究.caj 数据挖掘方法的评述.caj 数据挖掘的软分类方法.caj 数据挖掘管理系统.caj 数据挖掘系统的一种实现策略.caj 数据挖掘系统设计.caj 文本挖掘、数据挖掘和知识...
数据挖掘数据仓库构架的拓展.caj 数据挖掘方法的研究.caj 数据挖掘方法的评述.caj 数据挖掘的软分类方法.caj 数据挖掘管理系统.caj 数据挖掘系统的一种实现策略.caj 数据挖掘系统设计.caj 文本挖掘、数据挖掘和知识...