A. 数据挖掘类的国际顶尖会议有哪些

顶级:SIGKDD
二流:ICDM,SDM ,EDBT等
上面是专门的数据挖掘会议,其他像SIGMOD,VLDB,ICDE等数据库类会议都会有专门的数据挖掘session ,下面是有人专门总结的,引用一下:

一流的:数据库三大顶级会议SIGMOD,VLDB,ICDE,数据挖掘KDD,实际相关的还有机器学习ICML,还有信息检索的SIGIR;数据库的理论会议PODS,但它是理论的会议所以和咱们就不大相关了
二流的:EDBT,ICDT,CIKM,SDM,ICDM,PKDD,还有ECML欧洲的机器学习会议(这个应该是1.5档的,比一般的二流好)
SIGMOD:97分,数据库的最高会议,涉及范围广泛,稍偏应用(因为理论文章有PODS)。没说的,景仰如滔滔江水。这个会议不仅是double-blind review,而且有rebuttal procere,可谓独树一帜,与众不同。

VLDB:95分,非常好的数据库会议。与SIGMOD类似,涉及范围广泛,稍偏应用。

从文章的质量来说,SIGMOD和VLDB难分伯仲,没有说谁比谁更高。他们的范围也几乎一样。
不少牛人都认为,今年的rebuttal procere其实并不怎么成功。投稿太多,很难做到每一
篇都公平公正。很多rebuttal没人看。

double-blind是把双刃剑。这几年来每年都有人冒充牛人的风格来投稿,有的还真进去了。
反而VLDB的审稿质量一直很高。每年的VLDB都有很理论的paper。

一般来说,我感觉大家还是认为SIGMOD要好那么一点点。根据我个人读过的文章,也有这样的感觉。不过这个并不重要了,有差别也是那么一点。

PODS:95分。是“数据库理论的最好会议,也是一个很好的理论会议”。每年总是co-located with SIGMOD。感觉其中算法背景的人占主流(你可以数数PODS文章中有多少来自Motwani group),也有一部分AI背景的人(毕竟SIGART也是主办者之一)。它的影响力远不及SIGMOD,然而其中文章的质量比较整齐,variance小于SIGMOD(以及其他任何数据库会议)。有一位牛人说:“PODS never had a really bad paper,”这是它值得骄傲的地方。

KDD::full paper 95分,poster/short paper 90分。数据挖掘的最高会议。由于历史积累不足以及领域圈子较小,勿用讳言KDD目前比SIGMOD尚有所不如。我觉得我们可以这样类比:KDD:SIGMOD=CRYPTO:STOC。回顾密码学的历史,真正最牛的文章一般发在STOC/FOCS而非C
RYPTO/EUROCRYPT,这和今天的数据挖掘何等类似!然而你看看今天的密码学文章,已经有顶级的密码学家(恕我不便写出名字)不再往STOC/FOCS投稿。我觉得同样的事情在不久的将来也会发生在数据挖掘中,让我们拭目以待。

这几年来KDD的质量都很高。其full paper的质量高于SIGMOD/VLDB中数据挖掘方面的paper的质量。原因是SIGMOD/VLDB审稿人中数据挖掘的人很少,审稿标准不一定能掌握得很好。
这几年好几篇SIGMOD/VLDB的数据挖掘paper都follow一些KDD的paper。而在KDD,要拿一篇full paper真难。去年复旦拿了一篇,实属难能可贵。今年他们又拿了一个SIGMOD demo,说明工作的确很扎实。

听说在很多地方,如果能有一篇SIGMOD/VLDB/KDD,就能博士毕业,能有两篇就能找到不错的工作。“革命尚未成功,同志仍需努力!”

ICDE:92分。很好的数据库会议,也是一个大杂烩。好处是覆盖面广、包容性强,坏处是文章水平参差不齐。

EDBT:88分,不错的数据库会议,录取率很低然而历史积累不足,影响还明显不及ICDE。

ICDT:88分,PODS的欧洲版,数据库理论第二会议。

和SIGMOD/VLDB一样,ICDE和EDBT在质量和影响上都不相上下。
其它的如CIKM,ICDM,SDM,SSDBM,PKDD等等都比以上的会议差一截。

CIKM:85分。

SDM:full paper 90分,poster/short paper 85分。SIAM的数据挖掘会议,与ICDM并列为数据挖掘领域的第二位,比KDD有明显差距。好像其中统计背景的人比较多,也有一部分机器学习背景的人,比较iversified。

ICDM:full paper 90分,poster/short paper 85分。IEEE的数据挖掘会议,与SDM并列为数据挖掘领域的第二位,比KDD有明显差距。

PKDD:83分(因为poster/short paper数量很少,所以不予区分)。好像是KDD的欧洲版,但与KDD差距很大。

B. 关于数据挖掘中决策树的知识

在数据挖掘中,有很多的算法是需要我们去学习的,比如决策树算法。在数据挖掘中,决策树能够帮助我们解决更多的问题。当然,关于决策树的概念是有很多的,所以说我们需要多多学习多多总结,这样才能够学会并且学会数据挖掘的知识,在这篇文章中我们就重点为大家介绍一下关于决策树的相关知识。
1.决策树的算法
决策树的算法是以树状结构表示数据分类的结果。一般情况,一棵决策树包含一个根节点、若干个内部结点和若干个叶结点。而叶结点对应于决策结果,其他每个结点则对应于一个属性测试;每个结点包含的样本集合根据属性测试的结果被划分到子结点中;根结点包含样本全集,从根结点到每个叶结点的路径对应了一个判定测试序列。决策树学习的目的就是为了产生一棵泛化能力强,即能处理未见示例能力强的决策树。这些就是决策树算法的结构。
2.决策树的原理
一般来说,决策树归纳的基本算法是贪心算法,自顶向下以递归方式构造决策树。而贪心算法在每一步选择中都采取在当前状态下最优的选择。在决策树生成过程中,划分选择即属性选择度量是关键。通过属性选择度量,选择出最好的将样本分类的属性。这样就能够方便数据属性的划分,然后,下一步是树的剪枝。在决策树学习中,为了尽可能正确分类训练样本,结点划分过程将不断重复,这样才能够使用决策树解决很多的问题。而分类是数据挖掘中的一种应用方法,而决策树则是一种典型的普遍使用的分类方法,并且决策树技术早已被证明是利用计算机模拟人决策的有效方法。
3.决策树的现状
近年来随着信息技术、计算机科学的迅速发展,决策树作为重要方法之一,越来越受到人们的关注。而其在人工智能方面的潜力以及与越来越多新技术的结合,由此可见,决策树在数据挖掘乃至数据分析中还是有很长的使用时间,这就是决策树至今经典的原因。
在这篇文章中我们给大家介绍了关于数据挖掘中决策树的知识,当大家学习了决策树的概念,决策树的结构以决策树的原理,就能够掌握决策树的基础知识。不过要想学习数据挖掘,还是要学习更多的知识,希望这篇文章能够帮助到大家。