12月23日14点, “统计大讲堂”系列讲座第五课Identication of Pairwise Informative Features for Clustering Data with Growing Dimensions即关于高维聚类的变量选择问题在明德主楼1030会议室召开。科罗拉多州立大学(Colorado State University)统计系的周文博士分享交流了他最新的研究成果。
周文博士分别于2010年和2014年在艾奥瓦州立大学(Iowa State University)获得了应用数学与统计学的博士学位。目前他主要的研究领域为基因及生物医学数据中的高维数据计算方法、统计模型和统计推断。
在会议开始前,37000cm威尼斯主管副院长王晓军教授与周文博士进行亲切交流,并对周文博士的到来表示热烈欢迎。
周文博士所报告的题目是《Identification of Pairwise Informative Features for Clustering Data with Growing Dimensions》,关于高维聚类的变量选择问题。周文博士首先回顾了聚类分析的概念、目标、应用以及常用的经典聚类方法,并由此引出了聚类分析中的统计模型,以及相应的似然函数和其中的参数设置。周文博士指出,在当今高维统计的研究潮流下,传统聚类分析在高维情况下面临着变量过多的问题,但目前关于聚类分析中的变量选择的研究还不太多,所以他选择了这个方向进行研究。接着,周文博士回顾了在聚类分析中现有的减少变量的方法。他提到,目前对于聚类分析中变量过多的问题,一般有两种思路。第一种为降维的思路,如主成分分析等;第二种为同时进行降维和变量选择的思路,而这个思路下,又以贪心搜索法(Greedy Search),正则化方法(Regularization),以及边际筛选(Marginal Screening)等最为常见。周文博士的研究方法就是基于正则化方法(似然函数+惩罚函数)的思路进行的。
在正式介绍自己的方法之前,周文博士首先介绍了变量的逐对信息(pairwise information)的概念。在聚类分析中,不同的变量对不同类别的样本的指示作用的大小也有所差异。如果我们选择了一些变量,使得在以这些变量作为指示的情况下,可以有效的将各类的样本加以区分,则将这样的联合信息称为全局信息(global information)。周文博士希望能更进一步地研究每个变量各自可以区分哪些类别的样本。这种每个变量提供的边际区分信息,便称为逐对信息。为了抓住这种逐对信息,周文博士发现常用的正则化方法中所用的惩罚函数有些弊端。比如在回归问题中,最为常用的LASSO罚(又称1范数罚)在用于变量选择问题时的一个缺点为:当回归系数较小时,相应的惩罚函数也会较小,从而使得最终的结果可能保留住一些本来应该去掉的变量。为了克服这个问题,并且抓住之前所说的逐对信息,周文博士受Fused Lasso方法的启发,提出了一个名为PARSE(Pairwise Reciprocal fuSE)的惩罚函数。这个惩罚函数的特点是,当参数的真实值的绝对值很大时,它的惩罚会很小;而随着参数逐渐的趋向于0,它的惩罚会迅速的增加,从而保证去掉过小的参数,达到变量选择的效果。并且,由于加入了Fused Lasso,就可以有效地抓住逐对的信息。
随后,周文博士介绍了上述方法的理论性质。在一定的信号强度、稀疏性等假设下,周文博士得到了上述方法的相合性和最小最大下界,从而保证了该方法的理论有效性和最优收敛速度。周文博士提到,在最小最大下界中的收敛速度,与已有的聚类分析中的高维理论中的结果是几乎一致的,从而是几乎最优的。
之后,周文博士给出了一个上述方法的求解思路。由于PARSE惩罚函数的非凸和非连续性,使得求解上述方法的参数难度较大。周文博士给出的解决思路为:基于EM算法,加上贪心搜索,进行局部最优值的求解。在模型中调节参数的选择方面,周文博士建议使用GIC(generalized information criteria)准则进行。
最后,周文博士给出了该方法的模拟效果和真实数据结论。在模拟效果中,他将自己的方法与Ji Zhu等人在2010年提出的APFP方法和Xiaotong Shen在2007年提出的Adaptive L1 penalty方法进行了比较。最终发现,周文博士所提出的方法在全局信息的获取上几乎是一致优于其他方法,而在逐对信息的提取上,则是远远优于其他方法。此外,周文博士发现他们的方法在错分率上也有着明显的优势,只是他们暂未完成相关部分理论性质的研究。
报告结束后,周文博士与老师同学们就求解算法的改进、模型的高维条件、以及类别分布的混合程度等问题进行了积极的讨论。