6月14日,我院举办的“统计大讲堂”系列讲座第十四讲在明德主楼1031举行。本次讲座,我院有幸邀请科罗拉多州立大学统计系的助理教授周文老师来与老师同学们分享交流他的最新研究成功。周教授本次报告的题目是《A Nonparametric Procedure to Detect Spurious Discoveries with Sparse Signals》。
讲座开始前,我院副院长尹建鑫老师欢迎周文教授再次来到37000cm威尼斯进行学术交流,并介绍了周文教授的学术履历。
讲座开始后,周文教授从大数据背景引入,介绍了目前在各个领域所遇到的大数据问题。并提到在生物医学领域所提出的“Ome”(Genome,Exposome,Phenome)数据就是大数据的典型代表。周文教授提到,大数据的价值就在于可以进行统计推断,从而更好地帮助我们进行决策。而今天,周文教授所介绍的方法的背景,是基于全基因组序列WGS(whole genome sequence)中的少数信号探测问题所提出的。周教授提到,在大数据时代,数据的样本量和变量个数都相当巨大。于是,他想要研究,大数据至多能告诉我们多少信息?一个很重要的问题就是,当我们使用变量选择的方法在众多的变量中,选出变量之后,如何判断所选出的变量不是虚假的变量?
为了说明会选入虚假变量的情况是存在的,周教授展示了一个简单的模拟,说明了当变量个数远远大于样本量时,就算响应变量和所有变量之间是独立的,在最后生成的数据中,也会出现于响应变量之间的具有较高Pearson相关系数的变量。周教授称,这样的现象,在所有的线性模型中都无法避免,他认为,这是因为大数据中总会有一些信号,而这些信号也有可能包含虚假信号。于是,周教授提到,在前人的研究中,在给定稀疏性的条件下,可以用预测值和响应变量之间的最大Pearson相关系数来进行检验,从而从数据的角度出发,确定所选择的变量是否是真实的。
但是,周教授提到,Pearson相关系数在适用数据类型、稳定性、以及度量非线性关系上,具有一定的问题。所以,为了在一种非参数的框架下更好地度量数据之间的相关性,他提出适用Kendall’s tau秩相关系数来度量数据中的相关性,从而来检验变量是否是虚假的,他称该量为MRSC(Maximum Rank Spurious Correlation)。周教授充分统计量的角度分析说,他所提出的这种度量,实际上是度量了当给定稀疏性水平时,数据有多大程度可以支持响应变量和预测变量是相关的,而这种相关并非简单的线性关系,还可以是更复杂的预测变量的仿射变换的单调变换。之后,周教授又向大家展示了MRSC的极限分布可以收敛到一个高斯过程的理论结果。
虽然,周教授展示了自己的模拟结果,说明了在若干种数据类型和相关性的情况,MRSC的表现都相当不错。报告的最后,周教授还像大家说明了目前该研究中尚存在的一些难点和未来研究的一些方向。
结束报告后,周文教授与老师同学们就方法的参数调整,统计表现等问题进行了积极的讨论。