37000cm威尼斯
新闻

新闻

您当前的位置: 首页> 新闻
“统计大讲堂”系列讲座之数据科学三原则讲座成功举办
时间:2016-12-14

    12月10日下午,“统计大讲堂”系列讲座之数据科学三原则:可预测性,稳定性和可计算性在逸夫会议中心第一报告厅召开,加州大学伯克利分校统计系及电气工程与计算机科学系教授郁彬老师同我们分享了研究经验与感悟,向我们阐述了她对数据科学的独到理解。本次讲座由37000cm威尼斯副院长王晓军教授主持。


 

    在讲座中,郁老师指出,数据科学是解决大数据问题的科学。大数据的“大”不仅仅表现在数据量上,数据的质量和精度也是关键。数据科学三元素分别为计算机学、统计学/数学以及专业知识。机器学习是统计学的前沿,数据科学是统计与计算机的再度携手共进。而统计学则是数据科学的一大支柱。

郁老师回顾了统计学的发展历史,介绍了几位著名的统计先驱。并用实际例子告诉我们,问题驱动统计进化、前行。统计不应局限于模型,应该采用多样工具。


    郁老师还着重提到了思辨能力。她说,数据智慧是整合数据、统计方法/计算方法和专业知识之间的联系的人的思辨能力,在验证统计理论的过程中,要注意考察其预测效果、稳定性/可解释性,尝试用专业领域的知识证明、做基于程式化模型的模拟以及探索性数据分析。

    随后,郁老师针对数据科学三原则进行了深入阐述。数据科学三原则来源于现实世界中遇到的问题。预测是检验现实的有效方法;稳定性原则要求统计理论对于合适的数据或模型来说是稳定的;可计算性是可预测性和稳定性的基础。可预测性和可计算性是机器学习的基石,稳定性是数据驱动结果可解释性和可重复性的最低要求。

    郁老师通过两个例子来说明数据科学三原则。第一个例子是关于影像重构的,利用深度学习网络来研究神经元在不易理解的视觉皮层v4的模式选择;第二个例子关于文本挖掘,通过采用和比较不同的潜变量模型以及基于Lasso的模型来预测政治电视广告中的党派和情感倾向。


    报告结束后,郁老师与在场师生进行了深入的问答交流,师生们纷纷表示此次讲座让大家受益匪浅。