2013年3月22号下午,应国科大数学科学学院邀请,美国耶鲁大学副教授马双鸽博士在玉泉路教学区教学楼709教室做了题为《Incorporating Network Structure in Integrative Analysis of Cancer Prognosis Data》的学术报告。
报告还未开始,教室内已是座无虚席,各院所师生齐聚一堂,准备仔细聆听了马博士所展示的精彩内容。
一个小时的报告很快就过去了,马博士用幽默易懂的方式为我们展示了统计是如何分析癌症诊断数据(Cancer Prognosis Data)的。通过有效地整合数据,以及考虑基因之间的关联,达到选择关键基因的目的,马博士循序渐进地向我们介绍了生物统计中一些关键的概念、具体的模型。他以生物学家在研究癌症时所遇到的实际问题为前提,将不同的数据集进行合理有效的整合为出发点,分别讲解了meta-analysis和integrative analysis相关概念。他把直观认识上的关联度(adjacency measure)用计算机科学中常用的网络结构(Network analysis)给出了直接有效的描述,为其后统计模型的提出做了完美的铺垫;稍后,马博士又就问题的稀疏性原则讲解了一些惩罚函数,其目的是为了能让不同的数据集中的基因能够同时进、或者同时出,他尤其介绍了Group MCP惩罚函数,另外,考虑到相似基因应该具有类似的网络结构,马博士顺其自然地将上述的network嵌入到惩罚函数中;最后,面对上述构建的模型,马博士向我们介绍了具体的求解算法--coordinate descent algorithm,并且合理的解释了所给出的模拟结果以及实际数据的结果分析,证明了模型的有效性。
马双鸽博士的报告涵盖了最优化、统计、生物信息学等,阐述清晰、内容精彩。报告结束后,老师和同学们纷纷举手示意提问,马博士都一一作出了详细的解答,被点拨的同学们都感到受益匪浅,最后报告在大家的热烈掌声中结束。
马双鸽博士于1999年获中国科学技术大学物理学学士学位,是科大94级少年班学生;于2004年在获美国威斯康辛大学(University of Wisconsin, Madison)统计学博士。从2006年至今执教于世界著名大学美国耶鲁大学,是IMS(国际数理统计协会)的 Fellow,研究方向包括癌症信息学、癌症生存分析、半参数方法等,发表学术论文60余篇。
作者:吴新琪