【“大学堂”讲学计划】著名统计学家王永雄访问北京大学并发表演讲-北京大学国际合作部

2019-05-16
新闻快递
ghzhb

应北京大学“大学堂”顶尖学者讲学计划的邀请，国际知名统计学家，美国国家科学院院士，美国斯坦福大学统计系、生物医学数据科学系王永雄（WING HUNG WONG）教授于5月访问北京大学，发表两场学术演讲，并与北大相关学科的师生进行深入交流。本次活动由北京大学统计科学中心、国际合作部主办，光华教育基金会提供资助。

演讲现场

5月7日下午2时，王永雄首场公开演讲“精准医学的大数据创新”举行。来自北京大学统计科学中心、数学科学学院、光华管理学院、生命科学学院、医学部以及清华大学、中国科学院等高校与科研院所的师生、部分业界人士聆听了演讲。演讲会由北大统计科学中心、生命学院李程教授主持。

王永雄发表“精准医学的大数据创新”演讲

王永雄首先提出了精准医学的最新概念，精准医学能根据病人在基因与环境上的个体差异，实现最合适的诊断和治疗。他以精确癌症分型对靶向治疗的促进、基因测序对罕见病诊断治疗的帮助为例，深入浅出地介绍了精准医疗技术对提高人类对抗疾病能力的重要性。他指出，人们密切关心的糖尿病、心脏病等慢性常见病往往受复杂的基因和环境相互作用影响，难以澄清疾病的病因、机制和进展，而精准医疗将凭借其独特优势在这一领域发挥重要作用。

王永雄分别介绍了目前精准医疗研究中的两个着手点，一方面以表型为中心开展研究，通过分析患者症状，在临床数据库对照病例进行查询，对应基因组数据库的基因型，利用统计分析工具找出致病基因与染色体区域；另一方面，从基因和位点出发进行分析，通过基因变异点查询基因组数据库，标记有此基因变异者的ID后从临床数据库查询有此变异者的临床症状，从而通过数据挖掘的方式找出此基因变异位点共有的表型与症状。但他同时指出，无论哪一种分析方法，当代精准医学的发展都离不开大数据的支持，其中最重要的数据资源就包括大规模的患者遗传和临床数据。王永雄介绍了英国的生物样本库（UK Biobank）项目，这一由英国政府发起成立的科研项目计划历时30年，收集50万英国人的医疗健康资料，向研究“遗传和环境的复杂互动与患病风险”的研究人员提供宝贵的医学数据资源。在数据库建立方面，中国虽然起步较晚，但现在越来越多的科研经费正在向精准医学领域倾斜，越来越多的研究力量投入到这一领域当中。此外，王永雄还呼吁中国建立类似于英国生物样本库的全国性大队列，“这将是一个国家必不可少的健康资源，有助于澄清基因型与表型之间的关系”。

王永雄详细论述了怎样解析基因型与表型之间的关系。纯粹统计性质的分析往往局限于个人化的数据，不能进行更大范围的推广。因此，他提出应该建立一个更加普适的、非个人化的参考模型（reference model）进行多层次因果机制分析。他将这一模型分解成个人基因组的变异层、基因层、细胞层、器官层、临床表型层、疾病层等多个层次，通过建模学习不同层次节点之间的关系。他指出，多层次机制模型是精准医学的基础，可以帮助推断基因变异对细胞生理、器官功能以及身体发育、疾病风险的影响，一个好的模型可以提高无数基因组的价值。他倡导在建设大型队列的同时，投入部分资源，以高通量组学方法产生基本数据，构建基本参考模型。这一模型的构建将涵盖单细胞基因组学、组织学、医学成像、基因组编辑、类器官在类的多种研究学科，为新科学新产业的发展提供更多机会。

王永雄介绍，这一模型的构建将依赖于全人口规模的真实世界数据（Real World Data）。中国多数医院已实施电子病历系统，这些医疗数据规模大、专业性强、细分领域多，将为智能医疗创新提供原油，但同时我们也要注意到，中国医疗数据结构化困难、异构性强、质量参差不齐，中国智能医疗产业缺乏共享精神、缺乏社会认同、缺乏监管法例，这些都是摆在中国精准医疗产业领域不可回避的挑战。为了克服这些困难，他提出一方面从数据出发，进行数据的智能结构化、标准化；另一方面，建立智能患者索引机制，二者互相促进，实现以患者为中心的数据整合。

王永雄对大规模的数据覆盖充满信心，他倡议通过政府政策诱导，孵化促生一个可持续可扩展、融合在全国医疗系统内的基因医疗数据积累及应用系统。具体而言，通过政府和社会努力，降低消费者测序费用，提供数据价值的同时保护隐私，最终实现覆盖全人口的长远目标。

王永雄还介绍了精准医疗迅猛发展带给初创企业在疾病筛查、诊断、治疗等方面的广阔应用天地。他总结道，通过资源共享，同时保持竞争和多样性，降低精准医疗的研发成本和服务费用，未来精准医疗在中国的发展必将充满活力。对于数据科学相关专业的同学来讲，我们更应该认识到，数据和人工智能是医疗保健领域的重要增长动力，伴随着中国医疗卫生体制和行业的快速变化发展，数据科学人才也将获得施展才华的丰富机会。

交流环节

演讲结束后，现场师生就精准医疗、人工智能、数据安全等前沿问题与王永雄展开深入交流。

合影

5月9日下午，王永雄在光华1号楼202报告厅作题为“The joint analysis of bulk and single cell genomics data”的学术报告。来自北大统计科学中心、数学学院、光华管理学院、生命学院及清华大学、中科院等单位的200余名研究人员及学生参加。报告会由北大统计科学中心、光华管理学院陈松蹊教授主持。

报告现场

王永雄指出，在通常情况下，单细胞数据分析的第一步往往是聚类分析，即将得到的单细胞样本分成不同的子类。近年来，随着单细胞基因组学的发展，高通量的测序手段有了迅猛发展，这些测序手段的出现使得我们可以对同一细胞总体的多个子样本同时展开基因表达、染色体、DNA等多种维度的特征刻画。而如何充分利用来自不同样本、不同维度的信息对抽样总体进行合理聚类便成了一个亟待解决的问题。为了将多个子样本的聚类信息进行耦合，王永雄研究团队提出了一种基于非负矩阵分解（nonnegative matrix factorization）的耦合聚类（coupled clustering）方法（coupled NMF）。与以往的聚类方法不同，这一方法主要解决的统计问题是，样本存在两种不同的分类特征，这两个特征的维数分别为和，每一种特征都由一个独立的样本测量得来。

王永雄作“The joint analysis of bulk and single cell genomics data”报告

具体而言，这一方法先将第一个样本通过非负矩阵分解的形式进行“软”聚类（“soft” clustering），同理，我们也可以对第二个样本做同样的聚类。为了将两个矩阵的分解耦合在一起，王永雄引入了“耦合矩阵”（coupling matrix）的概念，事实上，该耦合矩阵代表着从一种特征到另一种特征的预测算子，可以通过专业知识或者外部数据获得。在目标函数中加入带有耦合矩阵和分解矩阵迹的惩罚项，可以保证第二个样本中的特征与第一个样本特征的线性变换之间的一致性。他详细介绍了基于基因配对表达数据（paired expression）和染色质可进入数据（accessibility data）的耦合矩阵的训练方法。模拟数据显示，王永雄提出的基于耦合非负矩阵分解（Coupled NMF）的聚类方法与传统的K-means聚类和分开的非负矩阵分解方法相比具有非常明显的优势。

王永雄介绍，这一方法可以推广到更广泛的应用场景中，例如可以用来开发三维染色质环数据（3D chromatin contact loop data）和单细胞与批量数据的联合分析等。这一方法在多种实验设计的情形下都能保证有效性。他指出，实验中使用Hi-C数据可以有效避免估计耦合矩阵时对外部信息的引入。在这一背景下，这一方法既在每个批量样本上对信号进行了去卷积化，又在单细胞样本上做了耦合聚类。

报告结束后，王永雄回答了现场听众关于该方法理论细节、更多实验效果等方面的问题，并和广大师生和远道而来的学者深入交流。