马腾宇AI学界一颗冉冉升起的新星

0 Comments

本科毕业于清华姚班,博士毕业于普林斯顿大学,如今年仅31岁的马腾宇,作为 AI 学界的一颗新星正冉冉升起。

马腾宇目前担任斯坦福大学助理教授,其主要研究兴趣为机器学习和算法方面的研究,课题包括非凸优化、深度学习及其理论、强化学习、表示学习、分布式优化、凸松弛、高维统计等。

一个好的导师,对一个学者的研究生涯至关重要,因为导师的学术价值观和方法论会深刻影响其弟子在以后研究生涯中的态度。Sanjeev无疑是一位好的导师,他所带的学生毕业后大多都去到了美国顶尖大学任教,例如鬲融毕业后去到了杜克大学。

新冠肺炎疫情暴发后,头发花白的他,每天十几个小时,协助所在街道、社区及小区物业工作人员,守在小区门口防控疫情。

2014年,马腾宇获得了西蒙斯研究生奖(理论计算机科学方向),随后2015年获得了IBM博士奖学金,2016年获得了NIPS 最佳学生论文奖,2018年获得了COLT 最佳论文奖,其博士毕业论文也获得了ACM 博士论文荣誉奖,并在当年夏季收到了来自全球计算机Top 5中的四所高校(MIT、CMU、斯坦福、华盛顿大学)的 Offer 并最终选择去了斯坦福。

马腾宇开始读博的时间恰逢其时。2012年,Hinton和他的学生在ImageNet比赛中凭借AlexNet远超第二名10个百分点,由此人类进入了人工智能的新时代 —— 以神经网络为代表的深度学习时代。Sanjeev作为算法领域的领军人物,具有极为敏锐的嗅觉,意识到机器学习(特别是深度学习)将成为一个具有潜力的领域,因此从2012起便开始布局机器学习算法的研究。马腾宇进入普林斯顿后,选择了机器学习算法,与鬲融等人一起进行非凸优化的研究。

工作三十多年,黄华勤恳能干,退休后,干脆在自己居住的青海省西宁市东川警苑小区的物业“再就业”。按他的话,自己“一个人能干三个人的活,小区水、电、暖维修,随叫随到。”

然而,毋论马腾宇是否淡然,科研早期的荣誉对于一个科学家的成长却是必不可少的,这可以让年轻学者在攀岩科研高峰中充满信心。

在普林斯顿期间,导师Sanjeev对马腾宇的影响也是极大的。马腾宇对他的评价是“Sanjeev是一个‘true scientist’”:

“Sanjeev是真的为了科学在做科研。对他关心的问题,他会细扣所有的细节,从证明,到实验,到写文章不容许一丁点的错误存在。另外,Sanjeev也非常的积极,非常的有耐心,在一个新问题上,他常常会锲而不舍,从各种可能的角度去尝试,即使最初所有的尝试都失败了,他也仍然会一遍又一遍地去尝试新的想法,直到最终成功。这是我从他那里学到的非常重要的一件事情。”

2017 年,清华 “姚班” 创立者、中国科学院院士、中国首位图灵奖得主姚期智先生在谈及姚班教育的时候,曾提到:

马腾宇的博士论文,获2018 ACM 博士论文荣誉奖

雷锋网原创文章,。详情见转载须知。

在科研的实践当中,关注长期影响力是一个研究者能否成为真正科学家的关键一步。以如何看待失败的尝试为例,关注长期影响力的人会更积极地看待失败,因为从短期来看是失败了,但从长期来看这是有益的,失败了没有关系,如果你能够知道它为什么失败,在很多情况下你会改变它,让它变成一个成功的情况。

马腾宇对算法理论的兴趣始于姚班。据马腾宇介绍,让他印象最深的是当时姚期智先生为当时姚班大一新生所开设的一门课程《mathematics for computer science》,姚期智在这门课程中,每个章节都会用一两个最为经典的案例让学生非常快速地意识到,为什么在计算机领域数学非常有用。姚期智在这门课程中并没有按部就班系统地介绍计算机理论领域的细节问题,最重要的则是激发起学生对计算机理论问题的兴趣。这就相当于在计算机理论研究这场寻宝游戏中,激发起学生们对“宝藏”的渴望,至于如何寻找这些宝藏,学生们则自会摸索。这对姚班学生的兴趣培养非常重要,马腾宇也深受影响。

“在学界的,我们有好几个做人工智能的学生,已经在大学任教的有两个,一个是在美国的杜克大学,一个是在美国的斯坦福大学做教授,他们都从事人工智能理论基础方面的工作。他们在过去的四五年,在人工智能理论方面已经非常非常出色,不然他们也不会被雇到这么有名的大学去,尤其是马腾宇,他刚刚毕业,能够被雇到斯坦福去,不管是中国学生还是外国学生都是非常少的。……他们确实可以说在人工智能领域是先驱,将来一定会在该领域留下非常深刻的痕迹。”

2018年对29岁的马腾宇来讲是一个丰收年,COLT最佳论文、ACM博士论文荣誉奖、多所顶尖高校发出的橄榄枝……然而,受Sanjeev的影响,马腾宇对于这些荣誉表现的极为淡然。他表示

而另一方面,“long-term”,正是马腾宇做科学研究的关键词。当谈到他的方法论时,马腾宇说,

“我觉得做科研的困难主要有三个:1)找到一个重要的方向;2)找到一个可以解决的问题;3)同时有足够的技术储备和技术创新。”

他所在的小区属老旧小区,小区门口只有停车收费的栏杆,人员进出不好防控。能干且热心的黄华找来一扇废弃的铁门,喷漆安装在小区偏门,便于管理。

马腾宇等人首先在这篇工作中回答了这一问题。而事实上,马腾宇与鬲融、Jason D. Lee三人从开始做这项工作到提交论文,前后只用两个月不到的时间。虽然如此,这却是长久的积累,马腾宇差不多在一年前便意识到这个理解non-convex optimizatio的重要性,并偶尔尝试从不同的角度去解决它,但一直没有大的收获,直到2月份他看到一篇文章中的一个小技巧,突然灵感而至,很快便将这个问题解决了。对于这份经历,马腾宇总结到

换个阀门,修理电灶……有人建议,可以按规定收费。但黄华张不开那个口,“大家都很尊重我,我也友善地对他们。”长此以往,邻里之间常说,台胞黄师傅,“啥都能干,是万能!”

在2012年的时候,大多数人还在用传统方法来做优化问题,这些基本上都是凸优化问题。而在深度学习的时代,算法通常需要通过解决一些非凸优化问题来找到最优的神经网络参数。理论上非凸优化是一个NP-hard问题,但实际中即使非常简单的算法也能表现很好。其中原因却少有人了解。马腾宇与鬲融等人是最早一批专注于解决这一问题的研究者。随后正是凭借对非凸优化问题的系统研究,马腾宇在 2018 年获得了ACM博士论文奖荣誉奖(Honorable Mentions),而鬲融也在2019年获得了斯隆研究奖。

对于皮克的说法,皇马队长拉莫斯反唇相讥:“他认为我们上半时踢得差?如果每次国家德比我们都能这样赢下来,那我很乐意接受。”

“我本可以不来,这不是我的职责,但还是守在这里。在这个小区住了30多年,一切都很熟悉,哪些人是邻居,哪些是陌生人,基本都能掌握。”黄华对记者说。

三十年前,“50后”简信二首次抵达青海,认识青海姑娘许红;十年前他常住青海,经营一家台湾眷村牛肉面馆;今年元旦,精心策划的主打“台湾味道”的快餐店,在青海西宁正式开门迎客。

“其实没有太大的感觉。首先这是大家对我的工作的一个肯定,可能的原因是我的博士论文是比较早的一系列试图理解为什么non-convex optimization 可以解决机器学习的问题的工作;在此之前几乎没有这方面的研究。……但做科研,你的reward(受益或回报) 往往是非常滞后的。博士论文是五年工作的总结, 包括COLT’18 的最佳论文,其实是我们在2017年做出来的。做科研要考虑长期的reward,而不要考虑短期的reward。”

当前人工智能面临诸多困境,马腾宇以十年为期,他认为人工智能的理论基础仍然是一个非常大的困难,我们目前还很难理解算法到底做了什么,因此如何理解算法,如何更好地设计算法成了马腾宇最为关注的问题。正如他的导师Sanjeev,面对这样一个宏大的问题,他试图从各种角度(包括最优化、泛化、正则化等)进行逼近。如何通过理论思考来帮助机器学习,正是马腾宇的“long-term”问题。

登记人员信息、小区清洁消毒……这是黄华过去一个多月雷打不动的既定任务。

2018年,马腾宇与Yuanzhi Li 、Hongyang Zhang三人合作的论文《Algorithmic Regularization in Over-parameterized Matrix Sensing and Neural Networks with Quadratic Activations》发表在COLT上,并获得了最佳论文奖。而这篇论文与NIPS‘16的最佳学生论文类似,从开始做到投稿,前后仍然只用两个月的时间。在这篇主题为“正则化”的工作中,马腾宇他们直接follow了之前的一篇工作,但那先前的工作只能解决一个特殊问题,而马腾宇意识到如果沿着他们的思路做,可能会变得越来越复杂。意识到这一点本身非常重要。他说:

马腾宇表示:“在很多情况下,如果我能够真正地知道我为什么失败,很多情况下我都能够把它变成一个成功的情况。不过更多的情况是,我只能理解一点点为什么我会失败,然后从中汲取一点点的经验,但长期积累,我会理解为什么整个过程都不work。这样的话,我就能够摸索出另外一套思路。”

像之前以及之后的学长和学弟以及身边的同学一样,从姚班毕业的马腾宇在本科期间醉心于计算机算法的研究。2012年本科毕业后,他选择了在普林斯顿读博, 师从的Sanjeev Arora教授。

马腾宇是清华姚班 2008 级毕业生

与简信二不同,“60后”“台二代”黄华,祖籍台湾屏东。父母在青海离世二十多年,一家人早已扎下了根,黄华称自己是“不会讲青海话的青海人”。

简信二,字家承。他的快餐店,以中华传统文化元素装潢,他希望以西北风味牛肉面当早餐、夜宵的青海人,爱上自己从家乡带来的台湾味道的牛肉面。开业伊始,他就和店员向街头执勤公务人员送餐尝鲜。

NIPS’16最佳学生论文,2018年修订版

战“疫”一个多月,最让黄华头疼的是高原寒冷的气候,几天下来,脚趾头发痒,可能有些受冻。但现在,好在天气转暖,青海省重大突发公共卫生事件一级响应调整为三级响应,他所在的地区也划为非重点防控地区,但他仍然值守,“防控工作仍然不可掉以轻心”。

简信二希望复工复产时享受优惠政策,未来,做适合西宁人口味的台湾美食,如独一无二的腔肉饭、柠檬冰沙、香酥脆鸡块等。

“做科研,很重要的一点是去理解其他技术为什么本质上不可行。很多时候,科研之所以思路比较慢,原因在于你有许多选择,你不知道哪个选择是好的,也不知道哪个选择是坏的。这很糟糕。一旦你知道哪个选择是坏的,剩下可选的好的就不多了。所以做科研,很重要的一步是排除是坏的选择;其次是,要知道它为什么是坏的,这也比较重要,因为你如果不知道它为什么是坏的话,就很难把它变成好的。一个想法,如果你能知道它行不通的根本原因,一般情况下就不会很难通过针对性地修改这个想法得到一个更好的方案。所以我们这项工作模式上就是:我们发现一个想法没有效果,然后理解了这个想法失败的的原因,修正并提出一个新的想法;如果新的想法还解决不了问题,就找到问题,修正,循环往复,就是这样。”

但当他准备大展身手之际,无奈遇到新冠肺炎疫情,只能关门歇业。花甲之年再创业的他说,损失颇重。

当然,导师的影响只是成功的一个方面,马腾宇自身的天分和勤奋让他在普林斯顿的五年时间里收获良多。

当然,long-term并不意味着“空中楼阁”,十年写一篇文章。为了长期的计划,马腾宇在实验指导vs理论思考中取得一个平衡, 把这个long-term 分为了一系列非常小的问题,表现在成果方面便是一个个的topics,一篇篇的论文。目前马腾宇在斯坦福带着 5 名博士生以及数名硕士生,正每年发表十几篇论文的速度一步步迈向这个目标。

小区470户居民,九成“住”在黄华的脑里,一些老住户,黄华甚至还能一一指出他们的祖籍。疫情暴发后,不允许非该小区居民随意进出,小区居民除了出示出入卡外,还有黄华的“火眼金睛”把关。

雷锋网(公众号:雷锋网)报道。雷锋网雷锋网

“从科研的style来讲,我比较在乎的是long term impact,我的课题选择也会受到这方面的影响。”

青海省台湾同胞联谊会相关负责人说,疫情期间,相关部门慰问台胞,倡议台胞全力防控,调研台资企业生产经营情况,号召大家树立信心、复工复产。

黄华女儿黄婷婷育有一女。“台三代”黄婷婷希望女儿稍微大一点,一家人可以去台湾看一看。(完)

“上半时皇马的表现,是我在伯纳乌遇到过的最差劲的之一,”皮克说,“我们在上半时控制着比赛。”

“我们完全展示着自己的统治性,如果我们能利用好上半时创造出的机会,那么皇马就困难了。”

他表示,尽管当前的机器学习研究过程中,实验指导往往重于理论思考的指导。但长远来看,在随后的几年中,理论思考的指导价值将越来越凸显。正如在博士初期选择布局无人问津的非凸优化研究一样,马腾宇作为斯坦福的助理教授,现在也在布局机器学习理论的研究,一个更大的布局。

与家乡台湾宜兰相比,简信二原本认为大陆西北角的青海省“远在天边”。但或许天意弄人,简信二最终成为“青海女婿”,之后还在高原扎下了根。

一次的成功或许只是巧合,系列的成功则是实力和潜力的证明。