
作者 | 陈彩娴
当年去广州读大学,乃至后来远渡重洋,临行前,我父亲都只能给一句简短的安慰:“我没法资助你。如果外面情况不好,就回来吧!”从1994年离家至今,潮州学者李海洲已在海外生活近三十年。在接受新加坡潮州八邑会馆《潮人故事》的系列采访时,他回忆上世纪独身在外拼搏,从潮州小渔村到广州读书,又从广州去法国、法国到新加坡,恍如隔世。 文革前夕,他在中国潮安古镇的一所百年老屋中出生,之后随父母迁居汕头外海的南澳岛。由于岛上生活贫瘠,没有学校,与陆地之间的交通又不便利,所以他小时候没有机会上学。所幸母亲有些书本供他翻阅、学习认字。 李海洲在南澳岛度过了他的童年,极少与外界交流,所识语言只有家乡的潮州话。 他记得,在 他13岁开始上学时,因为没有学过普通话,所讲的国语常常成为同学的笑柄。 但少年时期的李海洲念书十分用功:
奶奶总是提醒我,你要读书,要考到好成绩,不然以后倒垃圾的工作都不会轮到你。他拼命学习,考上潮安第一中学(现为潮州金山中学),又在15岁那年以优异的成绩考上了广州华南理工大学(以下简称“华工”)无线电工程系。当时,文革结束不久,高考恢复不过3年,教育制度还未健全,入学标准只凭考试成绩,而不限制年龄。 于是,1980年,16岁的潮州少年李海洲又孤身一人,乘坐大巴,从潮州来到了广州。他记得,那时候,父亲的月薪只有人民币50元,并不能为他的远游提供太多经济上的资助。在华工读书时,每个冬天,他都是洗冷水澡。但李海洲很乐观:“我洗冷水澡时,一定会大声唱歌,因为唱歌的一个功效便是减少痛感。”

大家要仔细听讲哟,两周后参加考试,成绩优异的学生会有机会去香港实验室深造。李海洲十分努力,两个星期后,他在一众学生中突围而出,成为了少数入选华南理工大学与香港大学联合培养博士研究生的幸运儿,拜师陈础坚门下,继续研究语音处理学。那时,香港还未回归,去香港读书比出国还难。李海洲印象深刻:“我去了香港后,有一年国庆节,新华社邀请在港读书的内地学生就餐,整个香港只有20个内地学生。”

图注:香港大学主楼
我是从渔村里走出来的穷小子,没上过小学。16岁刚上大学时,我连英语“早安”(Good Morning)都不会说。从1990年博士毕业至今,这30多年里,李海洲坚持自己做语音识别与语言处理的方法。他一直认为,机器学习的基础理论不仅支持了机器的识别工作,而且也是人学习语音与语言的过程;也就是说,人的学习也是一个“机器学习”过程,只是学习的主体不是电脑,而是人脑:“人学习的过程也是通过大数据进行学习,从听人如何发音,到一个音、一个音地学习,然后学会了一种语言,再将第一种语言的知识转移到第二种语言中去。”这个观点来源于李海洲本人学习多种语言的亲身经历。李海洲的母语是潮州话,上了中学后开始学习普通话。“那时候我觉得学普通话很难很难,但是,当我学习第三种语言、第四种语言、第五种语言时,我就觉得没那么难了,因为我已经有了学习语言的方法。机器学习就是这样,从一个地方学来的东西可以拿给第二个地方用,所以我对机器学习特别有兴趣。”上初中时,他只学会一句英语,就是“Long Live Chairman Mao”,升高中后多了一句“Never forget class struggle”。所幸,英语在1981年之后才被列为高考的必考科目,而李海洲十分幸运,因为他参加的是1980年高考。读博期间,李海洲的大部分时光都是在香港度过。那时候,他才有机会学习英文;此前,他连“Good Morning”都听不懂。也是在那时候,李海洲开始学讲广东话,他的感受是:“广东话最难学,因为没有课本。”博士毕业后,1991年,李海洲加入华南理工大学任教,年仅26岁就被华工评为副教授;一年后,也就是1992年,又被破格提升为教授,担任博士生导师,成为了全广东省最年轻的博导。但李海洲并没有安于现状,1994年,他又在法国国家科学院的邀请下,去法国国家科学研究中心(CNRS)担任研究员,从事语音识别研究,并开始涉猎声纹识别。在法国的三年,李海洲驻在“洛林之魂”南锡(Nancy)。出发前,他已在广州学了一年法文。到了南锡之后,他又几乎每晚都跑去“阿尔及利亚人之家”学法文。这是一个专门协助阿尔及利亚人学法文的机构,无需学费,学员只需在冬天时付点柴火费。他们没有拒绝李海洲的加入,他也去了足足一年,总算打好法文基础。

地址:https://arxiv.org/abs/2103.16269对研究思路的指导还是其次,多语言背景对李海洲最重要的影响是使他成为了多语种语音识别研究的先行者。他在2014年被选为 IEEE Fellow,入选理由便是“For leadership in multilingual speaker and language recognition”(引领多语种语音与语言识别研究)。早期的语音识别局限于英文,而李海洲的工作不仅覆盖英语,还有中文、马来文、韩语、日语、泰文、越南语等等。“人在分语言时,是人为分割,其实是同一双耳朵、同一个大脑。我的理念是用同一套系统(多语种大词汇集连续语音识别系统)来实现多种语言识别,而不用重复开发。”回顾研究生涯,李海洲最自豪的是,2001年,他所开发的多语种语音自动问答系统在新加坡樟宜国际机场投入使用。这个系统每天可以处理超过一万个查询电话,是当时东南亚最大的全自动客户呼叫中心。“出租车司机非常喜欢这项工作,因为他们只需拨打电话,就能知道航班信息,知道什么时候出发去机场。”李海洲也因此获得2002年新加坡国家资信科技奖。2018年,他又与南洋理工大学的 Chng Eng Siong 教授合作开发了专门用于处理新加坡 995 紧急热线的多语种通话自动处理系统,可以实时转换并记录每个电话,根据来电内容进行资源调度。这个系统覆盖了多种东南亚语言,还可以识别闽南语中的“jiak ba bueh”(你吃过了吗)和“hoh boh”(你好吗),以及炒粿条和椰浆饭等当地菜肴。2015年,李海洲当选为国际语音通信学会(International Speech Communication Association,简称“ISCA”)的主席。他也是ISCA自1988年在法国格勒诺布尔成立以来的首位华人主席。ISCA是语音技术领域最重要的国际顶会,李海洲相信,他能从2009年开始在 ISCA 任职,从理事到候任主席、再到主席,一个很重要的原因就是他精通法语。
我在中国出生长大,后来出了国。出国以后,人家经常问我:你的研究兴趣是什么?被人家问了一辈子。从来没有人问我:你的工作是什么?纵横学海四十年,李海洲常常被提问到一个问题:“研究语音这么多年,您如何保持做科研的热情?”每一次,他的内心都闪过无数问号,忍不住 OS:“除了是因为兴趣,还能是什么?”在他博士毕业那会,虽然电子计算机与信息技术已开始腾飞,但因为他所研究的方向太冷门前沿,李海洲拿着一张计算机博士学位的文凭,都找不到工作。但他很喜欢自己的研究方向,“我觉得我跟机器交流,它能识别我说的话,就像变魔术一样,很有成就感。”所以,即使没有得到肯定,他也能坚持做下去。后来,他加入企业做研究,先后研发了苹果电脑中文输入系统、全球首款声纹解锁智能手机(百度云手机联想A586)、百度音乐“听歌识曲”等成果。A586在2012年推出,被誉为百度在人工智能领域的超前布局之一,李海洲回国,在街上看到有人使用他的声纹识别技术解锁,心里特别开心。“这种成就感与金钱无关。我自己是认为,有人愿意给我发薪水,让我做我自己喜欢的东西,就是双倍的回报。”李海洲谈道,他崇尚“Use inspires research”(用途驱动研究),最大的愿望是能够将所学的知识工程化,最终顺利在现实中落地。从1996年到2014年期间,李海洲一直在工业界活动。2014年重返学术界、在新加坡国立大学担任终身教授后,在培养学生时,他也总是强调:研究的课题必须来自实际需求;写一篇文章,就要解决一个问题。在语音研究上,他的最终目标是希望机器能像人一样完成语音相关的任务。当对话系统在与你交流时,你分不清“它”是人还是机器;机器在听音时,无论环境多嘈杂,你都能准确识别目标者的声音。


我觉得这个方向还可以研究50年。谈到语音识别研究的未来,李海洲仍然充满热情。除了自动语音识别,他的研究内容还包括语音分离、文本处理、数字信号处理、多模态与类脑计算等等方向。相比“人工智能”,李海洲更倾向于将其定义为“机器智能”。在他看来,目前的人工智能系统仍存在许多亟待解决的局限性。比如,语音识别是针对一项任务开发一个系统、而无法通用,并不能像人一样举一反三;再比如,人工智能的学习大多由数据驱动,由此打造的系统在面对未学习过的场景时,往往不知所措。要解决这些问题,仍需要下一代的努力。除了科研,李海洲如今最喜欢的事情便是培养研究生,看着学生成长。作为曾经历过语音研究低潮期的学者,他在面试学生时总会先问他们:“你来读这门课,是因为真的喜欢这个课题,还是因为这个方向在外面很火热?”只有具备真正的热情,他才会收他们作为学生。他所培养的学生中,许多人目前也在高校与企业担任要职,比如华南理工大学电子与信息学院的金连文教授,微软首席应用科学家肖雄,Facebook研究科学家、开发了 TTS 工具包 Merlin 的 Zhizheng Wu等等。与李海洲一样,他们也十分注重研究成果的落地与实用性。在深度学习时代,李海洲明显感觉,当前的研究氛围有些浮躁。对于青年学者,他的建议是:
现在很多人在做语音处理的时候,因为有了深度学习的工具,所以他们就每天拿DL工具来试东西。试了100个,其中有1个好的,他就很开心了,但是什么也没有学到,也没办法推广。我觉得这个研究方法是不可取的。如果要从事语音识别、语音处理、语音合成、声纹识别之类的研究,还是要回到根本,从语音的基本理论学起,比如学习语音是什么样的,语音有什么样的物理特征,回到信号处理的根本。你去了解信号是长什么样子,人是怎么处理的,然后才慢慢的去使用工具。而研究对话系统的话,李海洲的建议是首先要读自然语言处理的基本理论知识,然后才进入深度学习的世界。“就像学武术一样,从基本功学起,这样才能扎稳根。”