新浪博客

计算所与北大往事回顾

2017-05-04 22:52阅读:
上。因为我这些年来的工作与北大计算语言所有密不可分的联系,我在写初稿的时候,花了很大篇幅介绍我跟北大计算语言所合作的情况。初稿写成后,我请了很多人帮我看,包括北大计算语言所的俞老师、詹卫东、常宝宝等人,他们看到我对以前的这些事情的回忆都很感慨,也给了我很多的鼓励。后来在计算所网站上正式发表时,考虑到这篇稿子毕竟是为计算所建所50周年而写的,我与北大合作的这些事情与这个主题关联不大,所以就忍痛删掉了很多这方面的文字,另外也删掉了一些比较具体的技术细节。现在征得俞老师同意,把这篇稿子的全文发表在“燕园时语”上,补上了被删除的部分,标题改成“计算所与北大往事回顾”。不过原来文章是以我在计算所的经历为主线来写的,这一点没有改动。谨以此文献给这十几年来跟我一起在自然语言处理和机器翻译领域并肩战斗过的老师、同学和朋友们。借用詹卫东给我的邮件中的一句话:衷心祝愿我们这些一起战斗过的NLPers一切顺利。
引言
计算所宣传外联办的祁威跟我约稿,要我为计算所建所50周年专刊写篇稿子,回忆一下我所经历的一些事情。她的来信引起了我对往事的一些回忆。我是1989年进入计算所的硕士研究生,毕业后一直留所工作至今。比起计算所的老同志来说,我在所里的时间并不算太长。不过在现在的计算所,放眼望去,到处都是生气勃勃的年轻人,与计算所的绝大部分人比起来,我也确实应该算得上是“老”员工了。不算在研究生院(玉泉路)学习的一年时间,我在计算所已经工作了整整16个年头。虽然我只是计算所一个普通研究人员,计算所这些年来发生的一些重大事件,我们并不处在这些事件的中心,但对于我们具体的每个人来说,还有很多的小事,同样值得我们去回味。也许正是这些小事,可以从一个侧面,佐证我们计算所这些年来辉煌而又曲折的发展历史吧。
在二室
先说说我自己的经历吧。
攻读硕士学位
我是1989年作为免试推荐的硕士生进入计算所的。当时报的导师是高庆狮院士(当时还叫学部委员)。进所的时候,因为高院士出国未回,我的导师改成了张祥研究员,也就是当时计算所二室的主任。在玉泉路学习的一年很快就过去了,回到所里的时候,我和师妹韩向阳都被分到了陈肇雄博士领导的机器翻译课题组,师弟潘伟被分到了蒋贤春负责的汉字识别课题组。
我刚到计算所二室的时候,张祥老师还是863专家组的组长,那时二室还是非常红火的。1990年我们刚从玉泉路回所的时候,赶上在京西宾馆举行EST863工作站的鉴定会,规模非常大。
接下来的两年,我开始在陈肇雄课题组研究机器翻译,这个课题组承担了863的“智能型机器翻译”项目,课题经费是74万元人民币。当时参加这个项目的,除了计算所的人以外,还有很多合作单位,包括北京科技大学、中国科技情报所、珠海科健公司、北京工业大学等等,研究开发工作进行得非常红火。这段时间的工作,使我对计算语言学和机器翻译的研究发生了极大的兴趣。在我以后的经历中,虽然换过好几个地方,但我的研究工作一直集中在这个领域,没有离开过。
1992年,我顺利完成硕士学习和硕士论文(我的论文主要是做其中的知识库管理系统),获得了硕士学位。也就在这个时期,机器翻译课题组的工作取得了重大的进展。课题组和香港权智公司签署了协议,权智公司投入74万美元,课题组投入机器翻译技术,双方共同合作成立了“科智”公司,将系统植入权智公司的“快译通”产品之中。由于权智公司的产品早已行销全世界,产品的销路完全不成问题,而这又是全世界第一个带有全文翻译功能的电子辞典产品,这是一次非常好的合作,引起了轰动。从此以后,陈肇雄的事业开始走上了快车道,先是于1993年和1995年分别获得中科院科技进步一等奖和国家科技进步一等奖,而后又在1997年离开计算所,成立了华建公司。华建的机器翻译产品也一直是市场上最好的机器翻译产品之一,这是后话了。
也就在我们毕业的时候,陈肇雄脱离了计算所二室,成立了计算所机器翻译中心。我的师妹韩向阳跟陈肇雄去了机器翻译中心,师弟潘伟去了美国,而我则选择留在了二室。
开始独立研究·跟北大计算语言所合作
硕士毕业后,我就一直在考虑今后的研究方向。导师张祥给了我很大的选择余地,让我自己做出选择。经过一段时间考虑,我还是决定继续做机器翻译研究。我选择的课题是汉英机器翻译。之所以选择这个课题,是因为当时陈肇雄做的主要是英汉翻译,我不希望做的工作跟他们重复,另外,从研究角度说,汉英机器翻译难度更大,对汉语研究来说意义也更大。张祥老师同意我的选择,并许诺给我尽可能的支持。方向定下来以后,我就开始埋头考虑设计方案,到1993年上半年,初步的设计方案已经成型,系统设计已经详细到了模块一级,词典、规则库的定义也都已经完成。这时我开始考虑寻找合作者。由于做汉英翻译的研究主要需要寻找汉语语言学方面的合作者,我首先想到了北京大学计算语言学研究所的俞士汶老师。俞士汶老师是我硕士论文答辩的主席,他的学者风度给我留下了深刻印象。我主动找上门去跟俞老师讨论合作事宜。现在想起来确实冒昧。那时我还是一个刚刚硕士毕业的学生,俞老师已经是成名的学者,而我又要求进行以我为主的合作,现在看起来,几乎是一件不太可能的事情。没想到这次合作竟然奠定了我们以后长期合作的基础,我也最终成为了俞老师的博士研究生。这是后话,下面还会说到。
当时俞老师在仔细听取了我的设想以后,初步同意了合作,但希望能够在仔细研究我的设计方案后再做出最后决定。我回去后,就把总体的设计方案交给了俞老师,其中词典设计和规则库设计都是用类似BNF范式的形式描述的。俞老师在仔细研究了我的方案后,完全同意了跟我合作,我们签署了一个简单的合作协议,由计算所提供很少的一笔研究经费和一台计算机,北大协助我按照我的设计方案,完成词典和语料库的设计和调试,双方共同合作开发一个汉英机器翻译系统。合作期限是1993年8月到1995年1月。
协议签署后,我们就分头开始了开发。我主要进行软件开发,北大一个小组在我的指导下进行词典和规则库的开发。当时北大这个小组由当时在北大读硕士的周强负责,参加的人有段惠明老师、王惠老师、硕士生和博士生詹卫东、博士生常宝宝、硕士生陶晓鹏等人。到1995年,一个原型系统已经完成,这个系统运行于Sun工作站之上,词典规模只有5000条。虽然这个原型系统还很简单,但已经具备了一个机器翻译程序所需的基本功能。初步的成功让我们备受鼓舞,我和俞老师都同意将这项合作继续进行下去,开发一个初步实用的汉英机器翻译系统。
1996年和1997年,我们又就这个项目跟北大签署过两个补充协议,一方面是继续合作,另一方面,我们以非常优惠的价格购买了北大开发的一些语言资源和工具。这一阶段,除了软件的继续完善以外,还有两件工作量比较大的事情,一个是将系统从Unix平台移植到Windows平台,另一个是词典的开发。词典的知识来源主要有三个部分。第一部分是汉语的语法信息,主要来源于北大提供的汉语语法信息词典。第二部分是词的语义信息,是我们课题组自己独立开发的,我们设计了一套当时比较先进的语义描述体系,一方面通过一个语义分类体系(现在通常称为本体Ontology)描述每个词的语义,还可以对每个词配价关系的描述来说明一个词可以跟哪些语义的词搭配。这部分开发工作由北大的王惠老师负责。第三部分是汉语词到英语词的翻译信息,也是我们根据几部汉英词典独立开发的。1996年,我们就汉英机器翻译系统申请了863项目并得到了支持,经费16万元人民币,不久以后又得到了一个计算所所长基金的支持,这标志着我们的机器翻译研究正式从自选项目的状态转入了官方认可的状态。1998年,863项目结束,我们的系统也初步开发完成。当年,我们参加了863专家组组织的中文信息处理与智能人机接口技术评测,参加汉英机器翻译评测的共有三个系统,我们在翻译质量方面以比第二名微弱的优势获得第一,但在用户界面方面,由于程序运行过程中的一个错误被扣分,导致总分名列第二。当时的评测结果全文刊登在《计算机世界》报上。这是我们的系统第一次出现在公众视野中,应该说,成绩还不错。这次评测给了我们很大的信心。
从我1992年毕业到1998年我们的系统在863评测中取得较好的成绩,我的工作应该说出现了一个小的高潮。这一年我的一篇论文发表在美国的AMTA会议上,我在1997年评上了副研究员。更重要的是,我在工作中结识了很多今后非常好的朋友。在计算所,除了我以外,先后加入了我这个小组的有博士生刘颖、王斌、李素建、鲁松和员工叶煜。王斌后来留在计算所,先后在软件室和前瞻研究中心工作,现在是前瞻研究中心信息检索课题组组长。刘颖毕业后去了清华大学当老师。李素建和鲁松来得比较晚,很快就随着所里的改革进入新所软件室,叶煜工作很短时间后就离所了。北大的詹卫东这期间获得了硕士学位,并开始攻读博士学生。我们几个人长年在一个办公室工作,结下了深厚的战斗友谊。特别值得一提的是詹卫东,他在我这个课题组工作的时间最长。他是北大中文系陆俭明教授的学生,在汉语语法研究方面有很深厚的功底,对汉语的各种语言现象非常熟悉,在课题组内负责规则库的编制和调试。对于他来说,用形式化的计算机规则方式处理语言是一种全新的体验,尤其是在进行机器翻译的时候,就会发现,机器翻译所要处理的语言学问题跟他平时在语言学领域关心的语言学问题差距非常大,他会经常发现各种各样的问题提出来跟我们讨论。而我当时也对汉语的分析非常感兴趣,看了很多语言学、特别是汉语语法理论的书籍,我们经常就语言学中的大大小小的各种问题进行非常深入的探讨。由于机器翻译几乎涉及到一种语言的所有各种语言知识,所以我们的讨论也涉及到了语言学的方方面面,我们把语言学中的很多概念按照我们的理解重新进行了清理,形成了我们共同的一些理念。这种讨论让我们都受益颇深,对我们今后的工作都产生了非常深远的影响。对我来说,我从一个语言学的门外汉变成了一个“票友”,对语言学的各种理论我至今都有着浓厚的兴趣。语言对我来说不再只是计算机处理的一堆数据,而是在其背后隐藏着深刻的规律性。到现在,虽然我们已经完全转到了统计机器翻译这个方向,但我并没有像一些纯粹的经验主义者一样,对语言知识在机器翻译翻译中的应用失去信心,而是一直坚持把一些语言学的知识引入到统计方法中,并获得了某种程度的成功。我也坚信,结合语言知识的统计模型将是机器翻译方法的最终归途,我们将沿着这个方向一直走下去。对于詹卫东来说,机器翻译的工作经验使他相比于其他的语言学研究者而言具备了一种独特的视角,这种视角更加全面、更加理性,这也使得他的研究工作在语言学界受到了更加广泛的关注。詹卫东于1999年博士毕业,他的博士论文“面向中文信息处理的现代汉语短语结构规则研究”就是根据他在机器翻译中的工作总结提炼形成的,这篇论文获得了2001年全国百篇优秀博士论文奖。现在詹卫东已经是北大中文系应用语言学方面的负责人,而且担任了北大计算语言学研究所的副所长。
对于当年开发的这套基于规则的机器翻译系统,我现在想起来还是比较满意的。这个系统最大的优点在于提供了一套具有强大的翻译知识表达能力的规则描述语言。通常,基于规则的机器翻译系统最大的问题就在于词典和规则库的调试。一般情况下,没有经过数十乃至数百人月的调试,规则数目没有数千条以上,系统很难达到初步可用的水平。而我们的系统除了在词典开发阶段招聘了一些临时人员以外,一般只有两三个人进行词典和规则库的开发,真正进入调试阶段只有三四个月的时间,调试了四千个左右的汉语句子,就在863评测中取得了较好的成绩。这一方面得力于詹卫东博士深厚的汉语语言学功底,为我们的规则系统打下了良好的基础,另一方面,也确实是因为我们定义的规则描述语言非常强大,可以比较清晰准确地描述各种类型和各种层次的语言知识,为詹卫东这样的语言专家提供了得心应手的工具。詹卫东博士对这套规则描述语言使用得非常顺手,以至于直接用在了他的语言研究工作中。在他的博士论文以及其他一些论文中,都直接采用这套规则描述语言。而且,后来由于我转到了统计机器翻译方法,原来的系统已经弃之不用了。但詹卫东博士对这个系统仍然不忍放弃,我就把系统的全部源代码给了他。他把其中的汉语分析部分独立出来,后来,他又带了一个学生,在我的帮助下,把原来的规则描述语言进一步完善,主要是增加了一些内嵌的函数,并增加了主观评分机制,使得规则的描述能力更加强大。詹卫东博士把这套句法分析器和他后来开发的句法树库管理工具结合起来,构成了一个完整的汉语句法知识管理平台,他至今仍在使用。其中的汉语句法分析器在面对真实语料的时候正确率能够达到60%以上,这对于一个基于规则的系统来说是非常不容易做到的。有趣的是,詹卫东作为一个语言学家,为了开发这套工具,自学起了C++语言,到后来自己已经成了半个编程高手了,程序中的很多问题他都亲自上阵解决,当然也免不了有一段时间经常就一些比较难解决的问题“骚扰”我。由此也可见詹卫东的勤奋与钻研精神。对这套工具,我们一直希望把文档好好整理出来,将有关成果发表成论文,并将这套工具公开出来提供给其他语言学研究人员使用。到现在为止他可能觉得一直还不完善,所以还没有这样做。但我想这是迟早的事情。
除此之外,我们这个机器翻译系统还产生了一些有意义的结果。我们开发的机器翻译词典的语义部分,采用了前面提到的基于配价的描述模式。虽然我们在词典的语义分类体系设计和词典开发的质量方面都做得非常粗糙,但这种思想还是很先进的。当时组织这部词典开发的北大教师王惠发表的一篇介绍这部语义词典的论文就有很高的引用率。这种基于配价的语义词典设计思想明显不同于自然语言处理界常见的语义词典(如同义词词林、Hownet、Wordnet)的组织形式,比较适合于机器翻译系统的使用(目前看来,这种设计思想有点类似于Fillmore设计的FrameNet的思想)。俞老师对我们这套词典的设计思想非常欣赏,后来北大计算语言所和北大中文系合作在这种设计框架下完成了一部新的《现代汉语语义词典》。
另外,我们还跟俞士汶老师签署了一份协议,授权北大计算语言所帮我们转让这个机器翻译系统的成果,包括其中的软件和词典等等。由于俞士汶老师开发的汉语语法信息词典影响非常之大,全世界开展汉语自然语言处理研究的几乎所有著名的大学和研究机构都陆续跟俞老师谈判转让了这部词典的使用权。在谈判的过程中,俞老师也顺便跟这些机构推荐转让我们机器翻译系统的成果,几年下来,竟然也收获颇丰,转让次数估计有七八次吧,转让金额总数也有近百万元人民币,其中一半左右分到了计算所。我记得还有一份软件还免费转让给了香港中文大学做教学用。
计算所改革·跟李所长第一次接触
在这一期863项目完成以后,我们的机器翻译研究开始工作变得困难起来。虽然我们又成功申请了一期863重点课题,但实际上项目经费只到位5万元。
1998年底,计算所新领导班子上任,高文任所长,科学院宣布对计算所进行重大改革,原来1000多人的计算所绝大部分人进入企业形式的计算所二部,重新组建一个不到100人编制的小计算所,小计算所同时又是联想研究院。这使得计算所进入了一个动荡不安的时期,很长一段时间,大家都人心惶惶,不知道将来要向何处去。后来,有一些人的去向逐渐明朗,部分人进入计算所二部,另外少数人进入新成立的小所,同时也是联想研究院。不过让我着急的是,我的工作没有任何着落。原来的二室已经解散,张祥老师出国了,这时刘颖已经毕业去了清华大学,王斌刚刚毕业,留所进了智能中心,而我既没有进入二部,也没有被吸收进小所,成了孤家寡人。从一些间接的消息看,小所似乎按部就班地成立并正式开始运转了,但对于我(可能还有其他一些人)来说,我没有从任何正式的渠道得到小所成立的任何信息,也没有任何人对我们将来的安排做出任何解释或说明。我第一次对未来感到如此的茫然。其实我也不是没有地方可去,俞士汶老师非常欢迎我进入北大(俞老师很长时间一直在北大为我保留了专门的工位和计算机,虽然我并没有去北大上班),自动化所模式识别实验室也在向我招手,还有一些公司只要我愿意也都可以去。但我还对计算所抱有一丝留恋,希望计算所能给我一个解释,而不是这样不明不白就走了。
那时我找了所里不少领导和部门的负责人,都得不到正面的答复。有一天下班的时候正好遇到李所长(那时候还是智能中心主任),我就壮起胆子跟他打了个招呼,说想跟他谈谈。李所长就带我到他办公室聊了一会儿。我跟他说了我的情况,表示了希望进入智能中心的愿望。他对我的情况好像也大致知道,只是告诉我,我所做的机器翻译研究,如果不能结合到具体的项目中,在智能中心会很困难。谈话的时间很短。虽然他没有正面答复我,但从他谈话的口气看,我感觉还是很有希望的。
这是我第一次跟李所长直接接触。我在计算所这么多年,跟李所长的接触并不多。不过,这寥寥可数的几次接触,对我的在计算所的工作都产生了重大的影响,后面我会陆续提到。
我最早认识李国杰所长,还是我在中国科学技术大学计算机系学习的时候。那时他刚从国外回国不久,我们学校的陈国良教授邀请他到我们系做了一个系列学术报告,介绍了国际上并行处理方面的最新动态。不过那时候我对他的印象还不是很深。
到计算所以后,我才知道,李国杰已经担任了智能中心主任,名气非常大,几乎可以用如雷贯耳来形容。不过在很长时间里,我都没有跟他直接接触过。对他的了解,都是通过各种媒体以及同事之间私下的交流得知的。这次也是走投无路了,才想起来去找他。
1999年末,所里的情况出现了大的变化,李国杰院士接任计算所所长,计算所的改革方向逐渐明朗起来。计算所和联想研究院进行了明确的分割,计算所内成立了六个实验室,而我也在2000年初得到樊建平副所长的通知,让我到白硕那儿报到,正式进入新成立的由白硕担任室主任的软件研究室。
在我焦急等待的这段时间里,我做了一个重要决定,就是在1999年报考了北大的博士研究生,并被正式录取为俞士汶老师的在职博士研究生。1999年末,俞士汶老师得到一个973子课题“面向新闻领域的汉英机器翻译系统”,俞士汶老师让我以计算所员工和北大博士生的双重身份,担任这个课题组的技术负责人,总算把我的机器翻译研究工作延续下来了,不过主要的研究工作已经从计算所转到了北大,北大和计算所签署了一个协议,分担了其中的部分工作,这个项目的另一个合作单位是清华大学,由当时已经留在清华当老师的周强博士带两个硕士生参加。
二室的一些人和事
我在二室的时间前后有10年之久,这里面经历了很多事情。其中还有一些人和事我觉得有必要写出来。
高庆狮院士本来是我的硕士导师,但自从我到计算所以后很长时间就一直没有见过他。虽然如此,我还是听到了很多有关他的传说。后来到1990年代末他回国后,到北京科技大学工作,我听了他的一次报告。我进入软件室以后,他也被李所长重新请回计算所,我们接触机会才多了一些。我跟高院士有过一些深入的交谈,感觉高院士看问题总是站在很高的理论角度上,跟他的谈话总是让我很受启迪,也让我望尘莫及。
我刚到二室的时候有一个师姐张玉洁。她是高庆狮的学生,在我到二室的时候已经硕士毕业留所工作,等我1992年硕士毕业留所的时候,她到日本去攻读博士学位。没想到,十几年后我们竟然成了合作伙伴。我也忘了具体是什么时候,大概是2002年下半年吧,她所在的日本综合通信研究所(现在已经改名叫做日本情报通信研究机构)希望到中国寻找合作机会,我们见过几次面。后来,我们又在一个中日自然语言处理研讨会上见了面,我们也互相对对方的工作有了比较多的了解,她在2004年初邀请我到日本进行了一个月的访问。这以后,我们就在一些领域开始了合作。最主要的合作是我们在863评测中的合作。她所在的研究所成了我们组织的863机器翻译评测的日方合作单位,帮助我们组织日本的研究机构参加评测、制作与日语相关的测试语料、并进行与日语相关的机器翻译人工评价。我们在这方面的合作非常成功,并在2005年的MT Summit X会议上合作发表了两篇学术论文。到现在,除了863评测,我们还在其他一些项目上开展了进一步的合作,并且每年都在各种会议上有很多次见面交流的机会。
我对二室印象还比较深的一项工作是张玉志的计算机围棋算法研究。计算机围棋是一个非常困难的研究课题,当时张玉志提出了一种类似于磁场的棋子影响力计算方法,可以比较方便地在序盘阶段判断双方的势力范围,确定关键的位置,理论上做得相当的漂亮。1990年张玉志还在计算所承办了一次由台湾应昌期先生资助的世界电脑围棋大赛,非常热闹。当时有一个趣闻,据说是两台计算机下棋的时候,在一个地方形成了比气互杀的局面,其中一方走出了一个“金鸡独立”,本来是活棋,眼看就可以杀死对方了,结果该方的计算机程序竟然主动认输了,一时传为笑谈。我想现在的计算机围棋程序应该不至于犯这么低级的错误了吧。另外一件值得一提的事情就是,当时还进行了少年棋手和计算机的比赛,都是让子棋。虽然少年棋手赢得了大多数的比赛,但唯一一个获得全胜的少年棋手就是常昊。当时很多人都看好的这个毛头小伙,现在已经成了中国围棋挑大梁的人物了,想起来不由得让人感慨。计算机围棋研究和机器翻译研究一样,都是对人类智力进行挑战的工作,我至今仍然认为是非常有意思的,哪天要是等我有闲了,我倒很想尝试一下。
我毕业后留在二室的时间里面,还有一小段时间跟刘志勇研究员做了一点并行算法的研究,帮他把一个在n-cube上的并行算法移植到了另外一种结构上,还发表了一篇论文。后来不久刘志勇就调到国家自然科学基金委去工作了。
大概在1999年前后,我还跟李锦涛老师的课题组合作,将我们开发的汉英机器翻译系统移植到了将要推出的联想天玑掌上电脑中。我们顺利完成了这项工作,不过后来联想天玑正式推出的时候并没有选择我们的系统作为随机软件。
我在二室的时候,钱跃良老师一直担任863专家组办公室的主任,有一段时间还是二室的副主任。当时我们打交道并不多。没想到这么多年以后,我又进入数字化研究室加入了钱老师的课题组,在钱老师的领导下工作。现在钱老师是我们多语言交互技术评测实验室的主任。
老二室的人现在还留在计算所的,除了高院士、钱老师、我和王斌以外,还有宋铟(软件室秘书)、齐蓉(计算机研究与发展编辑部)等人。
对智能中心的印象
改革前的几年,计算所很多部门的情况都是每况愈下。只有少数几个部门情况较好,而智能中心无疑是其中状况最好、也是最活跃的部门。我当时由于埋头机器翻译的研究开发,对其他单位的情况并没有太关心,但智能中心的一些情况还是不断传入耳中,我们知道了智能中心开发出了著名的曙光计算机、智能中心有很好的研究氛围、智能中心的人收入很高,等等。二室的很多人也都陆续转到了智能中心工作。我自己唯一跟智能中心接触的机会就是参与了当时智能中心讨论班的一些讨论。当时两周一次的智能中心讨论班非常火爆,吸引了周边各研究所和高校的很多青年人来参加,传播了很多的新思想,讨论非常活跃。我自己也应邀在这个讨论班上介绍了当时我所在的陈肇雄机器翻译课题组的一些情况。当时负责这个讨论班的是一个年轻的小伙子,他的名字我不记得了。刚开始,白硕还是北大的学生,他跟他的一个同学(忘了名字,好像姓王,单名)在这个讨论班上非常活跃,名气很大。后来白硕毕业后到智能中心工作,原来的讨论班主持人也出国了,这个讨论班就由白硕等人负责,延续了很长一段时间。

我的更多文章

下载客户端阅读体验更佳

APP专享