按键盘上方向键 ← 或 → 可快速上下翻页,按键盘上的 Enter 键可回到本书目录页,按键盘上方向键 ↑ 可回到本页顶部!
————未阅读完?加入书签已便下次继续阅读!
。但是,我们一天做l6个小时,脑子都麻痹了。”
我对大家说:“你们说得很对。每个经理必须要尊重每位员工的私生活,不能期望‘超人’或‘非人’的工作时间。创新是靠激情和灵感产生,不是仅仅靠劳力的。我会和所有的经理沟通,尊重每一位员工的私生活。另外,我希望每个人都能做自己擅长并喜欢的课题,这样才能激发出最大的热情,而取得最大的成就。”
通过这次沟通,小组里的情形开始好转,研究院里逐渐形成了有话直说的氛围。为了打破公司管理层和员工之间的鸿沟,每两个星期,我就和‘副研’们一起吃一顿饭。
通过不断努力,研究院的气氛越来越融洽,越来越和谐,大家达到了一种心照不宣的默契,在作研究的时候,形成一种团结的合力。兵团作战
做一流的研究院!做有影响力的研究院!这是一个宏大的理想,还是堂吉诃德式的幻想?整整两年,全力以赴的拼搏成了我们的主旋律。
研究院的目标是作基础研究。基础研究就是研发一些现在不可能成为主流的成果,我们期望它们在5 到10年之后成为主流。这并不是一个很长的时间。
作为研究院负责人,我的第一任务就是拟定研究方向。当时,我们可以看到几个用户可能碰到的巨大问题:比如如何在多媒体(视频、3D)崛起时处理带宽供不应求的问题;如何在互联网无序信息爆炸时让无序信息变得有序;如何让中国用户用更自然的方式使用电脑。针对这些问题,我们开启了六个团队:
〃网络多媒体组——张亚勤的组开始进行最新的网络压缩研究,希望将多媒体信息的索取变得更为便捷、快捷、经济。
〃多媒体计算组——张宏江的组开始做多媒体的有序化,比如说从照片中找人脸,把照片自动分类,从视频中判断视频的内容。
〃形象计算组——沈向洋的组开始研究电脑中的;虚拟3D',研究如何把计算机视觉、图形学与数字视频相结合,以实现;互动式多媒体'。
〃多通道用户界面组——王坚的组开始设计各种新用户界面,从新的拼音输入到新的数字笔。
〃自然语言组——黄昌宁的组开始做自然语言理解的工作,来让电脑能够教用户英语.纠正错误的语法,建立强大的数据库和统计语言模型。
〃音字技术组——我自己带领一个团队做语音识别和语音合成,并且把这些技术转移到手写体输入和拼音输入里面,帮助输入困难的中国用户增加效率。
除此之外,凌小宁的软件开发组和陈宏刚的高校关系组也成功地招兵买马,小有规模。
这个时候,研究院的人员已经到位,但是如何让中国的研究院成为亚洲第一?如何在微软美国和英国的研究院的“巨大规模”下证实自己?在微软中国研究院成立之初,我们就知道,单凭实现梦想的蛮力,根本无法达到全球领先的远大目标。
美国研究院有计算机界很多著名的大师,而我们这六位项目带头人在学术界的名声,远远不及这几位真正的大师。除了项目的质量,美国研究院的项目数量也远远超过我们,他们有30 多个项目,300多名研究员,我们只有6 个项目,20 多个刚毕业的学生。无论怎么衡量,我们连他们的“小弟弟”都算不上。
因此,我们不可能靠论文取胜,也不可能靠人数取胜,我们一定要有特色。我和我的团队经过反复商量,得出结论:我们要做一个更“有用的”研究院,做一个更像“兵团”的研究院。“最重要的不是创新,而是有用的创新。”失败的苹果语音识别、SGl 三维浏览器都还历历在目。不能为了酷,为了前无古人,为了发表论文而作研究,一定要定位在有用的研究上。
微软的首席技术官奈森·梅尔沃德曾经说:“微软研究院所进行的理论性研究可能在 10 年后才能有结果,有些有可能100年才出结果。如果我们不冒这个风险,我们可能一无所有。如果我们的项目都成功了,那我们反而失败了,因为我们冒的风险不够。”他这句话就是微软的美国和英国研究院定位的基础。
我们要做的不一样。虽然微软中国研究院也是要做基础研究,但是我认为,基础研究的目的依然不是单纯地写出一些论文或专利,最终的目的还是要让上亿人享受到你的成果。这才是研究院人员的最大成就感。我们要做更实际,更有近期产品潜力,更能被用户理解、被产品部门接受的研究。我们的
目标不放在10年,而放在3~5 年。
实际上,我们和微软美国研究院不同的地方就是:我们做一个项目的时候,应该清楚,如果做成功了,这有什么应用,对用户有什么好处?我们评价项目的时候,不仅仅评价“这有多新?”也要评价“这有没有用?能否给用户带来巨大的价值?”
所谓兵团,就是针对大部分研究院的问题所使用的一种带领队伍的方法。在微软的美国和英国研究院里,我们发现,尽管每个人都非常出名,但是整个研究院都处于一种散兵游勇的状态。研究员之间的关系不够紧密,尽管每个研究员都被充分放权,但是大家都认为自己是大师,应该拥有自己的研究
方向。所以,有些组里有各种不同的研究,每个成员的看法都不一样,项目之问的重复、冲突都不小,谁都不愿意听谁的。另外,没有人愿意做枯燥的技术转移工作,往往写完论文后技术就搁下来了。
我希望改变这种状态。在微软中国研究院,我们要放弃各自为政,要兵团作战。这个兵团有六个将军,他们参考大家的意见然后拟定“有用的项目”。一旦拟定,大家就全力以赴地投入战斗。因为我们有很好的团队合作文化,每个团队的副研究员都很
“服”他们的司令,而且每个人都知道只是一个独特的机会,无论对个人还是对中国,所以他们不惧辛苦,也愿意下一番苦功夫。
现在回想起来,在微软中国研究院的前两年,大家确实是在用一种拼的精神去对待工作。一批世界一流的科学家,带领一批聪明、拼命的年轻人,形成一个研究兵团,他们创造了奇迹,结出了硕果。卷起袖子做老师
是不是做了院长,就可以不做项目了?我给自己的答案是:不行。其实原因非常简单——人手不够。
当时,研究院确立的研究方向之一是“音字技术组”,也就是教电脑听话、讲话。这个恰好是我的博士论文的内容,但是我早就脱离了这个领域,而且已经多年没有写程序。但在研究院,我是唯一懂这方面技术的人,我只有勉为其难地卷起袖子,和我招到的几位副研究员一起工作。
邸烁和陈正是清华的高材生,尽管不是学语音的,但是l999年他们进入希格玛大厦的时候,选择了语音识别小组。每天,我拿着语音的教科书,从最基础的知识开始教他们。读完基础的课本后,他们开始练习在这个新的领域编程,然后,我再把我的论文拿出来,一章一章地讲给他们听。这两个年轻人都聪明过人,可以阅读世界水平的学术论文。另外,他们可以利用微软的“资源共享”制度,从美国研究院语音负责人那里拿来全套的语音软件。有了这些技术和源代码,这就像攀登100层的高楼,两人一开始就站在了50 层。他们俩进步神速,两年后,都成了项目负责人,如今在不同的公司取得了骄人的成绩。
在他们俩之后,我们组又来了个年轻人——高剑峰。高虽然也是名校(上海交通大学)的博士,但是他的专业是机械设计,方向是“工业造型”。因此,他经历过一段颇为迷茫的时期。
那一年,我去上海交大招聘,正好遇到了高剑峰,就问他在研究些什么?他兴致勃勃地说了他的研究。我当头泼了他一盆冷水,说,“这个东西在美国早过时了,你还研究什么,还不如到微软来换个有用的题目呢。”没想到,他真的来了,闯过了应聘的重重关卡,加入了语音识别小组。
不过,他马上感觉到了强大的压力,邸烁和陈正不断取得突破,而他连门道都没摸清楚,有时候遇到一个问题,他还没有弄明白是怎么回事,人家已经解决了。
看到高剑峰非常苦恼,我开玩笑地对他说,“你是不是混进来的啊?”他抬头看我,表情很窘迫。我笑了笑,对他说,“你不是计算机专业毕业的,但是我觉得你还是有潜力的,如果有不懂的问题,我觉得你可以去请教一下组里的同事,毕竟我们是一个团队,也欢迎你随时来找我。”
高剑峰点了点头,就去找邸烁和陈正了。这两个小伙子一点都不吝啬,把自己知道的东西都告诉了高剑锋,一些问题经他们点拨,就轻松化解了。
在不断的学习中,高剑峰的信心被慢慢地树立了起来。他觉得,作研究就像一场长跑比赛,遇到了高手,被人家甩得很远,不能着急,不能乱了方寸,该怎么跑还是怎么跑。他后来总是告诉新来的研究员不要在意中途的快慢,最后胜出的人,才是真正的胜者。
高剑峰就这么跟了几年,先学着跑,再自己跑,渐渐地不再感觉累。到了第四年,他已经是“项目带头人”,换句话说,他也是一个“领跑者”了。现在,他已经转到微软美国,在那里做资深研究员。
语音识别不是仅仅把每个字分别识别出来,而是像人一样,要运用到语言的知识。中文有一个特
殊的问题,就是分词。一个笑话就是“杭州市长春药店”,人们看到这个店名的时候,自然而然地知道是“杭州市/长春/药店”。但是仅仅向前推一个字,电脑很可能会识别成为“杭州/市长/春药店”。
如何做到正确的识别呢?我告诉陈正:“国内的语音识别往往是先分词,然后识别。这是彻底的错误,因为第一次分词总可能出错,一定要同时分词和识别,经过所有的排列与组合,挑选出最好的结合。”
然后,我发现我们的语言模型语料远远不够。语言模型的功能是经过大量的统计,来判断在下一个位置最可能出现哪些字,比如说,看到“尊敬的李”时,我们可能预测下面会是“先生”、“老师”、
“女士”等词,各有不同的概率。我对他说,“在中国做语音搜索统计,只联系到前面的一个词,但是中文的语言特点是歧义特别多。仅仅依靠向前推一个词,电脑并不能作出正确的判断,至少要向前推两个词。”我们请黄昌宁教授去开始一个语料采购的计划,训练出这样推两个词的语言模型。
另外,中文和英文很大的一个差别就是中文有四声的识别。这方面团队很快地做了一个四声识别器,和整体的识别系统结合起来。就像分词一样,一定不能先把四声识别出来,而要考虑所有的可能性,再作出总体最优的选择。
在他们三人以及后来加入的几位副研究员的努力下,很快,一个中文语音识别系统就做出来了。
此后,陈正和我发现这个系统不但可以做语音识别,也可以做拼音转换。我们尝试了一下,果然转换率比当时任何系统都要高很多。除此之外,我们还发现可以用统计模型做出一种奇妙的功效——
自动纠正人为造成的拼写错误,也就是说,如果你打入:“zunjingdelixansheng”,这个系统可以发现你少打了一个“i”,而自动转换成“尊敬的李先生”。后来,这个项目,由陈正做内核的技术,王坚做用户界面,成为了一个高质量的输入法。
在短短的一年内,这个五人团队就做出了多项傲人的成果:中文的四声识别、最精确的输入法、中文的听写机,还有多用途的统计语言模型。这些
项目都符合了我们“有用”的目标,也用我们的“兵团”模式迅速获得了成果。
与此同时,研究院里其他小组,都在为有用的梦想而全力打拼。向比尔汇报
在研究院成立之初,我就有一个愿望——有朝一日,我要走进比尔盖茨的办公室,向他展示微软中国研究院的成果。
这种汇报,是展示中国智慧最好的机会,也是让比尔信任“中国智慧”的最好契机。我希望中国研究院因此获得更多的经费和更有力的支持。
从进入研究院开始,我就把这个愿景分享给我的同事和朋友们。因此,向比尔汇报,成了我们共同的梦想。在美国出版的一些有关微软和比尔盖茨的书籍中,“向比尔汇报”是一个最引人入胜的章节,它们像武侠小说那样跌宕起伏、玄机重重。一方面,它给你无与伦比的愉悦;另一方面,盖茨有可能在最短的时间里挑出你报告里的问题,然后步步紧逼,让你无法招架,最后,你非但得不到半点成就感,还会