友情提示:如果本网页打开太慢或显示不完整,请尝试鼠标右键“刷新”本网页!阅读过程发现任何错误请告诉我们,谢谢!! 报告错误
热门书库 返回本书目录 我的书架 我的书签 TXT全本下载 进入书吧 加入书签

追随智慧-第45章

按键盘上方向键 ← 或 → 可快速上下翻页,按键盘上的 Enter 键可回到本书目录页,按键盘上方向键 ↑ 可回到本页顶部!
————未阅读完?加入书签已便下次继续阅读!



他对自己要做的事情并不仅仅抱有幻想。微软中国研究院以及李开复本人的加入,可能会更加激发其他公司在这一研究领域里快马加鞭。虽然你追我赶的热闹气氛和李开复的务实风格相悖,但他的确相信希格玛大厦的整个工作将以突飞猛进的步伐前进。他不仅拥有自己以往在这个领域中的全部经验和理论,而且还可以踩在微软公司过去若干年中的全部研究成果之上向前攀登。
他可以从雷德蒙的拼音小组拿来中文字典,还可以从黄学东小组那里拿来全套“维斯波”(Whisper)--英文语音识别系统。微软公司的制度本来就鼓励“小组合作”
和“资源共享”,黄学东和李开复的多年私交这个时候也340发生了作用。黄很痛快地答允,将“维斯波”的源码和语料库,全部调送李开复使用。“源码”和“语料”构成一个语音识别系统的最基本的部分,尽管它们全都属于英文而非李开复需要的中文,但有了这些,李开复小组的工作便有了一个很高的起点。这情景有如攀登一座100层的楼房,他们从一开始就已经站在第50层上。
可是,事情一开始就缓慢得令人揪心。
“维斯波”的“源码”和“语料”,容量大至“10G”。
就像物体的面积体积重量都有一个计量单位,信息的计量单位是“比特”。今天我们使用的个人电脑中,“比特”
的数量单位,以“G”为最大,以“B”为最小。中间又有“兆”和“K”作为过渡:1G等于1024兆;1兆等于1024K;1K等于1024B。
我们由此可以算出“维斯波”的容量为:1024×1024×1024×10=10;737;418;240(比特)
我们若将这些“比特”用汉字来衡量,并且放到一本32开的书中,那么这本书至少要有13;695;686页。如341此多的电子数据从雷德蒙微软总部传输到北京希格玛大厦,要依赖光缆构成的互联网络,也即我们所说的“信息高速公路”。高速公路上的汽车太多必会导致车速缓慢,“信息高速公路”的情形也是同样。当邸烁和陈正接通线路并启动传输程序之后,立刻就感觉到这“高速公路”上的拥挤不堪。“维斯波”要么是根本就挤不进去,好不容易进去了却又不能顺畅运行。电脑哼哼作响,发出吃力的喘息。有时候“数据流”会暴风般地涌进来,令邸烁和陈正惊呼“好酷”。有时候整个屏幕又静止下来,机声停顿,让人觉得网络上面一片空白。有时候还会彻底中断传输过程,“维斯波”就像是在一个“空中停车场”,而不是在一条“高速公路”上。邸烁和陈正原本计划3天之中把它全部“抓”到希格玛大厦来,但已经7天过去了,仍然摆脱不了这条拥挤不堪的“高速公路”。万般无奈下,两个人只好把技术支持工程师杨飞请来,查明问题究竟何在。
单从技术的角度来说,邸烁和陈正所遇到的问题,既属于正常,而又有着不正常的情形搀杂其中,其奥秘非一般人所能了解。作为一个世界最大的软件公司,微342软在雷德蒙总部有一个小组专门负责整个公司的计算机网络。他们在一座“星型”大楼里面,拥有一个由上千服务器组成的中枢。处在网络中枢的服务器,每天自动将所有文档备份,移送稳妥之处保存。即令失火、失窃一类的意外发生,办公大楼毁于一旦,设备荡然无存,而公司所有的技术进程和研究成果均能毫发无损。这一中枢系统又能与公司在世界各地的所有终端相连接,构成一个规模巨大的专业网络,其间有专用线路沟通彼此。
这种种办法与我们国家的情形很不相同。在我们这里,公司和政府通常的做法,是将自己的网络连接到公共网上,也即人们通常所说“上网”,所有人都在一个网络上行走,摩肩接踵,难免混杂。微软的专业人员认定,此种情形对于公司机密隐含巨大威胁,所以他们要将公司内部网络的出口限定为一个,又在这惟一的出口上安装“防火墙”。凡属于可以公开的数据便放在“墙”外,必须保密的数据则放在“墙”里。至于数据的交换和传输,则是租用电信公司的线路以供其“专有”。所谓“专有”,也即除了微软公司之外其他人不能进入。这条“专线”
由美国至东京,分向亚洲各国。进入中国后的线路则是从“中国电信”租得,其入口在上海,再通向北京,沟343通希格玛大厦的联络。信息流动的样子一定很像水的流动,其流量和流速是由最窄处决定,而不是由最宽的地方决定。杨飞拿出“瓶”(一种测试网络是否通畅的程序,英文名称“Ping”)来逐段检测,寻找问题所在。结果发现,电子数据一旦经过上海到北京这一段线路的时候,流动速度就会忽然放慢。因为这一段线路并不像上海以外的线路那样以光缆铺设,而是属于一般电缆,“带宽”
甚窄,数据在传输过程中极易受到干扰而不能正常流动。
这也就是人们通常所说的“瓶颈”。
在经历了漫长的等待之后,邸烁和陈正逐渐看清了“维斯波”的真面。两位后来者渴望在这一行行的“源码”上找出自己可以走通的新路,结果惊讶地发现,这“源码”竟是很多人的努力积累而成,所有原作者的姓名及其使用过的实验数据全都记录在案。其中李开复在1984年写下了最早的一批,然后有洪小文,又有黄学东……它像一部由智慧与心血交织而成的“圣经”,字里行间洋溢着某种精神:后来者总是站在前人的肩膀上才能有所作为。但如果他们真的有所作为,那就决不可能仅仅是因为站在别人的肩膀上。
344以后的两个星期里,邸烁和陈正继续把精力放在“维斯波”上,彼此说明自己的理解,或者讨论或者争执,甚至相互开展“大批判”,还同太平洋彼岸的黄学东小组来往了无数电子邮件和无数电话,在希格玛大厦将“维斯波”的英文程序运行通畅,全部实验数据印证无误,听写识别率也能与雷德蒙的“维斯波”所能达到的标准吻合。到了这时候,李开复要么是觉得这两个人已经足够成熟,要么是觉得不能再为练兵花费更多的时间,所以便对他们说:“我们可以开始做中文的工作了。”
这样,就出现了一个有趣的局面:一个训练有素并已卓有成就的“世界级科学家”,带着两个凭借直觉灵感连蒙带猜的小伙子。研究院的中文语音识别研究,就这样开始了。
一次突发奇想的双重效果此前我们曾经提到,微软公司通常把一个人的学习能力看得比他的专业基础更重要。他们不一定会对你提出“专业对口”这样的问题,但却会非常注意你对新事345物的反应能力和接受能力。假如一个人过多地夸耀自己以往的经验,在微软看来,这也许正是思维枯竭的征兆,至少也存在陷入“思维瓶颈”的倾向。这“瓶颈”通常不是缺少经验所致,而恰是经验太多的结果。把一大堆固定知识装满脑子的学生,犹如把一大堆僵死经验装满脑子的老人。成功有时候并不是一个好老师,它有可能让聪明人的思想枯竭,走进死胡同。所以,李开复在这个时刻所需要的,正是邸烁和陈正这种没有什么经验的人。
邸烁中等身材,方脸,浓眉,嘴角轮廓分明。刚到研究院的时候,他是副研究员,合同上注明两年聘期,但一年后他便成为微软公司的正式员工,并且开始拥有微软公司的认股权。和大多数这个年龄的人一样,邸烁自负,随意,性好独立,精力过剩,思路敏捷。不过,无论从哪个方面看,都不能证明他的天赋真有特别的过人之处。他的真正超越常人的能力,是能够在他完全不熟悉的领域当中迅速抓住问题的关键,并且知道到哪里去寻找解决难题的答案。他每天在他的电脑前构筑语音模型,其最重要的一部分工作,是在406个汉语音节当346中,确定155个基本音素,以供机器识别。还要在原有汉语拼音中的四种声调之外加上第五声,也即“轻声”。
如果需要克服时差的障碍与雷德蒙的研究小组交换问题和结论,他就从夜间一直干到凌晨,实在太困的时候,就在办公室的沙发上睡一会儿,又开始工作。他连续调整了“维斯波”中至少400个参数,以使它能够接受中文的信息。他所遇到的最大困难,不是这些几个月前还完全不懂的数据,而是中文语音的数据质量过于低劣,总被噪音干扰,远不像英文语音库里那些东西,即使把音量放大多倍仍无噪音,这使他不得不对他的新参数反复训练。
要说邸烁的直觉灵感弥补了他在语音专业上的不足,并把它们以一种可见的形式表现出来,那么,陈正在语言模型的建造上也起了同样作用。陈正骨瘦如柴,浓眉,小脸,从初中一年级的时候就开始戴眼镜,镜片由于度数很大而显得特别厚。旁人都以为这是他格外用功付出的代价,但他认为自己的高度近视是父亲的遗传,而且坚持说自己“从小就不刻苦”。他从小不喜欢被约束,经常因为上课说话之类的小毛病受到老师严厉批评。他347还特别不喜欢读书而喜欢玩,所以每天晚上8点半以后,一定要放下书本去看电视。但他学习新东西总比别人快。
他喜欢在全力以赴地玩过之后,再全力以赴做习题。他有一种在他那个年龄的孩子身上异乎寻常的天赋,能够将注意力迅速地在游戏和功课之间转来转去,一旦集中精力,便能持之以恒。这使他用不着投身题海当中,也总能获得很好的成绩。
他被父亲那一本本砖头似的医学书籍吓破了胆,但对中学校园里面的计算机分外着迷。看来,计算机的确为那些迷恋游戏、厌恶书本的孩子开辟了一条通向科学殿堂的道路。这条道路上,迂腐的循规蹈矩最少,激动人心的憧憬最多。比尔.盖茨在成名之后曾经说,一个孩子整天沉迷于计算机,要比沉迷于电视机好得多,因为计算机让人思考。陈正并不懂得这些道理,他用“学就是玩,玩就是学”来概括他当年选择这个专业的动机。
返回目录 上一页 下一页 回到顶部 0 2
未阅读完?加入书签已便下次继续阅读!
温馨提示: 温看小说的同时发表评论,说出自己的看法和其它小伙伴们分享也不错哦!发表书评还可以获得积分和经验奖励,认真写原创书评 被采纳为精评可以获得大量金币、积分和经验奖励哦!