红联Linux门户
Linux帮助

天河二号:五星红旗插上了世界超算之巅

发布时间:2013-12-27 08:55:02来源:红联作者:lavecgn
  来源:网络

  世界超级计算机TOP500组织正式发布第42届世界超级计算机500强排名榜,国防科大研制的天河二号超级计算机系统,以超过第二名近一倍的浮点运算性能再次位居榜首,蝉联世界超算冠军。

  该校计算机学院院长、研究员廖湘科,是天河二号的总设计师。他坚持以我为主,勇于自主创新,带领团队攻克一个个技术难关,将五星红旗一次次插上了世界超算之巅。

  廖湘科长期从事国产高性能计算机和自主操作系统的科研工作,工程经验丰富,技术水平精湛。在天河一号超级计算机系统的研制中,担任副总设计师的他,目光紧盯技术前沿,提出了当时国际领先的虚拟化网络计算支撑技术和多层次大规模系统RAS技术方案,实现了我国自主研制超级计算机能力从百万亿次到千万亿次的跨越。

  短暂的喜悦之后,廖湘科加紧攻关步伐,将目标瞄准了运算速度更快的亿亿次超级计算机系统----天河二号。然而,在竞争日趋激烈的世界超算领域,跨越发展谈何容易。廖湘科迎难而上,带领研制团队设计出新型异构多态体系结构,实现了多类型计算资源、输入输出资源和服务资源的灵活配置,拓展了天河二号的应用领域。

  如今,天河二号已成功落户国家超级计算广州中心,在海量数据处理、云计算和存储、“智慧广州”信息系统建设、先进机械装备设计、动漫制作、基础研究等方面,取得了显着的经济效益和社会效益。

  廖湘科深知,在计算机领域与西方国家竞争,不掌握核心技术就会受制于人。他以身作则,每一项关键技术都亲自做预案,再由各课题组进行酝酿、讨论,最后广泛听取群众意见,集智攻关;工程实施阶段,他与团队一道泡在机房,经常第一个来,最后一个走。

  2009年担任计算机学院院长后,廖湘科殚精竭虑,带领学院建设驶上发展快车道----获得国家科技进步奖特等奖1项、一等奖2项、二等奖4项,国家发明奖二等奖1项,军队和部委科技进步奖一等奖20项,国家教学成果奖1项;涌现出以1名全国优秀教师、4名全军“育才奖”金奖教师、2名国家杰出青年基金获得者、1名中国科协“求是奖”获得者以及2个国家级科技创新团队、1个国家级教学团队为代表的一批科研精英。

  据美国《连线》杂志11月18日报道,国际TOP500组织18日公布了最新全球超级计算机500强排行榜榜单,中国研发的“天河二号”以每秒33.86千万亿次的浮点运算速度蝉联全球最快超级计算机。美国的“泰坦”位居第二。

  在今年6月发布的500强排行榜中,“天河二号”首次超过美国的“泰坦”问鼎冠军宝座。“天河二号”是由中国国防科技大学研制的超级计算机,速度比“泰坦”快了近一倍。

  “泰坦”是安装在美国能源部下属橡树岭国家实验室的一台CrayXK7系统超级计算机,运算速度为每秒17.59千万亿次,位居第二。排名第三的是安装在美国能源部劳伦斯-利弗莫尔国家实验室的“红杉”。

  在最新榜单中,前十名唯一的“新面孔”是瑞士国家计算中心的“代恩特峰”,运算速度为每秒6.27千万亿次。它是欧洲最快的超级计算机,也是前十名中能效最高的。

  尽管中国蝉联全球最快超级计算机,但在最新的500强榜单中,美国的超级计算机数量仍然领先,从上次的253台增至本次的265台。与此同时,中国超过日本,排名第二。

  “天河二号”同“天河一号”一样由中国国防科技大学开发,将于本年底在广州国家超级计算机中心投入使用。天河二号拥有多达312万计算机核心,102.4万GB内存,每秒浮点运算速度达33.86千万亿次,理论浮点运算速度峰值达54.90千万亿次,操作系统为中国自主研发的麒麟Linux。

  美国“泰坦”

  超级计算机第二泰坦克雷XK7由超级计算机之父西摩?克雷制造,目前被部署在美国能源部橡树岭国家实验室。泰坦数据:56万核心,71万GB内存,17.59千万亿次浮点运算速度每秒,理论峰值27.11千万亿次,CrayLinux Environment系统。

  美国“红杉”

  IBM制造的红杉超级计算机排在第三,位于美国加利福尼亚州劳伦斯利物浦国家实验室。红杉配备IBM BlueGene/Linux系统,157万计算核心,157万GB内存,浮点运算每秒17.17千万亿次,理论峰值20.13千万亿次。

  日本“K Computer”

  KComputer由日本富士通公司制造,70万计算核心,141万GB内存,浮点运算每秒10.51千万亿次,理论峰值11.28千万亿,配备Linux系统。

  美国“米拉”

  第五快超级计算机米拉也由IBM制造,在美国阿尔贡国家实验室,78万计算核心,浮点运算每秒8.58千万亿次,理论峰值10.06千万亿,配备Linux系统。

  美国“Stampede”

  戴尔制造Stampede居第六位,位于德克萨斯大学德克萨斯高级计算中心,每秒3.38千万亿次浮点运算速度,理论峰值为5.49千万亿次。

  追寻百万万亿次:中国“天河二号”不为世界排名

  8月29日,作为中国青年报社中青在线的嘉宾,国防科技大学计算机学院副院长卢凯接受了网络访谈。对于新老网民来说,40岁的卢凯足以称作“老字辈”,他不仅有20余年的网龄,玩电脑的历史更可追溯到29年前。1984年,卢凯父亲从美国出差回来,这个研究了一辈子计算机的老专家给儿子捎来了一台苹果电脑,小卢凯由此迷上了编程。

  如今,那个“每天指挥电脑里的小人跑跑跳跳”的小学生玩出了大名堂。6月17日,由国防科大研制的天河二号勇夺世界超级计算机TOP500榜首,2010年,让中国首次夺冠的,也是该校研制的天河一号。在这两次向世界最高峰的冲顶中,身为副总师的卢凯总是冲锋在前。

  “天河二号”不是专门为争世界第一而做的

  卢凯这个人很实诚。

  “天河二号不是专门为争世界第一而做的,这是我们的原则,”卢凯直言直语,“‘TOP500’只是一个榜单,超算更重要的是为用户服务。”他解释道,如果是专门奔着“TOP500”去,没必要在其体系结构上动大手术。

  4月8日,团队才拿到天河二号的第一块芯片, 6月1日前就提交了最后结果。“世界第一,可不只靠这短短两个月。”卢凯说。

  成功来源于积累。天河二号采用了国外某型处理器,于是有网民质疑其是“堆出来的超算”。面对非议,卢凯淡然地表示,使用什么品牌的硬件得按客户要求,这些硬件好比是钢筋水泥,同样的建筑材料,造出的房子是不同的。集群式超算的核心技术不是处理器,而是架构设计,即网络系统和软件系统。如何让用户拿到有效的计算效率,关键在于卢凯领衔的软件团队的攻关。

  系统稳定性是卢凯最难攻克的一座山头。和天河一号相比,天河二号的节点规模翻倍,这让他很苦恼,管理天河一号尚且这么痛苦,如何保证天河二号的可靠运行?

  他认识到,不应在好状态上分散火力,而应瞄准了故障打。他提出“用机器管理机器”的思路,研制出可自动监控、检测、诊断、隔离故障的“自制故障管理系统”。与天河一号相比,天河二号连续稳定时间提高了1.5倍以上。这套系统大大减少了人的管理负担,他打趣道,“懒人推动进步”。

  第一是如何炼成的

  虽说“懒人推动进步”,可卢凯并不是个“懒人”。

  很难想象,面前这个总是挂着微笑、侃侃而谈的人,在大学时,还“颇为自卑”。他的自信随苦干而增强。

  1999年12月,仅用了4年半的时间,卢凯成为国防科大第一位毕业的硕博连读生。

  1995年9月,该校选拔20名硕士新生,作为首批硕博连读生加以特殊培养。结果,2000年前毕业的就卢凯一个。

  卢凯为什么脱颖而出?

  他坐得了冷板凳。读博时,卢凯的很多同学在校外接项目,收入可观。可认定“读书时就该认真读”的他,还是在机房里从早6时呆到晚11时。当卢凯头一个博士毕业时,那些赚外快的同学感到“有些失落”。

  他掌握了得当的方法,“否则再努力也会走偏方向”。硕博连读生直接做博士课题,这就要求学生自己完成硕士阶段培养。如果缺了硕士这段,就少了工程实践经验,“只会动嘴不会动手”。

  卢凯自觉培养工程实践能力,主动找师兄揽工程干。他不满足于博士课题只做模拟实验,而是紧跟国外趋势,做真实运行的系统。通过研制,他的实践能力进步迅猛。可多数博士往往忽视实践能力,以至于工作能力低下,“高不成低不就”。

  工作后,当卢凯发现自己能解决让别人束手无策的难题时,他找到了那种“舍我其谁”的自信。

  做一百次就不如做一千次

  “努力比天赋更重要。”卢凯说,“计算机研究不是靠巧劲、靠灵感,做一百次就不如做一千次”。

  办事稳妥的卢凯,“即使领导反对”,也坚持投入资源去准备小概率事件下的预案,以求周全。有一次,他在天津超算中心调试天河一号。忙碌一天后,他回宾馆休息,半梦半醒间,突然发现宾馆的灯光闪烁了几下,这表明电压不稳定。宾馆离机房还有两三公里,可他生怕机房用电也受影响,于是立即联系机房。

  果然,因为机房电压跳变,光纤受损,天河一号出现通讯异常。卢凯组织人连夜抢修。如果第二天才发现这问题,调试就会没法进行。

  30岁成硕导,36岁成博导,看起来一帆风顺的卢凯,其实每一步都走得不易。

  “成功就是弯路走得少。”2009年,评上博导前的那一年,卢凯在英国留学。头两周,他很迷惘,不知道在陌生环境该干什么。通过和父母的交流,他豁然开朗。

  “谁都会遇到瓶颈,需要你伸手拉一把,”卢凯积极与年轻人交流,促进青年成长。

  好高骛远,这是年轻人的普遍问题。面对那些对做具体小事有抵触的年轻人,卢凯亲历亲为,跟他们一起做最基础的活,看代码、写文档,让他们懂得,工作没有高低之分。

  不仅对年轻人善解人意,卢凯对自己也很开明。尽管计算机业更新换代快得让人炫目,但这并不让他焦虑。他觉得,新一代科研人和老一代之间最大的差别在于,认为家庭的重要性不亚于事业。一旦有空,他总是忙着在家做饭、打扫卫生、带孩子,而且乐此不疲地陪妻子逛街。他说,“人还是要生活着,家人不是拿来牺牲的。”

  卢凯提倡“快乐工作”,总是笑嘻嘻的他,很少批评下属。工作之外,他还偶尔玩玩《反恐精英》、《突袭》这样的军事游戏。可自认“宅男”的他,一碰到组织带同事和家属出外游玩时,总是格外积极。也顺便争取到了很多家属对其团队工作的支持。

  “我的梦想是,在2020年前后,让中国超算实现百万万亿次计算性能。”卢凯说。“但光有一个能算的机器,没用,关键是算什么。”他指出,天河系列的成功,并不能代表我国超算的整体实力达到了世界领先水平,差距尤其体现在应用方面。据报道,美国在超算上的投入是中国的6倍,其软件开发预算为硬件预算的30%,远高于还不足10%的中国。他期待着,我国能转变思路,投资向软件倾斜,让不同领域都有专门软件来实现相应功能。

  这个从小学美术、爱画画的人,在描绘着我国百万万亿次超算的蓝图。他憧憬着,画成之时,不仅中国超算会成为世界冠军台上的常客,更能在百姓生活中发挥作用。
文章评论

共有 0 条评论