教育装备采购网
第七届图书馆 体育培训

南京大学PASA大数据实验室荣国际大赛冠军

教育装备采购网 2016-11-11 14:32 围观754次

  2016年11月10日,有“计算界奥运会”之称的国际著名Sort Benchmark 全球数据排序大赛(http://sortbenchmark.org/),官网公布了2016年全球大数据排序性能评测大赛结果。南京大学计算机科学与技术系PASA大数据实验室(http://pasa-bigdata.nju.edu.cn)联合阿里巴巴和美国Databricks公司组成的参赛团队NADSort,经过几个月的深度研究和持续努力,击败了多个世界级参赛团队,刷新了大赛之前的世界纪录,荣获2016年CloudSort大数据排序世界冠军。

  Sort Benchmark是著名的图灵奖获得者Jim Gray发起组织的全球性数据排序基准性能评测大赛,自1987年开始每年举办一次,已经持续组办了30年。每年都有众多全球顶尖公司和学术机构参加该赛事,以评估软硬件系统架构能力及最新研究成果。著名的大数据计算系统Apache Hadoop(2008年)和Apache Spark(2014年)都曾在该基准评测赛事中保持世界记录。大赛分多种不同性能指标的评测竞赛项目。近几年来,随着全球大数据技术发展热潮的来临,大赛主要面向大规模数据的排序性能测试竞赛,设置了排序速度、成本、能耗等不同性能指标下的大规模数据排序评测竞赛项目。

  本次NADSort团队所参加的是基于公有云的CloudSort评测竞赛项目。CloudSort又被称为“云计算效率之争”,该项目比拼的是完成100TB数据排序谁花费更少,也是Sort Benchmark的各项比赛当中最具现实意义的项目。 NADSort团队使用了阿里云ECS,并按照公开的按量付费价格来比拼性价比。排序计算平台由394个阿里云虚拟服务器节点配置构成计算集群,使用Apache Spark大数据计算平台,在大规模并行排序算法以及Spark系统底层进行了大量的优化,以尽可能提高排序计算性能并降低存储资源开销,最终在阿里云平台上以144美元的成本完成100TB标准数据集的排序处理,创下了每TB数据排序1.44美元成本的最新世界纪录,比2014年夺得冠军的加州大学圣地亚哥分校TritonSort团队每TB数据4.51美元的成本降低了近70%。

  

  NADSort团队由南京大学(Nanjing University)PASA大数据实验室、阿里巴巴(Alibaba),以及美国Databricks公司技术人员联合组成(Databricks是Spark商业化公司,由美国伯克利大学AMP实验室著名的Spark大数据处理系统多位创始人联合创立)。

  本次NADSort团队中PASA大数据实验室的参与人员为王千同学、顾荣同学、以及黄宜华老师。

来源:计算机科学与技术系 科学技术处 责任编辑:阳光 我要投稿
校体购终极页

相关阅读

版权与免责声明:

① 凡本网注明"来源:教育装备采购网"的所有作品,版权均属于教育装备采购网,未经本网授权不得转载、摘编或利用其它方式使用。已获本网授权的作品,应在授权范围内使用,并注明"来源:教育装备采购网"。违者本网将追究相关法律责任。

② 本网凡注明"来源:XXX(非本网)"的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责,且不承担此类作品侵权行为的直接责任及连带责任。如其他媒体、网站或个人从本网下载使用,必须保留本网注明的"稿件来源",并自负版权等法律责任。

③ 如涉及作品内容、版权等问题,请在作品发表之日起两周内与本网联系,否则视为放弃相关权利。

校体购产品