8月16日,“数源杯”百万单细胞基因表达数据算法大赛决赛在深圳国家基因库顺利举行。经过初赛、复赛的严格评审筛选,10支队伍从300余个参赛团队中脱颖而出进入本次的最后决战,来自华中科技大学的柳嘉鑫一举夺魁。
本次大赛由深圳国家基因库主办,深圳华大生命科学研究院、深圳市华大基因学院、深圳市猛犸公益基金会协办,DataCastle承办。
文/广州日报全媒体记者王纳
院士寄语:希望能改变我们对生命的认识!
“为什么要做单细胞?生命的基本结构、功能单位是细胞,今天我们就是把细胞水平和基因层面的研究结合起来。在这次的竞赛中你们每一个人都是胜利者,我更希望在你们中涌现出一些高手,改变我们对生命的认识,改变现有生命解码工具!”华大集团联合创始人、董事、理事长杨焕明院士如此说道。
“数源杯”百万单细胞基因表达数据算法大赛于5月17日正式开启。这次大赛旨在鼓励相关领域的研究人员和从业者以国家基因库生命大数据平台存储的百万单细胞数据资源为基础,针对“聚类”这一单细胞数据分析的重要步骤,进行单细胞聚类算法的开发和优化,进而打造能够降低内存占用、提升运算速度的优质计算工具。本次大赛吸引了国内外100余家知名高校和近90家企事业单位的专业技术人员参与,包括北京大学、清华大学、波士顿大学、费城儿童医院、中科院计算所、解放军总医院、华为、腾讯、百度、平安科技等。累计提交作品1819个。
10支队伍入围决赛
当天下午两点,决赛正式开始。深圳国家基因库主任王韧博士在现场表示:“今天我们迎来了入围决赛的10支充满创造力和活力的队伍。你们拥有令人羡慕的青春年华和才学,最富有朝气、最富有梦想,勇于瞄准科技前沿,迎难而上,抢占先机,用自己的智慧为我国单细胞研究工作贡献力量。生物学大厦不是一个人建立的,只有各位年轻的生物工作者通力合作,才能实现学术上的重要突破。今天不只是一个比拼的战场,更是一个交流的平台,希望各位能在今天的比赛中激发新的灵感,擦出不一样的火花!”
现有百万单细胞聚类算法的平均运算时长为6小时~8小时,复赛阶段排名第一的队伍已经将此时长缩短到0.3小时,大大提升了计算效率。每支参赛队伍论述结束后,评委专家进行提问,随后从算法模型创新性、架构设计、复杂度以及答辩过程的PPT陈述、逻辑性等方面进行评分。本次大赛的最终评分由线上得分和答辩得分两部分组成,按二者加权后的最终得分进行排名。
10支参赛队伍答辩完成后,哈工大(深圳)—奇安信数据安全研究院韩培义副院长作为专家代表、深圳华大生命科学研究院徐讯院长作为大赛首席科学家分别为本次大赛进行了总结和展望。
韩培义副院长表示,“计算机技术正在与其他学科交叉,尤其是生物学。大家应当善用公共数据库(例如国家基因库生命大数据平台)的数据和算力资源将想法付诸实践。”
徐讯院长表示,“BT与IT融合(生物与信息融合)是‘十四五’国家重点研发计划,本次竞赛就是利用IT解决BT问题的实际应用。接下来数源杯还计划围绕时空组技术数据解析问题发起竞赛,期待有越来越多不同学科背景的人才参与进来,共同推进BT与IT融合创新。”
经过激烈角逐决出最终结果,来自华中科技大学的柳嘉鑫同学一举夺魁,另外9支来自浙江大学、波士顿大学、西安交通大学等高校、机构的队伍分别荣获二、三等奖和优秀奖。参赛选手们纷纷表示这既是一场有意义的竞赛,也是一次非常有趣的跨学科交流会,让多学科背景的专业人才在此碰撞出新的数据分析思路。
记者现场获悉,未来,国家基因库将基于国家基因库生命大数据平台的数据和算力资源,以解决多组学数据分析难点问题为目标,持续举办数源杯系列大赛。通过跨领域人才的交流协作,促进生物学与其他学科的交叉融合,推动多组学数据计算工具的开发及应用,为科学研究及产业发展带来新视角。