在生物信息学领域,如何解决海量生物学数据和信息的难题?
如果能够开发新型AI4Science科研工具,不仅能加速对生信领域的认识和理解,还可以降低计算门槛,让研究人员更方便地进行生信研究。而在推动科研工具落地进展方面,创新大赛便是途径之一。
5月20日,中国计算机学会(CCF,China Computer Federation)开源创新大赛暨第二届Bio-OS开源开放大赛(以下简称大赛)在南方医科大学正式启动。
这是一项生物信息领域的全国性公益大赛,主要面向全国生物信息领域的高校师生、科研工作者、以及相关企业和组织等邀请参赛。在这里,通过大赛牵引和开源开放的Bio-OS平台支撑,参赛队伍不仅能够与国内生物信息领域大咖进行交流和合作,更有可能瓜分31.5万元奖金池。
本次大赛指导单位为中国计算机学会和广州实验室,由火山引擎和Intel联合主办,协办单位包括中国计算机学会开源发展委员会、中国生物信息学学会(筹)、上海生物信息学会、广东省生物信息学会,公益支持单位为中国光华科技基金。
大赛共设立论文复现赛、任务挑战赛、AI算法赛三个赛道,奖金池为31.5万(税前奖金)。其中,每个赛道将评选一等奖1支队伍,每支队伍奖金5万元;二等奖2支队伍,每支队伍奖金2万元;三等奖3支队伍,每支队伍奖金5000元。此外,大赛还将为若干支队伍颁发优胜奖证书。
图丨CCF开源创新大赛暨第二届Bio-OS 开源开放大赛奖金设置(来源:DeepTech)
报名要求:
· 参赛人员以组队的形式报名,每队1-3人;
· 每支参赛团队仅可报名一个赛道,若报名多个赛道,以最后一次报名信息为准;
· 每个参赛者只可加入一只团队,不可重复加入多个团队,否则取消资格;
· 参赛者报名成功后,可通过大赛官网(https://bio-os.github.io/activity/index.html)添加大赛小助手加入大赛交流群,获取大赛最新咨询和辅导培训。
三个赛道主要分为初赛阶段和决赛阶段两个赛程:
· 初赛阶段:
论文复现赛、任务挑战赛、AI算法赛的初赛时间为2024年6月14日-2024年9月13日;
· 决赛阶段:
论文复现挑战赛的决赛阶段为2024年10-11月(具体时间请关注后续通知);
任务挑战赛及AI赛道的决赛阶段为2024年11月。
一、论文复现赛道
论文复现赛道采用 “开放赛题” 的形式,由参赛团队自主选择论文,并通过报名链接提交。组委会对参赛团队选取的复现论文进行审核,审核通过后给参赛团队开通的Bio-OS账号及相应资源,并以邮件形式告知。
参赛团队需要准备与该论文相关的数据、代码和工具,利用Bio-OS Workspace对论文中主要结果复现,包括但不限于数据处理、分析、结果验证等关键步骤,以及必要的图表、表格和其他可视化展示。
最终,参赛团队需要以论文复现报告的形式,提交至组委会进行评审。论文复现报告需要详细描述复现过程、遇到的问题、解决方案及最终复现结果。
备注:参赛团队须按照下述标准,自主选取参赛的复现论文:
· 文献范围:参赛者可自由选择自己感兴趣的、影响因子大于5的相关论文。
· 文献领域:以生物信息学、计算生物学等包含二级分析或三级计算分析的文献为主。
· 发表时间:要求论文发表时间为2014年1月之后。
· 可重复性:选择的论文应具有明确的数据分析流程和可复现的实验结果。
二、任务挑战赛道
Bio-OS任务挑战赛道是一个由举办方设定赛题、具备一定挑战性、允许参赛者以单人或者多人组队形式参加的赛道。参赛团队需要在初赛截止时间前完成赛题,并按照要求提交材料的要求。
本赛道赛题需要参赛者在Bio-OS中构建具备生物信息分析能力的工具,并通过大模型的能力和工具进行交互。
在这个赛道中,你不光能发挥生信的专业知识,还能够学习和实践大模型以及agent的各项能力,发挥你的想象力,将大模型的能力应用到生信中,搭建出你自己的生信智能体。
赛题:基于大模型的Bio-OS生物信息分析智慧应用搭建
以 Bio-OS 为基石,构建具备生物信息分析能力的工具,进而借助代码开发或扣子 AI应用开发平台,打造出集成生物信息分析的智慧应用。在此过程中,需重点关注如何有效结合大模型的强大功能与生物信息分析的专业知识,以实现以下目标:
· 探索创新的应用场景,推动Bio-OS在生命科学领域的广泛应用。
· 充分利用大模型的优势,优化智慧应用的用户体验,使其更具实用性和易用性。 通过本次竞赛,期待参赛者们能展现出在生物信息分析、大模型应用和软件开发等多方面的卓越才能和创新思维。
三、AI算法赛道
AI算法赛道包含两个赛题,参赛队可以任选其一参赛:
· 赛题一:通过综合运用空间定位信息与转录组数据,构建一个能够自动化分类细胞类型与状态的AI算法。该算法旨在提升病理诊断的精确度与效率,实现对细胞类型与形态的更精细定义,从而推动细胞生物学研究和临床诊断的进步。通过整合细胞的空间位置信息和基因表达数据,模型能够准确识别和分类不同的细胞类型和状态,提供更精准的诊断和研究工具。
· 赛题二:基于抗体与抗原结合前的序列与结构信息,构建预测两者结合能力的AI算法模型。通过整合抗体和抗原的序列特征和三维结构信息,提升AI模型对其相互作用机制的理解和学习能力,进而推动蛋白质类药物的AI设计发展。这将为生物医学研究和药物开发提供更加精准和高效的工具,加速新型抗体药物的开发,提高生物制药领域的创新效率。
赛题描述
· 赛题一:细胞状态与类型的高精度鉴定
综合运用空间定位信息与转录组数据,构建模型以自动化分类细胞类型与状态。旨在提升病理诊断的精确度与效率,实现细胞类型与形态的更精细定义,并推动 Bio-OS 在 AI4Science 领域的广泛应用。
· 赛题二:抗体和抗原结合能力预测
利用抗体与抗原结合前的序列与结构信息,构建模型以对两者的结合能力进行预测。旨在提升 AI 模型对于抗体与抗原相互作用机制的理解与学习,促进蛋白质类药物 AI 设计的发展,并推动 Bio-OS 在 AI4Science 领域的广泛应用。
该赛道为打榜赛,主办方会根据参赛团队提交的结果,定期刷新榜单。
为了更好地将Bio-OS的平台推广到国内各大高校,加强与企业的联系,目前,大赛已在多所高校和科研机构进行系列讲座、实践课程和线上宣传活动,包括(按高校首字母顺序排列):
成都东软学院、暨南大学基础医学与公共卫生学院、南方医科大学、中国科学院深圳先进技术研究院等。
在活动中,行业专家进行赛题解析、提供解题思路,以帮助参赛队伍更好地理解赛题。此外,主办方还将安排实践环节,让参赛者亲身体验Bio-OS的操作,提高实践能力。
目前,CCF开源创新大赛暨第二届Bio-OS开源开放大赛已开始启动报名通道,并持续招募中。
现邀请广大高校学生、生信领域爱好者共同探索生物信息学发展的新趋势与新方向,参与实训,挑战自己,参赛报名请从链接(https://www.bagevent.com/event/8826248?bag_track=deeptch)或扫描下图二维码。
关于火山引擎: 火山引擎(https://www.volcengine.com/)是字节跳动旗下的云服务平台,将字节跳动快速发展过程中积累的增长方法、技术能力和应用工具开放给外部企业,帮助企业构建体验创新、数据驱动和敏捷迭代等数字化能力,实现业务可持续增长。