近日,华人美国弗吉尼亚理工大学博士生方燚和所在团队开发出一款名为 BIOARC 的团队智能系统,能够自动设计出来最适合处理生物数据的打造懂生神经网络模型。简而言之,生物师助它是架构生物学自己的 AI 建筑师,能够设计出来真正理解生物密码的力生模型结构。
它的命语核心思想是:无需依靠人工猜测,而是华人让 AI 自己探索成千上万的不同的模型结构,从中找出来最适合处理某类生物数据的团队那一个。
![]()
图 | 方燚(来源:方燚)
方燚告诉 DeepTech:“BIOARC 仅需相当于传统 Transformer 模型约二十分之一的参数量,即可实现更好的生物师助性能。从创新性角度看,架构这可能是力生首次采用数据驱动的方式,系统探索并确定适用于生物序列建模的命语最优架构。以往的华人设计多基于直觉和经验,而我们首次实现了通过自动化搜索来发现高效架构。”
那么,BIOARC 是怎么做到的?我们都知道假如一名人类设计师要设计一栋房子,那么至少在设计师的草图上,房间的大小、位置和连接方式都可以变化。BIOARC 也是这样,它可以把 AI 模型拆为几种基础的板块。
第一个板块是卷积神经网络,其非常擅长捕捉局部特征,就像放大镜一样可以看清楚 DNA 上的片段模式;第二个板块是 Transformer,其非常擅长理解长远距离的关联,就像望远镜一样可以看清楚基因中相隔很远的区域是如何互动的;第三个板块是 Hyena 和 Mamba,它们是两种比较新的模型,能够更加高效地处理超长序列。
BIOARC 所使用的模型比当前流行的大型生物 AI 模型要小很多,但是表现却更加优秀。在一些 DNA 任务上,BIOARC 模型的大小只有传统模型的二十分之一,但是效果却能得到显著提升。这说明:不是模型越大越好,而是结构越合适越好。
比如,在处理 DNA 序列的时候,BIOARC 发现高性能模型常常呈现出一种三层结构:先使用 Hyena 块捕捉长距离关系,再使用 Transformer 块理解复杂上下文,最后使用卷积神经网络块来提取关键局部特征。这种组合就像先观看整幅地图,再分析重要区域,最后聚焦的关键地标,一步步地理解整个序列的能力。
BIOARC 不仅能够设计模型,还可以充当顾问的角色。科学家们经常面临新的任务:比如分析某种病毒的 RNA,或者预测某个罕见蛋白质的结构。以前,他们得自己尝试很多模型,不仅费时而且费力。现在,他们只需要把任务描述输入 BIOARC 系统,它就能从知识库中找到类似的任务,并推荐之前表现最好的几种模型结构,从而可以大大节约研究时间和实验时间。
同时,BIOARC 内部还有一个智能助理系统,能够理解那些科学家使用自然语言描述的任务,然后进行语义匹配,而非只进行简单的关键词搜索。这意味着即使你描述得不太专业,它也能明白你的需求,并能找到最相关的历史案例和模型方案。
![]()
(来源:https://arxiv.org/abs/2512.00283)
我们当前使用的 AI 大多使用的是 Transforme 模型,它最初是为处理人类语言而设计的。但是,生物数据比如 DNA 序列或蛋白质结构,和人类语言是完全不同的。前者不像句子那样有着明确的单词和语法,而是由一系列化学密码组成,其间隐藏着复杂的空间结构和远程关联、
举个简单的例子,在英文句子中单词“猫”后面常接“抓老鼠”,这种关系是局部的和有顺序的。但是,在 DNA 中一个基因的启动区域可能和几千个碱基意外的另一个区域发生相互影响之后,才可以启动生命活动。如果直接使用处理语言的 AI 模型去读 DNA,就像使用英文语法去理解一段音乐乐谱一样,虽然都是符号,但是规则完全不同,效果自然也就不好。
![]()
(来源:https://arxiv.org/abs/2512.00283)
而本次技术则具有广泛的应用前景。任何涉及蛋白质或 DNA 序列分析的场景都可能受益,例如对特定物种的 DNA 进行分类,或预测蛋白质结构。此外,由于此次发现的架构具有一定可解释性,未来亦有望帮助揭示更多潜在的生物学规律。
谈及本次技术和 AlphaFold 等已有工具的关系,方燚表示:“AlphaFold 属于生成式模型,需将序列映射到潜空间进行结构生成。我们的工作则能帮助构建更优的序列编码器,从而更有效地将蛋白质或 DNA 映射到统一的表征空间中,与现有工具形成功能上的互补与增强。”
![]()
(来源:https://arxiv.org/abs/2512.00283)
他继续说道:“关于后续研究计划,我们希望将当前方法拓展到更多模态上。目前工作集中于 DNA 和蛋白质序列,下一步计划将其应用于基因表达值序列等数据类型。另一个方向是,当前研究主要针对单模态架构,未来我们也将探索多模态架构,例如在同一模型中处理多种数据类型,并研究不同模态间是否存在最优的架构组合方式。”
参考资料:
相关论文 https://arxiv.org/abs/2512.00283
运营/排版:何晨龙
华南首批盒马硬折扣店超盒算NB开业
记者:如果字母哥提出离队申请,湖人相信有很大机会得到他
拜仁被告知球员转会意愿
创造历史!中国队摘得米兰冬奥会男子速度滑冰团体追逐铜牌
厘清“西贝事件”,给预制菜一个明明白白的未来
药厂CEO:晋级欧冠是我们的目标,但有时没做到也会调整心态
邝兆镭获3.2万元过年红包!董路开付费讲转会内幕:9510人花了钱
被挤出联赛名单,努涅斯亚冠献绝杀后对高层送上“眼神杀”
罗永浩站台、CES扎堆,外骨骼机器人火了,但人机协同仍是硬伤
阿斯:本菲卡原本已敲定皮塔奇,但皇马一通电话直接截胡
终于官宣了!麦基正式加盟北京,承诺用实力回馈,视频用心了!
托蒂在罗马的角色:他将承担哪些职责
【官宣】郑家骋转会加盟辽宁队 自幼接受比利时青训
记者:欧文对自己何时回归赛场拥有很大发言权
电讯报:曼联不会对卡里克做出草率决定,避免重蹈索帅的覆辙
两代拳王关公战秦琼!泰森大战梅威瑟比赛官宣,定档4月25日
库里38分独木难支,状元弗拉格21+11!独行侠擒勇士迎4连胜
官方:原佛山南狮后卫姚玺龙加盟温州队
跟队记者:雅克松身边人并不认为他还会为切尔西出场
电讯报:曼联不会对卡里克做出草率决定,避免重蹈索帅的覆辙
暖心举措抵御严寒 各地织密困难群体过冬保障网
申花天崩开局!两球落后少打一人,拉唐肘击染红,名哨争议判罚
揭秘湖人休赛期策略:愿让詹姆斯留队 追求优质3D+全力梭哈字母哥
电讯报:热刺无缘欧战会损失数千万镑,赞助商已开始担忧降级
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()