2024/02/05 10:22

浙大团队发布 75 页科学 LLM 调查，重点关注生物和化学领域，指出七个未来发展方向

编辑 | X

大型语言模型 (LLM) 已成为增强自然语言理解的变革力量，代表着通用人工智能的重大进步。LLM 的应用超越了传统的语言界限，涵盖了科学领域各学科中开发的专业语言系统。这也导致了科学 LLM 的出现。

作为科学人工智能（AI for Science）领域的一个新兴领域，科学 LLM 值得全面探索。然而，目前缺乏系统的、最新的调查来介绍它们。

近日，来自浙江大学的研究团队，系统地描述了「科学语言」的概念，同时对科学 LLM 的最新进展进行了全面回顾。鉴于科学学科领域广阔，该分析重点关注生物和化学领域。这包括对 LLM 的文本知识、小分子、大分子蛋白质、基因组序列及其组合进行深入检查，并根据模型架构、功能、数据集和评估对其进行分析。

最后，研究人员批判性地审视当前的挑战，并指出有希望的研究方向以及 LLM 的进步。全面概述该领域的技术发展，本次调查将成为研究人员在科学 LLM 错综复杂的领域中探索的宝贵资源。

论文一作表示：「我们关于科学大语言模型的 75 页调查，特别关注生物和化学领域。我们总结了文本、分子、蛋白质和基因组 LLM 的最新进展，更有趣的是，它们的比对。」

该综述以「Scientific Large Language Models: A Survey on Biological & Chemical Domains」为题，于 2024 年 1 月 26 日发布在预印平台 arXiv 上。

论文链接：https://arxiv.org/abs/2401.14656

目前，LLM 是处理自然语言和收集世界知识的尖端工具。LLM 的卓越表现激发了其在当今时代演变成通用人工智能（AGI）的希望。

除了自然语言之外，为了封装更专业的科学知识，还开发了各种科学语言，如图 1 所示。

这包括科学研究领域的文本表达、定义数学公式的数学语言、表示分子结构的化学语言（例如 SMILES），以及描述蛋白质或基因组并详细描述生物体复杂构成的生物学语言。这些科学语言有其独特的词汇，其中每个术语都具有与自然语言完全不同的特定含义。

图 1：说明一般 LLM 难以有效处理科学语言，例如本例中的分子、RNA 和氨基酸序列。(来源：论文）

为了促进对科学语言的理解，研究人员设计了针对各个科学领域和学科定制的科学大语言模型 (Sci-LLM)。作为人工智能科学研究中的一个新兴领域，许多科学 LLM 已经提出了修改后的架构、学习方法、训练语料库以及评估基准和标准。

尽管取得了显著的成就，但这些模型大多是在各自的研究领域内进行探索的。目前还缺乏一个全面的综述来统一这些语言建模的进展。

专注于生物和化学领域的 LLM

在本次调查中，研究人员通过系统地回顾科学 LLM 的技术进步并密切参考普通 LLM 来填补这一空白。研究重点放在生物和化学语言上。具体来说，涵盖了分子语言、蛋白质语言和基因组语言。

除了这些专门的科学语言之外，以自然语言撰写的教科书、专利和研究论文中蕴含的大量科学知识。因此，探索侧重于科学知识的文本 LLM，更重要的是，涵盖各种类型的科学语言的多模态 LLM。

在深入研究每种语言系统时，首先回顾 LLM 架构并将其分为三类：仅编码器、仅解码器和编码器-解码器。然后报告了模型功能，并总结 Sci-LLM 可以执行的典型下游任务。在模型训练和评估方面，研究收集了一堆常用的训练语料和评估基准。最后，研究人员提出了科学语言建模的判别性和生成性任务的适当标准。

这项调查仅限于特定范围内。首先，关注科学语言，特别是化学和生物语言。其次，在讨论文本 LLM 时，重点仍然是用自然语言表达的化学和生物领域知识。第三，技术探索主要局限于基于 Transformer 的语言模型。

图 2：本次调查中 Sci-LLM 的研究范围。专注于生物化学科学领域内的科学语言（即文本、分子、蛋白质和基因组语言）及其组合（即多模态语言）。（来源：论文）

这项调查的独特界限使其有别于其他对 LLM 以及分子、蛋白质和基因组计算模型的评论。与主要以自然语言为中心的语言相比，研究重点更倾向于科学语言。与仅关注分子、蛋白质或基因组数据的调查不同，目标是为化学和生物研究提供语言模型的全面视图。此外，深入研究多模态 LLM，探索文本和分子/蛋白质/基因组语言之间的相互作用。

该调查的贡献可总结如下：

对科学领域内的语言建模进行全面回顾，涵盖文本、分子、蛋白质和基因组语言，强调特定领域的知识。
提供了现有 Sci-LLM 的详细摘要，涵盖模型架构、功能、训练数据、评估基准和评估标准。还在图 3 中展示了 Sci-LLM 的进化树。
列举了 sci-LLM 的可用资源，在 https://github.com/HICAI-ZJU/Scientific-LLM-Survey 开源并维护相关材料，从而为该领域的新手提供便利。
本次调查首次全面概述了多模态科学 LLM 的设计，旨在探索各种科学语言之间的相互作用。

图 3：Sci-LLM 的进化树，由与本次调查的研究范围相对应的五个主要分支组成。（来源：论文）

最后，研究人员讨论了 Sci-LLM 的研究挑战和未来探索的潜在途径。鉴于生成式 LLM 在科学应用中的巨大优势和日益突出的地位，讨论主要集中在这些生成式 Sci-LLM 上。这种有针对性的方法使我们能够彻底研究生成模型在推进 Sci-LLM 领域所提供的独特方面和可能性。

四个关键挑战

尽管之前的研究在 Sci-LLM 领域取得了显著的进步，但重要的是要承认这一研究领域仍处于起步阶段。在准备这项调查的过程中，研究人员对现有研究进行了彻底检查，并确定了一些尚未解决的关键挑战。这些挑战凸显了 Sci-LLM 研究的不断发展性质，并强调了在该领域继续探索的必要性。

1. 训练数据：数据是人工智能模型开发的基础。在探索 Sci-LLM 时，关注影响其发展和有效性的关键因素。包括：预训练数据集的规模、微调数据集的质量、缺乏跨模态数据集。

2. 架构和学习目标：虽然大多数 LLM 依靠基于 Transformer 的架构来学习语言中的语义相关性，但这种方法可能不太适合 Sci-LLM。这种不匹配有几个原因：处理较长的序列、纳入 3D 结构信息、自回归学习目标的局限性。

3. 模型评估：LLM 的有效评估仍然是研究重点的关键领域。然而，Sci-LLM 的独特性质需要采用量身定制的评估方法。

4. 道德：Sci-LLM 的开发和应用中的伦理考虑是多方面且至关重要的。首先，数据隐私和同意至关重要。其次，存在滥用信息的风险。最后，确保公平获得 Sci-LLM 的好处，防止科学研究和医疗保健领域现有不平等现象加剧，是道德上的当务之急。

七个未来发展方向

为了推动人工智能驱动的科学发现领域的发展，提出了未来探索的七个有前景的研究方向。

构建更大规模、高质量、跨模态的训练数据集。
将 3D 立体信息纳入科学语言系统。
Sci-LLM 与外部知识资源的结合。
Sci-LLM 与物理仿真交互。
使用专业工具和代理增强 Sci-LLM。
计算评估指标和基准的制定。
与人类伦理超级一致。

研究人员表示：我们的目标是为人工智能和基础科学界提供全面而有见地的资源，促进合作并推动「人工智能促进科学」研究议程。通过有效地对科学语言进行建模，LLM 为实现通用人工智能铺平了一条更稳定的道路。

GitHub 地址：https://github.com/HICAI-ZJU/Scientific-LLM-Survey

产业