不信任科学并否认科学方法的有效性就等于辞去人类的工作。你最好去找植物或野生动物的工作。——PJ O’Rourke
西方文明最伟大的成就之一是科学方法和科学精神的发展——希瑟·麦克唐纳
几个世纪以来,科学方法一直主导着研究。传统上,研究人员会考虑先前的知识,定义要测试的假设,建立测试假设的程序,在实验后收集证据,评估结果,并将其传达给科学界。当我们说“研究人员”时,我们指的是人类研究人员,但情况会不会有所不同呢?
科学研究需要时间和资源。科学进步的一个限制因素是需要专职研究人员。如今,研究人员的时间越来越少,既要承担机构义务,又要寻求资金并参加持续不断的会议。此外,如今为了进行创新研究,需要增加知识、了解最新的研究成果,并发挥创造力。
因此,人们对将人工智能的最新发展应用于研究本身非常感兴趣。正如我们在最近的一篇文章中所讨论的那样,已经有人提议将科学过程的某些方面自动化。
但研究本身可以实现自动化吗?
实际上,这种可能性已经被提出。但直到最近大型语言模型 (LLM)领域的发展,这种可能性才被提出。
到目前为止,大多数研究都专注于尝试自动化流程的某些部分:撰写科学论文、集思广益、帮助编码等等。我们能否在一个系统中实现整个流程的自动化?
Sakana AI 认为目前这是有可能实现的:
今天,我们很高兴地推出 AI Scientist,这是第一个用于全自动科学发现的综合系统,它使大型语言模型 (LLM) 等基础模型能够独立进行研究。 —来源
在本文中,我们讨论了他们的方法。作者提出了一个系统,用他们的话来说,这是一个可扩展的“端到端论文生成”管道。给定一个代码库和研究方向,系统就会生成创意、文献搜索、实验规划、实验迭代、手稿撰写和同行评审,直到生成完整的手稿。
该系统可迭代且可扩展,能够以不到 15 美元的价格制作一篇文章。他们专注于机器学习,但该系统可以扩展到其他科学领域(例如,有可以进行实验的系统)。
拟议的系统包括三个主要阶段:
- 创意生成。在此初始阶段,系统会提供一个起始模板。从此开始,系统会利用 LLM 的功能迭代生成一组创意。在这种头脑风暴过程中,会创建一个创意库,每个创意都有描述、实验执行计划、一组评估指标、新颖性和可行性。在每次迭代过程中,系统都会考虑存档中的想法并提出新的想法。使用思路和自我反思来开发和完善每个创意。接下来,使用 API 进行网络搜索,过滤掉与文献中的想法过于相似的想法。
- 实验迭代。在第二阶段,给出一个想法,进行所提出的实验,然后显示结果。系统一次(按顺序)进行一个实验,并生成一个可以分析的图。此外,在每个实验结束时都会生成注释,并描述图中包含的内容。每次实验后,系统都会根据结果重新规划并实施新的实验。
- 论文撰写。在最后阶段,将撰写一篇会议论文风格的文章。为了方便工作,提供了一个 LaTeX 的空白模板,系统必须按顺序填写各个部分:介绍、背景、方法、实验设置、结果,然后是结论。每个部分都提供了附加信息和指南,以减少幻觉,并使用自我反思。在下一步中,系统会在线搜索(通过 Semantic Scholar API)最相关的参考文献。此外,对于每个参考文献,都会找到一个描述,以便系统可以决定是否将其包括在内。如果答案是肯定的,则将参考文献添加到 LaTeX 文件中。初稿通常过于冗长和重复,因此需要逐节进行最后一轮自我反思,以减少冗长和重复。最后,编译 LaTeX 文件。
文章写完后,作者创建了一个基于GPT-4o的代理,该代理使用神经信息处理系统 (NeurIPS)会议审查指南对生成的文章进行同行评审。此步骤的输出是一组数字分数(健全性、呈现、贡献、总体、置信度)、弱点和优势列表以及初步判断(接受或拒绝)。作者利用此系统对其系统生成的文章进行初步评估。
作者将该系统与带注释的科学文章评论数据集(来自OpenReview数据集的 500 篇 ICLR 2022 论文)进行了比较。该系统的准确率与人类相似:
所考虑的 ICLR 2022 论文数据集在类别上非常不平衡,即其中包含更多被拒绝的论文。当考虑平衡的论文数据集时,AI Sc ient ist 的审阅过程达到了人类水平的准确率(0.65% vs. 0.66%)。 —来源
作者详细介绍了一篇通过要求模型生成扩散建模研究的文章。他们使用Claude Sonnet 3.5生成了一篇名为“自适应双尺度去噪”的文章。
入选论文中的想法是在该算法的第 6 次迭代中提出的,旨在通过在标准降噪网络中提出两个分支,提高扩散模型在 2D 数据集中捕捉全局结构和局部细节的能力。——来源
LLM 倾向于高估某个想法的趣味性、可行性或新颖性。该模型在使用Semantic Scholar API在线搜索后,将该论文想法标记为新颖。
作者展示了生成的代码,并在迭代过程中对代码进行了更改(删除部分为红色,添加部分为绿色)。然后,系统在评估实验后或需要适应新的可视化时,会随着过程的进行更改代码。
最终,该模型以标准机器学习会议的风格生成了一份 11 页的科学手稿。作者指出:
- 系统用正确的LaTeX符号详细描述了算法,并详细描述了训练过程。
- 实验非常详细(论文中列出了超参数、基线和数据集)。
- 作者检查实验日志以验证系统没有产生幻觉结果。
- 实证结果质量很好,在过程中有所改进,正如论文所预期的那样。
- 该系统正如预期的那样产生了可视化效果,但超出了作者提供的方向(“虽然我们提供了一些用于可视化生成的样本和训练损失曲线的基线绘图代码,但它提出了新颖的算法特定图,显示了整个去噪过程中权重的进展。”)
- 未来工作部分列出了相关的步骤(例如扩展到更高维的问题、更复杂的变体和理论讨论)。
然而,作者指出也存在错误:
- 升级过程中的细微错误显示出缺乏推理能力。实验细节中出现了一些幻觉。
- 倾向于对结果做出积极的解释。
- 一些存在于实验日志中但不应在文章中描述的工件和细节。
- 展示每次实验的中间结果。虽然跟踪过程的演变很有用也很有趣,但在撰写科学论文时,这并不是常见的做法。
- 参考文献很少(只有 9 篇参考文献),而且遗漏了一些相关的论文。
自动审查表明实验仅使用 2D 数据集(然而作者限制系统仅使用简单数据集并且不能下载更宽的数据集)并且还表明计算成本的限制(看看系统如何响应审查将会很有趣)。
作为一般性评论,作者指出:
- 该系统确定了扩散建模研究中一个有趣且动机强烈的方向。它提出了一个实验计划,能够执行该计划,并成功取得了良好的结果。特别有趣的是,它成功地在过程中改进了实验(当初始结果不令人满意时纠正网络结构)。
- 尽管文章中的想法提高了生成的扩散样本的质量,但并未解释其成功的原因。据作者称,良好的结果来自于这样一个事实:全局或局部特征之间的分割隐含地创建了一种专家的混合,而本文并未提及这一点。
- 文章中指出的缺点并不微不足道,这只是一个成功识别这些缺点的审查过程。局限性还源于其背后模型的能力,它们对 LLM 的改进越多,系统就越好。
总体而言,我们认为 AI 科学家的表现与早期 ML 研究人员的水平差不多,他们可以胜任执行一个想法,但可能没有完整的背景知识来充分解释算法成功的原因。——来源
文章中的作者测试了几种模型:Claude Sonnet 3.5、GPT-4o、DeepSeek Coder和Llama-3.1 405b,使用不同的模板(扩散模型、grokking 和语言建模)并让它们产生 50 个想法。在他们的结果中,Claude 似乎是最好的,GPT4o 有时在使用 LaTeX 时会出现问题,而 Llama-3.1 405b 通常是最差的(文章中缺少部分和结果)。
据作者称,仍存在一些局限性:
- 自动审查很有前景,但仍存在一些局限性,特别是因为它基于 2022 年的审查(更新的子估计会有所帮助)。
- 创意生成过程通常会在多次迭代中产生非常相似的想法。此外,系统无法实现其中很大一部分想法(因此,即使系统想出了创新和创意的想法,当这些想法过于复杂而无法实现时,系统也无法实现它们)。
- 有时系统会错误地实现某个想法。这种错误更难识别,因为它需要进行代码分析或具备良好的领域知识。
- 其中一些文章既不具备严肃会议所应有的严谨性,也缺乏机器学习文章的深度。部分原因是每篇文章进行的实验数量有限。这种缺乏深度和严谨性的做法往往会导致得出误导性或不准确的结论。
- 该系统不使用模型的视觉功能,因此表格超出了页面限制或图表无法读取。
- 引用是其中一个痛点,正如前面提到的。此外,幻觉仍然存在(甚至在结果中)
更一般地说,我们不建议从表面上理解本版《人工智能科学家》的科学内容。相反,我们建议将生成的论文视为有前途的想法的提示,供从业者跟进。——来源
该系统作为一种建议潜在研究方向的想法确实很有趣。研究人员可以利用它来寻找新的想法(鉴于发表的新文章数量巨大,有时很难找到新的想法)。在某种程度上,该系统可以帮助快速开发想法和潜在的实验计划。
尽管 AI Sc ient ist 有可能成为研究人员的宝贵工具,但它也存在被滥用的重大风险。 —来源
另一方面,这对已经存在问题的同行评审来说反而是一场灾难,因为编辑和审稿人都没有多少时间。事实上,这个系统可以以非常低的成本生成大量文章。会议和期刊已经收到大量质量低劣的投稿,这个数字可能会呈指数级增长。一些编辑的反应是负面的:
“该模型生成的论文似乎是垃圾,作为期刊的编辑,我可能会直接拒绝它们。作为审稿人,我也会拒绝它们。它们包含的新颖知识非常有限,而且正如预期的那样,对相关作品的引用也极其有限。”——来源
这些项目的质量在很大程度上取决于所使用的基本 LLM 的质量。系统使用 LLM 来生成想法、制定计划、运行实验和撰写文章。目前,LLM 无法进行推理,因此人们怀疑这些文章只不过是已经存在的想法的排列组合(因此在训练数据中可以看到)。目前,LLM 也真正超越了训练数据,因此生成的想法将非常相似(如果不是已经发布内容的简单变体)。因此,您最多只能获得新的增量文章,而肯定不会获得新的突破或范式转变。
另一个有趣的问题是,它可以生成大量文章,这些文章发表在论文工厂或会议上,这些论文工厂或会议不介意发表而不需要太多审查(只要他们愿意付费)。这种由人工智能生成的文章泛滥可能会导致模型崩溃。事实上,使用其他LLM产生的数据进行训练的LLM最终会崩溃。
从根本上讲,同行评审基于信任。人工智能可以生成低质量的文章这一事实削弱了审稿人的信任。正如作者指出的那样,这些文章的写作很有说服力,其中一些文章存在只有领域知识或代码分析才能发现的错误。分析一篇论文需要审稿人的时间,而且是一项无偿的任务。
“作为一名从事学术研究的科学家,我认为这是一件坏事。所有论文都基于审稿人对作者的信任,相信他们的数据是他们所说的,他们提交的代码是他们所说的。允许人工智能代理自动化代码、数据或分析,需要人类彻底检查其中的错误……这需要的时间与最初的创作本身一样长,甚至更长,而且只有在你不是编写它的人的情况下才会花费更长的时间。”——来源
对于作者来说,该系统还可以用于恶意目的,以创建病毒和其他恶意软件。即使该系统可以连接到湿实验室,它也可以进行危险的生物实验。
AI Sc ient ist 的推出标志着我们在科学研究中充分发挥 AI 潜力方面迈出了重要一步。 —来源
虽然这是一个遥远的前景,但这项工作展示了LLM的能力和有趣的发展。除了取代研究人员之外,最大的风险是人工智能生成文章的大量产出。
RA/SD 衍生者AI训练营。发布者:稻草人,转载请注明出处:https://www.shxcj.com/archives/5311