沃卡惠移动端logo

沃卡惠  企业新闻

资讯详情

人工智能科学家正在研究大型语言模型的“紧急”能力

2022-08-23 10:01:274636

本文是我们对最新AI研究报道的一部分。

大型语言模型(LLM)已经成为关注和炒作的中心,因为它们看似神奇的能力可以产生长篇连贯的文本,做他们没有接受过训练的事情,并(在某种程度上)参与到过去的话题中。被认为是计算机的禁区。

但是关于LLM的工作方式和不工作方式,还有很多需要学习的地方。谷歌、斯坦福大学、DeepMind和北卡罗来纳大学教堂山分校的研究人员进行的一项新研究探索了LLM可以在他们成长壮大并接受更多数据培训时完成的新任务。

该研究揭示了大型语言模型的规模与其“紧急”能力之间的关系。

<a href=https://www.wokahui.cn/ai/ target=_blank class=infotextkey>人工智能</a>科学家正在研究大型语言模型的紧急能力

什么是涌现?

这项新研究的重点是物理学、生物学和计算机科学等领域长期以来一直在讨论的意义上的涌现。在一篇题为“更多是不同的”(PDF)的文章中,诺贝尔奖获得者物理学家菲利普·安德森讨论了这样一种观点,即量变会导致质的不同和意想不到的现象。

受安德森工作的启发,加州大学伯克利分校教授雅各布·斯坦哈特将涌现定义为“当系统中的量变导致行为发生质的变化时”。

“由于我们想提供更精确的定义,我们将涌现能力定义为‘不存在于较小模型中但存在于较大模型中’的能力,”斯坦福大学博士生、该论文的合著者Rishi Bommasani说,告诉TechTalks。

为了识别大型语言模型中的新兴能力,研究人员寻找相变,在某个规模阈值以下,模型性能接近随机,超过该阈值,性能远高于随机。

Bommasani说:“这将涌现能力与随规模平稳提高的能力区分开来:预测何时会出现涌现能力要困难得多。”

规模可以用不同的方式来衡量,包括计算(FLOPs)、模型大小(参数数量)或数据大小。在他们的研究中,研究人员专注于计算和模型大小,但强调“没有一个单一的代理能够充分捕捉规模的所有方面。”

大型语言模型中的新兴能力

大型语言模型是一个特别有趣的案例研究,因为它们已经显示出非常明显的出现迹象。LLM是非常大的变压器神经网络,通常跨越数千亿个参数,在数百GB的文本数据上进行训练。它们可用于广泛的任务,包括文本生成、问题回答、摘要等。

LLM的有趣特征之一是它们的小样本和零样本学习能力,即执行训练示例中未包含的任务的能力。随着2020年OpenAI的GPT-3的推出,LLM中的少镜头学习引起了广泛关注,此后对其范围和局限性进行了大量研究。

在他们的研究中,研究人员测试了几个流行的LLM家族,包括LaMDA、GPT-3、Gopher、Chinchilla和PaLM。他们从BIG-Bench中选择了几个任务,这是一个包含200多个任务的众包基准,“这些任务被认为超出了当前语言模型的能力”。他们还使用了来自TruthfulQA、大规模多任务语言理解(MMLU)和语境中的词(WiC)的挑战,这些都是旨在测试LLM在处理复杂语言任务方面的极限的基准。

研究人员还付出了额外的努力来测试LLM的多步推理、指令跟踪和多步计算。

“GPT-3是标志性的,它在LMs中引入了真正独特的第一波新兴能力,现在众所周知的小样本提示/上下文学习,”Bommasani说。“在这里,可以用自然语言指定任务,并附上描述和任务输入输出结构的五个左右示例,最大的模型(即175B模型)可以在某些任务上做得相当好。换句话说,您需要的特定于任务的数据要少得多,并且可以指定任务而无需进行微调/基于梯度的方法。”

研究结果表明,规模与新能力的出现高度相关。每个LLM系列都有不同的规模,在特定规模以下的任务上表现出随机或低于随机的性能。在那之后,他们发现准确性突然提高,并随着模型的变大而继续提高。

“一个有趣的例子是Pilehvar和Camacho-Collados(2019)的上下文中的词(WiC)基准。在该基准上,GPT-3和Chinchilla基本上获得了随机单次性能,但使用大约5倍FLOP的PaLM最终证明了性能远远高于机会,”Bommasani说。

LLM中出现紧急行为的原因

大型语言模型中涌现能力的存在表明,我们无法通过推断较小规模模型的性能来预测LLM的能力。

“紧急的小样本提示任务也是不可预测的,因为这些任务没有明确包含在预训练中,而且我们可能不知道语言模型可以执行的小样本提示任务的全部范围。总体而言,进一步扩展可能会赋予更大的语言模型新的新兴能力,”研究人员写道。

然而,一个突出的问题是模型是否真的在学习这些新兴技能所需的知识。一些研究表明,当神经网络提供正确的结果时,它通常将输入映射到输出,而无需学习因果关系、常识和其他学习技能背后的知识。

“总的来说,LMs如何获得能力/技能在概念层面上并没有得到很好的理解,”Bommasani说。“总的来说,我想说有(i)证据表明模型在某些方面随着规模变得更加稳健,(ii)即使我们最好的模型在关键方面也不是稳健/稳定的,我不希望通过以下方式解决规模,以及(iii)稳健性/稳定性/因果关系与规模之间的总体关系尚不为人所知。”

在他们的论文中,研究人员还讨论了一些规模限制,包括硬件和数据瓶颈。此外,他们观察到某些能力甚至可能不会随着规模而出现,包括远离模型训练数据集分布的任务。他们还警告说,一旦能力出现,并不能保证它会随着规模的扩大而继续提高。

“我不希望所有期望的行为都会出现,但我确实希望随着我们的扩展我们会看到更多(特别是在密集的自回归变形金刚之外的制度中,这些制度是纯文本的纯英文),”Bommasani说。“在更高的层面上,我预计我们将在一段时间内继续看到基础模型范式的重大惊喜;Minerva在MATH基准上的进展令专业预测者感到惊讶,这是最近的一个具体例子。”

探索规模化的替代方案

随着机器学习社区朝着创建更大的语言模型迈进,人们越来越担心LLM的研究和开发将集中在少数拥有财务和计算资源来训练和运行模型的组织中。通过发布开源模型或降低培训和运行它们的成本和技术开销,已经有一些努力使LLM民主化。

在他们的论文中,研究人员讨论了一些规模化的替代方案,包括在特定任务数据集上微调较小的模型。“一旦发现了一种能力,进一步的研究可能会使这种能力适用于更小规模的模型,”作者写道,他指的是最近关于提高小规模LLM准确性的新微调方法的研究。

研究人员写道:“随着我们继续训练越来越大的语言模型,降低新兴能力的规模阈值将变得更加重要,因为这样可以让社区广泛使用这些能力的研究。”

Bommasani说:“规模的好处,无论是否通过出现,都可能会激励人们可以投射的资源集中,这将激发/加剧权力的集中化。”“从历史上看,很明显,人工智能研究从具有开放科学传统的学术界和工业界的合作中受益匪浅。鉴于扩展的资源密集型性质,我相信这些必须坚持几个互补的前进道路:(i)规范研究人员对现有模型的访问,(ii)开放式合作(例如BigScience、EleutherAI、Masakhane、ML Collective)构建由支持去中心化的结构变化支持的新模型,(iii)提供必要计算和数据的结构资源(例如,国家研究云在美国作为国家人工智能研究资源)。”

可以肯定的是,在可预见的未来,大型语言模型仍将是机器学习研究的支柱。随着它们进入实际应用,我们需要继续研究它们的能力和局限性。

“法学硕士的新兴能力对NLP产生了重大影响,具体改变了该领域的研究,以更好地理解和发展这种能力。它们还在社会学上影响了NLP和AI的整体性质,表明规模是当前系统中的一个重要因素,”Bommasani说。“我们应该建立对这些能力的共同理解,并探索未实现的潜力和规模的最终极限。”