符尧, [email protected]

爱丁堡大学 (University of Edinburgh) 博士生,本科毕业于北京大学

**Tushar Khot彭昊** 在艾伦人工智能研究院 (Allen Institute for AI) 共同完成英文原稿

李如寐(美团NLP中心)共同翻译为中文

感谢 Aristo teammates, Jingfeng Yang, 和 Yi Tay 的讨论与建议。

请同时参考CoT团队的博客。

英文版完稿于 2022年11月20日,中文版完稿于2022年12月24日。

其他版本: [pdf] [Arxiv] [英文原版]

推特上与作者互动

初次翻译,哪里没写好,不地道的地方,还请邮件帮忙指出

转发请在文章的开头标明出处,而不是在结尾列一行小字

https://embed.notionlytics.com/wt/ZXlKd1lXZGxTV1FpT2lJMU1UUm1OR1UyTXpreE9EYzBPVE01T0dFeFlUaGhOR00yTmpCbE1HUTFZaUlzSW5kdmNtdHpjR0ZqWlZSeVlXTnJaWEpKWkNJNklrTnlVbFp3WkVOMWEyRnJNblU1U0hWVVdXUjNJbjA9

注:本文完成于 ChatGPT 上线之前的一个月,当时我意识到大模型非同小可,所以写下本文,希望引起更多人关注到大模型有可能带来的研究范式转变。一个月之后,ChatGPT 上线,全网轰动,范式从此转变。

最近,人们对大型语言模型所展示的强大能力(例如思维链、便签本)产生了极大的兴趣,并开展了许多工作。我们将之统称为大模型的突现能力,这些能力可能只存在于大型模型中,而不存在于较小的模型中,因此称为“突现”。其中许多能力都非常令人印象深刻,比如复杂推理、知识推理和分布外鲁棒性,我们将在后面详细讨论。值得注意的是,这些能力很接近 NLP 社区几十年来一直寻求的能力,因此代表了一种潜在的研究范式转变,即从微调小模型到使用大模型进行上下文学习。对于先行者来说,范式转变可能是很显然的。然而,出于科学的严谨性,**我们确实需要非常明确的理由来说明为什么人们应该转向大型语言模型,即使这些模型昂贵、难以使用,并且效果可能一般。**在本文中,我们将仔细研究这些能力是什么,大型语言模型可以提供什么,以及它们在更广泛的 NLP / ML 任务中的潜在优势是什么。

Recently, there has been great interest and progress in showing great abilities in large language models (chain of thought, scratch pad). Collectively referred to as emergent abilities of large language models, these are abilities likely to only exist in large models but not in smaller ones, hence the “emergence” framing. Many of the abilities are quite impressive, like complex reasoning, reasoning with knowledge, and out-of-distribution robustness, as we will look closely below. These abilities are potentially close to what the NLP community have urged for decades, thus representing a potential research paradigm shift from fine-tuning small models to in-context learning with large models. For pioneers, the paradigm shift may be straightforward without the need for justification. Yet, for scientific rigor, we do need very explicit reasons why one should shift to large language models, which are expensive, hard to access, and potentially not as good. In this post, we will scrutinize what these abilities are, what large language models may deliver, and what are their potential advantages in a broader NLP/ ML context.

目录

**前提:**我们假设读者具备以下知识: