符尧 爱丁堡大学

[email protected]

2023 年 6 月 26 日

ChatGPT 大火之后,在 2023 年 2 月 24 日,LLaMA 的出现让 instruction tuning 这个方向变得火热;3 月 18 日,Alpaca 让大家看到从成熟的模型 distill 小模型成为还不错的 ChatBot 的可能性,从而引发羊驼系模型寒武纪大爆发。但仅仅过去三个月,大家开始发现意识到用 ChatGPT 的数据训练 LLaMA 的各种问题。本文回顾在过去三个月内的 LLaMA 系模型的发展,讨论 Instruction Tuning 的下一步挑战。

Disclaimer: 这篇文章算是一个 quick research memo,是从我近期的一个分享大纲里 edit 出来的,做了一些删减和补充;现阶段开源社区对于 LLM 训练清楚 / 不清楚的地方同时存在,我尽量做到引用 / 讨论的内容都是有切实证据,而不是基于流言。很多的内容是我跟对应论文的原作者直接讨论过的。但即便这样,我的 take 也可能有误,很多也讨论不出来,所以请大家直接在文章旁边 comment,积极参与讨论,真理越辩越明。

目录

1 - 起源

最开始

对比

然后是 Self-instruct