符尧 爱丁堡大学
[email protected]
2023 年 6 月 26 日
ChatGPT 大火之后,在 2023 年 2 月 24 日,LLaMA 的出现让 instruction tuning 这个方向变得火热;3 月 18 日,Alpaca 让大家看到从成熟的模型 distill 小模型成为还不错的 ChatBot 的可能性,从而引发羊驼系模型寒武纪大爆发。但仅仅过去三个月,大家开始发现意识到用 ChatGPT 的数据训练 LLaMA 的各种问题。本文回顾在过去三个月内的 LLaMA 系模型的发展,讨论 Instruction Tuning 的下一步挑战。
Disclaimer: 这篇文章算是一个 quick research memo,是从我近期的一个分享大纲里 edit 出来的,做了一些删减和补充;现阶段开源社区对于 LLM 训练清楚 / 不清楚的地方同时存在,我尽量做到引用 / 讨论的内容都是有切实证据,而不是基于流言。很多的内容是我跟对应论文的原作者直接讨论过的。但即便这样,我的 take 也可能有误,很多也讨论不出来,所以请大家直接在文章旁边 comment,积极参与讨论,真理越辩越明。
目录
1 - 起源
最开始
- Natural Instructions v1: Cross-task generalization via natural language crowdsourcing instructions
- 最初的起点,发布于 2021 4 月. 在 LLaMA 前两年. 非常 visionary!!!
- InstructGPT: Training language models to follow instructions with human feedback
- FLANv1: Finetuned Language Models Are Zero-Shot Learners
- T0: Multitask Prompted Training Enables Zero-Shot Task Generalization
对比
- InstructGPT 的目标是对齐,zero-shot / cross lingual 是副产物
- 这篇文章用的 7B 的 Reward model 来对应 175B 的 Policy model,然后被 DeepSpeed Chat 以及之后一系列 RL 的开源工作 follow,这种做法应该是错的。
- 正确的做法应该是用 Reward model scale up 换取 policy model 减小,见 Scaling Laws for Reward Model Overoptimization — 也就是说把两个模型大小换过来,用 175B 的 reward 去 PPO 7B 的 policy
- 模型上线现阶段 10-50B 是一个比较跑得起的量级,再大太贵了
- FLANv1 和 T0 的目标是 zero-shot,所以不对齐
然后是 Self-instruct