大语言模型的30分钟入门4(翻译)

## Summary so far

构建像 ChatGPT 这样的模型包括两个主要阶段:预训练和微调。预训练阶段需要从互联网上搜集大量文本资料,使用GPU集群进行处理。这些高性能计算机的成本非常昂贵,通常需要几百万美元的投入。完成后,就得到了基础模型。由于这个过程计算量巨大且成本高昂,公司通常一年或几个月才会做一次。微调阶段相对便宜,需要编写标注指南和雇佣人员进行帮助。例如,可以通过Scale AI等公司进行文档标注。这个阶段需要收集约100,000个高质量的问答回应样本,成本要低得多,可能只需一天就能完成。接下来是进行大量的评估工作,部署模型,并监控和收集任何不当行为。对于每个不当行为,都需要修复并返回第一步重复这个过程。修复方法通常是找到错误回应的对话,然后用正确的回应替换。由于微调成本较低,可以每周或每天进行迭代,许多公司在微调阶段而非预训练阶段会更频繁地进行迭代。

Meta发布的Llama 2系列包括基础模型和助手模型。基础模型无法直接使用,因为它们无法直接对问题回复正确的答案,而助手模型则可以直接进行问答。Meta已经完成了极其昂贵的预训练阶段,提供了基础模型,允许用户基于这些结果进行自己的微调。此外,还有一个你可以选择进行的第三阶段微调,即人类反馈强化学习(RLHF),主要通过使用比较标签来提升额外性能。在OpenAI,这个过程被称为人类反馈强化学习(RLHF),这其实是一个可选的第三阶段,它能在大语言模型中提升额外性能,主要是通过使用比较标签。例如,OpenAI的InstructGPT项目就是这样的一个例子。

## Appendix: Comparisons, Labeling docs,

RLHF, Synthetic data, Leaderboard 在第二阶段提到了“和/或对比标注”。对于人类标注员而言,比起自己撰写答案,比较候选答案通常更为简单。例如,对于一个要求写关于回形针的俳句的问题,给标注员提供助手模型生成的候选俳句,让他们挑选出更佳的一首,比自己创作要容易得多。这也是为什么在很多情况下,进行比较比创作来得容易。此外,还有一个第三阶段的微调过程,可以利用这些比较结果来进一步优化模型。在OpenAI,这个过程被称为人类反馈强化学习(RLHF),是通过使用比较标签来提升模型性能的可选第三阶段。

关于标注文档,尽管可能会长达几十甚至上百页且颇具复杂性,但其核心是要求参与者保持有帮助、真实和无害。随着大语言模型能力的提升,人机协作在创建这些标签中的作用日益增强。例如,可以让模型先生成答案样本,然后由人工挑选 部分形成最优答案,或者让模型帮助检查工作。

在市面上领先的大语言模型排行榜上,例如加州大学伯克利分校管理的Chatbot Marina,使用ELO评分对不同的模型进行排名。ELO分数的计算方式与国际象棋类似,基于模型间的对比胜率。顶部的是专有模型,如OpenAI的GPT系列和Antropic的Claude系列,这些模型表现最佳但无法获取其权重,只能通过网络界面访问。其次是公开权重的模型,例如Meta的Llama 2系列和法国Mistral系列的Zephyr 7B Beta。总体上,封闭模型的表现更好,但无法进行微调或下载,只能通过网络界面使用。然后是所有的开源模型和整个开源生态系统,它们的性能相对较差,但可能已经满足某些应用需求。目前,开源生态系统正在努力提升性能,试图追赶专有生态系统。

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注