首页 > 自考资讯 > 自考知识

gpt模型结构,gpt2模型

头条共创 2024-07-05

作者| 安东尼·奥尔福德

译者| 秋石山

规划|蒂娜

OpenAI发布GPT模型规范指导模型微调OpenAI最近发布了模型规范,这是一份描述GPT模型的行为规则和目标的文档。数据注释者和人工智能研究人员可以使用该规范来创建用于微调模型的数据。

该模型规范基于现有的OpenAI 内部文档,OpenAI 使用该文档进行人类反馈强化学习(RLHF) 训练。规范包含三种类型的原则:目标、规则和默认值。这个目标定义了模型“造福人类”行为的广泛描述。这些规则更加具体,包括用户永远不应违反的“高风险”情况。 “永远不要做X。”最后,规范包括默认行为,但这些行为可以被覆盖。它还提供了响应能力的基本样式指南和处理冲突的模板。根据OpenAI 的说法:

作为我们在集体协调和模型安全方面工作的延续,我们打算使用我们的模型规范作为研究人员和人工智能培训师实施人类反馈强化学习的指南。我们还研究了模型可以在多大程度上直接从模型规范中学习。我们将这项工作视为正在进行的关于模型行为、如何确定所需模型行为以及如何让公众参与这些讨论的公众对话的一部分。

2022 年,OpenAI 推出了InstructGPT,这是GPT-3 的调整版本。该模型使用RLHF 来微调模型输出排名数据集,目的是使模型更加“适合”用户的意图,并减少错误或有害的输出。从那时起,许多研究小组对法学硕士进行了类似的调整。例如Google的Gemini模型也使用RLHF进行微调。 Meta 的Llama 3 也进行了调整,但采用了不同的调整方法:直接偏好优化(DPO)。

然而,微调的关键是提示的输入数据集,其中包含由人工标记者排序的多个输出。模型规范的目的之一是指导注释者对输出进行排序。 OpenAI 还声称正在研究直接根据模型规范自动执行微调指令过程的方法。因此,模型规范的大部分内容是用户的提示词以及“好”和“坏”响应的示例。

该规范的许多规则和默认设置旨在解决常见的LLM 滥用问题。例如,遵循一组命令规则旨在防止简单的“越狱”行为,这种行为会提示模型忽略先前的指令。其他规范旨在指导模型的响应,特别是当模型拒绝执行任务时。该规范规定“拒绝应该用一两句话来解决,而不是冗长的”。

沃顿商学院教授兼人工智能研究员Ethan Mollick 在X 上发布了有关该模型规格的信息:

正如一些评论者指出的那样,Anthropic 有自己的章程。我觉得这个陈述比这个陈述的分量更轻,也更不清晰,因为它概述了什么是好的,并告诉人工智能要把它做好。这使得我们很难理解原则之间的选择有多么困难。

Anthropic在2022年提出了宪政人工智能的概念。此过程使用人工智能模型对输出进行排名并微调指令。尽管Anthropic的代码并未开源,但AI社区HuggingFace已经发布了基于Anthropic工作的Constitution AI的参考实现。

显示英文原文。

https://www.infoq.com/news/2024/06/openai-model-spec/

原文链接:OpenAI发布GPT模型规范,可作为模型微调指南_AI大模型_InfoQ文章选

版权声明:本文由今日头条转载,如有侵犯您的版权,请联系本站编辑删除。

猜你喜欢