随着人工智能系统变得更加强大,我们希望获得它们的帮助来监督其他人工智能。我们尝试通过自我改进来训练无害的人工智能助手,而无需任何识别有害输出的人类标签。唯一的人类监督是通过一系列规则或原则提供的,因此我们将该方法称为“宪法人工智能”。该过程涉及监督学习和强化学习阶段。在监督阶段,我们从初始模型中进行采样,然后进行自我批评和修订,然后根据修订后的响应对原始模型进行微调。在 RL 阶段,我们从微调模型中进行采样,使用模型来评估两个样本中哪一个更好,然后从这个 AI 偏好数据集中训练偏好模型。然后,我们使用偏好模型作为奖励信号来进行 RL 训练,即我们使用“来自 AI 反馈的 RL”(RLAIF)。因此,我们能够训练一个无害但非回避的人工智能助手,通过向有害查询解释其反对意见来处理有害查询。SL 和 RL 方法都可以利用思维链式推理来提高人工智能决策的人类判断性能和透明度。这些方法使得更精确地控制人工智能行为成为可能,并且使用更少的人类标签。
网址预览
数据评估
本站 稀饭网址提供的 Claude AI都来源于网络,不保证外部链接的准确性和完整性,同时,对于该外部链接的指向,不由 稀饭网址实际控制,在 2024年4月28日 上午5:50收录时,该网页上的内容,都属于合规合法,后期网页的内容如出现违规,可以直接联系网站管理员进行删除, 稀饭网址不承担任何责任。
相关导航
提供商使用人工分析人工分析提供基准测试和相关信息,以支持人们和组织为他们的用例选择正确的模型以及为该模型使用哪个提供商。不同的模型和提供商之间存在不同的权衡,因此,首先要考虑如何使用模型。目前,模型质量、价格、输出速度、延迟、上下文窗口和其他维度之间存在权衡。从你的用例开始从用例开始意味着思考在决策中哪些是最重要的,需要进行优化。例如,对于需要吸引用户但 ARPU(每用户收入)较低的消费者网站,最好选择输出速度更快、延迟更低、价格更低的模型。这将优化以更快的响应时间吸引用户,同时保持较低的成本,因为他们在每个用户身上花费的金额有限。

