ChatGPT 的技术创新性主要在于两个方面。
强大的底座模型:过去几年 GPT-3 的能力得到了快速提升,OpenAI 建立了用户、 数据和模型之间的飞轮。显然,开源模型的能力已远远落后平台公司所提供的 API 能力,因为开源模型没有持续的用户数据对模型进行改进。
利用强化学习从人类反馈中学习:在真实调用数据上的精调模型,确保数据的质 量和多样性,从人类反馈中学习。从“两两比较的数据”中学习,对强化学习而 言意义很大。如果对单个生成结果进行打分,标注者主观性带来的偏差很大,无 法给出精确的奖励值。在强化学习里,奖励值差一点,最后训练的策略就差很远。 而对于多个结果进行排序和比较,相对就容易做很多。这种比较式的评估方法, 在很多语言生成任务的评价上也被广泛采用。