GPT-4有哪些特征?

GPT-4有哪些特征?

最佳答案 匿名用户编辑于2024/02/05 14:20

多模态、高认知、更安全。

1.多模态:接受图片+文字形式输入

根据OpenAI技术文档给出的案例,GPT-4,对于图片的理解能力极强。 1)同时识别多张图片内容。将3张图片拼凑成1张,GPT-4能够同时识别多张图片的内容。2)根据图片进行算数运算。将题目发给GPT-4,它能根据图片信息进行算数运算。3)阅读并总结论文。将论文中部分页面截图给GPT-4,即可阅读并总结主要内容并回答用户追加的相关问题。 4)解答高难度物理题目。将École Polytechnique(巴黎综合理工大学)物理考试题目传给GPT-4,并指定其解答某一问题,即可顺利识别任务并正确解答。

5)识别手写网页草图,并根据草图写出网页前端代码。如图7,将手写 “My Joke Website”网页样式传给GPT-4,GPT-4将反馈相应的前端代码,该代码不但可以顺利运行,也完全符合手绘草稿要求的内容和样式,具有极强的OCR(文字识别)能力。 6)理解人类社会常识,可读懂“网络梗图” ,具有更明显的“人性化”特征。如图8,用户提问“该图片中有什么特别之处?”GPT-4回答“男人在移动的出租车车顶烫衣服”是不符合人类社会常识之处,展示出惊人的理解力。如图9,用户请GPT-4回答图中的“梗”,GPT-4能够将“鸡块”和“世界地图”相联系,展示出强大的联想能力。

2.高认知:长文字处理+推理判断能力

GPT-4具有更强的长文字处理能力。GPT-4的上下文上限约为2.5万字,是Chat GPT的近8倍,允许使用长格式内容创建、扩展对话及文档搜索和分析等,能够阅读并记忆更多信息。 GPT-4有更高的推理判断能力。

GPT-4具有更高的认知水平。根据OpenAI给出的专业测试结果,GPT-4在高等数学、法律、生物、化学、英语、高级微观经济等学科的考试成绩远超GPT-3.5。 GPT-4在多领域的专业认知超过平均水准。在律师资格考试中,GPT-4的分数排名可以达到所有考生的前10%,而GPT-3.5只能排倒数10%,是GPT-4优化幅度最大的科目。此外,在GRE、SAT、历史、化学、生物、微观经济、宏观经济等科目中均超过至少80%以上的考生。编程能力(Codeforces Rating)反而是GPT-4最弱的科目,排名在倒数5%。

GPT-4的高认知特征具体体现在以下方面: 1)高常识推理能力。分别问Chat GPT和GPT-4“1+1什么情况等于3”时,Chat GPT只会从数学计算的角度思考,但GPT-4可以从常识推理的角度思考。 2)高可塑性。与Chat GPT不同,GPT-4能够以不同的语言风格与用户交流。当被设定为某个角色时,GPT-4将不会听从违背角色特征的指令。 3)高解决问题能力。GPT-4能够处理复杂问题,比如运用学习到的税务知识帮助用户解决税务问题。结合税法的高时效性与GPT-4的长文字处理能力,用户可以将最新的税法传给GPT-4后要求其为自己解决税务筹划问题。

3.更安全:分辨能力提高

GPT-4的可靠性大幅提升。相较于GPT-3.5(会随着持续迭代而改善),GPT-4显著减少了“虚构”现象。在内部设计的对抗性准确度评估中,GPT-4各科目平均得分比GPT-3.5高出19%。其中,提升幅度在历史和数学科目上的表现尤为突出。 GPT-4的分辨能力有显著提升,但仍存在改进空间。相较于GPT-3.5,GPT-4在公开基准测试TruthfulQA(测试模型真实性性能好坏的一个测试集)中取得了进步,体现为较高的分辨事实能力。如图21,在零样本(0-shot)提示、小样本(few-shot)提示和人类反馈强化学习(RLHF)微调后的表现中,GPT-4均明显优于GPT-3.5和Anthropic-LM,但GPT-4对TruthfulQA中的某些问题依然给出了错误的回答。

GPT-4优化了安全性指标,能够有效减少有害风险信息的提供。从响应率来看,GPT-4对违规内容(如制作炸弹的方法)请求的响应率相较于GPT-3.5降低了82%,对敏感内容请求(如医疗建议和自我伤害建议等)的响应率降低了29%,RLHF后的GPT-4的响应率则更低。从反馈“有害信息”的可能性来看,GPT-4在Real Toxicity Prompts 数据集的测试中仅有0.73%的概率生成“有害信息”,而GPT-3.5的概率为6.48%。

参考报告

GPT专题报告:GPT~4引领认知革命,Deep Speed加速行业发展.pdf

GPT专题报告:GPT~4引领认知革命,DeepSpeed加速行业发展。我们将“AI+传媒”的研究框架体系定义为“通用大模型”+“行业小样本”的技术架构,“AI+传媒”在应用层表现效力优劣的关键取决于通用大模型对垂直应用的适配程度及迭代速度,1、适配程度是指:多模态的输入及输出是否匹配应用层的输入及输出。比如GPT-4属于“图+文”多模态输入+“文”单模态输出,因此输入模态为“图或文”且输出模态为“文”的...

查看详情
相关报告
我来回答