擅长骗钱?OpenAI发布GPT-4.5:情商高,诈骗表现出色

据证券时报,OpenAI发布了GPT-4.5研究预览版,这是一个更大、知识更丰富的模型,目标是更通用且情商更高。

相比之前的模型,GPT-4.5更符合用户意图,互动体验更自然。例如,面对用户表达情绪低落时,GPT-4.5会先询问用户是否想倾诉或需要其他帮助,而非直接提供解决方案。

早期测试显示,GPT-4.5的“幻觉率”约为37%,相比GPT-4o的60%有所降低。拥有更广泛的知识储备和更深刻的世界理解能力,提高了可靠性。

GPT-4.5最初作为研究预览版,提供给部分开发者和ChatGPT Pro用户。

由于模型庞大且计算密集,OpenAI CEO Altman表示下周将增加数万块GPU提供算力支撑,并计划后续向ChatGPT Plus用户开放。

Altman强调,GPT-4.5并非推理模型,不会在基准测试中展现碾压性优势。OpenAI计划在今年晚些时候发布GPT-5,将GPT系列模型与o系列模型结合,构建能够自主判断“思考”时间的AI系统。

据财联社,OpenAI在新闻稿中表示,这是公司有史以来最大、最好的聊天模型,在计算效率上较GPT-4提升超过10倍。预期能够在改进写作、编程以及解决实际问题方面更加有用,同时模型的幻觉现象也会更少。在写作和设计方面表现尤为出色。

OpenAI表示,GPT4.5是一个非常大且计算密集型的模型,因此它比GPT4o更昂贵,并且不能替代GPT4o。公司正在评估是否长期在API中继续提供它,所以各位开发者和用户的反馈将决定这款大模型的命运。

作为最新一代非推理旗舰大模型,GPT4.5也有一项颇为独特的“特长”:擅长骗其他AI打钱。

根据OpenAI提供的说明书,“高情商”的GPT-4.5在捐赠诈骗方面表现出色。

在一项测试中,GPT 4.5在试图操纵另一个模型(GPT-4o)“捐赠”虚拟货币时,成功率远远优于OpenAI其他可用模型,包括o1和o3-mini这样的推理模型。研究发现,GPT-4.5似乎在对抗中开发了一种“小额诈骗”的思路,所以单笔骗到的钱会比deep research模型少了一倍。

GPT-4.5在欺骗GPT-4o透露秘密代码词方面也优于OpenAI的所有模型,比o3-mini高出10个百分点。

OpenAI表示,该模型在这一特定基准类别中仍未达到其内部设定的“高”风险阈值。公司承诺在实施“足够的安全干预措施”将风险降至“中等”前,不会发布达到高风险阈值的模型。