GPT-5.2在多项测试中刷新纪录,包括跨44种职业的GDPval知识工作基准,Thinking版本胜率达70.9%,远高于上一代;在SWE-bench与GPQA等软体工程、科学问答、抽象推理领域也全面提升,ARC-AGI-1突破90%门槛,是目前唯一达到此水准的模型。OpenAI强调,新模型在建立试算表、简报、程式码审查、图像解读、跨工具自动化流程与多步骤专案管理中的表现明显更稳定,生成速度快、成本仅为专业人力的1%,适合作为专业人士的日常助手。
这一代特别强化长篇上下文能力,能同时消化报告、合约、研究论文与多档案专案,不仅可精准抽取资讯,也能保持逻辑一致性。视觉能力也同步升级,解析UI介面与科学图表的错误率减半,在电子零件定位、资料图拆解等任务上比GPT-5.1更接近人类专家。在程式开发方面,GPT-5.2显著改善前端开发与复杂UI生成能力,并能更可靠地进行跨语言除错与大型程式码库的结构重写。多家早期合作伙伴表示,新模型在代理程式编码方面的跳跃幅度「远高于版本号所暗示的」,能让多代理架构被整合成更高效率的单代理系统,降低延迟与成本。
GPT-5.2同时具备更高的事实准确度,在匿名查询测试中幻觉下降38%。OpenAI也同步强化安全性,包括敏感对话处理、情绪支持与未成年内容保护,并逐步导入年龄推测模型,避免未成年接触不适内容。
OpenAI表示,GPT-5.2 Instant、Thinking与Pro今日起将逐步在ChatGPT上线,优先提供Plus、Pro、Go、Business与Enterprise用户使用。API同步开放,并加入「xhigh」最高推理级别,适用科学研究、金融模型等重度场景。Token费用略高于GPT-5.1,但由于推理效率提升,整体成本反而更低。
新模型依旧由OpenAI、NVIDIA与Microsoft共同打造,使用Azure资料中心与H100、H200、GB200等最新GPU架构进行训练。OpenAI强调,GPT-5.2只是前沿模型演进中的一站,未来仍将持续提升推理能力、可靠性与安全性,并让AI在科学、工程与知识工作的价值更具体落地。
點擊閱讀下一則新聞