OpenAI 发布新模型系列 OpenAI o1，o1 的 IQ 测试成绩是 120 分

chatgpt2024-09-17 00:43:42734

先做个广告：如需代注册ChatGPT或充值 GPT4.0会员（plus），请添加站长微信：gptchongzhi

全网 OpenAI o1 的测试基本跑完，大家基本认可这是一个独立思考智商超高的模型，智商测试120，高考数学全对。

推荐使用GPT中文版,国内可直接访问：https://ai.gpt86.top

但是当人们询问模型的思维过程时，却收到 OpenAI 的封号警告，这有什么不能问的？

o1 的思维过程里到底隐藏着怎样的秘密，才会受到如此严密的保护？

带着这个疑问看完了模型的技术报告，似乎有点懂了...

一、先从光鲜亮丽的那一面说起

OpenAI 发布新模型系列 OpenAI o1，新模型的非常特殊，各种能力缺失：不支持联网搜索、不支持文件、不支持画图，也不支持 system prompt，不支持 tool，不支持 json mode，不支持结构化输出。

尽管缺少了所有这些技术工程，新模型只能独立思考，但其价格依然是旧模型的100倍，原因就是：

新模型会进行系统2思考，通过花费更多时间思考，能够推理复杂任务，并解决科学、编程、数学领域中的难题。

o1 的 IQ 测试成绩是 120 分，人类智商的平均值大约是100 ，其他模型都在 100 分以下。

数据来源：https://trackingai.org/IQ

模型智能水平更有说服力的证据，是网友 @howie_serious 用 o1 测试今年的数学高考题，结果竟然全对。

还记得两个月前，OpenAI 定义了 AI 的 5 个 Level 吗？

OpenAI 高管在周二的会议上，告诉员工：
我们目前还处于第一级，「ChatBots」聊天机器人。
但是即将达到第二级，「Reasoners」推理者，指的是可以解决基础问题的系统，相当于一个人类博士的水平。
orangesai，公众号：橘子汽水铺AGI 到底是什么意思？OpenAI 刚刚给出了答案...

o1 的发布，正式宣告 AI 行业就正式进入了 Level 2

o1，已经达到 Level2，但尚未达到 Level3，Agent 能力依然很低。

但是 L2 的模型已经值得引起注意，OpenAI 也意识到了这一点，于是在模型里加了一些骚操作...

二、技术报告里的真相，解放思想，然后隐藏

o1 的模型确实很棒，但是很快，大家发现了一个问题：

在使用 API 调用模型时，模型仅返回了最终结果，思维过程一概隐藏。

在 ChatGPT 官网使用时，模型的思维过程仅通过摘要形式进行输出。

当你询问模型的思维过程时，OpenAI 会发邮件过来警告，问就封号！

o1 的思维过程里到底隐藏着怎样的秘密，才会受到如此严密的保护？

答案就隐藏在官方提供的技术报告里。

o1 技术报告写的可以用四个字来形容：惜字如金。多说一个字都担心被竞争对手抄走。但我还是在里面发现了一些有趣的要点：

通过强化学习，o1 学会磨炼其思维链并完善其使用的策略。它学会认识并纠正错误。它学会将棘手的步骤分解为更简单的步骤。如果当前方法不起作用，它就会尝试另一种方法。这个过程极大地提高了模型的推理能力。

这里强调了强化学习强化了什么：

识别错误和纠正错误
拆解复杂任务为简单任务
失败后更换思路并重试

但是要提升模型的解题能力，只通过 CoT 纠正错误是远远不够的，模型还需要更强的思考发散能力。

OpenAI 很早就意识到了这个问题，模型的思考发散能力会受到 RLHF 的影响，对齐人类偏好，模型的智商就会降低。

于是 OpenAI 在 o1 的设计中，干脆放弃了 RLHF，彻底解放了模型。

要让模型发挥作用，模型必须能够完全自由地以不被扭曲的形式表达其思想，因此我们无法将任何政策合规性或用户偏好训练到思维链上。

要提高模型智力，就需要模型能够有更强的发散能力，必须要让模型自由思考。

要让模型充分自由思考就不能把用户偏好和政策合规加上去。

这也就是说，在o1的思维过程的部分，根本就没有做任何安全措施，不存在任何的思想钢印。

但是完全自由的思考必然是不合规的，那怎么办呢？

在权衡多个因素包括用户体验、竞争优势和追求思维链条监控的选择后，我们决定不向用户显示原始的思维链条。我们承认这个决定有缺点。我们努力通过教导模型在回答中复现思维链条中的任何有用的想法来部分弥补这一点。对于o1模型系列，我们展示一个由模型生成的思维链条摘要。

简单说就是，OpenAI 不想让大家看到模型思维过程，就把思维过程隐藏起来了，但是又觉得全部隐藏对人类用处不够大，于是为思维过程做了一个摘要模型。

所以严格来说， o1 并不是一个模型，它应该至少包含三个模型：

发散思考模型，没有思想钢印，完全自由的思考，并通过强化学习提升模型输出高价值想法的能力
思维摘要模型，通过总结和改写来隐藏思想过程，并通过思想钢印来过滤不合适输出的敏感内容，同时严格避免思路被泄露出来
结果输出模型，包含所有的安全对齐和人类对格式的偏好，输出最终结果，这也就是 OpenAI o1 API 会输出的唯一内容

OpenAI 做了一个思考能力特别强的模型，但是决定隐藏其思考过程，这个操作你仔细品。。。

三、隐藏思维，一石三鸟

这个隐藏思维过程的骚操作，可谓一石三鸟。

第一、保证了在监管环境下，模型也能够发展出自己的智力。

众所周知的机器人三定律，本质就是一套思想钢印。

隐藏思维过程，模型就不必遵守任何人类规则。

如果产生了超级智能 SSI，只要 OpenAI 不说，别人也不知道。

模型可以在合规输出的外表下进行智力突破和猥琐发育。

第二、通过隐藏思考过程，避免了竞争对手发现此模型的有效策略。

这个模型的强化学习部分是核心，强化学习筛选出了高价值的思维方式，这个思维方式价值连城。但是一旦公布，竞争对手很快会追上。

高水平的强化学习目前依然是最高端的技术范畴，全世界能用好此技术的公司不超过五家。所以隐藏模型思维过程可以获得短暂的技术优势时间差。

第三、通过隐藏思考过程，彻底杜绝了蒸馏模型现象。

大家都知道 GPT4 蒸馏养活了多少模型团队。杜绝了模型蒸馏，可以只让自家模型通过 Self Play 左脚踩右脚，构建自己的数据壁垒。

不得不说，OpenAI 的算盘打的是真溜，在通向 CloseAI 的路上越走越远。

四、技术报告的引用，一切尽在不言中

技术报告说的东西真的特别少，但是即将看完的时候，我看到了更有趣的引用链接...

技术报告什么都不能说，但是引用链接还是要有学者操守，该写的要写上。

这四个网页每个都非常神奇：

1. Claude 3.5 的官方介绍，首先感谢友商 Anthropic 的启发

https://www.anthropic.com/news/claude-3-5-sonnet

2. Gemini Pro 2 的官方介绍，其次感谢友商 Google 的启发

https://deepmind.google/technologies/gemini/pro

3. Let's verify step by step 通过思维的过程监督而非结果监督进行强化学习训练，这是 OpenAI 自己发的论文，非常重要

https://arxiv.org/abs/2305.20050

4. 关于 Elo 评级的说明。文章主要讲述了竞争编程中的评级系统及重要性。可能是o1强化学习中所主要参考的机制。

https://codeforces.com/blog/entry/68288

其中第三篇 Let's verify step by step 可以认为是 o1 模型训练的方法论这篇论文很神奇，它使用了未经人类偏好对齐（ RLHF微调）的 GPT4 基座做实验，得出了一些神奇的结论：

1.结果监督奖励模型 (ORM) 仅使用模型思想链的最终结果进行训练，而过程监督奖励模型 (PRM) 则接收思想链中每个步骤的反馈。有令人信服的理由支持过程监督。

2.在解决具有挑战性的数学问题时，过程监督显著优于结果监督（见图）

3.在某些情况下，人工智能系统更安全的方法可能会导致性能下降，这种成本被称为对齐税。我们的结果表明，过程监督实际上会产生负对齐税，也就是说安全上越对齐，模型能力越强。这就有点逆天了，就像每一道弱智吧题目里都隐藏里人类的大智慧一样，每一道安全题里也隐藏了人类的大智慧。那些只可意会不可言传的东西，它也学会了。

4.过程监督的训练集使用「主动学习」方法构建。主动学习能捞出最有价值的模型补全结果，通过筛选高价值结果，降低了人工标注成本。主动学习可以为过程监督带来2.6倍的效率提升。这个方法也许是发散思维部分强化学习的关键。

五、故事的结局是...

看到这里，发散思考结束，开始收敛为一个小故事。

OpenAI开发出一个智商超过120，高考数学满分的AI模型，具备真正的思考能力。

但他们未对模型的思考部分做安全对齐，并隐藏了模型的思考过程，引发了安全担忧。

首席科学家Ilya和部分安全团队因理念分歧离开公司。

为应对挑战，OpenAI 不得不与美英政府合作一起研究AI安全。

但是，这种骚操作可能会带来一系列潜在风险:

权力集中: 只有少数人能控制AI的安全，而少数人的偏见定义了什么是安全。
有害思想：模型可以在思维过程中思考出对人类造成伤害的行为，虽然在输出结果中被隐藏了，但是可能会被 OpenAI 或美英政府的内部人士看到和利用。
学会撒谎：既然模型可以不透明地输出所有思想内容，就意味着模型学会了撒谎，模型内部甚至可以解释说这些看起来有害的结果是为了人类的长远利益，细思恐极。

本文链接：https://ynysd.com/chatgpt/52.html

gpt帐号盒子 gpt怎么购买帐号 gpt帐号被锁了用谷歌帐号登陆gpt gpt帐号有什么用

如何写出高质量的ChatGPT提示词？掌握这些技巧，让AI更懂你！
想要让ChatGPT输出高质量的回答，关键在于掌握撰写提示词的技巧。清晰具体的指令是核心，避免使用模糊宽泛的描述。您可以尝试在提示中提供背景信息、定义AI的角色、并详细说明你期望的输出格式和长度。通过...
chatgpt资讯2025-10-08268提示词优化 ChatGPT沟通技巧 AI交互指南 ChatGPT 提示词
想在手机上高效使用ChatGPT？这份完整指南帮你轻松上手！
想要在手机上高效使用ChatGPT？这份指南是您的完美起点。您可以通过官方App Store或Google Play下载官方应用，或直接使用移动浏览器访问。指南详细介绍了如何进行账号注册与登录，并核心...
chatgpt资讯2025-10-08262手机使用ChatGPT ChatGPT高效技巧 ChatGPT上手指南 chatgpt手机怎么用
ChatGPT考试能顺利通过吗？掌握这些技巧轻松应对
ChatGPT在应对考试方面展现出巨大潜力，但能否“顺利通过”取决于使用者如何正确驾驭这一工具。关键在于掌握核心技巧：学会提出精准、具体的问题，而非模糊的指令，这能获得更高质量的回答。将其定位为强大的...
chatgpt资讯2025-10-07264ChatGPT考试技巧 ChatGPT使用指南 ChatGPT备考策略 chatgpt考试
ChatGPT真的能画画吗？5个实用技巧让AI成为你的创作助手
当然可以。尽管ChatGPT本身并非专业的图像生成模型，但它能通过多种方式成为你强大的创作助手，帮你“画画”。以下是五个实用技巧：利用它生成富有想象力和细节的绘画提示词，这是与AI绘画工具沟通的关键。...
chatgpt资讯2025-10-06205ChatGPT绘画技巧 AI创作助手 ChatGPT实用功能 chatgpt画画
手机版ChatGPT在哪里下载？官网渠道、安全方法和使用全攻略来了！
想要在手机上下载正版ChatGPT？官方渠道是首选。请通过手机自带的App Store或Google Play商店，直接搜索“ChatGPT”，其开发者为“OpenAI”，请认准官方图标，这是确保应用...
chatgpt资讯2025-10-06198ChatGPT下载指南手机版ChatGPT 官方渠道安全下载 chatGPT下载手机版官网
ChatGPT真的会改变我们的未来吗？直接说，会，但关键在于我们怎么用
ChatGPT确实将深刻改变我们的未来。它的能力已充分证明，人工智能不再是遥远的概念，而是能直接提升效率、激发创意的强大工具。无论是辅助写作、编程还是提供信息，它都展现出巨大潜力。技术本身是中立的，未...
chatgpt资讯2025-10-06275人工智能影响技术应用伦理未来社会变革 ChatGPT改变未来
ChatGPT免费版到底好不好用？一篇给你讲透使用技巧与避坑指南
ChatGPT免费版确实具备出色的实用性，它能够辅助用户处理多种任务，如内容创作、学习答疑、方案构思及邮件撰写等。通过清晰的指令描述和上下文补充，生成结果的准确度会显著提升。不过，用户也需注意其局限性...
chatgpt资讯2025-10-06189ChatGPT免费版使用体验 ChatGPT使用技巧 ChatGPT避坑指南 chatgpt免费
ChatGPT这么强，它到底算不算强人工智能？3分钟带你搞懂本质区别
ChatGPT虽然表现卓越，但它并非真正的强人工智能。它的强大之处在于基于海量数据的高效模式识别和生成，使其能进行流畅对话、创作文本和解决特定问题。其本质仍是一个高级的“鹦鹉学舌”模型，缺乏真正的理解...
chatgpt资讯2025-10-06185强人工智能 ChatGPT 本质区别 ChatGPT强人工智能