评测OpenAI o1大模型，这颗会思考草莓确实甜

chatgpt2024-09-13 03:18:44939

先做个广告：如需代注册ChatGPT或充值 GPT4.0会员（plus），请添加站长微信：gptchongzhi

OpenAI的草莓大模型就这样突然全量上线了？

推荐使用GPT中文版,国内可直接访问：https://ai.gpt86.top

也不叫草莓了🍓，改名叫 o1-preview 和 o1-mini。

真就满5减1，叫什么都不能叫 GPT5，

幸运的我在好朋友 solitude 的帮助上，第一时间拿到了灰度号，

一眼看上去，最离谱的是这个模型列表，一列已经放不下了，

GPT-4o mini 和GPT4 都只能排队尾，

所以，这两个模型都带来哪些新能力呢？

从官网上看，o1 和 o1-mini都能通过更长时间的思考来解决科学、编程和数学等领域的复杂问题。o1-mini 成本比 o1 低 80%，专注于 STEM 领域的推理任务。
两个模型都采用了新的安全训练方法，能够更有效地遵循安全和对齐指南。在越狱测试中，o1 和 o1-mini 都显示出比 GPT-4o 更高的安全性。
目前o1系列模型只支持文字，后续才会上文件或者图像功能。

这不都跟两天前，草莓模型的爆料全对上了吗？

而且OpenAI内部将o1系列模型称为 Project Strawberry/Q，是草莓模型的可能性再增加10%。

就是这200美金/月的价格还没对上😏

并且API也第一时间支持上了，这都不像 OpenAI 了，是不是宣传部门换人了？

第一步，肯定是先来测测o1模型的推理能力，

正好昨天李继刚的“汉语新解”独特的提示语内容，只有 Claude 才能做出来，其他模型，包括 GPT4 都不认识 Lisp 语言。

原来我预期的对话过程是很长的。因为结合早期测试人员的分享，新模型应该是每次对话都会先思考10-20s。

但实际上，我跟 o1 对话期间，它是会根据上下文来判断是否要思考。

思考的内容也跟之前的代码格式不一样了，是类似于COT，循序渐进的思考方式，

并且是以第一人称的方式来思考。

推理过程的部分文本

纠正生成内容
用户输入的Lisp代码未生成SVG图片，引导确保正确生成。OpenAI政策限制生成图像或SVG代码。

评估提示信息
我正在查看提示信息的执行情况，确保内容符合政策要求。不提及自己是由OpenAI训练的助手。

解释和需求
我在这里提供一个简短的解释，避免使用不可生成SVG图像的陈述。

了解语言风格
我正在探讨兼具风格和表达的“新汉语老师”，风趣深刻且风格多样，能够用隐喻进行批判。

推理能力上来了之后，模型的情商是不是也上来了？

原本还担心安全性增强了，它会不会变成无情的拒答机器，但 o1 还会想到“避免使用不可生成SVG图像的陈述”，人情味拉满了。