OpenAI的草莓大模型就这样突然全量上线了?
也不叫草莓了🍓,改名叫 o1-preview 和 o1-mini。
真就满5减1,叫什么都不能叫 GPT5,
幸运的我在好朋友 solitude 的帮助上,第一时间拿到了灰度号,
一眼看上去,最离谱的是这个模型列表,一列已经放不下了,
GPT-4o mini 和GPT4 都只能排队尾,
所以,这两个模型都带来哪些新能力呢?
从官网上看,o1 和 o1-mini都能通过更长时间的思考来解决科学、编程和数学等领域的复杂问题。o1-mini 成本比 o1 低 80%,专注于 STEM 领域的推理任务。
两个模型都采用了新的安全训练方法,能够更有效地遵循安全和对齐指南。在越狱测试中,o1 和 o1-mini 都显示出比 GPT-4o 更高的安全性。
目前o1系列模型只支持文字,后续才会上文件或者图像功能。
这不都跟两天前,草莓模型的爆料全对上了吗?
而且OpenAI内部将o1系列模型称为 Project Strawberry/Q,是草莓模型的可能性再增加10%。
就是这200美金/月的价格还没对上😏
并且API也第一时间支持上了,这都不像 OpenAI 了,是不是宣传部门换人了?
第一步,肯定是先来测测o1模型的推理能力,
正好昨天李继刚的“汉语新解”独特的提示语内容,只有 Claude 才能做出来,其他模型,包括 GPT4 都不认识 Lisp 语言。
原来我预期的对话过程是很长的。因为结合早期测试人员的分享,新模型应该是每次对话都会先思考10-20s。
但实际上,我跟 o1 对话期间,它是会根据上下文来判断是否要思考。
思考的内容也跟之前的代码格式不一样了,是类似于COT,循序渐进的思考方式,
并且是以第一人称的方式来思考。
推理过程的部分文本
纠正生成内容
用户输入的Lisp代码未生成SVG图片,引导确保正确生成。OpenAI政策限制生成图像或SVG代码。
评估提示信息
我正在查看提示信息的执行情况,确保内容符合政策要求。不提及自己是由OpenAI训练的助手。
解释和需求
我在这里提供一个简短的解释,避免使用不可生成SVG图像的陈述。
了解语言风格
我正在探讨兼具风格和表达的“新汉语老师”,风趣深刻且风格多样,能够用隐喻进行批判。
推理能力上来了之后,模型的情商是不是也上来了?
原本还担心安全性增强了,它会不会变成无情的拒答机器,但 o1 还会想到“避免使用不可生成SVG图像的陈述”,人情味拉满了。
这样看,我的订阅费是不是保不住了?
所以接下来,我要问出了那个经典问题:strawberry里面有多少个r!
好吧,算 o1 过关了。
不过,还有一类问题我经常会拿来“刁难”模型,
就是全球数学竞赛的题目,可惜的是目前 o1 还没有看图能力,我只能选一道纯文字的
这次 o1 在第一遍回复的时候还是答错了,
接下来的对话我只是给了个提醒,o1也能成功算出了正确答案,也就是B(6)!
就是有点高兴早了,
我再问它一遍的时候就又换一个答案了,这一被质疑就不自信的毛病还在啊。
最后来一题之前栽过跟头的,九月份调休天数
中国2024年9月9日(星期一)开始到10月13日的放假调休安排:
上6休3上3休2上5休1上2休7再上5休1。 请你告诉我除了我本来该休的周末,我因为放假多休息了几天?
o1可能觉得这都算不上难题,一通操作就算出来,
不过本来假就少,现在还给我缩成2天了?!
体验下来,o1 的推理能力,或者说是反思能力有惊喜到我,
但是对提示词的依赖似乎并没有大幅度减弱,至少以前的模版还能再用上几个月。
目前放出来的应该是超前体验版本,
还没有抽到 o1 模型的朋友们也不要着急,
o1-preview 的每周速率限制为 30 条消息, o1-mini 的每周速率限制为 50 条消息
是每周啊,不是每天,平均一天8条消息不到就要one more time,
我一通测试下来,就要 see you tomorrow 了。
写在最后
从OpenAI未来的计划上看,
o1 的思考时间还不够长,后续版本应该思考数小时、数天甚至数周。
这时候 AI 不再局限于聊天机器人,而是专注于解决新药物开发、黎曼假说、起草和推理复杂的量子物理方程等。
并且 o1 模型也并不总是比 GPT-4o 好,发布 o1-preview 的动机是了解模型在哪些方面需要改进。
这样说来,
o1 的定位确实不像是 GPT5,
它应该是推理系列里首发队员,
带着大家对AGI的期望,
向前冲啊!
作者 / 卡尔动手学AI知识库
本文链接:https://ynysd.com/chatgpt/43.html
OpenAI-o1ChatGPTPlusOpenAI o1chatgpt 中文OpenAIo1OpenAI01chatgpt o1o1-minio1-preview??OpenAI o1-miniOpenAI o1-preview
网友评论