先做个广告:如需代注册ChatGPT或充值 GPT4.0会员(plus),请添加站长微信:gptchongzhi
#OpenAI #o3 #o3-mini
推荐使用GPT中文版,国内可直接访问:https://ai.gpt86.top
OpenAI 于“双 12”直播公布下一代模型 o3。其在 CodeForces 竞赛中成绩优异,跻身人类顶尖行列;ARC-AGI 测试分数大幅跃升,展现强大逻辑推理能力;在最难数学测试中成绩显著提升。o3-mini 支持多种思考程度设置,代码能力出色,北大校友任泓宇现场演示其编程能力。不过,o3 和 o3-mini 目前处于早期预览状态,仅向安全研究者开放早期访问权限。不过,整个发布会直播看下来,没有啥实质性的内容,说好的 AGI 是一点都没提,我一晚没睡就等了个期货,哈哈哈~。
o3 重磅来袭,性能惊艳众人
在人工智能的持续演进中,OpenAI的动态一直备受瞩目。此次,OpenAI公布了其下一代模型o3,在“双12”直播活动的最后一天重磅登场,奥特曼本人也再次现身直播间,为大家详细解读这一全新模型的强大之处。
但是,现在并没有提供使用入口,预计需要到 2025 年发布,其实今晚的直播就是个预热,哈哈哈哈
编程能力:跻身人类前200行列
o3在顶尖程序员竞赛CodeForces中展现出了卓越的实力,其分数超过2700。要知道,在全球范围内,人类能够超过这个分数的目前仅有不到200人。这一成绩的取得,充分彰显了o3在编程领域的超高水准,使其成功跻身人类顶尖程序员的行列。这意味着o3在理解编程逻辑、解决复杂算法问题以及生成高效代码等方面,已经具备了与人类顶尖高手一较高下的能力。
AGI测试成绩飞跃:ARC-AGI测试中的卓越表现
在为AGI(通用人工智能)准备的测试ARC-AGI上,o3更是取得了令人瞩目的成绩。其分数从之前的32%大幅跃升至75.7%和87.5%(分别对应低思考程度和高思考程度设置)。ARC-AGI是由 Keras 之父François Chollet 发起的测试基准,主要包含图形逻辑推理等典型题目,这类题目对于AI的逻辑思维和抽象推理能力是一个极大的挑战。o3在该测试中的优异表现,表明其在逻辑推理和智能决策方面取得了重大突破,向着通用人工智能的目标迈出了坚实的一步。
破解最难数学测试:EpochAI Frontier Math中的突破
EpochAI Frontier Math号称是最难的数学测试,其中包含了众多最新未公开的前沿题目。此前,著名数学家陶哲轩对这项测试的第一印象是“可能难住AI好几年”。然而,o3 却在测试中取得了显著的进步,从之前的 2 分提升到了 25 分。人类专业数学家解决其中一道题目往往需要花费数小时甚至数天的时间,而 o3 仅需几分钟的思考时间。这一突破不仅展示了 o3 在数学理解和解题能力方面的强大,更预示着AI在处理复杂数学问题上的巨大潜力。
o3-mini:多样化思考程度设置与出色代码能力
直播中还公布了 o3-mini,它支持低、中、高三种思考程度设置,主要展示了其出色的代码能力。在低设置下,o3-min i与 o1-mini 表现相当,但在中高设置时,其能力已经超越了 o1 正式版。这一特性使得 o3-mini 在不同场景和需求下都能发挥出相应的优势,为开发者提供了更多的选择和灵活性。无论是处理简单的编程任务还是应对复杂的逻辑问题,o3-mini 都能通过调整思考程度来提供合适的解决方案。
北大校友助力,o3-mini 编程实力展示
在这场直播中,北大校友任泓宇的参与无疑为 o3-mini 的展示增添了一抹亮色。
任泓宇的背景与贡献
任泓宇博士毕业于斯坦福大学,在加入OpenAI之前,他在Apple、Google、NVIDIA和Microsoft等科技巨头积累了大量的研究实习经历。去年,他加入OpenAI担任研究科学家,主要负责语言模型训练,是GPT - 4o的核心开发者以及GPT - Next项目组成员。在直播中还透露,他也参与了九月份的 o1-mini 的相关工作,进一步证实了此前传闻中 o1-mini 主要由三位华人负责的信息。
o3-mini编程演示:38 秒构建 UI 并自我评估
任泓宇现场展示了o3-mini的编程能力,他使用了特殊版本的ChatGPT(ChatGPTα)来执行一系列复杂任务。任务要求编写一个Python脚本,在本地为带有大文本框的HTML文件启动服务器,当在文本框中输入文本并提交时,将代码请求发送到OpenAI o3-mini API,获取生成的代码后保存到桌面上的临时文件,并在新的 Python 终端中执行该文件。同时,还需要在向API的请求中添加额外提示,指定返回无格式或Markdown 的原始代码,且整个操作在Mac笔记本电脑环境中运行。o3-mini 在思考过程仅用了 38 秒后,便迅速生成了代码,并且一次运行成功。
后续,任泓宇还要求 o3-mini 在这个 UI 中编写并执行一个脚本,来评估其在低思考程度下、在 GPQA 数据集上的表现,脚本正确运行评估并返回结果数值 61.62%,与正式评估结果基本一致。这一系列操作充分展示了o3-mini不仅能够快速生成高质量的代码,还能通过API调用实现自我交互和评估,具有很强的自主性和智能性。
o3 及 o3-mini 现状与展望
早期预览状态:只展示不开放使用
目前,o3 和 o3-mini 都处于早期预览状态,这意味着虽然它们在性能展示上给人们带来了极大的惊喜,但暂时还无法供大众广泛使用。OpenAI 仅向安全研究者开放了在官网申请早期访问权限的渠道,这主要是出于对模型安全性、稳定性以及可能带来的潜在影响等多方面因素的考虑。在人工智能技术不断发展的过程中,确保技术的安全可控是至关重要的,尤其是像o3这样具有强大能力的模型,需要在充分测试和评估其风险后,才能逐步向更广泛的用户群体开放。
未来潜力无限:引领AI发展新方向
尽管 o3 和o3-mini 目前还不能被大众所使用,但它们所展现出的强大性能已经为人工智能的未来发展指明了新的方向。o3 在编程能力、AGI 测试以及数学难题破解等方面的突破,预示着 AI 在逻辑思维、抽象推理、问题解决等关键领域正在不断逼近甚至超越人类水平。随着技术的进一步发展和完善,我们有理由相信,这些模型将在更多领域发挥重要作用,如智能编程辅助、复杂问题决策、科学研究辅助等。同时,像任泓宇这样的优秀人才加入研发团队,也将为 OpenAI 的持续创新提供源源不断的动力,推动人工智能技术不断迈向新的高度,为人类社会带来更多的创新和变革。
OpenAI 的 o3 模型及其相关进展无疑是人工智能领域的又一重大突破,虽然目前仍处于早期阶段,但已经让我们看到了AI无限的潜力和可能性,值得我们持续关注和期待。
openai o3试用申请地址:
https://openai.com/index/early-access-for-safety-testing/
本文链接:https://ynysd.com/chatgpt/778.html
o3 minio3openai o3 miniopenai o3chatgpt o3 minichatgpt o3o3 mini官网openai o3官网
网友评论