【译】OpenAI o1 模型全面评测: OpenAI最新AI有何惊人突破?

作者：老汪软件技巧
发表时间：2024-09-16 10:02
浏览量：

现在，让我们通过一个经典问题来比较o1和之前的GPT-4o模型的表现：计算”strawberry”这个词中”r”的数量。

Prompt: How many ‘r’ letter are in the word strawberry?

让我们再试一个。这次，我们要求两个模型列出名称中第三个位置是字母’A’的国家。

Prompt: Give me 5 countries with letter A in the third position in the name

再次，o1给出了正确答案，尽管比GPT-4o花费了更长时间来”思考”。

o1并非完美无缺

即便是Sam Altman也承认o1仍有缺陷和局限性。它在首次使用时可能给人留下深刻印象，但随着使用时间的增加，你可能会发现它并非完美。

有时，它仍然会犯错 — — 即使面对像询问其回答中有多少个’r’这样简单的问题。

另一点需要注意的是，虽然o1模型在推理能力上有重大突破，但并不意味着它能在所有场景下取代GPT-4o。

对于需要图像输入、函数调用或持续快速响应时间的应用，GPT-4o和GPT-4o mini模型仍然是更合适的选择。

对于开发者来说，o1的一些API参数目前还不可用：

如何获取o1模型的访问权限？

o1今天在ChatGPT上向所有Plus和Team用户开放，同时在API中向5级开发者开放。

如果你是免费版ChatGPT用户，OpenAI表示他们计划为所有免费用户提供o1-mini的访问权限，但具体时间表尚未公布。

o1也可在OpenAI Playground中使用。只需登录/，在Playgroun…

开发者还可以使用API模型”o1-mini-2024–09–12"和”o1-preview-2024–09–12"。

o1模型的提示技巧

如果你习惯了像Claude 3.5 Sonnet、Gemini Pro或GPT-4o这样的模型的常规提示方式，那么提示o1模型需要采取不同的策略。

o1模型在直接明了的提示下表现最佳。一些常见的提示工程技巧，如少样本提示或指示模型”逐步思考”，可能不会提高性能，有时甚至会产生负面影响。

以下是一些最佳实践：

保持提示简洁直接：这些模型擅长理解和回应简短、清晰的指令，无需冗长的引导。避免思维链提示：由于这些模型内部已经执行推理，提示它们”逐步思考”或”解释你的推理过程”是多余的。使用分隔符提高清晰度：使用三重引号、XML标签或章节标题等分隔符清楚地标示输入的不同部分，帮助模型正确解释各个部分。在检索增强生成（RAG）中限制额外上下文：在提供额外上下文或文档时，只包括最相关的信息，以防止模型过度复杂化其响应。结语

不得不说，o1在基于对话的问题解决和内容生成方面表现令人印象深刻。但你知道最让我兴奋的是什么吗？它与像Cursor AI这样的编码助手的集成潜力。

我已经看到有人将他们的API密钥插入Cursor并使用o1为他们编写代码。虽然我还没有亲自尝试，但我非常期待能够体验一下。

从我的初步测试来看，o1的思考、规划和执行能力确实出类拔萃。我们基本上正在见证 agentic coding 系统的ChatGPT时刻。它的新能力带来的影响是深远的。

我真诚地相信，用这个工具构建的全新产品浪潮将与我们之前见过的任何东西都不同。软件开发领域的新可能性令人振奋，我迫不及待地想看看o1在未来几周内将如何彻底改变我们编码和构建应用程序的方式。

上一条查看详情 +每日知识积累 Day 26

下一条查看详情 +TCP 分析展示