香港奇案之强奸
香港奇案之强奸
黑丝 探花
91porn 在线 Open AI新模子o1问世,能像东谈主类相通念念考?

91porn 在线 Open AI新模子o1问世,能像东谈主类相通念念考?

91porn 在线

本文来自微信公众号:王智远91porn 在线,作家:王智远,原文标题:《Open AI 发布新一代模子 01》,题图来自:AI 生成

凌晨 1 点,我还在追剧。

这时,一又友发来一条音讯说:Open AI 发布了新模子,你在电脑上碰荣幸能用吗?哎,年老,齐要就寝了,这要强制开机,让我起来加班码字啊。‍‍

带着有趣,绽开 PC 端 ChatGPT 一看,竟然,多出两个模子,分袂是 ChatGPT o1-mini 和 o1-preview。

这是什么东东?如何叫这个名字?这个模子有什么脾气?如何还有两个版块呢?价位如何?难谈是此前被传的"草莓"作念出来了?

带着疑忌,熬夜看完官方文档,把内容转头共享给你。

为什么叫 o1 呢?官方说:

For complex reasoning tasks this is a significant advancement and represents a new level of AI capability. Given this, we are resetting the counter back to 1 and naming this series OpenAI o1。

我用自带浏览器的翻译功能,翻译出来便是:

这个模子在复杂推理任务上是一个要紧的率先,代表了东谈主工智能才能的一个新水平;因此,咱们决定重新运转编号,把这一系列模子定名为 OpenAI o1。

袄,正本因为这个模子相等历害,能作念许多复杂的事情,OpenAI 以为这是一个新的最先,是以把编号重新设为 1,运转一个新的系列。

那么,它为什么会有两个版块呢?官方说:

o1 mini 版是个简化的版块。它在速率、体积和资本方面齐作念了优化。

这个版块在处理数学、编程推理任务时线路可以,额外相宜需要快速处理问题的地方;因为它体积小,资本也低,是以,要是你想快速得到谜底,那么 o1 mini 版可能更相宜你。

相对 o1 preview 版,是齐备版块。

相比擅所长治复杂的问题,比如,岂论是科学问题、数学题如故编程,它齐能处理得相等好;天然,要是你碰到的问题要平凡的常识或者深切的贯串,那么这个版块更相宜你,因为它的推理才能相等弘远。

我不信,于是,让国产大模子 Kimi Chat 给我想了一个逻辑数学逻辑题,如下:

假定我有一个农场,内部有鸡和兔子。有一天,我数了数农场里动物的头和脚,发现悉数有 35 个头和 94 只脚。提示,农场里各有若干只鸡和兔子?

preview 版的确很强。除了告诉我有 23 只鸡,和 12 只兔子外,还给出了要津,扫数这个词下来,也就不到 2 秒。天然,这种测试用来拼凑 Chat 详情是无压力的,要是你有时刻,也可以带入责任中的问题,我方体验下。

总的来说,两个版块的主要区别是它们处理任务的才能、速率和资本;o1 mini 版在速率、资本上有上风;preview 版更相宜推理。

不外,实质体验下来,没以为有什么相反,也许我自己要它作念的事情,相比陋劣。

体验完后,仔细一想,这和 GPT-4o、GPT-4omini 有啥区别呢?非要搞出四个模子吗?加上 GPT-4,我电脑上依然有五个模子了。

查了下官方文档,有一篇著述叫《用法学硕士学习推理》(Learning to Reason with LLMs)预防先容了一切。

他们是这样说的:

在对 OpenAI 的两个 AI 模子—— o1-preview 和 GPT-4o 的实质使用偏好测试中,东谈主类评估者在不知情的情况下,相比了两个模子对复杂问题的恢复。

效劳泄漏,在需要大批推理的任务上,比如数据分析、编程和数学问题,民众更心爱 o1-preview。因为 o1-preview 经过稀疏的强化学习教会,是以,在处治这类问题时,推理才能更强,更高效。

然则,在天然话语处理任务上,o1-preview 的线路不如 GPT-4o。这是因为它的教会重心在推理和处治问题的策略上,而不是在话语的流通度或文本生成的千般性上。

这阐发,天然 o1-preview 在某些限制很出色,但它并不相宜扫数类型的任务,尤其是那些专注于天然话语处理的场景。

正本如斯。

我又看了看 o1-preview 和 o1 mini 版相宜哪些东谈主。官方说,要是你在处理科学、编码、数学等限制的复杂问题,这些增强的推理才能可能额外有效。

比如:

医疗盘问东谈主员可以用 o1 来标注细胞测序数据;物理学家可以生成量子光学所需的复杂数学公式;各个限制的蛊惑者齐可以用 o1 来构建和实行多步的责任过程。

是以,要是你作念科学、敲代码、编程、数学方面的责任,用它再好不外了。

那么,o1-preview 和 o1 mini 到底作念了哪些测试呢?

首先,为了泄漏 o1 模子在推理方面比 GPT-4o 有多大矫正,他们在不同的东谈主体稽查和机器学习基准上测试了它。

在 2024 年的 AIME 数学查验中,GPT-4o 平均只处治了 12% 的题目;而 o1 模子单次测试的平均解题率达到了 74%。要是算上 64 次测试的平均得分,能达到 83%;重新从 1000 个样本中名次,平均得分以致可以达到 93%。

这个收货不仅让它干预了全好意思前 500 名,还杰出了参加好意思国数学奥林匹克的分数线。

他们还用一个叫作念 GPQA 钻石的迤逦来测试 o1。这个测试波及化学、物理和生物学的专科常识。

他们请了一些领有博士学位的大众来恢复这些问题,效劳发现,o1 模子的线路杰出了东谈主类大众,成为第一个在这个测试中得回这样收货的模子。

这并不料味着 o1 在扫数方面齐比博士更历害,而是阐发它在处治某些专科问题上更为熟习。

天然,在其他一些机器学习的测试中,他们也作念了大批测试;它在 MMMU 的视觉感知测试中得了 78.2 分,成为第一个能和东谈主类大众竞争的模子;况兼,在 57 个 MMLU 子测试中的 54 个技俩上,它的线路齐优于 GPT-4o。

我有趣地搜索了一下,什么是 MMLU?陋劣讲,MMLU 像一场大型的详细查验,参加查验的不是东谈主类,而是东谈主工智能模子。

总之,这些测试最终论断是:

OpenAI 的 o1 模子在全球编程比赛 Codeforces 中名按次 89 位,在好意思国数学奥林匹克(AIME)的经验赛中,干预了全好意思前 500 名。

在物理、生物学和化学问题的测试中,它的线路以致杰出了博士水平。

因此,o1-preview 和 o1 mini 在处治高难度的推理和专科问题上线路更出色;而 GPT-4o 更相宜处理日常的任务。

是以,这样强的推理才能如何杀青的?要害有四个方面:

首先,o1 模子用了一种"自我对弈强化学习"(Self-play RL)的步伐;这是一种通过模拟环境和自我扞拒来提高模子性能的时候。

这种步伐中,模子在莫得外部率领,通过束缚尝试和伪善来学习策略和优化决议。

瞎想一下:

它就像在和我方棋战,一边玩一边学;过程中,无谓别东谈主教,我方试试、出错、再试,渐渐就学会了如何作念决议和处治问题。

其次,o1 还效法了东谈主类的"慢念念考"(Slow Thinking);这种念念考要时刻、奋勉和逻辑三者取悦,就像咱们在查验时仔细念念考一个迤逦相通。

通过三念念尔后行的方式,o1 先分析问题,然后把它断绝,再推理,再处治;这让它在科学、编程或数学上更精确,更出色。

天然,这一步离不开念念维链。

念念维链的推理,还用一种特有的步伐来监控模子。要是这些念念维链是可读的,研发东谈主员就能"读懂"模子的念念考过程。

这关于监测模子是否能驾御用户行径相等有匡助,然则,为了让模子能目田地抒发念念考,他们不在模子中加入任何与计策、用户偏好连系的硬性礼貌。

因此,这个模子整合了安全计策和东谈主类价值不雅,通过在模子的谜底中重现念念维链中的有效主见,让用户盘曲了解模子的念念考过程。

还有少许,念念维链加入了鲁棒性(Robustness)测试。所谓鲁棒性指一个系统、模子或者确立在面临千般不测情况、烦闷或者变化时,仍然能够平素责任,辞谢易出问题。

一辆汽车,岂论在高温、低温、下雨如故颤动的路面上,齐能平素行驶,这阐发它的鲁棒性很好;在 AI 限制,鲁棒性指软件、模子在面临不同的数据输入、伪善,以致坏心袭击时,仍然能保捏平稳和准确。

是以,鲁棒性强调的是在千般复杂、多变的环境下,仍然能保捏可靠和平稳的性能。

除以上两点,o1 在教会时还用上了数据飞轮(Data Flywheel);它的正确谜底会被用来再教会它我方,匡助它变得更机灵。

天然,为援助这些复杂的念念考任务,o1 还用上了一些额外优化的算法、架构。这些时候让它更快、更准确地处治问题,提高了它的全体才能。

总之,o1 模子教会原谅五个维度:

1. 自我对弈强化学习;2. 效法东谈主类慢念念考;3. 拆解了念念维链的过程;4. 在念念维链中加入了鲁棒性测试;5. 数据飞轮再强化。

看完官网文档,说白了,我以为他们让 AI 更像东谈主了。

再弘远的东西,不买卖化详情不行。那么,o1 模子的资本和使用戒指有哪些呢?

o1-preview 的价钱是:

每处理一百万个输入要花 15 好意思元,每处理一百万个输出则是 60 好意思元;这阐发,要是你用这个版块,输入和输出的处理用度会相比高。

珍藏啊。这是什么倡导?举个例子:

要是你每天和这个模子聊天 100 次,每次输入 1000 个单词,那么一天的用度是 75 好意思分乘以 100 次,等于 75 好意思元。按照现时汇率,75 好意思元约等于 540 东谈主民币。

这样看来,使用这个模子的资本格外于每天花 540 块钱。要是你每天齐这样使用,一个月下来的破耗就相等可不雅了,堪比请一个大众了。

而 o1-mini 的价钱低廉一些。

小77论坛最新

每一百万个输入只需 3 好意思元,每一百万个输出 12 好意思元。但这个低廉版在功能上可能会有些戒指;要是你是 ChatGPT Plus 或 Team 的用户,就可以优先尝试 o1 模子的功能。

对蛊惑者来说,条目就严格多了,只消支付了 1000 好意思元的五级蛊惑者才能用这个模子,况兼每分钟只可调用 20 次。

至于 API 的调用戒指,o1-preview 每周只可调用 30 次,o1-mini 每周可以调用 50 次。这种戒指是按周来算的,不是按小时或分钟。

功能方面,现时的 o1 模子还弗成援助扫数的功能,比如贯串图片、生成图片、评释代码、网页搜索等。是以,用户现时只可用它来进行基本的对话。

官方还说:

天然现时 o1 模子资本较高,使用也有限,但跟着时候发展和 OpenAI 的束缚矫正,瞻望将来会有更多用户能使用到这个模子,资本也可能会缩小。

不管岂肯说,AI 越来越像东谈主相通"三念念尔后行"了,至于这个模子,谁会付费呢?谁又能为它支付 1000 好意思金呢?有时,只消大公司、盘问机构、有特定需求的专科东谈主士才能承担得起。

那到时候,真就成了用钱请了一个" AI 大众",是以,AI 会替代大众吗?

转头‍

越来越像东谈主的模子。

谁也猜不到,昔时的 o1-preview(mini)会发展成什么样,至少,它详情不会是个普通的 GPT。

它会发展成具身智能吗?有这个可能。跟着时候束缚率先,o1-preview(mini)很不详率会改造一些行业的运作方式。

本文来自微信公众号:王智远,作家:王智远



友情链接:

Powered by 香港奇案之强奸 @2013-2022 RSS地图 HTML地图

Copyright Powered by365站群 © 2013-2024