
开云「中国」Kaiyun官网登录入口发达得比之前的顶级大模子还要好-开云「中国」Kaiyun官网登录入口
新闻
还难忘 OpenAI 前首席科学家伊利亚·苏茨克维(Ilya Sutskever)在 2024 年神经信息处理系统大会(NeurIPS开云「中国」Kaiyun官网登录入口,Neural Information Processing Systems)上的“预磨砺行将斥逐”发言吗?他之是以这么说是因为:互联网上扫数有用数据齐将被用来磨砺大模子。 这个经由也被称为预磨砺,包括 ChatGPT 等在内的大模子均要经过这一设施武艺“出炉”。 不外,由于现存互联网数据或将被花费殆尽,因此伊利亚露出这个期间
详情

还难忘 OpenAI 前首席科学家伊利亚·苏茨克维(Ilya Sutskever)在 2024 年神经信息处理系统大会(NeurIPS开云「中国」Kaiyun官网登录入口,Neural Information Processing Systems)上的“预磨砺行将斥逐”发言吗?他之是以这么说是因为:互联网上扫数有用数据齐将被用来磨砺大模子。
这个经由也被称为预磨砺,包括 ChatGPT 等在内的大模子均要经过这一设施武艺“出炉”。
不外,由于现存互联网数据或将被花费殆尽,因此伊利亚露出这个期间“无疑将扫尾”。
然而,大多数业界东谈主士并未因此感到心焦,这是为什么?谜底不错先从最近火到大洋此岸的中国大模子 DeepSeek V3 提及。

曾在谷歌旗下公司 DeepMind 实习过的好意思国加州大学伯克利分校博士生查理·斯内尔(Charlie Snell)相配关心 DeepSeek V3,他不仅在 X 上转发了 DeepSeek V3 的干系本色,还故意问了问 OpenAI 里面东谈主士关于 DeepSeek V3 的主张。
OpenAI 里面东谈主士告诉斯内尔,DeepSeek 团队可能是第一个复现 OpenAI o1 的团队,然而 OpenAI 的东谈主也不知谈 DeepSeek 是若何兑现快速复现的。
好意思国科技博客 TechCrunch 的一份评释也表露,DeepSeek 可能使用了 OpenAI o1 的输出来磨砺我方的 AI 模子,更遑急的是 DeepSeek V3 在行业基准测试中发达也十分出色。
这证据,若是 OpenAI o1 模子的输出优于该公司的 GPT-4 模子,那么表面上 o1 的输出本色就能被用于磨砺新的大模子。
比如说:假定 o1 在特定的 AI 基准上得回 90% 的分数,若是将这些谜底输入 GPT-4,那么它的分数也能达到 90%。
假如你有无数的提醒词,那么就能从 o1 中得回一堆数据,从而创建无数新的磨砺示例(数据),并能基于此预磨砺一个新模子,或者赓续磨砺 GPT-4 从而让它变得更好。
因此,斯内尔怀疑 AI 推理模子的输出照旧被用于磨砺新模子,并觉得这些合成数据很有可能比互联网上的已稀有据更好。

事实上,2024 年 8 月,当斯内尔还在 DeepMind 实习的时候,他和相助者发了一篇题为《彭胀模子测试时辰推断打算比彭胀模子参数更灵验》(Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters)的论文,在这篇论文中斯内尔照旧针对“预磨砺行将斥逐”的问题给出了料理决议。
盘问中,斯内尔等东谈主揭示了测试时辰推断打算(test-time compute)这一战略的公正。测试时辰推断打算战略,是一种通过峰值数据墙(peak-data wall)来让大模子得到合手续迭代的潜在递次。
该技能能将查询分割成更小的任务,将每个任务齐酿成能被大模子处理的新提醒。
其中,每一步齐需要启动一个新恳求,在 AI 边界这被称为推理阶段。在一系列的推理中,问题的每个部分齐能得到料理。在莫得得到正确本色或莫得得到更好本色之前,模子不会干预下一阶段。
盘问期间,斯内尔和相助者将格外测试时辰推断打算(additional test-time compute)的输出用于索求基础模子,从而让模子兑现自我转换,借此发现新模子在数学任务和具有明确谜底的任务中,发达得比之前的顶级大模子还要好。
因此,假如将这些更高质地的输出看成新的磨砺数据,就能让已有大模子生成更好的轨则,或者平直打造出更好的大模子。
而他当初之是以和相助者开展这项盘问,亦然发现数据供应有限这一问题不容了预磨砺的赓续彭胀。
他露出,若是能让大模子使用格外的推理时辰推断打算(extra inference-time compute)并普及其输出,那么这就是让它生成更好的合成数据的一种模式。这就等于创举了一个寻找磨砺数据的新着手,或能料理现时的大模子预磨砺数据瓶颈问题。

那么,斯内尔具体是若何开展这项盘问的?盘问中,斯内尔等东谈主针对彭胀测试时辰推断打算的不同递次进行了系统分析,旨在进一步普及彭胀测试时辰推断打算的效力。
在彭胀测试时辰推断打算这一递次中,最简陋的、亦然此前被盘问得最久了的递次即是“N 选最好采样”,即从基础大模子中“并行”抽样 N 个输出,并笔据学习到的考据器或奖励模子,聘请得分最高的输出。
关联词,这种递次并不是使用测试时辰推断打算来转换大模子的惟一递次。为澄清解彭胀测试时辰推断打算的公正,斯内尔等东谈主使用故意微调的 PaLM-2 模子针对难度较高的 MATH 基准开展执行。
期间他和相助者用到了如下两个递次:第一个递次是修改不正确的谜底,第二个递次是使用基于经由的奖励模子来考据谜底中各个设施的正确性。
通过这两种递次,斯内尔等东谈主发现特定测试时辰推断打算战略的灵验性在很猛进度上取决于以下两点:其一,取决于手头特定问题的性质;其二,取决于所使用的基础大模子。
针对测试时辰推断打算彭胀战略(test-time compute scaling strategy)加以转换之后,斯内尔等东谈主但愿了解测试时辰推断打算到底不错在多猛进度上替代格外的预磨砺。
于是,他和相助者在具有格外测试时辰推断打算的较小模子和预磨砺 14 倍大的模子之间进行了浮点运算数匹配比拟。
轨则发现:无论是在简陋问题、中等难度问题照旧在高难问题上,格外的测试时辰推断打算战略齐比彭胀预磨砺递次愈加可取。
这证据,与其仅仅关心彭胀预磨砺,在某些情况下使用较少的推断打算针对小模子开展预磨砺会更灵验,况兼不错使用测试时辰推断打算战略来普及模子输出。
也就是说,彭胀测试时辰推断打算照旧比彭胀预磨砺更为可取,况兼跟着测试时辰战略的练习,只会取得更多的转换。
从长期来看,这示意着将来在预磨砺期间破耗更少的浮点运算数(算力),而在推理中破耗更多的浮点运算数(算力)。

无稀零偶,就连微软 CEO 萨蒂亚·纳德拉(Satya Nadella)也抒发了访佛的不雅点,他在近期一则视频播客中将推理时辰推断打算战略描述为“另一个彭胀定律(scaling law)”。
纳德拉觉得这是一种提遒劲模子智商的好递次:当进行预磨砺的时候,进行测试时辰采样之后,就能创建不错从头用于预磨砺的 tokens,从而约略创建更遒劲的模子,进而启动推理。
毫无疑问,2025 年,这种递次将领受更多磨真金不怕火,至于轨则若何当今还需要从更多大模子身上加以考据。
参考府上:
https://www.businessinsider.com/ai-peak-data-google-deepmind-researchers-solution-test-time-compute-2025-1
https://medium.com/@EleventhHourEnthusiast/scaling-llm-test-time-compute-optimally-can-be-more-effective-than-scaling-model-parameters-19a0c9fb7c44
https://arxiv.org/pdf/2408.03314
运营/排版:何晨龙
