
IT Home在6月8日报道说,Apple Machine学习研究中心在6月6日当地时间发表了研究角色,并指出现有的AI模型没有真实的思维或推理技能,而是依靠模式和记忆匹配,尤其是对于复杂的任务。苹果研究人员将系统地回顾现有的“大趋势”,例如Openai O3-Mini,Deptseek-R1,Anthropic 3.7 Sonnet Thinker的Claude和Google Gemini的思想。研究发现,尽管这些模型具有“零精度”。此外,尽管仍有足够的计算模型推理过程的能力,但他们用来“思考”的代币数量肯定会减少贫困,这意味着现有理解方法存在主要局限性。本文“思考的幻想:从问题的复杂性的角度了解识别模型的优势和局限性”,由Parshin Shojaee等人撰写。研究表明当前对这些模型行业的评论集中在数学和编程的基准上,重点是最终答案的准确性,但它通常忽略了数据污染的问题,并且没有提供对内部推理轨迹的结构和质量的见解。研究人员采用了一系列贡献拼图解决环境,这些环境可以准确地操纵组成复杂性,同时保持逻辑结构的一致性。它不仅允许评估最终答案,而且还允许内部推理轨迹可以探索,从而更深入地了解这些模型如何“思考”。研究小组建议,模型性能可以分为三个阶段:低复杂的任务:传统的大型模型(Note of Home:如Claude-3.7没有思想版本)的表现更好;中复杂活动:具有思维机制的大型识别模型(LRM)更为主导;较高的任务复杂性:两种类型的模型都属于完全失败的状态。特别是,发现LRM在进行准确的计算方面存在局限性,在使用各种拼图中使用显算算法和推理时,不一致是无法反映的。一般而言,这项研究不仅基于既定的数学基准询问当前的LRMS范式,而且还强调需要进行更彻底的实验以进行探索这些问题。通过使用受控的拼图环境,本研究可深入了解语言理解模型的能力和限制,并指导未来研究的方向。研究人员说:“这些发现具有现有LRM的优势和限制,这引发了有关系统推理的性质的疑问,这在其设计和扩展中具有重要意义,”思维的幻想:了解:了解通过推理模型的优势和限制。问题的复杂性 - 苹果机器学习的研究