谷歌与斯坦福研究:优化测试计算超越模型参数扩展
2024年9月19日消息,谷歌DeepMind团队于2024年8月6日发布的论文《优化 LLM 测试时计算比扩大模型参数规模更高效》探讨了在面对复杂问题时,大型语言模型(LLM)是否可以通过增加测试时的计算量来提升决策质量。研究结果表明,相比于扩展模型参数规模,增加测试时计算的效果更加显著。这一发现与OpenAI近期发布的o1模型原理有着类似之处。
测试计算与模型参数的对比
DeepMind的研究指出,通过增加测试时计算量(test-time compute),模型能够在推理过程中进行更多的中间步骤,从而逐步完善其思维过程和策略。这种方法有助于提升模型的整体性能,因为它允许模型在生成最终答案之前,先进行一系列的中间推理,尝试不同的策略,并且能够识别并纠正自身的错误。这一思路与OpenAI的o1模型相符,o1模型在给出答案之前,会先生成中间推理步骤,从而不断完善和优化其思维过程。
思维链技术的应用
此外,谷歌与斯坦福大学的研究人员在2024年1月发布的论文《思维链赋能 Transformer 解决本质上的串行问题》中,也提出了类似的观点。该论文探讨了“思维链”(Chain of Thought,简称CoT)技术,这种技术旨在突破Transformer模型在串行推理方面的限制。通过采用思维链技术,模型能够更高效地处理复杂问题,提升推理过程中的连贯性和准确性。
从模型参数扩展到硬件能力
这些研究成果表明,AI领域的大模型竞争正在从单纯的模型参数扩展转向更高效的测试时计算和硬件能力的提升。随着技术的发展,拥有更强大的算力已经成为在AI领域获得竞争优势的关键因素。例如,OpenAI近期宣布了其首款芯片计划,该芯片采用了台积电最新的A16级工艺,专为Sora视频应用打造。这一举措表明,大模型的竞争已经开始向硬件能力的扩展,未来的竞争将不仅限于模型的规模,还将涉及到硬件性能的提升。
总的来说,优化测试时计算和提升硬件能力正在成为AI大模型领域的新竞争点。这些进展不仅推动了模型性能的提升,也为未来AI技术的发展开辟了新的方向。