欧易

您数字货币与 Web3的直通车

数字货币交易和 Web3 - 为您轻松实现

欧易交易所
当前位置:首页-资讯-详情

OpenAI发布全新BrowseComp基准测试,AI在线搜索能力再升级

2025年4月11日,OpenAI宣布开源了一个全新的基准测试工具——BrowseComp。该工具专为评估AI代理在互联网上查找难以获取信息的能力而设计。测试的目的是模拟AI在复杂信息网络中进行“在线寻宝”的过程,挑战AI代理在面对高难度、需要深入搜索的题目时的表现。测试中包含了1266个极具挑战性的题目,涵盖了影视、科技、历史等多个领域,测试难度显著高于现有的标准测试,如SimpleQA等。这些问题虽然答案较难寻找,但一旦找到,验证过程却相对容易。

OpenAI推出的这个基准测试旨在推动AI技术,特别是AI代理在处理复杂信息时的能力。为了让AI代理能够在互联网上高效地获取难以直接找到的信息,BrowseComp测试强调了信息检索的精准性以及深度。测试设计中的问题虽然各异,但都要求AI代理通过浏览网络、分析信息并做出判断来获得答案。这种类型的挑战远比现有的测试更能考验AI的实际应用能力,也为未来更智能的AI系统发展提供了重要的数据支持和研究基础。

根据AIGC开放社区的消息,BrowseComp的难度相当高,连OpenAI自家的GPT-4o和GPT-4.5模型也仅能取得约0.6%和0.9%的准确率,这表明即使是当前最先进的模型也面临着巨大的挑战。即便是在具备浏览器功能的GPT-4o上,准确率也仅为1.9%。这一数据凸显了AI在面对复杂网络环境时所需的精准度和灵活性。然而,OpenAI最新发布的Agent模型Deep Research在此测试中的表现显著优于其他模型,准确率高达51.5%。这表明,通过不断优化和训练,AI代理在复杂信息环境中的能力得到了显著提升,尤其是在搜索和信息整合方面展现出强大的潜力。

BrowseComp的推出不仅是对AI代理能力的一次重要挑战,也是AI技术发展中的一次重大突破。随着这些基准测试的出现,AI技术将在越来越多的实际应用场景中发挥重要作用,特别是在需要跨领域整合信息、快速获取解决方案的任务中。OpenAI通过这种高难度的测试,不仅推动了AI在处理复杂信息时的创新,还为未来更为智能的AI系统奠定了基础。 ​

相关报道

ETH回调显买入良机,机构加持助推2025年底突破 2025-06-14

ETH回调显买入良机,机构加持助推2025年底突破

2025年,以太坊(ETH)在经历一段时间的价格调整后,正显现出极具战略意义的买入机会。技术图形和链上数据综合显示,ETH价格在2100美元至2200美元区间的下探应被视为逢低吸纳的关键时点。

Read More
Solana现货ETF呼之欲出,多家机构更新S-1文件引发市场热议 2025-06-14

Solana现货ETF呼之欲出,多家机构更新S-1文件引发市场热议

2025年6月,美国加密资产市场迎来重要进展。据多方监管文件披露,多家知名金融机构已于本周五提交更新版S-1注册声明,力图推进Solana现货交易所交易基金(ETF)的上市流程。

Read More
SEC再迎人事调整,加密监管趋向务实转型 2025-06-14

SEC再迎人事调整,加密监管趋向务实转型

2025年6月13日,美国证券交易委员会(SEC)宣布了四项关键人事任命,其中最引人注目的,是与数字资产监管直接相关的两项高层人事变动。

Read More
巴基斯坦利用2000兆瓦剩余电力发展比特币挖矿与AI技术 2025-06-13

巴基斯坦利用2000兆瓦剩余电力发展比特币挖矿与AI技术

巴基斯坦近期宣布一项创新性能源与技术结合计划,决定利用全国范围内多达2000兆瓦的剩余电力资源,投入到比特币挖矿和人工智能(AI)开发等新兴技术领域。

Read More
Polkadot拟设比特币战略储备 提升国库稳定性与抗风险能力 2025-06-13

Polkadot拟设比特币战略储备 提升国库稳定性与抗风险能力

2025年6月13日消息,Polkadot社区内一项关于设立比特币战略储备的提案引发广泛关注。

Read More
World Liberty Financial接入OKX Wallet,拓展DeFi用户链上体验 2025-06-13

World Liberty Financial接入OKX Wallet,拓展DeFi用户链上体验

据官网最新信息显示,去中心化金融平台World Liberty Financial(WLF)已正式接入OKX Wallet。

Read More

立即创建 账号,开始交易!

创建账号