欧易

您数字货币与 Web3的直通车

数字货币交易和 Web3 - 为您轻松实现

欧易交易所
当前位置:首页-资讯-详情

OpenAI发布全新BrowseComp基准测试,AI在线搜索能力再升级

2025年4月11日,OpenAI宣布开源了一个全新的基准测试工具——BrowseComp。该工具专为评估AI代理在互联网上查找难以获取信息的能力而设计。测试的目的是模拟AI在复杂信息网络中进行“在线寻宝”的过程,挑战AI代理在面对高难度、需要深入搜索的题目时的表现。测试中包含了1266个极具挑战性的题目,涵盖了影视、科技、历史等多个领域,测试难度显著高于现有的标准测试,如SimpleQA等。这些问题虽然答案较难寻找,但一旦找到,验证过程却相对容易。

OpenAI推出的这个基准测试旨在推动AI技术,特别是AI代理在处理复杂信息时的能力。为了让AI代理能够在互联网上高效地获取难以直接找到的信息,BrowseComp测试强调了信息检索的精准性以及深度。测试设计中的问题虽然各异,但都要求AI代理通过浏览网络、分析信息并做出判断来获得答案。这种类型的挑战远比现有的测试更能考验AI的实际应用能力,也为未来更智能的AI系统发展提供了重要的数据支持和研究基础。

根据AIGC开放社区的消息,BrowseComp的难度相当高,连OpenAI自家的GPT-4o和GPT-4.5模型也仅能取得约0.6%和0.9%的准确率,这表明即使是当前最先进的模型也面临着巨大的挑战。即便是在具备浏览器功能的GPT-4o上,准确率也仅为1.9%。这一数据凸显了AI在面对复杂网络环境时所需的精准度和灵活性。然而,OpenAI最新发布的Agent模型Deep Research在此测试中的表现显著优于其他模型,准确率高达51.5%。这表明,通过不断优化和训练,AI代理在复杂信息环境中的能力得到了显著提升,尤其是在搜索和信息整合方面展现出强大的潜力。

BrowseComp的推出不仅是对AI代理能力的一次重要挑战,也是AI技术发展中的一次重大突破。随着这些基准测试的出现,AI技术将在越来越多的实际应用场景中发挥重要作用,特别是在需要跨领域整合信息、快速获取解决方案的任务中。OpenAI通过这种高难度的测试,不仅推动了AI在处理复杂信息时的创新,还为未来更为智能的AI系统奠定了基础。 ​

相关报道

BNB Chain 2025年首季表现强劲:网络收入激增,技术与安全双升级 2025-04-30

BNB Chain 2025年首季表现强劲:网络收入激增,技术与安全双升级

2025年第一季度,BNB Chain 交出了一份令人瞩目的成绩单。据区块链研究机构 Messari 发布的生态报告显示,BNB Chain 在多个关键指标上均实现显著增长,表现出强劲的网络活力和持续的技术迭代能力。

Read More
TON推出TON Factory平台,加速高吞吐量应用开发 2025-04-30

TON推出TON Factory平台,加速高吞吐量应用开发

2025年4月30日,据Cointelegraph报道,Telegram相关联的区块链项目The Open Network(TON)宣布推出TON Factory平台,旨在加速高吞吐量应用的开发和扩展。

Read More
特朗普家族加密项目WLFI突增10亿USD1,引发市场热议 2025-04-30

特朗普家族加密项目WLFI突增10亿USD1,引发市场热议

2025年4月,据链上数据追踪显示,与特朗普家族有关的加密项目WLFI在今晨突然增发了约10亿枚名为USD1的稳定币,引发了加密社区的广泛关注。

Read More
ESMA发布加密资产市场反滥用监管指南,三个月后全面实施 2025-04-30

ESMA发布加密资产市场反滥用监管指南,三个月后全面实施

2025年4月30日,欧洲证券和市场管理局(ESMA)正式发布了《加密资产市场反滥用监管最终指南》。

Read More
萨尔瓦多推出儿童金融知识课程 强调比特币教育 2025-04-30

萨尔瓦多推出儿童金融知识课程 强调比特币教育

2025年4月30日,萨尔瓦多教育部宣布与比特币办公室以及Lina Seiche的“小小持币者”(The Little HODLer)项目合作,推出一项面向7至13岁儿童的金融知识普及项目《What Is Money?》。

Read More
CBOE推出新型比特币期货合约 提供多功能风险管理工具 2025-04-30

CBOE推出新型比特币期货合约 提供多功能风险管理工具

2025年4月30日,芝加哥期权交易所(CBOE)宣布推出其新型Cboe富时比特币指数期货合约,标志着比特币金融产品市场的又一重要创新。

Read More

立即创建 账号,开始交易!

创建账号