马斯克转发字节Seed&哥大商学院新基准:大模型搞金融,连查个股价都能出错
创始人
2025-09-21 13:11:37
0

允中 编辑整理

量子位 | 公众号 QbitAI

让AI像金融分析师一样搜索和分析数据,到底有多难?当前的大模型虽然能回答基础金融知识,在CFA考试中取得高分,但面对真实的金融场景,它们的表现究竟如何?

为了回答这个问题,字节跳动Seed团队联合哥伦比亚大学商学院推出了FinSearchComp,这是首个完全开源的金融搜索与推理基准测试。该基准包含635个金融专家精心设计的问题,覆盖全球和大中华两个市场,并在多个主流模型产品上进行了全面评测。

评测结果令人深思:

在全球数据集上,表现最好的Grok 4 (web)准确率达到68.9%,但仍落后人类专家6.1个百分点。在大中华区数据集上,豆包(web)虽然领先其他模型,但与人类专家88.3%的准确率相比,差距超过34个百分点。

这些数字清晰地表明,即使是最先进的AI系统,在处理复杂金融分析任务时仍有很大提升空间。

该基准测试发布后获得了业界的广泛讨论,马斯克也关注并转发。

学界专家们认为,这进一步凸显了金融AI能力评估在当前技术发展阶段的重要性和现实意义。

三类任务,递进式难度设计

金融分析是检验AI能力的绝佳试金石。分析师的日常工作涉及大量复杂的信息搜索和整合,从实时市场数据到历史财务披露,从新闻事件到监管文件,这些任务不仅要求时效性和精确性,还需要跨源信息整合和专业判断。

这些任务展现了金融搜索如何结合时效性、精确性和证据整合,使其成为评估AI是否能支持现实高风险决策的天然试验场。一个过时的数据、一个口径错误的数据、 一个非官方信息源的数据,都可能导致最终的决策失误。而完成这些,有依赖模型对搜索以及金融工具的使用。

FinSearchComp的研究团队精心设计了三类贴近分析师日常工作的任务,难度逐级递增。

时效性数据获取任务要求获取每日或日内变化的数据,如最新股价、汇率、黄金价格等,这类任务强调数据时效性搜索、多信息源判断。

简单历史查询任务需要查找固定时间点的事实,比如某公司2024财年的研发支出或TTM收入,关键挑战在于对齐报告惯例(财年、TTM、季度等单位),并确保单位和货币的一致性。

最具挑战性的是复杂历史调查任务,它要求进行多期聚合或综合分析。例如“过去10年标普500单月最大跌幅是哪个月”这样的问题,需要跨越长时间跨度检索数据、调整公司行为影响、标准化单位,并进行多步推理而不出错。

这种递进式的任务设计不仅反映了金融分析工作流程的实际复杂性,也为细粒度的错误分析提供了可能。

官方数据源、行业专家保证数据可靠性

为确保基准的质量和可靠性,FinSearchComp的构建得到了字节跳动Xpert平台的有力支撑。

Xpert是字节跳动旗下的专家级数据服务平台,致力于将各行各业专家的深度知识和丰富经验转化为高质量AI训练数据。该平台汇聚了数千名经过严格筛选的专家,包括来自985/211院校的硕博士学者以及拥有2-10年丰富实战经验的各行业专家。在FinSearchComp项目中,Xpert平台提供了70位金融专家的专业支持,包括50位标注专家和20位资深审核专家。这些专家均具有金融硕士以上学位,来自花旗、摩根大通、德意志银行、野村证券、中信证券、华泰证券等知名机构。

在数据源选择上,所有答案均来自高度可靠的渠道,包括上市公司官方披露、政府和监管机构网站以及专业金融数据库。团队采用多源交叉验证方法确保数据可靠性并消除歧义。例如,他们会将两个不同官方网站的数据进行交叉引用,或将专业金融数据库的数据与官方网站进行验证。

为了消除歧义,团队在问题中明确说明定义标准(如静态市盈率vs市盈率TTM),将答案设置为数值范围或定义容差精度,并尽可能避免容易产生追溯调整的指标。每个问题和答案都经过盲审机制的多重验证,由其他专家独立求解并比对结果。整个数据集构建过程耗时约240小时专家工时,充分保证了专业性和准确性。

评测发现:搜索能力是关键,金融插件有帮助,但还远远不够

首先是任务难度的递进性得到验证,所有模型的表现都从T1到T3单调递减,证明基准确实在测试越来越复杂的搜索和推理能力。T3任务需要跨异构源和时间段的多跳检索、时间推理、细粒度实体解析以及部分或冲突证据的协调,迫使系统进行规划、验证和综合,而不仅仅是检索。

地域特征也很明显。美国模型在全球数据集上领先,中国模型在大中华区数据集上表现更好。研究团队认为这主要归因于模型能力、以及产品所用工具的地区性,这些因素共同提升了“主场”性能

最引人注目的是搜索能力的关键作用。

配备网络搜索功能的模型在三个任务上分别获得40.8、29.0和8.1个百分点的巨大提升。没有搜索功能的模型在时效性任务上一律得分为0,因为它们无法检索当前金融数据。即使在T2和T3任务上,无搜索模型虽然能获得非零但很低的分数,这主要依赖于预训练时的参数记忆,但这些记忆往往过时或不准确。

此外,金融插件的价值也得到充分体现。在元宝平台上使用金融插件的DeepSeek R1比在DeepSeek官方网站上的版本表现提升了31.9个百分点。标准网络搜索功能可能产生过时的金融数据或无法检索最新信息,而专用金融插件提供对简单实时数据的直接访问,使模型能够生成更准确的摘要并减少错误的可能性。

这个基准不仅测试了AI的搜索能力,更重要的是揭示了构建可靠金融决策支持系统所需的关键能力差距。

据统计,美国约有37万金融专业人士,全球可能超过100万金融分析师每天都在执行这些信息检索任务。个人分析师每天执行10-30次简单历史查询,每次平均需要5-10分钟;而复杂历史调查虽然频率较低,但每次往往需要15-60分钟。

虽然标准化模板和自动化工具已经存在,但约有一半的信息检索活动仍然需要手动数据收集和重写模版开发。如果AI能够准确成这些任务,分析师可以进一步自动化这些流程,显著提升整体生产力。

这次评测也点明了一个现实:最强的AI在金融搜索上也只能及格。或许我们需要的不只是一个FinSearchComp,而是多个这样的行业级评测,构建起金融AI的完整“驾照考试体系”,让更多的金融AI产品来参与并证明自己的可靠性。毕竟,在AI能够精准完成这些任务之前,谁敢让它从copilot变成pilot?

Arxiv链接:https://arxiv.org/abs/2509.13160

Github链接:https://randomtutu.github.io/FinSearchComp/

Xpert专家平台榜单链接:https://xpert.bytedance.com/leaderboard

(本文封面由AI生成)

相关内容

热门资讯

A股有色金属板块冲高 每经AI快讯,有色金属板块冲高,中色股份、豫光金铅涨逾6%,西部材料、洛阳钼业、湖南黄金等涨幅居前。...
小红书矩阵号申请攻略:详细步骤... 小红书矩阵号申请全攻略 作为国内知名生活方式分享平台,小红书已成为品牌和个人扩大影响力的关键渠道。想...
原创 2... 2024年,全国各大城市的GDP榜单犹如一幅波澜壮阔的经济画卷,缓缓展开在世人面前,其中温州的异军突...
字节跳动 - 张一鸣的创业故事 张一鸣,一个80后的“技术宅”,在中国互联网行业中赫赫有名,作为字节跳动的创始人,他带领公司从一款新...
原创 银... 2025年银行迎来了新的一项变革,瞬间感觉到温暖了许多! 针对60岁及以上的老人提供了贴心的服务! ...
为什么许多小微企业选择助贷平台... 在现代社会,越来越多的个人和企业面临资金周转的问题,尤其是当银行贷款因信用记录不佳、缺乏担保或其它原...
贷款到账后,结果以“不是本人意... 明明都签了居间合同,贷款也帮客户拿到了,到收贷款中介费时,客户却以“《贷款居间合同》不是本人签署、协...
小红书账号如何更改领域?详细步... 如何调整小红书账号领域方向 在小红书运营过程中,许多创作者会遇到内容方向与个人定位不符的情况,及时调...
岭南控股(000524)202... 原标题:岭南控股(000524)2023年年报简析:营收净利润同比双双增长,应收账款上升 ...