Archer®证实在法规变更管理方面,专用AI全面超越通用大模型:验证准确率95%、提速80倍、降本92%

对于在合规领域部署AI的企业而言,一个错误日期就意味着错过合规截止期限。更危险的故障是模型返回高置信度的错误答案,该答案会悄无声息地流入合规日历,直到时间窗口已过才被发现。Archer® 今日发布的测试结果表明,在处理监管业务时,专用型AI完胜通用大模型(LLM),且优势不可同日而语。在这项强强对决的基准测试中,双方围绕一项核心合规任务展开对决:判定六个司法管辖区内监管文件的发布日期、生效日期以及意见征集截止日期。测试的一方是Archer依托专有数据集打造的垂直领域专用AI,另一方则是某款领先的通用大模型。

通用模型是一项真正的突破,此次测试绝非对其质量的全面否定。Archer旨在解答的问题更为具体且务实:即如何在大规模应用中,确保特定的高风险判定既可靠、快速,又具成本效益。植根于专家验证知识库的垂直、行业聚焦型业务流程,能够在这三个维度上同时胜出。

准确率:错误答案减少90%

在同一批55份文件的测试中,该通用大模型的错误率高达56%。更糟糕的是,模型的高置信度反而起到了反作用。在那些被它评为高置信度的答案中,依然有35%是错误的。相比之下,使用Archer Evolv,超过95%的判定都能直接通过系统验证,其余少数则会在投入使用前路由分发给专家进行人工审核。最终,没有一个错误的日期进入生产系统,真正做到了“无验证,不交付”。

样本文档的处理结果

通用大型语言模型(LLM)流程

Archer Evolv

正确

44%

95%已验证,5%经专家审核

错误,但被判定为有效

25%

0%

失败或超时

31%

0%

模型自身的置信度绝不能等同于合规控制。在通用大模型标注为高置信度的答案中,仍有35%是错误的。这种准确率上的鸿沟,正是负责任地部署智能体AI的先决条件,因为自动化运行的智能体,其可靠性完全取决于其底层判定的准确度。唯有经过验证、源头可追溯且由专家监管的答案,才能确保AI智能体在整个企业级架构中得到安全部署。这正是AI治理的核心所在,也是Archer致力于提供的关键架构层。

Archer首席产品与技术官Kayvan Alikhani表示:“在合规领域,快捷、廉价却错误的答案毫无价值,而无法追溯源头的答案则是一场灾难。Archer的专用型AI实现了超95%判定的实时验证。这正是让企业能够在不失去结果控制权的情况下,扩展智能体AI的基础。”

速度:实时验证答案

根据测试要求,通用大模型的处理流程在5秒的超时限制内,平均每条响应需耗时约4秒。而Archer Evolv在处理重复查询时,仅需约五百分之一秒即可交付经过验证的日期,速度提升了约80倍。对于需要紧跟监管日程步伐的AI智能体和合规分析师而言,这正是并驾齐驱与沦为效率瓶颈之间的天壤之别。

成本:一个持久且经过验证的知识库,而非按需推理

通用模型的处理流程在面对每一次请求时都要重新计算答案,对之前找到的结果毫无记忆。而Archer Evolv则在数据摄入时仅计算一次,并将验证后的结果写入可扩展且由专家监管的知识库中进行持久化存储,从而能以极低的成本和延迟满足未来的每一次查询。当法规发生修订时,Evolv会主动捕捉这一变更,重新进行验证并对更新后的答案进行版本化管理。因此,系统交付的任何内容都绝不存在滞后。以一个包含500份文件的语料库为例,若每份文件每月被查询12次,通用流程需要进行6,000次计算判定,而Evolv仅需500次。Archer Evolv由此避免了约92%的推理调用,这种结构性成本优势还会随着业务量的增长而进一步扩大。

上下文语境让这一切成为可能

Archer Evolv的优势正是源于对上下文语境的深度把握:在任何AI运行之前,它都会先评估该企业的司法管辖区、产品线、业务单元、风险特征以及监管主题,从而确保每一项合规判定都紧密植根于该企业的切身利益。这正是“一个普通答案”与“一个具备可抗辩性的确定答案”之间的本质区别。企业部署的智能体越多,这块基石的价值就越发彰显——因为每一个智能体都直接继承了这套经过验证、源头可追溯的底层逻辑,而无需每次都白手起家地去重新推演整个世界。

Archer首席执行官Bill Diaz表示:“未来十年能够胜出的SaaS企业,会将特定领域的专用AI与通用大模型无法复制的、垂直行业所独有的背景信息相结合。这才是企业的护城河,而且它会产生复利效应。这次测试就是最好的证明。”

关于Archer

Archer助力全球领先企业管理风险、合规及监管变化。目前已有超过1,300家组织采用Archer平台,其中包括半数《财富》500强企业以及全球前50大银行中的37家。全球每六分钟就会出台一项新的监管变化,而智能体AI的发展速度已超过了大多数团队管理这些变化的能力。Archer专为GRC领域打造的AI基于最深入的监管数据和专业领域知识,因此每项结果都能追溯至其来源,每项决策都经得起推敲。Archer提供涵盖GRC全领域的解决方案,包括监管变更管理、AI风险管理、监管情报、第三方风险以及IT和安全风险。

文章来源用户投稿,转载请注明出处:/hangye/64993.html