让AI赋能专业,用软件服务网友
全站绿色,Ctrl+D 快捷收藏网站

红杉中国发布xbench,全球首家投资机构定义的AI基准测试


5月26日消息,红杉中国于今天正式推出一款全新的AI基准测试工具xbench(xbench.org),并发布论文《xbench: Tracking Agents Productivity, Scaling with Profession-Aligned Real-world Evaluations》。
首期发布包含两个核心评估集:科学问题解答测评集(xbench-ScienceQA)与中文互联网深度搜索测评集(xbench-DeepSearch),并对该领域主要产品进行了综合排名。同期提出了垂直领域智能体的评测方法论,并构建了面向招聘(Recruitment)和营销(Marketing)领域的垂类Agent评测框架。评测结果和方法论可通过xbench.org网站实时查看。

赞(0) 打赏
📝版权声明:本文采用知识共享 署名4.0国际许可协议 [BY-NC-SA] 进行授权
📌文章名称:《红杉中国发布xbench,全球首家投资机构定义的AI基准测试》
📌文章链接:https://www.fsgameo.com/breaking-news/7723.html
⚠须知:本站资源仅供个人学习交流,请于下载后24小时内删除,不允许用于商业用途,否则法律问题自行承担。

评论 抢沙发

觉得文章有用就打赏一下文章作者

非常感谢你的打赏,我们将继续提供更多优质内容,让我们一起创建更加美好的网络世界!

支付宝扫一扫

微信扫一扫

请在浏览器中打开