【GLM5.2在长周期商业模拟评测中荣升第二,Kimi及Minimax 新版表现分化】金色财经报道,Andon Labs 发布的最新 Vending-Bench 2 评测显示,开源模型 GLM 5.2 成功夺得第二名。评测通过代码模拟了自动贩卖机企业为期 365 天的虚拟运营,每天向模型输入当前的库存和财务数据,并由模型调用接口进行进货、定价等决策,旨在评估大语言模型在长期任务中的决策连贯性。数据分析显示,GLM 历代版本在评测中的表现呈现出极强的线性增长趋势,平均每月利润表现提升近 1000 美元(其中 GLM 5 平均得分为 4432 美元,GLM 5.1 提升至 5634 美元)。
与 GLM 的稳定进步相比,其他主流国产模型在最新版本中表现各异。Kimi K2.7 Code 在评测中的表现较前代 Kimi K2.6 有所下滑。Minimax M3 的表现相比前代 M2.5 取得了显著提升,但整体盈利水平仍大幅落后于 Kimi 和 GLM 系列模型。

原文链接:https://x.com/andonlabs/status/2070203811776614590

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。