让AI赋能专业,用软件服务网友
全站绿色,Ctrl+D 快捷收藏网站

【MiniMax发长文回应“模型无法说出马嘉祺”】

5月9日消息,MiniMax官微发长文回应M2系列模型无法说出马嘉祺一事,提供了对“嘉祺识别”问题的完整排查过程和技术思考。
MiniMax表示,其从分词器版本对齐、embedding统计分布、语义近邻检索、预训练与后训练模型的few-shot对比实验、后训练数据频次统计以及对全词表lm_head变化幅度的排序扫描等多个维度进行了排查。最终定位到的原因是:“嘉祺”在分词器中被合并为一个独立token,但该token在后训练数据中出现频次极低,导致模型在后训练中逐渐遗忘了对该token的生成能力。
修复方案方面,MiniMax构造了一份覆盖全词表的合成数据,核心思想是:通过一个简单的复读任务,为全词表建立一个生成频率的“下限保障”,防止任何token因为完全缺失而退化。此外,MiniMax表示,将token覆盖度作为后训练数据质量的一项常规监控指标,可以在早期发现潜在的稀疏token退化风险,避免类似问题在线上复现。(广角观察)

    赞(0) 打赏
    📝版权声明:本文采用知识共享 署名4.0国际许可协议 [BY-NC-SA] 进行授权
    📌文章名称:《【MiniMax发长文回应“模型无法说出马嘉祺”】》
    📌文章链接:https://www.fsgameo.com/breaking-news/13664.html
    ⚠须知:本站资源仅供个人学习交流,请于下载后24小时内删除,不允许用于商业用途,否则法律问题自行承担。

    评论 抢沙发

    觉得文章有用就打赏一下文章作者

    非常感谢你的打赏,我们将继续提供更多优质内容,让我们一起创建更加美好的网络世界!

    支付宝扫一扫

    微信扫一扫

    请在浏览器中打开