【MiniMax发长文回应“模型无法说出马嘉祺”】-AI快讯

5月9日消息，MiniMax官微发长文回应M2系列模型无法说出马嘉祺一事，提供了对“嘉祺识别”问题的完整排查过程和技术思考。
MiniMax表示，其从分词器版本对齐、embedding统计分布、语义近邻检索、预训练与后训练模型的few-shot对比实验、后训练数据频次统计以及对全词表lm_head变化幅度的排序扫描等多个维度进行了排查。最终定位到的原因是：“嘉祺”在分词器中被合并为一个独立token，但该token在后训练数据中出现频次极低，导致模型在后训练中逐渐遗忘了对该token的生成能力。
修复方案方面，MiniMax构造了一份覆盖全词表的合成数据，核心思想是：通过一个简单的复读任务，为全词表建立一个生成频率的“下限保障”，防止任何token因为完全缺失而退化。此外，MiniMax表示，将token覆盖度作为后训练数据质量的一项常规监控指标，可以在早期发现潜在的稀疏token退化风险，避免类似问题在线上复现。（广角观察）

【MiniMax发长文回应“模型无法说出马嘉祺”】

相关推荐

评论抢沙发

热门软件

热门AI工具

热门标签

觉得文章有用就打赏一下文章作者

非常感谢你的打赏，我们将继续提供更多优质内容，让我们一起创建更加美好的网络世界！

支付宝扫一扫

微信扫一扫