Kimi K2：月之暗面开源的MoE架构基础模型，内含万亿参数-AI对话聊天

Kimi K2是什么？

Kimi K2是由月之暗面Moonshot AI推出的一款开创性的大型开源语言处理模型。它采用了先进的Mixture-of-Experts架构，参数总量高达1万亿，其中包含32B的激活参数，能够支持长达128K的上下文处理。Kimi K2被原生设计用于实现“agentic intelligence”，这意味着它具备自主任务执行与工具调用的能力。通过使用自研的MuonClip优化器，Kimi K2在15.5T Token的数据上完成了稳定训练，不仅在效率上有所提升，更在性能上实现了质的飞跃。在编程、推理、数学等多个基准测试中，Kimi K2均取得了开源领域中的最高成绩，甚至在某些方面已经接近或超越了领先的商业模型。这些特性使得Kimi K2成为构建具备强大推理和操作能力的智能Agent的理想选择。

Kimi K2的主要特性

超大规模 MoE 架构：我们采用了拥有1万亿参数的Mixture-of-Experts架构，每次激活的参数量高达32B，这不仅实现了高效推理，还保证了出色的扩展性。
MuonClip 优化器：我们引入了自主研发的MuonClip优化器，有效解决了大模型训练中常见的稳定性问题。
原生工具调用能力：模型内置了工具调用机制，能够支持代码执行、API交互等复杂任务，并自主进行决策和执行。
强化学习调优机制：通过在仿真环境中应用强化学习（RLHF）训练，我们优化了工具的使用效果，增强了智能体的自主性和稳健性。
强悍的任务表现：在编程、数学、推理等多个基准测试中，我们的模型表现超越了同类开源模型，接近GPT-4的水平。
双模型版本支持：我们提供基础版（Base）和指令微调版（Instruct），以满足不同研究和应用的需求。
多样部署与兼容性：我们的模型支持vLLM、TensorRT-LLM等主流推理引擎，并兼容OpenAI和Anthropic的API调用格式。
开源透明可控：我们以MIT许可协议的变体形式开源了权重和代码，支持社区的参与以及本地私有化部署。