ThinkSound：阿里通义开源的AI音频生成模型-AI工具

ThinkSound 是什么？

ThinkSound是阿里通义旗下首个开源的音频生成模型。其核心创新之处在于，它首次将CoT（思维链）技术应用于音频生成领域。通过多模态大语言模型（MLLM）与音频生成模型的协同工作，ThinkSound具备了“像专业音效师一样思考”的能力。它打破了传统“看图配音”的局限，能够基于画面事件逻辑，生成高保真、强同步的空间音频，为用户带来全新的音频体验。

ThinkSound 的主要特性

Any2Audio：ThinkSound的技术实现了跨模态的音频生成，无论是视频、文本、音频还是它们的组合，都能轻松转换为高质量的音频。
视频转音频方面，ThinkSound在多个V2A基准测试中均达到了目前最优的表现。借助CoT驱动的推理技术，它基于链式思维进行音频合成，使得音频的生成具有高度的可组合性和可控性。
交互式面向对象的编辑功能让用户能够通过点击视觉对象或输入文本指令，对特定声音事件进行精细的调整和编辑。
统一的框架设计意味着只需一个基础模型，即可支持音频的生成、编辑以及交互式工作流程。
全面开源策略使得模型权重、训练代码和Demo均对公众开放，极大地方便了开发者的二次开发与部署工作。