5月23日,豆包APP正式推出实时视频通话功能。当用户开启通话界面中的视频画面后,该应用可通过视觉理解模型与用户展开基于真实场景的智能问答交互。在旅行场景中,用户只需打开视频通话镜头对准周围环境,即可即时获取当前景点的历史渊源、特色亮点及游览路线建议等实用信息。
该功能依托最新研发的豆包视觉理解模型实现核心技术支撑。这款AI模型具备强大的视觉内容识别、逻辑推理及语言描述能力,在结合图像与语音输入信息的基础上可进行多维度深度分析与内容生成。除基础问答外,该模型还能执行多项复杂逻辑运算任务:包括解析高等数学微积分题目、解读学术论文图表数据、诊断计算机代码错误等高难度任务。
值得关注的是,在持续优化用户体验方面,豆包特别将联网搜索系统接入视频通话模块。通过即时抓取网络最新资讯数据流的方式,确保对话交互结果既保持高度准确性又具备时效价值保障。