5月23日电 豆包APP今日正式推出实时视频通话功能。当用户在电话界面激活视频画面后,该应用可通过其搭载的视觉理解模型与使用者展开即时交互。在旅行场景中开启视频对话时,用户能够直接向豆包询问当前所在景点的历史渊源、文化特色及游览路线等实用信息。
这一创新功能依托于最新升级的豆包视觉理解模型构建而成。该模型不仅具备强大的内容识别、逻辑推理及语言描述能力,在处理图像数据时更能实现跨模态智能交互:既能同步解析视觉元素与语音指令完成多维度任务处理与智能创作;又可执行复杂计算工作如解答高等数学题目;解析学术论文中的复杂图表;甚至针对用户提供的真实代码片段进行故障排查与优化建议。
值得关注的是,在对话过程中该系统特别引入了实时联网搜索技术。通过即时调取网络最新数据流资源库的方式有效提升了交互应答的精准度和时效性保障了信息获取的前沿性与实用性。