微软新探索:音生图AI,实时视觉化会议场景?

   发布时间:2024-10-15 16:03 作者:顾青青

近日,科技媒体MSPoweruser报道了一项微软新获得的专利,该专利描述了一种能够根据用户实时语音输入生成图片的技术。据悉,这项专利于2023年4月5日提交申请,并于10月10日获得美国商标和专利局的批准,共计20页。

根据专利描述,这一创新系统能够在会议或讲座中实时捕捉音频,通过语言模型进行总结,并据此生成相应的AI图像,以增强视觉沟通效果。

具体工作流程包括三个步骤:首先,用户通过麦克风发言,系统实时记录并转化为文本;其次,分段记录文本,并通过语言模型对每段内容进行总结;最后,根据这些总结生成的提示,系统创建并实时显示AI生成的图像。

预计这一功能将主要应用于Microsoft Teams平台。随着演讲者话题的变化,实时生成的图像也会随之更新,有助于澄清概念,尤其适合需要视觉辅助学习的用户。

微软表示,这种创新技术不仅能够提升沟通效率,还能为学习者提供更加直观、生动的视觉辅助,有望在未来的在线会议和教育领域发挥重要作用。

 
 
更多>同类内容
全站最新
热门内容
本栏最新
 
智快科技微信账号
ITBear微信账号

微信扫一扫
加微信拉群
电动汽车群
科技数码群