声网刘斌：RTE如何成为生成式AI时代的基础设施关键？

发布时间：2024-12-20 15:31 来源：ITBEAR 作者：唐云泽

在近日由量子位主办的MEET2025智能未来大会上，声网的COO刘斌发表了精彩的主题演讲，深入探讨了实时多模态趋势下，RTE（实时互动引擎）如何推动AI Agent应用的落地，并展望了其在生成式AI时代中的基础设施角色。

刘斌首先提及了两个重要事件：今年10月，声网的关联公司Agora作为语音API合作伙伴，出现在OpenAI发布的Realtime API公开测试版中；而在同月的RTE2024实时互联网大会上，声网宣布正与MiniMax共同研发国内首个Realtime API。这两个事件标志着大模型交互正快速向实时多模态发展。

刘斌指出，多模态模型的推出，改变了传统的纯文本交互方式，实现了从异步到实时双工交互的飞跃。然而，在实际应用中，用户设备往往无法保持在固定的网络与物理环境下，这对大模型实时语音对话中的低延时传输、网络优化等提出了挑战。模型交互中的智能打断和主动交互能力也是用户关心的重点，这要求不仅有强大的模型能力，还需要端到端的技术支持。

作为全球实时互动云行业的开创者，声网凭借在音视频领域的深厚积累，将RTE与生成式AI相结合，推出了声网Conversational AI Agents，旨在帮助开发者和企业快速构建适配自身业务场景的AI实时语音对话服务。通过自研的SD-RTN™实时传输网络，声网实现了全球范围内的低延时音视频传输，语音对话延迟低至500ms，并通过一系列技术手段保证了对话的实时性和流畅性。

在支持智能打断方面，声网自研的AI VAD技术能够适应人类对话的停顿、语气和节奏，支持对话过程中的随时打断。同时，声网的解决方案还优化了AI角色，保留了情绪情感等关键信息，提供了超拟人的真实音色，丰富了通话体验。

声网的音视频SDK经过不断迭代升级，能够支持30多个平台框架、30000多种终端机型及各种操作系统，包括各类IoT设备终端。在音频处理方面，声网具备业界领先的音频3A能力，提供AI回声消除、AI智能降噪等自研音频技术，确保在嘈杂环境中AI对话不受影响。

在与大模型厂商的合作中，声网发现现有RTE技术栈和基础设施仍有改进空间。刘斌表示，只有不断演进，大模型才能在各种场景和形态下大规模参与人的语音对话，并基于云、设备端、边缘等多维度进行参与和协作。基于这些能力的改进和普及，未来RTE将成为生成式AI时代AI基础设施的关键部分。

刘斌还介绍了声网的AI RTE产品矩阵，包括Linux Server SDK、AI VAD能力、AI Agent Service等，都在进行补充与优化。他展示了声网的RTE+AI能力全景图，包括RTE+AI生态能力、声网AI Agent、Conversational AI Agents解决方案等，全面展现了声网对RTE+AI的整体思考和布局。