无问芯穹发布Megrez-3B-Omni:端侧全模态理解模型新突破!

   发布时间:2024-12-16 13:15 作者:钟景轩

近日,无问芯穹公司震撼发布了一项重大开源举措,将其端侧解决方案中的两大核心模型——全模态理解小模型Megrez-3B-Omni及其纯语言版本Megrez-3B-Instruct,向公众开放。

Megrez-3B-Omni被设计为专为终端而生的全模态理解模型,它集图片、音频、文本三种模态数据的处理能力于一身,展现了强大的跨模态融合能力。在图像理解领域,Megrez-3B-Omni在OpenCompass、MME、MMMU、OCRBench等多个主流测试集上脱颖而出,其精度令人瞩目。

在文本理解方面,Megrez-3B-Omni同样表现出色,它在C-eval、MMLU / MMLU Pro、AlignBench等多个权威测试集上取得了端上模型的最优精度,彰显了其在自然语言处理领域的卓越实力。

更令人赞叹的是,Megrez-3B-Omni在语音理解领域也展现出了强大的实力。它支持中文和英文的语音输入,能够处理复杂的多轮对话场景,还能对输入的图片或文字进行语音提问,实现了不同模态间的自由切换,为用户带来了前所未有的交互体验。

除了全模态理解小模型Megrez-3B-Omni外,无问芯穹还开源了其纯语言版本Megrez-3B-Instruct。据官方宣称,与上一代及其他端侧大语言模型相比,单模态版本的Megrez-3B-Instruct在推理速度上取得了显著提升,最大推理速度可以领先同精度模型300%,为用户提供了更加高效、快速的语言处理服务。

对于此次开源举措,无问芯穹表示,他们希望通过开放这两个核心模型,推动人工智能领域的技术创新和应用发展,为更多开发者提供强有力的技术支持和合作机会。同时,他们也欢迎广大开发者积极参与到模型的优化和应用中来,共同推动人工智能技术的不断进步。

 
 
更多>同类内容
全站最新
热门内容
本栏最新
 
智快科技微信账号
微信群

微信扫一扫
加微信拉群
电动汽车群
科技数码群