Meta携手斯坦福，Apollo模型让AI视频理解能力大飞跃！

发布时间：2024-12-18 16:24 来源：ITBEAR 作者：唐云泽

近期，科技巨头meta与顶尖学府斯坦福大学携手合作，推出了一款名为Apollo的全新AI模型系列，这一突破性的进展显著提升了机器对视频内容的理解能力。

尽管近年来人工智能在图像和文本处理领域取得了长足的进步，但让机器真正“看懂”视频内容依然是一项极为复杂的挑战。视频中所蕴含的动态信息丰富且多变，这对人工智能的处理能力提出了极高的要求，不仅需要强大的计算能力作为支撑，更需要在算法设计上实现创新。

为了应对这一挑战，Apollo模型采用了创新的双组件设计。其中一个组件专注于处理视频中的每一帧图像，而另一个组件则负责追踪对象和场景随时间的变化。这一设计使得Apollo能够更准确地捕捉视频中的动态信息，从而提升对视频内容的理解。

在模型训练方面，meta与斯坦福大学的研究团队也进行了深入的探索。他们发现，训练方法的选择对于模型性能的提升至关重要。因此，Apollo模型采用了分阶段训练的策略，通过按顺序激活模型的不同部分，实现了比一次性训练所有部分更好的效果。

研究团队还优化了数据组合的比例，发现当文本数据占比在10%至14%之间，且其余部分略微偏向视频内容时，能够最好地平衡语言理解和视频处理能力。这一发现为Apollo模型在实际应用中的表现提供了有力的支持。

Apollo模型在不同规模上都展现出了出色的性能。其中，较小的Apollo-3B模型已经超越了同等规模的Qwen2-VL等模型，而更大的Apollo-7B模型则超过了参数更大的同类模型。这一卓越的表现使得Apollo模型在视频理解领域具有广泛的应用前景。

为了更好地推动Apollo模型的发展和应用，meta已经开源了Apollo的代码和模型权重，并在Hugging Face平台上提供了公开演示。这一举措将有助于更多的开发者和研究人员了解和使用Apollo模型，共同推动人工智能技术在视频理解领域的进步。

更多>同类内容

小米YU7内饰成谜，英伟达芯片延迟或影响上市，座舱有何惊喜？

12-12

钟睒睒“一鸣”惊人，快手泯然“一笑”？

11-24

iQOO Neo10 系列来袭，索尼IMX921主摄加持，影像性能大升级！

11-24

中山大学80厘米望远镜首秀：红外天文观测新突破，超新星数据引关注！

11-24

马斯克再诉OpenAI：高薪抢人，垄断市场？

11-24

山业推出磁吸式网线新品：防绊易断，数据传输可达10Gbps

11-24

又一公司，终止重大资产重组！

11-23

OpenHarmony赋能千行百业，鸿蒙生态大会2024深圳创新论坛圆满落幕

11-23

浙富控股董事长持股近六成遭质押，前三季经营性现金流大幅下滑

11-23

荣耀GT系列独立，赵明：专为年轻人打造，能否再造昔日辉煌？

11-23

10月广州一手住宅网签量环比增约100%，一手住宅网签面积翻倍增长

11-23

天助畅运IPO之路终止，高管薪酬差异大引关注

11-23

比特币爆了，超14万人爆仓

11-23

《超凡双生》Steam国区特惠，仅需17元体验好莱坞级冒险游戏！

11-23

《Love Live! 虹咲学园》视觉小说新作PC版来袭，你准备好了吗？

11-23

点击查看更多 +

全站最新

北京奔驰启动零碳综合创新示范项目，新质赋能打通低碳转型新通道

2025款奥迪Q7燃油SUV来袭，新配置新色彩，起售价60.98万元

一加Ace 5系列配置曝光：处理器、电池快充成Pro版与标准版关键差异

小米YU7内饰成谜，英伟达芯片延迟或影响上市，座舱有何惊喜？

比亚迪仰望U7插混版亮相，首款水平对置发动机引关注！

长虹百寸巨幕电视100Q10T Max上市，XDR Mini LED仅售19997元！

马云低调布局印度市场，退休前大动作：半个印度已入其版图？

英伟达CEO黄仁勋：用作业搭讪妻子，20岁就立志30岁当CEO

热门内容

本栏最新

小米YU7内饰成谜，英伟达芯片延迟或影响上市，座舱有何惊喜？

钟睒睒“一鸣”惊人，快手泯然“一笑”？

iQOO Neo10 系列来袭，索尼IMX921主摄加持，影像性能大升级！

中山大学80厘米望远镜首秀：红外天文观测新突破，超新星数据引关注！

马斯克再诉OpenAI：高薪抢人，垄断市场？

山业推出磁吸式网线新品：防绊易断，数据传输可达10Gbps

又一公司，终止重大资产重组！

OpenHarmony赋能千行百业，鸿蒙生态大会2024深圳创新论坛圆满落幕