度小满哈工大联手，SmartTrim算法加速多模态金融应用新篇章

发布时间：2024-11-18 12:25 来源：ITBEAR 作者：顾青青

近期，人工智能技术的迅猛发展使得多模态技术成为业界瞩目的焦点。在这一背景下，度小满凭借其在多模态领域的深厚积累，携手哈尔滨工业大学，成功研发出一款名为SmartTrim的自适应剪枝算法。

SmartTrim算法的出现，旨在解决视觉语言大模型（VLM）在研究和应用中面临的高计算成本问题。该算法通过智能分析模型中各层的token表示和attention head的冗余性，有效削减了多模态大模型中的冗余计算，从而实现了计算效率的显著提升。相关研究成果已在国际自然语言处理领域的顶级会议COLING 24上发表。

在基于VQA微调的METER的跨模态编码器中，层内不同token和attention head表示的相似性示意图

SmartTrim算法的核心在于其自适应剪枝能力。该算法通过两个关键组件——跨模态感知的Token修剪器和模态自适应的注意力头修剪器，实现了对模型中不必要计算负担的智能识别与剪除。Token修剪器利用多层感知器（MLP）结构，综合考虑Token在单一模态序列中的独立重要性及其在跨模态交互中的贡献，智能地识别并去除那些对当前层不重要的Token。而注意力头修剪器则直接集成在模型的自注意力模块中，评估并修剪那些冗余的注意力头，进一步优化了模型的计算效率。

SmartTrim框架结构图

在训练SmartTrim模型时，研究人员采用了一种创新的双重优化策略，该策略结合了任务相关目标和计算开销目标，通过重参数化技巧解决了不可导二值mask的问题，实现了模型的端到端训练。自蒸馏和课程学习策略的引入，进一步提高了剪枝后模型的性能，确保了训练过程的稳定性和高效性。

Token的逐步裁剪修剪过程示意图

实验结果表明，SmartTrim算法在METER和BLIP两个VLM上实现了2-3倍的加速效果，同时成功将性能损失降至最低。在1.5倍加速比下，SmartTrim的性能甚至超过了原始模型，展现出其在高加速比下的显著优势。这一成果不仅为理论研究提供了新的视角，也为实际应用中的模型优化提供了切实可行的解决方案。

度小满表示，SmartTrim技术的推出标志着多模态大模型研究迈出了重要的一步。未来，度小满计划将SmartTrim技术整合到公司的轩辕大模型中，以进一步提升大模型技术的性能和应用效果。这一举措将有望为金融领域带来全新的变革和发展机遇。

更多>同类内容