在人工智能技术的浪潮中,数据标注作为推动AI发展的重要“燃料”,其效率和质量直接关乎AI应用的成果。近日,一项名为“基于大小模型协同的低资源标注技术”的研究成果在2024中国计算机大会上亮相,引起了广泛关注。
该技术由浙江大学软件学院的王皓波老师带领团队研发,并得到了CCF-网易雷火联合基金的大力支持。通过整合大模型与小模型的优势,这一技术为解决数据标注中的低资源问题提供了创新思路。
在研究过程中,王皓波团队首先聚焦于鲁棒噪声标签学习,针对机器学习中普遍存在的噪声标签问题,提出了ProMix算法。该算法通过创新的样本选择方式,有效提升了模型在噪声标签环境下的学习性能,并在首届IJCAI-噪声标签学习挑战赛中取得了卓越成绩。
随着大模型时代的来临,团队进一步探索了大模型与小模型的协同应用。他们提出了FreeAL框架,旨在实现无人工主动学习。在该框架下,大模型利用其丰富的知识储备进行初始标注,而小模型则负责进行鲁棒蒸馏,通过协同训练不断优化标注结果。
实验结果显示,FreeAL框架在多个任务上均取得了优异表现,甚至在部分数据集上超越了传统的主动学习方法。这一成果不仅验证了大小模型协同标注的有效性,也为数据标注领域带来了新的可能性。
为了进一步提升数据标注的实用性和效率,王皓波团队还研发了CORAL框架。这一协作式自动标注系统结合了大小模型的协同工作和人机协同的标注范式,旨在减少人工参与并确保高质量的数据标注。通过引入手动精炼模块和迭代过程控制器,CORAL框架实现了初步的自动化标注流程,并以低成本提供了可靠的标签数据。
目前,该团队正致力于将这一技术与网易有灵平台的AOP体系进行深度集成,以构建一个更加高效、智能的人机协同Agent调度体系。这将有助于提高数据标注的准确性和可靠性,并推动数据标注技术在更广泛领域的应用。
王皓波团队的这一系列研究成果充分展示了大小模型协同在低资源数据标注技术领域的巨大潜力,有望为人工智能技术的发展注入新的活力。