Kimi视觉思考模型k1上线，拍照即解数理化，展现完整思考链

发布时间：2024-12-16 12:34 来源：ITBEAR 作者：顾青青

近期，月之暗面团队宣布了一项技术突破，正式推出了名为k1的视觉思考模型。这款模型建立在强化学习的基础上，不仅强化了端到端的图像理解能力，还首次将思维链技术引入，并扩展至数学以外的多个基础科学领域。

据月之暗面官方透露，k1模型在基础科学学科的基准测试中表现优异，超越了包括OpenAI的o1、GPT-4o以及Claude 3.5 Sonnet在内的多款知名模型。这一成果不仅彰显了k1模型的强大实力，也预示着AI技术在科学领域应用的新篇章。

值得注意的是，k1视觉思考模型一经发布便迅速上线，用户可以在最新版“Kimi智能助手”的Android、iPhone手机App以及网页版kimi.com上体验到这一创新功能。用户只需在App或网页版中找到“Kimi视觉思考版”，即可通过拍照或上传图片的方式，享受模型带来的智能化解题体验。

k1模型不仅提供了准确的答案，更通过完整的推理思维链CoT，让用户能够清晰地看到模型思考答案的全过程。这一特性不仅提升了用户体验，也进一步增强了模型的透明度和可信度。

从模型训练的角度来看，k1视觉思考模型的打造过程经历了两个阶段。首先，通过预训练获得基础模型，该模型在字符识别能力上进行了重点优化，取得了OCRBench上903分的优异成绩。随后，在基础模型的基础上进行强化学习后训练，进一步提升了模型的性能。在多个基准测试集上，k1模型均表现出色，如MathVista-testmini、MMMU-val和DocVQA上的分数分别为69.1、66.7和96.9。

月之暗面团队还自主构建了一个标准化的测试集Science Vista，以解决市场上缺乏针对基础科学学科的图形测试集的问题。该测试集涵盖了不同难度的数理化图片题目，与实际用户需求高度匹配。月之暗面表示，将开放该测试集给全行业使用，以促进AI技术在科学领域的发展。

尽管k1视觉思考模型取得了显著的成果，但在内部测试中，月之暗面团队也发现了模型存在的一些局限性。例如，在分布外泛化、复杂问题成功率、噪声场景准确率以及多轮问答效果等方面，k1模型仍有很大的提升空间。与OpenAI的o1系列模型相比，k1在某些场景和泛化能力上仍存在一定的差距。然而，月之暗面团队表示，将继续努力优化模型，以期在未来取得更好的成绩。

更多>同类内容