月之暗面发布Kimi多模态图片理解API，1M tokens最低12元

发布时间：2025-01-15 15:41 来源：ITBEAR 作者：柳晴雪

近日，月之暗面科技公司在其平台上正式推出了全新的Kimi多模态图片理解模型API，该API的核心是多模态图片理解模型moonshot-v1-vision-preview（简称“Vision模型”），它的问世进一步完善了moonshot-v1模型系列的多模态处理能力。

Vision模型在图像识别方面展现出了卓越的能力。它能够精准捕捉图像中的复杂细节和微小差异，无论是食物还是动物，都能准确区分出相似但不同的对象。例如，在一组由16张蓝莓松饼和吉娃娃图片组成的测试集中，这些图片对人眼来说难以区分，但Vision模型却能轻松识别并正确标记每一张图片的类型。

除了图像识别，Vision模型在文字识别和理解方面也表现出色。在OCR文字识别和图像理解场景中，它的准确性远超普通的文件扫描和OCR识别软件。即使是收据单、快递单等手写内容，即使字迹潦草，Vision模型也能准确识别。它还能对图像中的文字内容进行深入理解和分析。

以一张学生期末考试成绩的柱状图为例，Vision模型不仅能准确识别出每个科目对应的分数，还能进行分数对比，同时分析柱状图的样式、格式和颜色等美学特征。这种能力使得Vision模型在图像分析和理解领域具有广泛的应用前景。

关于模型计费，Vision模型采用按量计费的方式。单张图片按1024 tokens合并计算在Input请求的tokens用量中，不同版本的模型调用价格也有所不同。具体来说，moonshot-v1-8k-vision-preview版本的模型每1M tokens价格为12元，moonshot-v1-32k-vision-preview版本为24元，而moonshot-v1-128k-vision-preview版本则高达60元。

Vision模型还支持多种特性，包括多轮对话、流式输出、工具调用、JSON Mode和Partial Mode等。然而，也有一些功能暂未支持或部分支持。例如，联网搜索功能目前暂不支持；Context Caching功能不支持创建带有图片内容的Cache，但可以使用已经创建成功的Cache调用Vision模型；同时，URL格式的图片也不支持，目前仅支持使用base64编码的图片内容。

在其他平台更新方面，月之暗面科技公司也推出了一系列新功能。例如，支持组织项目管理功能，方便用户对项目进行统一管理和跟踪；支持一个企业实体认证多账号，方便企业用户进行多账号管理和切换；增加File文件资源管理功能，使用户能够直观管理查看文件资源；优化资源管理列表鼠标悬浮复制功能，提高用户操作效率；同时，Context Caching功能也已放开给全量用户，Cache续期不再收取创建费用。

更多>同类内容