近日,月之暗面科技公司在其平台上正式推出了全新的Kimi多模态图片理解模型API,该API的核心是多模态图片理解模型moonshot-v1-vision-preview(简称“Vision模型”),它的问世进一步完善了moonshot-v1模型系列的多模态处理能力。
Vision模型在图像识别方面展现出了卓越的能力。它能够精准捕捉图像中的复杂细节和微小差异,无论是食物还是动物,都能准确区分出相似但不同的对象。例如,在一组由16张蓝莓松饼和吉娃娃图片组成的测试集中,这些图片对人眼来说难以区分,但Vision模型却能轻松识别并正确标记每一张图片的类型。
除了图像识别,Vision模型在文字识别和理解方面也表现出色。在OCR文字识别和图像理解场景中,它的准确性远超普通的文件扫描和OCR识别软件。即使是收据单、快递单等手写内容,即使字迹潦草,Vision模型也能准确识别。它还能对图像中的文字内容进行深入理解和分析。
以一张学生期末考试成绩的柱状图为例,Vision模型不仅能准确识别出每个科目对应的分数,还能进行分数对比,同时分析柱状图的样式、格式和颜色等美学特征。这种能力使得Vision模型在图像分析和理解领域具有广泛的应用前景。
关于模型计费,Vision模型采用按量计费的方式。单张图片按1024 tokens合并计算在Input请求的tokens用量中,不同版本的模型调用价格也有所不同。具体来说,moonshot-v1-8k-vision-preview版本的模型每1M tokens价格为12元,moonshot-v1-32k-vision-preview版本为24元,而moonshot-v1-128k-vision-preview版本则高达60元。
Vision模型还支持多种特性,包括多轮对话、流式输出、工具调用、JSON Mode和Partial Mode等。然而,也有一些功能暂未支持或部分支持。例如,联网搜索功能目前暂不支持;Context Caching功能不支持创建带有图片内容的Cache,但可以使用已经创建成功的Cache调用Vision模型;同时,URL格式的图片也不支持,目前仅支持使用base64编码的图片内容。
在其他平台更新方面,月之暗面科技公司也推出了一系列新功能。例如,支持组织项目管理功能,方便用户对项目进行统一管理和跟踪;支持一个企业实体认证多账号,方便企业用户进行多账号管理和切换;增加File文件资源管理功能,使用户能够直观管理查看文件资源;优化资源管理列表鼠标悬浮复制功能,提高用户操作效率;同时,Context Caching功能也已放开给全量用户,Cache续期不再收取创建费用。