豆包视觉理解模型来袭，多模态价格战再起波澜

发布时间：2024-12-19 17:02 来源：财经天下WEEKLY 作者：朱天宇

近日，字节跳动在“火山引擎Force大会”上震撼发布了其最新的豆包视觉理解模型，这一举动再次将价格战推至公众视野，而这次的焦点则是多模态大模型。

火山引擎总裁谭待于会上宣布，豆包视觉模型的定价为每千个tokens输入仅需0.003元，这一价格相较于行业平均水平便宜了85%，换言之，用户仅需花费一元钱，就能处理高达284张720P分辨率的图片，这无疑为市场带来了极大的震撼。

豆包视觉理解模型不仅具备精准的视觉内容识别能力，更在理解和推理方面展现出了卓越的实力。它能够基于图像信息进行复杂的逻辑计算，无论是分析图表、处理代码，还是解答学科问题，都能游刃有余地完成。该模型还拥有细腻的视觉描述和创作能力，为用户带来了全新的使用体验。

豆包视觉理解模型演示

谭待进一步介绍了豆包视觉理解模型在教育、旅游和电商营销等多个领域的应用前景。在教育领域，它可以用于判卷指导、作文批改以及儿童陪伴等场景；在旅游领域，它能为用户提供目的地推荐、外文菜单识别以及著名建筑讲解等服务；而在电商营销领域，它则能帮助用户拍照找同款、提供商品搭配建议以及生成广告种草文案等。目前，火山引擎已经邀请了数百家企业对该模型进行测试。

除了豆包视觉理解模型外，字节跳动还同步发布了豆包3D生成模型。这款模型与火山引擎的数字孪生平台veOmniverse结合使用，能够高效地完成智能训练、数据合成和数字资产制作等工作，成为了一套支持AIGC创作的物理世界仿真模拟器。

回顾今年5月，字节跳动在首次发布豆包大模型时，就率先发起了价格战，并成功引发了阿里、百度等多家厂商的大模型降价潮。而最近几个月，豆包的数据增长更是迅猛异常。据字节跳动透露，截至12月中旬，豆包通用模型的日均tokens使用量已经超过了4万亿，相较于七个月前首次发布时增长了33倍。

同时，豆包大模型还在不断加速向各行业渗透。最近三个月内，豆包在信息处理场景的调用量增长了39倍，客服与销售场景增长了16倍，硬件终端场景增长了13倍，AI工具场景增长了9倍，学习教育等场景也实现了大幅增长。这一系列数据充分展示了豆包大模型的强大实力和广阔前景。

更多>同类内容