字节豆包视觉模型大降价，AI视觉理解进入厘时代，行业价格战再起？

发布时间：2024-12-18 17:02 来源：搜狐科技作者：陆辰风

在科技界的最新动态中，视觉理解技术迎来了前所未有的价格革命。12月18日，字节跳动于火山引擎 Force 大会上震撼发布了其豆包视觉理解模型，这一创新成果标志着视觉模型正式迈入“厘时代”。

火山引擎 Force 大会现场

火山引擎总裁谭待在会上宣布，豆包视觉理解模型的处理费用极为亲民，每千个tokens的输入价格仅为3厘，这一价格意味着用户仅需花费1元，即可处理约284张720P分辨率的图片。与市场上其他同类产品相比，如Claude 3.5 Sonnet的0.021元/千tokens、qwen-vl-max的0.02元/千tokens以及GPT-4o的0.0175元/千tokens，豆包模型的价格优势显著，便宜了高达85%。

谭待进一步介绍，豆包视觉理解模型不仅具备高精度的视觉内容识别能力，还展现出卓越的理解与推理智慧。它能够基于图像信息进行复杂的逻辑运算，如分析图表、处理代码以及解答学科难题等。豆包模型还拥有细腻入微的视觉描述与创作才能。

回溯至今年5月，字节跳动首次推出了豆包大模型，并在企业市场中以每千Tokens 0.0008元的超低价格亮相，这一价格使得处理1500多个汉字仅需0.8厘，相比行业平均水平便宜了99.3%，大模型的价格体系实现了从分至厘的跨越性调整。

随后，云计算领域的其他巨头也纷纷响应，阿里云宣布其9款商业化及开源系列模型降价，百度智能云则宣布文心大模型的两款主力产品ENIRE Speed与ENIRE Lite全面免费。在2024年的云栖大会上，阿里云再次宣布三款通义千问主力模型降价，最高降价幅度达到了90%。

谭待在早前的采访中曾表示，这一系列的价格调整并非简单的价格战，而是为了让技术应用更加普及，将成本控制在合理范围内。如今，这一目标已经初步实现。

在Force大会上，豆包3D生成模型首次惊艳亮相，同时，豆包大模型的多款产品也迎来了重要更新。其中，豆包通用模型pro已全面升级至与GPT-4o相当的水平，但使用价格仅为后者的八分之一。音乐模型则从生成60秒的简单旋律升级为能够创作3分钟的完整音乐作品。文生图模型2.1版本更是实现了业界首次的精准汉字生成与一句话P图功能，并已接入即梦AI和豆包App。

据统计，截至12月中旬，豆包通用模型的日均tokens使用量已超过4万亿，相较于七个月前首次发布时，增长了惊人的33倍。

更多>同类内容