字节跳动豆包模型再降价，视觉理解或成AI新战场

发布时间：2024-12-19 15:00 来源：蓝鲸新闻作者：苏婉清

在AI模型市场掀起新一轮风暴的背景下，字节跳动再次以震撼性的价格策略吸引了业界的广泛关注。近日，于火山引擎Force大会上，字节跳动正式揭晓了其最新的豆包视觉理解模型，其惊人的输入成本仅为每千tokens 0.003元，这一价格标志着多模态模型正式迈入厘计价的新纪元。

据火山引擎介绍，豆包视觉理解模型的定价相较于行业平均水平低了85%，意味着用户仅需一元钱便可处理高达284张720P分辨率的图片。这一价格优势与国内外其他顶尖的多模态模型形成了鲜明对比，例如OpenAI的GPT-4o每千tokens价格为0.0175元，Anthropic的Claude 3.5 Sonnet定价为0.021元，以及阿里的Qwen-Vl-Max定价为0.02元。

字节跳动今年早些时候推出的豆包大模型，就因价格比竞争对手低99.3%而引发轰动。随后，阿里云、百度和腾讯等国内巨头纷纷效仿，竞相降价，从而点燃了国内大模型市场的价格战。这场价格战不仅推动了价格的骤降，还加速了大模型的应用普及。火山引擎的数据显示，豆包通用模型的日均tokens使用量已突破4万亿，相较于首次发布时增长了33倍。

火山引擎总裁谭待在接受采访时指出，随着模型成本的显著下降和性能的提升，市场反馈逐渐增多，用户开始更加关注模型的调用量和token数。他强调，字节跳动希望通过一个合理、可持续且一步到位的价格策略，让企业和开发者能够毫无顾虑地使用多模态模型。

豆包视觉理解模型不仅具备精准的视觉内容识别能力，还具备理解和推理、视觉描述等功能。在演示中，该模型成功识别了动物的影子轮廓、杂志内页的星云以及体检报告的具体指标，展现了其广泛的应用潜力。这些能力在教育领域的判卷指导、作文批改，以及旅游、电商营销等方面都具有重要价值。

谭待还透露，字节跳动在类o1推理模型领域也有所布局，豆包视觉理解模型已初步具备解答数学、物理、代码问题的能力。他透露，完整的推理模型将在进一步完善后推出，并预计不会太久。

与此同时，国内其他大模型公司也在视觉方向取得了新进展。独角兽企业月之暗面发布了视觉思考模型k1，该模型既能通过视觉精准识别，又能进行分布推理思考，在数学、物理、化学等评测中表现优异。而私募巨头幻方量化旗下的AI公司DeepSeek则开源了全新的视觉模型VL2，该公司认为提升模型的视觉能力对于提升其感知和认知能力至关重要。

在火山引擎的活动上，字节跳动还发布了豆包3D生成模型，并对多款产品进行了更新。其中，豆包通用模型pro已全面对齐GPT-4o，但使用价格仅为后者的1/8。音乐模型的支持时长从60秒升级至3分钟，文生图模型2.1版本则实现了精准生成汉字、一句话P图等产品化能力。字节跳动预计，明年春季将推出具备更长视频生成能力的豆包视频生成模型1.5版，并很快上线端到端实时语音模型。

谭待在谈及大模型的未来落地场景时表示，虽然AI对话是一个通用场景，但大模型在生产力、商业化场景中的增长速度同样迅猛。以近三个月为例，豆包大模型在信息处理场景的调用量增长了39倍，客服与销售场景则增长了16倍。他认为，聊天功能只是模型的基础功能，只有结合深度推理、视觉理解等能力，才能处理更复杂的任务，从而推动模型的发展空间不断扩大。

谭待强调，目前市场仍处于早期阶段，相较于竞争，字节跳动更关注用户对复杂语言场景和视觉等方面的需求。与互联网时代C端先于B端崛起不同，大模型的这两个方面并不是孤立的，而是基于同样的模型能力。因此，字节跳动对大模型的策略是To B和To C齐头并进。

对于火山引擎这一对外开放字节技术工具的云厂商而言，AI已成为其新的增长机会。谭待表示，火山引擎提升市场份额的关键在于规模优势和把握住AI大模型的技术变革。通过豆包模型，火山引擎获得了更多的关注和新的合作机会，从而有望实现从云原生到AI云原生的转型，成为这一领域的领军企业。

更多>同类内容