年终大模型再“降价” 视觉理解模型进入“厘时代”

  大模型价格战风云再起。

  在12月18日举办的火山引擎 Force 大会上,字节跳动正式发布豆包视觉理解模型,为企业提供更具性价比的多模态大模型能力。根据该发布会数据,豆包视觉理解模型千tokens输入价格仅为3厘,一元钱就可处理284张720P的图片,比行业价格低85%,以更低成本推动AI技术普惠和应用发展。

  研究显示,人类接收的信息超过80%来自视觉。视觉理解将极大地拓展大模型的能力边界,同时也会降低人们与大模型交互的门槛,为大模型解锁更丰富的应用场景。

  据火山引擎总裁谭待介绍,豆包视觉理解模型不仅能精准识别视觉内容,还可根据图像信息进行复杂的逻辑计算,完成分析图表、处理代码、解答学科问题等任务。

  会上,豆包3D生成模型也首次亮相。此外,豆包大模型多款产品也迎来重要更新:豆包通用模型pro已全面对齐GPT-4o,使用价格仅为后者的1/8。音乐模型从生成60秒的简单结构,升级到生成3分钟的完整作品。大会还宣告,2025年春季将推出具备更长视频生成能力的豆包视频生成模型1.5版。

  无独有偶,也是在同一天,OpenAI也加入了“降价大军”,其正式版o1模型的API与预览版本相比思考成本下降了60%,GPT-4o的音频成本也下降了60%。降价幅度最大的GPT-4o mini的音频价格比当前价格便宜了10倍。

  回溯至今年5月,字节跳动首次推出了豆包大模型,并在企业市场中以每千Tokens 0.0008元的超低价格亮相,这一价格使得处理1500多个汉字仅需0.8厘,相比行业平均水平便宜了99.3%,大模型的价格体系实现了从分至厘的跨越性调整。

  随后,云计算领域的其他巨头也纷纷响应,阿里云宣布其9款商业化及开源系列模型降价,百度智能云则宣布文心大模型的两款主力产品ENIRE Speed与ENIRE Lite全面免费。在2024年的云栖大会上,阿里云再次宣布三款通义千问主力模型降价,最高降价幅度达到了90%。

  数据显示,截至12月中旬,豆包通用模型的日均tokens使用量已超过4万亿,较七个月前首次发布时增长了33倍。显示大模型应用正在向各行各业加速渗透。

相关文章