中国AI大模型始于去年,今年价格战阴云便已悬顶。

  字节跳动被视为这轮价格战的发起者之一。上周字节跳动的大模型喊出比行业便宜99.3%,随后阿里宣布大模型降价,今天,百度智能云宣布,文心大模型两大主力模型全面免费。这意味着,大模型仅仅问世一年,就迎来了免费时代。

  5月15日,字节跳动豆包大模型在火山引擎原动力大会上正式发布。火山引擎是字节跳动旗下云服务平台,据火山引擎总裁谭待介绍,经过一年时间的迭代和市场验证,豆包大模型正成为国内使用量最大、应用场景最丰富的大模型之一,目前日均处理1200亿Tokens文本,生成3000万张图片。

  “大的使用量,才能打磨出好模型,也能大幅降低模型推理的单位成本。豆包主力模型在企业市场的定价只有0.0008元/千Tokens,0.8厘就能处理1500多个汉字,比行业便宜99.3%。”谭待表示,大模型从以分计价到以厘计价,将助力企业以更低成本加速业务创新。

  对于这次宣称的成本下降,有的业内人士并不认可。

  有大模型服务商对记者介绍:“当我们使用大模型时,会向大模型提问。在大模型厂商眼里,我们可以把一次提问简单看成一个向大模型提出的请求(Request),一个请求会包含输入、输出两部分,也就是用户先向模型提问,模型给出答案。问题和答案中包含的文字量通常会用固定的计算方式换算成大模型能够理解的单元,也就是Token。根据问答内容的特征、模型算力消耗等因素,大模型厂商一般会分别为输入、输出内容设定不同的价格。”

  同时,在付费模式方面,主要分为预付费、后付费两种模式。一般来说,预付费模式要比后付费模式更便宜。火山引擎最新发布的大模型Doubao-pro-32k,虽然为模型输入设定了超低的后付费价格,但是并没有在发布会上展示模型的输出价格,相比输入价格贵出很多。

  更重要的是,用户只有在较低的业务并发(每分钟60次问答请求,即每秒1次)这个强限制条件下,才能享受得到这个价格。这意味着,豆包大模型的这个“超低价”只能用来体验和测试,无法真正用到生产环境中。

  对此,字节跳动方面也对记者做出解释:推理输入在模型推理中占绝大部分,业内一般认为,输入比输出是5比1。所以发布会是以推理输入价格作为示例。同时企业可以自由选择预付费或后付费模型:预付费有附加服务保障,价格相对后付费会更高(相当于商务舱和经济舱的对比),但同时预付费也会有非常大的折扣,最低可以打一折。少数需要高并发保障的大客户,会更倾向“预付费”模式;大多数客户会用“后付费”模式。“后付费”在行业内一般是限制最高的TPM(每分钟token数)和RPM(每分钟请求数),豆包大模型“后付费”的TPM和RPM上限对比友商也都是非常高的,足够满足业务需求,客户还可以购买多个模型单元来提高并发。

  在字节跳动的大模型喊出比行业便宜99.3%之后,阿里也宣布大模型降价了。尤其是在字节跳动重点宣传的千tokens输入价格上,阿里直接给出了更低的价格。

  5月21日,阿里云官微发文宣布通义千问大模型降价。其中GPT-4级主力模型Qwen-Long降价幅度甚至达到97%,API输入价格从0.02元/千tokens(文本中的基本单位)降至0.0005元/千tokens。这意味着,1块钱可以买200万tokens,相当于5本《新华字典》的文字量。

  该模型最高支持1千万tokens长文本输入,降价后约为GPT-4价格的1/400。

  字节跳动对阿里降价进行了回应。

  火山引擎相关负责人表示,非常欢迎通义千问大模型降价,共同助力企业以更低成本探索AI转型,加速大模型应用场景落地。据介绍,豆包大模型在大幅降价同时,还为客户提供了业内最高标准的 TPM(每分钟Tokens)和 RPM(每分钟请求数),每分钟处理 Tokens 限额达到业内同规格模型的数倍,能够支持大量并发请求,有助于企业在生产系统调用大模型。

  作为中国首个发布大模型的平台,百度迅速加入价格混战。今日,百度智能云宣布文心大模型的两款主力模型ENIRE Speed、ENIRE Lite全面免费,即刻生效。

  这两款大模型今年3月发布,均支持8K和128k上下文长度。ERNIE Lite是百度自研的轻量级大语言模型,兼顾优异的模型效果与推理性能,适合低算力AI加速卡推理使用。ERNIE Speed则是百度自研高性能大语言模型,适合作为基座模型进行精调,更好地处理特定场景问题,同时具备极佳的推理性能。

  从字节跳动推出豆包大模型、宣布大模型价格进入厘时代,到百度直接宣布两款主力模型免费,大模型降价力度和速度远超市场预期。

  2024年被认为是AI应用元年。有业内人士表示,推理成本过高依然制约着大模型规模化应用,降价有助于吸引更多的产品使用者。

  “战不战不知道,反正在卷价格。”有接近某大厂的人士表示。