按谭待总结,大模型竞技场,后来者字节的市场份额,领先同行,其信心来自三点:
谭待提到★,聊天是大模型一个基础功能★★★,在此之上,必须加上深度推理、图像视觉理解等各种各样的功能,才能处理复杂任务。
从2024年5月豆包诞生,到12月的Force大会★★,7个月时间,字节大模型产品整装列队,组成★★★“全家桶”★★★。
“我现在不太关心竞争★。市场处于非常早期的阶段,可能刚开发出来千分之一。”
为扶其上马★★★,字节带头掀起行业第一轮降价潮,同时产品、服务和生态快速裂变,充实矩阵。
火山引擎下了一个新判断,下个十年,计算范式会从云原生进入到AI云原生的新时代。
在他看来,大模型的特别之处在于,以前的技术在To C端和To B端,都是割裂的,大模型能化二为一★,底层都用的一套技术。
2025年春季,将推出具备长视频生成能力的视频生成模型1.5版★,豆包端到端实时语音模型也将很快上线★★。
采用一个大模型,决策者能直观感受到技术的好与不好,不像以前,只能靠听PPT汇报、看案例来了解。
谭待的演讲末尾,还以“One more thing”做了一个特别预告,发布一个1分钟的应用场景视频★★★。
人所接收的信息里★★,超八成来自视觉★★★。对大模型来说★,只有做好视觉理解,才有能力处理好真实世界的信息★。
给一张动物影子的照片,视觉理解模型能识别出这是一只猫;给一张桥的图,模型能看出是港珠澳大桥;能理解图片里的数学和物理题目,给出答案和思路。
目前★,豆包大模型已经与八成主流汽车品牌合作,并接入多家手机、PC等智能终端,覆盖约3亿台终端设备★★★。
最近3个月,豆包大模型在信息处理场景的调用量增长了39倍,客服与销售场景增长16倍,硬件终端场景增长13倍。
文生图模型2.1版本★★,首次实现精准生成汉字和一句话P图的产品化能力,该模型已接入即梦AI和豆包App。
在12月18日举办的火山引擎Force大会上★★★,字节发布豆包视觉理解、3D生成等新模型,并公布了一次到位的价格,视觉理解模型千tokens输入价格,仅为3厘★★。
“2024年是大模型高速发展的一年。当你看到一列高速行驶的列车,最重要的事,就是确保自己要上车★。”谭待说★。
这次发布会,字节一口气更新了豆包多款产品★★★,覆盖通用模型及多个垂直领域模型,看得人眼花缭乱。
据谭待介绍★,该模型不仅能精准识别视觉内容★,还具备理解和推理能力★★,可根据图像信息进行复杂的逻辑计算,完成分析图表、处理代码、解答学科问题等任务。
“这是我们相信豆包能做好的一个重要因素。大家用得最多的是豆包APP,企业家大概率也会选择豆包大模型。”谭待说。
比如,教育场景里,豆包可以让拍照搜题更智能★★,批改孩子的数学作业,优化作文表述★,减轻家长辅导作业的负担。
此前★,该模型已接入豆包App和PC端产品★。谭待透露,过去两个月,字节邀请了数百家企业,测试豆包视觉理解模型。
让大模型更好用、迅速落地,才是字节眼前的要紧事★。如谭待所说,现阶段,他不关注大模型能带动多少云的收入,看的是有多少客户用了豆包大模型、用得有多深。
一是市场足够大;二是字节有规模优势,把手机、汽车、金融等外部客户,以及抖音、头条上的内部客户,统一起来建设,都跑在火山引擎上;三是目标明确,要在新的技术变革里做到第一★。
他表示,局部竞争肯定有,但不重要,更关键的,是看用户哪些需求没有被满足,产品和解决方案能否做得好、成本低。
“市场就是要充分竞争,做得好才能活下来。”接受《21CBR》等媒体采访时,火山引擎总裁谭待提到,新模型发布后★,豆包的增速将更快。