文心大模型日均调用量超7亿,百度竭力为其寻找落地机会

针对性快速响应 2024年09月25日 17:51:05

界面新闻记者 | 崔鹏

界面新闻编辑 | 宋佳楠

925上午百度在云智大会上推出百舸AI异构计算平台4.0千帆大模型平台3.0AI基础设施产品并公布多项AI相关业务最新数据其中,文心大模型日均调用已经超过7亿距离百度上次公布6亿数据进一步提升

刚结束的阿里云栖大会阿里巴巴CEO吴永铭表示阿里云单网络集群已经拓展至10级别,百度也不甘于落后百度集团执行副总裁、百度智能云事业群总裁沈抖特别强调百舸4.0不仅仅万卡集群而是具备了成熟的10集群部署管理能力

百度今年一直在强调大模型落地应用。百度CEO李彦宏在最近一次内部讲话中表示具备应用场景能够持续迭代升级大模型,与其它模型产品的差距会越来越大。

基于此,百度找来了长安汽车三星大量客户为其站台,以展示百度大模型在各行各业的落地应用成果。

沈抖表示过去一年,百度感受到客户模型需求猛增需要的集群规模越来越大,企业模型推理成本下降预期越来越高

训练大模型的前提是创建集群,这并非简单地买来GPU组装即可,通常需要几个月的时间进行设备配置调试

此前有云厂商提到,组建集群可以压缩1,而沈抖百舸4.0能够做到最快1小时完成组建,主要采用业界流行训练工具框架进行内置的方式。

一旦进入到大规模训练阶段最重要的就是稳定性大模型领域一直遵循著名的Scaling Law(尺度定律),认为模型性能会随着参数、算力和数据集的规模增加而提高

根据沈抖的说法,GPU集群需要耗费巨额建设和运营成本,通常建设一个万卡集群GPU采购成本高达几十亿元。如果10集群服务器一天消耗电量大约300千瓦时相当于北京东城区一天居民用电量

这种大规模集群上硬件不可避免出现故障规模越大出故障的概率越高这些故障中绝大多数GPU引起的因为GPU非常敏感的硬件温度湿度环境波动反应灵敏

沈抖提到Meta训练Llama3模型时,用了1.6万张GPU卡的集群,平均每3小时就会出一次故障。

大模型的训练庞大的单一任务一个节点出错整个集群就需要停下,回滚上一个记忆点考虑到GPU集群成本非常昂贵一分钟就会白白烧钱有效训练时长”便成为非常重要的指标

针对大模型训练过程中故障频发问题百舸4.0故障检测手段自动容错机制进行升级目前万卡集群有效训练时长达到99.5%沈抖这高于同行对手数据表现。此外,百舸4.0主流的长文本推理效率提升1以上同时降低了推理成本

在百度最新的财报电话会上,李彦宏透露,二季度百度智能云AI贡献的收入占比进一步提升至9%,而上一季度为6.9%。

大模型工具性能提升固然重要但对于百度来说模型落地成果更具有现实意义

除升级百舸平台外,百度还着重介绍了最新的千帆3.0平台。根据沈抖公布的数据,在千帆大模型平台上,文心大模型日均调用量超过7亿次,累计帮助用户精调了3万个大模型,开发出70多万个企业级应用。千帆3.0可调用包括文心系列大模型在内的近百个国内外大模型,也支持调用语音、视觉等各种传统的小模型。

目前,大模型落地三大主要需求分别是应用开发模型推理模型开发

应用开发层企业级RAG企业行业数据做成外挂知识库大模型Agent智能体两大常见大模型落地场景

其中,智能体接到任务后,会进行自主思考、任务拆解、方案规划,并调用工具,全程自主进行能够完成过往需要3到4APP才能完成的任务

沈抖表示百度内部千帆平台提供百度搜百度地图超过80官方组件用来提升智能体特定任务上的能力

而在李彦宏看来,智能体是大模型发展的下一个重要方向。“有很多人看好智能体这个发展方向,但是到今天为止,智能体还不是共识,像百度这样把智能体作为大模型最重要的战略、最重要的发展方向的公司并不多。”

百度在今年的Create大会上曾发布过三款产品,分别是AgentBuilder、AppBuilder和ModelBuilder。其中,AgentBuilder和AppBuilder都与智能体相关,一个门槛更低,另一个更强调功能性。

根据百度最新透露的数据,智能体在百度生态的分发量大幅增加,7月日均分发次数超800万次,为5月数据的两倍。

百度旗下数字人平台智能客服产品也有了最新进展其中曦灵数字人平台4.0,支持根据文字快速生成不同妆造、不同行业特色的3D数字人形象和视频,并将3D超写实数字人的价格从万元降至199元。

智能客服产品“客悦”则在用户意图理解、多模态信息交流等方面进行了优化,提升了处理复杂问题的能力。

按照百度的说法,目前业内“问题自主解决率”平均水平是80%,升级后“客悦”将这一指标提升至92%。该产品已累计帮助企业客户服务超过1.5亿人次,交互超5亿次。

分享