华为发布AI推理创新技术UCM:实现高吞吐、低时延推理体验,降低每Token推理成本
发布时间:2025-08-21 10:10:41 作者:玩站小弟
我要评论

新浪科技讯 8月12日下午消息,在2025金融AI推理应用落地与发展论坛上,华为联合中国银联共同发布AI推理创新技术UCM推理记忆数据管理器),实现高吞吐、低时延的推理体验。在当今数字化时代,AI发展
。
新浪科技讯 8月12日下午消息,发布在2025金融AI推理应用落地与发展论坛上,推理吞吐n推华为联合中国银联共同发布AI推理创新技术UCM(推理记忆数据管理器),创新实现高吞吐、技术低时延的现高推理体验。
在当今数字化时代,低时低AI发展日新月异。延推验降大模型训练的理体理成热潮尚未消退,AI推理体验却已悄然成为AI应用的发布关键。中信建投在2025WAIC期间发布的推理吞吐n推白皮书指出,AI正从训练向推理的创新结构性转变而快速增长。在这样的技术大背景下,AI推理体验的现高重要性愈发凸显。
推理体验直接关系到用户与AI交互时的低时低感受,包括回答问题的延推验降时延、答案的准确度以及复杂上下文的推理能力等方面。资料显示,国外主流模型的单用户输出速度已进入200 Tokens/s区间(时延5ms),而我国普遍小于60Tokens/s(时延50 - 100ms),如何解决推理效率与用户体验的难题迫在眉睫。
据介绍,华为此次发布的AI推理创新技术UCM(推理记忆数据管理器),作为一款以KV Cache为中心的推理加速套件,其融合了多类型缓存加速算法工具,分级管理推理过程中产生的KV Cache记忆数据,扩大推理上下文窗口,以实现高吞吐、低时延的推理体验,降低每Token推理成本。

责任编辑:郭栩彤
相关文章
- 2023年山西中小学招生政策来源:网络来源文章作者:奥数网编辑 2023-06-27 08:37:392025-08-21
- 皇马巴萨夺冠赔率并驾齐驱北京时间8月16日凌晨,新赛季西甲联赛战火重燃。皇马和巴萨的碰撞令人瞩目,相关机构更新了新赛季的夺冠赔率,姆巴佩领衔的银河战舰以微弱优势领先,拥有第一身价亚马尔的巴萨紧随其后,2025-08-21
- 北京时间8月12日周二),今晚开奖的数字彩玩法主要有双色球、快乐8、福彩3D和排列三等。专家预测战绩,缪彭明中一等揽877万,孔阳中二等118万累擒超2千万,武韵中双色球二等118万预测揽奖1539万2025-08-21
- 央广网北京8月26日消息记者王晶)记者从国铁集团获悉,暑期进入尾声,全国各大院校开学在即,8月26日至9月10日,铁路迎来学生客流高峰,预计发送学生旅客650万人次。铁路部门精心组织学生运输工作,统筹2025-08-21
湘博文物数据资源融合获评国家首批20个“数据要素×”典型案例
讯记者 姜燕)日前,国家数据局联合相关部门发布的首批20个“数据要素×”典型案例中,湖南博物院的“文物数据资源融合应用案例”荣获入选,成为湖南省数字化转型的杰出代表,同时也是全国文化旅游领域唯一入选的2025-08-21- 记者从南京海关了解到,今年前7个月,长江经济带11省市外贸进出口值达11.23万亿元,创历史同期新高,占全国进出口总值的45.2%。其中,江苏省外贸进出口3.15万亿元,增长8.1%,地区外贸占长江经2025-08-21
最新评论