异构计算架构在端侧AI中的实现要素,端侧AI发展:大模型、存算一体与异构计算的协同

本文将探讨在人工智能发展进程中,端侧AI相关的多种技术要素。包括大模型在端侧的部署意义、存算一体技术对端侧AI大模型商业化的作用、NPU对端侧大模型的赋能以及异构计算架构实现所需的支持等方面内容。

在人工智能快速发展的浪潮下,大型语言模型(LLMs)凭借在自然语言处理(NLP)领域的巨大突破,推动着技术不断向前。自2017年Transformer架构诞生之后,OpenAI的GPT系列以及meta的LLaMA系列等众多模型如雨后春笋般崛起。这些模型过去多部署在云端服务器,虽然云端能提供强大的计算力,但也存在不少问题,像是网络延迟、数据安全风险以及需要持续联网等。这些弊端在一定程度上阻碍了LLMs的广泛应用,也影响了用户的即时体验。于是,将LLMs部署在端侧设备的探索开始兴起。端侧部署不仅能让响应速度更快,还能在保护用户隐私的同时,为用户打造个性化的体验。端侧AI市场规模在全球呈现出惊人的增长态势,预计从2022年的152亿美元增长到2032年的1436亿美元。这将近十倍的增长幅度,一方面体现出市场对边缘AI解决方案的急切需求,另一方面也预示着在制造、汽车、消费品等众多行业里,端侧AI技术将扮演越来越重要的角色。存算一体技术走向成熟,这为端侧AI大模型的商业化落地奠定了技术基础。存算一体是一种新型计算架构,其核心在于把存储和计算完全融合,让存储器具备计算能力,通过新的高效运算架构进行二维和三维矩阵计算。结合后摩尔时代的先进封装、新型存储器件等技术,可以有效突破冯·诺依曼架构的瓶颈,使计算能效得到数量级的提升。存算一体可细分为近存计算(PNM)、存内处理(PIM)以及存内计算(CIM)。近存计算是把计算单元靠近内存单元,以此缩短数据传输路径,提高访存带宽和效率,适合那些需要大规模并行处理和优化内存带宽的应用;存内处理是将计算单元嵌入存储芯片内部,使存储器自身拥有一定的计算能力,这种方式适合数据密集型任务,能够大幅提高数据处理效率和能效比;存内计算则是将存储单元和计算单元深度融合,让存储单元直接参与数据处理,适合高并行性计算和定制化硬件优化,能够消除数据访存延迟。在端侧AI大模型商业化落地过程中,选择哪种存算一体技术要依据具体的应用需求和性能优化目标而定。智能手机SoC多年前就开始运用NPU(神经网络处理器)来改善日常用户体验,在影像、音频、连接和安全等方面进行赋能。但生成式AI用例需求在垂直领域不断增长,这些领域有着多样化的要求和计算需求。这些AI用例面临两个关键挑战:一是在功耗和散热受限的终端上,通用CPU和GPU服务平台难以满足其严苛且多样的计算需求;二是这些AI用例不断演变,在功能固定的硬件上部署不现实。而异构计算架构能够发挥各个处理器的优势,例如专门为AI设计的NPU,还有CPU和GPU。CPU擅长顺序控制和即时性操作,GPU适合处理并行数据流,NPU则在标量、向量和张量数学运算方面表现出色,可用于核心AI工作负载。NPU牺牲部分可编程性以获取更高的峰值性能、能效和面积效率,从而能够运行机器学习所需的大量乘法、加法等运算。通过选用合适的处理器,异构计算能够实现最佳的应用性能、能效和电池续航,为生成式AI体验带来全新的增强。异构计算架构要将不同功能(如CPU、GPU、FPGA、DSP等)或者不同制程工艺的芯片集成在一起,以构建高性能、高能效和多功能的计算系统,这就需要先进的封装技术予以支持。先进封装技术的目标是通过创新的封装架构和工艺,提升芯片性能、降低功耗、减小尺寸并优化成本。参考SiP与先进封装技术,可以把先进封装分为两大类:一是基于XY平面延伸的先进封装技术,主要依靠RDL进行信号的延伸和互连;二是基于Z轴延伸的先进封装技术,主要通过TSV进行信号延伸和互连。

本文主要论述了端侧AI发展相关的多种技术要素。阐述了大模型端侧部署的意义与市场潜力,存算一体技术对端侧AI大模型商业化的重要性,NPU赋能端侧大模型的方式以及异构计算架构实现所需要的先进封装技术支持等多方面内容。

原创文章,作者:Wonderful,如若转载,请注明出处:https://www.gouwuzhinan.com/archives/22626.html

(0)
WonderfulWonderful
上一篇 2025年2月23日
下一篇 2025年2月23日

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注