|
|
|
|
移动端

AI是如何影响计算机内存系统的?

从 20 世纪 80 年代至 20 世纪 90 年代早期,由于相对较低的 CPU 性能,计算机系统达到了一个瓶颈期,因此也限制了应用的功能。受摩尔定律的影响,在这些年间,晶体管的数量有了极大的增长,因此提升了计算机系统的表现,也为激动人心的新型应用提供了可能。

作者:AI黑科技来源:AI前线|2018-06-12 08:53

技术沙龙 | 邀您于8月25日与国美/AWS/转转三位专家共同探讨小程序电商实战

从 20 世纪 80 年代至 20 世纪 90 年代早期,由于相对较低的 CPU 性能,计算机系统达到了一个瓶颈期,因此也限制了应用的功能。受摩尔定律的影响,在这些年间,晶体管的数量有了极大的增长,因此提升了计算机系统的表现,也为激动人心的新型应用提供了可能。

虽然计算能力在这些年间已经有了极大的提升,但这些瓶颈已经转移到了计算机系统的其他部分上。简单来说,虽然摩尔定律已经解决了处理能力的需要,同时也使新的计算模式成为了可能,但现在工业界仍然有一系列的挑战需要去面对。

 进化的装置与计算模型

1990 年至 2000 年这段时期的特点是围绕着桌面和工作站进行的中心化计算。2000 年至 2010 年间,由于连接性与处理能力的提升,移动计算、智能手机、云计算逐渐兴起。然而在 2010 之后,物联网设备与传感器的兴起带动了向雾计算 / 边缘计算的转型。后者使处理过程更加贴近于数据,有效地改进了延迟、带宽与能耗问题。

现在有许多重大的应用正在推动着计算的发展,比如机器学习与神经网络,高级车辆驾驶辅助系统与自动驾驶技术,高性能计算与区块链和加密货币的挖掘技术。

人工智能驱动芯片和系统架构开发的具体例子包括英特尔的 Nervana 神经网络处理器,利用 FPGA 的微软 BrainWave 平台和谷歌的张量处理单元(TPU)。除此以外的例子包括 Wava Computing 的数据流处理单元,Graphcore's 的 IPU,Cambricon 的深度学习智能处理器,AMD 的 Radeon Vega 10 以及 nVidia 的 Tesla V100。

内存带宽的重要性:房顶线模型

人工智能应用如何随着硬件的发展而演?一个著名的分析工具就是房顶线模型,它可以显示应用程序将底层硬件的内存带宽以及处理能力发挥到了何种地步。

房顶线会随着不同的系统架构而不同。在上面的图像中,Y 轴代表每秒的操作表现,X 轴代表了操作强度或者说每个字节的操作的次数。两个像建筑顶部的限制用绿色的线来表示。第一条是一条斜线,展现了由内存带宽施加的限制。第二条线是一条水平线,展现了由硬件计算性能施加的限制。这两条线一起形成了一个房顶线的形状,这个模型的名字也是由此得来的。

运行在内存带宽不足或者每字节数据执行很少操作的体系结构上的应用程序通常会落在房顶线倾斜部分或以下。具有足够内存带宽或具有较高操作强度的应用程序通常会落在房顶线的水平部分或以下。 在这个例子中,运算强度 = 10 的应用程序受内存限制,而运算强度 = 10000 的应用程序受计算限制。

该图表来自 Google 关于第一代 TPU 的论文,并比较了 TPU 与较旧的、更加通用的硬件(如:Haswell,K80)在各种类型的基于神经网络的推断任务上的性能。 虽然这些应用通常在这些架构上表现良好,但像 Google TPU 这样的新型专用芯片往往会受内存带宽的限制,有些应用会落在房顶线倾斜部分或附近。 较新的芯片和平台正寄希望于采用高带宽内存系统的方案解决 AI 芯片和系统对带宽的需求。

 常见的用于 AI 应用的内存系统

这里有大量的适合 AI 应用的存储选择,包括片上存储器(具有最高带宽跟功率效率),HBM(非常高的带宽与密度)还有 GDDR(其在带宽、功率效率、花费与可靠性之间达到了很好的平衡)。

首先,让我们仔细看看片上存储器,它在微软的 BrainWave 与 Graphcore 的 IPU 中使用。其优势包括极高的带宽与效率,低延迟,高利用率,同时不需要批量配置。另一方面,虽然可以重复计算数据以节省空间,但相比于 DRAM,片上存储器会受到较低存储容量的限制。除此之外,可扩展性主要需要通过多个连接的卡和芯片实现。

同时,HBM 可以在英特尔的 Nervana,Nvidia 的 Tesla V100 和 Google 的 TPU v2 中找到。 其优点包括极高的带宽(每 HBM2 DRAM 达到 256GB / s)和高功率效率,并且由短的内部互连和宽带低速接口推动 1024b@2Gbps 提供加速。然而,HBM 确实带来了许多工程难题,例如巨大的 IO 数量,高额成本,设计复杂性,额外的内插器组件以及更加困难的系统集成。

最后,与 HBM 相比,GDDR 提供高带宽和高容量的配置,以及更加容易的集成和系统工程。 然而,由于 IO 的高数据速率,其保持良好的信号完整性比其他外部存储器更困难。 简而言之,GDDR 在带宽、容量、功率效率、成本、可靠性和设计复杂性之间提供了折中权衡。

 结论

总而言之,人工智能应用正在推动新的芯片和系统架构的发展。 内存带宽是人工智能应用的重要资源,内存选项的多样性可以适应不同的人工智能应用程序需求。 这些包括片上存储器,HBM 和 GDDR。 他们提供的权衡范围将使未来能够构建起各种 AI 芯片和系统。

【编辑推荐】

  1. Raft和Paxos在分布式存储系统中的应用差异
  2. 是时候把分布式存储系统的理论指导从CAP转到PACELC
  3. 选择云数据存储服务的5个注意事项
  4. 高性能计算知识: 深度解析Lustre体系结构
  5. 云计算NAS提供跨本地和云端的文件访问
【责任编辑:武晓燕 TEL:(010)68476606】


点赞 0
分享:
大家都在看
猜你喜欢
24H热文
一周话题
本月最赞

热门职位+更多

读 书 +更多

2006软考上半年试题分析与解答

本书是针对全国计算机技术与软件专业技术资格(水平)考试而编写的,书中详尽分析与解答了2006年上半年的程序员级、软件设计师级、软件评测...

订阅51CTO邮刊

点击这里查看样刊

订阅51CTO邮刊