Intel列出的其他更新包括分支预测器的改进


[IT搜购网 原创] 2018-12-14 10:05:15 编辑:
Intel列出的其他更新包括分支预测器的改进,以及由TLB和L1-D带来的有效负载延迟降低。不过雷锋网获悉,有人指出这些改进无法帮助到所有用户,可能只有全新的算法才能使用这些特定部分的核心能力。

  除了架构上的差异,Sunny Cove还增加了新的指令以帮助加快专业计算任务。随着AVX-512单元的出现,新架构将支持用于大算术计算的IFMA(带符号熔加运算)指令,这些指令在密码学中非常有用。Sunny Cove还支持Vector-AES、Vector Carryless Multiply、SHA、SHA-NI以及Galois Field指令,这些指令也是密码学的一些元素中的基本构建块。

  Sunny Cove支持更大的内存容量,其主存储器分页表从4层增加到了5层,支持最多57bit线性地址空间和最多52bit物理地址空间,这意味着服务器处理器理论上可支持单插槽4TB内存。

  根据Intel之前的Xeon路线图,Sunny Cove将在2020年与Ice Lake-SP一起在服务器领域上市。为了安全起见,Sunny Cove具有多密钥全内存加密和用户模式指令预防功能。

  Gen11核心显卡

  2015年,Intel推出了采用Gen9核心显卡的Skylake处理器,不过随后Kaby Lake和Coffee Lake的核心显卡都只是Gen9.5而非Gen10。实际上,Intel 10nm Cannon Lake处理器本该对应Gen10,但Intel从未发布过带核心显卡的PC端Cannon Lake处理器。

  今天,Intel首席架构师、核心与视觉计算集团高级副总裁兼边缘计算解决方案总经理Raja Koduri直接公布了全新的Gen11核心显卡,并重申了在2020年推出独立图形处理器的计划。

  根据路线图,Gen11核心显卡将于2019年开始随10nm处理器一同面世,配备64个EUs(增强型执行单元),运算规模是此前Gen 9核心显卡的2倍,浮点运算性能超过1TFlops。这64个EUs被分成4个切片,每个切片由2个8EUs的子切片组成,每个子切片均拥有指令缓存和3D采样器,而较大的4个切片则拥有2个媒体采样器、1个PixelFE以及额外的加载/存储硬件。

  Intel并没有透露太多关于如何提高EU性能的详情,但表示EU内部的浮点运算单元接口是重新设计,支持快速(2x)FP16性能。每个EU均像以前一样支持7个线程,这意味着整个GPU有512个并发管道,Intel表示已经重新设计了内存接口,并将GPU的L3缓存增加到3MB,相比Gen9.5增加了4倍。

  Gen11核心显卡的一项重大改进是终于支持了瓦片式渲染,这让Intel成为继2014年的NVIDIA和2017年的AMD之后,最后一个实现这一特性的PC GPU供应商。虽然瓦片式渲染不是解决GPU性能问题的灵丹妙药,但是优化良好的瓦片式渲染可以很好的适应核心显卡的带宽限制。

  与此同时,Intel的无损内存压缩技术也有所改善,在最佳情况下性能可提高10%,平均可提高4%。GTI接口现在支持每个时钟读写64字节以增加吞吐量,以与重新设计的内存接口相配合。

  Gen11核心显卡还支持Intel全新的多速率着色技术Coarse Pixel Shading(粗像素着色),这与NVIDIA的可变像素着色很相似,能让GPU减少阴影部分像素所需的渲染操作量。Intel为CPS展示了两个演示,其中像素阴影分别作为与相机距离和屏幕中心相关的一个函数,当物体离相机或屏幕中心较远时渲染量减少,其设计目的是帮助VR实现注视点渲染等功能,Intel表示游戏在支持这一技术后可提高约30%的帧率。

  Raja Koduri宣布了Intel独立显卡业务的新产品品牌:Xe,目前仍被非正式的称为“Gen12”系列,将从2020年开始覆盖从客户端到数据中心的所有领域,也涵盖了未来的核心显卡解决方案,Intel希望Xe从入门到中档,再到发烧友以及AI,都能向竞争对手最好的产品发起竞争。

  Xe将从10nm节点开始,为未来几代图形奠定基础,并将遵循Intel的单一堆栈软件哲学,即希望软件开发人员能够利用CPU、GPU、FPGA和AI,所有这些都使用同一套API,这表明Intel已经准备好围绕一个品牌向前发展。

  作为架构日活动的一部分,Intel在现场进行了大量芯片演示,据称这些演示均是基于新的Sunny Cove核心和Gen11核心显卡,目前的演示涉及项目包括7-Zip应用和铁拳7游戏两部分。

  7-Zip项目相对直接,演示机的同频性能相较于SkyLake平台提高了75%,展示了Sunny Cove架构的Vector-AES和SHA-NI等新指令所带来的特殊用途性能提升。而在铁拳7中,Sunny Cove+Gen11的演示机与SkyLake+Gen9相比更顺畅,完全超出30fps的最低要求。

  改变芯片制造方式的Foveros 3D封装

  关注过半导体芯片设计的人都应该清楚,目前生产的大多数CPU和SoC都是基于单片芯片的模具,即在封装和进入系统之前,单片硅片内就已经具备了所需的一切。此外,还有一些带有共享连接的多芯片封装,以及将不同芯片通过高速互连连接在一起的载板或嵌入式桥产品。

  在现代芯片设计中,最大的挑战之一是尽量减少芯片面积,这样可以降低成本和功耗,并且可以使其更容易在系统中实施。不过,当涉及到提升性能时,大型单芯片或多芯片封装的缺点之一是与内存距离太远,因此Intel准备将3D堆叠引入大众市场。

  Raja介绍称,Intel数十年来一直专注于高性能工艺节点,试图尽可能多的释放其内核性能。除此之外,Intel还以类似的节奏运行IO优化工艺节点,但更适合PCH或SoC类型的功能。

  126x和127x是Intel进程节点技术的内部编号系统,不过图上并没有区分出带“+”后缀的节点变体。Raja展示了现有的2019年工艺技术,计算核心方面有10nm的1274工艺,IO方面有14nm的1273工艺,而本次介绍的Foveros 3D堆叠技术工艺代号是P1222。展望未来,Intel将扩大其节点基础,以便它可以覆盖更多的功率和性能点。

  为了实现这一目的,一种方法是通过贴片和封装,为每种情况下的工作选择最佳晶体管,无论是CPU、GPU、IO、FPGA、RF还是其他东西,只要使用正确的封装,就可以将它们放在一起以获得最佳的优化。

  这正是Foveros的用武之地。Foveros是英特尔新推出的有源载板技术,其设计相比2018年推出EMIB(嵌入式多芯片互连桥接)2D封装技术,更适用于小尺寸产品或对内存带宽要求极高的产品。在这些设计中,每比特传输的数据的功率非常低,而封装技术要处理的是凹凸间距减小、凹凸密度增大以及芯片堆叠技术。Intel表示Foveros已经准备就绪,可以大规模生产。

  这个技术的第一次迭代不像上面的幻灯片那么复杂,只是使用了一组连接到下面PCH的CPU核心,但Intel可以在不同的芯片上使用不同的晶体管类型,比如在一块使用22FFL制程的载板上放置一组10nm的CPU。

  Intel在架构日现场展示了Foveros芯片,其采用22FFL IO芯片作为有源载板,并用TSV(硅通孔技术)连接了一颗10nm芯片,其中包含1个Sunny Cove内核和4个Atom内核(可能是Tremont)。这款微型芯片尺寸为12*12,待机功率仅为2mW,看起来似乎是面向移动设备。

  在Intel的幻灯片上可以看到,Sunny Cove内核的“Big CPU”带有0.5 MB独享L2缓存,4个小型Atom内核则有1.5MB共享L2缓存,两组核心共享4MB L3缓存。芯片还集成了64EUs的Gen11核心显卡、四通道LPDDR4内存控制器(4*16bit),以及支持DisplayPort 1.4的MIPI(移动产业处理器接口)。

  Jim Keller表示,Intel正在尝试使用Foveros技术制造许多新玩意儿,看看哪些可能成为一个好产品,因此在2019年和2020年业内应该能看到更多Foveros产品。

  一些周边消息

  在本次架构日活动中,最“没激情”的部分应该是有关数据中心产品的讨论。Intel之前已经公布了企业市场接下来的两款产品是Cascade Lake和Cooper Lake,均以14nm为基础,专注于增强安全性以及帮助加速的AI指令,随后还会有10nm的Ice Lake Scalable,但也仅此而已。

  不过在活动中Intel还是证实了Ice Lake将基于Sunny Cove架构打造构建,并展示了Ice Lake Xeon 10nm处理器的封装,算是一点安慰性的新消息吧。

  此外,Intel还在活动上介绍了傲腾技术、One API软件以及深度学习参考堆栈等内容。

  One API软件:Intel宣布推出“One API”项目,以简化跨CPU、GPU、FPGA、人工智能和其它加速器的各种计算引擎的编程。该项目包括一个全面、统一的开发工具组合,以将软件匹配到能最大程度加速软件代码的硬件上。公开发行版本预计将于2019年发布。

  傲腾技术:Intel傲腾数据中心级持久内存作为一款新产品,集成了内存般的性能以及数据的持久性和存储的大容量。这项技术通过将更多数据放到更接近CPU的位置,使应用在人工智能和大型数据库中的更大量的数据集能够获得更快的处理速度。其大容量和数据的持久性减少了对存储进行访问时的时延损失,从而提高工作负载的性能。

  Intel傲腾数据中心级持久内存为CPU提供缓存行(64B)读取。一般来说,当应用把读取操作定向到傲腾持久内存或请求的数据不在DRAM中缓存时,傲腾持久内存的平均空闲读取延迟大约为350ns。如果实现规模化,傲腾数据中心级固态盘的平均空闲读取延迟约为10000ns(10μs),这将是显著的改进。在某些情况下,当请求的数据在DRAM中时,不管是通过CPU的内存控制器进行缓存还是由应用所引导,内存子系统的响应速度预计与DRAM相同(小于100 ns)。

  Intel还展示了傲腾与QLC固态硬盘的结合,将降低对最常用数据的访问延迟。总体来说,这些对平台和内存的改进重塑了内存和存储层次结构,从而为系统和应用提供了完善的选择组合。

  深度学习参考堆栈(Deep Learning Reference Stack):这是一个集成、高性能的开源堆栈,基于Intel至强可扩展平台进行了优化。该开源社区版本旨在确保人工智能开发者可以轻松访问Intel平台的所有特性和功能。深度学习参考堆栈经过高度调优,专为云原生环境而构建。该版本可以降低集成多个软件组件所带来的复杂性,帮助开发人员快速进行原型开发,同时让用户有足够的灵活度打造定制化的解决方案。

  操作系统:Clear Linux 操作系统可根据个人开发需求进行定制,针对Intel平台以及深度学习等特定用例进行了调优;

  编排:Kubernetes可基于对Intel平台的感知,管理和编排面向多节点集群的容器化应用;

  容器:Docker容器和Kata容器利用Intel虚拟化技术来帮助保护容器;

  函数库:Intel深度神经网络数学核心函数库(MKL DNN)是Intel高度优化、面向数学函数性能的数学库;

  运行时:Python针对Intel架构进行了高度调优和优化,提供应用和服务执行运行时支持;

  框架:TensorFlow是一个领先的深度学习和机器学习框架;

  部署:KubeFlow是一个开源、行业驱动型部署工具,在Intel架构上提供快速体验,易于安装和使用。

分享到:

频道精选

IT搜购网简介 | 广告服务 | 招聘 | IT搜购记事 | 站点地图 | 联系方式 | RSS订阅 | 猴科技
Copyright ©2005 - 2016 ITSOGO. All rights reserved. IT搜购网 版权所有. 冀ICP备13010806号
禁止搜索引擎以外爬虫抓取