68亿只晶体管、1,954,560个逻辑单元(容量相当于市场同类最大28nm FPGA的两倍)、305,400个CLB切片的可配置逻辑块(CLB)、21,550Kb的分布式RAM容量、以及2,160个DSP slice、46,512个BRAM、24个时钟管理模块、4个PCIe模块、36个GTX收发器(每个性能达12.5 Gbps)、24个I/O bank和1,200个用户I/O、19W功耗……是的,您没有看错,这一连串令人眼花缭乱的数字,就是赛灵思(Xilinx)日前宣布可正式供货的“世界最大容量”FPGA Virtex-7 2000T为我们呈现出的令人震撼的性能指标。
2010年10月,Xilinx高调宣布推出业界首项堆叠硅片互联技术(SSI,Stack Silicon Interconnect)。该公司全球高级副总裁兼亚太区执行总裁汤立人强调说,之前曾有厂商试图通过将两个或多个FPGA进行逻辑互联,创建出更大型的“虚拟FPGA”,最终实现复杂设计。但往往由于可用I/O数量有限,再加之FPGA间信号传输造成的时延限制性能,以及使用标准的器件I/O来创建多个FPGA之间的逻辑连接增加功耗等因素,这些努力都宣告失败。而SSI技术的核心则来自于赛灵思专利的ASMBL架构、微凸块技术以及TSMC的硅通孔(TSV)技术。
2.5D SSI的主要技术突破
Virtex-7 2000T是Xilinx采用台积电(TSMC)28nm HPL工艺(低功耗高介电层金属闸技术)推出的第三款FPGA。更重要的是,这将是“世界上第一个采用SSI技术的商用FPGA”。赛灵思方面将该项技术命名为2.5D SSI。汤立人坚持认为,2.5D并不意味着就比传统意义上的3D封装性能差。事实上,如果将逻辑单元与内存进行垂直堆叠(Vertical Stacking),也就是所谓的3D封装,现在面临着散热、RAM/Logic等有源层之间因为膨胀系数不同,导致内部应力不均,影响晶体管性能等多项重要挑战。“赛灵思同样看好不带中介层的完全3D IC堆叠技术前景,但从目前来看,该技术在整个产业中实现标准化还要花更长的时间。”
“我们的2.5D SSI结构采用并排式芯片布局,将4个经ASMBL架构优化的FPGA Slice并排排列在硅中介层上,Slice之间拥有超过10,000个过孔走线,时延仅为1纳秒。然后再通过微凸块将硅片连接至硅中介层。”汤立人进一步解释说,“由于采用的是大量低延时、芯片间互连,并连接至球形栅格阵列,从而也避免了垂直硅片堆叠方法出现的热通量和设计工具流问题。”
几项关键技术中,赛灵思专有的ASMBL架构是实现SSI技术的基础。在该基础之上,赛灵思又进行了三项重大改进:首先,每个芯片Slice接收自己的时钟和配置电路;其次,对走线架构进行了改进,通过对芯片进行表面钝化处理,实现了FPGA逻辑阵列内部布线资源的直接连接,绕开了传统的并行和串行I/O电路;最后,对每个芯片Slice进行进一步加工,形成微凸块,以便将芯片连接到硅基片上。与采用传统I/O相比,正是这项创新使连接的数量大幅增加,同时又显著降低了时延和功耗(与标准I/O相比,单位功耗芯片间连接功能可提高约100倍)。
来自TSMC的无源硅中介层也功不可没。汤立人介绍说,硅中介层最初是针对各种芯片堆叠设计方法而开发的,相当于硅片中一种微型电路板,其上并行放置多个芯片并相互连接。与有机或者陶瓷基片相比,硅中介层能够提供更好的互联几何构造(走线间距可缩小约20倍),以提供器件规模的互联层级,实现超过1万条芯片间连接。
通过结合使用硅通孔技术与受控的塌落芯片连接(C4)焊锡凸块,赛灵思得以将FPGA/中介层堆叠用倒装片组装技术贴装到高性能封装基片上。这种大节距硅通孔为并行和串行I/O,电源/接地、时钟、配置信号等提供了封装和FPGA之间的连接。