"); //-->
在过去的几年中,诸如“多线程”,“多处理”和由此衍生出的市场术语等术语已开始作为现有电子设计自动化(EDA)软件的功能出现。同时,廉价的计算资源的可用性(最好地体现在当今可用的多核中央处理器(CPU)中)可以提供一种经济有效的方式来减少EDA软件的运行时间。
物理设计和物理验证软件是需要此类技术的计算密集型EDA应用程序的示例。一个示例是典型的蒙版,其中可能包含数十亿个物理几何形状。必须创建掩模布局中的每个几何图形,设计自定义库,然后放置和布线,并将其组装成完整的芯片。每种几何形状都必须经过验证,以符合铸造厂的制造要求,同时还要面对越来越多的复杂设计规则。对于现代设计,单CPU运行时间很容易超过数百小时。显然需要并行处理。
两种众所周知的趋势-设计复杂性和制造复杂性-每年都使挑战变得更大。例如,从90纳米(nm)迁移到65纳米工艺节点的设计人员发现设计检查的复杂性增加了3倍。过渡到45纳米和40纳米的过程更加复杂,因为制造工艺自由度的降低使设计规则检查(DRC)的设计和验证软件变得更加复杂。复杂的线路末端以及通过由亚波长光驱动的配置规则
光刻问题就是很好的例证。现在,单个度量是规则,方程式或模型中包含的一组复杂度量。
由于需要并行设计和分析来避免设计进度表的延迟,因此计算负担更加复杂。进行物理设计然后运行单独的物理验证阶段也不再足够。由于制造规则的复杂性,在物理设计过程中需要进行所有层,规则和签核检查。如果不这样做,在完成布局布线后,设计团队将清理DRC或布局与原理图(LVS)错误,这将导致代价高昂的设计延迟,从而在引入并发时增加了另一层次的复杂性。
最后,按时交付项目的需求至关重要-尤其是在今天,开始的设计较少,掩膜成本较高且如果错过了市场窗口,财务后果将非常严重。
随着复杂度的增加,设计时间必须保持恒定,如果不能改善的话。所有公司都希望事半功倍。
当今的目标设计是在40纳米处,顶层具有1亿个单元实例,并且具有内存和模拟/混合信号内容的混合。有效设计和验证的计算复杂度增加了6倍,这使得使用传统流程几乎无法完成65纳米设计变得极为耗时。
交付解决方案需要新的软件架构,该架构必须具有灵活的灵活性,以实现跨大量CPU内核的线性可伸缩性,以及强大的数据模型,可以在设计和验证之间进行并发。
所需的解决方案
硬件供应商面临这样的现实,即由于功率限制而无法持续增加时钟频率,因此已经采用并行机制来提高性能。考虑在多插槽主板中使用多核CPU。图形处理器单元(GPU)是高度并行的单指令多数据(SIMD)机器,并且具有适当的应用程序编程接口(API)(例如NVIDIA的CUDA接口或AMD的ATIStream)是通用计算的潜在强大解决方案。
针对软件供应商的解决方案是有效地利用这些资源,这取决于软件使用硬件的能力以可负担的方式加速计算,也就是说,无需昂贵的定制硬件解决方案。当需要大量内存,软件被约束为只能在一台计算机上运行或者需要昂贵的自定义互连时,会产生成本。
例如,可以以低于5,000美元的价格购买配置合理的八核x86Linux计算机,该计算机具有双CPU和64GB内存。将内存占用空间增加到此之外是很昂贵的-达到128GB或更高的成本会使该基本配置的成本达到40,000美元或更高。
理想的解决方案将在标准配置(64GB)或低端配置(32GB或16GB)的四核或八核Linux计算机的标准网络上线性扩展。线性可伸缩性意味着在四台计算机上运行将比在两台计算机上运行快4倍。幸运的是,如今此类Linux计算场很普遍,负载共享工具(LSF)或GRID分布式计算可用于动态调度大量软件应用程序的作业,从合成和电路仿真到物理设计和验证。
物理验证的参考解决方案
物理验证工具在设计的布局上执行几何分析,以验证可制造性。DRC是这些分析的很大一部分,一个简单的示例是检查一根导线到另一根导线的间距。
传统的物理验证工具依赖于标准的“数据库”方法进行此类计算。该技术很简单-设计师以快速可搜索的数据结构表示布局,并查询相邻的几何形状以检查导线之间的距离。
跨多个CPU内核加速这种类型的计算似乎微不足道-设计人员可以并行计算许多导线的距离。实际上,如果所有CPU都在同一台计算机上并且该计算机具有足够的内存来完全表示布局,则此方法可以很好地扩展。
不幸的是,设计的大小使得这两个假设现在都无效。首先,如果规则复杂,则简单的分而治之的方法将不起作用。在65纳米和45/40纳米,基于连接的新检查很常见,以反映需要电连接以确保可制造性和可靠性。
其次,几何形状的数量使得一台机器没有足够数量的CPU内核来满足周转时间要求。通过计算,在标准Linux网络上从一台计算机到另一台计算机查询数据库效率很低。
最后,布局数据库的大小(在许多40nm设计中为100GB以上)使得数据库方法需要使用昂贵的高内存硬件来使用此计算方法。有些工具需要256GB的计算机。
最近,计算机科学家宣传了一种称为数据流或流架构的不同方法。在进行物理验证的情况下,布局不表示为数据库,而是表示为几何流,这在很大程度上类似于MP3文件是声音流而不是音符集合。
流方法的优点是它对多核,多CPU和多计算机设置友好。由于不再依赖于内存数据库,因此处理核在何处不再重要-它们可以位于不同的裸片,不同的封装,不同的主板或不同的机器上。
流架构支持并行性,并行性可以从一个内核扩展到四个内核,从16个内核扩展到64个内核,甚至更高。作为独立物理验证软件的指南,需要在16个核上实现线性可扩展性,以在65nm节点上实现有效的周转时间。对于45/40-nm,需要32核到64核的可伸缩性,而有效的32/28-nm全芯片验证将需要128核。
第二个优点是,由于没有中央布局数据库,流传输体系结构的内存使用率较低。正如大多数设计人员所知,即使将内存使用量减少2倍,也可以使现有硬件的快速运行与死机并需要昂贵的硬件升级或导致较长的计划延迟之间产生差异。流技术使设计人员能够将大型应用程序用于需要大内存的应用程序(例如,签核时序分析程序),并可以将标准硬件用于高效的流应用程序。
第三个优点是,即使在单个CPU内核上,它们也可以比传统数据库方法更快地运行。从本质上讲,数据库方法涉及从CPU到主内存数据库的随机查询。计算机算法可以提高这种查询的算法复杂度(例如O(logn),其中n是几何数)。CPU等待内存请求返回的查询速度受到阻碍-从L1缓存到L2缓存再到主内存,甚至可能到磁盘交换。
流体系结构使所有数据保持本地化(通常在CPU缓存限制之内),这比获取主内存至少提供10倍的优势。尽管并非所有时间都在花费EDA软件来等待内存提取,但很明显,流技术可用于甚至提高单CPU效率。
流式架构的一个缺点就是它的强度。因为没有集中的内存数据库,所以需要非本地化数据的操作可能会很复杂。例如,如果所需的计算是从设计中获取两个随机对象,则假定数据已加载到内存中,则大型存储计算机上的数据库方法将更快。
物理验证应用程序-从DRC(包括基于天线和连接性的检查,到LVS到电气规则检查),都可以进行流计算。对于基于连接的操作(例如天线检查或电压相关的网络检查),每个网络都可以可视化为相互连接的几何流。
用于物理验证的流传输架构的一个示例是Magma的QuartzDRC和QuartzLVS。与传统的物理验证工具不同,Quartz是针对大型并行计算而编写的。大多数其他工具都依赖于在1980年代和1990年代设计该软件时普遍适用于计算服务器环境的架构。
下表显示了这一优势。在这里,CPU内核的数量从一个或基线增加到64个。相对速度绘制在Y轴上。线性可扩展的应用程序遵循45度线-4倍于CPU数量4倍的速度。如图所示,流工具可以在标准LSF环境中线性扩展。相比之下,只要所有计算都可以在同一台机器上完成,传统的数据库方法就可以合理地扩展。超过一定点后,可伸缩性就会减弱,并最终达到饱和,在这种情况下为8到16。
但是,流计算不是万能的。因为位置和路线是高度交互的并且涉及许多不同的服务,从寄生建模到时序和噪声分析,所以集中式数据结构/数据库是最有效的。对于此类应用,对算法设计的仔细关注也可以实现大规模并行性。
流计算的另一个挑战是利用非传统核心。在上面的示例中,Quartz使用IBM,Intel和AMD的微处理器中常见的标准CPU内核。
NVIDIA和AMD的GPU中发现的专用内核缺乏CPU内核的通用计算能力。专用的EDA应用程序已移植到GPU,包括英特尔在内的图形提供商的未来路线图都指向功能更强大的GPU内核。
*博客内容为网友个人发布,仅代表博主个人观点,如有侵权请联系工作人员删除。