2020 CCF 集成电路设计与自动化学术会议

基本信息

2020 CCF 集成电路设计与自动化学术会议

北京

2020-08-10

2020-08-10

中国计算机学会

会议文集

  • 1. 300MHz抗辐照SPARC处理器设计

    摘要: 300MHz抗辐照SPARC处理器BM3823以自主研制的32位SPARC V8处理器内核为核心,集成了以太网MAC、256KB片上存储、DDR2控制器和PHY、UART、SPI、I2C等外设接口.处理器设计采用模拟空间辐照环境故障模型注入仿真技术,分析处理器辐照敏感性,找出抗辐照敏感关键节点和薄弱环节,多维度进行相应的抗辐照加固,包括单元库加固、三模冗余加固、纠检错、纠错流水线设计等,在满足空间恶劣环境应用要求的基础上,尽可能优化性能和功耗.抗辐照SPARC处理器BM3823总剂量指标为300Krad(Si)以上,单粒子功能在轨错误率(GEO轨道)低于7.77x10-6次/天·器件,单粒子锁定SEL指标达到锁定免疫,与欧空局GR740的抗辐照水平相当.

    作者:

    陈雷;Chen Lei;Zhao Yuanfu;赵元富;Yu Lixin;于立新;Zhuang Wei;庄伟;Peng Heping;彭和平;Hou Guowei;侯国伟;Zhang Shiyuan;张世远;Yang Xue;杨雪;Liu Yali;刘亚丽;Li Jiancheng;李建成;王亮;Wang Liang;Wang Fuqing;王福庆

    提交时间:2020-08-10

  • 2. LS频段2.4GHz高性能LC压控振荡器设计

    摘要: 本文设计了一种应用于蓝牙、IoT和Wi-Fi等主流LS频段2.4GHz高性能LC压控振荡器(LC Voltage-controlled Oscillator,LC-VCO).对基于脉冲敏感函数(Impulse Sensitivity Function,ISF)设计的低相位噪声VCO,采用有源MOS晶体管等效替代无源电阻和电容,以优化版图面积和功耗,且抑制无源器件的精度偏差以提高VCO综合性能.采用TSMC65nm/1.8V CMOS RF工艺实现前后端设计和性能验证.后仿真结果显示,改进型压控振荡器具有2.292~2.496GHz的204MHz调谐带宽,-128.207dBc·Hz-1@1MHz的相位噪声,1.8V电源电压驱动下的功耗可低至2.828mW,综合优值FoM高达-195.34dBc·Hz-1.经对比,本设计各项指标优于多个同频段同类型的LC压控振荡器.

    作者:

    Duan Wenjuan;段文娟;Wang Pengfei;王鹏飞;Yu Shilong;蔚世龙;Meng Qingduan;孟庆端;Liu Bo;刘博

    提交时间:2020-08-10

  • 3. 一种低系统开销的多TSV子阵列联合数据传输方法

    摘要: 串扰抑制编码往往具有图形限制特性,在小规模TSV阵列中应用时,可以在合理的编解码器面积开销下取得良好的串扰抑制效果.分析发现,多个TSV子阵列联合数据传输情形与多个TSV子阵列独立数据传输情形相比,图形限制码的系统开销有所下降.针对参与数据联合传输的子阵列最优数量问题,本文提出了求解算法,并给出了相应的理论证明.面向多TSV子阵列联合数据传输场景,本文设计了相应的编解码方法.仿真结果表明,本文所提出的方法在系统开销、传输延迟、传输功耗、编解码器面积等方面均优于已有的基于斐波那契数系的串扰抑制编码方法.

    作者:

    Feng Xu;冯旭;Cui Xiaole;崔小乐;Wei Chen;魏琛;Cui Xiaoxin;崔小欣;Jin Yufeng;金玉丰

    提交时间:2020-08-10

  • 4. 一种单粒子四点翻转自恢复加固锁存器设计

    摘要: 为了容忍日益严重的单粒子多点翻转,本文提出了一种能够容忍单粒子四点翻转的加固锁存器:QNURL(Quadruple Node Upset Recovery Latch).该QNURL锁存器包含40个同构的双输入反相器,形成5×8的阵列结构,构建多级过滤的容错机制.有效利用双输入反相器的单粒子过滤特性,当任意4个内部状态节点同时发生翻转,都可以被多级过滤机制消除,自动恢复到正确值.PTM32nm工艺下的仿真结果表明,与现有的四种单粒子多点翻转加固锁存器综合比较,该QNURL锁存器的单粒子四点翻转自恢复比率高达100%,延迟平均降低了86.02%,功耗延迟积(PDP)平均降低了78.94%,功耗平均增加了59.09%,面积平均增加了4.63%.

    作者:

    Huang Zhengfeng;黄正峰;郭阳;Guo Yang;Li Xueyun;李雪筠;Xu Qi;徐奇;Song Tai;宋钛;Qi Haochen;戚昊琛;欧阳一鸣;Ouyang Yiming;Ni Tianming;倪天明

    提交时间:2020-08-10

  • 5. 一种阵列式版图布局的低温度系数CMOS带隙基准源

    摘要: 设计了一种低温度系数的自偏置CMOS带隙基准源,分析输出基准电压与关键器件的温度依存关系,调试器件尺寸并使其影响输出的正/负温度系数相互抵消,有效实现基准输出电压的低温度漂移特性.后端物理设计采用多指管阵列结构进行对称式版图布局,以期抑制工艺波动的同时压缩版图面积.基于65nm/3.3V CMOS RF器件模型在Cadence IC设计平台进行原理图和电路版图设计,并对输出参考电压的精度、温度系数、电源抑制比和功耗特性进行了仿真分析和对比.结果表明,在3.3V电源和27℃室温条件下,输出基准电压的平均值为765.7mV,功耗为0.75μW;在-55℃~125℃内,输出温度系数为6.85ppm/℃.此外,输出基准电压受电源纹波的影响较小,1KHz以下中低频带的电源抑制比约为-67.7dB.最后对多指管阵列版图展开寄生提取和后仿真分析,结果显示,输出基准电压的绝对值与温度系数与前仿真基本一致.

    作者:

    Wang Pengfei;王鹏飞;Duan Wenjuan;段文娟;Zhang Liwen;张立文;Liu Bo;刘博

    提交时间:2020-08-10

  • 6. 可调可重构的环形振荡器物理不可克隆函数

    摘要: 针对环形振荡器物理不可克隆函数均匀性与独特性不够理想的问题,提出了一种可调可重构环形振荡器物理不可克隆函数设计,该设计包含可重构环形振荡器模块,整合器模块和裁决器模块.可重构环形振荡器模块由多个独立且具有相同设计的可重构环形振荡器-计数器组构成,芯片各部分的工艺偏差由计数器的数值反映;整合器模块通过将多个计数器数值进行排序并依次做差,以减弱芯片固有时延对物理不可克隆函数均匀性与独特性的影响;裁决器模块经预先设计阈值后,对整合器模块产生的差值进行裁决,产生最终的响应.实验结果表明,在FPGA上实现的可调可重构环形振荡器物理不可克隆函数,其均匀性的平均值为49.36%,独特性的平均值为47.07%,均趋于50%的理想值,取得了一定效果.

    作者:

    Ma Chaofang;麻超方;Ye Jing;叶靖;Li Xiaowei;李晓维;Li Huawei;李华伟;Hu Yu;胡瑜;

    提交时间:2020-08-10

  • 7. 可重配置多指针弹性缓冲器设计方法研究

    摘要: 弹性缓冲器被广泛应用于高速接口协议物理层设计中,用以匹配跨时钟域传输时因时钟相位频率偏差导致的数据同步问题.本文在分析多种接口协议需求的基础上,采用常半满机制,设计并实现了一款参数可配置的多路指针弹性缓冲器.该弹性缓冲器支持10bit、20bit和40bit数据位宽,最小深度为8,最高读写时钟频率为500MHz,通过半满检查方式确定当前存储器内部状态,并以此自动增添或删减控制字符实现缓冲控制.仿真结果表明,本文所设计的弹性缓冲器可以满足多种协议的需求,实现信道数据传输速率的动态匹配.

    作者:

    Fan Shichao;樊仕超;Jia Yiping;贾一平;Shu Yi;舒毅;Yang Haigang;杨海钢;;

    提交时间:2020-08-10

  • 8. 基于FPGA的Darknet网络硬件加速器设计

    摘要: 本文提出了一种基于二维脉动阵列架构的全并行、高吞吐量卷积神经网络硬件加速器.针对卷积层网络架构的不同,阵列架构统一由基于多组卷积核的二维行阵列组成,并相应地设计了行阵列间高效的数据重用算法,该方法可以减少66.3%的数据访问,从而极大降低硬件加速器的功耗.为了进一步改进计算带宽和能耗问题,本文实现了一种卷积与池化一体化的运算方式以便减少中间数据的存储空间.本文利用Pytorch框架,实现了Darknet网络对CIFAR10数据集的分类,分类精度为89.56%.通过VC709开发板进行实验验证,所提出的加速器在200MHz时钟频率下可以达到307.1GOPS的峰值性能.

    作者:

    Liang Yuxin;梁宇欣;Li Hongge;李洪革;Zhang Guangyao;张广耀

    提交时间:2020-08-10

  • 9. 基于LLVM的Verilog编译型模拟方法

    摘要: 在用HDL(Hardware Description Language,硬件描述语言)设计硬件时,模拟仿真是设计周期中保证HDL满足开发者意图的重要一环.事件驱动型模拟是被认为最有效的仿真方式,然而,目前执行事件驱动型模拟的仿真工具生成目标代码的过程较为繁琐:将HDL代码翻译为C++等软件语言,再与用同样软件语言编写的事件调度器混合编译得到目标代码.由于包含额外的中间步骤,效率有较大的提升空间.本文提出一种基于LLVM的Verilog编译型模拟方法,为Verilog语言设计了一种新颖、易于生成的非线性的行为级中间表示.这种中间表示可以直接被转化为LLVM IR,再通过LLVM后端输出成可链接的目标文件,最终得到可执行文件.本文提出的模拟方法避免了C++等高级语言代码生成,节省了编译时间.实验结果表明,与经典模拟方法相比,本文提出的模拟方法有效节省了编译时间,同时具有较高的运行效率.

    作者:

    SUN Zhihang;孙志航;SU Mingxian;苏明贤;YAO Hailong;姚海龙;CAI Yici;蔡懿慈

    提交时间:2020-08-10

  • 10. 基于RISC-V的服务器管理控制器原型设计

    摘要: 服务器管理控制器是云计算装备关键部件之一,目前主要基于ARM架构开发,ARM较高的授权费推高了控制器设计成本,不利于SoC相关产品的迭代和升级.RISC-V是近年提出的一种开源的处理器架构,与ARM同属精简指令集,具有模块化、可扩展等诸多特点.本文采用RISC-V处理器架构(BOOM V2),设计实现了一种基于RISC-V处理器的服务器管理控制器SoC原型系统.该原型系统基于Xilinx的Virtex Ultra Scale440FPGA进行了构建,完成了实际应用场景下的功能测试和CoreMark测试,结果显示处理器性能提升了26%,优于同级别的ARM核心,系统功能符合设计预期.此外,本文基于OpenBMC实现了IPMI等专用管理控制协议,基本功能验证通过,证明了通过RISC-V替换ARM优化SoC架构的可行性.

    作者:

    Li Tuo;李拓;Zou Xiaofeng;邹晓峰;Lin Ningya;林宁亚;Liu Tongqiang;刘同强;Zhou Yulong;周玉龙;Li Rengang;李仁刚

    提交时间:2020-08-10

  • 11. 基于加速交替方向乘子法的并行磁共振成像研究

    摘要: 并行磁共振成像技术是医学成像领域的重要突破.如何提高成像质量、缩短成像时间是并行磁共振成像算法研究一直关注的热点.本文提出一个加速交替方向乘子法,有效避免成像中测量矩阵繁琐计算,提高成像效率.算法在传统交替方向乘子法中引入对称性思想,从提高算法性能出发,在更新中增加一个对偶变量更新的步骤,同时将对偶变量步长范围扩展为大于1的大步长.在子问题求解过程中,借助线性近似技巧有效避免了繁琐的计算,通过修正的Barzilai-Borwein(BB)可变步长策略,提高了算法收敛性能.数值结果表明本文提出的加速交替方向法具有良好的图像恢复功能和收敛性质.

    作者:

    Luo Zhijun;罗志军;Zhu Zhibin;朱志斌;Zhang Benxin;张本鑫

    提交时间:2020-08-10

  • 12. 基于多磁畴铁电晶体管模型的一种高存储密度的二铁电晶体管三态内容寻址内存设计

    摘要: 随着以数据为中心的应用程序的数量不断增长,研究人员正在寻找共置逻辑和存储元素的方法,以改善面积、能耗和延迟.三态内容可寻址存储器(TCAM)作为一种存内逻辑(LiM)运算器件,目前广泛用于路由器,高速缓存和高效的机器学习模型中.从技术前景来看,研究人员已开始考虑使用各种非易失性(non-volatile,NV)存储器技术来设计NV TCAM.与传统的CMOS设计相比,它们可以改善诸如能量和延迟等品质因数(figure of merit FOM).在这些器件中,铁电场效应晶体管(FeFET)凭借其高ON I与OFF I比,高效的电压驱动写入机制,低成本和与CMOS兼容的制造工艺而脱颖而出,基于最新经过实验校准的FeFET模型提出2FeFET TCAM设计.在单元和阵列级别评估了我们的设计,并与其他TCAM进行比较.我们的结果表明,2FeFET TCAM的写入能量分别比用CMOS或ReRAM构成的TCAM少3.5倍和3200倍.单元面积是CMOS TCAM的13%,与ReRAM设计相当.2FeFET TCAM的搜索能量延迟乘积(EDP)分别也比CMOS和ReRAM TCAM小4.1倍和2.8倍.

    作者:

    Chen Shuo;陈烁;Lu Xudong;卢旭东;Pang Zhanxi;庞展曦;Zhuo Cheng;卓成;Yin Xunzhao;尹勋钊

    提交时间:2020-08-10

  • 13. 基于快速傅里叶变换的卷积神经网络加速器设计

    摘要: 卷积神经网络(CNN)已被证明超过90%以上的计算是在卷积层完成的,因此卷积层的加速方案对整个卷积神经网络的效率和性能来说有着至关重要的影响.卷积层的乘累加方式会因加法树的存在而限制并行性,严重影响了CNN的计算时间.众所周知,频域点乘结果与时域卷积结果是相等的.对于快速傅里叶变换(FFT)这种频域转换算法来说,不仅可并行度高,而且大大减少了卷积计算.但由于CNN的特性(输入特征图与卷积核尺寸相差较大),会导致FFT算法效果不明显.所以本文将重叠相加法运用在卷积层上,以加快CNN的运行.另外,采用高层次综合(HLS)的方法将CNN快速部署在FPGA平台上,并提出了一套数学方法去选择Overlap and Add(OaA)的尺寸.本文在VGG-16模型下,OaA卷积比时域卷积周期快了近8.5倍.

    作者:

    Shuyang Qin;Jizeng Wei

    提交时间:2020-08-10

  • 14. 基于深度学习的可布线性驱动布局算法研究

    摘要: 随着深度学习的快速发展,将深度学习思想和算法应用于EDA领域成为当前研究的热点.超大规模集成电路的布局过程是集成电路物理设计的重要步骤,且布局结果的可布线性会对之后的布线过程产生重要影响.本文在开源的DREAMPlace框架的基础上,提出并实现了一种基于深度学习的可布线性驱动布局算法DrPlace.在总体上,设计并实现了基于深度学习的可布线性驱动布局器的整体框架,集成了可布线性驱动的总体布局、可布线性驱动的合法化和详细布局.在总体布局过程中,深入分析线长函数和单元密度函数并加入了引脚密度函数,实现了引脚密度的关键内核.在对比实验中,DrPlace布局器与DREAMPlace布局器相比在可布线性上获得了提升.

    作者:

    Hao Rui;郝睿;Cai Yici;蔡懿慈;Zhou Qiang;周强;Wang Rui;王锐

    提交时间:2020-08-10

  • 15. 基于混合拓扑优化和启发式搜索的VLSI高质量总体布线算法

    摘要: 总体布线是超大规模集成电路物理设计极为重要的一部分,影响芯片的良率以及质量.为了提高总体布线结果的质量和效率,提出了两种有效的加强策略,包括:(1)一种结合普里姆算法和分治法的混合拓扑优化策略.(2)一种同时考虑拥塞和线长的启发式搜索算法.本文通过采用普里姆算法和分治法的有效结合构建线网的拓扑结构,避免了FLUTE算法构建线网拓扑结构时,引入过多斯坦纳点造成拥塞过度集中的问题.另外,在拆线重布阶段,使用同时考虑拥塞和线长的启发式搜索算法,以进一步对布线结果的总线长进行优化.实验结果表明,所提两个策略在总溢出数、总线长以及平均运行时间这三个重要的评价指标上均取得有效的优化.

    作者:

    Liu Genggeng;刘耿耿;Zhu Weida;朱伟大;Huang Huihuang;黄辉煌

    提交时间:2020-08-10

  • 16. 基于自适应模板的深度学习FPGA训练加速框架设计

    摘要: 深度学习算法的成功部署依赖强大的算力支撑,尤其是模型的训练需要大量的硬件资源和时间.用FPGA加速深度学习算法是当下的热门方向,然而这通常需要较长的开发周期和丰富的硬件设计经验.为了应对这一挑战,本文设计了一种基于自适应模板技术的深度学习算法FPGA训练加速框架.本文首先分析了深度学习算法硬件加速的可行性.基于现有的机器学习加速平台,在应用规模、并行调度策略、资源使用和功能扩展上进行了深入的研究并提出了相应的优化策略.本文采用CPU-FPGA异构加速模板技术,提出了自适应的上层模型编译框架实现与不同硬件加速资源的适配.这种基于定制模板的软硬件协同设计可以很好的适配不同的FPGA芯片并支持算法的快速迭代.作为应用案例,利用所提的训练加速框架,针对图神经网络学习算法实现了与CPU相比7~41倍的速度提升.

    作者:

    Fan Tao;范涛;Cheng Yuanqing;成元庆

    提交时间:2020-08-10

  • 17. 对四端忆阻器的建模及其电路仿真

    摘要: 本文在传统二端忆阻器的基础上,提出了一种四端忆阻器的仿真模型.该器件的4个端口分别对应于MOS晶体管的栅、源、漏、衬底四个极,可以代替数字电路中的MOS晶体管来实现电路功能.本文用该模型构建了与非、或非等逻辑门电路、1bit数据的1R-1R读写电路,在仿真层面实现了四端忆阻器在数字电路和存储器方面的简单应用.相比于MOS晶体管,四端忆阻器在小尺寸、低功耗等方面具有更大的优势.在CMOS工艺尺寸渐渐趋于极限的今天,对四端忆阻器的应用是一个具有一定合理性的前进方向.

    作者:

    Zhang Zhang;张章;Wei Yadong;魏亚东;Ge Zhiheng;葛志恒;Yan Lin;闫林;Zeng Jianmin;曾剑敏;Liu Gang;刘钢

    提交时间:2020-08-10

  • 18. 开源处理器敏捷软硬件协同验证基础平台实现

    摘要: 当下信息产业热点之一的AIoT(Artificial Intelligence of Things,人工智能物联网)需要使用专用硬件加速架构对应用算法加速,带来了定制化芯片开发的需求.AIoT芯片使用的处理器包括通用处理器和专用处理器.采用商业授权的处理器通常会带来很高的成本,而开放源代码的处理器设计,即开源处理器,提供了无需授权的低成本方案.基于开源处理器的芯片设计通常具有的特点包括面向AIoT碎片化应用场景、软硬件深度协同加速,这些特点决定了开源处理器芯片设计在投片前,需要基于近似真实的硬件环境,敏捷地进行软硬件系统定义、集成和试错.本文为支持敏捷的软硬件协同验证技术,构建了一套基于SoC FPGA和开源RISC-V架构的开源处理器敏捷软硬件协同验证平台,支持开源处理器软硬件栈,能够启动Linux发行版操作系统.

    作者:

    Chen Yuxiao;陈欲晓;Chang Yisong;常轶松;Zhang Xu;张旭;Zhang Ke;张科;;

    提交时间:2020-08-10

  • 19. 开源项目openGPU1.0

    摘要: 本文介绍了一个开源项目openGPU1.0.鉴于目前国内GPU的研发资源匮乏,处于十分落后的状态,本项目旨在于引起各方面的重视,推动国内GPU的研究与发展.因为资源有限,openGPU1.0采用了较为简单的openGL-ES1.0Lite的3D标准,但还是一条完整的图形管线.虽然整体较为简单,openGPU1.0还是采用了一些自主创新的设计,如多格式数据通道,微程序命令解析,快速迭代除法器,高性能片上cache,分块分层次遍历光栅化方法等.目前已经完成了openGPU1.0的整个设计,大部分模块都完成了RTL的实现和验证,行将开始系统整合,预计今年9月开始进行FPGA验证.

    作者:

    ZHANG Yi;张一;ZHA Daolu;查道路;XIANG Tian;项天;FENG Zhenfu;冯臻夫;XING Lidong;邢立冬;LI Tao;李涛

    提交时间:2020-08-10

  • 20. 悬浮随机行走电容提取中多介质格林函数表的快速生成

    摘要: 本文提出了一种悬浮随机行走电容提取中多介质格林函数表的快速生成方法.新的方法利用了多介质格林函数本身的对称性,通过增加虚拟齐次纽曼边界,将有限差分空间离散区域缩减至原本的四分之一,从而显著减少了差分矩阵的规模,加速了多介质格林函数表的生成.本文从理论上对一般多介质格林函数表的对称性进行了论证,在其基础上提出了快速计算格林函数的改进有限差分法,并通过数值实验对所提方法的效率和正确性进行了验证.实验表明,本文提出的方法在达到超过8倍加速比的同时,得到了与原始有限差分方法结果完全一致的多介质格林函数表,显著减少了悬浮随机行走电容提取方法预处理的时间.

    作者:

    Yang Ming;杨明;Yu Wenjian;喻文健

    提交时间:2020-08-10