课题一:并行文件系统的应用研究(系统运行部)
介绍:随着计算能力的增强、存储容量的增大、应用课题规模和复杂度的增加,高性能计算机对并行文件系统性能要求越来越高,在海量小文件频繁创删和大规模并发I/O操作的应用场景中,文件系统元数据吞吐率成为限制其性能的关键因素。当元数据IO负载大到一定程度,元数据服务进程挂起,导致文件系统无法正常工作。研究调度方式改变,以分散作业元数据的负载,改善高性能计算中的元数据瓶颈问题,或者可以通过研究监控上层节点IO,找到IO负载大的上层节点。另外现有的Lustre并行文件系统,对数据容错主要是通过底层raid技术,当一个存储数据节点故障,导致文件系统无法读写,研究文件系统故障节点自动数据迁移,在文件系统正常工作前提下,更换故障节点。
研究方向:并行文件系统数据智能迁移研究、并行文件系统IO负载研究、并行文件系统元数据研究、并行文件系统数据容错研究
课题二:基于龙芯集群平台的科学计算关键技术研究(高性能计算部)
介绍:利用深圳超算中心的龙芯集群,建立起龙芯集群应用软件性能剖析环境并推广其应用,使我国全国产高性能计算机从花钱“搭建”进步到全面掌控的国际领先水平。研究内容分为科学问题研究和工程应用研发两部分,前者主要是研究龙芯集群上的性能优化与测评方法,后者主要是完成有价值的应用在深圳超算龙芯集群上的移植和优化。
一、龙芯集群的性能测评与优化。主要包含科学及计算库、自动向量化、CC-NUMA架构优化和性能剖析工具研究4个内容:
(1)科学计算库在支持通用的科学计算应用:
1)针对基于全新GS464E架构的单路四核龙芯3A2000和四路十六核龙芯3B2000高性能通用处理器,对GotoBLAS库Level3级核心函数DGEMM及其他核心函数进行优化算法和优化手段的研究。
2)针对大型CC-NUMA系统中多层存储结构,将OpenMP与BLAS库结合起来协同优化。
(2)自动向量化:
1)完善针对基本块的SLP向量化和针对嵌套循环的多面体模型(PolyhedralFramework)等自动向量化技术,使龙芯3B的SIMD扩展指令得到编译器的有效利用。
2)在GCC中实现龙芯3B的向量化支持,增加龙芯3B的体系结构信息。
(3)CC-NUMA架构优化:
1)研究类似于IntelParallelStudio的PGO(profile-GuidedOptimization)的优化框架;
2)将局部性泄露的定量评估引入到线程和内存布局的最优求解过程中,形成新的布局求解算法;
3)尝试将布局算法结合到GCC中或编译器预处理模块上。
(4)性能剖析工具研究:
1)分析现有的众多性能剖析工具,评估其在龙芯上的实用性情况和移植工作量;
2)选择三个层次上的最基本功能,确定出龙芯性能剖析工具的框架;
3)开发或移植相应的性能剖析工具,形成可用的软件套件。
二、应用优化实践研究。涉及到应用软件的移植、测评和优化实施:
1)将若干备选的应用软件移植到龙芯集群,分析和评估移植可行性;
2)完成代码的移植、编译、调试和试运行;
3)利用本项目研究的性能剖析工具进行性能测评和分析,评估其可优化空间。
4)联合第三方用户单位,将应用软件实施有效运行。
课题三:高性能计算环境应用服务优化关键技术研究(高性能计算部)
介绍:本课题隶属于863重大专项高效能计算机及应用服务环境(二期),主要内容是立足已有的高性能计算环境基础,重点研究高性能计算环境的应用服务优化关键技术,包括资源弹性调度、统一认证与系统安全、应用服务共享、资源监控和运行管理、资源记账统计等,开发一套基础软件,集成国内优秀的高性能计算资源,建立具有新型运行机制和丰富应用资源的高性能计算应用服务环境,提高高性能计算资源的利用率;同时,依托国家高性能计算应用服务环境,在工业产品设计、新药创制、数字媒体和文化创意三个应用领域建立具有新型运行模式的领域应用社区,结合领域背景知识,为用户定制应用服务,降低高性能计算应用成本,全面提升高性能计算应用服务水平。
课题四:主机恶意行为监控与分析关键技术研究(高性能计算部)
介绍:项目以研究未来互联网环境下的主机恶意行为、恶意软件(代码)检测、网络行为识别与审计技术为基础,重点研究信息安全核心共性技术,并且将其广泛应用于下一代防火墙软件、互联网网络审计系统等信息安全产品及解决方案中。重点研究以下六项信息安全核心共性技术:
一、基于主机状态、主机网络交互信息的行为分析技术,包括网络交互信息的逐层分析规则、主机状态分析规则以及综合行为分析技术。
二、木马、蠕虫、僵尸等恶意代码的深化家族变种技术。
三、开放、可扩展的威胁场景知识库的框架,研究威胁场景知识库的自动化构造技术以及高效的恶意行为确认机制。
四、主机行为信息的描述方法,研究面向海量网络行为信息的快速分析技术。
五、面向大规模网络的远程控制技术,远程支持对行为异常设备的监控。
六、基于主机行为监控与分析系统的自身抗毁技术,抵御各种恶意软件及应用对该系统的攻击与损毁。
课题五:基于超级计算机的深度学习软件平台系统关键技术研究(高性能计算部)
介绍:基于超级计算机的深度学习网络模型,即深度神经网络和卷积网络设计,为语音识别、图像识别和自然语言处理等提供了高效的计算能力和算法实现基础,针对以上应用的大规模问题的高效求解,可以为深度学习应用开发提供良好的平台。目前该核心技术国内处于起步阶段。计划构建的深度学习网络模型通用计算平台,基于国产超级计算机环境实现深度学习领域中深度神经网络和卷积网络等环境,为深度学习提供自主可控的独立计算环境,构建多模型融合的深度学习网络模型通用计算平台,实现深度学习独立自主研究和构建超算中心可持续发展能力。
主要研究内容包括以下几个方面:
1、面向深度学习的大规模深度学习算法及工具集的研究;
2、面向深度学习的分布式并行深度学习执行模式的研发;
3、面向深度学习的分布式并行系统的研究;
4、面向大规模应用的工程系统实现研究。
课题六:基于大数据平台的智慧交通分析(市场推广部)
介绍:智能交通的分析对象是整个城市的交通,具有海量数据的固有特性,车牌识别、交通监控视频、GPS等交通相关的数据量级已从TB级别跃升到PB级别,并且存在着严重的信息孤岛,系统之间信息共享困难、信息传递延缓等问题。本课题主要分析在当今智慧城市智能交通的大环境下,如何利用大数据实时处理能力、高可用高稳定特点及云计算技术特有的超强计算能力、动态资源调度、按需提供服务以及海量信息集成化管理机制建设智慧城市的海量异构的交通大数据平台来实现智能交通数据分析。
主要研究方向如下:
1、基于大数据的交通流信息采集分析;
2、基于大数据的智能交通指挥调度;
3、基于大数据的违法及事故分析;
4、基于大数据的车驾分析研判;
5、基于大数据的交通诱导信息服务;
6、基于大数据的交通信号控制。