云计算

云计算是一种通过互联网将共享的软硬件资源信息按需提供给计算机和其他设备进行计算的方式。用户可以简单地通过互联网获取"云"提供的服务,而不必了解云计算环境中的细节。云实际上是由许多分布式互联的计算机通过统一的资源管理和调度组成云服务平台,再通过互联网向用户提供服务。

本研究方向主要研究Hadoop系统性能优化、Hadoop迭代任务优化以及面向应用的并行计算优化等,包括:

(1)研究Hadoop系统性能优化。主要包括:①对MapReduce并行计算框架进行优化,提出基于共享内存平台、分布式移动平台等并行计算机环境的MapReduce模型;②对Hadoop作业调度方面进行优化,结合系统拥有的资源和当前负载状态提出更具有公平性且更有效率的作业调度算法;③HDFS和HBase性能的增强,可以设计高效、低时延、支持复杂类型数据的存取平台以满足HDFS和HBase对底层存取平台较高的实时性要求;④从Hadoop系统整体角度,利用多核、多CPU、新型存储设备等,进一步增强Hadoop性能。

(2)研究Hadoop迭代任务优化。深入分析了迭代作业的特点,利用迭代作业每一次迭代的相似性,在迭代之间建立反馈机制。利用作业在之前迭代中搜集的执行信息,优化以后迭代任务的负载均衡,降低每一次迭代的执行时间,从而提升Hadoop执行迭代作业的性能。

(3)研究面向信息检索的并行计算优化,主要研究信息检索领域广泛应用的Top-K查询问题的优化,对并行计算平台本身进行的研究以支撑查询难度和需要实时响应的查询数量的增加,如针对通用的并行分布式计算框架Spark,并行优化算法等。

(4)研究并行化矩阵运算。利用GPU高效的并行处理特性,并搭建GPU集群实现矩阵SVD(Singular Value Decomposition)分解的高度并行化,提高矩阵运算的效率。

目前,实验室已搭建多个节点的Hadoop平台、YARN平台及Spark平台,用于云计算相关领域的基础和应用研究。

云计算