课程概要-智能与分布计算实验室

课程概要

目前，我们所面对的一个严重挑战，是如何有效地处理规模越来越大、来势越来越猛的“数据海啸”，又称“大数据”（Big Data）。这样的数据借助互联网的快速传递无所不在：从各种科学研究基地，到重多政府机构，还有各大商业企业公司。举世界上最大社会网Facebook（脸谱）为例，现在每天有超过70 Terabytes (x1012 Bytes) 经过压缩后的新数据需要存储，管理和分析。这个数据规模还在增加。主流的商业和开源数据库系统，包括并行数据库系统，在规模上、性能上、和费用上无法对付日益增大的海量数据了。

大数据时代的到来是不可阻挡的。这主要是由于数据存贮在空间和时间上已发生了本质的变化。在空间上，数据可以在廉价的磁盘上通过网络系统的支持无限的存放。在时间上，先进的存贮和搜索技术使访问数据的延迟大大降低了。大数据为人类社会的各行各业带来了一次以数据为基础的探索，发现，和创新的机遇。

大数据处理有以下几个特点：（1）处理的平台一定是大规模和可扩展的分布式系统；（2）处理数据的软件构架是MapReduce 为基础的。（3）需要各种有效的存储技术和调度算法的支持。（4）在高效和优化的条件下，先进的存储硬件，比如，固态闪存器件（SSD），可以起到很好的作用。

课程大纲

这门课将全面介绍几个在海量数据分布式系统中的存储、管理和分析层面上有代表性的和先进的算法和技术。课程安排如下：

（一） MapReduce以及数据处理

（1）基本结构和Hadoop的开源实现

（2） Hive: 在Hadoop上的数据仓库

（3） YSmart: 优化Hadoop的数据处理

（二）海量数据在分布式系统上的存储结构

（1） RCFile: 设计与实现

（2）存储结构中优化问题

（3） RCFile的应用范围

(三）内存和磁盘管理中的核心技术: 替换算法

（1） LRU算法优点以及难以解决的问题

（2） LIRS算法是如何解决LRU问题的

（3） Clock-pro: LIRS是如何实现在操作系统内核的

（4） BP-wrapper:消除替换算法在系统实现中的同步竟争

（四）提高操作系统对磁盘的管理功能和效率

（1）操作系统对磁盘管理的局限性

（2）扩大操作系统的视野去获得关键的磁盘数据存储地址信息

（3） DULO-Caching和DULO-Prefetchin:感知磁盘数据分布的缓存(Caching)和预取(Prefetching)方法以及系统实现

（五）固态闪存系统(Solid State Device Flash Memory)

（1） SSD Flash Memory的结构和性能

（2） SSD的并行性和它在整个存储系统中的作用

（3） Hystor: 一个通用的混合型SSD的存储系统

（4） hStorage-DB: 一个为数据库服务的混合型SSD的存储系统

(六）在互联网上的数据管理和有效传输

（1）Stretched Exponential Distribution: 一个大数据访问行为的分布模型。

(七）计算机学者发表论文之目的与追求

注：课程在此基础上可能会有部分调整和更新