智能与分布计算实验室
  分布式数据挖掘中分类算法
姓名 赵希鹏
论文答辩日期 2005.05.11
论文提交日期 2005.05.17
论文级别 硕士
中文题名 分布式数据挖掘中分类算法
英文题名 Classification Algorithm in Distributed Data Mining
导师1 卢正鼎
导师2
中文关键词 分布式数据挖掘;联机分析处理;分类算法
英文关键词 Distributed Data Mining,On-Line Analytical Processing,Classification algorithm
中文文摘 在对国家外汇信息进行有效管理的过程当中,经常需要对数据资源进行分析和处理,计算机和网络技术的飞速发展,使得实际应用当中的数据资源往往是海量的、异构的、地理上分散的存储在网络的各个站点上。在这种环境下,传统的数据挖掘和分析技术是难以有效地和快速地从这种数据资源中获得有效的信息,因此需要为应用提供支持大规模并行分布的管理和分析的体系结构和相应的算法。分布式计算技术和数据挖掘技术的结合产生了许多高性能的知识发现平台,这为解决上述问题提供了思路。 Knowledge Grid是一个通用知识发现平台,在借鉴该系统思想的基础上结合外汇管理应用需求对系统中的服务进行了部分的剪裁和扩展,成为一个面向外汇管理的分布式数据挖掘框架,该框架由七大服务组成,其中目录服务和资源分配和执行计划管理服务在Globus的层面上直接实现,而数据访问服务、工具和算法服务、执行计划管理服务、数据预处理和前端展示服务作为上层服务用于对整个数据挖掘过程的描述、组织、开发和执行以及对数据的查询、分析和可视化的显示;框架提供了对联机分析处理的支持;框架是一组可动态扩展的服务,这些服务通过不同的方法聚合在一起来满足应用的需要,框架中各服务的开发使用Globus Toolkit 3.0作为开发工具来完成。 借鉴SPRINT分类算法思想,将面向外汇管理的分布式数据挖掘框架作为算法理想运行平台,提出了基于分布式数据挖掘框架的分布式SPRINT分类算法。算法使用框架提供的目录服务、数据服务和资源分配和执行计划管理等多种服务来完成分布式数据挖掘任务;算法共分为三个子过程,分别为局部站点的数据准备和计算最佳分裂以及在全局站点的决策树生成。
英文文摘 In state administration of foreign exchange anagement information application, it is often necessary to analyze large data sets, with the rapid development of computer science and network, data resources storaged in network are massive, heterogeneous and distributed. Because in this environment, conventional data mining and data analyse is difficult to effective and fast mining pattern from this data resources, it is exigent to provide great scale, distributed and parallel systems and algorithms for managing and analyzing this datas. But, with the combination of grid technology and DM, many knowledge discover flats appear, we believe the emergence will solve the problems. Knowledge Grid is a current general knowledge discover flat. Based on Knowledge Grid, by pruning and expanding system service according to foreign exchange information management requirement it is made to be a distributed data mining framework facing foreign exchange information management. the framework has seven services, directory service and resource allocation and execution management service directly implement on top of Globus, but other services use to describe, compose, develop and execute a DM computation, moreover, offer data preprocess and results presention; the framework holds out olap applications; the framework is a group of extendable and dynamic services, Globus Toolkit 3.0 is used to implement these services. Based this framework and used for reference SPRINT classification algorithm, we propose a distributed SPRINT algorithm based on above framework. It uses directory service, data service and other services from framework to fulfill DM task, we detailed introduce three processes of the algorithm.