机器学习是人工智能的核心研究领域之一,其研究动机是为了让计算机系统具有人的学习能力以便实现人工智能。
目前被广泛采用的机器学习的定义是“利用经验来改善计算机系统自身的性能”。由于“经验在计算机系统中主要是以数据的形式存在的,因此机器学习需要运用机器学习技术对数据进行分析,这就使得它逐渐成为智能数据分析技术的创新源之一,并且为此而受到越来越多的关注。
所谓数据挖掘就是:“识别出巨量数据中有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程”。顾名思义,数据挖掘就是试图从海量数据中找出有用的知识。
可见,数据挖掘的教材和课程主要讲解各种不同的数据挖掘任务。比如:分类、回归、聚类、关联分析、异常分析、演变分析等等。
数据挖掘可以视为机器学习和数据库的交叉,它主要利用机器学习界提供的技术来分析海量数据,利用数据库界提供的技术来管理海量数据。
二者既有区别又有联系,整体来说,机器学习偏理论,数据挖掘偏应用。
现在我们来看看分类的定义。分类就是构建一个分类模型,即分类器,然后通过分类器将数据对象映射到某个给定的类别中的过程。分类过程可以分为两步:
使用已知类标记的训练数据集学习分类模型。这一步称为分类器的训练阶段。
应用分类模型对未知类标记的对象进行分类。这一步称为分类器的工作阶段。实际上,在工作之前还又学到的模型进行性能测试评估(这一步称为分类器的测试阶段),如果模型的性能可以接受,才可以用它来对未知类标记的对象进行分类。
可见分类是一个三步走的过程:训练--测试--工作
上一篇:Linux->进程地址空间