作者:禅与计算机程序设计艺术
随着互联网、信息化的发展,基于海量数据的大数据分析成为了当下最热门的话题之一。如何有效地从海量数据中找出有意义的信息并提取其中的模式是数据的分析和挖掘的关键环节。而文本数据就属于无结构化、半结构化的数据类型。对于文本数据来说,分类是其重要且基础性的任务。
文本分类一般可分为两大类:基于规则的分类方法和基于机器学习的分类方法。基于规则的分类方法简单易懂,但是往往由于规则的缺乏或限制,难以处理一些复杂场景下的文本分类问题;基于机器学习的方法能够更好地适应新的业务场景、自动化分类模型的训练过程,取得很高的准确率和鲁棒性。
本文主要介绍基于机器学习的方法——决策树(Decision Tree)进行文本分类的原理及应用。决策树是一种常用的分类器,它可以表示对输入变量的一种局部决策,通过分析得到的决策路径来对输入样本进行分类。在实际应用中,决策树能够快速、准确地完成文本分类任务,因此被广泛使用。
2.基本概念术语说明
2.1 决策树
决策树是一种基于树形结构的分类方法,由结点(node)和内部边(internal edge),外部边(external edge)组成。决策树的每一个结点代表一个特征或属性,而每一条路径则代表从根结点到叶子结点的一个分支上的选择,每一个内部结点对应于特征值或属性值的某个区间,并且该结点的目标是将待分类的实例分配到其所对应的子结点。