最近的工作涉及到文本分类问题,查阅了很多文章和资料后,大概清楚了文本分类的整体流程。根据查阅到的资料,初步编写了一个文本分类程序,在程序的编写和工程实践中遇到了各种各样容易忽视的问题。本篇文章将结合实际工程经验,把文本分类的步骤、流程与问题进行简单的介绍和总结。
一、 文本分类简介
自动文本分类(Automatic Text Categorization),或者简称为文本分类,是指计算机将一篇文章归于预先给定的某一类或某几类的过程。例如,我们访问新浪网站的首页,就会有“新闻、军事、社会、国际、财经、股票、基金、外汇、科技、手机、探索”等一个个栏目,将不同内容的文章和这些导航栏目相关联就对应了文本分类的过程。可见,文本分类一大主要应用范围是根据文章内容主题进行文本分类,称之为“依据主题的分类”。当然这只是文本分类的一部分应用,还有许多其他有趣的问题可以用文本分类来解决。例如,文本分类还可以用于判断文章的写作风格,作者态度(积极?消极?),甚至判断作者真伪(例如检验《盗墓笔记》中《秦岭神树》这一篇章是不是南派三叔亲笔所写?)。总而言之,凡是与文本有关,与分类有关,不管从什么角度出发,依据的是何特征,都可以叫做文本分类。
一、 文本分类简介
自动文本分类(Automatic Text Categorization),或者简称为文本分类,是指计算机将一篇文章归于预先给定的某一类或某几类的过程。例如,我们访问新浪网站的首页,就会有“新闻、军事、社会、国际、财经、股票、基金、外汇、科技、手机、探索”等一个个栏目,将不同内容的文章和这些导航栏目相关联就对应了文本分类的过程。可见,文本分类一大主要应用范围是根据文章内容主题进行文本分类,称之为“依据主题的分类”。当然这只是文本分类的一部分应用,还有许多其他有趣的问题可以用文本分类来解决。例如,文本分类还可以用于判断文章的写作风格,作者态度(积极?消极?),甚至判断作者真伪(例如检验《盗墓笔记》中《秦岭神树》这一篇章是不是南派三叔亲笔所写?)。总而言之,凡是与文本有关,与分类有关,不管从什么角度出发,依据的是何特征,都可以叫做文本分类。