国外对于文本自动分类的研究较早50年代末在这个领域进行了开创性的研究提出了基于词频统计思想的文本自动分类方法1960年Maron发表了关于自动分类算法的第一篇论文随后许多学者也在这一领域进行了很有成效的研究工作 从20世纪60年代直到20世纪80年代末这期间最有效的文本分类系统一直是专家人工构建的基于知识工程技术的分类系统其典型的有卡内基为路透社开发的Construe系统它主要是由专业人
文本分类文本分类是通过某种策略利用已有的预先定义的文档作为训练集建立一种分类模式然后将预分类的文档与类别建立映射关系的过程文档分类方法近年来人们结合人工智能的技术研究了各种特征抽取和分类算法 提出了许多模型 如贝叶斯分类法决策树算法最近邻分类回归模型神经网络和支持向量机等等文本自动分类方法:词匹配法根据文档和类别的特征词中共同出现的词来决定该文档的类别属性基于领域专家知识法通过领域专家来编制基于统
第1O卷 第1期
从文本分类系统的处理流程来看无论待分类的文本是中文还是英文在训练阶段之前都要经过一个预处理的步骤去除无用的信息减少后续步骤的复杂度和计算负担对中文文本来说首先要经历一个分词的过程就是把连续的文字流切分成一个一个单独的词汇(因为词汇将作为训练阶段特征的最基本单位)例如原文是中华人民共和国今天成立了的文本就要被切分成中华/人民/共和国/今天/成立/了这样的形式而对英文来说没有这个步骤(更严格的说并不是
#
#
三构思(结构)1不会处理论与证之间的关系蚕死丝尽 蜡炬成灰 春蚕到死丝方尽蜡炬成灰泪始干这是他们应尽的责任落红不是无情物化作春泥更护花这是他们的义务虽然他们的生命都很短暂但他们尽了自己应尽的义务和责任可以称得上是死得其所了 春蚕的本分实吐丝落红的本分是护花……的本分是…… (王淑
河北联合大学2011-2012第2学期 《软件设计基础-VB.Net》课程设计报告设计名称: 自动文本阅读器 姓 名: 南文奇 学 号: 201114230303 专业班级: 过程装备与控制工程 3 班
#
#
违法有害信息,请在下方选择原因提交举报