第四章 文本处理1 从词到词项2 文本统计3 文档解析4 文档结构和标记5 链接分析6 信息抽取7 国际化11 从词到词项将搜索文本转换为索引词项文本形式转换(如大小写)标点符号处理词素切分去停用词提取词干提取文本格式2第四章 文本处理1 从词到词项2 文本统计3 文档解析4 文档结构和标记5 链接分析6 信息抽取7 国际化32 文本统计词频对词项的影响词频统计模型在信息检索中非常重要是很多技术和
统计文本文件中英文单词的出现次数目录 TOC o 1-3 u 摘 要 PAGEREF _Toc304403617 h 11.绪论 PAGEREF _Toc304403618 h 12. 系统分析 PAGEREF _Toc304403619 h 1 功能需求 PAGEREF _Toc304403620 h 1数据需求 PAGEREF _Toc304403621