Project 3 说明及评判标准王栋提纲建索引查询文档建索引:过程(13)预处理分词抽取posting排序输出建索引:过程(23)1) 预处理全文检索处理的对象是文字因此对于非纯文本格式的文件PDF等需要去掉其中的格式信息转换为纯文本假设文档都是纯文本的不需要考虑非纯文本格式的预处理过程2) 分词词形变换相对于英文全文检索分词是中文独有的困难由于词与词之间没有明显的边界需要使用分词算法
5.辅助结构多个倒排列表合并为一个文件以提高存储效率称为倒排文件词表包含查找表存储词项——倒排文件偏移量之间的映射以哈希表或B树形式组织载入内存词频等统计信息可存储于倒排列表的首部如索引文件非常巨大一般采用分布式文件系统06.索引构建简单构建算法倒排列表位于内存中顺序处理无法并行1归并针对内存受限问题构建倒排列表直至内存耗尽将索引片段写到磁盘继续构建新的索引片段磁盘中存放了所有的索引片段在最后阶段