第三章 信息采集和信息源1.确定搜索内容2.网络信息爬取3.文档和电子邮件的信息采集4.文档信息源5.转换问题6.存储文档7.重复检测8.去除噪音01.确定搜索内容确定文档信息选择目标文档信息作为信息源信息的完整性获取完整的目标信息源信息的可用性选择有效的信息源文档信息增量选择对发生变化新增加的文档进行获取信息类别的取舍依据不同需求选择特定领域文档1第三章 信息采集和信息源1.确定搜索内容2.网络
第三章 信息采集和信息源1.确定搜索内容2.网络信息爬取3.文档和电子邮件的信息采集4.文档信息源5.转换问题6.存储文档7.重复检测8.去除噪音06.存储文档存储的目的为了对文档进行索引文档转换后需要进行存储为了对搜索结果创建网页摘要信息抽取生成网页快照以及避免重复下载等需要网页备份为了对搜索结果创建摘要等信息要求对文档中的文本快速存取保存文档可降低CPU及网络负载方便进行信息抽取锚文本链接上下
第三章 信息采集和信息源1.确定搜索内容2.网络信息爬取3.文档和电子邮件的信息采集4.文档信息源5.转换问题6.存储文档7.重复检测8.去除噪音07.重复检测互联网中重复的网页信息同一内容出现在多个页面使用多个URL地址指向同一网页及镜像etc.在信息采集索引和搜索过程中消耗大量资源重复检测完全重复文档检测简单(如检验和)近似重复检测较难近似重复检测的应用需求搜索与原文档近似重复的文档(搜索)在
第三章 信息采集和信息源1.确定搜索内容2.网络信息爬取3.文档和电子邮件的信息采集4.文档信息源5.转换问题6.存储文档7.重复检测8.去除噪音04.文档信息源出版物过去的某个时间被创建几乎不更新对时间不敏感的信息如新闻文章学术论文博客帖子通讯稿电子邮件等出版物信息源(两种类型)Push:如果有新文档产生push类型信息源向订阅者发出通知Pull:需要订阅者周期地查看是否有新文档常见类型:RSS
第四章 信息资源的采集第一节 信息源第二节 采集方法与采集流程(重点)第三节 信息资源采集过程中应注意的几种关系第四节 信息资源的整体布局(重点)半亩方堂一鉴开天光云影共徘徊问渠哪得清如许唯有源头活水来 半亩方堂一鉴开, 天光云影共徘徊。 问渠哪得清如许, 唯有源头活水来。(宋)朱熹《观书有感》第一节 信息源1、信息的出版源2、信息的发行源3、信息的书目源1、信息的出版源(1)我国出版社的类型(2
单击此处编辑母版标题样式单击此处编辑母版文本样式第二级第三级第四级第五级信息资源管理技术苏新宁课程内容大纲信息采集技术 信息存储与组织信息自动处理信息检索技术信息分析技术 信息服务技术 信息采集技术文献信息源及采集数据库资源及信息获取网络资源及采集多媒体信息的采集信息存储与组织结构化数据组织全文本信息的组织多媒体数据的组织本体数据组织方法XML及元数据信息自动处理信息特征的提取自动标引理论与技术自
单击此处编辑母版标题样式单击此处编辑母版文本样式第二级第三级第四级第五级单击此处编辑母版标题样式单击此处编辑母版文本样式第二级第三级第四级第五级信息采集 2008-2009第二学期2022年4月17日 课程简介教学目的 通过本课程的学习使学生能够从自己身边的事物开始学习用科学的眼光来认识信息的存在并学习和掌握信息采集的基本原理和方法通过信息采集实践获得信息采集技能的训练第一章 概
单击此处编辑母版标题样式单击此处编辑母版文本样式第二级第三级第四级第五级第一章 信息和信息资源第一节 信息的基本概述第二节 信息资源及其分类第三节 我国文献信息的主要收藏及服务系统第一节 信息的基本概述一信息的诸家之说二信息的基本特征三信息与社会四与信息有关的基本概念一信息的诸家之说1. 信息论的创始人香农 信息是用来消除随机的不定性的东西一信息的诸家之说1. 信息论的创始人香农2. 控制论
考核方式(3)《中国大百科全书》 一信息的含义载体形态1文献的载体类型 电子出版物包括电子图书电子期刊电子新闻光盘数据库产品或软盘磁带等产品以及电传视讯电传文本和电子邮件等 上述的缩微型声像型和电子型文献都属于非书型出版物期刊报纸图书的特征 报 纸 科技报告的特点 (1)反映新的科研成果迅速 (2)内容多样化 (3)质量参差不齐
单击此处编辑母版标题样式单击此处编辑母版文本样式第二级第三级第四级第五级一生态环境 相关概念二生态环境状况评价的指标体系三评价指标计算方法四生态环境状况指数计算方法五生态环境状况分级六生态环境状况变化幅度分级主要内容第三节 生态环境状况信息采集一生态环境相关概念生态环境(ecological environment)就是由生态关系组成的环境的简称是指与人类密切相关的影响人类生活和生产活动的各种自
违法有害信息,请在下方选择原因提交举报