第三章 怎样进行设计第三节 信息的收集与整理学习内容分析:本节课讲授的是 信息的收集与整理这一内容这一教学内容与第一节发现与明确问题教学内容有紧密的关系这是设计过程中的第二阶段是至关重要的一个环节本节课是在围绕多用途广告宣传灯设计这一主题条件下进行的收集整理在本节课之前学生们各自都已分好小组已相互讨论并定下了自已小组是介绍多用途广告宣传灯的哪个方面的所以在小组长的带领及同学相互之间讨
#
#
网上信息的收集与整理信息技术及其在教育中的应用目前对信息技术的概念或含义的界定有多种联合国教科文组织对信息技术的定义是:应用在信息加工和处理中的科学技术与工程的训练方法和管理技巧这些方法和技巧的应用涉及到人与计算机的相互作用以及与之相应的社会经济和文化等诸多事物从上面的定义可以这样理解:信息技术一般是指一系列与计算机相关的技术 这些技术或技术的集成能够对数量巨大的格式变化的分布在不同地点的各
单击此处编辑母版标题样式单击此处编辑母版文本样式第二级第三级第四级第五级第六章信息的收集主讲 龙玥成都理工大学 信息管理学院Knowledge is of two kinds we know a subject ourselves or we know where we can find information upon it. ——Samuel Johnson
#
第三章 信息采集和信息源1.确定搜索内容2.网络信息爬取3.文档和电子邮件的信息采集4.文档信息源5.转换问题6.存储文档7.重复检测8.去除噪音01.确定搜索内容确定文档信息选择目标文档信息作为信息源信息的完整性获取完整的目标信息源信息的可用性选择有效的信息源文档信息增量选择对发生变化新增加的文档进行获取信息类别的取舍依据不同需求选择特定领域文档1第三章 信息采集和信息源1.确定搜索内容2.网络
第三章 信息采集和信息源1.确定搜索内容2.网络信息爬取3.文档和电子邮件的信息采集4.文档信息源5.转换问题6.存储文档7.重复检测8.去除噪音06.存储文档存储的目的为了对文档进行索引文档转换后需要进行存储为了对搜索结果创建网页摘要信息抽取生成网页快照以及避免重复下载等需要网页备份为了对搜索结果创建摘要等信息要求对文档中的文本快速存取保存文档可降低CPU及网络负载方便进行信息抽取锚文本链接上下
第三章 信息采集和信息源1.确定搜索内容2.网络信息爬取3.文档和电子邮件的信息采集4.文档信息源5.转换问题6.存储文档7.重复检测8.去除噪音07.重复检测互联网中重复的网页信息同一内容出现在多个页面使用多个URL地址指向同一网页及镜像etc.在信息采集索引和搜索过程中消耗大量资源重复检测完全重复文档检测简单(如检验和)近似重复检测较难近似重复检测的应用需求搜索与原文档近似重复的文档(搜索)在
第三章 信息采集和信息源1.确定搜索内容2.网络信息爬取3.文档和电子邮件的信息采集4.文档信息源5.转换问题6.存储文档7.重复检测8.去除噪音04.文档信息源出版物过去的某个时间被创建几乎不更新对时间不敏感的信息如新闻文章学术论文博客帖子通讯稿电子邮件等出版物信息源(两种类型)Push:如果有新文档产生push类型信息源向订阅者发出通知Pull:需要订阅者周期地查看是否有新文档常见类型:RSS
违法有害信息,请在下方选择原因提交举报