机器学习与数据挖掘复习第一章:Introduction1. 什么是数据挖掘:数据挖掘时从大量的数据中取出令人感兴趣的知识(令人感兴趣的知识:有效地新颖的潜在有用的和最终可以理解的)2. 数据挖掘的分类(从一般功能上的分类):描述型数据挖掘(模式):聚类summarization关联规则序列发现预测型数据挖掘(值):分类回归时间序列分析预测3. KDD(数据库中的知识发现)的概念:KDD是一个选择和
Multimedia Search Engine机器学习与数据挖掘复习42720221Multimedia Search Engine机器学习基本过程机器学习是一个复杂的过程离线过程(训练过程)在线过程(应用过程)原始数据人工分析机器学习训练样本模型新数据结果离线过程在线过程数学方法决定性步骤尚无有效的理论指导42720222Multimedia Search Engine样本准备对象分割基于
Multimedia Search EngineDatamining机器学习与数据挖掘样本准备(2)样本准备对象分割对象在文档中可能只占很小比例用整个文档提取的特征含有大量噪声特征与特征提取使用什么样的特征如何计算如何进行预处理……样本选择正负样本数可能严重失衡(1:101:100)样本可能包含噪声42720222Multimedia Search EngineDatamining特征何为特征
Multimedia Search Engine机器学习与数据挖掘课程项目42620221Multimedia Search Engine课程项目项目分类研究项目在机器学习领域的某个问题上进行深入探讨提出创新性解决方案实验验证所提方案训练项目比较现有机器学习分类算法性能不强调创新性42620222Multimedia Search Engine课程项目研究项目方向:机器学习相关的均可特征提取降
Multimedia Search Engine机器学习与数据挖掘数学方法与理论(2)42620221Multimedia Search Engine分类算法不可分问题(2)解决方法2:概率分类器42620222Multimedia Search Engine分类算法概率分类器P(c1X) P(c2X)(P(c1Xk)>P(c2Xk)) c1 c2如何获得42620223Mult
Multimedia Search Engine机器学习与数据挖掘可视化及人机交互技术42820221Multimedia Search Engine为何需要人机交互机器智能现状1950:图灵测试被提出puting Machinery and Intelligence》: can machines think1997:深蓝击败世界冠军2006:Yahoo Answer上AI答案获胜:I
Multimedia Search Engine机器学习与数据挖掘数学方法与理论(1)42820221Multimedia Search Engine机器学习的数学方法与理论原始数据人工分析机器学习训练样本模型新数据结果离线过程在线过程数学方法决定性步骤尚无有效的理论指导机器学习过程42820222Multimedia Search Engine机器学习的数学方法与理论机器学习任务的主要类型分
Multimedia Search Engine机器学习与数据挖掘可视化技术42620221Multimedia Search Engine可视化技术MDS (MultiDimensional Scaling)在低维空间显示高维数据的内在结构可能有复杂的内部结构可能无法嵌入低维空间: Search Engine可视化技术MDS (MultiDimensional Scaling)已知对象的相互
Multimedia Search Engine机器学习与数据挖掘课程项目42420221Multimedia Search Engine课程项目研究项目方向:机器学习相关的均可特征提取降维样本选择失衡学习分类聚类回归……基本要求在所涉及的问题上必须有创新实验结果支持所提出的方案没有抄袭内容42420222Multimedia Search Engine课程项目研究项目数据库UCI或其它公开数
1.事务集合有如下7个事务T1:牛肉鸡肉牛奶T2:牛肉奶酪T3:奶酪靴子T4:牛肉鸡肉奶酪T5:牛肉鸡肉衣服奶酪牛奶T6:鸡肉衣服牛奶T7:鸡肉牛奶衣服设最小支持度为30使用Apriori算法找出所有的频繁项目集解答:Apriori算法多次描述描述交易目的是产生长度不同的频繁项集的总数是7元素总数是6包括:牛肉鸡肉衣服奶酪牛奶靴子30=310>271-候选集C1和1-频繁集L1项集C1支持度项集L
违法有害信息,请在下方选择原因提交举报