数据挖掘试题
《数据挖掘》总复习题
1.数据挖掘系统可以根据什么标准进行分类?
答:根据挖掘的数据库类型分类 、根据挖掘的知识类型分类、根据挖掘所用的技术分类、根据应用分类
2.知识发现过程包括哪些步骤?
答:数据清理、数据集成、数据选择、数据变换、数据挖掘、模式评估、知识表示
3.什么是概念分层?
答:一个映射序列,将低层概念映射到更一般的较高层概念。
4.多维数据模型上的 OLAP 操作包括哪些?
答:上卷、 下钻、切片和切块、转轴 / 旋转、其他OLAP 操作
5.OLAP 服务器类型有哪几种?
答:关系 OLAP 服务器(ROLAP)、多维 OLAP 服务器(MOLAP)、混合 OLAP 服务器 (HOLAP)、特殊的 SQL 服务器
6.数据预处理技术包括哪些?
答:聚集、抽样、维规约、特征子集选择、特征创建、离散化和二元化、变量变换。
7. 什么是数据清理?
答:填写缺失的值,平滑噪声数据,识别、删除离群点,解决不一致性
8. 什么是数据集成?
答:集成多个数据库、数据立方体或文件
9.什么是数据归约?
答:得到数据集的压缩表示,它小得多,但可以得到相同或相近的结果
10.数据清理的内容包括哪些?
答:缺失值、噪声数据、数据平滑、聚类、回归
11. 将下列缩略语复原
OLAP ——on-line analytical processing
DM ——data mining
KDD ——knowledge discovery in databases
OLTP ——on-line transaction processing
DBMS ——database management system
DWT ——discrete wavelet transform
(DMQL )--Data Mining Query Language
12.什么是数据挖掘?
答:简单地说,数据挖掘是从大量数据中提取或挖掘知识。 具体地说,数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际 应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和 知识的过程。
13.什么是关联规则?
答:(关联规则是形如X→Y的蕴涵式,其中且, X 和Y 分别称为关联规则的先导和后继。) 假设I 是项的集合。给定一个交易数据库,其中每个事务(Transaction)t 是I 的非空子集,即,每一个交易都与一个唯一的标识符TID(Transaction ID)对应。关联规则在D 中的支持度(support)是D 中事务同时包含X 、Y 的百分比,即概率;置信度(confidence)是包含X 的事务中同时又包含Y 的百分比,即条件概率。关联规则是有趣的,如果满足最小支持度阈值和最小置信度阈值。这些阈值是根据挖掘需要人为设定。
(关联规则反映一个事物与其它事物之间的相互依存性和关联性,如果两个事物或者多个事物之间存在一定的关联关系,那么其中一个事物就能够通过其他事物预测到。
)
14.什么是可信度?什么是支持度?
答:
15. 什么是概念描述?什么是特征化?什么是属性相关分析?
答:概念描述:用汇总的、简洁的和精确的方式描述各个类和概念可能是有用的。 特征化:是目标类数据的一般特性或特征的汇总。
属性相关分析:可能需要在分类和预测之前进行,它试图识别对于分类或预测过程无用的属性。这些属性应当排除。
16.什么是数据仓库?其主要特征是什么?
答:数据仓库是一个提供决策支持功能的数据库,它与组织机构的操作数据库分别维护。它允许将各种应用系统集成在一起,为统一的历史数据分析提供坚实的平台,对信息处理提供支持。
特征:面向主题、数据集成、随时间而变化、数据不易丢失 (数据不易丢失是最明显特征)
17.什么是数据集市?
答:数据集市包含企业范围数据的一个子集,对于特定的用户群是有用的。其范围限于选定的主题。
(是完整的数据仓库的一个逻辑子集,而数据仓库正是由所有的数据集市有机组合而成的)
18.数据库中的知识发现过程由哪几个步骤组成?
答:数据清理、数据仓库、任务相关数据、数据挖掘、模式评估、知识表示
19.典型的数据挖掘系统有哪几个主要成分?
答:数据库、数据仓库、万维网或其他信息库;数据库或数据仓库服务器;知识库;数据挖掘引擎;模式评估模块;用户界面
20.从软件工程的观点来看,数据仓库的设计和构造包含哪些步骤?
答:规划、需求研究、问题分析、仓库设计、数据集成和测试、部署数据仓库。
21.在数据挖掘系统中,为什么数据清理十分重要?
答: 脏数据的普遍存在,使得在大型数据库中维护数据的正确性和一致性成为一个极其困难的任务。
22.脏数据形成的原因有哪些?
答:滥用缩写词、数据输入错误、数据中的内嵌控制信息、不同的的惯用语、重复记录、丢失值、拼写变化、不同的计量单位、过时的编码
23.数据清理时,对空缺值有哪些处理方法?
答:忽略元组、人工填写缺失值、使用一个全局变量填充缺失值、使用属性的平均值填充缺失值、使用与给定元组属同一类的所有样本的属性均值、使用最可能的值填充缺失值
24.什么是数据变换?包括哪些内容?
答:将数据转换或统一成适合于挖掘的形式。
包括:光滑、聚集、数据泛化、规范化、属性构造
25.数据归约的策略包括哪些?
答:数据立方体聚集、性子集选择、维度归约、数值归约、离散化和概念分层产生
26.提高数据挖掘算法效率有哪几种思路?
答:减少对数据的扫描次数;缩小产生的候选项集;改进对候选项集的支持度计算方法
27.假定属性income 的最小值与最大值分别为12000和980到区间[0.0,1.0],根据 min-max 规范化,income 的值73600将变为_3631/551_。
28.假定属性income 的平均值和标准差分别为54000和16000,使用 Z-score 规范化,值73600被转换为_1.225_。
29.假定A 的值由-986到917.A 的最大绝对值为986,使用小数定标规范化,-986被规范化为_-0.986_
30.从结构角度来看,有哪三种数据仓库模型。
答:企业仓库、数据集市、虚拟仓库
31.什么是聚类分析?它与分类有什么区别?
答:将物理或抽象对象的集合分组成为由类似的对象组成的多个类的过程
区别:分类有监督 聚类无监督 分类要靠学习 聚类要靠启发式搜索
32.与数据挖掘类似的术语有哪些?
答:数据库中挖掘知识、知识提取、数据/模式分析、数据考古和数据捕捞。
33.解释下列术语 34.翻译下列术语
Data Mining 数据挖掘 Data warehousing 数据仓库 Data Mart 数据集市
drill-down 下钻 roll-up 上卷 OLAP 联机分析处理 Data cube 数据立方体 Association rule 关联规则 Data cleaning 数据清理 Data integration 数据集成 Data transformation 数据变换 Data reduction 数据归约
35.可以对按季度汇总的销售数据进行___B___,来观察按月汇总的数据。
A 上卷 B 下钻 C 切片 D 切块
36.可以对按城市汇总的销售数据进行____A__,来观察按国家总的数据。
A 上卷 B 下钻 C 切片 D 切块
37.通过不太详细的数据得到更详细的数据,称为____B____。
A 上卷 B 下钻 C 细化 D 维规约
38.三层数据仓库结构中,从底层到尾层分别是_仓库数据服务器、OLAP 服务器、前端客户层__。
39.已知事物数据库D ,给定最小支持度,会求所有的频繁项集和它们的支持度。
40. 类比较过程有哪几个步骤?
答:
41. 给出数据仓库的某种概念模式图,会用DMQL 语句描述该概念模式,包括事务和维
42.常用的四种兴趣度的客观度量。
答:简单性 确定性 实用性 新颖性
43.四种常用的概念分层类型。
答:模式分层、集合分组分层、操作导出的分层、基于规则的分层
44. 各种DMQL 子句的表述?
答:1. use database or use data warehouse// use 子句将数据挖掘任务指向说明的数据库或数据仓库.
2. from[where]//
from 和where 子句分别指定所涉及的表或数据立方体和定义检索数据的条件.
3. in relevance to :该子句列出要探查的属性和维.
4. order by :order by 子句说明任务相关的数据排序的次序.
5. group by: group by 子句说明数据分组的标准.
6. having :having 子句说明相关数据分组条件.
45.如何理解现实世界的数据是“肮脏的”?
答:不完整的、含噪声的、不一致的、重复的
46.多维数据仓库有哪几种概念模型?
答:星形模式、雪花形模式或事实星座形模式。
47. 充分利用己物化的方体,可以加快挖掘过程
48. 在多路数组聚集算法中,如何尽量少地占用内存?
答:将最小的平面放在内存中,将最大的平面每次只是提取并计算一块。
49. 给出方体的维数,会计算各D 方体有多少,总的方体个数有多少?2^n
50.什么是离群点?离群点都需要删除吗?为什么?
答:离群点:一些与数据的一般行为或模型不一致的孤立数据。不需要。通常离群点被作为“噪音”或异常被丢弃,但在欺诈检测中却可以通过对罕见事件进行离群点分析而得到结论。
【51. 所有模式都是有趣的吗?
答:一个模式是有趣的,如果(1) 它易于被人理解 ;(2)在某种程度上,对于新的或测试数据是有效的;(3)具有潜在效用;(4)新颖的;(5)符合用户确信的某种假设。】