数据挖掘试题

09-15

《数据挖掘》总复习题

1．数据挖掘系统可以根据什么标准进行分类？

答：根据挖掘的数据库类型分类、根据挖掘的知识类型分类、根据挖掘所用的技术分类、根据应用分类

2．知识发现过程包括哪些步骤？

答：数据清理、数据集成、数据选择、数据变换、数据挖掘、模式评估、知识表示

3．什么是概念分层？

答：一个映射序列，将低层概念映射到更一般的较高层概念。

4．多维数据模型上的 OLAP 操作包括哪些？

答：上卷、下钻、切片和切块、转轴 / 旋转、其他OLAP 操作

5．OLAP 服务器类型有哪几种？

答：关系 OLAP 服务器(ROLAP)、多维 OLAP 服务器(MOLAP)、混合 OLAP 服务器 (HOLAP)、特殊的 SQL 服务器

6．数据预处理技术包括哪些？

答：聚集、抽样、维规约、特征子集选择、特征创建、离散化和二元化、变量变换。

7．什么是数据清理？

答：填写缺失的值，平滑噪声数据，识别、删除离群点，解决不一致性

8．什么是数据集成？

答：集成多个数据库、数据立方体或文件

9．什么是数据归约？

答：得到数据集的压缩表示，它小得多，但可以得到相同或相近的结果

10．数据清理的内容包括哪些？

答：缺失值、噪声数据、数据平滑、聚类、回归

11. 将下列缩略语复原

OLAP ——on-line analytical processing

DM ——data mining

KDD ——knowledge discovery in databases

OLTP ——on-line transaction processing

DBMS ——database management system

DWT ——discrete wavelet transform

（DMQL ）－－Data Mining Query Language

12．什么是数据挖掘？

答：简单地说，数据挖掘是从大量数据中提取或挖掘知识。具体地说，数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中，提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。

13．什么是关联规则？

答：（关联规则是形如X→Y的蕴涵式，其中且， X 和Y 分别称为关联规则的先导和后继。）假设I 是项的集合。给定一个交易数据库，其中每个事务(Transaction)t 是I 的非空子集，即，每一个交易都与一个唯一的标识符TID(Transaction ID)对应。关联规则在D 中的支持度(support)是D 中事务同时包含X 、Y 的百分比，即概率；置信度(confidence)是包含X 的事务中同时又包含Y 的百分比，即条件概率。关联规则是有趣的，如果满足最小支持度阈值和最小置信度阈值。这些阈值是根据挖掘需要人为设定。

（关联规则反映一个事物与其它事物之间的相互依存性和关联性，如果两个事物或者多个事物之间存在一定的关联关系，那么其中一个事物就能够通过其他事物预测到。

）

14．什么是可信度？什么是支持度？

答：

15. 什么是概念描述？什么是特征化？什么是属性相关分析？

答：概念描述：用汇总的、简洁的和精确的方式描述各个类和概念可能是有用的。特征化：是目标类数据的一般特性或特征的汇总。

属性相关分析：可能需要在分类和预测之前进行，它试图识别对于分类或预测过程无用的属性。这些属性应当排除。

16．什么是数据仓库？其主要特征是什么？

答：数据仓库是一个提供决策支持功能的数据库，它与组织机构的操作数据库分别维护。它允许将各种应用系统集成在一起，为统一的历史数据分析提供坚实的平台，对信息处理提供支持。

特征：面向主题、数据集成、随时间而变化、数据不易丢失（数据不易丢失是最明显特征）

17．什么是数据集市？

答：数据集市包含企业范围数据的一个子集，对于特定的用户群是有用的。其范围限于选定的主题。

(是完整的数据仓库的一个逻辑子集，而数据仓库正是由所有的数据集市有机组合而成的)

18．数据库中的知识发现过程由哪几个步骤组成？

答：数据清理、数据仓库、任务相关数据、数据挖掘、模式评估、知识表示

19．典型的数据挖掘系统有哪几个主要成分？

答：数据库、数据仓库、万维网或其他信息库；数据库或数据仓库服务器；知识库；数据挖掘引擎；模式评估模块；用户界面

20．从软件工程的观点来看，数据仓库的设计和构造包含哪些步骤？

答：规划、需求研究、问题分析、仓库设计、数据集成和测试、部署数据仓库。

21．在数据挖掘系统中，为什么数据清理十分重要？

答：脏数据的普遍存在，使得在大型数据库中维护数据的正确性和一致性成为一个极其困难的任务。

22．脏数据形成的原因有哪些？

答：滥用缩写词、数据输入错误、数据中的内嵌控制信息、不同的的惯用语、重复记录、丢失值、拼写变化、不同的计量单位、过时的编码

23．数据清理时，对空缺值有哪些处理方法？

答：忽略元组、人工填写缺失值、使用一个全局变量填充缺失值、使用属性的平均值填充缺失值、使用与给定元组属同一类的所有样本的属性均值、使用最可能的值填充缺失值

24．什么是数据变换？包括哪些内容？

答：将数据转换或统一成适合于挖掘的形式。

包括：光滑、聚集、数据泛化、规范化、属性构造

25．数据归约的策略包括哪些？

答：数据立方体聚集、性子集选择、维度归约、数值归约、离散化和概念分层产生

26．提高数据挖掘算法效率有哪几种思路？

答：减少对数据的扫描次数；缩小产生的候选项集；改进对候选项集的支持度计算方法

27．假定属性income 的最小值与最大值分别为12000和980到区间[0.0，1.0]，根据 min-max 规范化，income 的值73600将变为＿3631/551＿。

28．假定属性income 的平均值和标准差分别为54000和16000，使用 Z-score 规范化，值73600被转换为＿1.225＿。

29．假定A 的值由-986到917.A 的最大绝对值为986，使用小数定标规范化，-986被规范化为＿-0.986＿

30．从结构角度来看，有哪三种数据仓库模型。

答：企业仓库、数据集市、虚拟仓库

31．什么是聚类分析？它与分类有什么区别？

答：将物理或抽象对象的集合分组成为由类似的对象组成的多个类的过程

区别：分类有监督聚类无监督分类要靠学习聚类要靠启发式搜索

32．与数据挖掘类似的术语有哪些?

答：数据库中挖掘知识、知识提取、数据/模式分析、数据考古和数据捕捞。

33．解释下列术语 34．翻译下列术语

Data Mining 数据挖掘 Data warehousing 数据仓库 Data Mart 数据集市

drill-down 下钻 roll-up 上卷 OLAP 联机分析处理 Data cube 数据立方体 Association rule 关联规则 Data cleaning 数据清理 Data integration 数据集成 Data transformation 数据变换 Data reduction 数据归约

35．可以对按季度汇总的销售数据进行___B___，来观察按月汇总的数据。

A 上卷 B 下钻 C 切片 D 切块

36．可以对按城市汇总的销售数据进行____A__，来观察按国家总的数据。

A 上卷 B 下钻 C 切片 D 切块

37．通过不太详细的数据得到更详细的数据，称为____B____。

A 上卷 B 下钻 C 细化 D 维规约

38．三层数据仓库结构中，从底层到尾层分别是_仓库数据服务器、OLAP 服务器、前端客户层__。

39．已知事物数据库D ，给定最小支持度，会求所有的频繁项集和它们的支持度。

40. 类比较过程有哪几个步骤？

答：

41. 给出数据仓库的某种概念模式图，会用DMQL 语句描述该概念模式，包括事务和维

42．常用的四种兴趣度的客观度量。

答：简单性确定性实用性新颖性

43．四种常用的概念分层类型。

答：模式分层、集合分组分层、操作导出的分层、基于规则的分层

44. 各种DMQL 子句的表述？

答：1. use database or use data warehouse// use 子句将数据挖掘任务指向说明的数据库或数据仓库.

2. from[where]//

from 和where 子句分别指定所涉及的表或数据立方体和定义检索数据的条件．

3. in relevance to :该子句列出要探查的属性和维．

4. order by :order by 子句说明任务相关的数据排序的次序．

5. group by: group by 子句说明数据分组的标准．

6. having :having 子句说明相关数据分组条件．

45．如何理解现实世界的数据是“肮脏的”？

答：不完整的、含噪声的、不一致的、重复的

46．多维数据仓库有哪几种概念模型？

答：星形模式、雪花形模式或事实星座形模式。

47. 充分利用己物化的方体，可以加快挖掘过程

48. 在多路数组聚集算法中，如何尽量少地占用内存？

答：将最小的平面放在内存中，将最大的平面每次只是提取并计算一块。

49. 给出方体的维数，会计算各D 方体有多少，总的方体个数有多少？2^n

50．什么是离群点？离群点都需要删除吗？为什么？

答：离群点：一些与数据的一般行为或模型不一致的孤立数据。不需要。通常离群点被作为“噪音”或异常被丢弃，但在欺诈检测中却可以通过对罕见事件进行离群点分析而得到结论。

【51. 所有模式都是有趣的吗？

答：一个模式是有趣的，如果(1) 它易于被人理解；（2）在某种程度上，对于新的或测试数据是有效的；（3）具有潜在效用；（4）新颖的；（5）符合用户确信的某种假设。】

与《数据挖掘试题》相关的范文

08-15 2014年高考物理试卷分析(海南卷)

20XX年高考物理试卷分析(海南卷)海南省教育研究培训院总体评价 20XX年普通高等学校招生全国统一考试新课程标准试卷（海南卷）依据《20XX年普通高等学校招生全国统一考试大纲（理科•课程标准实验版）》和海南省的《20XX年普通高等学校招生全国统一考试大纲的说明（理科•课程标准实验版）》（以下简称《说明》）进行命题，试卷为单科独立试卷。试卷在保持平稳的基础上，结合海南实际，针对性地对部分试题的难 ...

08-28 2014年中考化学复习计划

一、复习规划　　复习规划一般是三段式复习法。即：　　第一阶段是章节复习。按照教材编写的章节顺序，根据各章节内容划分不同的小单元进行复习。这一阶段要于4月20日左右结束，时间约8-9个周。　　第二阶段是专题复习。按照教材编写的知识体系，设计不同的知识专题，根据不同的知识专题进行复习。这一阶段要于5月20日左右结束，时间约5-6个周。　　第三阶段是模拟测试。按照中考试题格式及标准，设计中考模拟 ...

08-28 高二化学下学期教学质量分析报告

高二化学下学期教学质量分析报告余俊鹏一、命题原则、要求和范围 1、命题原则命题体现的是测试教学内容掌握的程度，同时，充分考虑到高考内容对中学化学教学改革的导向作用，考查化学知识和技能，对学生解决问题的能力进行考查。遵循“立足基础、强调主干、注重应用、突出能力”的原则，坚持有利于加强基础、有利于指引学生进一步学习能力的形成、有利于学生创新精神和实践能力的培养，力求全面真实地反映我校高二化学教学 ...

12-23 2014年安徽省中考化学试卷评析

20XX年安徽省中考化学试卷评析倪德志 20XX年安徽省初中毕业学业考试已于6月16日圆满结束，化学试题严格依据《全日制义务教育化学课程标准》和《20XX年安徽省初中毕业学业考试纲要》命题，既注重考查学生基础知识和基本技能的掌握程度，又注重评价学生的科学探究能力，同时关注学生在情感、态度、价值观方面的发展，为转变学生的学习方式，实施自主学习、合作学习、探究学习起到了正确的导向作用。今年化学试题知 ...

03-26 五年级下册数学期中考试试卷分析

五年级下册数学期中考试试卷分析一、学生成绩分析：全班56人参加考试，总分5476.8分，平均97.8分，最高分117分；最低分55分。108分以上13人；80-89分8人；；不及格2人。及格率96%；优秀率23%。二、试卷分析： 1、强化知识体系，突出主干内容。本次试题以基础知识为主，既注意全面更注意突出重点，对主干知识的考查保证了较高的比例。 2、重视各种能力的考查。本次试题通过不同的数学 ...

10-05 2014年级应城市第二次联考数学质量分析报告

20xx届九年级应城市第二次联考数学质量分析报告应城市实验初级中学九年级数学组一、考查目的为了全面了解我市20xx届九年级教学情况，监控教学质量，强化复习备考工作，掌握第一手材料，便于各初中学校分析对比，总结成绩，寻找差距与不足，利于教研室做针对性的研究与指导，从而促进教学质量的提高。二、试题特点分析 20xx届九年级应城市第二次联考数学试卷具有以下特征： (1)切合学生实际，突出对数学 ...

05-12 数学中考适应性训练试卷分析

数学中考适应性训练试卷分析为了让初三学生尽快适应中考，也为下一轮复习进行“查缺补漏”。我区全体初三学生参加了4月18、19、20号山西省组织的中考适应性训练考试。这次考试，是考生们中考前的第一次仿中考模拟训练。它从时间安排上、考试形式上、试题结构上、题型分布和赋分比例上都尽可能地接近山西省的中考。考生们能够在此考试中暴露自己在复习中存在的漏洞与问题，为下一轮复习找准方向。通过这次考试也能客观的反 ...

07-23 武汉市2014初中数学考试试卷分析

武汉市20xx初中数学考试试卷分析本次考试是初中毕业学生的一次测试，又是对初中三年数学教学的一次终结性评价. 今年的试卷，试题既有亲和力，又新颖脱俗；既似曾相识，又改革创新；既注重基础，又突出能力；既背景新颖，又根植于课本；重视数学应用的考查，稳中求变，变中求新，导向明确。充分体现了义务教育的普及性、基础性和发展性，贯彻了《数学课程标准》提出“人人学有价值的数学，人人能获得必要的数学，不同的学生 ...

08-14 高三生物下学期教学计划4

一、把握高考动向，调整复习策略分析近几年来生物高考试题，主要有以下几个特点： 1、关注热点，强调理论联系实际。转基因工程、克隆技术、无土栽培、环境保护、绿色食品、害虫的生物防治、可持续发展等热点问题在高考中的介入，有利于加强学生对生命科学新成果及其使用价值、发展前景的关注，对生物学实际问题的研究和探索，很好地体现了学科知识与社会实践和科技发展的紧密联系，体现了学以致用的命题思想。 2、加强了对 ...

08-25 孝感市2014年中考调研考试数学质量分析报告

孝感市20XX年中考调研考试数学质量分析报告一、考查目的和命题的指导思想为了加强对教学质量的了解和质量跟踪，根据孝感市教研室的统一部署在全市九年级做调研质量检测，本次调研考试从为了准确地评价学生在新的数学课程方面的发展情况，促进我市课程改革工作继续深入地开展，注重学以致用，联系实际，培养学数学、做数学、用数学的意识，重视对学生学习数学知识与技能的评价和学生在数学思考能力和解决问题能力等方面发展 ...

随机推荐

猜你喜欢

数据挖掘试题

·民主生活会会议记录

·乡镇工业发展情况及工作思路

·招商局领导班子述职报告

·陆上货物运输托运合同

·毕业感言:大学,梦开始的地方

·社会学重要知识点

·散打运动训练中速度的分析

·电子技术基础实验答案

·泥鳅消化道指数及消化酶活性分布的研究

·蛋白类药物生产

·学习十八大报告心得:做好农村工作

·干部人事制度改革的交流材料

·致高一新生家长的一封信

·一场演讲百年震撼-王财贵博士北师大演讲稿

·广东省国内旅游组团合同(示范文本)范本

·中华人民共和国政府和南斯拉夫社会主义联邦共和国议会联邦执委会

·汉字听写比赛

·五年级写事作文100字:有趣的"跳蚤市场"

·模板简历:大学生兼职求职

·云杉为[高路入云端]作序:观赏心路风景?采撷心灵之花--中国共产党新闻--人民网