论数据挖掘中的数据预处理技术
第32卷第5期2013年5期
煤炭技术
CoalTeehnologY
v01.32,No.05
May,2013
—■■●———●■■—■■■■—●■—■■■■■■■■●●■■■—■■■■■■●●■■●——■——■■●●■■■■■■■■————一ill■■■■■■●■■————■■■■■●■■■■———■■■■●■■■■■■■●■■—●■■■■■■■■●一
论数据挖掘中的数据预处理技术
汪伟,邹璇,詹雪
(南昌大学科学技术学院,南昌330029)
摘要:数据挖掘是人工智能应用的典型代表,常用于数据库资源的深入挖掘,通过”知识发现”提高数据的有效利
用率。数据预处理是数据挖掘前期的重要工作,能够帮助用户从多个角度挖掘数据资源潜在的价值信息。
关键词:数据挖掘;预处理;技术;运用流程中图分类号:TP311.13文献标识码:A
文章编号:1008—8725(2013)05-0152-02
Discussion
on
DataPreprocessingTechnologyinData
WANGWei,ZOUXuan,ZHANXue
Technology,NanehangUniversity,Nanchang
Mining
(College
commonlyused
in
ofScienceand
330029,China)
the
typical
representative,
Abstract:Datamining
isthe
application
resources
ofartificial
intelligence
to
databasein
deepmining,through”knowledgediscovery”improve
can
datautilizationrate.Data
users
preprocessing
istheimportantworkof
resources
datamining,which
help
fromtheperspectiveofdatamining
latentvalueofinformation
Keywords:datamining;pretreatment;technology;applicationprocess
0前言
数据库作为各种信息资源的存储空间,可容纳大量不同形式的数据信息,满足了用户数据处理调控的需要j基于计算机平台的办公自动化系统是企业经营的先进模式,数据库中许多数据内容的潜在价值尚未
根据实际操作需要随意性调配数据库资源。对于用户而言,建立数据仓库有助于数据信息的筛选、收发、调配,避免仓库数据出现丢失或遗漏。数据仓库的应用价值如下:
(1)组织数据。综合处理数据信息是计算机的核心功能,其实现了多种数据的自动化运算,借助计算机操
作平台完成了数据的智能调配。由于计算机语言面对的数据形式十分复杂,如:数字、图像、声音、视频等,必
得到开发,一些有用的价值信息利用率偏低。数据挖掘
通过综合分析掌握数据的规律,并进行有目的性地挖掘利用,提高了数据库资源的使用效率。1
须要利用某一个组织结构使数据内容趋于规范性【11。建
立数据仓库从根本上组织数据语言,按照用户执行的操作指令组建成不同的数据集,使用数据信息便可灵活调用。
建立数据仓库的应用价值
计算机应用技术已经渗入到各个行业的发展中,
(2)存储数据。目前,计算机在商业经济中的运用更
加普遍,推动了企业办公自动化、智能化的改进。另一方面,计算机应用技术发展使得数据库的存储性能更加优越,数据仓库的存储容量逐渐扩大。企业单位利用数据
特别是企业办公自动化模式的推广,基于计算机处理平台的大型数据库系统发挥了多方面的利用价值。建
立数据库可直接用于海量数据的存储,并且用户能够
库存储经营数据,取代传统手工文件形式的数据存储。
择,包括了电极直径、极心圆直径、炉膛直径及炉膛深参考文献:
度等等,除此之外,对于不同的用煤数量对应应该选择
【1]张烽,李蒙姬,张耀,等.金属硅生产理论与工艺技术的深化研究
(I)【J】.铁合金,2009(1):80一89・
张烽,李蒙姬,张耀,等.金属硅生产理论与工艺技术的深化研究
的操作电阻也有了具体的参数。
3
艺的研究已经有了长足的进步,并且已经能够在实际[41张并立.工业硅冶炼中煤基炭做还原剂的工艺要求探讨田.有色生产中依靠煤炭取代木炭生产化学级金属硅,如果技矿冶,2001(5):231—234.
术过关、操作得当,产品质量不仅不受太大影响,而且炉况也相当容易控制。但是,我们也应该看到,这一工何控制烟煤的质量,如何更好地提高冶炼的稳定性,如我们深人的思考。
收稿日期:2012—08—18;修订日期:2013-01—27
作者简介:汪伟(1982一),男,南昌人,讲师,硕士,研究方向:计算机软件工程与网站开发。
[51文求实,罗隆福,陈光忠,等.金属硅矿热炉供电系统电能测试与分
析[J】冶金能源,2008(6):78—79・
我国当前关于煤炭应用于化学级金属硅的冶炼工p1耋曩嚣黧嚣粼嚣酸洗和氧化提纯啊厦门大学
结语
苎至烹虿之塑薹雪孥鐾j生婴金悠翳垫[61盖翟装君嚣蓑?硅生产的热力学分析与晓改进
……—“………~
(责任编辑赵勤)
何进一步优化和提高冶炼水平等等,这些问题都值得
第5期
汪伟,等:论数据挖掘中的数据预处理技术
・153・
基于计算机技术的数据仓库具有安全可靠、调用便捷、用,引人数据预处理技术可提前对无用数据预处理,提持久保存等优点,以最优方式提供数据应用服务。高了数据挖掘的效率。数据清理主要通过填写缺失的
(3)管理数据。随着计算机应用技术的普及应用,
值、光滑噪声数据、识别或删除离群点并解决不一致性
数据安全是广大用户普遍关注的问题,数据风险不仅来“清理”数据。清理技术的最终目标:格式标准化,异破坏了数据资源的完整性,许多高机密性的商业信息、常数据清除,错误纠正,重复数据的清除,数据清理为军事信息均被窃取,由此造成的经济损失不可估量。数预处理操作提供了更大的空间,减少了无用数据不必据库集合所容纳的数据需加强日常管理,降低数据资要的运算【3】。
源潜在的风险系数。数据仓库除了存储数据功能外,同(2)集成技术。数据预处理环节筛选出可能存在利时也管理着数据的调配利用,设置访问权限可避免盗用价值的信息,集成技术把所有类别的数据集合为一窃者入侵。
体,指引用户尽快锁定预处理的对象范围,自动编制一
2数据预处理的基本功能
套完整的预处理流程,如图2所示。如:数据集成技术
把多个数据源中的数据结合起来并统一存储,建立数数据库挖掘共分为数据准备、深入挖掘、结果表达据仓库的过程实际上就是数据集成,集成处理流程自3个环节,各个程序可细分为具体的逻辑算法与应用
动消除了与数据挖掘无关的数据。另外,当此次数据挖处理。数据挖掘前进行数据预处理,这一环节是在执行掘结束后,集成技术也可把有用数据重新排列整合成主要处理步骤之前完成的相关处理,预处理简化了数数据文件。
据挖掘的流程。计算机应用技术改良条件下,数据预处
理已经设置了具有多方面功能的运行模块。
(1)筛选模块。筛选功能是数据预处理的基本操作步骤,让数据库挖掘流程的运行更具有针对性,节约了
用户数据操作消耗的时间。以商业数据库为例,企业日图2
Web数据预处理的流程
常存储的数据量庞大,共同存储于数据仓库会扰乱预期
(3)转换技术。转换是为了更高效率地数据挖掘,
的挖掘流程,影响了有价值数据的开发利用。预处理系尽可能筛选更多具备实用价值的数据,一般情况,数据
统设置筛选模块,根据用户本次挖掘的详细目标搜查数
预处理中的转换技术采用平滑聚集、数据概化、语言修据,及时锁定数据范围,细化了数据挖掘的对象内容回。
改等方式将数据转换成适用于数据挖掘的形式。如:数(2)转换模块。并非所有的自然语言都适用于计算
据挖掘要求了数据语言的统一性,否则执行挖掘程序机操作,自然语言存储于数据库存在着部分未被利用
会中断运算流程。数据预处理转换技术能够完成各类
的有价值信息。数据预处理属于规范性的数据转换操数据的转换,不同格式、类型的数据均能有效地转换成
作,按照计算机语言编写指令转换自然语,真实地反映通用形式。
出数据集的使用状态,如图1所示。如对大部分地球物(4)归约技术。数据挖掘时往往数据量非常大,小
理面积性观测数据在进行转换或增强处理之前,首先型数据集挖掘消耗的时间较长,降低了数据挖掘运算
将不规则分布的测网经过插值转换为规则网的处理,
流程的效率。数据归约技术能够获取有效的数据集归
大大方便了计算机的运算。
约表示,与原始数据结构基本保持了一致,所得数据结
果与归约前也基本相同[41。归约处理是衡量数据挖掘方
案有效性的核心标准,也可用作验证数据挖掘算法的
一种途径,当挖掘算法与实际挖掘不相匹配,选择维归约可建立多功能数据模型。4
结语
表面上数据库存储信息内容的形式多样,但用户在调用数据库时往往难以发挥出最大的价值,这是由丞函霹
于数据库潜在性的有价值信息未能利用。数据预处理
是数据挖掘的前期步骤,适用于中小型数据库的预先图1基于计算机卫星数据的预处理
处理。企业建立数据仓库之后,必须定期筛选数据集进(3)处理模块。预处理是数据挖掘的前期步骤,处行深入性挖掘,及时发现具备可利用价值的潜藏数据。理模块是其重要的功能结构。基于计算机处理器的数对数据库进行深入性地挖掘,把各项数据均充分地利据预处理,表达出一系列的数据编制流程,让原本冗杂用起来。的程序语言变得更加清晰。当数据挖掘遇到一些剖面参考文献:
测量数据,如:地震资料预处理有垂直叠加、重排、加道
[1】候在平.企业办公系统建立数据仓库的应用价值[J】计算机应用
头、编辑、重新取样、多路编辑等,若直接进入挖掘流程
技术.2011,22(10):32—34.难以取得预期的成效,经过预处理模块可提高数据运[2】郭长艳.简论数据挖掘中数据预处理技术的功能模块[J】东南大
学学报,2009,15(3):90—92.算的效率。
【3】翟达.计算机数据库权限设置与资源利用的管理【J】.管理观察。
2010,28(17):86—88.3数据挖掘中的数据预处理技术
【4】
吕从峰.计算机数据预处理主要技术的应用分析【J】.科技咨询,
201l。30(18):39-42.
(1)清理技术。鉴于脏数据对数据挖掘的约束作
(责任编辑赵勤)
论数据挖掘中的数据预处理技术
作者:作者单位:刊名:英文刊名:年,卷(期):
汪伟, 邹璇, 詹雪, WANG Wei, ZOU Xuan, ZHAN Xue南昌大学科学技术学院,南昌,330029煤炭技术
Coal Technology2013,32(5)
本文链接:http://d.g.wanfangdata.com.cn/Periodical_mtjs201305073.aspx