决策树法的哲学思考
维普资讯 http://www.cqvip.com
第9 卷第 2 期
2O 07年 4月
湖 南医科大学学报 ( 社会科学版 )
J u n l fS ca dec f强 咖 o r a o il 0 S v e0 M e ia v rl dclt est mi y
Vl . No 2 d 9 .
Ap .2 O r 07
决 策树 法 的哲 学 思 考
史静尊 . 孙振球 ( 中南大学公共卫生学, 湖南长沙,108 407 )
【 摘要] 决 策树 法其 采用 情景 分析的方法和分而制之的策略 , 过确定 一系列 i—t n的逻辑关 系 , 成一套分层 通 f h e 形 规则 , 而对研究对象进行精确预测或正确分类 .该法是数据挖掘主要技术之 一 , 越来越广泛地 应用千医学实践 从 被 中, 透彻理解其丰 富的哲学 内涵将有 助于对本 法的正确应用 . 【 关键词] 决策 树法; 系统方法 ; 最优化原则 ; 人文精神
[ 中图分类号] (3. ] 16 9
【 文献标识码] A
[ 文章编号] 1 8 8 920 ) 一 O6 0 0 — 2 ( 『0 OO — 3 0 2 07 2
决策树法(e s n r —bs e o) dc i e a dm t d是通过确 io te e h
定 一 系列 i—t n的逻 辑 ( f h e 分枝 ) 系 , 成一 套分层 关 形
这些射 出线引导到进一步的决策结点或机会结点或
结 局结 点 .从 机会 结点 引 出的射 线表 示在 该结 点可
规则 , 生成决策树(eio e)从而达到对研究对 dc i te , sn r
能出现的各种随机事件 , 每一射线代表一种随机事 件, 事件名称标于射线上方 , 其事前概率标于射线下 方 .每个结局结点代表一种可能的结局状态.进行 决策分析时常在结局结点的右侧标 出各状态 的效用 值 .在决策树模型建立后 , 可计算各种备选方案 的 期望效用值 , 为决策依据 .图 l 作 显示 的是美 国某 支, 对是否应采取强制环保措施用决策树法进行分 析, 绘制的决策树图.如图显示, 不采取强制环保措 施的期望效用值为每一儿 童花费 1198 0 ,8 美元 , 而
采 取措施 后 的花费 为 5 ,3 669美元 , 即采 取强 制环 保
象进行精确 预测或正确分类 的目的[ .本法起 源 ,
于迭代划分技术 , 采用情景分析 的方法和分而制 之 的策略 , 体现了一分为二的哲学思想 .即对于一个 规模为 n 的问题 , 若该 问题无法容易地解决则将其
分解 为 k 规模 较 小 的 子 问题 , 些 子 问 题互 相 独 个 这
立且与原问题形式相同, 递归地解这些子问题 , 然后 公共卫生机构为预防儿童铅 中毒 , 减少卫生费用开
将各子问题 的解合并得到原问题 的解 . 随着管理信息系统 的不断建立 和健全 , 卫生管 理和卫生服务等各部门都积累了大量蕴涵丰富的数 据.开发和应用一些便捷, 有效的方法 , 帮助高层决 策者们从海量数据 中去粗取精 , 去伪存真 , 提取有用 信息 , 已成为时代的需求 .在此前提下 , 作为数据挖 掘主要技术之一的决策树法在医学领域的应用 日益
广 泛
【I 3.
一
措施可平均降低 4 ,4 5 39美元 因铅 中毒而带来 的医 疗费用.由此 , 建议采取强制的环保措施.
2 决 策树 建 立 的 方 法 .
通常, 决策树法 包含 以下步骤 , 在实际应用 但 中, 可以跳过其中的一步或几步. () 1提出决策问题 , 明确决策 目标 () 2建立决策树模型——决策树的生长 决策指标的选择包括两个基本步骤 : ①提出所 有可能的分枝规则 , 即可能的决策指标及其所分类 别( 分类资料 ) 或分类 阈值 c 等级或计量资料 )② ( ;
,
决策树法的介绍
1 决策树 的结 构 .
决策树是逐步分枝 的树形 图, 包含三类基本 的 结点 : 决策结点( 用口表示 )机会结点( , 用.表示) 和 结局结点( 表示) 用 .从决策结点引出一些射出线 , 表示不同的备选方案 , 每一射线代表一种备选方案.
[ 收稿 日 】 2O — 4 8 期 0 7 0 —1
[ 基金项目】 国家" 十五" 攻关项 目: 老年疾病 医疗后果评价系统的研究 ( 课题编号 : 0B , 2 0) 2 1A7 ]4 0 03
[ 作者简介] 史静诤 ( 7 一)女 , 1 4 , 浙江鄞县人 , 9 中南大学公共卫生学院 2O 级博士生 , O4 主要研究方向遭 合评价及其医学应用 .
维普资讯 http://www.cqvip.com
第2 期
史静
, 孙振球 : 决策树法的哲学思考
7
由以上候选的分枝规则中选择最佳者 , 选择的标准
法有 : ( 熵 即平均信息量) 的减少量, i 指数, 检 Gn i 验, 方差分析, 方差减少量计算等.
是使产生的两个 子结 内个体 间有最大的相似程度 , 即使两个子结内" 纯度" 达到最大.实现此 目标 的方
¥41 6 7 .6
铅 中毒蔓延
P= 7 0.3
无强制措施
S 4 .6 3 96 0
/
铅中毒诊断 /
— — —
/
\ 无中毒发生
L
¥90 3 7 .9
\
铅中毒蔓延
\ \
有强制措施
/
厂 :
中毒发生
¥. 2 m
S 4 .7 161 2
¥ 0 .7 3 55 9
注: : P 各随机事件的事前概率 IB : bp血铅浓度值( / )E : 也 ;u 期望效用
一一 一 一 ~ ~一 一 一 B— 一 一B 一 —一 一一 B ~
图 1 有无 强帝 环保措施决策树 】
() 3 树的剪枝及最佳树的选择
一
1 树 的生长 . . 系统 方 法的应 用
株达到尽量延展的" 最大树 " 通常是过度拟合
系统方法 就 是 按 照研 究 对 象 的系 统 性 , 用 系 应 统论 原理 , 把对象 作为 系统 加 以研究 和考 察 , 即从 系 统 的整体 出发 , 过对 系统 与要 素 , 素 与要 素 , 通 要 要
(vrt的【 模 型可能 不仅拟 合 了训 练集 中主要 分 oe ) 引, l f 枝变 量的特征 , 拟 合 了其 中 的误 差 , 噪声 " 因 也 即" ,
此需要对其进行修剪 , 使过度拟合得以纠正 , 以得到 最佳拟合且相对简练的决策树.按剪枝发生在树生 长停止之前或之后可分为前剪枝算法和后剪枝算 法.后剪枝通常从树 的末端
开始, 逐一剪 去各子结 点, 得到一系列子树 , 再从中选择质量最佳者 , 计算 方法有多种, 其中常用的为 " 成本 一复杂度 " c t (o — s
cm l i ) o p x y 法. et
素与系统, 系统与环境等内外各种关系的辩证分析 , 揭示对象的系统规律 , 而达到问题最佳处理的一 从 种方法.决策树法把主要决策问题 , 全部备选方案 及其可能的各种结局看成一个完整的系统 .根据第
一
级不同的备选方案, 将系统分为不 同要素 , 在这些
要素 内部又根据不同的备选方案或不同的随机事件 进行分枝 , 如此逐级划分 , 形成一棵尽量延展的决策 树, 即一个层 次分 明, 考虑周全 , 要素完整 的系统 . 隶属关系的 , 并且系统和要素是相对 的, 系统对其下
一
() 4确定各终结点及计算综合指标 ado i c) 即对各决策结点下全部结局 的期 n ln b k , fd g a 望效用与其事前概率的乘积求和 , 得到各决策方案
要素和要素之间是相互联系 , 有迭代 从树 梢至树 根 的方 向, 用 回乘 法 (v ai 在这个系统里 , 采 ae g g rn
层次的要素来说是整体 , 而对其上一层次来说就
的期望效用值 , 并跟据综合指标值对各方案排序 , 进
行优劣取舍. () 5树的评估
二,关 于决策树 法的哲 学思 考
成为要素, 即部分.在此过程 中, 应用扩散思维的方
法, 尽可能收集影响树的分枝的各个因素. 2树的剪枝, . 最优化原则的应用 优化原则是使用系统科学方法的 目的和要求 .
这一原 则要 求在 研 究 和解 决 问题 时 要统 筹 兼顾 , 大
决策树法不但是常用 的数据挖掘方法之一, 该 法也蕴藏着丰富的哲学 内涵, 透彻理解其哲学思想
有 助于对本 法 的应用 .
力协同, 多种 可能性 中选择 出最优化 的系统 方 从
案 [. 5 ]
维普资讯 http://www.cqvip.com
8
湖南 医科大学学报 ( 社会科学版)
第9 卷
数理统计证 明, 一株达到尽量延展 的" 最大树 " 为最佳方案选择的标准 , 体现了医学技术, 人文关怀 通常是过度拟合的 , 而决策树法 的 目标在于建立一
个最为准确, 简洁, 易行的数学模型, 即一个最优化 的系统方案.因此 , 要对" 最大树" 进行剪枝 , 以得到 " 最佳树" .树 的剪枝从两个方面考虑 : 的复杂度 树 ( 越小越好) 和树的预测精 度( 越高越好)期望能尽 ,
可能兼顾这样 两个 互相影响又互相矛盾 的两个方 面, 从而得到" 最佳树" .在此过程中, 应用集 中思维 的方法 , 尽可能使树更为简练而又不丢失过多信息. 3 最佳方案的确定, . 人文精神的体现
和数理科学在关注的对象和获取 的成果 上的统一,
以及精神实质和深层底蕴上的沟通和互补 .达到了 把医学技术 的工具价值 与 目的价值 统一起来 的 目
标.
本法较好地诠释了人文精神的两层含义 : 第一 , 就是人性 , 就是对人 的尊重 , 和对人的主观喜好的尊
重, 以用一个概念来说明它 , 可 就是人 的尊严强调人
的尊严 , 实际上也就是广 义的" 人道主义" 神; 精 第
二, 是理性 , 即对真理的追求 , 头脑对真理的思考 , 是
决策树法的根本 目标在于从各个备选方案中选 择最佳者 , 以为卫生决策提供参考.方案选择 的基
本思想是 : 在决策树 的生长和剪枝完成后 , 对各种可
广义的科学精神 , 体现在对各结局效用值用科学 的 方法进行计算而得到各方案的期望效用.
综上所述 , 决策树法是卫生领域的一个有效工 原理和医学应用 , 也应深刻理解其哲学内涵 , 才能够 真正学会应用 , 用好此模型, 使卫生决策更加科学.
能的结局结点以一致的标 准赋予效用值 , 由此计 具 , 并 在该法的实际应用中, 我们不仅要 了解他的数理 算各备选方案的期望效 用 , 根据期望效用值的大小 为决策提供依据.效用(t 够 是指一个人在 占有 , ul ) i i
使用或消费某种商品( 服务 ) 而得到 的快乐或满足 , 是一个 主观指标.如 : 生活 质量, 质量 调整生命 年
参 考文 献 :
[] 方积乾. 1 医学统计学与电脑 实验 ( 第二版 )M . 海: [ ]上 上海科学
技 术出版社 , 0 :3 — 4 . 2 137 3 0 0
等.决策树法 中 以该 指标作为选 择方案 的统一标
准, 是在卫生决策中人文精神 的体现.说 明最优 方 案的选择是 以人的喜好为根本出发点的.较之以前
常用的效益 , 效果等客观指标 ( 评价方案的优劣是以 收益 , 效果等客观标准 , 而不是人的主观感受)体现 ,
了决策树法把现代医学技术放到人文哲学的大视野 中予 以体认的一种哲学观念 , 从而在人学本体论 的
[] 孙 振球 . 2 医学 统计 学 ( 第二 版 ) M]北 京 : 民卫生 出版 社 , [ . 人
2 0 :9 0 5 4 3—5 7 2.
[] 栾 丽华 , 3 吉根林 . 决策树分类技 术研究 []计算机工程 20 , J. O43 0
( )9 —9 . 9 :4 6
[] Rgr .kw8 ni x eo a i ao dl e 4 o eJ i .A m htnt csi fn n 画∞ 衄 n i o ls e ii a e
( A T nls .Peetda te 00ana m r t ce C R )aa i r n th 2O nul l h s iy ys s e g eo t
fra. o P1 _~m c~ 4 rec dcn nS nF adso,C lo i. gn ymeiiei a rn c ai r a fn
意义上审视现代医学技术 的价值理性 , 重塑 了现代
医学人文精神【 . 6 l 以人为本 , 确立科 学理性对 医学技术 的指导地
位 , 时约束 医学 技术 行为 , 该 也 已逐 步 成 为现 代 适 应
[] 朱健平 . 5 系统科学方法在药物研究 中的应 用分析 []医学 与哲 J.
学 ,02 2 ( )5 —5 . 2 O , 3 8 :1 3
[] 刘典恩. 6 论医学人文精神的重 塑[] 医学与哲学 , O , 3 : J. 2 2 2 0) 0
l 5一l 8.
医学人文精神的核心理念.决策树法采用效
用值作