大数据时代的卫生信息化建设思考
Chinese Journal of Health Informatics and Management, Feb.2014, Vol.11, No.1 中国卫生信息管理杂志2014年2月第11卷第1期
Management on General Health Information
doi:10.3969/j.issn. 1672-5166.2014.01.08
大数据时代的卫生信息化建设思考
刘晓亮① 王 坤① 马 军①
文章编号:1672-5166(2014)01-043-04 中图分类号:R-39;R197.1 文献标志码:A
的来临,“大数据”正在对每个领域都造成影响。本文分析了医疗卫生数据的特摘 要 随着“大数据时代”
点,以及大数据在医疗卫生领域的应用场景,提出了下一步在区域卫生数据中心建设、数据整合共享,以及人才队伍建设方面一些思路。
关键词 大数据 卫生信息化 区域卫生 数据中心
A Discussion on the Development of Health Informatics in the Big Data EraLiu Xiaoliang, Wang Kun, Ma Jun
Hebei Health Information Center, Shijiazhuang 050051, Hebei, China
Abstract In the coming "big data" era, "big data" is affecting every field. This article analyzes the characteristics of the health data as well as the applications of “big data” in health care. Also, the article elucidates the construction of regional health data center, data integration and sharing, and work force training.
Key words Big data, Health information, Regional health, Data center
1 引言
“大数据时代”已经降临,“大数据”正在对每个领域都造成影响。在商业、经济及其他领域中,决策行为将日益基于数据和分析的结果,而非基于经验和直觉;而在公共卫生、经济发展和经济预测等领域中,“大数据”的预见能力也已经崭露头角。2012年3月,美国政府公布了“大数据研发计划”(Big Data Research and Development Initiative)。该计划的目标是改进人们从现有的海量和复杂的数据中获取知识的能力。其中,与医疗卫生领域相关的有生物传感2.0、虚拟实验室环境(VLE)、癌症基因组图谱(TCGA)、神经科学信息框架(NIF)、患者报告结果测量信息系统(PROMIS)等10余项。
关于大数据,John Rauser提出了一个简单的定义:任何超过一台计算机处理能力的庞大数据量,就称为大数据。最常见的大数据定义使用4V,即:(1)Variety,大数据种类繁多,在编码方式、数据格式、应用特征等多个方面存在差异性,多信息源并发形成大量的异构数据;(2)Volume,通过各种设备产生的海量数据,其数据规模极为庞大;(3)Velocity,对数据实时处理有着极高的要求,通过传统数据库查询方式得到的
① 河北省卫生信息中心,石家庄市,050051
作者简介:刘晓亮(1979),男,大学本科,工程师;研究方向:网络与数据库;E-mail:[email protected]
43
中国卫生信息管理杂志2014年2月第11卷第1期 Chinese Journal of Health Informatics and Management, Feb.2014, Vol.11, No.1
中国卫生信息管理
“当前结果”很可能已经没有价值;(4)Vitality,数据持续到达,并且只有在特定时间和空间才有意义。
2010年底,原卫生部完成了“十二五”卫生信息化建设工程规划编制工作,初步确定了我国卫生信息化建设路线图,简称“3521工程”,即建设国家级、省级和地市级三级卫生信息平台,加强公共卫生、医疗服务、新农合、基本药物制度、综合管理等五项业务应用,建设健康档案和电子病历2个基础数据库和1个专用网络建设。随着这些系统、平台的不断建设,长期以来困扰卫生信息化领域的“烟囱”、“孤岛”等问题将有机会得到解决。各地区的建设重点也将从初期的网络建设、单一的系统建设,转变成大规模区域医疗信息系统和大型数据中心建设。然而,随着海量医疗卫生数据被保存下来,接下来面临的问题将是如何更加有效的分析、利用这些数据。
CHINESE JOURNAL OF HEALTH INFORMATICS AND MANAGEMENT
类、公共卫生服务类、社区卫生服务类、卫生业务类、卫生管理服务类数据。根据估算,中国一个中等城市(一千万人口)50年所积累的医疗卫生数据量就会达到10PB级[1]。随着各地区域卫生信息平台的建设,存储于各医疗卫生机构的数据将逐步通过各种方式实现整合与共享。
的服务可能需要既从科室所属医生的角度,又要从在该科室就诊患者的角度进行分析;针对社区的服务可能需要统计整个社区居民某项指标(比如血压、血糖)的达标率。医疗数据的多维度、多粒度为各种信息服务的多角度、多层次分析提供了可能,但同时也为大数据分析带来了挑战。因为我们不可能为每一种信息服务存储一份特定的优化模式的数据,况且我们也无法枚举出所有可能的信息服务需求。这就需要医疗数据的存储模型能够适应灵活多变的多维统计分析需求[2]。
2.2 医疗数据是关系复杂的多维数据
由于医疗数据是多种数据源数据的汇总,数据之间的关系非常复杂。如图1所示:以患者为中心的服务需要把一个患者的全周期数据按照时间轴排列,并分析诊断、用药和患者生命体征、检验检测值之间的关联;以医生为中心的服务又需要把与医生相关的患者数据挑拣出来,并进行分类;以科室为中心
3 应用需求分析
传统的应用系统建设是面向业务管理,根据业务管理需求设计软件系统。虽然也有部分数据分析,但传统的数据分析定位是“描述分析”——“是什么”。而在大
2 医疗卫生数据的特点
2.1 来源多样化,数据量巨大
2000年以来,我国的医疗数据的生成和采集主要局限于各大医院。近几年,随着社区系统、新农合系统、村卫生室系统等基层医疗卫生信息系统逐步上线,医疗卫生数据源头也越来越多,数据量越来越大。从卫生服务的类型看,区域卫生信息的类型主要有:医疗服务
图1 健康档案的三维系统模型[3]
44
Chinese Journal of Health Informatics and Management, Feb.2014, Vol.11, No.1 中国卫生信息管理杂志2014年2月第11卷第1期
Management on General Health Information
数据时代,数据分析已经从描述分析“是什么”转向分析预测“那又会怎样”、“现在怎样”,即相关的预测分析技术与实时分析决策不限于辅助日常的管理工作,更重要的是为科学预测和政策制定提供技术支持。
医院信息系统、县级新农合业务系统、社区系统、居民健康档案之间的互联互通进行建设和数据整合,使当前相互割裂的以“收费为中心”的医院信息系统,转换为以“患者为中心”的区域卫生数据中心。
区域卫生数据中心的建设,目标是通过若干平台的建设,整合区域内不同医疗机构中患者/健康人群的各种临床诊疗数据、健康数据,在相对集中的逻辑/物理环境中,构建一个以存储和处理患者/健康
药公司在新药物的研发阶段,可以通过数据建模和分析确定最有效率的投入产出比,从而配备最佳资源组合。模型基于药物临床试验阶段之前的数据集及早期临床阶段的数据集,尽可能及时地预测临床结果。评价因素包括医药产品的安全性、有效性、潜在的副作用和整体的试验结果。通过预测建模可以降低医药产品公司的研发成本,提升药品竞争力,并最终使患者受益。
3.1 卫生行政
卫生行政部门可以通过电子病历数据库进行全面的疫情监测,更快地监测出新的传染病和疫情,并做出快速反应。通过分析查阅区内医疗卫生行业各种最新的分析数据,可以加强宏观管理,优化卫生资源的配置,为制定区内公共卫生政策提供准确依据。通过提供准确和及时的公众健康信息,将会大幅提高公众健康意识,同时也可以降低传染病感染风险。
4 问题与思考
4.1 建设重心的转变[3]
2000年以来,各大医院、卫生行政部门纷纷开始了局域网建设,并依托局域网开发了很多主要满足本部门业务需要的应用系统。这样的网络、系统建设从很大程度上促进了卫生信息化的发展,但也给之后的跨部门数据整合带来了很大的难度。当前信息化建设的主要问题是各个区域内不同医疗机构中患者的基础信息和各种临床信息资源分散、重复、孤立,导致有效信息闲置、信息重复或不一致,很难得到有效利用。
近几年,随着云计算技术的成熟,使得大规模的区域卫生数据中心建设成为可能。当前卫生信息化建设的重点需要从之前的专网建设、独立应用系统建设,逐步转变到区域卫生数据中心建设上来。主要工作是针对目前相对独立的各
人群诊疗信息为核心,覆盖多学科、多专业的面向区域内主要卫生行政主管部门、临床医疗机构和社会公众的医学数据资源共享平台。区域性医学数据中心的建设以行政业务处理、医疗、预防、保健、康复为服务主线,以健康人群和患者的医疗活动需求为基础。区域卫生信息平台是区域卫生数据中心的重要组成部分。通过制定标准的数据接口,建立基于广域网的信息交换、数据采集和传输机制,对区域内卫生信息数据进行采集、传输、清洗和汇总,将医院、社区以及公共卫生机构的各类数据、系统有机地整合起来,生成区域的卫生大数据。对于不同级别的区域卫生数据中心的业务系统的数据交换和共享或其他行业业务数据进行共享与交换,可以统一基于区域数据交换与平台来实现,避免系统与系统之间的直接接口连接,这样有利于后期的系统管理维护以及大数据的规划和管理。
3.2 临床操作
通过全面分析患者特征数据和疗效数据,然后比较多种干预措施的有效性,可以找到针对特定患者的最佳治疗途径。通过对在患者档案方面的大数据分析,可以确定哪些人是某类疾病的易感人群,使他们尽早接受预防性干预。这些方法也可以帮助患者选择恰当的治疗方案。
3.3 药品科研
医药产品公司可以利用大数据降低研发成本,提高研发效率。医
45
中国卫生信息管理杂志2014年2月第11卷第1期 Chinese Journal of Health Informatics and Management, Feb.2014, Vol.11, No.1
中国卫生信息管理
交换的数据包括区域内卫生局与上级卫生厅或国家卫生计生委之间的卫生管理类、卫生人员类、各种统计报表等信息共享;不同区域的医疗部门之间诊疗数据的共享;收费与医保中心之间的信息共享;卫生行政部门同公安部门之间的行政执法的信息共享;医疗卫生单位的药品及医疗器械等与食品药品监督管理部门的管理的信息共享等。
CHINESE JOURNAL OF HEALTH INFORMATICS AND MANAGEMENT
的设计是MapReduce和HDFS。MapReduce是一个使用简易的软件框架,可以将MapReduce简单解释为“任务的分解与结果的汇总”。HDFS是Hadoop分布式文件系统(Hadoop Distributed File System)的缩写。 因为MapReduce算法需要切分数据,HDFS 设计为将大文件分别部署到各个服务器。HDFS还有其他特点,如数据的冗余存储、数据校验、数据管道性写入等,这些特性均为分布式计算存储提供了底层支持。
在数据结构上,为了保留医疗数据中大量的语义关系,采用结构化数据+XML文档混合存储的方式。在数据导入的同时,提取XML文档中特定的元数据(比如:患者主索引、就诊科室、主治医师等),并将XML文档根据不同粒度打散成大小不一的子文档。根据不同粒度的查询条件,系统将自动选择相应的子文档进行进一步信息的解析,从而避免为提取少量信息而不得不解析大量XML文档的问题。
数据模型的接口将采用Hive提供的类SQL查询的方式。这样更有利于数据分析人员设计分析算法。同时,我们的系统中将嵌入多种数据挖掘算法供数据分析师使用[5]。
[4]
据库方面的人才、统计和数据分析技术方面的人才及熟悉Hadoop等新技术的人才,还需要这些人还要对卫生业务以及管理需求有比较深入的了解[6]。对于各医疗卫生单位、卫生行政部门来说,一方面要借助专业公司的力量,另一方面,最重要的还是要培养自己的专家队伍。目前单位的技术人员需要学习有关大数据、统计学方面的知识,很重要的是对卫生业务有一个大致的了解,这样在日后的大数据分析中才能灵活变化分析角度,得到更有意义的分析结果。■
参考文献
[1] Intel公司. 区域医疗大数据白皮书
[R]. 2013: 5.
[2] 周宝曜. 健康云上的大数据分析
[EB/OL]. http://qing.blog.sina.com.cn/tj/88ca09aa33000mt0.html.[3] 原卫生部. 基于健康档案的区域卫
生信息平台建设指南(试行)[Z]. 2009: 41.
[4] 王丽兵. 解读: 基于Hadoop的
大规模数据处理系统[EB/OL]. http://www.csdn.net/article/2010-09-02/278976.
[5] 从Hadoop框架与MapReduce模式
中谈海量数据处理[EB/OL]. http://blog.csdn.net/v_JULY_v/article/details/6704077.
[6] 李岳峰, 周光华, 孟群. 我国医改卫
生统计与信息化人才培训框架设计与思考[J]. 中国卫生信息管理杂志,
4.2 选择什么样的技术
面对十分庞大且不断积累的卫生大数据,如何做到合理存储并且高效地加以分析利用将是个重大课题。其中,最大的挑战就是建立一个可以存储和得到所有实时和未来信息的数据平台。平台涉及计算机存储技术、语言查询技术、分析工具、内容分析工具和传输设备,并且可以根据数据量、需求的增加来平滑升级。整个平台的构建及应用有可能花上几年的时间,开始的技术路线选择尤为重要。对于数据平台的选择,至少需要考虑技术的相对成熟性、可靠性、开放性、可扩展性等方面。综合考虑,业内大多数大数据业务的重点立足于开放资源领域。
Hadoop 是一个分布式系统基础架构,由Apache基金会开发。用户可以在不了解分布式底层细节的情况下开发分布式程序。充分利用集群的威力高速运算和存储。Hadoop框架中最核心
4.3 数据分析人员的储备
大数据时代,卫生信息化的发展对人才提出了新的要求。对于区域卫生数据中心来说,不仅需要数
2013, 10(2): 120-124.
[收稿日期:2013-03-16修回日期:2013-12-04]
46