医疗卫生领域大数据应用探讨
中国卫生信息管理杂志2013年8月第10卷第4期 Chinese Journal of Health Informatics and Management, Aug.2013, Vol.10, No.4
新技术应用专栏
doi:10.3969/j.issn. 1672-5166.2013.04.04
XINJISHUYINGYONGZHUANLAN
医疗卫生领域大数据应用探讨
周光华① 辛 英① 张雅洁② 胡 婷③ 李岳峰①△
文章编号:1672-5166(2013)04-0296-06 中图分类号:R-37 文献标志码:A
摘 要 近年来医疗卫生信息化发展迅速,医疗卫生领域也迎来了大数据时代的潮流。本文简述了大数据技术的概念和特点,概述了大数据在各行各业中的应用情况,综述了我国医疗卫生数据资源现状,结合国内外大数据在医疗卫生领域的应用情况,分析了我国医疗卫生领域在大数据医药研发、疾病管理、公共卫生和健康管理等方面的应用前景,并提出了大数据时代医疗卫生领域面临的难点和建议,为卫生行政管理部门和学术界提供参考。
关键词 大数据 医疗卫生 信息化 应用
Study on Big Data’s Applications in Medical and Health FieldZhou Guanghua, Xin Ying, Zhang Yajie, Hu Ting, Li Yuefeng
Center for Statistics and Information of Ministry of Health of the People’s Republic of China, Beijing 100044, China
Abstract Health information technology has developed rapidly in recent years, the medical and health field is inevitably joined the big data era. In this paper, the concept and characteristics of big data technology is described, the applications of big data in various sectors are summarized, the current situation of medical health data resources in China is summarized, combined with the application situation of domestic and foreign data in medical and health fi eld, the opportunity and challenge of China's health fi eld is analyzed in the face of big data era, to provide reference for the health administration and academic circles.
Key words Big data, Health and medical, Informationization, Application
① 卫生部统计信息中心,北京市,100044
②《中国卫生信息管理杂志》社,北京市,100005③ 中国卫生信息学会,北京市,100191
作者简介:周光华(1985),男,硕士学位;研究方向:卫生信息管理;E-mail:[email protected]
通讯作者:李岳峰(1968),男,博士学位,副研究员,卫生部统计信息中心综合办公室主任;研究方向:卫生统计与信息管理,卫生经济;E-mail:[email protected]△通讯作者
Chinese Journal of Health Informatics and Management, Aug.2013, Vol.10, No.4 中国卫生信息管理杂志2013年8月第10卷第4期
XINJISHUYINGYONGZHUANLAN
1 引言
近年来,信息技术和互联网的快速发展,推动着卫生统计工作和部分业务服务及监管信息从手工报告向网络报告,从统计报表向个案数据报告方式转变,重要卫生信息平台和业务系统也正在建立完善,积累了丰富的统计信息大数据资源[1,2]。随着大数据(Big Data)技术的兴起,提供了一种新的看待世界的方法,不再完全依赖于随机采样,不再热衷于追求精确度,不再热衷于寻找因果关系,通过大数据,分析挖掘出小数据无法提取的有价值信息,服务于经济社会发展,大数据技术被称为引领未来繁荣的三大技术变革之一[3], 大数据必将对医疗卫生领域带来重大影响。
在经济、金融、农业、交通和科研等领域都有广泛应用。
在经济和商业领域,互联网新闻中影响制造业的480项经济数据,被用于构建经济预测指标, 分析经济发展趋势。印第安纳大学采用心情分析工具,利用千万条网上留言预测道琼斯工业指数的变化。购物网站的顾客评论也被利用,分析企业产品销售状况[11,12]。一些企业利用大数据分析实现对采购和合理库存量的管理,通过分析网上数据了解客户需求、掌握市场动向。通过分析销售数据,能够了解到顾客购物习惯,细分顾客群体,提供个性化服务。华尔街某公司分析了3.4亿微博账户留言,分析判断买入或卖出公司股票。英国创业者与大学联手对Twitter 上每天超过3亿条信息进行抽样,预测证券市场趋势[13]。根据在某网上中小企业的交易状况,财务健康和讲究诚信的企业能够被筛选出来,据此对其发放无需担保贷款。
在社会安全管理领域,通过对手机数据的挖掘,可以分析实时动态的流动人口来源、出行,实时交通客流信息及拥堵情况。利用短信、微博、微信和搜索引擎,可以收集热点事件,挖掘舆情,还可以追踪造谣信息的源头。美国麻省理工学院通过对10万多人手机的通话、短信和空间位置等信息进行处理,提取人们行为的时空规律性,进行犯罪预测[14]。另外,在科学研究领域,基于密集数据分析的科学发现成为继实验科学、理论科学和计算
科学之后的第四个范例,基于大数据分析的材料基因组学和合成生物学等正在兴起。在农业领域,有公司从美国气象局等数据库中获得几十年的天气数据,预测农场来年产量。交通方面也有大数据的经典应用,通过融合传感器、监控视频等设备产生的海量数据,与气象监测设备等数据相结合,提取出有效信息推送给用户。
3 我国医疗卫生领域大数据
分析
3.1 医疗卫生数据资源现状
近年来,我国医疗卫生领域吸纳了国内外当前先进的信息技术,信息化程度得到很大提高[1,15,16]。我国卫生统计建起了覆盖国家、省、市、县、乡、村六级的从业人员达10万人的工作网络,90余万家医疗卫生机构通过统计直报系统上报了年报及月报,建立了动态的医疗卫生机构、卫生人力等信息库,卫生资源与卫生服务利用、疾病报告与健康监测等大型数据资源库。自1993年开始,每5年在全国范围内开展的国家卫生服务调查,现已建立连续性的,覆盖全国31个省20万人口的家庭基本信息、人口基本信息、患病、就医、基本医疗卫生服务利用等200余项指标的数据库,形成了可进行时间序列分析的系列海量数据。
目前,县及县以上医院基本建立了医院信息系统,20%的县及县以上医院建立起以病人为中心、以
2 大数据概述
随着物联网、云计算、移动互联网、手机、平板电脑、PC以及遍布各处的各式各样传感器的涌现,数据源呈现指数级增长,信息数量及复杂程度快速扩大,从海量数据中提取信息的能力正快速成为战略性发展方向和要求。大数据可以在大规模数据的基础上挖掘分析获得新的认知、创造新的价值,并以此改变市场、组织机构,以及政府与公民关系[4]。大数据同过去海量数据的区别不仅仅在于数据量大[5,6],更在于数据类型繁多[7]、价值密度低[8]、处理速度要求快[9]和时效性要求高[10],大数据与传统数据挖掘有着本质的不同。目前大数据技术
中国卫生信息管理杂志2013年8月第10卷第4期 Chinese Journal of Health Informatics and Management, Aug.2013, Vol.10, No.4
新技术应用专栏
电子病历为基础的挂号、收费、处方、治疗一体化管理信息系统。全国县级新农合管理信息系统基本建成,省、市级监管平台正在逐步完善,各级新农合管理部门、经办机构、定点医疗机构以及其他相关部门间建立计算机网络联接和数据资源共享。深化医改以来,各地基本建立了基本药物监测评价管理系统,实现对各地基本药物和增补药物品种数量、采购情况、缺失的基本药物品种数量、销售价格、配备使用、补偿及报销情况的监管时,产生了大量数据资源。
国家卫生综合管理信息平台是我国卫生信息资源管理的重要组成部分,实现了医疗卫生机构统计数据和各级卫生行政部门在线汇总数据,仅在当前开始运行阶段,就已采集传染病信息5千多万条、突发公共卫生事件信息20多万条、近5百万人电子健康档案数据、3百多万人新农合数据近4千万条、1千多万人的诊疗数据。北京、上海、安徽等12个省份也已建立电子健康档案资源库。另外,国家传染病与突发公共卫生事件网络直报系统的建立,实现了全国所有疾病预防控制机构、96.98%的县和县级以上医疗机构、82.21%的乡镇卫生院网络直报。国家级卫生监督信息系统建设也已启动。妇幼保健业务信息系统围绕新生儿出生登记、死亡和就诊等业务,也在逐步建立完善。这些重要的卫生信息系统运行产生的数据,就占据了我国医疗卫生领域数据总量的大部分。
XINJISHUYINGYONGZHUANLAN
大数据的数据来源主要分为运营式系统阶段、用户原创内容阶段和感知式系统阶段。我国医疗卫生服务、卫生统计调查和各种医疗卫生行业信息系统产生了巨量数据,以每个CT 图像含有大约150MB 的数据、每个基因组序列文件大小约为750MB、每个标准病理图则接近5GB 计算,乘以我国人口数量和平均寿命,那么每个社区医院或中等规模制药企业均可以生成和累积达数个TB 甚至数个PB 级的结构化和非结构化数据。
医疗卫生“大数据”的数据资源包括医疗服务的EHRs 数据,医院与医保的结算与费用数据,医学研究的学术、社会、政府数据,医疗厂商的医药、医械、临床实验数据,居民的行为与健康管理数据以及政府的人口与公共卫生数据,连同我国公共社会经济生活中网络产生的数据,构成了医疗卫生领域大数据的初期数据资源。而随着医改的不断深入,卫生统计和信息化建设得到了进一步加强,统计方法不断改进、多种信息系统广泛使用,医疗和健康数据急剧扩容并几何级增长,利用包括影像数据,病历数据、检验检查结果、诊疗费用等在内的各种数据,搭建合理先进的数据服务平台,将为广大患者、医务人员、科研人员及政府决策者提供服务和协助方面发挥主要作用。
Processing) [17]和先存储后处理的批处理(Batch Processing)[18]。流处理即实时处理,数据流的理论及技术研究目前是研究领域热点,很多实际系统也已开发和得到广泛应用,如Storm、Yahoo和Kafka 等。批处理模式较有代表性的是MapReduce [19]编程模型。大数据的应用类型很多,特别是在医疗卫生领域实际的数据处理过程中,常常是将多种应用类型相互结合起来。
目前大数据在医疗卫生领域有广为所知的应用。公共卫生部门可以通过覆盖全国的患者电子病历数据库进行全面疫情监测。5 千万条美国人最频繁检索的词条被用来对冬季流感进行更及时准确的预测。学术界整合出2003年H5N1禽流感感染风险地图,研究发行此次H7N9人类病例区域。社交网络为许多慢性病患者提供了临床症状交流和诊治经验分享平台,医生借此可获得院外临床效果统计数据。基于对人体基因的大数据分析,可以实现对症下药的个性化治疗。
我国卫生统计信息发展为大数据技术在医疗卫生领域中的发展和应用提供了广阔空间。在技术层面:传统基于数据仓库的BI 和数据挖掘应用可以迁移到大数据环境,结合非结构化数据的分析、挖掘,结合传感器技术产生的大量实时监测数据的分析;在业务层面:涵盖面向医生的临床辅助决策和科研,面向管理者的管理辅助决策、行业监管、绩效考核,面向居民的健康监测,面向药品研发的统计学分析、
3.2 医疗卫生大数据应用分析
大数据应用类型主要处理模式可以分为直接处理的流处理(Stream
Chinese Journal of Health Informatics and Management, Aug.2013, Vol.10, No.4 中国卫生信息管理杂志2013年8月第10卷第4期
XINJISHUYINGYONGZHUANLAN
就诊行为分析等方面都大有可为。同时,国内外正趋向成熟的大数据技术研究会推动卫生统计信息步入更高的发展阶段,实现“数据+环境(产生数据的环境及其条件因素)→信息+规律(信息变化的规律性、学习效应及其总结)→知识+思想(利用知识的逻辑框架及其知识库建立)→智慧”这样一个螺旋式学习提升和价值发现过程。
3.2.1 在医药研发方面大数据技术的战略意义在于对各方面医疗卫生数据进行专业化处理。如对患者甚至大众的行为和情绪的细节化测量成为可能,挖掘其症状特点、行为习惯和喜好等,找到更符合其特点或症状的药品和服务,并针对性地调整和优化。在医药研究开发部门或公司的新药研发阶段,能够通过大数据技术分析来自互联网上的公众疾病药品需求趋势,确定更为有效率的投入产出比,合理配置有限研发资源。除研发成本外,医药公司能够优化物流信息平台及管理,更快地获取回报,一般新药从研发到推向市场的时间大约为13年,使用数据分析预测则能帮助医药研发部门或企业提早将新药推向市场。
3.2.2 在疾病诊疗方面2012年,我国高血压发病率接近18%,患者接近2亿,糖尿病患者约5千万,血脂异常患者1.6亿。通过健康云平台对每个居民进行智能采集健康数据,居民可以随时查阅,了解自身健康程度。同时,提供专业的在线专家咨询系统,由专家对居民健康程度做出诊断,提
醒可能发生的健康问题,避免高危病人转为慢性病患者,避免慢性病患者病情恶化,减轻个人和医保负担,实现疾病科学管理。
对于医疗卫生机构,通过对远程监控系统产生数据的分析,医院可以减少病人住院时间,减少急诊量,实现提高家庭护理比例和门诊医生预约量的目标。武汉协和医院目前也已经与市区八家社区卫生服务中心建立远程遥控联系,并将在未来提供“从医院到家”的服务。在医疗卫生机构,通过实时处理管理系统产生的数据,连同历史数据,利用大数据技术分析就诊资源的使用情况,实现机构科学管理,提高医疗卫生服务水平和效率,引导医疗卫生资源科学规划和配置。大数据还能提升医疗价值,形成个性化医疗,比如基于基因科学的医疗模式。
3.2.3 在公共卫生管理方面大数据可以连续整合和分析公共卫生数据,提高疾病预报和预警能力,防止疫情爆发。公共卫生部门则可以通过覆盖区域的卫生综合管理信息平台和居民健康信息数据库,快速检测传染病,进行全面疫情监测,并通过集成疾病监测和响应程序,进行快速响应,这些都将减少医疗索赔支出、降低传染病感染率。通过提供准确和及时的公众健康咨询,将会大幅提高公众健康风险意识,同时也将降低传染病感染风险。
3.2.4 在居民健康管理方面居民电子健康档案是大数据在居民健康管理方面的重要数据基
础,大数据技术可以促进个体化健康事务管理服务,改变现代营养学和信息化管理技术的模式,更全面深入地从社会、心理、环境、营养、运动的角度来对每个人进行全面的健康保障服务,帮助、指导人们成功有效地维护自身健康。另外,大数据可以对患者健康信息集成整合,在线远程为诊断和治疗提供更好的数据证据,通过挖掘数据对居民健康进行智能化监测,通过移动设备定位数据对居民健康影响因素进行分析等等,进一步提升居民健康管理水平。
3.2.5 在健康危险因素分析方面互联网、物联网、医疗卫生信息系统及相关信息系统等普遍使用,可以系统全面地收集健康危险因素数据,包括环境因素(利用GIS 系统采集大气、土壤、水文等数据),生物因素(包括致病性微生物、细菌、病毒、真菌等的监测数据),经济社会因素(分析经济收入、营养条件、人口迁移、城镇化、教育就业等因素数据),个人行为和心理因素,医疗卫生服务因素,以及人类生物遗传因素等,利用大数据技术对健康危险因素进行比对关联分析,针对不同区域、人群进行评估和遴选健康相关危险因素及制作健康监测评估图谱和知识库也成为可能,提出居民健康干预的有限领域和有针对性的干预计划,促进居民健康水平的提高。
4 思考与建议
当前政府、企业等均意识到了数据正在成为最重要的资产,对数
据的分析能力将成为机构部门的核心竞争力。大数据时代将推动医疗卫生数据资源如同基础设施,有数据提供方、管理者、监管者,医疗卫生领域数据资源的交叉复用将变成一大产业。
大数据时代无疑会对医疗卫生领域统计调查和信息化建设产生巨大影响和推动,将解决小数据时代医疗卫生领域无法解决的一些问题和难点,而如何利用好大数据技术并充分发挥其作用还存在诸多挑战。
XINJISHUYINGYONGZHUANLAN
数据库系统。通过索引等构建,可以实现对外提供高效的数据查询等常用功能。最终通过数据分析技术从数据库中的大数据提取出有益知识。必须指出,云计算是大数据的基础平台与支撑技术,云计算技术在医疗卫生领域中数据存储、管理与分析等方面的支撑,才能使得医疗卫生领域中大数据有用武之地。Hadoop 是目前最为流行的大数据处理平台[20]。对Hadoop 改进并将其应用于各种场景的大数据处理已经成为新的研究热点。医疗卫生领域需要对Hadoop 平台性能改进、实现高效查询处理、索引构建和使用、在Hadoop 之上构建数据仓库、实现Hadoop 和数据库系统的连接、数据挖掘、推荐系统等。
参 考 文 献
[1] 李岳峰, 胡建平, 孟群, 等. 我国卫生信息化建设: 现状与发展[J]. 中国卫生信息管理杂志, 2012, 9(5): 7-10.
目前大数据技术的相关标准与软件应用等还处于起步阶段,这为我国赶超世界软、硬件及应用创新提供了前所未有的机会。医疗卫生作为改善全民健康的基础,积累了我国全民的健康数据资源,连同全社会海量多样的数据资源,为大数据技术推动医疗卫生发展提供了条件。下一步还应在大数据分析应用、隐私保护、数据安全、能耗管理等方面,从政府主导、统筹规划、资源整合和人才建设等方面加大工作力度,推动适用于我国医疗卫生领域大数据技术的研究应用。■
4.1 大数据首先需要海量、完整的数据
医疗卫生领域的各类数据目前大部分散放在各地区和各部门,这就需要部门之间打破壁垒,畅通数据共享管道,不仅应在技术层面上实现互联互通、信息共享,还应在制度机制层面实现联动协同。大数据需要多种多样的数据,不仅限于医疗卫生领域,需要全社会产生的数据才能发挥大数据在医疗卫生领域价值最大化,我国目前有5亿多互联网用户、多样化的万亿GB 级数据以及企业数据以每年50%以上的速度增长,这是优势,同时就需要国家在更高层面上统筹协调,整合各部门、企业等各方数据。
4.3 大数据技术更强调相关性分析
这启发医疗卫生统计调查分析去利用更广泛的甚至看来毫无关系的数据。大数据技术要求全部信息的同时,允许少量数据丢失或不精确,这是提高统计调查分析精度准度的一个新思路,而半结构化和非结构化海量数据,大数据量的数据清洗把握,都同时给统计分析带来了巨大挑战。对于医院、社区卫生服务等医疗卫生服务机构,对于数据处理的实时性、准确性会有更多需求。针对医疗卫生领域不同应用类型,应选择或组合适宜的大数据技术。在技术的推广、研究、投入及人才队伍方面,各统计调查研究部门、医疗卫生机构应加以足够重视。
[2] 周光华, 李岳峰. 数据挖掘技术在卫生统计信息工作中的应用研究[J]. 中国卫生信息管理杂志, 2012, 9(6): 82-86.[3] 郑玲微. 大数据来临, 你准备好了吗——大步跨大数据时代[J]. 信息化建设, 2013, (1): 10-13.
[4] 姜奇平, 冯海超, 古福. 数据业务主营化大趋势[J]. 互联网周刊, 2013,(7): 26-46.[5] 百度百科. 大数据[DB/OL]. http://baike.baidu.cn/view/6954399.htm, 2013.[6] Grobelnik, Marko. Big Data Tutorial [EB/OL]. [2012-10-02]. http://videolectures.net/eswc2012_grobelnik_big_data/.[7] 维克托·迈尔-舍恩伯格, 肯尼思·库克耶. 大数据时代[M]. 浙江: 浙江人民出版社, 2013.
[8] 姜奇平. 大数据时代到来[J]. 互联网周刊, 2012, (2): 6.
(下转第304页)
4.2 大数据价值的完整体现需要多种技术的协同
文件系统提供最底层存储能力的支持,而对于医疗卫生数据的复杂性和特殊性,需要开发适应的文件系统。另外,为便于数据管理,还需要在文件系统之上建立
依托个人的许可,而是更强调数据使用者的责任,此方面可借鉴美国HIPAA 法案。美国的医疗服务行业必须遵守该国政府1996年颁布的《健康保险隐私及责任法案》(Health Insurance Portability and Accountability Act,HIPAA)。该法案制定了一系列安全标准,就保健计划、供应商以及结算中心如何以电子文件形式来传送、访问和存储受保护的健康信息做出了详细规定。法案规定在确保私密性的情况下保存患者信息档案6年,还详细规定了医疗机构处理患者信息规范,以及违反保密原则,通过电子邮件或未授权网络注销患者档案的处罚方案。
其次,在信息保护上,强调时效性。比如,保险公司只能存储6年个人健康档案信息。通过时间上的保护,平衡了大数据的二次应用以及隐私。因此建议,我国卫生主
XINJISHUYINGYONGZHUANLAN
管部门在信息隐私方面,尤其是医疗隐私方面应尽快出台相关法律法规,指导我们避免在系统建设当中出现的问题。
[6]
务一臂之力。■
参 考 文 献
[1] 王才有. 医疗大数据的机遇与挑战[R]. 医疗大数据高峰论坛(华东站). 2012-11.
6 结语
突破大数据的困境有三个要素:一要有制度建设,建成数据资源共享体制与机制;二要有技术支撑,有数据资源继承与管理工具、互操作标准、数据分析软件、可视化信息展示等;三,也是最关键的,要有人才队伍,要有承担分析数据的人,他们集黑客和定量分析员于一身,成为数据科学家[1]。
“大数据”是一种社会现象,医疗数据积累起来以后,如果不加以利用,就会像石油埋在地下,一点价值也没有。当积累了一定的医疗数据之后,我们应找到方法去汲取、策划和分析这些数据,让它们发挥更大的价值,助医疗个性化服
[2] 王鹏. 个性化医疗的时代来临[EB/OL]. http://www.csdn.net/article/2013-03-28/2814693-bina-technology.
[3] 大数据在医疗行业应用的15个场景[EB/OL]. http://www.medical-system.com.cn/tabid/179/InfoID/146/frtid/70/Default.aspx.
[4] 维克托·迈尔·舍恩伯格. 大数据时代[M]. 浙江人民出版社, 2012: 12.[5] 郭辉, 康诺云. 瞄准可穿戴设备, 一个中国创业者的大数据医疗梦[EB/OL]. http://www.tmtpos-t.com/36459.html.[6] 薛杨. 物联网、云计算、大数据在医疗健康中的应用[J]. e医疗, 2013, (5): 52-53.
[收稿日期:2013-07-16修回日期:2013-08-04]
(上接第300页)
[9] 孙浩峰. 应对大数据时代[J]. 网管员世界, 2011,(17): 14.
[10] 徐海波, 陈俊. 中国步入“大数据”时代[J]. 中国名牌, 2013,(2): 28-29.[11] 冯海超. 大数据时代正式到来[J]. 互联网周刊, 2012, (24): 36-38.
[12] 郑渝川. 大数据时代意味着什么? [J]. 中外管理, 2013, (3): 128.
[13] 邬贺铨. 大数据时代的机遇与挑战[J]. 信息安全与通信保密, 2013, (3): 9-10.[14] 用Twitter “情绪数据”赚钱[DB/OL]. http://blog.sina.com.cn/s/blog_5d771f
67010137w7.html, 2012.
[15] 周光华, 李岳峰, 孟群. 模糊聚类分析在医学图像处理中的应用[J]. 中国卫生信息管理杂志, 2011, 8(4): 69-73.[16] 周光华, 李岳峰, 孟群. 医学图像处理技术与应用分析[J]. 中国卫生信息管理杂志, 2011, 8(6): 44-47.
[17] Ravi Kumar. two computational paradigm for big data [EB/OL]. [2012-10-02]. KDD summer school, 2012. http://kdd2012.sigkdd.org/sites/images/summerschool/Ravi Kumar.pdf.
[18] InformationWeek Report.The big data
management. challenge[R]. http://reports.informationweek.com/abstract/81/8766/ business intelligence and information management/research the big data management challenge.html.
[19] Jeffrey Dean, Sanjay Ghemawat.MapReduce: Simplified Data Processing on Large Clusters[C]// Proc of OSDI 2004. CA: USENIX Association Berkeley, 2004: 137-150.[20] Hadoop[EB/OL]. [2012-10-02]. http://hadoop.apache.org/index.html.
[收稿日期:2013-06-26修回日期:2013-07-02]