关于糖尿病发病率研究的论文
关于糖尿病发病率问题的讨论与研究
摘要
糖尿病是由遗传和环境因素相互作用而引起的常见病,临床以高血糖为主要标志,常见症状有多饮、多尿、多食以及消瘦等。糖尿病可引起身体多系统的损害。引起胰岛素绝对或相对分泌不足以及靶组织细胞对胰岛素敏感性降低,引起蛋白质、脂肪、水和电解质等一系列代谢紊乱综合征,其中以高血糖为主要标志。 也即是一种由于血糖失控高出正常水平所造成的全身性进行性疾病。近年来,由于生活水平的提高、饮食结构的改变、日趋紧张的生活节奏以及少动多坐的生活方式等诸多因素,全球糖尿病发病率增长迅速,糖尿病已经成为继肿瘤、心血管病变之后第三大严重威胁人类健康的慢性疾病。
在本篇论文中,我们借助了统计描述和分析,多元分析等理论,建立了多元线性回归模型,该模型引用了性别、年龄、工作方式、生活行为方式四个变量,并假设除此之外的其他变量对此模型的分析不产生影响。在模型中我们引入了虚拟变量,如对性别(男:1,女:2)以及年龄段的表示(1:25-32, 2,33-40,3:41-48 4:49-56,5:57-64)。下面是对问题一和问题二的概述:
问题一 : 结合所给数据以及参阅的资料,同时考虑到不同公司的员工年龄、性别的不同的影响,建立了两个公司的二元线性回归模型,用Matlab软件求出回归方程,以及R值等,对回归方程进行拟合,从而得出两公司患病率的计算模型。得出结论:从工作种类以及员工年龄来讲,设计研究院的患病率较大,并且随着年龄的增加,发病率呈现上升趋势。
问题二:由附件三中的工作、生活行为方式两种情况引出的多种子因素,以及问题一的结论,我们建立了以患病率为因变量,年龄和工作、生活行为方式为自变量的多元线性函数关系:Pk1Xk2a1k3a2k4a3k5b1k6b2k7b3,求出各权重系数,对各权重进行比较,即可确定何种因素对糖尿病患病率产生较大影响。得出结论:较多的加班情况和经常吃盒饭是与糖尿病患病率有较强关联的,加班时间次数越多、吃盒饭的频率越大都会加大引发糖尿病的可能性。
根据关联度分析,年龄、工作、生活行为方式是糖尿病的危险因子,据此我们可以从相关方面给出预防措施,同时,我们可以完成一篇可供报社发表的小短文,向普通大众介绍我们的研究成果。
关键词:糖尿病患病率 统计描述和分析 多元线性回归 多元分析 权重
一、问题重述
近年来,随着我国社会经济条件的改善,人民生活水平的不断提高,饮食结构的改变,劳动强度的增加,应激状态增多,与世界各国一样,糖尿病患病率在逐渐上升,糖尿病对我国人民健康的影响日趋严重,据调查我国糖尿病患者的人数已居世界第二(仅次于美国),增加速度惊人。据统计2011年中国有超过9000万的2型糖尿病患者,预计到2030年,将增加到1.297亿。
糖尿病与年龄有着密切的关系,由于人口老龄化增长,以及久坐缺乏运动,或引起肥胖和2型糖尿病。除了已被诊断为2型糖尿病的患者,还有好多尚未被诊断出的糖尿病患者或处于糖尿病前期的患者。据上海市疾病预防控制中心最新调查报告显示,去年上海2型糖尿病的患病率达到16%,高于全国平均水平6个百分点,比中国其他城市高出近5个百分点。据国际糖尿病基金会报告显示,2011年,在中国有超过9000万的2型糖尿病患者,占到总人口的9.3%;预计到2030年,这一数字将增加到1.297亿,占总人口的12.1%。此外,不健康的生活方式也会诱发糖尿病,例如摄入总热量过多、体力活动减少导致肥胖,而肥胖是糖尿病发病的一个危险因素。所以日常预防工作一定要做好。
国际公认的糖尿病的诊断标准是:正常人空腹血糖:3.9-6.1mmol/L,餐后2小时血糖7.8-8.9mmol/L。如空腹血糖≥7.0mmol/L,餐后2小时血糖≥11.1mmol/L就可诊断为糖尿病。空腹血糖指禁食至少8小时后的血糖。
通过研究不同年龄、不同职业人群中糖尿病患病情况,分析各种工作、生活方式对糖尿病的影响。可以对糖尿病防治提供参考。附件一给出了某设计研究院体检数据,附件二给出某网络公司体检数据,附件三给出了对两家单位员工访谈数据。解决以下问题:
1.请根据上述附件一和附件二的数据资料,利用附件二的数据资料,利用数学建模的方法,对两家单位糖尿病发病率进行比较,提出你的结论;
2.请结合附件三的数据资料,分析不同工作、生活行为方式可能对糖尿病患病率产生的影响;
3.完成一篇可提供报社发表的小短文,向普通大众介绍研究成果。
二、问题分析
糖尿病是慢性终身性疾病,长期血糖控制不良,可引起多种并发症,导致残疾或过早死亡。根据全球糖尿病患病报告显示,2011年,全球糖尿病患者达到3.66亿人,预计2030将达到5.52亿人。更令人担忧的是,我国近十年来糖尿病患病率增长迅猛,患病人数逼近1亿大关,糖尿病及其并发症正在给社会带来沉重负担。糖尿病的蔓延给社会及家庭造成沉重的负担,预防糖尿病刻不容缓。
对于问题一:该问题是要求对两家单位糖尿病患病率进行比较,对此我们研究了两单位员工在不同的工作方式、员工性别以及年龄段上糖尿病患病率的不同,综合分析了两家单位患者的比率。首先我们运用了Excel对附件一和附件二的数据进行统计处理,计算出两个单位的员工总体,各单位不同性别,和单位不
同的年龄段的发病率,并画出了相应的图表,较直观的看出糖尿病患病率与性别、年龄有较大的关系,一般来说,女性患病率高于男性;年龄越大,患病率越高。 为了进一步验证,我们建立了两单位员工的患病率与性别、年龄的二元线性回归模型,用Matlab软件求出回归方程,进行比较,得出结论。
对于问题二:该问题是分析不同的工作、生活行为方式对糖尿病患病率产生的影响。根据医学常识以及问题一所得的结论,年龄、工作、生活行为方式对糖尿病的患病率都有较大的关联性。对此我们设患病率为因变量,年龄、工作、生活行为方式为自变量,并建立了相应的多元线性函数关系,借助Matlab软件拟合出变量之间的线性模型。通过对关系式中的系数大小的比较,从而得出不同工作、生活行为方式与糖尿病患病率的关联度。系数越大即关联度越大,也即对糖尿病的患病率影响较大。
对于问题三:该问题是要求完成一篇可供报社发表的小短文。报社发表的小短文应该具备面向大众、涉及面全、简单易懂的特点,我们结合研究结果和医学知识从糖尿病的诱发因素以及预防措施等方面撰写了小短文。
三、符号说明
P:发病率
A:设计研究院 B:网络公司
PA:设计研究院的糖尿病发病率 PB:网络公司糖尿病发病率 P12:男性或女性的得病率
AP(12345):设计研究院不同年龄段的发病率 BP(12345):网络公司不同年龄段的发病率
X(12345):表示各年龄段的组中值
A
:表示设计研究院经常加班,偶尔加班,不加班人群各自占总人数的比率 a(1,2,3)
B
:表示网络公司经常加班,偶尔加班,不加班人群各自占总人数的比率 a(1,2,3)
A
:表示设计研究院员工午餐情况分别为单位餐厅就餐,自带,盒饭人群各b(1,2,3)
自占总人数的比率
B
:表示网络公司员工午餐情况分别为单位餐厅就餐,自带,盒饭人群各自b(1,2,3)
占总人数的比率
四、模型的假设
(1)本文引用的数据、资料均真实可靠。
(2)糖尿病的诊断标准包括对空腹血糖含量和餐后血糖含量的检测。由于所给数据只包括空腹血糖含量。所以我们假设,当空腹血糖(FPG)≥7.0mmol/L就可断定该患者患有糖尿病,反之则为正常。
(3)由于妊娠糖尿病是妇女在怀孕期间患上的糖尿病,在妊娠之后糖尿病自动消失,故这并不算严格意义上的患者。所以假设我们建立的模型中调查的人群中无孕妇。
(4)排除突发事件和各种外界传染等问题。
(5)问题中除糖尿病因素外,员工均无其他疾病或身体的其他不良显现。 (6)资料统计,在我国糖尿病的遗传度为44.4%-73.8%,证明遗传对糖尿病的发生有较明显的作用。所以假设调查的人群中都无糖尿病家族史。
(7)问卷调查随机抽样进行的,调查数据是客观公正的没有主观干扰因素。 (8)研究变量(年龄、工作、生活行为方式)之外的其他因素对糖尿病的患病率影响可忽略不计。
五、模型的建立
5.1、问题一: 5.1.1、原始数据整合
(以下表格中数据是每个年龄所测空腹血糖(单位:mmol/l)的平均值)
根据以上数据,利用Excel软件,作出图表:
图1 网络公司男女血糖浓度与年龄的关系
图2 设计研究院男女血糖浓度与年龄的关系
图3 两公司男性血糖浓度与年龄的关系
图4 两公司女性血糖浓度与年龄的关系
根据以上图表,大致可以看出哪个年龄段上的员工血糖浓度较高。
5.1.2、将员工年龄分为5组:25-32,33-40,41-48,49-56,57-64,并引入虚拟变量1,2,3,4,5代表各组年龄段。
为方便数据计算,将员工性别男、女分别用1,2代替。对数据进行统计处理得出相应单位的患病率以及单位内不同性别人群的患病率,并作出了比较图。如下:
表2 两公司各年龄段的患病率的比较表
图5 两单位在各年龄段患病率比较图
表3 设计研究院不同性别员工在各年龄段的患病
图6 设计研究院男女患病比较图
根据设计院男女患病比率,得出在设计研究院中,男性患者高于女性患者,另外男性患者主要分布在49-56年龄段。女性患者主要分布在57-64年龄段。
表4网络公司不同性别员工在各年龄段的患病率
图7 网络公司男女患病比较图
根据网路公司的男女患病比率,得出在网络公司中,女性患者比男性患者高出。另外女性患者主要分布在49-56。男性患者主要分布在57-64。
6.1.3、基本模型的建立:两公司发病率与员工的年龄,性别的多元线形回归模型为:
A=k1+k212+k3(1,2,3,4,5)
Bl1l212l3
(1,2,3,4,5)
拟合的。其中的a1,a2,a3,b1,b2,b3是带估计的回归系数。
由Excel回归的结果图表三和五以及回归方程可以看出糖尿病发病率与性
别,年龄均有关系,且与年龄关系较大。
表5设计研究院糖尿病发病率的影响因素
Residual Case Order Plot
0.03
0.02
0.01Residuals
-0.01
-0.02
-0.03
1
2
3
4
56Case Number
7
8
9
10
图8 残差图
利用以上程序得出模型为:
pA0.01150.0056*p120.0085*Pn
2
R20.5072 F3.600 2 P0.084 0 S0.000 1
表6网络公司糖尿病发病率的影响因素
Residual Case Order Plot
0.040.03
0.020.01Residuals
0-0.01-0.02-0.03-0.04
1
2
3
4
56Case Number
7
8
9
10
图9 残差图
利用程序得出模型为:
pB0.00520.0083*p120.0006*Pn
3S20.000R20.5395 F4.099 9 P0.066 2
模型一所得的回归方即为:
pA0.01150.0056*p120.0085*Pn pB0.00520.0083*p120.0006*Pn
从统计数据、所绘图表和模型中可以看出:
1、在设计研究院中,男性患者高于女性患者,将近4.3%。男性患者主要分布在49-56。女性患者主要分布在57-64。
2、在网络公司中,女性患者比男性患者高出0.3%。女性患者主要分布在49-56。男性患者主要分布在57-64。
3、总体比较上,设计研究院的发病率为:3.6% 网络公司的发病率为:2.4%。发现总发病率前者高于后者,有1.5倍。在患者中,男性患者的发病率前者略低于后者,所占百分比相近,女性患者后者高于前者,有2倍左右。
5.2、问题二:
(1)建立发病率与各变量的多元线性模型为:
Xk1a1k2a2k3a3k4b1k5b2k6b3k7
(2)由Matlab的矩阵运算解出k1,k2,k7
(3)通过比较k2,k3,k4的大小得到不同的加班情况对糖尿病发病率的不同影响。 (4)通过比较k5,k6,k7的大小得到不同午餐情况对糖尿病发病率的不同影响。
表 7两公司员工的不同工作、生活方式统计表
图10两公司员工的不同工作、生活方式的统计图
表8 两公司员工的不同工作、生活方式与人数百分比的统计表
图11 两公司员工的不同工作、生活方式与人数百分比的统计图
表9 各影响因素的数据统计表
Residual Case Order Plot
0.020.015
0.010.005
0-0.005-0.01-0.015
1
2
3
4
56Case Number
7
8
9
Residuals
图12 残差图
可得出模型二的结果:
(k1,k2,k3,k4,k5,k6,k7)=(0.0306,8.0094, 0.3433,4.8230,1.1085,0.0568,
1.5944)
由此可得线性回归方程:
P2.32160.0306x8.009410.343324.823031.108510.056821.59443
结论一(k2,k3,k4)=(8.0094, 0.3433,4.8230),所以可直观得看出,在加班情况中,经常加班这一因素在发病率中所占权重较大,即经常加班易诱发糖尿病。
结论二(k5,k6,k7)=(1.1085,0.0568,1.5944) 亦可得午餐情况中,吃盒饭这一因素在发病率中所占权重较大,即经常性地吃快餐易诱发糖尿病。
根据图表以及处理的结果可知,“加班”作为危险因子的关联度最高,“盒饭”次之。“单位餐厅就餐”作为保护因子的关联度最高,“不加班”与“自带”次之。
5.3、问题三:
发给报社的短文:
如何预防糖尿病
糖尿病是一种因体内胰岛素绝对或者相对不足所导致的一系列临床综合症。糖尿病的主要临床表现为多饮、多尿、多食和体重下降(“三多一少”),以及血糖高、尿液中含有葡萄糖(正常的尿液中不应含有葡萄糖)等。近年来,由于生活水平的提高、饮食结构的改变、日趋紧张的生活节奏以及少动多坐的生活方式等诸多因素,全球糖尿病发病率增长迅速,糖尿病已经成为继肿瘤、心血管病变之后第三大严重威胁人类健康的慢性疾病,因此积极预防和治疗是必须的。但是到底不同的工作和生活方式对糖尿病发病率具体有什么影响呢?为此我们进行了“关于糖尿病患病率”的研究,并得到了如下结论:
(1)随着年龄的增长,人们受到糖尿病的威胁性也越大。
(2)不良的工作习惯,例如经常性地加夜班,会明显增加患糖尿病的几率。 (3)不良的生活方式,例如经常吃快餐,也易致使人们患糖尿病。
因此,养成健康的工作、生活方式对于我们健康生活来说尤为重要。为此我们提出了几点远离糖尿病的建议:
(1)多懂一点,即对糖尿病的知识多懂一点,对其危害多懂一点,对其防治措施多懂一点。
(2)要少吃一点,就是让摄取的总热量少一点,不只主食要少吃,而且副食,特别是高热量的副食也要少吃。不要认为吃就是福,有时吃也能吃出麻烦来,要适当地吃,科学地吃,有道理地吃,不能胡吃乱吃。
(3)是勤动一点,要经常保持一定的运动量。这样控制了饮食,再加上增强了锻炼,体重就不至于过胖。我们已经知道,肥胖是造成糖尿病的重要因素,不肥胖,得糖尿病的机会就会减少。英国有一句谚语说:“腰带越长寿命越短”。所以控制体重是很重要的一条。
(4)心理调节方面。一个好的心态对糖尿病的预防也是有其积极作用的。因为吃得多、锻炼少容易引起血糖升高,各种心理不平衡会进一步加强胰岛素抵抗,促使糖尿病的发生。有这种情况,也许你原来还得再过两年才会得糖尿病,只因为一次大的精神刺激,很长时间愁眉不展,可能很快就得糖尿病了。 这四个要点说起来容易,长期做到就难了。希望大家能注意保持良好的习惯,拥有一个健康的体魄。
六、 模型的进一步分析: 6.1、合理性分析
该多元线性回归模型综合考虑了诱发糖尿病的年龄因素、工作因素、生活因素,较为全面、合理,并将年龄因素以年龄分组的组中值代为表示,加以简化,将工作因素、生活因素则分别以加班情况、午餐情况代为表示,使得该模型更具简洁性和可操作性。
6.2、灵敏度分析
在置信度为95%的条件下
k1,k2,k3的置信区间为:
0.0188k10.0418 0.0000k20.0112 0.0244k30.0074
l1,l2,l3的置信区间为:
0.0422l10.0318 0.0014l20.0152 0.0188l30.0201
七、模型的评价与改进
模型的优点:
1、对影响变量引入虚拟变量:性别(1、2),年龄(1、2、3、4、5)来处
理从而使复杂问题简单化。
2、根据各种图表可以较直观地得出数据的整合,进而较容易对数据进行分析统计。 3、模型采用常用的Excel、Matlab软件对数据和模型进行运算,具有简洁
性。
4、模型二结合了模型一的结论,将年龄这一影响因素加以考虑,在多元关
系中加入这一因素,能够避免较大的误差,使得模型更合理、全面。
模型的缺点:
1、两个公司的工作环境不同,工作压力不同,但是按照同一个标准来计算 患病情况,所以得出的结果显得有些笼统。
2、通过对年龄进行分组,在简化计算的同时也增加了误差。 3、线性回归理论上要求自变量与应变量满足特定条件,而实际的发病率资料很少有满足要求的。回归分析法不能处理时间滞后变量,以上模型对疾病未来发病率的预测只是科学的估计。建模数据只能从某个角度提供相应的信息,不能全面揭示糖尿病变化的信息;附件中的数据有很多关系复杂的因素影响糖尿病发生、发展与消退,当环境变化了,就会使原有模型的预测效果下降。
模型的改进:
针对模型的不足之处,我们做了一下改进:根据各种方法的优点建立组合模型,把其他新兴学科的知识和方法引入探讨糖尿病患病率规律之中,形成用于糖尿病患病率的拟合预测分析的新的模型方法,从而更加有效合理地分析引发糖尿病患病率的因素。明确了诱导因素,对糖尿病的预防以及治疗都有着极大地作用。
八、参考文献
[1]姜启源,谢金星,叶俊, 数学建模(第四版)北京:高等教育出版社 2011. [2]张志涌 杨祖樱 Matlab教程 北京:北京航空航天出版社 2010.
[3]曾建军 ,李世航,王永国等 Matlab语言与数学建模 合肥:安徽大学出版社2005. [4]韩中庚,数学建模方法及应用(第二版) 郑州:解放军信息工程大学2009. [5]潘长玉,糖尿病学(第14版)北京:人民卫生出版社 2007.
十、附录
各影响因素的数据统计表
模型一程序代码:
(1)设计研究院:
x1=[1 1 2 2 3 3 4 4 5 5]';
x2=[1 2 1 2 1 2 1 2 1 2]';
y=[0 0 0.0099 0.0099 0.0355 0.0142 0.0355 0.0051 0.0183 0.0275]'; x=[ones(10,1),x1,x2];
[b,bint,r,rint,stats]=regress(y,x);
b
bint
stats
rcoplot(r,rint);
(2)网络公司:
x1=[1 1 2 2 3 3 4 4 5 5]';
x2=[1 2 1 2 1 2 1 2 1 2]';
y=[0.0085 0.0085 0.0077 0.0153 0.0115 0.0057 0.0256 0.0513 0.0488 0.0244]'; x=[ones(10,1),x1,x2];
[b,bint,r,rint,stats]=regress(y,x);
b
bint
stats
rcoplot(r,rint);
模型二的程序代码:
X=[36.5 44.5 52.5 60.5 28.5 36.5 44.5 52.5 60.5]';
a1=[ 0.0572 0.0394 0.0236 0.0157 0.0964 0.0716 0.0551 0.0275 0.0193]'; a2=[ 0.19 0.23 0.28 0.34 0.134 0.284 0.384 0.434 0.534]';
a3=[ 0.0315 0.0551 0.0787 0.1181 0.0083 0.0165 0.0331 0.0468 0.0689 ]'; b1=[ 0.685 0.685 0.685 0.685 0.317 0.317 0.317 0.317 0.317]';
b2=[ 0.184 0.084 0.084 0.184 0.103 0.048 0.013 0.048 0.103]';
b3=[ 0.0394 0.0157 0.0079 0.0000 0.1928 0.1515 0.1102 0.0882 0.0275]'; y=[ 0.0198 0.0496 0.0406 0.0459 0.0169 0.023 0.0172 0.0796 0.0732]'; a=[X a1 a2 a3 b1 b2 b3];
x=[ones(9,1),a];
[b,bint,r,rint,stats]=regress(y,x);
b
bint
stats
rcoplot(r,rint);
20