多源数据融合的区间车辆速度预测算法研究
74
交通信息与安全 2009年第3期 第27卷 总148期
多源数据融合的区间车辆速度预测算法研究
翟雅峤 翁剑成 荣 建 刘小明
(北京工业大学 交通工程北京市重点实验室 北京100124)
*
摘 要 不同的交通信息采集方式由于其硬件和采集条件的不同, 数据的适用范围和准确性也不同。在短时交通预测中, 对于来自于不同检测器的交通流数据进行融合, 并在数据融合的基础上进行区间速度的预测, 可以有效地改善预测结果的准确性和可靠性。文中提出一种基于卡尔曼滤波的数据融合和区间速度预测方法。在对数据进行预处理和交通状态划分的基础上, 根据不同的交通状态, 进行多源交通数据融合和区间速度的预测。研究确定了卡尔曼滤波方法中的各个参数, 并使用人工神经网络的方法求解状态转移矩阵。算法验证结果表明, 速度预测的精度在90%以上。
关键词 智能交通系统; 交通数据处理; 数据融合; 交通预测; 浮动车数据; 卡尔曼滤波; 人工神经网络中图分类号:U 491. 1+4 文献标志码:A DOI:10. 3963/j. cn. 42-1781. U. 2009. 03. 019
目前各大城市的主要道路上都安装有不同类型的固定检测器, 这些检测器可提供所在道路截面的瞬时车辆速度、时间占有率和交通量等参数。以往基于单一固定检测器数据的区间车辆速度预
测方法, 多采用通过固定检测器提供的截面车辆瞬时速度对路段区间速度进行估算, 进而对区间车辆速度进行预测。这种方法造成区间车辆速度估计值与真实值之间存在较大误差, 从而使区间车辆速度的预测值的准确性不能得到保证。近年来由于GPS 技术的发展, 使用浮动车直接获取路段区间车辆速度的方法逐步被推广, 但由于浮动车数据的稳定性、连续性较差, 利用浮动车获取的区间车辆速度直接进行区间车辆速度的预测的效果也并不能达到理想的精度。
无论是单独使用固定检测器的数据还是利用浮动车的数据进行区间车辆速度的预测都由于设备的局限性, 使得所获取的预测结果在准确性、稳定性和连续性方面均不够理想。尽管固定检测器的截面瞬时速度估算得到区间速度并不准确, 但是固定检测器检测到的占有率数据具有较高的准确性, 且速度-占有率之间具有较为稳定的线性关系, 可以对浮动车数据处理得到的区间速度进行修正。通过数据融合进行两类数据的互相补充校验, 从而得到更为可靠和准确的区间速度数据。
收稿日期:2008-09-20
相应地区间车辆速度预测精度也将得到提高。
1 数据预处理
由于检测设备的自身缺陷、机械故障或通信
错误等问题, 固定检测器获取的交通数据质量难以保证。为了在数据融合过程中得到更为可靠的数据, 在数据融合工作之前, 需要对交通数据进行预处理。数据的预处理工作主要包含数据筛选、数据恢复和数据噪声过滤等过程。
在数据处理过程中, 本文除了使用常用的2种数据筛选方法外, 还采用了一种新的方法。对于快速路而言, 由于道路中没有交通信号灯的影响, 交通流连续性和稳定性较好, 因此交通流各参量之间的特征关系较为明显。通过对快速路上采集的检测器历史数据的分析可以看出, 交通数据3个参量之间的对应关系明显, 可以很好的反映出交通流理论中三者关系的函数。如图1所示。
从图1可看出, 快速路的速度和占有率之间存在明显的线性关系, 相关系数R 2=0. 8902, 表明两者具有较强的相关性。因此, 可以采用将历史数据的速度-占有率之间的关系拟合出一条函数曲线, 然后分别设定曲线的上下限, 得到一个合理数据的区间, 将落在区间外的数据予以剔除。
[1]
*国家科技部科技支撑项目(批准号:2006BAG01A01) 、北京市科委科技计划项目(批准号:D[1**********]000) 、北京工业大学校青基
金项目(批准号:X[1**********]02) 资助
作者简介:翟雅峤(1981) , 博士生. 研究方向:智能交通系统, 交通数据处理. E -mail:zhaiyq@emails. buaa. edu. cn
多源数据融合的区间车辆速度预测算法研究) ) ) 翟雅峤 翁剑成 荣 建, 等
75
车辆行驶速度的基础上, 采用以上方法对浮动车区间速度数据进行恢复和过滤等处理。从而为数据融合提供了良好的基础。
2 基于数据融合的区间速度预测
2. 1 应用卡尔曼滤波的数据融合及预测
卡尔曼滤波的方法目前已被广泛的应用到交通参数预测和数据融合领域, 但以往应用卡尔曼滤波的预测和融合方法只是使用某一种检测器获取的某一参量的不同时间或空间的数据
[4]
[3]
图1 速度-占有率关系图
具体的方法如下:
1) 使用前一个月的数据分别拟合出速度-占
有率的函数。
2) 在非自由流状态下(即占有率B >13%) , 以B 为横坐标, v 分别加减3倍标准差为数据的上下限, 得到合理数据的取值区间。
3) 将实测数据与通过上述方法得到的合理的取值区间进行比较, 剔除落在区间外的数据点。经对数据进行筛选, 具有明显错误的数据已基本被剔除, 这样就存在一定的数据缺失问题(加之数据中本身存在的数据缺失) 。为保证数据的完整性, 应当对缺失数据进行恢复处理。本文根据连续缺损数据的多少, 分别采用直线插补法恢复和基于历史数据的恢复方法。对于连续缺损的数据不大于3个的情况, 使用直线插补法恢复; 对于连续缺损的数据大于3个的情况, 则使用基于历史数据的方法恢复。
数据经过了筛选和恢复处理, 从而保证了数据的合理性和完整性。但是由于交通流的随机特性和检测设备的固有误差, 交通数据中依然存在着大量的噪声。在交通预测中, 使用存在噪声的历史数据进行训练, 噪声的存在会使得预测结果误差变大, 甚至训练无法收敛。因此, 对于历史数据的噪声过滤是数据预处理中不可缺少的一步。
通过数据特征分析, 本文采用小波滤波的方法对历史数据进行噪声过滤, 对比了3类阈值选择函数的处理结果, 从3类滤噪情况看, Stein 无偏似然估计对于边界点特征保留较好, 但是平滑结果稍差; 极大极小值阈值选择也保留了较多的数据波动; 从光滑性角度考虑, 启发式阈值选择对于数据系列的处理更稳定, 且能良好地反映数据变化的特征。本文中采用了启发式阈值选择方法, 采用DB4小波基, level 值为4
[2]
。由
于根据交通流理论占有率和速度之间存在线性关系, 且通过检测器获得占有率数据和区间速度数据也能很好的反映该线性关系, 如图1所示。在一定范围内, 路段的时间占有率序列以及区间速度序列都具有自相关性, 因此可以认为下一个时刻的区间速度是由前几个时段的区间速度和占有率按照一定比例累加, 再加上误差项之和, 误差项由观测方程递推计算得出。
假设用k, k -1, k -2, , k -n +1时段的路段区间速度和平均占有率预测k +1时段的路段区间速度, 则模型为:
v k+1=H 0, k v k +H 1, k v k-1+, +H n -1, k v k-n+1+H n. k B k +H n +1, k B k-1+, +H 2n -1, k B k-n +1+X k
(1)
式中:v k +1为路段区间速度预测值; v k , v k -1, , , v k -n +1分别为k, k -1, k -2, , k -n +1时段的路段区间速度; B k , B k -1, , , B k -n +1分别为k, k -1, k -2, , , k -n +1时段的路段平均占有率; H 0, k , H 1k , H 2n -1, k 为k 时刻的参数矩阵, 本文中n 取4; X k 为观测噪声, 假定其为零均值的白色噪声, 其协方差矩阵为R k 。
根据矩阵运算方法可以将式(1) 改写为卡尔曼滤波状态方程[5]:
X k =U k, k-1x k-1+u k -1
(2)
Z k =A k x k +w k (3)
式中:A k =[v k , v k -1, , v k -n +1, B k , B k -1, , , B k -n +1]; X k =[H 0, k H 1k , H 、H 2n -1, K ]T ; Z k =v k +1。
应用卡尔曼滤波算法的主要困难是模型参数的正确确定。滤波器的最优估计是建立在对状态变量和误差协方差的初始值x 0和P 0、状态转移矩阵U k, k -1以及系统噪声Q k 和观测噪声R k 的正确估计基础上的。
00。
,
76
应用中对每天的前5个时段并不进行预测, 由于每天的前5个时段为深夜低峰时段不进行预测并不影响以动态交通诱导为目的应用, 通过前5个时段的实测值即可算出x 0和P 0, 从第6个时段开始进行区间速度的预测。
k, k -1的确定。U k, k -1的确定方法是使用2) U
人工神经网络的方法对历史数据进行根据不同交
交通信息与安全 2009年第3期 第27卷 总148期
实测的A k , 计算得到预测值v k +1。2. 3 状态转移矩阵U k, k -1的确定
上文提到对于转移矩阵U k, k -1的确定问题, 本文使用人工神经网络的方法, 网络类型为BP 神经网络[6], BP 神经网络的输入为2n 维向量x I R n , x =(H 0, k H 1, k , H 2n -1, k ) T ; 输出为2n 维向量y I R , y =(H 0, K +1H 1, k +1, H 2M -1, k +1) , 式中:n 和m 均为4。隐层共有h 个神经元, 隐层输出为h 维向量z I R h , z =(z 1, z 2, , , z h ) T 。h 的取值可由如下公式计算得到h =
[7]
m
T
通状态的训练, 而得到的神经网络本身经过变换之后即可作为状态转移矩阵U k, k -1使用。3) R k 和Q k 的确定。使用离线迭代方法确定R k 和Q k 。
2. 2 基于数据融合的区间速度预测方法流程
目前的预测方法普遍使用之前的历史数据, 以天为周期, 从中提取交通参量的变化规律, 在提取的规律应用到当前时间, 从而得到预测的结果。但是1d 中交通参量数值的变化复杂, 根据交通流理论, 交通流在不同交通状态下的变化规律也不尽相同。因此, 选用1d 的数据, 并从中提取统一的变化规律的方法显得不合理。本文对1d 的交通参数根据其速度和占有率进行了交通状态的划分, 根据不同的交通状态, 分别对交通参数进行变化规律的提取, 也就是在不同的交通状态下通过神经网络的方法得到卡尔曼滤波的状态转移矩阵, 从而达到更加准确的效果。
本文将交通状态划分为畅通、缓慢和拥挤3个状态, 根据对以往交通状态划分阈值的综合评价, 确定了具体的划分标准, 如表1所列。
表1 基于占有率的交通状态划分阈值表 %
交通状态
畅通
快速路主干路
缓慢(23, 39) (18, 30)
拥挤\39\30
:
0. 43m n +0. 12n +2. 54m +0. 77n+0. 35+0. 51(4)
由于BP 神经网络的基本思想是各个链接权之和减去阈值, 经过函数变换得到隐藏层和输出层的数据, 而这种计算方法恰好和矩阵乘法相似, 故可将BP 神经网络看作多个矩阵相乘, 因此得到的链接权值矩阵通过和函数的逆变换和矩阵的乘法运算即可得到卡尔曼滤波所需的状态转移矩阵U k, k -1。
BP 神经网络的训练步骤如下:
1) 由于交通数据具有周相似性, 研究中选取上一周与预测日期同一周次中, 天气条件相同的历史数据。如果天气条件不同则选取上上周同一周次的数据; 如果天气条件依然不同, 则选取上周相邻周日的数据。
2) 将整天的交通数据根据上文提到的阈值进行交通状态的划分, 将数据归类到3种交通状态中。
3) 选取同一交通状态下的数据, 运用BP 神经网络机型训练。本文使用1d 的连续数据作为训练集一共是144个, 一般情况下训练迭代约50次收敛, 训练的目标定为0. 0001。
4) 将BP 神经网络的链接权值矩阵进行变换, 得到对应3种交通状态的3个状态转移矩阵U k, k -1。
在对连续的交通数据进行交通状态划分后,
将属于不同的交通状态的交通数据归类, 根据每种交通状态的历史交通数据, 通过人工神经网络训练得到卡尔曼滤波方法所需的状态转移矩阵, 进而使用卡尔曼滤波方法进行基于数据融合的区间速度预测, 具体的步骤如下:
1) 根据每天的前5个时段的数据计算得到x 0和P 0。
2) 判断当前数段交通数据所属的交通状态, 然后使用属于这一交通状态的状态转移矩阵U k, k -1, 用于卡尔曼滤波方法。
3) 进行卡尔曼滤波方法的迭代运算。
k 3 预测结果的验证分析
为了验证本文提出的多源数据融合预测方法的效果, 研究选取了北京市二环路上中央音乐学院-复兴门桥段的2006年11月5日和2006年
11月12日2d 的固定检测器占有率数据和相同时间对应路链的浮动车区间速度数据作为模型的
多源数据融合的区间车辆速度预测算法研究) ) ) 翟雅峤 翁剑成 荣 建, 等
77
比, 得到的验证结果如图2、3
所示。
据融合的区间速度预测方法是有效的。同时, 本
文提出的基于多源数据融合的行程速度预测方法适用性和可移植性较好, 不仅可以使用固定检测器的占有率数据和浮动车的区间速度数据进行数据融合及区间速度的预测, 还可以使用固定检测
图2 数据验证结
果对比图
器的交通量数据和浮动车的区间车辆速度数据。此外, 预测的交通参量也可以是占有率或交通量。
参考文献
[1] 耿彦斌, 于 雷, 赵 慧. I T S 数据质量控制技术及
应用研究[J]. 中国安全科学学报, 2005, 15(1) :82-87
[2] 董长虹. 计算机应用. M A T L A B 小波分析工具箱原
理与应用[M ].北京:国防工业出版社, 2005:19-25[3] 杨兆升, 冯金巧, 张 林. 基于卡尔曼滤波的交通信
息融合方法[J].吉林大学学报:工学版, 2007, 37
图3 数据的相对误差图
(5) :1039-1042
[4] 杭明升, 杨晓光, 彭国雄. 基于卡尔曼滤波的高速道
路行程时间动态预测[J].同济大学学报, 2002, 30(9) :1068-1071
[5] W elch G, Bisho p G. An Int roduct ion t o the K alman
filter[R]. In SIGG RA PH 2001, Lo s A ng eles, CA, 2001
[6] 程湘君. 计算机科学. 神经网络原理及应用[M ]. 北
京:国防工业出版, 1998
[7] 张立明. 计算机科学. 人工神经网络的模型及其应
用[M ].上海:复旦大学出版社, 1993
由图2中可见, 预测值的变化趋势和真实值
得变化趋势基本吻合。从图3中可以看出, 最大相对误差为17. 6%, 通过计算得到平均相对误差为2. 5%, 平均绝对相对误差为4. 7%。预测的结果与真实值之间的误差较小, 预测结果比较准确, 与传统的单源交通预测10%左右的精度相比, 预测精度具有明显的改善。
4 结束语
通过实例数据的结果验证可以看出, 基于数
A Travel Speed Forecasting Algorithm Based on Mult-i source Data Fusion
ZHAI Yaqiao WENG Jiancheng RONG Jian LIU Xiaoming (B eij ing K ey L aborator y of Tr ansp ortation Engineer ing , Beij ing Univ er sity of T echnology , Beij ing 100124, China)
Abstract:Due to the var iety of equipment and co llection co ndition, different t raffic data co llection metho ds hav e
their o wn applicatio n fields and differ ent precisio n. T herefo re, in o rder to acquir e more r eliable analysis results, t he data from differ ent detector s need to be fused in sho rt -t erm tr affic fo recast. M oreo ver, the tr avel speed estimation should be car ried out based o n the data fusio n results. T he paper presented a shor t -term for ecasting algo rithm for t ravel speed based on K alman filter data fusion. A fter the pr et reatment and tr affic states divisio n, t he mult-i so ur ce data including micr owav e
detector data, loo p detector data and floating car data (FCD) w ere fused to est imate t ravel speed accor ding to the different traffic states. T his r esear ch determines parameter s fo r K alman f ilter , and computes the states transfor mat ion matrix w ith the a rtificial neural netw or k (AN N ). T he analy sis r esult of model validatio n sho ws that the averag e accuracy of the t ravel speed fo recasting algo rithm is over 90per cents.
Key words:intellig ent tr anspor tatio n system (IT S) ; t raffic data pro cessing ; dat a fusion; t raffic for ecasting ; float -ing car data (F CD) ; K alman filter ; ar tificial neur al netwo rk (AN N )