基于时间序列的机票价格预测模型
第3l卷第2期2013年4月
JOURNAL0F
中国民航大学学报CⅣILAVIATION
UN眦RSITY
Vol’3lNo.2
0FCH】NA
A曲l
2013
基于时间序列的机票价格预测模型
顾兆军,王双,赵亿
(中国民航大学计算机学院,天津300300)
摘要:随着航空业的发展以及人们生活水平的提高,越来越多的人选择飞机作为自己的出行方式,但航空公司根
据收益管理系统进行实时价格调整,票价变化明显。票价浮动大这一特点使价格预测极具实际应用价值。提出运用时间序列算法进行建模,设计并实现了基于时间序列的机票预测算法。通过比较分析预测结果与实
际旅游网站发布价格.表明该模型可为旅客提供较可靠的购票决策支持,并为旅客节省开支。
关键词:价格预测;时间序列算法;等价类中图分类号:F560
文献标志码:A
文章编号:1674—5590(2013)02—0080-05
Flightticketfarepredictionmodelbased
GU
(cof如ge
on
time—serial
zh∞—jun,WANGshu(1n,g,zHAoYt
Q厂∞唧“抛r
sc沈加e&死c^加切,翻uC,n耐流300300,酰i眦)
are
AbstI’act:Withthedevel叩menlofaviationindustryandtheimprovemen£ofpeople’slivinglevel,anincreasingnLlmber
0fpeopleprefertotravelprice
on
air.Buttheairlinecompanies
using
revenue
managementsystem
forreal—time
adjustmentwhichkeepf矗echangingsigni6cantly.Thepriceischaracterizedbylargenoating,which
makesitvduable
practically
to
research
on
predictingprice。Aflightticketfarepredictionmodelbased
on
time—serialispI_0posedjnthispaper.Apredictionoftickettime—serialalgorithmisdesignedaJldimplemented.
Comp啪tiveanalysis
of
thepredictedandactualtl。aVelsitespublishedpricehasindicatedthatthemodel
can
pmvidemorereliableforpassengersbookingdecisionsupport.
1【eyworiIs:priceprediction;time—se—al;equiValenceclass
随着交通运输业的日益发展和网络的迅速普及,人们开始根据旅途的距离采取既快捷又方便的交通方式,越来越多的旅客使用网络查询并购买低价机
票。但是万维网上提供的机票价格实时变化,旅客很
扣要求,该系统只要在网站找到符合用户要求的机
票,就会通过用户留下的联系方式第一时间通知用
户,避免用户错失特价机票。③机票预测。即为计算买
到较低价格机票概率的工具,它根据用户输入的希望
难掌握机票的折扣价格,而航空公司制定价格折扣都是根据隐藏的数据(如飞机上未售出的座位数等)和
私有的运算法则计算。机票本身是一种特殊商品,它
购买机票的折扣来推算能够购买到这个折扣的概率【2】。目前酷讯推出了机票票价预测工具,目的在于帮助用户预测未来出现便宜机票的概率。通过网上追踪调查发现该网站上的机票票价预测工具准确率不够高,这会贻误旅客出行计划,给旅客带来很多不便。虽然
国内出现了很多利用数据挖掘技术进行价格预测的
具有时效性(即机票在起飞3h之前销售)、需求可细
分(根据旅客特点将市场进行细致的划分)、容量有限
性(座位数有限)、高度不确定性(旅客中途退票或改签)、季节波动性等特点【1】。国内的旅游搜索和票价预
测网站可以做到以下几点:①提供机票行情。根据网
相关论文,也存在很多利用数据挖掘技术对股票的涨
跌进行预测的沦文,但由于目前国内航空公司制定票价折扣的系统还不够成熟,机票价格预测方面起步也
站提供的机票价格随时间变化曲线图,可以浏览未来60天内的机票价格,从而确定当前预定哪天的机票。②机票预约。用户设定想要购买机票的时间段以及折
收稿日期:2012一06—15;修回日期:2012—08一03
较晚,所以从为旅客节省开支的角度预测机票价格的研究较少。国内一些网站提供的都是各个航空公司最
基金项目:中国民航大学科研基金项目(04一cAuc—06E);中国民用航空局科技基金项目(N0.MHRD201128)
作者简介:顾兆军(1966一),男,山东蓬莱人,教授,博士,研究方向为计算机网络与信息安全、搜索引擎、民航信息系统
万方数据
第3l卷第2期顾兆军,王双,赵亿:基于时间序列的机票价格预测模型
一81一
近推出的票价信息,并没有预测将来一段时间的最低
票价的信息:国外关于机票价格方面的预测比国内发
展早:目前FareCast,FareCompare和Yapta是关于机
票价格预测和追踪网站中的佼佼者。最新的研究是这i个网站的组合用法,用FareCast预测决定是否是好的购买时机,用FarecomDare
email
alert实现低价保
证【3】。文献[4]等对航班号、飞机离港之前的时间、离港日期、机票价格建模,根据这些属性挖掘机票价格随时问变化的趋势,从而告诉用户现在买还是等:但是
由于国内的航空公司使用的收益管理与国外有所不
同,导致国外的预测方式大多不适合国内的机票价格
变化:
通过研究发现航空公司根据旅客的购买行为改变机票定价策略,所以本文提出给予时间序列算法的机票预测模型。根据旅游网站获取到的机票价格的数
据,将数据进行预处理,运用时间序列算法以飞机距离离港时间进行建模,根据这一属性预测价格的变化趋势,给旅客一个立即购买还是等待的建议,达到为旅客节省出行费用的目的。同时,航空公司的收益管
理系统的制定也依据时间序列模型的规律,所以运用时间序列模型预测本身符合机票的变化规律。
1基于时间序列机票预测模型
1.1
时间序列基本模型
时问序列分析法是根据过去的变化趋势预测未来的发展,其前提是假定事物的过去延续到未来【5J。
传统的统计研究中㈣,一个随机时问的时间序列表示为按时间顺序排列的一组随机变量:…,x。,x:,
…,置,…简记为{x,,£∈刀或{置)。
工一:,…,‰或k,£∈l,2,…,nl用以表示该随机序
列的凡个有序观察值。而时间序列大致可分为平稳序列、有趋势序列和复合型序列三类。
1)指数平滑法
指数平滑法川是平稳序列的一种。它是对时间序列进行修均,注重近期数据。一次指数平滑法是以一段时期的预测值与观察值的线性组合作为期的预测
值,其预测模型为
E+l=dy,+(1一a)F
(1)
其中:yf为f期的实际观察值;F为£时期的预测值;d
为平滑系数(O<仅<1);设E=y,。
对指数平滑法的预测精度,用均方误差椰E来
衡量
万方数据
椰E:上∑。。z:上∑(咒一多):
(2)
n
f:1
n
f:l
2)线性趋势分析和预测模型
当现象的发展按线性趋势变化时,可用下列线性趋势方程来描述
(3)
其中:或代表时间序列H的趋势值;f代表时间标号;
趋势方程中的两个未知常数o、6通常按照最小二乘法求得。为了简便起见,可取时间序列的中间时期为原
点,有∑f=0,此时由最小二乘法推导出n、6的求解方
程为
f三j:,5■,【∑fl,=6∑£2
(4)—7
趋势预测的误差可用线性回归中的估计误差来
衡量,计算公式为
5l=
(5)
其中:m为趋势方程中未知常数的个数。
3)二线曲线模型
当现象发展的趋势为抛物线形态时,可配合二线曲线。其一般方程为:矿,=n+6£+cf2,取时间序列的中
间时期为原点,曲线中的3个未知常数o、6、c的求解方程为
∑l,=凡Ⅱ+c∑£2
{∑£l,=6∑£2(6)
I∑f2y=口∑£2+c∑£4
4)指数曲线
指数曲线用以描述以几何级数递增或递减的现象,指数曲线的一般形式为:P,=曲r。其中血、6为未知
常数。当取时间序列的中间时期为原点时,用最小二
乘法得到的o、6的求解方程为
f∑log
l,=凡logⅡ
,1、
【∑£logy=109?)∑z2
…7
1.2基于时间序列的机票预测模型构建
本文构造一个先序移动平均数模型|8】。在时间为f时,模型通过该时刻能看到的票价进行加权求平均值
来预澳0其下一时刻的票价p¨,距离时间£+1越近的时间其权重越大。所以构建模型为
k
p。=』匕—一∑d(i)p嘲
(8)
-“\。,∑仅(i)
扛1
一82一
中围民航大学学报
其中:d(i)是关于i的递增函数。
根据距离离港时间这一属性作为重要依据,进行
机票价格的预测。将预测分为两类,一是使用在时间序列算法中等价类划分后的数据,按照距离离港小时数进行价格的预测,即如果预测时间问隔小于一个星
期,按照一个星期为一个周期进行归一化处理,同时
选取一个星期的离港小时等价类作为数据依据,进行
价格预测。因为一个星期有168h,以3h为时问间隔
进行划分,共为56个类,所以权重系数d(:)定义为
d(i)=古
(9)
∑后
☆=l
二是根据预测日期间隔,根据时间序列算法做的数据预处理后的数据,进行按照距离离港天数价格平均值进行预测,即时间问隔大于一个星期,则选取30天为一个周期,进行归一化处理后,给每一天一个权重数值(距离现在越近的权重越大),然后每以权重系数理(!)定义为
理(i)=≤L
(10)
∑矗
☆=l
两种情况下都运用当前状态下的价格乘以对应权重,得到预测价格只们
为了实现使用时间序列模型得到在同一类别中其他状态下的价格预测,因此本文定义了一种等价类,该等价类可以使算法在有限的观测类中得到训练。为了进一步改进模型的构建,引入以下基本概念
定义等价类。
定义1航线是指同一航班号表示离港和到港城
市相同,但是时间不同的航班。例如,cAl304是每天18:00从深圳飞往北京的一条航线。
定义2本文通过航班号和日期来指定某架特定的飞机。例如,CAl304一Jan7代表的是在2010年1月定义3距离离港时间为记录时刻距离飞机离港
时刻的小时差值。由于24h内共进行8次的价格观察,因此机票价格信息量充足,本文通过时间来区分它们,直到航班离港为止。CAl304一Jan7—120是
cAl304航班1月7号起飞的飞机价格信息,该信息从1月2号就开始记录(即距离7号起飞前120h)。
定义4本文的等价类就是这样一个状态集合,每个元素都有着相同的航班号和距离离港时间,但在
万方数据
不同日期起飞。因此,CAl304一Jan7一120和CAl304一Janl0—120就是在同一等价类内。然而CAl304一Jan7一120和cAl304一Jan7—117则不是同一等价类。根据以
上定义,修正模型为
女
p。=上L1——一∑d(i)avg(肌。)
(11)
∑仅(i)
仁l
通过等价类和价格平均值的角度,降低原始数据
的不准确性,扩大了时间序列的使用范围。
2基于时间序列机票预测算法
2.1数据预处理
机票数据是通过网络爬虫抓取到机票网站中的
数据,其中有一部分数据是不完全的,并且有一些机票属性对价格没有直接影响。因此在价格预测之前,需对数据进行预处理,以消除数据冗余、不一致及不相关。由于本文的时间序列模型是按照两类来进行预测的,所以根据算法的需要,除进行基本的数据预处理外,还根据算法需求进行数据的预处理。所以数据预处理包括:数据清洗、消除距离离港时间不一致性及等价类划分和平均价格。
数据清洗简单而言,数据清洗就是指删除机票数据中与算法无关的数据,也就是根据具体的算法要求将机票数据中冗余的、不一致的、不相关的数据去除掉,同时检查是不是有错误的数据以及一些没有被爬虫记录下来的数据。可按照如下方式进行处理:删除与机票折扣无关的属性数据,如机型、机票全价等
属性;根据网站的实际数据查看漏抓、不一致的机票数据。
消除距离离港时间不一致性根据数据清洗后
的数据,将所有数据根据记录日期、记录时刻、离港日
期、离港时刻四个属性进行计算,得到每个航班的距离离港时间,为下一步划分等价类做准备,将所有的距离离港时间按照时间的顺序原则进行归一化处理
为以3h为倍数的时间点上。
等价类划分按照距离离港小时数划分,小时数
相同的航班划分为同一个等价类。
平均价格将进行数据清洗后的数据按照距离离港天数相同的数据划分到一个等价类中,同时进行平均值的计算,得到每一天的平均价格。
2.2时间序列预测算法实现
本算法是基于机票的距离离港剩余时问这一特
个价格乘以对应的权重后得到在时间f+1的价格只小以30天中的每一天为一个类,共有30个类,所7日起飞的航班号是1304的飞机。
第31卷第2期
顾兆军,王双,赵亿:基于时间序列的机票价格预测模型
一83一
性进行价格预测,根据算法的本身特点,应用经过数据预处理划分好的等价类训练集和平均价格后的数
据,通过随机选择一个预测时间,获取距离现在时间的距离离港时间差值,得到预测的价格,同时给出旅
㈣姗枷姗瑚
㈣
客买还是等待的概率:
算法伪代码如下:
step
拌I怖
f
0
100
Ii
”。1
n。
1选择预测日期,判断预测日期与当前日期
咖卿
11¨惭
300
如删.潲
500
。蒯
盯…。
700
800
200400600
的时问间隔,如果小于一个星期,进入step2;如果大于一个星期进入step3;
step
航班离港剩余时间,h
图1航班距离离港时间对票价的影响
t’ig.1
2进行按照3h为时间间隔的一个星期的
rl’imelenbefOredepartureimpactpnce
归一化处理;
stepstep
处理,分别以3h为单位(机票价格的变化周期)将通
3进行30天的归一化处理;
4得到预测价格,根据预测到的价格到离港过30天抓取到的深圳一北京的航班号为CAl304的9336条机票数据,进行按照3h为单位的等价类划分和进行按照30天为单位的平均价格的划分。
3.2实验结果及有效性评价3.2.1价格对比角度
时间序列算法根据历史已有的数据进行训练,并
日期前的所有价格进行比较。如大于当前价格的数据条数为coum,当前日期到离港日期之间总的数据条数
为觥以coum,则得到旅客具有(1一—望生)×
f0£(MCOMn£
100%的概率买到预测价格的机票,旅客决定是否现在就购买。
对深圳一北京航班号为CAl304的机票价格进行预
测,将预测结果与Q—Learning算法和实际旅游网站
(酷讯、去哪儿)发布的机票价格进行对比。在2011一
3结果分析
3.1实验数据准备
数据来源于crawler系统对黄金度假网站的机票数据的抓取并且进行机票信息的提取。通过对数据进行分析,距离离港时间对票价的折扣有着很大的影响,如图1所示,可以看见距离离港时间对票价的影响。
ll一24开始预测CAl304航班,分别预测以距离离港小时为:3、12、24、48、72、96、120、144和距离离港天数为7、10、20、30的机票价格。并实时观测去哪儿和酷讯旅游网站的机票价格,将预测值与实际价格和Q—kaming算法的预测值进行对比。
从表1中可得时问序列的平均误差为9.58/17.75(0.09/0.09),最小误差为一2/一31,最大误差为一279/
由于时间序列算法是基于距离离港时间属性的算法,将抓取到的数据按照3.1节的步骤进行数据预
一260,而Q—Leaming算法的平均误差为一75.5/92.16(O.14/0.14),最小误差为22/5,最大误差为299/298。可
表1预测价格与Q—Leaming算法和旅游网站公布价格对比表
Tab.1
Forecast
prices,Q—I—eanlingalgoritlIIIlandtravelwebsitepricecomparisontable
距离离港时间
小于1个星期,h
31224487296120144
时曙震鬻测Q未器警实际价格,元时宅曩箬格Q素嚣磐Q葛戮铲矧篙翳均
1340I328l314l3001276l238I19Il19ll1911001l0631096
l408l328l3701264l2981298I247113l
1240/l2821240,l282l240/l3851046/10401
170/1
385
100/5888/一4674/-7l254/260106/一109—2/238—279/一194
82/6582/6556/4l118/_63—36/一3l
168/12688/46130/一15218/224128/一8758/298—223/一138
22/5299/282263/248273/一8276/281
13.5,9.87.1/3.5lO.5/一O.120.8/21.510.9/一634.7/29.8一15.2/一IO
2/5.827/2527.8/25.828.9/5.6244/25
8.1/4.57.1/3.56/5.J24.2/259.1/7.8O.16/23.819/147.4/5.777.4/5.775.9/4.212.9/5.63-2/2.8
1240/l000J470/I38511
109/1109/1
126126
小于30天/d
7102030
l408l20812181408
945/960945/1l
132/1
126127
万方数据
一84一
中国民航大学学报
2013年4月
以得到时间序列算法的预测准确率比Q—karning算
法高。时间序列算法的预测趋势与去哪儿和酷讯旅游网站上价格的走势基本相同,平均误差维持为20元
以内。预测结果较好,可以为旅客提供有效的购买机票决策建议。
3.2.2价格对比角度
从旅客节省开支的角度,进行结果观察对比。假设顾客每次观测时购买的概率都一样是只,件ice。是当
次购买的机票价格,各种预测系统给出的预测价格为
蹦ce。蒯,预测系统给出的购买价格为丹iee。纠机票的
概率为尸Ⅱ蒯,则预测系统为顾客节省费用公式为
m
n
1n、●1
|s倒e=乞只×件幻e;一乞尸m池1.×辟ice删吐
(12)
I=l
f=l
这里随机的抽取一名顾客,跟踪他观测数据的时
间,以及时间序列算法模型给出的购买决策概率,显
示他购买机票的全部信息,记录他们购买的机票的时间和机票价格(网上显示的最低价)。
顾客1深圳飞往北京,航班号CAl304,201l一12—11离港。
1)第1次观测数据是2011一12—0118:00,距离离港日期10天,当时机票票价是1400元,时间序列算法给出的决策是等待,并且概率为92.87%;
2)第2次观测机票是2011一12—0218:00,距离离
港日期9天,当时机票票价是1400元,时间序列算法给出的决策是等待,并且概率为89.64%;
3)第3次观测机票是2011一12—0318:06,距离离港日期8天,当时机票票价是l400元,时间序列算法
给出的决策是等待,并且概率为94.48%;
4)第4次观测机票是201l一12—0517:56,距离离
港日期6天,当时机票票价是1400元,时间序列算法
给出的决策是等待,并且概率为83.44%;
5)第5次观测机票是2011—12—0618:50,距离离港日期5天,当时机票票价是1400元,时间序列算法
给出的决策是建议购买,并且概率为89.64%;
6)同上,依此类推
共观测记录了10次数据,在此不一一列举,在对
100名模拟顾客的模拟实验中,通过观察得到两种算法平均节省费用如表2所示。
万方数据
表2两种预测算法的平均节省费用对比表
Tab.2
Averagecostsavings
compa—sontabIeoftwopmdiction
a190rimms
通过表2可以看出,时间序列算法从节省费用的
角度较之Q—Leaming算法好。
4结语
本文提出了一种基于时间序列的机票票价预测模型,该模型着重考虑了距离离港时问对票价的影
响。该模型首先确定了适用预测机票的属性及各个参数值得确定,然后将数据进行等价类划分,对模型进行训练,最后应用于预测机票价格。并通过实验证明
了该模型预测的结果可靠性高,具备为旅客在购买机票时提供有力决策支持的能力。
参考文献:
f11陈剑,肖勇波,刘晓玲,等.基于乘客选择行为的航空机票控制
模型研究【J】系统丁程理论与实践,2006(1):65—75.
【2】酷讯网推出机票票价预测工具[EB,0L】[2012—05—30】.http:肥log.
kuxun.c“index.ph∥archive酊3lO.htnll.
[3】
IANYEOMAN.Customercentric
positioning一陀ally【J】.JoumaJ
ofRev—
enue
and
PricingManagement,2008(7):127.
[41
0RENETZl0NI,CRAIGAKNOBL.OCK,RATl’AP00MT,eta1.‘110buy
or
notto
buy:mini“gairfaredata【ominimizeticketpurchaseprice
[J】ComputerScienceUniversi‘yofWashin殍onSeattle,2003(5):119一
128.
【5】刘亮,李龙澍.时间序列分析方法在股票市场中的应用【J】太原
师范学院学报,2011,3(10):38—39.
[6】余昕.基于数据挖掘的时间序列预测的研究与应用[D].北京:中
国地质大学,2011.
【71刘劲松.数据挖掘中的现代时间序列分析方法[J】信息技术,
2007,7(2):100一102.
【8】周广旭.‘种新的时间序列分析算法及其在股票预测巾的应用【J】
计算机应用,2005,9(9):2779—2181.
(责任编辑:党亚茹)
基于时间序列的机票价格预测模型
作者:作者单位:刊名:英文刊名:年,卷(期):
顾兆军, 王双, 赵亿, GU Zhao-jun, WANG Shuang, ZHAO Yi中国民航大学计算机学院,天津,300300
中国民航大学学报
Journal of Civil Aviation University of China2013,31(2)
1.陈剑;肖勇波;刘晓玲 基于乘客选择行为的航空机票控制模型研究 2006(01)2.酷讯网推出机票票价预测工具 2012
3.IAN YEOMAN Customer centric positioning-really 2008(07)
4.OREN ETZIONI;CRAIG A KNOBLOCK;RAITAPOOM T Tobuy or not to buy:mining airfare data to minimize ticket purchase price2003(05)
5.刘亮;李龙澍 时间序列分析方法在股票市场中的应用 2011(10)6.余昕 基于数据挖掘的时间序列预测的研究与应用 20117.刘劲松 数据挖掘中的现代时间序列分析方法 2007(02)
8.周广旭 一种新的时间序列分析算法及其在股票预测中的应用 2005(09)
本文链接:http://d.wanfangdata.com.cn/Periodical_zgmhxyxb201302017.aspx