基于神经网络的电影票房预测建模_郑坚_周尚波
Jounra lo Cofpumtr Aeplpictians o计算机应,2014用34,(3) : 7 4 2 -487 章文号编 :010-9181 0 (2140 ) 30-07420-7
ISN S100-9081 1CDEN JYOIID
U
210-04310-h tpt /:/ ww.wj oac .cn odi:10. 11 72 7/j. i sns. 1001-0918. 201. 40. 3702
4基
神于网经络电的票房预影建测
郑 模,坚周波尚
*( 重
大庆学计算 学院,重机 4庆0004) ( 4* 通信者电作邮箱子s hzboh@u cq. euud. nc
)摘
要: 针
电影对房预测与票类分的究研中在预存精测度不 高 缺乏、实际用价值等应陷 , 通缺对过中电国票影
房市的研究场 ,出一提种于基反神馈网络的电经影房票测模型 。 预先首 ,定电确影票房影的因素响及输出以结格果 ;式其次 ,对这影些响因进行定子分量析归和量一化处理; 再 , 次根据定的确输入输和变出量确定各个络层次神经元数网 ,量建 立神网经络结构, 进神经改络网测的算法预和流 程 ,立票建房测预型;模最后, 经过用噪去理处电的影历史票房数 据对经神络进行网训练 。对针经神络网波动的特点 , 性预对模型测输出结果的行进改之进 后 ,出输结既果更可能又 能出指电影票的房动波围 。范仿真结果明,表对 实验中的于1 29部 电,影 基 靠地反映电影上映期间的票在收入 房,于 神网经算法的预测模络型有较好预测和分的类性 能 前 (5周 票房平均的对误差相 为4. 2%3 ,平 分类均确正率达可 9.3 69 )% ,够能为电影在上前映投资 的、宣 传以风及评估提险供较全面 可靠、的参考方,案 在测预类领分域有具好较 的用应价和研究值前 景。关键词 :多层反馈神 经络网; 影票电房预; 测票分房类 影响;因量化素中 分图类号 :T3P91 4 ;.TP 18文献 志标: A码
oMedlni gn oboxofifce erveue pnrdieciotn fo mvioeba se don nurel neatork
ZHENG Jwian ZHOU, haSngbo*
( Col
leg oef CmputeroS icece, ChnognqnigUn veriits,y Cohgqnin 4g00440 ,Cina)h
Abstra
tc Conce:rnign htel iimtatons ihtt aht eaccurca of yrpeidctio isn ol wandth ec lsasifcatiino n obooffxce iis nt osinigicanf tnia plpcatiion,th s iapep rpoprsoe a ned wmoel dot prdicetbo xerveune ofmo vi, besad oe tneh moie mvaret ik rnaelty. The alioritgmhcoul db eumsmraied zasf lolosw.Firstly, ht fecaorstt ht aaffectd ehet box nadf romt ofa he tutout weperd teemrnid. eSceodnyl t,hsee aftocrssh uod ble aanlyez dnd qaunaiftied iwhitn[0 ,1 ] .henT ,het nmbeu of rnurone sws alasodet erinme, aimidg no butid lputh e rcaihtecute rfothe neur la entorw akccoridn gtoi nut apn duoput. Thet agolrthmiand p orcedue wrree mpiroevdb eofrefi nihsnig ht epreidctonim delo .Fnalily ,teh omdl weas trinead with dneised hiostorcil movie adat, aadnt e huotpu of motde laswo tpiimzedt diosel phterand monessso that th resuelt oucdlre fectl bx omoe relirblya .Th expereiemnta resllu
tsde omsnrtta ethat the mdeolbas d eo bnac prkoapgatin noerau nletorw algorkthimp reofmr betstr enop edicrtino ndac lsaisfcaiitno (F o treh frst five weeis, thkeav erag erlaeitv ereorr s i43. 2 w%hle ihe tavergaea curcca yaret caiehesv 9.3 6% 9) ,s toahtit c a pnrovie adm ore cmopehensriv aned erliale sbguegtion sof purlbciityan risk asdesssmnt eebofe rtehmo ive is no ,whichpo sssses a beetet applriacito vanul aendr eserchapro psetc int h erpdicetonif ile. dKy eorwsd :mutipll leayr eaBkcP orpgatian oeurNal eNwotkr( PBN)N; omvieB xooffci eRveenu eredPciton i (BPR ) ;bxofofie clcsaisifcaito;nf acto qurntaficitaoi
n
引0
作为文化生活的重言组要部分成, 影不但电丰富人们的
了
内的盈期情况利是困很的难 见Ma。shrlla 等
5 []
4 []
。
当前关
电于票影房测的研预较少究 ,相的应关更是罕用提 使出用影历电史数预测据影电上映期间 累计观众数量的, 用的使是单简的多线性回归算元法预第测
[ ] 61周 观众人的,数 并用使S awnehy 等 的型模行进测预影电
而且是不同也化文背的国家和景区 地余业生和精神世活,界之 间进行文交化的重流要媒 。随着介影电这学新生门课的题 形成, 影电逐由一步单纯种的艺术式形, 演 成了一种艺术变形 式商的品
[ -1 2
]上映在后周的几累观众数量 。该计模型可用于电在影上映 的同周不内期累观众计数的预量 测, 实其际意在于在义电影上 影电院动可态调整地放策映略, 例如扩 或 映大的命周期内, 生小缩映放的数厅、 改量变放周期映。等然,而 方法存在该下 如arsMahll等 缺 : 陷首,先[
5]
。
房票标指渐逐为成影投资电构竞相追机的
目标, 电影的逐资投险风估评投资及发行对机具有构要重意 义。电影票 房入收预测确是电保影行发资投报 、回控 发制风险行[3
]于对投决资策具有要的重际实意义 。作 为一 重的手要,
段用多元在线性回算归法预测 1 第周
种
有具暂生短命期周的品商, 影在上电映档的内期产生票 。房由于影响 房的因素量化票难大 , 度准预测确电影在生存周其
累积观众
时考虑的影影响电因较少 素 (电拷影数、 贝用户 价、评影 数量、院观 众龄 年) ,并 没考虑有电吸影观引众特殊的
稿日收期: 02310--19 6 修回;日:期 21031--14 。 基金项目1:国 家自然科学金资助项目基 6(113101 ) 4 作。简介: 郑者坚( 189 -8 ) ,男, 福 建明三人,硕士 研生究,主 要研究方向:人 神工网络、 数据挖掘;经 尚波 ( 周1963- ) , 男 广,宁西人明,教 授, 博 士 ,主研究方要向 :人 工神网络、 混经及其沌控制理论 、像处理、图信息安 、全 物理工计算程、 算计仿真。机
第 期3
郑
坚等 :基神经网于络
的电影票房预建测模
74
3性属,导致 第1 周预测的差误过。大一进步,地 种这差误在会不 积断, 累影响最 用扩散使模预型后测几续周观的数量众 时,后 的 测预 度精( Marhasll得 到 平 的均 误差 第:1 周 1为71. 62 , 第% 3 为周 261 8.0% ,第 6 周为 105. 4 6% )。 Brmana 等[7] 现发馈神经网反络法算股在票市 场 、气预天提出 用反使馈神经网报和 图像理等领处域应的非常成用功 ,算法来预络测电影的盈与利 , 否虽部展示局了较的好预准测Ba rmn a等确率。 然而,[
7
]
只电把类型影作为响票房影单一的
且于输对入和出输结果只是使简用单布尔的型数值表 入输,示 ;其 次 提出的,经神网络结过于简构 (单只含 有1 个藏 隐层), 这 的样入输出映输关系忽略射了如导譬演、 员演等素 Ba因mran等 []7 对影电是盈否并没有利格严判 的影的响此外,。 断准, 失去了标际的实用价值 应。Sha rda等
[ 8 ]
图1
B
P网络结构
2
BR 模型
BPP 模型R的建立历经如阶下段 :先首 ,合结国中地内影
结合影电票房的多响电影属个性 ,以多层神经
络网算法基为础 提,出种电影一票分房模型类 ,并使分用类 确正作为评估模率型类分性能的主指要 ,标 取得了好的较分类效果。 然而 ,该方法使用二制的进离散来数化量电影房的 各个影响因素,票 然显一种是糊模处的方式 , 没理有根实际情据况对 这些变进量行同的量不处理化 , 因不此完整地能现体 响因素中不同影量的差变异性, 例如 :导演、 演员 的响影度不程 能是只简地单 用0 和 表示1 。各而影个因素的量响处化理, 能 通神过经网的权值络接连 ,影响神经络网训收练敛的程度 ,进而响神经影络网分类性能 的 。外此,该预测模型在输 出层对票房 分的同样显得类糊模 ,使 每一个票得房级分等的跨类 10 000 ,01 000 00 0 ] 。) 度过这( 大如例二第的票房范围类[在 放映成 样本的分类对于影投资者和电电院影控电制影作制、 而 言, 参价值不大考。针 当前对房预票测究研领存域在的问题 ,文结合反馈 神本网经络(B cakP oparagito Nenraul Ntewor,BPkNN) 中国与 内地电影市场的实情况
际9 [
确定电影]票的房响影素 因 ;次,其对这些 影场的实市际况情 响因,素进行量化处理 形成,神网经络能够受接的数格据 式; 外此,还 要需电影对历史数据的进行噪处去理, 建 构BNP 的N训 此便由可初步以确定经网络的神测预模以及型入输输 集练 ,在 BPN 预N结测的构础基上 通过对预, 出映射结的。构后, 测最法算及以程流的改 进, 定确终最的 BRP 型模 B。RP 模的 型具体模过建程
如图 所示。
, 2出提一种基多层反馈神于网经络2 1.
图
2
B
P 建模R过
程of
fce ReiveuenP edrctioi,nRBP )模,型 票的预测房( oBx模该型从 多个维度虑考电影票房的影响因素, 够较准能地预测确 房票具体的数值。虑到电影票房考的机随动性 , 波了提为高模 对算法和预测流型程行改进进 ,给了票房波动出 测预度,精的 范围区, 既间保能最证终的测预果结备具好较预的测度精 又,能电对影的风险制提控供有值价投资的考 参 具,有实际 应用的景前。
影
响子因确的定
为了
化简 计 算并 提高 系 统 的性 ,能需 合 理选择 变 量。C hu a等16[ 提出]用使摇的值定摆义输入变 ,量 但该方缺法乏 考参 harSa 等 d论依理,据 而且算的法具实现体并直观 不。本文的 变选量择[ 8]42 - 2475的 究,研同时, 在中对内国电影票地房
结
合中国地内影市场电的际实 历数据统计史分析基的上础 ,[ ] 9选取导、演 第 一 演、主 二 第主演、 第一 类 、 第型二 类情况, 型、 发 行地、区上映 档作期输为因素入, 并赋 各因素不同予的权 重 ,式(1 ) 表示电影 输的入向量。考虑到连 续变的量值 可提以神高网经的络感性敏, 文本将所有的入变量输都处理 [ 0成,1 ,] .23 区间 连的续数值节 将体具阐述理处过 程。 nIput= { iDrcetroWeghti A,corWeithtgi ,enGeWerght i i ,aNionWteghi, tDtaeeiWhg} ( t1)其 中 :Dir ecotrWegit h 示表 导 的 演影 响 权 力,值A cotWeirgt ih (i = , 21 表)示 主演 的 响影力 权 值 ,eGrnWeigeh ti ( i= 1 , 2 表 示)电 影 型类的 响 影力权 值 ,NaitnWoighet表 示上地区的权值,映Da teWiegth表示上 档映期的权值 。. 2 2据数预理处 电在影首映的 1第 票房周据对数该电于的预测影具有 Mar重salhl 往往能它现观众体这部电影对关注程的 度 要,意义,
1
反神馈经络网
PNNB 是一根据种误逆扩散差法算练训的层多前 网
馈络。
上下之 间层 实 现全 连 , 每接 层 神内 元经之 无 连 间接。图 为 1PB 网结构示络图意,其 中f 为隐 层含激活函数, 的 可以是性的线, 也以可非线是的性, 要由输入主、输出映 射系关确 。定通 调过整 P B经网神的络规 ( 输入模节数、点输出层节点 隐含层层 及隐数层节数点 )网及络中连接权值 就可以实, 、 现数线性非分问类, 并且题能任意以度精逼近任何线非函性数。 PBNN能 学习存储大和量输入的输出模 式映射系关, 无需事而揭示描述这前映射种关系数的函数学是或程 方 因 B。PN 成N地应功用于图压像 缩此,测
[2 ] 11[ ] [01 ]1 天气预、 报 破产预 [1、4
]、
卫 星图分类
像[
31
]
、 不规则
形分类状
邮、分件类
[15]
。
7
44等
[ 5]801
计3机应算用 研究的中把 第 1周观的众为扩作模散的潜在观型众。 其中:A amx = mxa A{ 1 A, 2, } A mi…n= inm{A1 , A2 …,}
第 43
卷然而, 由于部每影在电映首 1第 周的实上映天际数尽不相同( 如锦《衣》 ; 《大兵小将卫 于》周三上,映 第1 周 际实映上5 天 于周上日, 映第 周1实上际 映1 ) ,天 因, 此在对影因响子化量处理之 ,前本 文用式使( ) 2所对电影的用第 周1票数房做 据修出正,消 除种这于由据数规整性不而带的实验来误 :差7 b j1 = b'· j1 2)( dysa j adys j 表示 第其:中b' j 表1第 j示部电影 映首第 1 周实的票房,际 j电影部在首映第1 周内 际上实映的数天 b j1 ,表示第 j 电影部修正后 的映首第1 周票房数据。 由 于每部影实际放电的映数周也尽不相同 ,此因文约本定将 部电每影上前映5 周的累 总票计房作该为电部上影期 映.23 的节量处化理也使将这用标一准 间的。累票房收计, 入 另,方一 面虑到动画考类的电影与其他电型在观影众体上 的差群异,性 了能研究中为国内电地市场影一般化规的 律 本,文 将剔除画类型动电的 影 。2 .3 响因子影一量归 化节本具体将阐述影电响票影的房素因给并出相应的 同时定出电给票影数据各属房性的化处量理过 , 程为B P神义 , 网络经训练集的构建准做备 。 2.3. 1 演导 定 1义D iri = 导演 i 的票 房影响力指 标Drii :
( 1
0 ) 1( )1
Ai 表示 i 个第员的影演力响 。中:其i 示表员序号演, 2 .3. 3 电影类 型联互电网资影料库 I(tenret Mnovei atDbase,aMIDB) 是 目前最权具的电影威网站 ,它可以为 电影容的内分类提参供考。 结 合IM BD 电的类影型种类 本文将电,按内影容分成下如 12种 型类 :爱 情 片、灾 难 、 片 悬疑片 ( 冒 险 、犯罪) 、 怖片(恐 悚惊) 、战争 片、 纪 录片 (传记、 历史 )、 家 庭 片、 戏剧 ( 音 乐、戏 幻片科( 魔幻 奇幻、 、 )剧片、喜动 片作(武 侠 、装古) 、 剧情 曲)、 (片故事 ) 下面。出各给型的类房影响票力标的定指义。 定 3义 影电型 类 的票i房影响力指标 G i
m 5 :jk
i =
∑G∑
j b=1 k=1
(12)
2 ,… ,1 2, 其中 :i 示类型表序号( i = 1 ,别对分上应 述2 1种电 影型)类 ; k表 示映上的次;周 m表示 类型 i电影的总量;j 表 示属类型 i于 的 j 部第电;影 jbk 表内示容类为 i型的第 j 电部在 上映的第 k影 内产生的票周。房 进步一地,可 得以衡量类型到 i对 属于该归类型影的 票房电影响权力 值GeneWreigt h :i enGreWeihtg i
=
∑ ∑ (b
) m;
jk j/=1 k 1
m=
5m
=mn{i ,5m}
( 3
() lgG ) / ( g lG)
mi min
nG
i
G
m xa
(
13
)
其:中 i表导演示号;序j 表导演 i示 参拍与摄的 j第部 影电; k表示上 映的次周; 表示导演mi 与拍摄的参有电所中 影,上 时映距离现在时间最间近 m 的电影部 b ;k 表j示最第 j 部电近 在上影映的第k 周产内的生房票 。进一地, 可步得以到衡导演量i 的 影力响对执其导电影 票的影房响力值权 ireDctroWiget i h下如 :iDr iD i marxDi ectrrWoegith i= lg l (g ) 4iD rmi nDrimi n
其中
: maGx =max { 1G , 2G, } … Gin m m=i{ n1G, G2, … }2. 3 . 4国家地区
(
41) (15 )
根
电据制片公影所在司的家或国地 区, 文将本影分为电欧美 、 韩日 、台港、 国内中和其他地地 区 类。 5义定4
m
家或地国区 的i房票影响指力标N i
5 :kj
(
)
/(
)
Ni =
∑∑b
j= k 11
=(1 6)
其中:
Di mra = xam{ Dxir 1 ,irD2, …} D r mii =n mni {Di1 r D,i2 r,… } i表示 演导序, 号Drii 表示第 i 导演的影个力。响2. 3 .2 演 定员义 2m
(
)5 6)
(i的取 与值区地对应 其中的 : 表i发行地区序示( 1号 ≤i ≤ 5 ),关系 表 如 所示;1 k 示上映的表次; m 周表示行发地区于属地区 的i电总影数 ;j 示表发地区属行于区 地i 的 第j部电影 ;b j k表示行发地为区 i的 第 j部影电在映上的 k 第周内产生的 票。房
表1 的取i与值影发电行地的区应关系对发行 地 欧美区 日韩港 台 4 5i 行发区 地国中地 其他地内
区演员
的票房影i力指标 A响 :i
5ji j
k
Ai=
∑u[( ∑b) / ];
jm= 1 k=1
m
=m in 5{, }
m
(7)
1 2 3i
其中:
i 示演员表号序;j 示表主 演i参与 摄的拍 第j部 电;影k 表示 映的周上次 ; m示主演 i 表与参拍摄的有所影电 中 上,映 间距离时现时间在近最 的m部电影; b j 表示k最第近 j电影部 上映在的第 周k内产生票的房;u ij 为 员 i 参与演最的近第 部 j影电参的系数演 定义,如下: 1-( n - 1 )/ 10 ,u j =i0. 5
,{
n
∈ [ , 15]n ∈ ( 5 ,+ ∞ )
进一步地
可以得,衡量到发行区 地 的i影响力对行地发区属于 类该别的影电票房的响力权值 Nat影oinWeiht g i
:
5
()8
N
aitnoWieghti = N i
/∑Nj
=
1j
( 1
7
其) 中 n为正整数 表,示演员i 第 在 j部影中主演电名次顺序 。的 一步进地,可 得到以衡量演 主 i影的力对参响与电影的 的票房影力权值响 cAtorWeihtg i A:i maA xAtorcWiehg it= l gl g( 9)A mi n Aimn
(
)/
(
)
Ni 表 示行发区 地i的影响力, N 表 其j中: 表i发行地区序示, 号发示地区 行j的 响力权值。 影2. . 5 3映档上 期根据影在中电内国上地映后前 3天
所处的节日假 本文, 将电上映影档期为分一档五 ( 4 月 27日至 月51 0日 ) 、 暑期
第3 期
郑
坚:等基 神经网络于的影票房预测建模电
45
7档
( 月71 日至 9月1 日) 、 国档(庆 月 29 7日至 01 月1 日0 、 贺)岁(档正月 初至一月正十) 和其五他档期 5 共类 。义定 档期5 i的票房影力指响 标 iD:
m5 j
k数为
3 ( × M × ) 2 = ,6且 所隐藏层有节都点用使式( 22 ) 的 Sig mod 函数。 i 表 表示3 RBP模 型中输入变量以各及出阈 值,输图 3 给了出本文出提 B的PR 型模构结
。3表 变量输 变入 1 量RPB 模的输型以入及出输域 值值域[ 0, 1 [ 0, ]1] 0[,1] [ 0 1], 变量 量含义 值变域[ 0, 1] 0,[ 1 [ 0] 1] 0, 1, [
]Di
=
∑b∑
j 1= k=1
( 8 1
) 的取i与值区地的应关对 系其:中i 表示期序号档 ( ≤1i ≤ 5 ) 如表 2 所,; k示 表上映示的次周 ;m 表上映示期日在期 i档的电 影 总数;j 表上映示日在期期 i 的第档j 部电影 ; jkb表 上示映日 期在期 i 的档第 j 部影电在上映第 的k 周内生产票房的数据
表。 2 i12 3 i 取值与的映上期档对的关应系档 期五 一档暑 档期国庆档 i 54 期档贺岁档 其他档
变期量含 义导演
输
入变量 第一主2 输演变量 入3第二主演 输入变量 4 第一 类型
输
入量 变5第二 类型 入变输 6量发行 区 地输变入 7 量映上档 期出输变 票量房 (obxjk )
进一
步地, 以可得衡量到档期i 的影响 对力该档在期 上映内电的影房的影响票权值 力DatWeeght ii: D iD mx DateaeigWht i lg=l D gmn iD mn
i(
) /
()
(
19
)其: D 中max = max {1 D,D 2, }… D inm = imn D{ ,1 2D …, D } i表档示期i 的响影力。 其中:i 表上示档期序号述, 2. 确定模4型构结 2. . 41
(
0 )2 (2 )
输1入层根 据2. 1节对影 响变的量析,分决 定 RB P型模输入层 的. 25 预算法改测
进
神元共经 7有个 ,即导演 第、主演、一第二主演、 第类一、 型 、第 、 , 1() 的权值量向输二 型类 行发地区 映上期 用档处于理 式。入2 .4 .2 出层输
图3
BR
P型结模构
B
RP 模型的计容 随着算B PN N隐藏节点层数的量加 增 ,能力纳随也增着,加 同时对但测预的果带来波结性动, 这是 因输出为之前任层两意个点之节的间权值收敛向发方生变化 , 会对都结果成造影响。此, 因需对要B RP 型模预的测算进 法行改, 本进通文对过一同组数的据多预测 ,次找出数据 中 进心确而定结波果动范围 。的 改后进测算法预的代码伪 点表 ,如示下。
nput:ITrainS etn[ []8] : 用训于练的n 部电影, Tr ainSet i[ [ ]=] 中其,{ irDctWeeihg, tctAoWergit1h
, AtcrWeighot 2,G neeWreghi1 , GenreWtegiht 2 N,taioneWgiht ,DteaWeiht,g oxbi k ;}P edircSttem] [[7 :]需要预 测第k 周 计累房的票 部电m影 ,其 中PredciStte[i ][ ] = { D reciteWght, ictorAeWigh1 , ActtroWigeht2 G,nreWeiget1h, G enerWiehtg2 ,Nati noWeigh, tDaeWetghi} t;E : 0允的全局最许误小; t:差 连预测的次数; 续:p 测结果预的可信百比分。O uptu:tav g[] m:m 部电第 影k 周测预出的累得计房票; 值rnae[g ]m: m 部 影第 电 周k预得测的出计累房波动值票 。eBing/ / 算 开法 m始xboxa= ma ( xraiTSent [ ][ ] );8/ /获得 票房最值 大orfi = t1o mfor j = 1t otn et= init η( W0 ), ;/ 初始/神化网经络 ne t =trin( a0 , TrEaiSet)n; / / 练神训经络网out [ i] j[]= p reictd (nte, PredctSei[ it][ ] )
;
文本中计 设BP 模R的输出值为型影电票房, 因 输此层出 含只一神个元经 其激,活数函使式(用 22 的)S imogi 函d数 :( fx )=1 ; 1 + e - x∈x (R 22
)其中
x 表示一上层的有所经元神本神经对的净元输入 。, 1]区0间 ,由 S于gimoi d数的值域函[ 在因需要此使用 用式 23 )( 对输到 B入PNN中用于 练训电的票房做如影的下归一处 理: ox jbk=
(
b ∑ ) /mxa ∑b , ∑b
j{i 1 i i1 = =i1 i =
k1
k
k
2i
, …
}
( 32)
中:其 j 表示影序电号;k 表 上映的示次周 ; ji b示表第 j 部影 电在映上的 i第 内产周的票生房 b;xoj k表示可用 于 BNP N训练的 obxjk ∈ [0, 第 部j影电映上止截第到 k 结束时周的计累票,房 1] 。 .24. 3隐层藏 1988 年Cy enkbo1[7] 出指,当 节点均采用 S各型函 时,数一 个隐层就足以实含任现意判分类问决题 两,隐个层则含 以表示输入图足的任意形出函数 。输iLppanm利 用对它 层网多络功能的几解释何 ,指第二出隐含的层节点应为 M ×数 ;2这 里M 输出为的节点层数 在。高输入时,维第 一含层隐 与20 [- 2 2] 。第二隐含层 的最节佳数的点比例为 3 ∶1 基上述理于论, 文采本两用个隐层藏, 输出当层点数节 为量1 , 时二第藏隐层的点数为 M 节 ×2= 2 , 第一藏隐的层点节
[81 -19 ]
746
ou[i] [tj] = out []i [ ]j× maxoxb; ne dend q =「 ×t( 1 - p )? ; of r i 1=to avm[i]g =varagee (uto[i] []); / / 删 除 uto[]i [] 距中 avg[i离]最 的 远q个 : de数lteFuetrhet( osu[ ti][ ] q, a,vg[]i) ; va[i]g= veaager(ou t[ i] ][ );max [i = ]axm ou(ti][[ ] ) ;mi n[] = imn(i uto[i [] ]; r)nge[a] = mixa m(x[a ]i- va[g] i ,avgi[] -m in [i] ); en dEnd
计算机应
用// 预测票房
第
34
卷
// 算 结法
束3
t- =10 , 在本 的文真实仿验中,取 经值验参数 0 E =10 , p= 7 0% 。 根上述算法, 据 第i部 电影终最预测结果可用式 (24 表)示 :avg[ i ]±r age[ n]i= B RPodmel( redicPtet[ i] S [ )] 2( 4)i] [ 表]示 第 部预测i电影 的7 影响因素个 权其中 :PerdicStte[ vg[ai]表 第示i 电部的累影票房计中心值向量( 参考式 (1 )) , ra nge[i ]示表 第 部i影的电累计票波房动围范测预预测 值 a,vg[ i ] -anreg i[] 值,, 第 i部 电 影 预的测 结 可 果 表示为[ a vg[i ] +range[ i]] 。
最
小乘二确法上定述两个数 系。 对票房值于的评价 本,节采用(式2 6 )义定平均的相误对差 作为票预测房的价评指 标 并使,用相的同据数分别对本 m集] 和)扩模散型5]1[082 提文的出BRP 模型 输出票房的值 av(g 输出的[票( N(房t) ) 进对行比。n b xoj k- b xo' j E =k n × ∑100 %( 6 ) b2xo jk j1= 中: 其j 示表电序影;号 k 表示映的周上; 次boxj k示第 表 部电j 在上映影至第截 k结束时的周实累计票际房 ; oxb' j k表示第 部j影在上电截映第 至k 结周束时累的票房计预值测 ( 对于 RBP 模型 b,ox'jk =agv j[ ]; 于对扩散型模 box', kj =N ( k ) ;)n 珔 示表影的数量; E电表示 n 测部试影电的平均对误差 相 。对票于房波范围的动评价 ,本文用采( 28式) 定义 的预 [测 ] 正确8率为评作指标价, 用 于评估 RPB模 在型测预票波房动 8[ ]274 并 Sh与ada 等r提 的出BP 票分房模 范类时的分类围能,性型 进行比。 对ibgnoj 1= ,oxbjk ∈ [av g[ j ] -rngae [j], av[ gj ]+ arge[nj ]]( 72) 0, bo xj k[ avg j] - [anger [j , ]agv j] +[ anreg [j ]]
(
)/
{
B
nigoRat e=
( ∑
ibng )o/
j jn=
1
( 28n)
3
仿真
验
实
本用于仿文真验实电影数据的来于源艺恩询咨 (ww w .netgorpu.cn ) 。恩咨询是中国艺业专咨的机询 ,构提供包括 电票影在房内的权威业数商 , 据本收集了 文208 至02 01 0年之间 1 9 2电部在中国内地上影的映票房以及影数据 ,电 为本作 实验的据数集 。于数据集由中上映超 过 5的周电数据影较 少, 此本文的预测只针因电对影映前 上5周 票房的 表 。4是 将票房按上周次映类统计的分果结
表。4 上映次 周第 1 周第2 周 第3 周上前映5 周的电影数 分布量 上映次周第 4周第 周5 电影数 量14 6001
其: j 表中电示序号影 ;k 示表上的周次映 ;bo jkx 表第 示 j电 j] 部表示电 影上映截在至 k第周 结时的束实累计际票 房; va[ g]表j 影示上映截在至 k第 结束时周的计票累预测房 ; r值ngea 电[在影上截映
至第k 周结时束累的计票房动波范预测围值 ;n 示电表的影量;数 inBoRgtea表示 正确;率bin g o j表示预第测 0j 示表分错类误)。 部 影电分的情类况( 1表分示类正,确 3.2 误差对 M比rasalhl等 针对第 1周 票房的预测, 在研智利究的电 市影场时把广花费 告、电 拷贝影、 用数户价、 评戏院数、量 观 众年分布龄作为变并量用使多元性回归线预电影第测1 周的 房( 票在潜观众 , 本节在进行对比时,) 除给了出使用BR P 还模上将文提及票的影响房因素力作输为入变 的预型误测, 差量 ,采用多线性回归元法方进行预测并出给应的相预测差误, 实中 验BR P模型 和eRregss 所使用1的训集与练测集试比 例1为2 ∶8 1 0误差比较如表。 5 示。所
5 表3种 方法在第 1 周票房均相平对差对比误 方 BRP法模 型R egess1 Rergrses[25]815 平均相对0误差 4. 54 2103.9 1117.6 2 %[
]5183
0电影数
量19 129 010
在9实工验选择上具 ,虑考到Matl b 在科学a计算域有着领较 精高,度因 本文使此 用atlMb a现实 BPR模型 与 arsMhll a 扩的模型散 ,并对它比的们性能。3 1. 评价方法由 于 RB P模型的输出结果是由票房和票值波房范动 围部分组两成 见式( (4 2) ,)因此需要对这 部分的两预测性分 能进行别评估。 Masrahl l等[]5801 2的散模扩如型(式 25 )示表 : N( Nt )=[ ( s - h) h+e st -- se -ht] ( 25 )s- h其: 中 表N电影示潜的在观数量众 ,即 第 1观周众人数 ,了为便于比较 ,本将其文作为影第电1 周的票 数房据 t;表 示影电 ≥ 2t, N t()> 0表 示时在 间 内t, 际去实电看的 影上映次, 周观众数 本,将文视为时间 t其内的 累票房; 积s表 示众观决定 本看 电影的关相系; h数表示 观实众去际看影电相关系的数 。 节的模型评估,中随机抽将一定取数的量练训集使 用线非性
表
5 中 :B R P模即为本型方文法;R ergess 表1示把导演 权、值 第一主权值演、第 二主演值权、第一类 型权值、 二第类权 型值、发行 地权值区、档 期值作权为输变量 入, 用多使线性元 [5回 ]8150 进行归预测 ;egRrse2s 表示 在arMshal 等l的 究研中到 的预测误得差。对比结果表明该 ,中内地国影电市场与智电利 市影场的票房响影因素不同 ,其 测预果也结在差存 , 异文本 所列的因素对中举国地内电影房票影响更 大 更,适中国内地 电合影票的房测预究。 在研进第 行2 至第周 周5的票房测预, 时本将文集收可 用样本随的地机分两部成分 一部:分训练为; 集一部分为另试测 测试集训练与集没有重复数据。 根据相关究研结和果作 集 者,有经已,验 合数结样据
本
数量 经,过次随机多实验 发现,
在3 第
郑坚期等 :于神基网络的经影电票房测预模建 型 ,有效决解 了Mrsaahll
等[5]
7
4 在研究7预测精中度低的过题问。
B
PR模 型和Ma rsall h[5]等1028 练训集与试集比例测 9 ∶约 1时, 的扩模型散较好有的预测精度。 2 种模 对型比实的验件条 为:在 选的训取练基集上础, 使 同时, 使 用非线 性小二最乘确法定式( 2 ) 中5s 和 t个两系。数用 相同训的集训练 BR练 P型中的 B模 P经神络, 直网至收。敛 此,由便 可建可立直接于用预票房的测两种型 。模[ 5] 图 4 ~7 是 别使用 BR分 P型和模 arsMhall 的等扩散 型预模电影第测 周2第到5 周 累计的票值房的差误线曲比 较;表 6 为分别 用 BR使 模型和P扩模散型行预测的进均相对平 误对差。
图比7表
62
种模在型映第上 5周 房票预测的相对误对比 差% 平相对均误 上映 [差 ] 8102 周8 B次P R模型扩散模 型 4. 69 7第4 周 3 5 .8 45 周第5 . 08 538 7.1
2
模种在不同型上周次映的平均对相差对比
误平均相
对误差 上映[ 8 ] 18 0 2周次 RB 模型P 散模扩型 46.14 第 周2 4.542 3第周 38. 945 9 .46
3 3.
4图
2
种型模在映上 2 第票周预房测相对的误对比
差
分结果对比类 2(8) 的 评指标估 ,节本用式( 2利7 、 )分别使 用RB P型模 8[] 24 7在研究提出中 的B 分P类法方,对 相的同数 和 Sardha等 据集 行测试进, 每次测随机抽取的训试练集与试测不重复集。 BP 类的正确分率算计式 如(2 )9 示:所其 中 ,PB 类分确正率 =
类正确分样的本 数×10 0%( 2 9) 本样数 总70 % 图和8 10~表 当示使的用训集练例分比为 6别%0、 80 %的分时正类率比较确
。图5
种模2型在上第映 3周房预票测的对误相差对比
图
2 种8型模训练在为 6集0% 时的类分确正率对
比2
种 模上述实验 果表结明, 着训练集随占所比例的高提 ,[8 24] 7的型分正类确率有都著显的提高。 而,然与 harSd a 的等 方相比,法本 文提的出BR P模型 电的分影性能更好 。类
4
结
语图
6
2 模型在上映种 第 周4房票预的测相对误差比对
从上对述预测的平误均差对实验中可比以看出 ,本文 [所5] RB PMarsallh 计的 模设型测预性能显优明于 的扩等散模
本文从实
际中的内国地电票房市场影发 出 ,提出种一 基将多层反神经网络馈于 馈神经反网的电络票房预影测模 型 算,应法用于电票影房测预领域 ,把导、演 一主第、演 二主第、 演第一类、 第型类型二、 行发地区、 映档上作为期影票响的房 素, 因并其对进不同行归的一量化处 。理此 外 还,对B 神P经网隐 藏、层 经元神构做结了调整, 进改
了
算法预和 络的输测、 流出,程并 建 立 电影 票 房 预 测 的 RB P 型。 通模过 对 比实验
,
74
8计算机应用
[]6
第3 卷4SAWHN
Y EM ,S EIASHBELGRJ A.par simnoiuosmode lfor orefcasitgn grossboxo ffcier eevuneso fm otinop icuret [J] Ma.ketrnigS icenec 1,969 1,( 5) : 123 1- 13.
1B
PR 模型 比Mashrla 等l[5]801 的2播传型模预在票房测数值 的RBP模 预测的型房票波范围动 比均平对相差误更低。同时, S ahda 等[8r2]47 B的P分 方法类预在测房分类票的时正率确更 文本出的提BRP 模型既 决了解电票影预房 测高综上所述,。 度精低过的题问,又 较能准地确出给房预测的波票动围 范,能 有具实的意义际 。够为影的电投资和映放提供价有的值参 ,考
[7]
BAR
MA ND ,CHOWHUDRYN ,SNIGHAR K.To pre dci tpossbli erpofi / tlos sfoa omviet ob eaunclhd esuign MP Lith bwacpkropaagiotn larnine g[C]/ / Prcoedineg sof teh20 12 nItrnaeiontl Confaerecneo Comnumicanionst De,icesv adn ItnllieegntSy tesms.Pi sacawtya, N: IJEEE Pres, s021:23 22 3-25.
[8
SHARDA R, DE]EN D. PLedritcngi oxbffioce succse sfomot on pictiuer siwh tnerualn teorwsk[ ]J. xEpre tSytems swihtA plpcatiinso ,026, 003(2 ) :2 34- 254 .
[]9
WU
X. Sx iafcotrswh ic ehfefcto nofficebo x[]J C.iha Movie naMkrte,2 06( 4) 0 14 -: 51 (.吴宣文. 影电响影房票六的大素因 []. J国中电影市场2,006(4) :1 -4 51.) ANAN URDI SA, NAAN ASR OE.I agm coepresmiosnw ihtba kcroppagaitn oneurl naewtork sinugcu ulatimvedis ributito fnnutcon i[].JI nertnaionaltJo rnul oaf Appledi Scenic,e Eginneriengand eTchonogyl, 2007, 3( 4 :) 15 -8 819
.[1
0
]图
92
种型在模练训集为 0%7 的时类分确率对正
比
[11
B]BOO A SS ,HSEREF EI K.An feficeit neather fwoecratisn sysgetm usingartif ciialn ueral etwork n[J.]Int eratninao lourJna ol EnfivrnmoetnalS cenci ena dDveeoplemtn ,021, 01(4 :) 32 1 326-
[12.
Z]HNGAG Q H, U M,Y DEDYPA UWOTB, te la. Atirifcai nelrua lnewtrks on banirkputy crpeictdoin: genral efamrworek an cdrosvslaidtionaana lsysi []. JEroupen Jaurnao olfO pretaoialnR seeacrh ,199,9116 (1 ):1 6 -3.
2[3]1
ASKPL A AT,BO HKAE CR ,ATRPORE A ZN. Satellie tmiae clgasifisactio unisgn hte bca kpropagatonia lgoirtmho aftifrciail neuarln twork e[B /E LO.][20 31-70-5 ]2 .tth: p// pdf. am nei.ro r g/ 000 3/47 4/7 / 8_neauarln_twerok_cassifielr_or_occludefd_miage. psfd.
图1 0
2 模型种训练集为 8在0%时的 分类确正对比
率[
41]
L
I NWS,C HUOSY, HCE NC.S rIrgular ehsaepscla sisifcationby abkcprpoagationne raulne worts kJ][ .nteInartioanl oJrunla o fAdvance ManufacdutrngiT ceholngyo ,0207 ,34 ( 1 1/21) :1 641- 1 71.
2而, 然为一作对电影票次房测预
问题的索探大和尝试胆, 电影票 房型对模测预领的域究研讨论是十有价值的 分将。反 神经馈网络应于用票预测房, 本身 是就一次大胆创新的 ,一 下: 步,研究的方如向下 首 先时地更新电及库中影的电信息影。 于对距今代较远的年影 电 、演、导演员, 以可在模型适中增 当于对有历史没票记录房 加的者或弱它的减票影房力响; 其 ,次 尝试其他从角衡量度们对票他的影房响力新 导或演新员, ( 演如媒在体出中现的频率 ) 再;,次 试尝究某研导些演演和员“ 强合强作”效应, 使用 合组实探验不讨电同影属性组之间的 后的合合效应综 。参文献:考
1] G[ISNURGB HVA, HROTSB DY .Hadnobk oo nht econeoics of matr ndac utlreu: voumle1 [ ].M mAstreamd :NrotHohlald, n0260 :156- 65.9[2] 3] C[AEV R S.ECr eatvi eidnsturise :contarcts ebweent rt aadnc mmeroc e[]. MambriCdge:H aravd rniUervsit Pyesrs, 0200 2: -17 .JEHOSHUA E, ELERSE B, LAEENEDS RM A M. TAhemot on picturie idnusrty :rciitclai ssus ei nrapcict, ecruertnre seacrh, an newdres eacrh idertiocns [J] .arMeting Scikecne,2 006 ,25 6) : (36 8 6-16 [.] C4HNAGB H, KI E J D.vesini agp acrtialc odml ferop erdctini ghtetarica lmvieosucc ess:foc usigno nth eepxeriecn egoodp orerpty J[.] Jurnolaof eMdi aEcnomicos 2,050,1 8 ()4 : 472 -269 .[ ]5M ARSAHL L,P DOKCEDORFNFM IBEZ,S A.f oecartinsg ystems fr oovim atteedancne[ ]J .oJuraln fo uBisnessR seaechr 201,, 66( 31) 3 1:00 -8 1068.
[
15]
AYODE
E LT, HZUO S KH,SUIAONVR .Em ali lassificationc usignb ackprop gatiaonte hcinuqe[ J]. Inetrntaionla Jounalro fItneliglentC mpotunig Rseaecr, h020, 11( /21 : 3 )-9 .
[16]
CHA UDK H, OGKY C, L OH KP et a,.lMod el froco stnuctrion ubdet gprfermanconeuerla enwort akprpach oJ[].J uornl af Coostnurtcin oEnigneeing ardn Mangemeat, n991, 172 ( 33) : 2 4 1-2 22.
[
71]
CBYNEO G.K pproxAiation bym spurepositins oofa sig modai lfucnitno[ J. M]taehmtaiscof Control, Sign as aln Sydsetsm 19,9, 8( 24): 303 -14.3
[
18 ]1[] 92[]
0LI
PMPANNR P. An intrductioo ntoc opumitng itwhne url aetn sJ[].AS SP aMgzaine ,981, 74(2 ) :4 22. -LIPPMANN R . PPtaetr cnasslifiacton iuisn genura letwnoks [r]J C.momniuaticos nMagzani,e198 9 ,27( 11 ) :7 -4 5. MI0RHANDACIN ,GC OAW . nOh ddie noden sorf neural ntes J[.] EEI EransTctaoins no ircCuits ndaSy tsmes ,9189, 6 ( 5)3: 66 1- 6 46
[.21
]
GRMOA R NP ,EJSONSKIW T .J Anlyasi osfh idde unnti sin a laeyerd entwrk oratniedt o clasifs soynar targts [Je] .Nuera Nletowksr, 918, 8( 11 ) 7: 5 -9.8
2[]
2K
UN S YG,HU Y H.A F rboeius nppAoximratin oReuction dMtehd o(F ARM)fo rdteerinmig ontipm
a
l unmbe rfo hidde unnis [tC]/ I/JCNN9-1: Proceeingds f oth e1919Seattle I tnrenaitnoalJ int oConfreece onnN urael Newortk.sPis atcawy,aNJ: IEEE Prses, 919: 1631- 18.6