基于CiteSpace研究科学知识图谱的可视化分析_肖明
>>
第55卷第6期 2011年3月
基于C i t e S p a c e 研究科学知识图谱的可视化分析
肖 明 陈嘉勇 李国俊
北京师范大学管理学院 北京100875
〔摘要〕运用C i t e S p a c e 软件绘制2007-2010年间以“Ci t e S p a c e ”为主题词的论文的研究前沿及其知识基础的科学知识图谱, 展现C i t e S p a c e 领域的知识结构关系, 反映我国运用C i t e S p a c e 进行科学知识图谱研究的重要文献、机构、作者、期刊情况, 指出C i t e S p a c e 研究存在的问题, 并给出相应的对策建议。〔关键词〕C i t e S p a c e 科学知识图谱 科学计量学 共现分析 信息可视化〔分类号〕G 306
V i s u a l i z a t i o n A n a l y s i s o n t h e R e s e a r c ho f Ma p p i n g K n o w l e d g e D o m a i n s B a s e d o nC i t e S p a c e X i a o M i n g Ch e n J i a y o n g Li G u o j u n
S c h o o l o f M a n a g e m e n t , B e i j i n g N o r m a l U n i v e r s i t y , B e i j i n g 100875
〔Ab s t r a c t 〕T h e p a p e r e m p l o y s C i t e S p a c e s o f t w a r e t o m a p t h e r e s e a r c h f r o n t a n d i n t e l l e c t u a l b a s e b y u s i n g ”C i t e S p a c e ”a s s e a r c hw o r d f r o m 2007t o 2010.T h e s e m a p p i n g k n o w l e d g e d o m a i n s c a n r e f l e c t t h e p i v o t a l w o r k s , i n s t i t u t e s , p e o p l e a n dj o u r n a l s o f t h e r e s e a r c ho f m a p p i n g k n o w l e d g e d o m a i n s b a s e d o nC i t e S p a c e i n C h i n a . T h i s p a p e r i n d i c a t e s s o m e p r o b l e m s a n d s o l u t i o n s w h i l e u s i n g C i t e S p a c e f o r t h e r e s e a r c ho f m a p p i n g k n o w l e d g e d o m a i n s .
〔Ke y w o r d s 〕C i t e S p a c e ma p p i n g k n o w l e d g e d o m a i n s Sc i e n t o m e t r i c s co -o c c u r r e n c e a n a l y s i s in f o r m a t i o n v i s u a l i z a t i o n
本论文所用的全部数据来源于C N K I 全文数据库
1 引 言
美国德雷克塞尔大学陈超美团队开发的C i t e S p a c e 是一款在科学文献中识别与可视化新趋势与新动态的J a v a 应用程序, 已成为信息分析领域中影响力较大的信息可视化软件图谱
[2]
[1]
和C S S C I 引文数据库。笔者于2010年8月5日以“Ci t e S p a c e ”为主题词在C N K I 中检索到2007-2010年间的55篇论文。C N K I 的论文较全, 但引文数据不完整, 所以还需要借用C S S C I 中的部分引文数据, 再加上手工补充部分引文数据, 共计得到742条有效引文。
。近年来, 我国兴起运用科学知识
[3]
2. 2 科学知识图谱绘制
笔者首先对关键词和引文数据进行了辨识、合并和规范化处理, 以便于开展相关统计分析。然后, 利用自编的中文字符串处理程序将文献数据转换成C i t e S p a c e 可处理的默认格式, 如表1所示:
表1 Ci t e S p a c e 数据格式的主要字段说明
缩写P T A U
T I S O I D A B
全称P u b l i c a t i o n T y p e
A u t h o r
T i t l e S o u r c e I d e n t i f i e r s A b s t r a c t C o r p o r a t e L o c a t i o n C i t e d R e f e r e n c e P u b l i c a t i o n Y e a r
中文名称出版类型
格式举例
J o u r n a l A r t i c l e
方法来把握学科研究前沿和知识基础发展动
态的浪潮。刘泽渊等运用C i t e S p a c e 揭示了航空航天工程、纳米生物技术、数字图书馆、能源技术等学科的发展脉络和学科前沿, 取得了很好的效果, 并且撰写出有关学科前沿网络结构文
[5]
[4]
以及科学知识图谱的一批论
。但是, 迄今为止还很少有人运用科学知识图谱
方法来分析C i t e S p a c e 自身在国内的研究状况。 本文拟用C i t e S p a c e 绘制C i t e S p a c e 主题词论文的科学知识图谱, 以窥探近四年来我国运用C i t e S p a c e 开展研究的情况。
作者侯剑华
题名战略管理学前沿演进可视化研究来源出版物科学学研究标引词摘要合作地点引用文献出版年份
战略管理; 可视化分析C i t e S p a c e ; 科学知识图谱用C i t e S p a c e 对战略管理月刊数据进行分析……
[侯剑华]大连理工大学, 大连, 中国
马费成, 1992, 情报科学2007
2 数据来源与科学知识图谱绘制
2. 1 数据来源
C L C R
P Y
收稿日期:2010-08-25 修回日期:2010-11-23 本文起止页码:91-95 本文责任编辑:王善军
91
竞争情报
数据处理完毕以后, 启动C i t e S p a c e 2. 2R 9, 并转换为能识别中文的编码模式, 选择时间跨度为2007-2010年, 时间分区为1年, 然后分别选择K e y w o r d 、In -s t i t u t e 、Au t h o r 、Ci t e dR e f e r e n c e 、Ci t e dA u t h o r 、Ci t e dJ o u r -n a l 作为分析对象, 设定时间片的阈值为30。这样, C i t e S p a c e 就可以开始对分析对象进行关键词共现分析析
[6][8]
其次, 关注散落在图1四周的一些小节点, 以揭示研究前沿和研究热点。图1中出现了“战略管理”、“知识管理”、“组织行为”、“人力资源管理”、“能源技术”、“航空航天工程”、“专利文献”、“数字图书馆”、“体育科学”、“社区服务”、“纳米生物技术”、“人体组织”等节点, 反映出我国学者近年来运用C i t e S p a c e 开展上述学科领域的科学知识图谱研究, 以发现这些研究领域知识发展的结构与演变情况。相关学科领域的统计情况如图2所示:
、机构合作分析、作者合作分析、作者共引分析
[5]
[9]
[7]
、文献共引分
以及期刊共引分析, 并绘制相应
的科学知识图谱。
3 Ci t e S p a c e 研究前沿分析
笔者运用C i t e S p a c e 对分析对象的关键词、期刊、作者以及所属机构等进行共现分析, 以揭示我国运用C i t e S p a c e 进行科学知识图谱研究的研究前沿。
3. 1 关键词共现分析
55篇论文共计有235个、77种关键词。在
C i t e S p a c e 生成的关键词共现科学知识图谱中, 共选择出62种关键词以及关键词之间的199条连线, 如图1所示:
图2 我国运用C i t e S p a c e 研究的学科领域分布
的论文数量及主要关键词
3. 2 机构合作分析
在C i t e S p a c e 生成的机构合作的科学知识图谱中, 共选择出23个机构以及机构之间的16条连线, 如图3所示:
图3 Ci t e S p a c e 论文机构合作的科学知识图谱
图1 Ci t e S p a c e 论文关键词共现的科学知识图谱
图3中最引人瞩目的是大连理工大学的W I S E 实验室、人文社会科学学院、21世纪发展研究中心, 这三家机构之间合作紧密, 走在我国运用C i t e S p a c e 进行科学知识图谱研究的前列, 并且与其他多所高等院校(如美国德雷克塞尔大学、清华大学、上海交通大学、中国医科大学、北京联合大学、河南师范大学等) 有过合作。大连理工大学是我国最早开始接触和研究C i t e S p a c e 和科学知识图谱的高校, 该校的网络-信息-科学-经济实验室(WI S E 实验室) 在该领域中影响力很大。美国德雷克塞尔大学的陈超美教授同时也受聘为大连理工大学的长江学者。此外, 中国科学技术大学与合
首先, 根据图1中节点的大小来寻找关键节点, 以揭示研究背景。图1表明, “c i t e s p a c e ”是图谱中的最大节点。另外, “科学知识图谱”、“信息可视化”、“可视化分析”、“文献计量学”、“科学计量学”、“研究前沿”、“研究热点”、“共现分析”、“引文分析”、“文献共引分析”、“共词分析”、“聚类分析”等节点也非常显眼, 节点相对较大, 在每个时间片中都有出现, 它们反映出我国运用C i t e S p a c e 进行相关研究的理论基础、研究方法和工具。
I B R A YA N O R MA T V E ·L
>>
第55卷第6期 2011年3月
肥学院、中国科学技术信息研究所与北京邮电大学、中国人民大学与河北大学、中国科学院国家图书馆、军事医学科学院、天津师范大学与福建师范大学、河南工业职业技术学院也积极运用C i t e S p a c e 进行科学知识图谱研究。
C i t e S p a c e 文献计量分析软件对科学知识图谱理论与方法做出了奠基性贡献。刘则渊教授作为大连理工大学WI S E 实验室的创始人, 带领W I S E 实验室团队在中国开拓了知识计量学与科学知识图谱研究的新方向。陈悦、侯海燕、侯剑华等共同参与科学知识图谱研究, 是我国第一批科学计量学博士。普赖斯、皮尔逊、邱均平、马费成等是科学计量学领域的著名学者, 他们对科学知识图谱研究影响很大
。
3. 3 作者合作分析
在C i t e S p a c e 生成的作者合作科学知识图谱中, 共
选择出57位作者以及作者之间的78条连线, 如图4所示
:
图4 Ci t e S p a c e 论文作者合作的科学知识图谱
图5 Ci t e S p a c e 领域重要作者的科学知识图谱
图4所示的作者合作情况与图3所示的机构合作情况基本一致。刘则渊、侯剑华、陈悦、侯海燕等来自大连理工大学, 他们与多所高校的学者都有紧密合作。此外, 河北大学的陈兰杰、北京联合大学的房宏君、合肥学院的吴彩丽在该领域也非常活跃。
4. 2 文献共引分析
在C i t e S p a c e 生成的文献共引科学知识图谱中, 共
选择出95条引文以及引文之间的463条连线, 如图6所示(图中的每一个节点表示一篇文献, 圆圈的厚度与相应年份的引文数成正比)
:
4 Ci t e S p a c e 知识基础分析
运用C i t e S p a c e 对分析对象的引文进行作者共引、文献共引以及期刊共引分析, 以揭示研究前沿的知识基础。
4. 1 作者共引分析
美国德雷克赛大学怀特(Wh i t e ) 博士认为, 作者共引频次越高则作者学术相关性越强
[9]
。在55篇论文
图6 Ci t e S p a c e 领域重要文献的科学知识图谱
的742条引文中, 共有289位作者被引证, 平均每位作者大约被引证2. 6次。在C i t e S p a c e 生成的作者共引科学知识图谱中, 共选择出86个作者以及407条作者之间的连线(见图5) , 图中较大节点的作者是在C i t e S p a c e 和科学知识图谱领域有突出作用的作者。 从图5可以看出, 该领域影响最大的是美国德雷克塞尔大学的陈超美, 他创造性地将信息可视化技术和科学计量学结合起来, 开创了以知识领域为分析单元的可视化综合性学术与应用领域, 他负责开发的
图6中的重要文献构成我国运用C i t e S p a c e 进行科学知识图谱研究最重要的知识基础, 共有10篇核心论文显现出来, 高被引的5篇论文情况见表2。其中, 陈超美的两篇论文在图中节点最大, 影响也最大:①C i t e S p a c eI I :D e t e c t i n ga n dV i s u a l i z i n gE m e r g i n gT r e n d s a n d T r a n s i e n t P a t t e r n s i n S c i e n t i f i c L i t e r a t u r e 是C i t e S p a c e I I 的奠基之作, 系统阐述了C i t e S p a c e 的理论基础、软件设计和成功案例
[1]
; ②Se a r c h i n gf o r I n t e l l e c t u a l T u r n -
93
竞争情报
i n g P o i n t s :P r o g r e s s i v e K n o w l e d g e D o m a i n V i s u a l i z a t i o n 一文对C i t e S p a c e 中识别关键节点的核心方法进行了详细阐述。陈悦的《悄然兴起的科学知识图谱》标志着科学知识图谱研究在我国的兴起。刘则渊的《科学知识图谱:方法与应用》系统阐述了科学知识图谱的原理与方法, 并着重介绍了C i t e S p a c e 在多个领域的成功应用。侯剑华的《战略管理学前沿演进可视化研究》是我国学者应用C i t e S p a c e 的成功先例, 为我国运用C i t e S p a c e 进行科学知识图谱研究提供了典范。
表2 Ci t e S p a c e 文献共引科学知识图谱
的5篇高被引文献
第一作者C h e n C C h e n C 陈悦
刘则渊侯剑华
年份[***********]07
论文/著作
C i t e S p a c eI I :D e t e c t i n ga n dv i s u a l i z i n g e m e r -g i n g t r e n d s a n d t r a n s i e n t p a t t e r n s i n s c i e n t i f i c l i t e r a t u r e S e a r c h i n g f o r I n t e l l e c t u a l T u r n i n g P o i n t s :P r o -g r e s s i v e K n o w l e d g e D o m a i n V i s u a l i z a t i o n 悄然兴起的科学知识图谱科学知识图谱:方法与应用战略管理学前沿演进可视化研究
被引频次
221610
98
5 Ci t e S p a c e 运用过程中存在的问题及对策建议
尽管我国不少学者已能熟练运用C i t e S p a c e 开展针对某一学科领域的科学知识图谱研究, 但在科研实践过程中仍然遇到不少问题。如果能够加以解决, 则能为更多的学科领域研究提供更高质量的服务。
5. 1 研究缺乏标准
运用C i t e S p a c e 进行某一领域的科学知识图谱研究时所用的共现分析方法试图根据统计特征找出学科领域的研究进展和发展规律, 从而进行更深入的研究, 为决策提供量化依据
[10]
。但在明晰分析对象之后的
科学文献获取阶段, 目前缺乏相应的规范和标准。比如, 选用什么引文库, 以什么检索式进行检索, 时间跨度应该多大, 样本量是否合适, 科学文献样本能否代表某学科等。值得庆幸的是, C i t e S p a c e 软件的稳定性非常好, 只要输入相同的数据并且设定相同的参数, 一定会得到相同的结果。但是, 如何评估结果的有效性以及解释科学知识图谱的本质还没有统一的定论
[11]
4. 3 期刊共引分析
742条引文来自252种期刊和其他类型文献(包括专著、报告和网页等) 。被引前20%(50种) 的期刊中的引文有314条, 占总引文的42. 3%。在C i t e S p a c e 生成的期刊共引的科学知识图谱中, 共选择出76种期刊以及期刊之间的438条连线, 如图7所示:
。
因此, 在科学文献获取阶段以及结果评估和解释阶段存在着一些争议, 迫切需要相关方面加强合作, 制订统一标准。
5. 2 中文引文数据库不完善
目前, 我国已开发出C S S C I 、CS C D 、CS T P C 等中文引文数据库, 但它们在著录格式方面存在着一些问题。据笔者粗略统计, 10%左右的引文不能直接转换成所需要的格式, 需要人工纠正。另外, C S S C I 每次最多只能导出50篇论文数据, 与W e bo f S c i e n c e 的500篇相比有很大差距。因此, 建议国内有关单位开展合作, 参考美国科学情报研究所的W e bo f K n o w l e d g e 数据库, 优化引文数据库结构, 加强数据规范管理工作, 改善数据库检索性能, 增强数据导出的容量和功能。
图7 Ci t e S p a c e 领域重要期刊的科学知识图谱
从图7不难看出, 高被引的期刊主要来自图书馆学、情报学以及科学学的核心期刊, 如J o u r n a l o f t h e A -m e r i c a nS o c i e t yf o r I n f o r m a t i o nS c i e n c ea n dT e c h n o l o g y 、《科学学研究》、Sc i e n t o m e t r i c s 、《情报学报》等。此外, 其他学科的期刊也有相当高的被引频次, 因为运用C i t e S p a c e 对某领域进行科学知识图谱研究时, 除了需要吸收图书馆学、情报学、科学学、科学计量学的原理和知识之外, 还需具备某一领域的专业知识。
5. 3 分析中文文献存在困难
尽管我国近年来掀起了运用C i t e S p a c e 进行科学
知识图谱研究的热潮, 但大多是针对W e bo f S c i e n c e 数据进行的可视化分析, 基于C S S C I 等中文引文数据进行的可视化分析只占很少的比例。另外, 我国还没有开发出一款成熟的信息可视化分析软件, 中文引文数据库采用的格式也不符合国际通行标准, 需要进行格式转换。因此, 建议国家有关部门支持开发以下两类软件:一类是能将中文引文数据精确转换成国际通行标准格式的字串处理软件; 另一类是能针对中文引文
I B R A YA N O R MA T V E ·L
>>
第55卷第6期 2011年3月
数据进行可视化分析的科学知识图谱软件。
(3683) :510-515.
[5]刘则渊, 陈悦, 侯海燕. 科学知识图谱:方法与应用. 北京:人
民出版社, 2008.
[6]Wh i t t a k e r J . C r e a t i v i t y a n d c o n f o r m i t y i ns c i e n c e :Ti t l e s , k e y w o r d s
a n dc o -w o r da n a l y s i s .S o c i a l S t u d i e s o f S c i e n c e , 1989, 19(3) :473-496.
[7]K r e t s c h m e r H .C o -a u t h o r s h i p n e t w o r k s o f i n v i s i b l e c o l l e g e s a n d i n -s t i t u t i o n a l i z e d c o m m u n i t i e s . S c i e n t o m e t r i c s , 1994, 30(1) :363-369.
[8]S m a l l H .P a r a d i g m s , c i t a t i o n s , a n dm a p s o f s c i e n c e :Ap e r s o n a l
h i s t o r y .J o u r n a l o f t h eA m e r i c a nS o c i e t yf o rI n f o r m a t i o nS c i e n c e a n dT e c h n o l o g y , 2003, 54(5) :394-399.
[9]Wh i t e HD . P a t h f i n d e r n e t w o r k s a n da u t h o r c o -c i t a t i o n a n a l y s i s :A
r e m a p p i n g o f p a r a d i g m a t i c i n f o r m a t i o n s c i e n t i s t s .J o u r n a l o f t h e A -m e r i c a nS o c i e t y f o r I n f o r m a t i o nS c i e n c e a n d T e c h n o l o g y , 2003, 54(5) :423-434.
[10]C h e nC , S o n g I Y , Y u a nX , e t a l . T h e t h e m a t i c a n d c i t a t i o n l a n d -s c a p e o f D a t aa n dK n o w l e d g eE n g i n e e r i n g(1985-2007) .D a t a a n dK n o w l e d g e E n g i n e e r i n g , 2008, 67(2) :234-259.
[11]C h e nC , I b e k w e -S a n J u a nF , H o u J .T h e s t r u c t u r e a n dd y n a m i c s
o f c o -c i t a t i o nc l u s t e r s :Amu l t i p l e -p e r s p e c t i v e c o -c i t a t i o na -n a l y s i s .J o u r n a l o f t h eA m e r i c a nS o c i e t yf o rI n f o r m a t i o nS c i e n c e a n dT e c h n o l o g y , 2010, 61(7) :1386-1409.
5. 4 引文行为存在差异
不同学科的学者在引文习惯上有所差异, 尤其是自然科学和社会科学在引文习惯上差异很大。尽管不同学科拥有不同的特点, 但这些引文差异以及我国已发表学术论文中出现的一些引文不规范行为会对科技信息分析带来一定的误差。因此, 建议国内各学术单位积极联合各高校, 开展针对引文的原则、规范、标准等方面的宣传教育活动。同时, 笔者还建议国内学者在引用他人文献时, 一定要养成良好的引用习惯以及对待科学的严谨态度。
参考文献:
[1]C h e nC .C i t e S p a c eI I :De t e c t i n ga n dv i s u a l i z i n g e m e r g i n g t r e n d s
a n dt r a n s i e n t p a t t e r n s i ns c i e n t i f i c l i t e r a t u r e .J o u r n a l o f t h e A m e r i -c a nS o c i e t yf o rI n f o r m a t i o nS c i e n c ea n d T e c h n o l o g y , 2006, (3) :359-377.
[2]陈悦, 刘则渊. 悄然兴起的科学知识图谱. 科学学研究, 2005,
23(2) :149-154.
[3]P e r s s o n O . T h e i n t e l l e c t u a l b a s e a n d r e s e a r c h f r o n t s o f J A S I S 1986
-1990.J o u r n a l o f t h e A m e r i c a nS o c i e t yf o r I n f o r m a t i o nS c i e n c e , 1994, 45(1) :31-38.
[4]P r i c eD D .N e t w o r k so fs c i e n t i f i cp a p e r s .S c i e n c e , 1965, 149
57
〔作者简介〕肖 明, 男, 1969年生, 副教授, 系主任, 硕士生导师, 发表论文50余篇, 出版著作10余部; 陈嘉勇,
男, 1987年生, 硕士研究生, 发表论文4篇; 李国俊, 男, 1986年生, 硕士研究生, 发表论文9篇。
(上接第23页)
纠纷时能有章可寻、有法可依, 从而保障交易双方的权益, 维护网络营销的秩序, 促进更多的人放心购物。
脑、出行购票购买比例较低, 食品、医疗保健品、家政服务的比例最低。总体来看, 目前国内网民的网络购物更多地集中在对精神产品和时尚商品的消费上。 网络购物与传统购物方式相比具有明显的优势, 其中“网络购物可以买到当地没有的产品”得到了最多网民的认可; 此外, “网络购物可以获得更多产品信
目前国内8成以上的网民参与了网络购物, 其中女性网民中有网络购物行为的比例略高于男性, 而20-39岁的中青年人群构成了网络购物的主要群体。从学历层次上看, 我国网上购物的网民相对受教育程度较高, 大专学历以上网民的网上购物比例已经达到80%;收入越高的网民, 网上购物的比例也越高; 此外, 网购者的城乡分布也不均匀, 59%的网络购物者集中在大中城市。 在网络购物结构方面, 服饰、饰品类产品购买比例最高, 其次是缴费或购买电话卡、书籍和报刊, 而休闲娱乐和网上学习比例相同, 家居工艺品、电子产品、电
〔作者简介〕王秀丽, 女, 1978年生, 讲师, 发表论文20篇, 译著2部。
田祯祎, 女, 1982年生, 博士研究生。
息”、“比传统购物方式方便、便宜”等认同度也较高。另一方面, 网民对网络购物过程的担忧也普遍存在, 具体包括:“很难了解产品质量”、“很难退换”、“网店的信用问题”以及“银行卡安全问题”等。
参考文献:
[1]中国互联网络信息中心. 第24次中国互联网络发展状况统计
报告.[2010-07-06]. h t t p ://re s e a r c h . c n n i c . c n /im g /h000/h 11/at t a c h [**************]. p d f .
[2]饶曦. 网络购物中的消费者购买行为分析. 现代企业, 2010
(6) :50-51, 57.
4 结 论
95