从"资源发现"到"资源获取"
从“资源发现”到“资源获取”
窦天芳
图书馆前沿技术论坛:“资源发现之旅”上海2013
提纲Outline
1. “资源发现”是什么?2. “资源获取”之路
3. “资源发现”时代的数据优势4. “资源发现”现存的问题
“资源发现”是什么?
❑❑❑
Brief introduction
有什么?怎么找?哪里得?
“资源发现”是什么?
Brief introduction
❑有什么?❑怎么找?❑
哪里得?
实体馆藏电子书电子期刊资源揭示/检索定位/获取
352.9万册6.5万种
649.8万册
“资源发现”是什么?
Brief introduction
89%的用户从google 等搜索引擎获取自己要照的信息!
Perceptions of Libraries and Information Resources (2005)
2010 Ithaka S+R:
Insights from U.S. Academic Library Directors89%的馆长希望图书馆成为用
户检索信息的首选之地!
“资源发现”是什么?
我们需要:
❑❑❑❑
Brief introduction
“web-scalediscovery system”
汇聚海量资源的元数据(授权的+开放的+自建的)简单、易用、快速的检索(googlelike)对检索结果集的有效的处理
提供从“发现”到“获取”的完整服务链
从出版商,大学,公开的网站收集学术文献信息,形成中心知识库,通过预索引的方式,为用户提供:快速,简单,易用的资源发现及获取服务。
“资源发现”是什么?
Brief introduction
有序关联
有序展示
有序数据
数据集合massive data
“资源发现”是什么?
Brief introduction
发现系统应解决的主要问题-CornellIdeal 检索:
••
google一样快速B&H Photo 一样
资源:
•
所有类型
(different type)所有内容( full range of resources)
获取:
•
纸本的获取方案
环境设备:
•••
任何设备Cell phoneLaptop
简单
•
Amazon一样提供过滤及自定义功能
•
•电子的获取方案
“资源发现”是什么?
Brief introduction
共性功能
✓汇聚亿级的元数据✓毫秒级的检索✓分面及聚类✓支持本地数据上传
清华图书馆关心的问题?
❑数据管理
核心期刊的覆盖率本地数据的管理开放数据的集成
❑开放的理念和架构
数据开放标准接口
❑既有系统的衔接❑本地技术支持
JCR
OPAC数据自建数据web2.0WIKI
清华图书馆关心的问题?
Subject JCR
Metadata Integrity (Exclude/12years) 630/4560301/2316564/4404
Metadata Coverage
Articles
ALL Articles
Materials Environment Physical
380193367
86.22%87.07%87.19%
>80,000>46,000>80,000
1,737,830665,1552,532,827
选择清华6个学科,共得到1000万文章数据超过89%的文章可指引到全文
2012年12月
“水木搜索”的实施
数据的梳理
-Data Sources 哪些数据
-Harvesting 数据格式-Normalization 多层次映射
获得获取策略
“水木搜索”的实施
数据源OPAC中文图书OPAC西文图书学位论文清华科技史畅想之星古籍超星电子书西文电子书电子期刊PQDT
数据格式/规范ISO2709/CNMARCISO2709/MARC21XML/DCXML/DCExcel/自己定义Excel/自己定义ISO2709/CNMARCXML/MARC21XML/MARC21XML/MARC21
同步方式脚本定期同步脚本定期同步定期手动同步暂无同步方案定期手动同步暂无同步方案同步方式同OPAC定期手工同步定期手工同步整体数据同步
“水木搜索”的实施
❑数据的梳理
❑制定完整的获取策略❑突出对多源数据的支持
发现系统检索结果
关联的数据
纸本图书
电子版文章
WIKI
预约/续借/来馆借阅
在线阅读定位导向
清华教工学术简历
“水木搜索”的实施
“水木搜索”的实施
“水木搜索”的实施
❑数据的梳理
❑制定完整的获取策略❑突出对多源数据的支持❑突出与用户的互动(标签+书评)
“水木搜索”的实施
“资源获取”之路
电子资源的定位
“资源获取”之路
电子资源的定位
DOI比例很高
物理领域2532827,DOI2144780个生命科学领域3355953,DOI2670979个
源的全面了解和管理!
“资源获取”之路
“资源获取”之路
电子资源的定位
期刊列表
期刊隶属平台
期刊的coverage信息(年卷期信息)
“图书馆的电子资源管理涉及所有领域,实施ERM需要新的(改进已有的)、系统化的、从采选到故障排除的科学的工作流程。”
“资源获取”之路
中文资源的特殊性
不遵循国际标准
资源垄断链接问题权限不明年代不连续
“资源获取”之路
中文资源的特殊性
“资源发现”时代的数据优势
❑权威
-“Primo Publisher Program”PPP
全球领先的出版集团,如:Springer 、Elsevier 、Wiley 等;多个专业学/协会,如:AIP 、IEEE 、RSC 、SIAM 等;开放获取机构,如:DOAJ 、arXiv.org 等;
维普40,000,000
❑海量
->600,000,000
❑规范(PNX)
“资源发现”时代的数据优势*权威-“Primo Publisher Program”PPP
全球领先的出版集团,如:Springer 、Elsevier 、Wiley 等;多个专业学/协会,如:AIP 、IEEE 、RSC 、SIAM 等;开放获取机构,如:DOAJ 、arXiv.org 等;
维普40,000,000
*海量
->600,000,000
*规范(PNX )✓值得挖掘
✓利于挖掘
✓必须挖掘
“资源发现”时代的数据优势THURID的尝试http://rid.lib.tsinghua.edu.cn/thurid/index.htm
“资源发现”时代的数据优势关键词分析的尝试
“资源发现”现存的问题 使用发现系统的图书馆遇到的困难(ODI)
“资源发现”现存的问题 数据提供者的规范metadata provider
“资源发现”现存的问题
☐使用发现系统的图书馆遇到的困难(ODI)☐数据提供者的规范metadata provider ☐汇聚所有
☐管理维护机制的挑战
谢谢您的聆听!
窦天芳
图书馆前沿技术论坛:“资源发现之旅”上海2013