纽约时报于今年详细检查了其重要的数字档案,并使用亚马逊Web服务创建、存储,而且为对于过期刊物感兴趣的订阅者提供数十亿小图标,时间跨度从1851年到1980年。
该公司在2008年使用AWS存储第一次发布档案,称之为TimesMachine(时光机),但是新的时光机已经于上月发布,纽约时报搜索、档案以及语义总监Evan Sandhaus指出,这是一项更为复杂的业务。
最初的时光机使用预览图像链接到更大的图像页面,读者可以看到文章标题,但是没有正文。这些放大的图像链接到PDF文件,包含了文章的可阅读版本。
“通过新的时光机,我们也面临了新的挑战,我们如何才能够制造一种单一的体验,然读者可以有一种阅读报纸的感觉,但是也允许你阅读单独的文章,”Sandhaus说道。
为了下载完整的星期日版本的报纸,要求客户端有很大的带宽,类似于300MB,这一点对于大多数用户的机器而言负载过重。
Sandhaus说:“很多个iTunes的专辑的数据显示读者对于其感兴趣的具体文章都有这个问题。”
相反,Sandhaus和其团队从地理信息系统(GIS)绘图行业得到了启示,这个行业也面临着类似的问题,即提供大型地图的详细视图。
GIS社区通过影像分块解决了这个问题。新的时光机将9000 x 7000像素的图像分解成256 x 256像素的块,通过多种不同的缩放层级进行计算。前段,使用一种名为Leaflet的开源GIS软件抓取图像块,也正好满足了抱着读者感兴趣的部分。
“我们一开始250万图像进行,这也就是新的时光机中有多少个页面,”Sandhaus说,“在旧版本的时光机中,每一个页面,我们要计算两个图像,一个缩小版本和一个放大版本,但是在新的时光机中,我们为每一个页面计算上千个图像。”
这意味着纽约时报的AWS存储需要从五百万的对象转到接近25亿的对象,通过亚马逊弹性MapReduce服务计算,存储在其简单存储服务(S3)对象存储中。
旧版本的时光机中,报纸的团队必须设立Hadoop环境来自己执行MapReduce工作,那时候弹性MapReduce还不存在。
现在,“因为大量的基础架构开箱即用,所以简化了很多,”Sandhaus说道,“你只需要提供指针,具体之上你的工作,就能自动化降低你必须在配置正确的服务器上所花费的时间。”
尽管计算数量级更多的图像文件,MapReduce采用了四百个c1.xlarge弹性计算云机器,这些都与以往截然不同,但是仅仅用了三天就完成了。
这个项目自重完成了46592份纽约时报的数字档案,涉及了报纸的全部图像扫描页面,而且可以不离开Web页面进行阅读。
报纸使用这个档案来环绕其目前的新闻故事内容,比如1964年的世界博览会50周年庆典,福特野马的五十周年庆典介绍。1964年的福特野马的全版面的广告现在都可以清晰阅读。
总的来说,AWS最新的服务明显改善了这个团队创建新时光机的体验,但是Sandhaus还有一个期望:能够将大量文件作为单一文件上传,比如压缩文件。
我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。
我原创,你原创,我们的内容世界才会更加精彩!
【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】
微信公众号
TechTarget
官方微博
TechTarget中国
相关推荐
-
2015年云基础设施供应商大比拼
对某家云供应商的可靠性进行评估并不是简单的事,但是有一些资源和工具能够帮助我们完成这项工作。
-
Amazon Web服务云平台解析
Amazon Web服务是云平台供应商中的领导者,提供了超过250种应用和服务(包括部分第三方提供的),目的是在云中部署、维护、监控和运行应用程序。
-
AWS管理控制台:五步创建S3 bucket策略
亚马逊简单存储服务(S3)因其基于对象存储数据而闻名,但是S3 bucket策略可以帮助AWS实现亚马逊S3资源的设置和管理复杂访问权限的时间节省。
-
优化亚马逊Web服务云存储选择
存储需求广泛而多样化,即便在单一组织机构中也是如此。而且如果无法对特定需求使用正确的服务,就可能为云存储额外支出费用。