大数据对于企业商务智能的价值无可估量。然而,为了这种价值要挖掘大量非结构化文本数据,这意味着至少需要一个基本的搜索服务,有时候是更加高级的文本分析方法。 使用亚马逊Web服务(AWS)的云管理者和开发者现在可以实施自己的搜索服务器,使用流行的开源工具,比如Lucene和Solr;或者使用亚马逊CloudSearch。在决定使用搜索即服务和DIY搜索时,有一些问题需要考虑。
亚马逊CloudSearch的搜索即服务 亚马逊CloudSearch是一种基于云的搜索服务,企业可以将这个应用集成到索引文件中,响应搜索查询。和其他的AWS服务一样,亚马逊管理服务器实现,而非使用者。亚马逊CloudSea……
我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。
我原创,你原创,我们的内容世界才会更加精彩!
【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】
微信公众号
TechTarget
官方微博
TechTarget中国
大数据对于企业商务智能的价值无可估量。然而,为了这种价值要挖掘大量非结构化文本数据,这意味着至少需要一个基本的搜索服务,有时候是更加高级的文本分析方法。
使用亚马逊Web服务(AWS)的云管理者和开发者现在可以实施自己的搜索服务器,使用流行的开源工具,比如Lucene和Solr;或者使用亚马逊CloudSearch。在决定使用搜索即服务和DIY搜索时,有一些问题需要考虑。
亚马逊CloudSearch的搜索即服务
亚马逊CloudSearch是一种基于云的搜索服务,企业可以将这个应用集成到索引文件中,响应搜索查询。和其他的AWS服务一样,亚马逊管理服务器实现,而非使用者。亚马逊CloudSearch提供了免费的文本搜索,以及一些更加高级的功能,比如分面搜索和自定制相关性排序。
分面搜索。分面搜索可以让应用用户通过使用文档分类刚要缩小搜索的文档范围。比如,一个文档注册库可能根据多个面或者字段分类文档,比如创建日期、文档类型或者关键话题。
自定制相关性排序。默认情况下,搜索索引中的所有字段都被认为是平等相关的,这也并非总是最佳的权重模式。然而,相关字段权重允许开发者权衡一些字段(比如关键字)的重要性,来确定文档的相关度,最终,在结果集中排列文档。
除了为应用开发者和管理者提供核心搜索服务,亚马逊CloudSearch会根据需求扩展。也在内存中维护了搜索索引来减少延迟。
用Solr和LuceneDIY搜索
亚马逊服务通常在运行企业自己的服务时具备成本竞争力;然而,如果你愿意承担由于用程序管理开销导致的潜在的高成本风险,从而获得更大的控制权和更多的功能的话,你可以看一下第三方的工具。比如,开源搜索平台Apache Solr是一种免费的平台,包括支持高级文本搜索功能、线性扩展性、几近实时的索引和扩展插件架构。Solr也支持更加高级的文本分析操作,比如
单词拆分、正则表达式和听起来不错的过滤器。这个开源平台也包括支持国际化,对于拥有全球用户群的应用而言是一项重要的功能。
使用Solr的另一个优势是访问具体的应用可以减少你自己的开发者需求。以LucidWorks为例,提供了附件来执行命名实体识别;用Drools整合,开源业务规则引擎;调整搜索指针改善搜索结果质量和排序。
Lucene是一个基于Java的搜索和索引服务,也是另外一种选择,但是提供的功能比Solr少。实际上,Solr是基于Lucene的,但是增加了搜索和管理功能。
对比CloudSearch和DIY的成本
亚马逊CloudSearch的收费基于搜索实例的大小、文档批量上传、文档索引操作的数量和数据传输量。搜索实例的成本范围为:小实例每小时0.1美元到双倍超大实例每小时1.1美元
如果搜索服务需要持续较长时间,你可能需要考虑对比亚马逊CloudSearch成本和预留实例价格,而非按需价格。预留实例的一到三年承诺有效。
图1 不同场景成本
亚马逊CloudSearch成本如图所示。亚马逊CloudSearch的成本收到文档注册库的高度影响,决定了搜索实例大小。评估运行自己的搜索服务的成本,比如Lucene或者Solr服务器,由于管理成本的多变性更加困难,但是我们可以评估运行实例的成本,对比在亚马逊CloudSearch上的运行情况。使用按需价格和假定实例每天运行24小时,每月运行三十天,通用小型实例的成本为43.2美元,大型实例的成本为172.8美元,超大型实例的成本为345.6美元。DIY实例和亚马逊CloudSearch成本之间的差异并不明显。在用例查询大型实例中,DIY节省的成本可能少于管理员两个小时的成本。
亚马逊CloudSearch可以让开发者针对基于云的应用快速实施搜索功能。服务包括支持基本的搜索操作,以及一些比DIY方法更具成本竞争优势的更加高级的性能。对于需要更多高级需求的用户,管理自己的服务的额外支出等价于高级搜索和文本分析带来的好处。
作者
Dan Sullivan是一名作家、系统架构师和顾问,拥有超过20年关于先进的分析、系统架构、数据库设计、企业安全、商业智能的IT从业经验。他的从业范围广泛,包括金融服务业、制造业、医药、软件开发、政府、零售、天然气和石油生产、发电、生命科学和教育。
相关推荐
-
赞!亚马逊CloudSearch数据搜索五步搞定
亚马逊CloudSearch是一个为云计算中文档创建搜索索引的有用工具。这项服务是基于使用文档现有属性项的,它可允许开发人员新增新的属性项以便于对搜索索引进行微调。
-
七个改变世界的Java项目
Java的开源生态系统是强大而健康的,这是我们(Oreilly)创建OSCON Java(Open Source Convention Java)的主要原因之一。