爬虫:crawler
爬虫(crawler)是一个访问网站并且读取网站的页面和其它信息,以创建搜索引擎索引的程序。互联网上主要的搜索引擎都有这些程序,它们也被称作“蜘蛛”或“机器人”。爬虫程序访问向它们提交的网站主的网站,或者是新加网站,或者是更新网站。整个网站或者特殊的页面能够被选择性的访问和索引。爬虫的名字就来源于它们在某时爬过整个网站,跟踪连接到网站的其它页面,指导所有页面都被读取。 AltaVista搜索引擎的爬虫和它的网站被称作Scooter(滑行车),滑行车遵循在机器人排除标准(Standard for Robot Exclusion,SRE)定义的网络爬虫礼貌规则,它会高速所有的服务器,哪个文件将被排斥在索引之外,它不通过(或者不能通过)防火墙。它使用特殊的算法在成功的服务器请求之间等待,不会对其它用户的访问造成影响。
最近更新时间:2008-10-14 EN
相关推荐
-
云计算的未来:热门趋势和预测
在过去的几十年里,云计算已经从配置虚拟机的更便宜的替代品演变为更细微和复杂的基础设施。尽管就原始基础设施成本而 […]
-
5个值得考虑的开源云监控工具
如果你的IT团队需要低成本、无锁定的云监控工具,开源可能是不错的选择。 云计算的受欢迎程度持续飙升。然而,由于 […]
-
云退出策略的8个关键步骤
吸引企业迁移到公共云有很多好处,例如降低运营复杂性和降低成本的潜力。但云服务不一定是每个工作负载的最佳场所。有 […]
-
最新VMware产品发布让博通面临挑战
分析师表示,很多企业仍然不确定是否应该继续使用Broadcom的VMware,该供应商最近对其混合云平台做出重 […]