爬虫:crawler
爬虫(crawler)是一个访问网站并且读取网站的页面和其它信息,以创建搜索引擎索引的程序。互联网上主要的搜索引擎都有这些程序,它们也被称作“蜘蛛”或“机器人”。爬虫程序访问向它们提交的网站主的网站,或者是新加网站,或者是更新网站。整个网站或者特殊的页面能够被选择性的访问和索引。爬虫的名字就来源于它们在某时爬过整个网站,跟踪连接到网站的其它页面,指导所有页面都被读取。 AltaVista搜索引擎的爬虫和它的网站被称作Scooter(滑行车),滑行车遵循在机器人排除标准(Standard for Robot Exclusion,SRE)定义的网络爬虫礼貌规则,它会高速所有的服务器,哪个文件将被排斥在索引之外,它不通过(或者不能通过)防火墙。它使用特殊的算法在成功的服务器请求之间等待,不会对其它用户的访问造成影响。
最近更新时间:2008-10-14 EN
相关推荐
-
Nutanix主权云挑战Broadcom
随着围绕AI工作负载的监管合规性和数据重力提高企业对主权云的兴趣,Nutanix客户现在可以在自己的防火墙后面 […]
-
混合云存储重塑SAN战略的7种方式
数据继续以前所未有的速度增长,企业必须重新思考如何管理、保护和投资存储基础设施。尽管行业观察家认为SAN很快会 […]
-
部署基于AI的云成本优化以减少浪费
根据Azul Systems的《CIO云趋势调查和报告》,83%的受访首席信息官报告说,从他们的基础设施和应用 […]
-
NAS与云存储:哪个更适合你的企业?
在数据存储方面,企业经常发现自己需要在这两者之间做出选择:网络连接存储(NAS)和云存储(云NAS)。 虽然这 […]