爬虫:crawler
爬虫(crawler)是一个访问网站并且读取网站的页面和其它信息,以创建搜索引擎索引的程序。互联网上主要的搜索引擎都有这些程序,它们也被称作“蜘蛛”或“机器人”。爬虫程序访问向它们提交的网站主的网站,或者是新加网站,或者是更新网站。整个网站或者特殊的页面能够被选择性的访问和索引。爬虫的名字就来源于它们在某时爬过整个网站,跟踪连接到网站的其它页面,指导所有页面都被读取。 AltaVista搜索引擎的爬虫和它的网站被称作Scooter(滑行车),滑行车遵循在机器人排除标准(Standard for Robot Exclusion,SRE)定义的网络爬虫礼貌规则,它会高速所有的服务器,哪个文件将被排斥在索引之外,它不通过(或者不能通过)防火墙。它使用特殊的算法在成功的服务器请求之间等待,不会对其它用户的访问造成影响。
最近更新时间:2008-10-14 EN
相关推荐
-
云数据备份和恢复适合你吗?
现在,很难找到完全没有使用云服务的中型或大型企业。但是云备份和恢复是你数据的正确选择吗? 亚马逊、微软、谷歌和 […]
-
云计算对VMware现代化至关重要
自Broadcom收购VMware以来,72%的企业报告称,由于其提供商的许可模式发生变化,其虚拟机管理程序环 […]
-
通过开源解决云可观察性问题
现在,企业需要处理大量数据以获得运营洞察力和云意识,他们经常不堪重负。传统的单一用途工具根本无法获得可操作的云 […]
-
微软Q4收益超预期主要靠云业务;AI获得动力
微软在7月30日发布的2025财年第四季度财报显示,在企业人工智能需求激增的推动下,微软第四季度的收益超预期, […]