爬虫:crawler
爬虫(crawler)是一个访问网站并且读取网站的页面和其它信息,以创建搜索引擎索引的程序。互联网上主要的搜索引擎都有这些程序,它们也被称作“蜘蛛”或“机器人”。爬虫程序访问向它们提交的网站主的网站,或者是新加网站,或者是更新网站。整个网站或者特殊的页面能够被选择性的访问和索引。爬虫的名字就来源于它们在某时爬过整个网站,跟踪连接到网站的其它页面,指导所有页面都被读取。 AltaVista搜索引擎的爬虫和它的网站被称作Scooter(滑行车),滑行车遵循在机器人排除标准(Standard for Robot Exclusion,SRE)定义的网络爬虫礼貌规则,它会高速所有的服务器,哪个文件将被排斥在索引之外,它不通过(或者不能通过)防火墙。它使用特殊的算法在成功的服务器请求之间等待,不会对其它用户的访问造成影响。
最近更新时间:2008-10-14 EN
相关推荐
-
如何使用Azure Bastion主机保护虚拟机
你离开家时不会把前门打开,对吧?虚拟机也是如此。当管理对内部网络的访问时,网关很必要,以可防止外部威胁。其中一 […]
-
混合云的未来:2025年及以后会发生什么
混合云基础设施正在迅速发展。企业正在探索如何利用这个新平台,以改善灾难恢复、降低成本和推动边缘计算,而首席信息 […]
-
云迁移的7个R:如何选择正确的方法
尽管公共云已经存在多年,但企业仍在努力将数据中心中运行的应用程序迁移到公共云。在某些情况下,他们迁移应用程序到 […]
-
如何将遗留应用程序迁移到云端
随着企业寻求提高可扩展性、安全性和成本效益,企业不得不想办法让遗留应用程序现代化。虽然云迁移提供令人信服的好处 […]