爬虫:crawler
爬虫(crawler)是一个访问网站并且读取网站的页面和其它信息,以创建搜索引擎索引的程序。互联网上主要的搜索引擎都有这些程序,它们也被称作“蜘蛛”或“机器人”。爬虫程序访问向它们提交的网站主的网站,或者是新加网站,或者是更新网站。整个网站或者特殊的页面能够被选择性的访问和索引。爬虫的名字就来源于它们在某时爬过整个网站,跟踪连接到网站的其它页面,指导所有页面都被读取。 AltaVista搜索引擎的爬虫和它的网站被称作Scooter(滑行车),滑行车遵循在机器人排除标准(Standard for Robot Exclusion,SRE)定义的网络爬虫礼貌规则,它会高速所有的服务器,哪个文件将被排斥在索引之外,它不通过(或者不能通过)防火墙。它使用特殊的算法在成功的服务器请求之间等待,不会对其它用户的访问造成影响。
最近更新时间:2008-10-14 EN
相关推荐
-
2025年还存在云计算人才缺口吗?
对于IT行业人才缺口的问题,讨论声总是不绝于耳。IDC表示,到2026年,超过90%的企业将面临IT技能短缺, […]
-
如何在云端开启FinOps职业生涯
云计算可能是一项昂贵的努力。虽然计算即服务的概念令人信服,但构建和维护云计算环境可能具有挑战性,企业需要云计算 […]
-
改变CSP对网络安全工具的看法
对于云环境的网络安全方面,安全团队有多种选择。云服务提供商(CSP)提供各种功能,例如安全组,以执行流量策略, […]
-
2025年开发人员应该知道的9个开源PaaS
PaaS是一种应用程序托管模型,它抽象出大部分底层基础设施-用于部署基于云的软件应用程序。它简化端到端的开发过 […]