TechTarget云计算 > 百科词汇

爬虫:crawler

爬虫(crawler)是一个访问网站并且读取网站的页面和其它信息,以创建搜索引擎索引的程序。互联网上主要的搜索引擎都有这些程序,它们也被称作“蜘蛛”或“机器人”。爬虫程序访问向它们提交的网站主的网站,或者是新加网站,或者是更新网站。整个网站或者特殊的页面能够被选择性的访问和索引。爬虫的名字就来源于它们在某时爬过整个网站,跟踪连接到网站的其它页面,指导所有页面都被读取。  

    AltaVista搜索引擎的爬虫和它的网站被称作Scooter(滑行车),滑行车遵循在机器人排除标准(Standard for Robot Exclusion,SRE)定义的网络爬虫礼貌规则,它会高速所有的服务器,哪个文件将被排斥在索引之外,它不通过(或者不能通过)防火墙。它使用特殊的算法在成功的服务器请求之间等待,不会对其它用户的访问造成影响。

最近更新时间:2008-10-14 EN

相关推荐

  • 10个最常见的云漏洞

    如果企业认为云计算将自动保护其工作负载和数据免受攻击、盗窃和其他威胁行为,那他们就大错特错了。即使在云端,漏洞 […]

  • 缓解多云治理挑战的5个最佳做法

    部署多云模型会给云团队带来更多的复杂性和管理挑战。这些挑战影响着企业环境的方方面面,包括设计、部署、配置、运营 […]

  • 云团队需要的6个IT软技能

    软技能对云团队来说至关重要,但很难学习。一个糟糕的团队成员可以打倒整个团队和项目。此外,缺乏软技能可能会导致错 […]

  • AI和云存储如何协同工作

    人工智能是一种变革性技术,可帮助企业节省时间、降低成本并提高运营效率。首席信息官和其他技术领导者可能会想知道, […]