Abstract:
Los motores de búsqueda, como Google, utilizan desde hace tiempo los denominados rastreadores web o crawlers, que exploran Internet en busca de términos definidos por el usuario. Los rastreadores son tipos especiales de bots, que visitan una página web tras otra para generar asociaciones con términos de búsqueda y categorizarlos. El primer rastreador web se creó ya en 1993, cuando se presentó el primer motor de búsqueda: Jumpstation. Entre estas técnicas de rastreo se incluye el web scraping o webharvesting. En este artículo veremos cómo funciona, para qué se utiliza y cómo se puede bloquear en caso necesario.
Description:
Search engines such as Google have long used so-called web crawlers, which scan the Internet for user-defined terms. Crawlers are special types of bots that visit one web page after another to generate associations with search terms and categorize them. The first web crawler was created as early as 1993, when the first search engine, Jumpstation, was introduced. These crawling techniques include web scraping or webharvesting. In this article we will see how it works, what it is used for and how it can be blocked if necessary.