Técnicas para la detección de fraude en buscadores
El modelo de negocio de los buscadores de Internet está basado en la publicidad. Se trata de un negocio multimillonario que constituye la funte principal de ingresos de empresas como Google o Yahoo! Pero el éxito de este negocio depende de la fiabilidad o eficacia de sus buscadores, por lo que cualquier estrategia destinada a incrementar la posición de un sitio en un ranking, de manera inmerecida (Web Spam) es una amenaza para este negocio. ¿Cómo se aborda actualmente este problema?
Los buscadores tienen como principal modelo de negocio la publicidad. La presentación de enlaces patrocinados relevantes a las búsquedas, y en creciente medida, los programas de afiliación de los creadores de contenidos, les permiten servir publicidad personalizada, adaptada a los gustos e intereses de los usuarios, con tasas de retorno razonablemente altas.
Este modelo de negocio, que genera ingresos millonarios, depende de manera crítica en la confianza que los usuarios tengan en la “pureza” del ranking u ordenación presentada ante una consulta. La pureza o calidad del ranking consiste en que el mismo dependa exclusivamente de criterios basados en la calidad y relevancia de los recursos presentados.
Por otra parte, los primeros puestos de un ranking ante una búsqueda popular o relacionada con un negocio son muy codiciados. Los estudios demuestran que los usuarios no suelen examinar recursos más allá de las dos primeras páginas de resultados, lo que hace que un buen posicionamiento atraiga tráfico e ingresos, y un mal posicionamiento los haga perder. Y cuando hay ingresos de por medio, siempre aparecen oportunistas poco éticos.
El fraude más común en los buscadores es el “spam” de buscadores, denominación que toma del problema del correo electrónico basura [Gómez02]. El spam de buscadores consiste en la obtención de una posición inmerecidamente alta en el ranking asociado a una consulta [BaezaYates07]. La expresión “inmerecidamente” es suficientemente flexible para acomodar cierto grado de ambigüedad, pero es claro que hace referencia a la temática del recurso o página y su relevancia a la consulta, y al mismo tiempo, al método obtenido para alcanzar la posición.
El ejemplo más obvio es cuando se recupera un recurso pornográfico ante una consulta no relacionada con el sexo. Ello se debe al uso sistemático de palabras clave populares en las páginas, con la esperanza de que el buscador las recupere ante consultas que utilizan dichas palabras clave. Las palabras clave populares están a veces disponibles, y otras son perfectamente predecibles por simple “ingeniería social”. Por ejemplo, parece una buena idea utilizar “juegos olímpicos” como palabra escondida en una página desde unos meses antes de la celebración de los mismos, aunque dicha página no trate de los Juegos Olímpicos. De manera similar se pueden usar nombres de celebridades, marcas famosas, etc. Estas palabras son fáciles de ocultar dentro de las etiquetas META del código HTML, o bien en el cuerpo de la página usando colores de bajo contraste con el fondo.
Este tipo de spam se denomina spam de palabras clave (“keyword spam”). Ntoulas et al. [Ntoulas06] han investigado las propiedades de este tipo de spam, propiedades que pueden ser usadas para detectarlo. Por ejemplo, estos investigadores ha detectado una correlación clara entre el hecho de que la página sea spam y el número de palabras clave de la página (cuantas más palabras clave, más probable que sea spam). Existen otras propiedades útiles de este tipo de páginas, como el número de palabras en el título de la página, la longitud media de las palabras, la cantidad de texto dentro de las etiquetas “<A>” que indican hiperenlaces, o la fracción de contenido visible.
El spam en buscadores se basa en la utilización de ingeniería inversa del criterio de ranking de los mismos. Desde la aparición de Google y su PageRank en 1998 [Brin98], la mayoría de buscadores ha ido incorporando en su ranking algún criterio de calidad basado en enlaces. El principio genérico que subyace a esta idea es que una página que es enlazada desde muchas otras, es considerada de calidad por los autores de las mismas. De esta manera, estos autores transfieren su prestigio a la misma, que lo acumula y transmite a aquellos que en ella se citan, en un proceso iterativo. Este concepto proviene del análisis de citas bibliográficas y el factor de impacto, y es la aplicación primera y más inmediata de las redes sociales (de creadores de contenido) en la búsqueda.
El spam de enlaces o “link spam” consiste en la obtención fraudulenta de enlaces entrantes que transfieran prestigio a la página objetivo, lo que la posiciona de manera inmerecidamente alta en el ranking de un buscador. La manera más habitual de hacer esto es crear una serie de páginas enlazadas entre sí usando topologías específicas, adaptadas a transferir prestigio a una dada. Estos grupos de páginas se denominan “granjas de enlaces” (“link farms”) [BaezaYates05], y las topologías más efectivas (con más capacidad de canalizar prestigio) han sido estudiada con detalle en [Gyöngyi05]. Las páginas se pueden crear en dominios donde los abusadores tienen pleno control (en terceros países o proveedores poco éticos, o con poco o ningún control sobre sus recursos de Internet), o bien en entornos interactivos como las bitácoras o blogs, sus comentarios, etc. Es crecientemente habitual ver blogs plagados de comentarios como “Un blog muy interesante. Visita mi página http://…”. Es más, estos comentarios no se introducen de manera manual, sino usando programas automáticos que permiten extenderlos de manera masiva.
La detección del spam de enlaces no es nada sencilla, porque las páginas creadas para canalizar prestigio hacia una tercera pueden tener un aspecto totalmente inocente, y de hecho, incluir texto legítimo extraído de páginas de terceros. Por ejemplo, en [BaezaYates05] se presenta un método basado en técnicas de inteligencia artificial (concretamente de aprendizaje automático) que logra detectar cerca de un 80% de las páginas spam usando una serie de atributos de las mismas que pueden ayudar a distinguirlas de las legítimas, incluyendo el número de enlaces entrantes y salientes, la fracción de páginas que citan una página y son a la vez citadas por ella, el valor máximo de PageRank de la página, la desviación típica del PageRank de las páginas vecinas, etc. Una manera alternativa de evitar el spam de enlaces es penalizar a las páginas que parecen ser de spam, por lo que se evita que propaguen el prestigio. Por ejemplo, el sistema SpamRank [Benczúr05] consiste en detectar para cada página aquellas que canalizan más prestigio hacia ella, y luego estudiar su regularidad en relación con una distribución estadística estándar. Si son irregulares, su prestigio se penaliza en proporción a su irregularidad.
Una última forma de fraude muy importante en los buscadores es el fraude de clicks [Jansen06]. Los buscadores estructuran su negocio publicitario en forma de programas de afiliación como los conocidos AdWorks y AdSense de Google. Por ejemplo, una página inserta publicidad gestionada por Google, que determina que anuncios son los más relevantes según el contenido de la páginas y por tanto el perfil de sus visitantes. Cuando los visitantes pulsan sobre los anuncios, el dueño de la página recibe dinero de Google (que a su vez lo recibe del anunciante). Algunos dueños de páginas poco éticos esparcen virus de tipo troyano que hacen que los ordenadores de miles de usuarios de Internet pulsen periódicamente, sin que los usuarios lo sepan, sobre los anuncios, creando clicks ficticios para ingresar dinero fraudulentamente. Este problema está muy abierto, y es posiblemente el más grave al que se enfrenten los buscadores modernos.
Referencias
[BaezaYates05] R. Baeza-Yates, C. Castillo, V. López. Pagerank increase under different collusion topologies. Proceedings of the First International Workshop on Adversarial Information Retrieval on the Web, 2005.
[BaezaYates07b] Baeza-Yates, R., Boldi, P., Gómez Hidalgo, J.M. Recuperación de información con adversarion en la Web. Novática (Revista de la Asociación de Técnicos de Informática), número 185, enero.febrero 2007, año XXXIII, páginas 29–35.
[Benczúr05] A. Benczúr, K. Csalogány, T. Sarlós, M. Uher. Spamrank—fully automatic link spam detection work in progress. Proceedings of the First Internacional Workshop on Adversarial Information Retrieval on the Web, 2005.
[Brin98] Sergey Brin,
[Gómez02] Gómez
[Gyöngyi05] Z. Gyöngyi., H. Garcia-Molina. Web spam taxonomy. Proceedings of the First International Workshop on Adversarial Information Retrieval on the Web, 2005.
[Jansen06] Jansen, B. J. 2006. Adversarial Information Retrieval Aspects of Sponsored Search. Second International Workshop on Adversarial Information Retrieval on the Web (AIRWeb 2006). The 29th Annual International ACM SIGIR Conference on Research & Development on Information Retrieval (SIGIR2006). 6-11 August.
[Ntoulas06] Ntoulas A., Najork M., Manasse M., Fetterly D. 2006. Detecting spam web pages through content analysis. In Proceedings of the 15th International Conference on World Wide Web (
Si te gustó esta entrada anímate a escribir un comentario o suscribirte al feed y obtener los artículos futuros en tu lector de feeds.







jajajaXD