Cerca de 150 millones de sitios web, entre un billón a estudio, contienen contenidos sensibles (y rastreados)

Nikolaos Laoutaris, Profesor de Investigación en IMDEA Networks Institute, participa en el mayor estudio sobre rastreo de aspectos sensibles en la red

El Reglamento General de Protección de Datos incluye clausulas específicas que marcan restricciones a la captación y procesamiento de datos personales sensibles, definidos como cualquier dato que revele el origen racial o étnico, opiniones políticas, religiosas o creencias filosóficas y de pertenencia sindical, además de datos genéticos, datos biométricos con el propósito de identificar a una persona, datos relativos a la salud o a la vida y a la orientación sexuales…

Después de dos años de duro trabajo, y de haber cruzado datos de más de un billón de sitios web (la mayoría de la web en lengua inglesa) un equipo internacional, con Nikolaos Laoutaris (Profesor de Investigación en IMDEA Networks Institute, Madrid) e investigadores de TU Berlin y Cyprus University of Technology, han desarrollado clasificadores de aprendizaje de máquinas especializadas capaces de identificar urls sensibles en internet y así buscarlas entre un billón de ellas. Como principal (y preocupante) conclusión, cerca de 150 millones fueron detectadas por incluir contenido sensible sobre Salud, Creencias Políticas, orientación Sexual… etc., tan rastreables como las del resto de internet.

Detección en tiempo real

La legislación actual sobre datos personales sensibles está dirigida sobre todo al uso humano, como en los casos de presentación de denuncias y realización de investigaciones, incluso en el seguimiento de casos por tribunales de justicia. Con el uso de los nuevos clasificadores de aprendizaje de máquinas especializadas, se pueden poner por primera vez en práctica adicionales medidas proactivas. Por ejemplo, el navegador de un usuario, o un programa añadido que puede avisarle antes de ‘hacer clic’ y seguir urls que lleven a contenido sensible.

Al visitar este tipo de sitios, los rastreadores pueden quedar bloqueados, y las quejas pueden archivarse automáticamente. Algo que depende de poder clasificar automáticamente si una URL es sensible o no en tiempo real, algo que es más fácil decir que hacer. El motivo radica en la ambigüedad de términos como ‘Salud’, usado en documentos legales para indicar qué tipo de información se considera sensible. De hecho, la palabra se puede encontrar en sitios web como los relativos a alimentación saludable, deportes y comida orgánica, pero también en aquellos sobre enfermedades crónicas, enfermedades de transmisión sexual y cáncer. La mayor parte del esfuerzo para crear el sistema clasificador antes mencionado se centró en recopilar suficientes datos auténticos de verdad para entrenar al clasificador y permitirle distinguir entre el uso realmente sensible de palabras como ‘salud’ frente a otras menos sensibles.

Los resultados del trabajo se presentarán como documento científico en el ACM IMC’20 (ACM Internet Measurement Conference 2020, 27-29 October, Pittsburgh, EE.UU.). Laoutaris también participa en PIMCity (Construyendo las plataformas de datos personales de próxima generación), el proyecto con financiación de la Unión Europea para incrementar la transparencia y dotar a los usuarios con el control sobre sus datos. “La Privacidad se hizo para ser usada por humanos -comenta Laoutaris-, normalmente después de una violación de la privacidad -por ejemplo, en un proceso ilegal de tratamiento de esos datos-… pero ¿cómo podemos enseñar esto a las máquinas y hacer que nos protejan antes de que se produzcan violaciones de la privacidad? El equipo está trabajando para ofrecer esta solución tecnológica al usuario durante 2021.

“Rastrear a la gente -señala el investigador- cuando visitan sitios web con contenido perteneciente a las categorías sensibles de la RGPD es el auténtico ‘elefante en la habitación’ de la privacidad. A mucha gente no le importa ser rastreada por asuntos que consideran inocentes, pero probablemente se alarmarían al saber que sus visitas a sitios web sensibles también se registran y se divulgan a terceros. Nuestro estudio es, con diferencia, el mayor sobre asuntos sensibles en la web. Muestra que una considerable parte de ella incluye contenidos de ese carácter. Desafortunadamente, este tipo de páginas aparecen rastreadas de la misma forma que las del resto de las presentes en internet”

Referencia bibliográfica:

URL: https://networks.imdea.org/es/cerca-de-150-millones-de-sitios-web-entre-un-millon-a-estudio-contienencontenidos-sensibles-y-ras…

Añadir nuevo comentario

Su nombre

El contenido de este campo se mantiene privado y no se mostrará públicamente.

Para el envío de comentarios, Ud. deberá rellenar todos los campos solicitados. Así mismo, le informamos que su nombre aparecerá publicado junto con su comentario, por lo que en caso que no quiera que se publique, le sugerimos introduzca un alias.

Normas de uso:

Las opiniones vertidas serán responsabilidad de su autor y en ningún caso de www.madrimasd.org,
No se admitirán comentarios contrarios a las leyes españolas o buen uso.
El administrador podrá eliminar comentarios no apropiados, intentando respetar siempre el derecho a la libertad de expresión.

CAPTCHA

!Generar un nuevo captcha!

What code is in the image?

Enter the characters shown in the image.

Esta pregunta es para probar si usted es un visitante humano o no y para evitar envíos automáticos de spam.