La búsqueda translingüe

Es un hecho ampliamente aceptado que la globalización ha provocado cambios a nivel político y económico. No obstante, en ningún caso debemos olvidar que tan importante como estos dos aspectos es la identidad cultural, dentro de la cual el lenguaje juega un papel esencial. En este sentido, la mayor penetración inicial de Internet en la cultura anglosajona llevó consigo una inicial predominancia de la lengua inglesa, tanto a nivel de usuarios como de contenidos. Sin embargo, estudios recientes demuestran que la preponderancia del inglés se ha visto reducida, en detrimento de una mayor diversidad lingüística.

Por ejemplo, el estudio “Lenguas y culturas en la red 2007”, realizado por FUNREDES y Unión Latina, concluía que el idioma predominante en Internet era el inglés, aunque las estadísticas mostraban un constante aumento del resto de las lenguas en la red. Entre 1998 y 2007, el porcentaje de internautas de habla inglesa bajó de un 60,5% a un 31,7%, mientras la presencia las páginas web en inglés bajó del 75% al 45%. Por otra parte, un informe emitido en abril de 2008 por el CNNIC, que señala que China se ha convertido el país con mayor número de usuarios de internet, con 221 millones de internautas, frente a los 215 millones de usuarios estadounidenses. Además, si hacemos caso a la tendencia (desde diciembre de 2007, el crecimiento en China ha sido de 11 millones de internautas), es de esperar que en pocos años existan más usuarios de internet en China que habitantes en Estados Unidos.

Si bien es cierto que cada vez más personas en el mundo hablan otros lenguajes además de su lengua materna, y que el inglés es el idioma más extendido como segunda lengua, un usuario que, como ejemplo, hable sólo español, en 2007 tenía acceso únicamente al 3,8% del total de páginas Web disponibles en Internet.

En la actualidad, la mayoría de motores de búsqueda están limitados a devolver documentos en el mismo idioma de la consulta. Algunos, como Google, utilizan sistemas de traducción automática para traducir los documentos encontrados, pero, como ellos mismos reconocen en su web, “incluso el software sofisticado de hoy en día no se aproxima a la fluidez de un hablante nativo”. En este punto, se hace necesario integrar las capacidades de búsqueda con esta creciente diversidad lingüística, algo que no ha pasado desapercibido para investigadores de todo el mundo. La recuperación translingüe de información tiene como objetivo proporcionar a un usuario información en un lenguaje diferente al lenguaje utilizado en la consulta (generalmente, su lengua materna).

Desde que se creara un taller dedicado específicamente a la recuperación translingüe de información, en la conferencia ACM SIGIR de 1996 [Grefenstette96], han aparecido programas internacionales de investigación, talleres, conferencias y campañas centradas en el tema, como el Foro de Evaluación Translingüe en 2000 [Peters01]. Estos programas han impulsado la investigación en la recuperación de información translingüe, obteniéndose unos resultados esperanzadores, pero de momento poco eficientes para ser implementados en motores de búsqueda reales.

En general, se aplican tres estrategias en la mayoría de los sistemas desarrollados: traducción de consultas, traducción de documentos interactiva y traducción en segundo plano con indexación de documentos. La primera convierte el texto de la consulta en el lenguaje en que se desea recuperar la información, lo que plantea tres retos

  1. Encontrar una traducción para cada uno de los términos escritos en el idioma original. Algunos términos no tienen una traducción directa, y otros son extranjerismos (expresiones lingüísticas tomadas de un idioma extranjero y usadas en la lengua propia).

  2. Seleccionar las traducciones adecuadas para cada término de entre las posibles, en función del contexto.
  3. Un sistema de recuperación translingüe debe ser capaz de asignar diferentes pesos a las diversas traducciones posibles.

La segunda estrategia consiste en realizar una traducción online de los documentos recuperados. En la práctica, la eficiencia de este enfoque es muy baja, debido a la complejidad computacional que requiere la traducción automática y al gran tamaño que presenta generalmente la colección de documentos. Como alternativa, se puede realizar una traducción menos costosa y menos precisa que permita aplicar técnicas de recuperación de información.

Por último, una tercera estrategia consiste en traducir toda la colección de documentos al lenguaje del usuario, reduciendo la búsqueda translingüe a una búsqueda monolingüe en los documentos traducidos. Este enfoque puede ser demasiado costoso en espacio de almacenamiento si todos los documentos deben ser previamente traducidos a todos los lenguajes disponibles.

Hasta el momento, Google es el motor de búsqueda que está obteniendo mejores resultados en la implantación de sistemas de recuperación translingüe. Recientemente, ha puesto a disposición de los usuarios de Internet un prototipo que no se limita únicamente a traducir las páginas devueltas en sus búsquedas, permitiendo realizar consultas en varios idiomas. Como ejemplo, la consulta para la frase “historia de alemania”, expresada en español, puede devolver resultados en español y en inglés, según se puede observar en la figura 1. El resto de los buscadores principales parecen quedar un poco rezagados. Por ejemplo, Altavista o Yahoo! ofrece un enlace directo a su traductor en la página de inicio, pero en ambos casos el traductor utilizado es Babel Fish.


Figura 1. Resultado de una búsqueda experimental translingüe en Google. A la izquierda, los resultados en español, y a la derecha en inglés.

Si los buscadores más dominantes aún no son capaces de ofrecer una búsqueda translingüe medianamente eficaz, no podemos esperar grandes avances a corto plazo. De momento, parece que el camino más directo hacia los contenidos multilingües consiste en aprender nosotros mismos los idiomas.

REFERENCIAS

  • [Grefenstette96] Grefenstette, G. 1996. Cross-linguistic information retrieval workshop. In Proceedings of the 19th Annual international ACM SIGIR Conference on Research and Development in information Retrieval (Zurich, Switzerland, August 18 – 22, 1996). SIGIR ’96. ACM Press, New York, NY, 344.
  • [Peters01] C. Peters (Ed.). Cross-Language Information Retrieval and Evaluation. Workshop of Cross-Language Evaluation Forum, CLEF 2000, Lisbon, Portugal, September 21-22, 2000, Revised Papers. Lecture Notes in Computer Science 2069, Springer 2001.

[Francisco M. Carrero García]

Etiquetas:

Si te gustó esta entrada anímate a escribir un comentario o suscribirte al feed y obtener los artículos futuros en tu lector de feeds.

Comentarios

Aún no hay comentarios.

Escribe un comentario

(requerido)

(requerido)


*