Entrevistas


 COMPARTIR ENTREVISTA
Facebook  Delicious  Digg  Yahoo meneame
Con la crisis, los investigadores estamos a la expectativa

Felisa Verdejo Maillo

Directora del Departamento de Lenguajes y Sistemas Informáticos de la UNED
 

26/03/2009

Felisa Verdejo Maillo es directora del Departamento de Lenguajes y Sistemas Informáticos de la Universidad Nacional de Ecuación a Distancia (UNED) y coordinadora del proyecto MAVIR que investiga en programación de ordenadores para que comprendan el lenguaje natural del ser humano.

1.- ¿En qué estadio se encuentra la investigación en tecnologías de procesamiento del lenguaje natural? ¿Qué aplicaciones tiene en el día a día?

Actualmente ya existe una tecnología que incorporan muchos productos que se usan todos los días, como los correctores ortográficos de los periódicos, por ejemplo. También en los sistemas de atención al usuario, sobre todo de pregunta-respuesta, en empresas de telefonía, bancos. Son los llamados asistentes virtuales, que permiten formular preguntas de una manera natural y, gestionando esa pregunta, proporcionan una respuesta. Otros sistemas ayudan a profesionales, como a los traductores. Existen traductores absolutamente automáticos que no tienen la calidad del traductor humano, pero sí pueden ayudar mucho en hacer una pre-traducción.

Tenemos sistemas de buscadores que tratan, bien de reformular la consulta que ha hecho el usuario, o bien de integrar técnicas de lenguaje natural para hacer una interpretación precisa de lo que se pregunta. En estos campos hay tecnología del lenguaje natural que ya está incorporada en muchos productos de los que utilizamos todos los días.

2.- ¿En qué mejora el proceso de búsqueda en Internet la tecnología de reconocimiento de entidades?

La mejora en que, por ejemplo, si un usuario introduce en la búsqueda 'Zapatero' o 'José Luis Rodríguez-Zapatero', el sistema identifique que se está refiriendo a la misma persona. Imagina que soy un periodista que trabajo en la agencia de prensa de una universidad y que todos los días tengo que ver lo que se ha publicado acerca de esa universidad. Al rector de la universidad le pueden llamar 'el rector de la UNED', `el rector de la Universidad a Distancia', 'el profesor Gimeno' y todas son referencias a la misma persona. Esta tecnología identifica todas las noticias que tienen que ver con esa misma persona. Si yo quiero hacer un seguimiento de alerta de noticias para ver cómo se refleja la imagen del rector de la UNED en la prensa, un sistema de este tipo facilita mucho la operación.

También puede ir más allá, por ejemplo, haciendo un reconocimiento de entidades con geolocalización. Tú puedes decir Madrid y a lo mejor hay seis o siete en todo el Mundo. Entonces, si tienes una noticia sobre Madrid e introduces referencias geográficas, añades más información que te permite encontrarla. Relacionas una determinada cadena lingüística con la entidad a la que te estás refiriendo.

3.- ¿Los grandes buscadores en qué nivel se encuentran en cuanto al reconocimiento del lenguaje natural del usuario?

En general, todavía tienen poca tecnología lingüística, aunque la van incorporando de una forma bastante rápida. Google, por ejemplo, empezó con temas de traducción automática hace relativamente poco tiempo. En su traducción hay siempre una caja interactiva en la que muestra la traducción que él cree. Al principio era malísima, pero tienen un sistema que brinda al usuario la oportunidad proponer cómo lo traduciría. Recopilando esta información, los usuarios están colaborando a mejorar el producto y la traducción que ofrecen es cada vez mejor.

En otros buscadores, como Exalead, el buscador base de ese proyecto que había de hacer un buscador europeo, sí hay un cierto procesamiento del lenguaje natural. Una de las cosas que hace es clasificar toda la información, no presentando simplemente una lista de URLs como en Google, sino categorizando, ofreciendo los resultados agrupados. Luego para cada tipo de resultados te ofrece la posibilidad de expandir tu búsqueda y te sugieren términos relacionados. Hay buscadores españoles con esta tecnología. El buscador de la empresa Bitext que se llama Natural Finder permite poner la pregunta directamente en lenguaje natural. Hay otros productos especializados, como las Webs que te recomiendan un producto a través de los consejos y comentarios de los usuarios.

Muchas empresas están trabajando en productos que puedan aplicarse a las redes sociales para hacer análisis automáticos y dar más funcionalidad a las búsquedas. Otro campo que empieza a aparecer es el de los buscadores de imágenes y vídeos, analizando la descripción y comentarios de las fotos se pueden mejorar las búsquedas.

4.- ¿Cómo funciona y en qué trabaja actualmente el consorcio MAVIR?

MAVIR es un proyecto financiado por la Comunidad de Madrid y consiste en un consorcio de grupos de investigación en el que participan el Consejo Superior de Investigaciones Científicas (CSIC), las universidades de Madrid: Autónoma, Carlos III, Politécnica, Complutense y Europea, y la UNED que es la coordinadora. Dentro del consorcio hemos creado una comunidad de empresas y otros grupos de investigación asociados que participan en todas nuestras actividades. Estas son evidentemente de investigación, trabajando en la recuperación de información en un entorno multilingüe y multimedia, sistemas automáticos de procesamiento del lenguaje natural, temas de Web semántica, clasificación de documentos, representación y extracción de información lingüística, comunicación científica a través de la Web. Se estudian también métodos automáticos para hacer un ranking y para determinar por ejemplo, la visibilidad de sitios académicos.

En los años que llevamos trabajando, y vamos a empezar el cuarto, consideramos muy importante la diseminación y transferencia de tecnología, para la que celebramos las jornadas MAVIR. El Consorcio tiene una dimensión importante de formación con un programa de postgrado y seminarios y tenemos un portal MAVIR donde ponemos a disposición de empresas y entidades investigadoras todos nuestros resultados. Además, creamos un corpus de material que sirve de entrenamiento para la gente que necesita refinar sus sistemas. Tratamos de hacer un círculo de valor añadido para poner a disposición de empresas e investigadores.

5.- ¿Qué otras líneas de investigación desarrollan a nivel europeo?

Tenemos tres proyectos europeos. En el primero, las tecnologías del lenguaje se ponen al servicio de las agencias médicas acreditadas. Actualmente hay mucha información en la red sobre temas de salud y hay una preocupación importante por certificar qué páginas contienen información documentada. Las agencias de acreditación -por ejemplo- la Web Médica Acreditada, pueden disponer de un sistema de ayuda que hace una primera identificación de estas páginas atendiendo a una serie de indicadores (instituciones de referencia, términos que están utilizando, etc.)

Otro investiga en el dominio del patrimonio cultural. Imagina que eres un profesor y quieres que tus alumnos estudien a Van Gogh. A través de este buscador puedes hacer consultas temáticas especializadas, por ejemplo, del tema de las flores en Van Gogh y partiendo de ahí puedes encontrar qué críticas ha habido sobre el tema, qué imágenes hay, donde ha habido exposiciones relacionadas, con qué otros cuadros puede estar relacionados., lo más interesante es que es multilingüe y multimedia.

6.- ¿Existe un verdadero interés por parte de empresas e instituciones públicas en introducir este tipo de aplicaciones en sus Webs?

Es un tema en el que se tiene cada vez más interés porque para instituciones como los museos la presencia en la red tiene cada vez más importancia y de hecho, los mejor posicionados internacionalmente incorporan estas tecnologías. En España también hay preocupación por estos temas, sobre todo por la proyección multilingüe que es muy importante de cara al turismo. El acceso de la tecnología al patrimonio cultural es un tema prioritario para la comunidad europea.

7.- ¿En qué lugar se encuentra España en el desarrollo de este tipo de tecnologías?

Hemos avanzado mucho, hace veinte años éramos muy pocos y testimoniales. En este momento tenemos presencia internacional, participamos en la organización de proyectos, eventos y competiciones internacionales en las que quedamos en buen lugar. Pero si nos comparamos con otros países, nos pasa como en otros muchos campos, no somos bastantes.

Debería crecer la masa crítica de investigadores y la investigación en las empresas tendría que mejorar, porque hay pocas empresas de carácter spin-off tecnológico. La transferencia de tecnología es uno de los aspectos pendientes. Sería necesario una acción estratégica y un apoyo por parte del Ministerio, porque es importante desde el punto de vista tecnológico, de la innovación, para el fomento del español en la red. sobre todo ahora que hay necesidad de innovación para que mejore nuestra economía, con la crisis los investigadores estamos a la expectativa.


Entrevista realizada por Isabel Hernández de Diego para Madridiario.
Fotografías de Juan Luis Jaén


Subir