Número 35, marzo- abril 2006
NANOCIENCIA Y NANOTECNOLOGÍA II>> Innovaciones
 
  Movilok interactividad móvil

Movilok Interactividad Móvil es una empresa española afincada en el Parque Tecnológico de Madrid. Creada en 2001, dedica su actividad al desarrollo de productos y soluciones innovadoras de datos en movilidad.

     
D. Juan Carlos Alvarez
jcalvar@movilok.com
D. Leonardo Costa
lcosta@movilok.com
D. Luis del Ser
ldelser@movilok.com
 

Movilok Interactividad Móvil es una empresa española afincada en el Parque Tecnológico de Madrid. Creada en 2001, dedica su actividad al desarrollo de productos y soluciones innovadoras de datos en movilidad.

El objetivo de este proyecto es la realización de un sistema que permita interaccionar con aplicaciones de datos cliente/servidor desde dispositivos móviles y utilizando la voz (reconocimiento y síntesis) en sustitución del teclado/puntero y de la pantalla de estos dispositivos.

Se ha seleccionado como aplicación un correo/agenda estándar disponible en la empresa para la realización de un piloto operativo de la solución, se pretende conseguir no solo en funcionamiento la de aplicación concreta seleccionada, sino también validar la arquitectura como base para generar una nueva familia de software que utilice la voz en condiciones de movilidad del individuo y a través de un dispositivo que porta el propio usuario.

Los dispositivos móviles ofrecen un gran abanico de posibilidades para el acceso a la información y a los servicios. Sus características son bien distintas a las de un PC (el tamaño, las interfaces, el modo de interacción, etc.) y también lo es el uso que hacemos de él: dónde, cómo y cuándo lo usamos.

El reducido tamaño de los terminales móviles implica necesariamente que la interacción mediante interfaces tradicionales, como el teclado, resulte cuando menos incómoda. Si al tamaño de los terminales unimos su actual complejidad, nos damos cuenta de que muchas veces en ellos no hay espacio físico para poner botones o desplegar menús. El habla es la forma de comunicación natural de los seres humanos y no cabe duda de que si dotáramos de interfaces hablados a las máquinas podríamos mejorar de forma sustancial nuestro modo de interactuar con los dispositivos, además de facilitar el acceso a los sistemas y de reducir el tiempo de aprendizaje para su uso.

El habla puede ser también un elemento que facilita que determinados grupos de personas, como discapacitados o ancianos, puedan acceder a sistemas y aplicaciones.

En el marco del proyecto "correo y agenda móviles, interactivos, multi tecnología y con interfaz vocal" se han abordado todos estos aspectos, con la finalidad de definir, desarrollar y evaluar una arquitectura que sirva como referencia para la realización de soluciones móviles de datos accesibles mediante el habla.

Con el fin de que el resultado del proyecto no se limite a una versión 'de laboratorio', sino que permita la generación de una familia de productos, se impusieron una serie de restricciones o requisitos de partida, que debe cumplir la solución final y que se intentan validar con la ejecución del proyecto. En concreto:

  • La solución debe ser operativa con las redes móviles IP actuales. En la práctica, esto implica que la solución pueda funcionar en las redes GPRS que ofrecen actualmente las operadoras en España. De esta forma la evolución de la red hacia UMTS, solo aportará mejoras en cuanto al rendimiento de la solución por la mayor velocidad ce conexión al servidor.
  • La solución debe funcionar en dispositivos comerciales, que puedan adquirirse en el comercio habitual; y con procesadores y tamaños de memoria estándar. Esto facilita que la posible línea de productos objetivo pueda estar al alcance del público en general. Dado que la tendencia futura es que los dispositivos sean cada vez más veloces y con mayor capacidad de almacenamiento, esto garantiza que la solución será aplicable y ampliable en dispositivos comerciales futuros.
  • Las aplicaciones objeto de desarrollo, deben permitir validar la capacidad de implementar aplicaciones estándar que puedan ser de interés y utilidad para una empresa en un contexto vocal y en movilidad.
  • Como característica diferencial de la solución frente a otras aproximaciones ya comerciales (por ejemplo los portales de voz), el objetivo es que las tareas más costosas desde el punto de vista computacional, como son el reconocimiento y la síntesis, se realicen en el dispositivo local del usuario. De esta forma, la comunicación con el 'back-end' servidor se utiliza solamente para la interacción relativa a la lógica de la aplicación, con mecanismos de comunicación optimizados, y no para el envío de muestras de voz. Esto garantiza asimismo la posibilidad de utilizar redes no muy fiables.
  • Por último, otro de los criterios es la búsqueda de un sistema que permita el reconocimiento de comandos de voz independientes del locutor y sin necesidad de aprendizaje, para ofrecer ventajas sobre otros posibles productos comerciales. De esta forma, un usuario cualquiera, sin necesidad de entrenar a la aplicación puede comenzar a trabajar con ella desde el primer momento.

Como dispositivo móvil objetivo para este proyecto, se ha preferido la utilización de PDAs (Personal Digital Assistant) frente a los teléfonos móviles tipo 'smartphone''. La razón fundamental ha sido la mayor capacidad de proceso de estos equipos. De entre los distintos modelos de PDA se ha seleccionado las que soportan el sistema operativo PocketPC, por la mayor facilidad de desarrollo del soporte multimedia -acceso al altavoz y micrófono- necesarios en el sistema. Además, una PDA de precio medio en el mercado, tiene una capacidad de proceso que se puede equiparar a la de un PC con un procesador Pentium II a 200MHz, lo que hace que resulten especialmente interesantes.

Los dispositivos móviles, como teléfonos o PDAs, están limitados en capacidad de cómputo, memoria y consumo de potencia. La mayor parte de estos dispositivos incorporan una CPU que trabaja con aritmética punto fijo. Dado que el reconocimiento de voz es una tarea muy costosa desde el punto de vista computacional, se ha realizado una adaptación de los algoritmos tradicionales de reconocimiento a aritmética de punto fijo; de lo contrario, sería muy poco eficiente y no podría funcionar en tiempo real.

La aplicación cliente de interactividad móvil se aloja también en la PDA. Se han evaluado diferentes alternativas para la comunicación entre este módulo y el de habla. Finalmente se ha optado por una comunicación entre procesos para facilitar la migración y la posible división de la aplicación en más de un dispositivo.

La comunicación con el servidor puede realizarse de dos formas:

  • Mediante la tecnología Bluetooth presente en la PDA y la utilización de un teléfono móvil con Bluetooth a modo de modem GRPS.
  • Mediante la utilización de dispositivos híbridos, que integran la función de PDA junto con la de teléfono GPRS.

Para la realización del prototipo se han seleccionado finalmente este tipo de dispositivos híbridos ya disponibles en el mercado.

El formato de los mensajes entre cliente y servidor se realiza en XML.

El sistema está constituido por dos módulos principales: servidor y cliente (este último residente en el dispositivo móvil), tal como se ilustra en la Figura 1.

La solución se encuentra balanceada entre ambos módulos, aprovechando el canal móvil GPRS para la distribución de funciones. Cada módulo realiza las siguientes funciones:

  • SERVIDOR. Gestiona los servicios de datos a proporcionar al usuario, siendo el responsable de la gestión del contexto de la aplicación, identificando el que en cada momento corresponde al usuario que accede al sistema, interpretando los comandos recibidos y coordinando las acciones que corresponden a los mismos.

    Figura 1 -Módulos del sistema



    El servidor es también el responsable de gestionar la interacción con fuentes de contenidos y aplicaciones diversas, en este caso con el correo/agenda, y de implementar la lógica de la aplicación servidora, coordinando el resto de funciones como son la gestión de usuarios, grupos y permisos de acceso.
  • CLIENTE. Gestiona el diálogo con el usuario, se comunica con el servidor mediante la red GPRS y ofrece el servicio de persistencia de datos para aquella información que sea soportada localmente en el dispositivo móvil. Es responsable de realizar las tareas de reconocimiento de voz recibiendo, a través del micrófono, la señal de voz procedente del usuario (vocabulario limitado para cada contexto) y transcribiendo la información como datos en el formato adecuado para su envío a la aplicación servidora.

    El cliente también es el responsable de la síntesis y reproducción de los mensajes de respuesta dirigidos hacia el usuario. Y de la comunicación de los datos hacia el servidor a través de la red GPRS.

Operativamente, el funcionamiento del sistema de cara al usuario es el siguiente:

El usuario arranca la aplicación en la PDA de forma manual. Seguidamente carga el contexto de aplicación pronunciando la palabra asociada (Ej. 'correo').

A partir de este momento, se encuentran disponibles los comandos vocales asociados al contexto en el que el usuario se encuentra (Ej. 'leer cabeceras', 'borrar', siguiente'. 'anterior', 'salir').

El resultado del reconocimiento de un comando es la síntesis o reproducción de voz del resultado del comando: Ej. origen del correo, lectura de la cabecera, confirmación del comando realizado.

La aplicación está estructurada en forma de árbol. La pronunciación de un comando puede originar el paso a un nivel distinto (contexto) del árbol, con lo que los comandos disponibles en ese nivel pueden ser distintos. Siempre se dispone de algunos comandos de tipo general ('ayuda', 'principal', 'salir'), que permiten al usuario situarse en puntos predeterminados de la aplicación o solicitar la reproducción de los comandos disponibles en ese contexto.

Movilok agradece la confianza y el apoyo recibido de la Comunidad de Madrid, concretamente a la Dirección General de Universidades e Investigación, sin la cual no hubiera sido posible alcanzar el estado actual de desarrollo del proyecto. Igualmente, cabe destacar que la realización del proyecto, ha sido posible gracias a la colaboración del Departamento de Teoría de la Señal y Comunicaciones de la Universidad Carlos III de Madrid, que aportan su experiencia y conocimientos en lo que se refiere a las tecnologías del habla.