| Por: |
Jorge Rubio Navarro
Subdirector Adjunto del Instituto de Estudios Turísticos (IET)
|
- SITUACIÓN.
El IET además de ser un órgano de elaboración y de
producción de datos, tiene entre sus funciones la de difundir información
sobre el turismo entre el sector público y privado, otros departamentos de la
administración Española, los organismos regionales existentes en cada una de
las Comunidades Autónomas, la red de 27 oficinas de turismo de España en el
extranjero, la Unión Europea y otros organismos internacionales.
El IET dispone de un gran volumen de información
estadística procedente fundamentalmente de sus tres estadísticas: Frontur,
Egatur y Familitur, así como de la reelaboración de fuentes secundarias
procedente de otros organismos nacionales.
Sin embargo todos estos datos tanto internos como de fuentes
externas se encontraban dispersos por la organización en formato digital,
texto, documental, gráficos e imágenes, con lo que era imprescindible crear
una plataforma común capaz de concentrar toda la información.
La difusión de la información estadística siempre se ha
hecho a través de los métodos tradicionales como tablas de datos en formato
impreso o Web. La finalidad del proyecto DATATUR, ha sido la de poner al alcance
de los analistas de datos estadísticos del turismo, una herramienta que permite
analizar esta información y trabajar con ella de un modo más sencillo que con
las tradicionales aplicaciones estadísticas y poder además publicar esta
información a través de Internet para ponerla al alcance de todo analista que
la necesite.
- MARCO.
Un sistema de información turística (SIS) realiza una serie
de procesos estadísticos y maneja unas categorías de datos, datos
estadísticos.
En una organización estadística existen procesos para los
siguientes tipos de tareas:
Los procesos estadísticos usan y producen datos
estadísticos, estos según definición de la Comisión Estadística de la OCDE,
pueden ser microdatos, macrodatos y metadatos.
El sistema DATATUR se ha desarrollado para facilitar y
agilizar los cuatro últimos procesos, el almacenamiento, recuperación,
análisis y difusión.
Aunque el sistema cubre gran parte de los procesos de una
organización dedicada a elaborar datos estadísticos, también es cierto que
sólo es la punta del iceberg de un trabajo ingente que hay en los procesos
previos que son la recogida y elaboración de los datos.
Hasta que los datos ya elaborados llegan a DATATUR se han
tenido que realizar, en el caso de datos provenientes de encuestas, la
definición de estas, la toma de datos en campo, el estudio de las tomas para la
mejora de la recogida, las limpiezas previas de las encuestas, la tabulación y
elevación de los datos...
Todas estas tareas conllevan el uso de otras herramientas
más específicas adaptadas a cada una, como es el uso de PDA (Personal Digital Assistant) en la recogida de datos, el uso de software especializado
en la elevación y depuración de datos.
Por tanto DATATUR se nutre de unos procesos y tareas previas
sin los cuales no podría existir. El esquema completo del flujo de datos y
metadatos de una operación estadística, a partir de una encuesta se puede ver
en la figura 2.
- SOLUCIÓN.
La realización del sistema de información de estadísticas
turísticas se basa en la unión de los sistemas de información relacionales y
los sistemas OLAP (On Line Analisys Process). Así, los sistemas
relacionales se utilizan para la carga de los datos fuente (aunque ya tratados
con herramientas estadísticas para su elevación). En este entorno relacional
se ha creado también una base de datos para almacenar toda la información
necesaria para el análisis de los datos, es decir, se ha creado una base de
metadatos de apoyo a los sistemas OLAP que se utilizan para la consolidación de
la información a niveles agregados y su análisis desde un entorno
multidimensional que permite cruzar las distintas variables.
El análisis de la información en un sistema OLAP o
multidimensional implica muchas ventajas para el usuario final, ya que puede ‘navegar’
por la información de una manera sencilla, sin tener que conocer ningún tipo
de lenguaje de programación. Únicamente mediante el uso del ratón, puede
componerse sus informes a medida y hacer las selecciones que considere
necesarias por diferentes niveles de la información.
En contrapartida, el sistema está muy interrelacionado con
el negocio, lo que requiere que los usuarios, por una parte, conozcan
conceptualmente el modelo por el cual quieren navegar o extraer la información
y por otra, necesiten de unos conocimientos del negocio turístico o en concreto
de la operación o área de estudio sobre la cual estén trabajando.
Los beneficios aportados por esta solución se pueden resumir
en los siguientes puntos:
Rapidez en la difusión de la información a través de la Web.
Un entorno centralizado para la consulta de los datos.
Integración de las distintas fuentes en un único sistema.
Mayor potencialidad para el análisis de los datos.
- DESCRIPCIÓN FUNCIONAL DEL SISTEMA.
Los diferentes niveles de datos que contiene DATATUR se han
dividido dentro del sistema en diferentes bases de datos: la de Datos Primarios
o datos fuente de la operación, que en el caso de operaciones estadísticas en
las que es necesaria la elevación de los datos, se corresponde con los ficheros
elevados ( a cada registro se le ha asignado un peso específico), la Base de
Datos Agregados que se identifica con los modelos multidimensionales los cuales
se explicarán ampliamente más adelante y la Base de Datos de Metadatos o de
información sobre el dato estadístico almacenado en las otras dos, es decir,
definiciones de variables, comentarios, documentos metodológicos asociados...
Base de datos primarios
El almacenamiento de los datos fuente o microdatos se realiza
en una base de datos relacional. Los datos originarios cargados proceden de
fuentes diversas, dependiendo no sólo del organismo elaborador sino también
del tipo de datos.
Existen dos tipos de datos fuente principalmente, los datos
derivados de encuesta, que han sido elevados y tabulados para hacerlos
corresponder a una población y que son principalmente los datos que explota el
propio IET y los datos que se corresponden con directorios (Ejem. Hoteles,
apartamentos) o datos estadísticos no elevados (Ejem. Balanza de Pagos por
Turismo). La diferencia fundamental entre unos y otros es el tratamiento
posterior que ha de realizarse sobre ellos, antes de convertirlos en
multidimensionales.
Esta base de datos no tiene ningún rasgo destacable, a no
ser la de sobra conocida por todo el mundo de las ventajas de almacenar la
información en una base de datos relacional sobre el almacenamiento como
ficheros independientes, a la hora de hacer consultas o buscar información. El
único inconveniente es que es necesario conocer muy bien el lenguaje de SQL
para hacer consultas y sobre todo, cuando lo que se quiere es conocer datos como
las variaciones sobre distintos escenarios agregados.
Esta base de datos se utiliza más como un repositorio de
datos organizado que como un almacenamiento para consulta.
Base de datos de metadatos
Un complemento indispensable a la hora de dar información
estadística son los ‘metadatos’, considerando como tales todo dato
susceptible de aportar mas información o claridad sobre el dato que se está
consultando, es decir, cualificar el dato, ya sea por medio de definiciones de
variables, documentos asociados, ‘links’ o referencias a otros datos...
Los Metadatos son esenciales para comprender correctamente
los datos numéricos y para valorar la comparabilidad de distintas fuentes.
Como base de soporte de estos, se ha creado una base de datos
relacional con esta información que está estrechamente relacionada con las
bases de datos de agregados o multidimensionales. Es muy importante que cuando
uno está consultando un dato estadístico sepa por ejemplo la diferencia entre
excursionista o turista, que meses componen los datos de una temporada o poderse
leer el / los documento(s) de metodología asociados.
Una de las principales razones por las que se optó en su
momento en hacer un desarrollo a medida en el IET, fue que ningún software
actual, es capaz de mostrar información estadística pura con metadatos a
través de Internet y esto es uno de los pilares fundamentales sobre los que se
sustenta el sistema.
Dentro de esta base de datos, a través del programa
especialmente diseñado para ello, los usuarios de mantenimiento del sistema son
capaces de añadir definiciones o aclaraciones tanto a nivel variables
cuantitativas, información para distintos cruces de variables, incluso
definiciones para los distintos estados de una variable cualitativa. Además se
pueden asociar al sistema documentos en distintos formatos, relacionados con
operaciones, suboperaciones, distintos meses, temporadas y años que son
publicados automáticamente en Internet por el sistema.
Base de datos agregados
Las bases de datos agregados o multidimensionales,
constituyen el núcleo del sistema, ya que es sobre ellas, sobre las que se
realizan casi todas las consultas.
Estas bases de datos no son de tipo relacional y el software
empleado para su desarrollo no es tan conocido como el de las anteriores, pero
no es complicado. La mayor complejidad en este tipo de desarrollos es la parte
de análisis, el diseño propio de la base de datos más que su desarrollo e
implantación.
Las BD dimensionales permiten, generalmente, distintos tipos
de almacenamiento conocidos como MOLAP, ROLAP y HOLAP. En el caso que nos ocupa,
al no ser las bases de datos muy grandes (aunque contengan millones de
registros) y siendo lo que prima los tiempos de respuesta, se optó por el
almacenamiento MOLAP, en el cual todos los datos, incluidos los de origen
(existe una redundancia de datos), se almacenan en el formato multidimensional,
que es el almacenamiento que mejores tiempos de respuesta ofrece.
Para una operación estadística como Frontur (Movimientos
Turísticos en Fronteras) gestionada por el IET, la base de datos dimensional o
‘cubo’, consta de 10 dimensiones (variables cualitativas con sus respectivos
estados) o puntos de vista sobre los que se puede analizar indicadores
(variables cuantitativas) como número de viajeros, número de pernoctaciones,
variaciones sobre el año anterior, sobre el periodo anterior, estancia media…
Esto implica, en la práctica, que un usuario puede cruzar
cualquier estado de las variables o dimensiones con cualquier otro. Para dar una
mejor visión de lo que esto representa diremos que el número de combinaciones
posibles que un usuario podría hacer sería el producto de los elementos o
estados de todas las dimensiones que en el caso de la operación que estamos
poniendo como ejemplo ascendería a 39.798.088.634.304. Esto es el número de
consultas teóricas que se pueden hacer sobre la base de datos pero no en todos
los cruces tendremos información, no todos los turistas provenientes de Suiza
en coche y que hayan entrado por el punto fronterizo de ‘La Junquera’
durante Enero del 2000 han pernoctado en Segovia, si hiciésemos este cruce de
variables seguramente no nos devolvería ningún dato.
La forma de efectuar la consulta anterior sobre el modelo
sería a través del ratón, el usuario ha de desglosar la dimensión ‘País
de residencia’ y seleccionar Suiza, desglosar los periodos hasta llegar el
elemento Enero 2000, desglosar puntos de entrada hasta ‘La Junquera’ y
seleccionar que quiere ver como filas y columnas, por ejemplo, podría
seleccionar como filas los motivos del viaje y como columnas los tipos de
viajero.
- ARQUITECTURA DEL SISTEMA.
Además de las bases de datos o subsistema de almacenamiento
de la información definido previamente, un sistema de información estadística
debe estar compuesto de otros subsistemas. En el caso que nos ocupa sería el
subsistema de ETL (Extracción, Transformación y Limpieza) y el subsistema de
análisis, presentación y difusión de la información.
Esquema Data Warehouse:
Subsistema ETL:
Un subsistema ETL o de Elaboración y transformación de
datos es tanto más importante cuanto más heterogéneas sean las fuentes de las
que provienen los datos. Los datos estadísticos necesitan ser depurados,
eliminar las inconsistencias de datos, eliminar los registros que no cumplan
determinados requisitos… Además existe un trabajo muy significativo, que es
el de la codificación, se han de estandarizar para todos los registro
independientemente de la fuente de los códigos, es decir, Alemania debe tener
el mismo código en todas las bases de datos independientemente de que hablemos
de turistas o de Índice de precios armonizado. Esto es muy importante, sobre
todo para poder cruzar variables de diferentes fuentes y para poder gestionar
como veremos en el siguiente subsistema la representación de datos sobre mapas.
Subsistema de información:
Este es la parte final y por tanto visible de la pirámide.
Este subsistema está enfocado al usuario final y permite analizar la
información a través de Internet de tres maneras distintas:
Módulo de información en formato tablas: Los datos
estadísticos se pueden visualizar en Web de manera dinámica por el usuario,
decidiendo éste que información quiere ver (filtrando distintos elementos) y
como la quiere ver (que dimensión quiere en filas y cual en columnas), puede
ordenar columnas, ocultarlas, desglosar la información (drill-down y drill-up),
todo cumplimentado con un ficha técnica que varía en función de las
selecciones y que le da las definiciones de las variables y dimensiones que
tiene en pantalla así como otra información relacionada.
Módulo de información gráfica: La misma información
anterior se puede visualizar en forma gráfica, pudiendo el usuario seleccionar
entre variados tipos de gráfico, el tamaño de este para su correcta
visualización, mostrar los datos o no, cambiar filas por columnas…
Módulo de información geográfica: La tercera forma de
poder visualizar la información es en mapas, donde el usuario a través de un
asistente puede seleccionar la forma de representación de los datos (tartas,
barras, rangos…), cuantos y que tipo de rangos (segmentación natural,
desviación estándar…), los colores del mapa. Se han creado capas a nivel de
comunidad autónoma, provincias y municipios en España y de países a nivel
mundial para poder presentar toda la información disponible. Estos mapas son
totalmente dinámicos, se puede navegar por ellos (zoom, drill, centrar) y
muestran los datos que el usuario elige en cada momento.
- CONCLUSIÓN.
Con las nuevas herramientas que proporciona la informática
hoy en día, es posible extender el uso de los datos estadísticos a personas
sin experiencia en el manejo de herramientas estadísticas. Aunque la potencia
de estas en el tratamiento de datos está fuera de toda duda, los sistemas OLAP
o multidimensionales proporcionan una forma flexible y fácil de acceder a los
datos cuando se ha definido previamente el modelo de negocio o la estructura de
la información que se va a poder consultar. Por tanto son herramientas de tipo
complementario que deberían usarse conjuntamente en los sistemas estadísticos
actuales.
Volver arriba
|