Antecedentes
Antecedentes en el modelado de usuario
Tal y como se ha mencionado anteriormente, no se puede plantear un sistema como
el propuesto en MiSPOT sin disponer de un perfil del usuario que ofrezca una
visión adecuada de sus gustos, preferencias e intereses. Consultando en la
literatura especializada, puede constatarse que esta caracterización se
realiza de formas bien diferentes dependiendo del ámbito de aplicación. Muchos
sistemas se basan en registros o historiales de consumo, almacenando el
interés previamente mostrado por el usuario en productos/contenidos; otros
utilizan un perfil de usuario que almacena sus características demográficas
(edad, sexo, estado civil, etc.) que son utilizados para identificar tanto a
qué prototipo de usuario pertenece como los contenidos/productos que han
interesado a otros usuarios con datos similares. Otros sistemas utilizan redes
conceptuales (semánticas o asociativas), donde cada concepto es un nodo, las
relaciones jerárquicas son enlaces entre ellos y las propiedades se establecen
entre enlaces convenientemente etiquetados [IW]. En cualquier caso, e
independientemente del tipo de perfil a utilizar, es necesario alimentarlo con
la información adecuada y esto puede realizarse básicamente de tres formas
diferentes: manualmente, automáticamente o semiautomáticamente. En el primer
caso, el sistema exige al usuario una descripción explícita de sus intereses
para construir el perfil inicial. En el segundo caso, las preferencias del
usuario son capturadas a medida que éste interactúa con el sistema; esta
técnica se ha utilizado con éxito en herramientas de personalización Web a
partir del historial de navegación (como WebSell o Webmate). La solución
intermedia puede implementarse, a su vez, de dos formas diferentes: utilizando
estereotipos o utilizando conjuntos de entrenamiento. En el primer caso, el
sistema define un conjunto de categorías genéricas para clasificar a los
usuarios; así, una vez que éstos introduzcan algunos datos relevantes, el
sistema les asigna un estereotipo que será utilizado como perfil inicial; el
sistema LifeStyle Zinder que sugiere productos comerciales a sus usuarios ha
utilizado con éxito este sistema. En el segundo caso, el sistema ofrece al
usuario un conjunto de productos/contenidos para que éste identifique si le
interesan o no. Partiendo de la información obtenida tras este entrenamiento,
el sistema les asigna un perfil inicial; algunos ejemplos de aplicación son el
News Weeder y el ACR News (para la recomendación de noticias), Ringo (en el
sector musical) y Re:Agent (en el ámbito del correo electrónico).
Claramente, las preferencias e intereses de los usuarios varían a lo largo del
tiempo y el perfil deberá adaptarse a estos cambios, recogiendo los datos
nuevos (realimentación de relevancia) y eliminando la información que se haya
quedado obsoleta (función de olvido gradual). Algunos sistemas utilizan
mecanismos de realimentación explícita: proponiendo clasificaciones de los
productos/contenidos como "interesantes/no interesantes"; requiriendo que el
usuario explicite una valoración más concreta del interés despertado; o bien
solicitando opiniones textuales. Otros sistemas utilizan formas de
realimentación implícita, infiriendo la información de realimentación en
función de la interacción del usuario, aunque la mayoría opta por un esquema
híbrido.
Antecedentes en la caracterización de contenidos multimedia
Para asociar el i-spot personalizado a un contenido audiovisual según un
esquema no intrusivo será preciso caracterizar apropiadamente este tipo de
contenidos. La iniciativa internacional de mayor calado en este campo es la
norma MPEG-7 (Multimedia Content Description Interface) [MPEG-7], creada por
el grupo MPEG. Este grupo, perteneciente a la ISO/IEC, se estableció en el año
1998 y se ocupa del desarrollo de estándares internacionales para la
compresión, descompresión, procesamiento y representación de imágenes en
movimiento (vídeo), audio y la combinación de ambas. Algunos éxitos de este
equipo son las normas MPEG-1 (que regula la compresión audio/vídeo para CDs),
MPEG-2 (que se ocupa de la difusión de audio/vídeo para televisión de calidad)
ó MPEG-4 (extensión de MPEG-1 para el soporte de objetos
audiovisuales). MPEG-7, por su parte, surge para la descripción de información
multimedia (fragmentos elementales, trabajos completos y bibliotecas)
independientemente de su formato y medio de almacenamiento. De esta forma la
gestión de contenidos multimedia es más eficiente, permitiendo una rápida y
eficaz identificación de la información relevante en cada caso.
MPEG-7 permite la definición de descriptores que representan una característica
distintiva de los datos. Los descriptores dedicados a las características
audiovisuales de bajo nivel (color, textura, movimiento, etc.) pueden ser
extraídos automáticamente, mientras que los descriptores dedicados a las
características de alto nivel de los objetos semánticos, eventos y conceptos
abstractos requieren de la intervención humana. Además, MPEG-7 establece
esquemas de descripción que extienden los descriptores anteriormente
mencionados para organizarlos en estructuras más complejas, con información
sobre la creación, clasificación, acceso, organización e interacción del
usuario con el contenido. Estos esquemas de descripción pueden ser definidos
utilizando DDL (Description Definition Language), un lenguaje basado en el
lenguaje XML Schema Structural Components utilizando XML Data Types que ha sido
enriquecido con diferentes tipos de datos adicionales para la descripción de
características propias y habituales en el contexto de lo audiovisual. Otra
característica relevante de MPEG-7 es que los contenidos multimedia pueden
organizarse en diferentes segmentos de contenido en el espacio, tiempo y/o
fuente de información. Los tipos de segmentos más comunes son las regiones
espaciales en 2 dimensiones (fotogramas), intervalos temporales de vídeo y las
secuencias espacio-temporales de vídeo. Estos segmentos se han enriquecido para
definir mosaicos (diferentes fotogramas de una misma imagen que permiten la
composición de una nueva imagen), regiones 3D, segmentos multimedia
(compaginando diferentes tipos de contenidos, páginas web, etc.), segmentos
propios de trabajos de edición, etc. En cualquier caso, los segmentos
definidos podrían estar conectados temporalmente si son continuos a lo largo
del tiempo, o conectados espacialmente si constituyen una región espacial
continua.
Por otra parte, el forum TV-Anytime, formado por importantes empresas del
sector de la televisión, ha adoptado también la idea del etiquetado de
contenidos dando lugar a la especificación TV-Anytime [TVA]. La primera fase de
la norma, publicada en el año 2003 y normalizada por ETSI, uniformiza la
descripción de contenidos audiovisuales genéricos, instancias específicas de
los mismos, perfiles de usuario, información de segmentación de contenidos e
incluso políticas relacionadas con la gestión de derechos y privacidad. Estas
descripciones se realizan utilizando diferentes tipos de metadatos y es
característica su independencia de la localización de los contenidos (dada
habitualmente por el canal y la hora de difusión) y del protocolo de difusión
utilizado. Esta independencia se consigue a través de los mecanismos de
referenciación de TV-Anytime, basados en un identificador único denominado CRID
(Content Reference Identifier) que enlaza a un localizador DVB que almacena la
información de hora y canal de emisión. De este modo, el usuario puede
seleccionar contenidos con arreglo a determinadas características sin necesidad
de saber cuándo, dónde y cómo se van a transmitir; será el receptor digital
quien se encargue de almacenar los contenidos cuando sea posible acceder a
ellos.
En la actualidad ya se ha publicado la segunda fase de la
especificación TV-Anytime, al igual que ocurrió con la primera, ha sido
también normalizada por el ETSI en abril de este año 2006. Es destacable el
esfuerzo realizado en esta segunda etapa para afrontar la compartición y
distribución de ficheros, la sincronización de fuentes de contenidos, el
empaquetado de diferentes tipos de programas y la selección de contenidos
adecuados para los usuarios en función de sus preferencias personales.
Antecedentes en la caracterización de servicios
En MiSPOT se necesitará caracterizar adecuadamente los i-spots para poder
realizar la personalización en las dos fases anteriormente mencionadas:
decidiendo qué publicidad integrar con los contenidos televisivos y qué
servicios interactivos ofrecer. Con este objetivo, se recurrirá por proximidad
conceptual a arquitecturas orientadas a servicios (Service Oriented
Architecture, SOA) cuyo máximo exponente, por su extensión e impacto, es la
WWW. Y es en esta área donde se ha realizado un esfuerzo mayor para
permitir la adecuada caracterización de los servicios Web dado que, de esta
forma, se podría resolver el problema de la automatización en su
descubrimiento, invocación, composición y monitorización (problemas comunes en
todas las SOAs). La propuesta más extendida actualmente es WSDL (Web Service
Description Language), un lenguaje sencillo basado en XML que permite
describir el conjunto de operaciones que un servicio web ofrece y, para cada
una de ellas, el formato en el que el cliente debe de enviar su petición. Sin
embargo, esta forma de describir los servicios no permite realizar consultas
inteligentes basadas en razonamiento semántico y, debido a ello, los cuatro
objetivos anteriormente citados no pueden materializarse sólo con este
lenguaje. Así, han surgido otras iniciativas basadas en la utilización de
ontologías (especificaciones explícitas y formales de una conceptualización
común) para expresar las características de los servicios web de forma que
éstas sean interpretadas por cualquier entidad interesada. De entre estas
iniciativas destacan, por constituir los primeros esfuerzos en esta línea,
WSDL-S, que pretende dotar de características semánticas el lenguaje WSDL, y
SWSL (Semantic Web Services Language) que define un lenguaje para describir la
ontología de los servicios de la Web Semántica (SWSO, Semantic Web Services
Ontology). En un estado más maduro se encuentran otras propuestas como OWL-S
(Ontology Web Language for Services) que expresa la ontología de
servicios utilizando OWL para indicar qué funcionalidad ofrece el servicio,
cómo funciona y cómo acceder a él. Por otra parte, WSML (Web Service Modeling
Language) proporciona una sintaxis formal y una semántica para el modelado de
servicios denominada WSMO (Web Service Modeling Ontology) y,
actualmente, es una recomendación del W3C. WSML utiliza de manera combinada
distintas lógicas descriptivas, y proporciona una especificación totalmente
legible unida a una sintaxis XML y RDF para el intercambio a través de la web
y con aplicaciones basadas en RDF.
Antecedentes en el razonamiento semántico para personalización
La personalización pretende seleccionar los contenidos más adecuados a los
intereses de cada usuario convenientemente almacenados en su perfil. En la
literatura se pueden encontrar principalmente cuatro métodos de filtrado:
- El filtrado demográfico emplea las características personales de los
usuarios (edad, sexo, etc.), que se proporcionan durante la fase de registro
en el sistema, para evaluar las relaciones existentes entre un determinado
producto/contenido y un tipo de usuarios dado. Por su naturaleza, este método
modela las preferencias de los usuarios en función de sus características
demográficas, y recurre a la definición de estereotipos para inicializar sus
perfiles. Como consecuencia, produce resultados demasiado generales e
imprecisos, que no suelen adaptarse a cambios en las preferencias del usuario,
toda vez que sus datos personales suelen permanecer invariantes durante largos
períodos temporales.
- El filtrado basado en contenido utiliza únicamente contenidos/productos
que le han gustado al usuario en el pasado. Así, su perfil deberá almacenar
este tipo de información. Como consecuencia, sus resultados son repetitivos y
conllevan una sobreespecialización (resultados demasiado similares); además la
especificación de los atributos necesarios de los productos es normalmente
compleja y podría requerir la participación de un experto. Finalmente, este
método adolece del problema denominado new user ramp-up: debido a la mínima
información disponible sobre nuevos usuarios, las primeras operaciones de
filtrado presentan una baja precisión.
- El filtrado colaborativo es una de las técnicas más empleadas actualmente
y se basa en la utilización de las preferencias personales de otros usuarios
con intereses similares (denominados vecinos) en lugar de estudiar
separadamente las preferencias de cada individuo. Este método puede basarse en
el usuario, seleccionando para él aquellos productos/contenidos que han
interesado a sus vecinos; o bien basarse en el elemento, seleccionando un
producto/contenido para un usuario si es similar a los que tiene almacenados
en su perfil personal (dos elementos son similares si los usuarios que muestran
interés por uno de ellos tienden a hacerlo por el otro). En ambos casos, el
filtrado colaborativo permite superar la falta de diversidad asociada a los
métodos basados en contenido; sin embargo, esta técnica también presenta
algunos inconvenientes, como el new user ramp-up provocado por la dificultad
de localizar el vecindario adecuado para un usuario nuevo de cuyas preferencias
se tiene muy poca información; el sparsity problem provocado por el aumento en
el número de elementos a filtrar (lo que implica vecindarios más reducidos por
la creciente dificultad de encontrar usuarios con valoraciones similares para
los mismos productos/contenidos); el gray sheep que dificulta la
personalización diferenciada para usuarios con preferencias muy distintas a la
del resto de la comunidad; los problemas de latencia excesiva que afectan a la
escalabilidad, etc.
- Filtrados híbridos. Las limitaciones identificadas en los métodos
anteriores plantearon la necesidad de combinar varias de estas estrategias
para así aunar sus ventajas y neutralizar sus inconvenientes. El enfoque más
extendido es el que combina el filtrado colaborativo y los métodos basados en
contenido, porque así se contemplan tanto las preferencias vecinales como las
propias, al tiempo que se solventa el excesivo parecido en los filtrados
basados en contenido y se eliminan los tiempos de latencia propios del
filtrado colaborativo.
Todos estos enfoques de personalización se basan en la inferencia de
conocimiento a partir de las preferencias de los usuarios y, la mayoría
utiliza técnicas de cotejamiento sintáctico. Sin embargo, ninguno de ellos
infiere dicho conocimiento a partir de un proceso de razonamiento basado en el
descubrimiento de relaciones semánticas complejas entre dichas preferencias y
los contenidos. Este tipo de razonamiento semántico, inspirado en la filosofía
de la Web Semántica, se ha utilizado con éxito en el marco del proyecto AVATAR.
Antecedentes en la manipulación de contenidos multimedia en tiempo de
visionado
La manipulación de contenidos multimedia en tiempo de visionado se ha visto
tradicionalmente limitada por la transmisión de los mismos en forma de flujos
binarios sin apenas más estructura que el fotograma (para secuencias de vídeo)
o la muestra de sonido (para el audio). En consecuencia, las posibilidades de
composición en los dispositivos receptores se reducían al solapamiento
(overlay) de imágenes con algún efecto de transparencia o mezcla de color, y a
la mezcla de pistas de audio controlando el volumen, efectos sencillos de
desvanecimiento (fading), etc. Tales restricciones están llamadas a desaparecer
con la consolidación del conjunto de normas que aglutina MPEG-4.
En relación con el presente proyecto MiSPOT, las novedades más destacadas de
MPEG-4 se centran en su enfoque orientado a objetos y en las posibilidades de
interacción. En primer lugar, el flujo binario da paso a un modelo que permite
identificar y manipular por separado los distintos objetos que forman una
escena (personas, mobiliario, fuentes de sonido), con posibilidades para
combinar fragmentos de video de formas arbitrarias (no sólo la tradicional
forma rectangular), múltiples pistas de audio grabado o sintético, objetos
3-D, fondos (sprites) y texto, entre otros; todo ello, con una información
espacial, temporal y de forma que habilita efectos avanzados de
posicionamiento, deformación, iluminación, reverberación, modulación de tono,
etc. Por otra parte, se soportan múltiples formas de interactuar con los
objetos en tiempo de visionado, desde hacer clic en determinadas partes para
lanzar eventos de usuario hasta modificar las propias características de
color, forma, localización, etc. de los objetos. Finalmente, cabe destacar que
la mayoría de las características que conforman MPEG-4 son opcionales, esto
es, no tienen que estar disponibles en todas las implementaciones. En este
sentido, el estándar incluye conceptos de perfil y nivel que permiten definir
conjuntos específicos de capacidades a implementar en diferentes tipos de
dispositivos, con el fin de adaptarse a un amplio espectro de capacidades
computacionales, de representación y de interacción -en cualquiera de estos
aspectos, poco tienen que ver las prestaciones de ordenadores personales,
receptores de televisión domésticos o terminales móviles. La adaptabilidad se
extiende también a las redes de comunicaciones, desde conexiones telefónicas
vía módem con tasas de transmisión reducidas hasta redes de difusión con gran
ancho de banda. Tal es así que ya se han hecho implementaciones de MPEG-4 en
receptores domésticos basados en la norma MHP (proyecto SAMBITS) y
para teléfonos móviles de tercera generación.
Antecedentes en el campo de la TVDI
Actualmente estamos asistiendo al despliegue de las tecnologías de la TVDI,
aunque el momento en que se produzca el apagón analógico y todas las emisiones
sean en digital todavía se estima que no llegará, al menos, hasta finales de la
presente década, dependiendo principalmente del grado de madurez de la
tecnología y de la aceptación social. En cualquier caso, la TVDI introducirá
dos mejoras significativas: en primer lugar, se dispondrá de una mejor calidad
y un uso más eficiente del ancho de banda, permitiendo incrementar
sustancialmente la cantidad de contenidos que se podrán transmitir; además,
será posible transmitir aplicaciones interactivas junto con los contenidos
audiovisuales, abriendo el acceso a servicios telemáticos que convertirán el
receptor de televisión en un elemento de comunicación bidireccional,
abandonando su papel tradicional de dispositivo pasivo.
En el campo de la TVDI se está dedicando un esfuerzo considerable para
conseguir compatibilizar los desarrollos, dada la heterogeneidad de redes,
sistemas operativos y hardware que pueden encontrarse de un extremo al otro de
la TVDI. Desde un punto de vista económico, esta compatibilidad es necesaria
para establecer un mercado horizontal que impulse la competitividad en todos
los niveles de la cadena de valor, y varias organizaciones (principalmente, de
Europa, Estados Unidos y Japón) han producido normas que regulan las
características de los protocolos de transmisión, de las aplicaciones
interactivas y de los receptores que las ejecutarán:
- En lo que se refiere a la transmisión de la señal de televisión, las
iniciativas más exitosas para receptores domésticos han sido las promulgadas
por el consorcio DVB (Digital Video Broadcasting), considerando formas de
difusión terrestre, por cable y por satélite (estándares DVB-T, DVB-C y DVB-S,
respectivamente). El abanico de posibilidades es más amplio para dispositivos
móviles, ya que pueden encontrarse estándares como DMB (Digital Multimedia
Broadcasting) en Corea del Sur, MediaFLO en Estados Unidos, y MBMS (Multimedia
Broadcast Multicast Service) o DVB-H (Digital Video Broadcasting - Handheld) en Europa. Estas iniciativas difieren en los mecanismos que incorporan
para reducir el consumo de batería, para mantener la recepción aunque el
dispositivo se mueva de una zona de cobertura a otra diferente (handover) o
para manejar errores en las dificultosas condiciones de recepción que surgen
frecuentemente a raíz de la reducida ganancia de las antenas, la movilidad de
los dispositivos, etc.
- En cuanto a las aplicaciones interactivas y los receptores de TDVI,
existen varias posibilidades para el mercado doméstico, como MHP (Multimedia
Home Platform), la solución DVB, predominante en Europa; OCAP (Open Cable
Application Platform) en Estados Unidos; o ARIB B.23 en Japón. Esto estándares
comparten muchas características, hasta el punto de que actualmente se están
aglutinando en el marco común de la iniciativa GEM (Globally Executable MHP),
lanzada por el consorcio DVB en 2003. Por otro lado, en el ámbito de
los dispositivos móviles no existen todavía estándares sobre aplicaciones
interactivas, sino únicamente algunas soluciones propietarias.
En Europa, parece probable que el futuro seguirá dominado por las soluciones
DVB. Por una parte, MHP ha conseguido el apoyo masivo de administraciones,
operadoras de televisión y fabricantes de equipos, al tiempo que durante los
últimos años ya se han desplegado un buen número de aplicaciones
interactivas. En el ámbito móvil, la difusión sobre DVB-H todavía no está
operativa, pero sí se han lanzado algunas experiencias piloto, y varias
operadoras de telefonía han comenzado a tantear el terreno utilizando las redes
actualmente desplegadas (2G y 3G) permitiendo el acceso de sus abonados a
mobisodes (episodios cortos de TV para dispositivos móviles) con apreciable
éxito. Asimismo, se espera que el soporte que DVB-H ofrece para comunicaciones
basadas en IP (IP Datacasting, etc.) permitirá definir un middleware para
aplicaciones interactivas sobre dispositivos móviles, que (al igual que hace
MHP para receptores domésticos) normalizaoperadora de TV, etc.