Antecedentes

Antecedentes en el modelado de usuario

Tal y como se ha mencionado anteriormente, no se puede plantear un sistema como el propuesto en MiSPOT sin disponer de un perfil del usuario que ofrezca una visión adecuada de sus gustos, preferencias e intereses. Consultando en la literatura especializada, puede constatarse que esta caracterización se realiza de formas bien diferentes dependiendo del ámbito de aplicación. Muchos sistemas se basan en registros o historiales de consumo, almacenando el interés previamente mostrado por el usuario en productos/contenidos; otros utilizan un perfil de usuario que almacena sus características demográficas (edad, sexo, estado civil, etc.) que son utilizados para identificar tanto a qué prototipo de usuario pertenece como los contenidos/productos que han interesado a otros usuarios con datos similares. Otros sistemas utilizan redes conceptuales (semánticas o asociativas), donde cada concepto es un nodo, las relaciones jerárquicas son enlaces entre ellos y las propiedades se establecen entre enlaces convenientemente etiquetados [IW]. En cualquier caso, e independientemente del tipo de perfil a utilizar, es necesario alimentarlo con la información adecuada y esto puede realizarse básicamente de tres formas diferentes: manualmente, automáticamente o semiautomáticamente. En el primer caso, el sistema exige al usuario una descripción explícita de sus intereses para construir el perfil inicial. En el segundo caso, las preferencias del usuario son capturadas a medida que éste interactúa con el sistema; esta técnica se ha utilizado con éxito en herramientas de personalización Web a partir del historial de navegación (como WebSell o Webmate). La solución intermedia puede implementarse, a su vez, de dos formas diferentes: utilizando estereotipos o utilizando conjuntos de entrenamiento. En el primer caso, el sistema define un conjunto de categorías genéricas para clasificar a los usuarios; así, una vez que éstos introduzcan algunos datos relevantes, el sistema les asigna un estereotipo que será utilizado como perfil inicial; el sistema LifeStyle Zinder que sugiere productos comerciales a sus usuarios ha utilizado con éxito este sistema. En el segundo caso, el sistema ofrece al usuario un conjunto de productos/contenidos para que éste identifique si le interesan o no. Partiendo de la información obtenida tras este entrenamiento, el sistema les asigna un perfil inicial; algunos ejemplos de aplicación son el News Weeder y el ACR News (para la recomendación de noticias), Ringo (en el sector musical) y Re:Agent (en el ámbito del correo electrónico).

Claramente, las preferencias e intereses de los usuarios varían a lo largo del tiempo y el perfil deberá adaptarse a estos cambios, recogiendo los datos nuevos (realimentación de relevancia) y eliminando la información que se haya quedado obsoleta (función de olvido gradual). Algunos sistemas utilizan mecanismos de realimentación explícita: proponiendo clasificaciones de los productos/contenidos como "interesantes/no interesantes"; requiriendo que el usuario explicite una valoración más concreta del interés despertado; o bien solicitando opiniones textuales. Otros sistemas utilizan formas de realimentación implícita, infiriendo la información de realimentación en función de la interacción del usuario, aunque la mayoría opta por un esquema híbrido.

Antecedentes en la caracterización de contenidos multimedia

Para asociar el i-spot personalizado a un contenido audiovisual según un esquema no intrusivo será preciso caracterizar apropiadamente este tipo de contenidos. La iniciativa internacional de mayor calado en este campo es la norma MPEG-7 (Multimedia Content Description Interface) [MPEG-7], creada por el grupo MPEG. Este grupo, perteneciente a la ISO/IEC, se estableció en el año 1998 y se ocupa del desarrollo de estándares internacionales para la compresión, descompresión, procesamiento y representación de imágenes en movimiento (vídeo), audio y la combinación de ambas. Algunos éxitos de este equipo son las normas MPEG-1 (que regula la compresión audio/vídeo para CDs), MPEG-2 (que se ocupa de la difusión de audio/vídeo para televisión de calidad) ó MPEG-4 (extensión de MPEG-1 para el soporte de objetos audiovisuales). MPEG-7, por su parte, surge para la descripción de información multimedia (fragmentos elementales, trabajos completos y bibliotecas) independientemente de su formato y medio de almacenamiento. De esta forma la gestión de contenidos multimedia es más eficiente, permitiendo una rápida y eficaz identificación de la información relevante en cada caso.

MPEG-7 permite la definición de descriptores que representan una característica distintiva de los datos. Los descriptores dedicados a las características audiovisuales de bajo nivel (color, textura, movimiento, etc.) pueden ser extraídos automáticamente, mientras que los descriptores dedicados a las características de alto nivel de los objetos semánticos, eventos y conceptos abstractos requieren de la intervención humana. Además, MPEG-7 establece esquemas de descripción que extienden los descriptores anteriormente mencionados para organizarlos en estructuras más complejas, con información sobre la creación, clasificación, acceso, organización e interacción del usuario con el contenido. Estos esquemas de descripción pueden ser definidos utilizando DDL (Description Definition Language), un lenguaje basado en el lenguaje XML Schema Structural Components utilizando XML Data Types que ha sido enriquecido con diferentes tipos de datos adicionales para la descripción de características propias y habituales en el contexto de lo audiovisual. Otra característica relevante de MPEG-7 es que los contenidos multimedia pueden organizarse en diferentes segmentos de contenido en el espacio, tiempo y/o fuente de información. Los tipos de segmentos más comunes son las regiones espaciales en 2 dimensiones (fotogramas), intervalos temporales de vídeo y las secuencias espacio-temporales de vídeo. Estos segmentos se han enriquecido para definir mosaicos (diferentes fotogramas de una misma imagen que permiten la composición de una nueva imagen), regiones 3D, segmentos multimedia (compaginando diferentes tipos de contenidos, páginas web, etc.), segmentos propios de trabajos de edición, etc. En cualquier caso, los segmentos definidos podrían estar conectados temporalmente si son continuos a lo largo del tiempo, o conectados espacialmente si constituyen una región espacial continua.

Por otra parte, el forum TV-Anytime, formado por importantes empresas del sector de la televisión, ha adoptado también la idea del etiquetado de contenidos dando lugar a la especificación TV-Anytime [TVA]. La primera fase de la norma, publicada en el año 2003 y normalizada por ETSI, uniformiza la descripción de contenidos audiovisuales genéricos, instancias específicas de los mismos, perfiles de usuario, información de segmentación de contenidos e incluso políticas relacionadas con la gestión de derechos y privacidad. Estas descripciones se realizan utilizando diferentes tipos de metadatos y es característica su independencia de la localización de los contenidos (dada habitualmente por el canal y la hora de difusión) y del protocolo de difusión utilizado. Esta independencia se consigue a través de los mecanismos de referenciación de TV-Anytime, basados en un identificador único denominado CRID (Content Reference Identifier) que enlaza a un localizador DVB que almacena la información de hora y canal de emisión. De este modo, el usuario puede seleccionar contenidos con arreglo a determinadas características sin necesidad de saber cuándo, dónde y cómo se van a transmitir; será el receptor digital quien se encargue de almacenar los contenidos cuando sea posible acceder a ellos.

En la actualidad ya se ha publicado la segunda fase de la especificación TV-Anytime, al igual que ocurrió con la primera, ha sido también normalizada por el ETSI en abril de este año 2006. Es destacable el esfuerzo realizado en esta segunda etapa para afrontar la compartición y distribución de ficheros, la sincronización de fuentes de contenidos, el empaquetado de diferentes tipos de programas y la selección de contenidos adecuados para los usuarios en función de sus preferencias personales.

Antecedentes en la caracterización de servicios

En MiSPOT se necesitará caracterizar adecuadamente los i-spots para poder realizar la personalización en las dos fases anteriormente mencionadas: decidiendo qué publicidad integrar con los contenidos televisivos y qué servicios interactivos ofrecer. Con este objetivo, se recurrirá por proximidad conceptual a arquitecturas orientadas a servicios (Service Oriented Architecture, SOA) cuyo máximo exponente, por su extensión e impacto, es la WWW. Y es en esta área donde se ha realizado un esfuerzo mayor para permitir la adecuada caracterización de los servicios Web dado que, de esta forma, se podría resolver el problema de la automatización en su descubrimiento, invocación, composición y monitorización (problemas comunes en todas las SOAs). La propuesta más extendida actualmente es WSDL (Web Service Description Language), un lenguaje sencillo basado en XML que permite describir el conjunto de operaciones que un servicio web ofrece y, para cada una de ellas, el formato en el que el cliente debe de enviar su petición. Sin embargo, esta forma de describir los servicios no permite realizar consultas inteligentes basadas en razonamiento semántico y, debido a ello, los cuatro objetivos anteriormente citados no pueden materializarse sólo con este lenguaje. Así, han surgido otras iniciativas basadas en la utilización de ontologías (especificaciones explícitas y formales de una conceptualización común) para expresar las características de los servicios web de forma que éstas sean interpretadas por cualquier entidad interesada. De entre estas iniciativas destacan, por constituir los primeros esfuerzos en esta línea, WSDL-S, que pretende dotar de características semánticas el lenguaje WSDL, y SWSL (Semantic Web Services Language) que define un lenguaje para describir la ontología de los servicios de la Web Semántica (SWSO, Semantic Web Services Ontology). En un estado más maduro se encuentran otras propuestas como OWL-S (Ontology Web Language for Services) que expresa la ontología de servicios utilizando OWL para indicar qué funcionalidad ofrece el servicio, cómo funciona y cómo acceder a él. Por otra parte, WSML (Web Service Modeling Language) proporciona una sintaxis formal y una semántica para el modelado de servicios denominada WSMO (Web Service Modeling Ontology) y, actualmente, es una recomendación del W3C. WSML utiliza de manera combinada distintas lógicas descriptivas, y proporciona una especificación totalmente legible unida a una sintaxis XML y RDF para el intercambio a través de la web y con aplicaciones basadas en RDF.

Antecedentes en el razonamiento semántico para personalización

La personalización pretende seleccionar los contenidos más adecuados a los intereses de cada usuario convenientemente almacenados en su perfil. En la literatura se pueden encontrar principalmente cuatro métodos de filtrado:

El filtrado demográfico emplea las características personales de los usuarios (edad, sexo, etc.), que se proporcionan durante la fase de registro en el sistema, para evaluar las relaciones existentes entre un determinado producto/contenido y un tipo de usuarios dado. Por su naturaleza, este método modela las preferencias de los usuarios en función de sus características demográficas, y recurre a la definición de estereotipos para inicializar sus perfiles. Como consecuencia, produce resultados demasiado generales e imprecisos, que no suelen adaptarse a cambios en las preferencias del usuario, toda vez que sus datos personales suelen permanecer invariantes durante largos períodos temporales.
El filtrado basado en contenido utiliza únicamente contenidos/productos que le han gustado al usuario en el pasado. Así, su perfil deberá almacenar este tipo de información. Como consecuencia, sus resultados son repetitivos y conllevan una sobreespecialización (resultados demasiado similares); además la especificación de los atributos necesarios de los productos es normalmente compleja y podría requerir la participación de un experto. Finalmente, este método adolece del problema denominado new user ramp-up: debido a la mínima información disponible sobre nuevos usuarios, las primeras operaciones de filtrado presentan una baja precisión.
El filtrado colaborativo es una de las técnicas más empleadas actualmente y se basa en la utilización de las preferencias personales de otros usuarios con intereses similares (denominados vecinos) en lugar de estudiar separadamente las preferencias de cada individuo. Este método puede basarse en el usuario, seleccionando para él aquellos productos/contenidos que han interesado a sus vecinos; o bien basarse en el elemento, seleccionando un producto/contenido para un usuario si es similar a los que tiene almacenados en su perfil personal (dos elementos son similares si los usuarios que muestran interés por uno de ellos tienden a hacerlo por el otro). En ambos casos, el filtrado colaborativo permite superar la falta de diversidad asociada a los métodos basados en contenido; sin embargo, esta técnica también presenta algunos inconvenientes, como el new user ramp-up provocado por la dificultad de localizar el vecindario adecuado para un usuario nuevo de cuyas preferencias se tiene muy poca información; el sparsity problem provocado por el aumento en el número de elementos a filtrar (lo que implica vecindarios más reducidos por la creciente dificultad de encontrar usuarios con valoraciones similares para los mismos productos/contenidos); el gray sheep que dificulta la personalización diferenciada para usuarios con preferencias muy distintas a la del resto de la comunidad; los problemas de latencia excesiva que afectan a la escalabilidad, etc.
Filtrados híbridos. Las limitaciones identificadas en los métodos anteriores plantearon la necesidad de combinar varias de estas estrategias para así aunar sus ventajas y neutralizar sus inconvenientes. El enfoque más extendido es el que combina el filtrado colaborativo y los métodos basados en contenido, porque así se contemplan tanto las preferencias vecinales como las propias, al tiempo que se solventa el excesivo parecido en los filtrados basados en contenido y se eliminan los tiempos de latencia propios del filtrado colaborativo.

Todos estos enfoques de personalización se basan en la inferencia de conocimiento a partir de las preferencias de los usuarios y, la mayoría utiliza técnicas de cotejamiento sintáctico. Sin embargo, ninguno de ellos infiere dicho conocimiento a partir de un proceso de razonamiento basado en el descubrimiento de relaciones semánticas complejas entre dichas preferencias y los contenidos. Este tipo de razonamiento semántico, inspirado en la filosofía de la Web Semántica, se ha utilizado con éxito en el marco del proyecto AVATAR.

Antecedentes en la manipulación de contenidos multimedia en tiempo de visionado

La manipulación de contenidos multimedia en tiempo de visionado se ha visto tradicionalmente limitada por la transmisión de los mismos en forma de flujos binarios sin apenas más estructura que el fotograma (para secuencias de vídeo) o la muestra de sonido (para el audio). En consecuencia, las posibilidades de composición en los dispositivos receptores se reducían al solapamiento (overlay) de imágenes con algún efecto de transparencia o mezcla de color, y a la mezcla de pistas de audio controlando el volumen, efectos sencillos de desvanecimiento (fading), etc. Tales restricciones están llamadas a desaparecer con la consolidación del conjunto de normas que aglutina MPEG-4.

En relación con el presente proyecto MiSPOT, las novedades más destacadas de MPEG-4 se centran en su enfoque orientado a objetos y en las posibilidades de interacción. En primer lugar, el flujo binario da paso a un modelo que permite identificar y manipular por separado los distintos objetos que forman una escena (personas, mobiliario, fuentes de sonido), con posibilidades para combinar fragmentos de video de formas arbitrarias (no sólo la tradicional forma rectangular), múltiples pistas de audio grabado o sintético, objetos 3-D, fondos (sprites) y texto, entre otros; todo ello, con una información espacial, temporal y de forma que habilita efectos avanzados de posicionamiento, deformación, iluminación, reverberación, modulación de tono, etc. Por otra parte, se soportan múltiples formas de interactuar con los objetos en tiempo de visionado, desde hacer clic en determinadas partes para lanzar eventos de usuario hasta modificar las propias características de color, forma, localización, etc. de los objetos. Finalmente, cabe destacar que la mayoría de las características que conforman MPEG-4 son opcionales, esto es, no tienen que estar disponibles en todas las implementaciones. En este sentido, el estándar incluye conceptos de perfil y nivel que permiten definir conjuntos específicos de capacidades a implementar en diferentes tipos de dispositivos, con el fin de adaptarse a un amplio espectro de capacidades computacionales, de representación y de interacción -en cualquiera de estos aspectos, poco tienen que ver las prestaciones de ordenadores personales, receptores de televisión domésticos o terminales móviles. La adaptabilidad se extiende también a las redes de comunicaciones, desde conexiones telefónicas vía módem con tasas de transmisión reducidas hasta redes de difusión con gran ancho de banda. Tal es así que ya se han hecho implementaciones de MPEG-4 en receptores domésticos basados en la norma MHP (proyecto SAMBITS) y para teléfonos móviles de tercera generación.

Antecedentes en el campo de la TVDI

Actualmente estamos asistiendo al despliegue de las tecnologías de la TVDI, aunque el momento en que se produzca el apagón analógico y todas las emisiones sean en digital todavía se estima que no llegará, al menos, hasta finales de la presente década, dependiendo principalmente del grado de madurez de la tecnología y de la aceptación social. En cualquier caso, la TVDI introducirá dos mejoras significativas: en primer lugar, se dispondrá de una mejor calidad y un uso más eficiente del ancho de banda, permitiendo incrementar sustancialmente la cantidad de contenidos que se podrán transmitir; además, será posible transmitir aplicaciones interactivas junto con los contenidos audiovisuales, abriendo el acceso a servicios telemáticos que convertirán el receptor de televisión en un elemento de comunicación bidireccional, abandonando su papel tradicional de dispositivo pasivo.

En el campo de la TVDI se está dedicando un esfuerzo considerable para conseguir compatibilizar los desarrollos, dada la heterogeneidad de redes, sistemas operativos y hardware que pueden encontrarse de un extremo al otro de la TVDI. Desde un punto de vista económico, esta compatibilidad es necesaria para establecer un mercado horizontal que impulse la competitividad en todos los niveles de la cadena de valor, y varias organizaciones (principalmente, de Europa, Estados Unidos y Japón) han producido normas que regulan las características de los protocolos de transmisión, de las aplicaciones interactivas y de los receptores que las ejecutarán:

En lo que se refiere a la transmisión de la señal de televisión, las iniciativas más exitosas para receptores domésticos han sido las promulgadas por el consorcio DVB (Digital Video Broadcasting), considerando formas de difusión terrestre, por cable y por satélite (estándares DVB-T, DVB-C y DVB-S, respectivamente). El abanico de posibilidades es más amplio para dispositivos móviles, ya que pueden encontrarse estándares como DMB (Digital Multimedia Broadcasting) en Corea del Sur, MediaFLO en Estados Unidos, y MBMS (Multimedia Broadcast Multicast Service) o DVB-H (Digital Video Broadcasting - Handheld) en Europa. Estas iniciativas difieren en los mecanismos que incorporan para reducir el consumo de batería, para mantener la recepción aunque el dispositivo se mueva de una zona de cobertura a otra diferente (handover) o para manejar errores en las dificultosas condiciones de recepción que surgen frecuentemente a raíz de la reducida ganancia de las antenas, la movilidad de los dispositivos, etc.
En cuanto a las aplicaciones interactivas y los receptores de TDVI, existen varias posibilidades para el mercado doméstico, como MHP (Multimedia Home Platform), la solución DVB, predominante en Europa; OCAP (Open Cable Application Platform) en Estados Unidos; o ARIB B.23 en Japón. Esto estándares comparten muchas características, hasta el punto de que actualmente se están aglutinando en el marco común de la iniciativa GEM (Globally Executable MHP), lanzada por el consorcio DVB en 2003. Por otro lado, en el ámbito de los dispositivos móviles no existen todavía estándares sobre aplicaciones interactivas, sino únicamente algunas soluciones propietarias.

En Europa, parece probable que el futuro seguirá dominado por las soluciones DVB. Por una parte, MHP ha conseguido el apoyo masivo de administraciones, operadoras de televisión y fabricantes de equipos, al tiempo que durante los últimos años ya se han desplegado un buen número de aplicaciones interactivas. En el ámbito móvil, la difusión sobre DVB-H todavía no está operativa, pero sí se han lanzado algunas experiencias piloto, y varias operadoras de telefonía han comenzado a tantear el terreno utilizando las redes actualmente desplegadas (2G y 3G) permitiendo el acceso de sus abonados a mobisodes (episodios cortos de TV para dispositivos móviles) con apreciable éxito. Asimismo, se espera que el soporte que DVB-H ofrece para comunicaciones basadas en IP (IP Datacasting, etc.) permitirá definir un middleware para aplicaciones interactivas sobre dispositivos móviles, que (al igual que hace MHP para receptores domésticos) normalizaoperadora de TV, etc.