Musimage: un sistema para la presentación automática de fotografías en base a la música que se escucha

Musimage: un sistema para la presentación automática de fotografías en base a la música que se escucha Jesús Ibáñez, David García, and Oscar Serrano D

Author: María Teresa Roldán Ponce

0 downloads 23 Views 166KB Size

Report

DOWNLOAD PDF

Recommend Stories

TV sistema de escucha

Se llama logaritmo en base a de P, y se escribe log a P, al exponente al que hay que elevar la base a para obtener P

Log a P = X Se llama logaritmo g en base a de P,, y se escribe log ga P,, al exponente al que hay que elevar la base a para obtener P. Log a P = x

La Escucha. Los diferentes tipos de escucha

A la escucha de la palabra

A la escucha de la palabra. Escuchar la Palabra es saber "prepararle el terreno". Es el lugar donde cae la semilla (Mt 13, 1-9) el factor que determin

Ejercicios para la ESCUCHA ACTIVA

A LA ESCUCHA DE LA PALABRA

Estructura de la base de datos en la que se almacena la lista ASFIS de especies

En este artículo se presenta la base para un proyecto piloto de

Relatos y reflexiones en talleres del conocimiento 185 RELATOS Y REFLEXIONES EN TALLERES DEL CONOCIMIENTO INGER HELEN ERSTAD 1 Directora del proyect

Sabemos que para que se produzca la vida en nuestro

He dejado para un estudio apartado a la excedencia voluntaria debido a que se trata de

Story Transcript

Musimage: un sistema para la presentación automática de fotografías en base a la música que se escucha Jesús Ibáñez, David García, and Oscar Serrano Departamento de Tecnologías de la Información y las Comunicaciones, Universidad Pompeu Fabra, Barcelona, Spain {jesus.ibanez, david.garcian, oscar.serrano}@upf.edu

Resumen. Este artículo presenta Musimage, un nuevo sistema que muestra fotografías de acuerdo con las canciones que suenan al mismo tiempo. A través del interfaz de usuario se seleccionan las canciones que se desea escuchar, mientras que las fotografías son seleccionadas automáticamente por el sistema. Por cada canción seleccionada, el sistema selecciona un conjunto de fotografías, de acuerdo con varios criterios que se corresponden con algunas características de la canción. En este sentido, las fotografías que se muestran son, metafóricamente, disparadas por las canciones que se escuchan.

1 Motivación La música nos transporta en el tiempo y el espacio. Escuchar una canción nos puede llevar a recordar hechos que sucedieron y sentimientos que tuvimos en la época en la que solíamos escuchar esa canción en el pasado. Algunas canciones no evocan momentos concretos, sino épocas de nuestra vida. Canciones que escuchábamos en el 1994 dispararán probablemente recuerdos de ese año o de los años siguientes. Esta es la idea que nos llevó a diseñar y desarrollar Musimage, el sistema que se presenta en este artículo. Nuestra idea original fue diseñar un interfaz que por un lado acompaña al usuario en este proceso de recordar, y por otro lado es capaz de ilustrar la canción. En los últimos años se están comenzando a conocer mejor algunos aspectos del poder de evocación de la música. Así, en [1] se dice: "para la gente con la enfermedad de Alzheimer, como para todos nosotros, la música es un modo de disparar recuerdos y asociaciones olvidados. Los investigadores han descubierto que la música se procesa en las mismas áreas del cerebro que almacenan los recuerdos, y una canción familiar puede llevarle a uno hacia atrás, a los sentimientos que se experimentaron cuando se escuchó por primera vez". En [14] se describe un estudio sobre la memoria a largo plazo para la música popular. Los sujetos del estudio escuchaban fragmentos de canciones populares y debían valorarlas en términos de emocionalidad y preferencia. Los resultados mostraron que las valoraciones de los ancianos para la emocionalidad fueron más altas para las canciones de su juventud. Además también recordaban más de esas canciones IX Congreso Internacional Interacción, Albacete 9-11 de Junio de 2008 Grupo LoUISE-Universidad de Castilla-La Mancha

136 J. Ibáñez, D. García, O. Serrano

que de otras. Sin embargo, el estímulo falló para recordar muchos recuerdos autobiográficos de eventos concretos. Por otro lado, el valor de las fotografías como agente propiciador de recuerdos es innegable. Como se dice en [3], "las fotografías son representantes irremplazables de los recuerdos que la gente tiene. Son el número uno indiscutible en las clasificaciones de objetos importantes". Por tanto, tiene sentido pensar en un sistema que aumente el poder evocador de la música ilustrando la experiencia del usuario con fotografías. Musimage, el sistema que se presenta en este artículo, muestra fotografías de acuerdo con las canciones que suenan al mismo tiempo. A través del interfaz (ver figura 1), el usuario selecciona las canciones que quiere escuchar, mientras que las fotografías se eligen automáticamente. Para cada canción, el sistema selecciona un conjunto de fotografías, de acuerdo con varios criterios relacionados con ciertas características de la canción (en particular su letra y año). Los temas de una canción se obtienen automáticamente a partir de su letra, mediante un proceso de categorización. Estas características semánticas (temas y año) se usan entonces como claves para recuperar fotos de la colección personal del usuario y de servidores de fotos en Internet.

Fig. 1. Interfaz de usuario

El resto del artículo está estructurado como se indica a continuación. En primer lugar se describe la arquitectura y el funcionamiento global del sistema. Después se detallan los mecanismos que se han diseñado para la selección de fotografías a partir de las canciones. Finalmente se incluyen las conclusiones y el trabajo futuro. Además, a lo largo del artículo se incluyen referencias a trabajos relacionados.

Musimage: un sistema para la presentación automática de fotografías

137

2 Arquitectura y funcionamiento global El trabajo que se presenta en este artículo se encuadra en una línea de investigación más genérica en la que estamos explorando, de forma más general, la indirección de la información. Estudiamos cómo las acciones de los usuarios pueden traducirse de forma indirecta en otras acciones más allá de la intención original del usuario. Todo esto entronca con los paradigmas de computación ubícua [15][16] e inteligencia ambiental [10]. Y también con las visiones de Mitchel [11] y Dertouzos [4]. Todos estos paradigmas y visiones comparten un escenario en el que los objetos cotidianos contienen un componente digital que los conecta en redes que, en conjunto, constituyen una red de información invisible que nos envuelve y que se mezcla con el entorno físico que hasta hoy conocíamos. Con este horizonte, nosotros estamos explorando mecanismos que permitan que la interacción del usuario con esta red invisible pueda tener otras consecuencias adecuadas más allá de la esencialmente esperada por el usuario. Por eso, aunque en el sistema que presentamos aquí trabajamos con canciones (como disparadores) y fotos (como medias disparados), al diseñar la arquitectura buscamos que fuese flexible y extensible, de modo que fuese capaz de trabajar con otros medias e interrelaciones entre ellos. Como consecuencia de estas consideraciones y requerimientos, la arquitectura del sistema es un sistema multi-agente [5]. Más concretamente, el sistema se ha desarrollado con el framework JADE (Java Agent DEvelopment) [2]. Diseñar la arquitectura como un sistema multi-agente facilita la separación de diferentes funcionalidades en diferentes componentes (agentes). Además facilita la adición de nuevos agentes que aporten nuevas funcionalidades. Así, en la aplicación que se presenta en este artículo, el reproductor de canciones y el visualizador de fotos son dos agentes distintos y, aunque accesibles desde un mismo interfaz de usuario, son fácilmente separables. Por eso, el sistema podría, por ejemplo, mostrar fotos en un marco digital de fotos teniendo en cuenta la música que estamos escuchando en nuestro portátil. La figura 2 muestra la arquitectura global del sistema actual. La arquitectura se basa en una red de brokers o mediadores. Los agentes obtienen los servicios que requieren solicitándolos a su broker local. Cuando un broker local no es capaz de resolver la tarea que se le solicita, éste la solicita a su vez a la red de brokers externos de forma transparente para su agente cliente. Así, el reproductor de música y el visualizador de fotos son dos agentes conectados a un broker local. El reproductor de música informa al broker sobre las canciones que reproduce y va a reproducir. El visualizador de fotos pide al broker que le envíe fotografías para visualizar a partir de las acciones del agente reproductor de música. El broker es el que, mediante una serie de procesos que veremos más adelante, decide qué fotografías son disparadas por las canciones que pincha el reproductor de música, e informa de ello al agente visualizador para que las visualice. Para ello el broker, a su vez, requiere el acceso a diversos servicios: acceso a servidores de letras de canciones en Internet, categorización automática de letras de canciones y acceso a servidores de fotografías. Si el broker local no es capaz de ejecutar alguna de estas tareas, la solicitará a la red de brokers externos.

138 J. Ibáñez, D. García, O. Serrano

Broker externo

Broker externo

Servidor externo de letras de canciones

Servidor externo de fotos

Internet

Servidor local de fotos

Red de brokers

Broker local

Agente reproductor de canciones

Agente visualizador de fotos

Figura 2. Arquitectura global

El sistema emplea categorización automática de texto para asignar a la letra de la canción un conjunto de temas ponderados, que después son contrastados con los temas de las fotografías. Por tanto, el sistema requiere dos pasos previos para su correcto funcionamiento: Por un lado necesita que el categorizador de letras de canciones sea previamente entrenado con un conjunto representativo de letras de canciones. Por otro lado requiere que la colección personal de fotografías del usuario esté anotada con palabras clave (temas) y fecha. El entrenamiento del categorizador no es muy problemático, porque se puede hacer una única vez al principio. Además, se puede reusar el categorizador entrenado por otro usuario. Más complicada es la anotación de las fotografías por parte de los usuarios, aunque veremos que no tanto como parece. Por un lado, la anotación de la fecha de la foto, si ésta se saca con una cámara digital, la fija la propia cámara. De modo que sólo sería necesario anotar las fotos que no se hayan realizado con cámaras digitales. Por otro lado, la anotación temática de las fotografías es algo a lo que los usuarios empiezan a estar habituados, gracias a servicios como Flickr, Picasa, etc en los que los usuarios etiquetan las fotografías con palabras clave. También existen muchas iniciativas para la anotación semántica de fotografías, en gran parte promovidas por el auge de la Web Semántica. Por ejemplo, en [13] se describe un enfoque y una herramienta para realizar anotaciones en fotografías, facilitando así búsquedas más inteligentes. Las fotografías se anotan en base a ontologías definidas en RDF Schema. Otro ejemplo se presenta en [7], donde se describe una herramienta para la anotación y administración de

Musimage: un sistema para la presentación automática de fotografías

139

fotografías en la Web Semántica. En particular facilita la creación y publicación de anotaciones OWL del contenido de las imágenes en la Web Semántica. Además, en los últimos años han aparecido técnicas para categorizar automáticamente las fotografías en base al contexto en que aparecen (por ejemplo el texto de los párrafos que las rodean). En este sentido, en [8] se describe un estudio sobre la categorización funcional de imágenes de documentos Web. Por otro lado, ya existen prototipos de cámaras digitales que, aparte de los aspectos puramente visuales del escenario, permiten capturar otros aspectos del contexto, como el sonido, la temperatura, el movimiento, la polución, etc [12][9][6]. Estos elementos, que se anotarán automáticamente en futuros modelos de cámaras digitales, permitirán nuevos mecanismos de selección de fotografías en Musimage. Para ilustrar el funcionamiento global de Musimage, a continuación mostramos la serie ordenada de pasos que se siguen en un caso de uso típico: 1. 2.

3.

4.

5.

6.

El usuario selecciona una canción o una lista de canciones a escuchar. El sistema analiza la descripción ID3 de cada canción. El ID3 codifica metadatos en los archivos mp3. Estos metadatos incluyen el título de la canción, el artista, el álbum, el año, el género, comentarios, e incluso pueden incluir la letra de la canción. El sistema obtiene los cuatro primeros metadatos citados. El sistema recupera la letra correspondiente a cada canción desde un servidor de letras de Internet. Para encontrar la letra, utiliza los metadatos obtenidos de la descripción ID3. El sistema asigna automáticamente una lista de temas ponderados a cada canción, usando para ello técnicas de categorización automática de textos a la letra de la canción. La lista de temas ponderados es una lista de pares temas/peso, donde el peso indica la probabilidad de que la letra de la canción sea de ese tema. Para realizar la categorización automática, el sistema actual utiliza el algoritmo Naive Bayes incluido en las librerías Weka [17]. El sistema selecciona un conjunto de fotos a mostrar mientras suena cada canción, teniendo en cuenta para ello los siguientes parámetros de la canción: lista de temas, año y duración. Las canciones de la lista se reproducen secuencialmente, y para cada canción que se reproduce se muestra el conjunto de fotos correspondiente.

El proceso que se sigue en el paso 5, en el que el sistema selecciona el conjunto de fotos a mostrar mientras suena cada canción a partir de ciertos parámetros de la canción (lista de temas, año y duración), se detalla en la sección siguiente.

3 Selección de fotografías Dada una canción s seleccionada para ser escuchada, el sistema selecciona un subconjunto de fotografías para mostrar mientras suene la canción. Más concretamente, se seleccionan n fotografías, donde n se calcula como sigue:

140 J. Ibáñez, D. García, O. Serrano

n

length s refreshTime

donde length(s) es la duración de la canción s y refreshTime es el tiempo que cada fotografía está expuesta. Más específicamente, el sistema selecciona las n fotografías con el mayor valor de similaridad con respecto a la canción s. La similaridad entre una canción s y una fotografía p se define como:

similarity(s, p)

c1 (s, p) w1

c2 (s, p) w2

donde la similaridad se calcula como la suma ponderada de dos criterios, c1 y c2. c1 es un criterio que mide la similaridad teniendo en cuenta el año en que se grabó la canción y el año en que se sacó la foto. Por otro lado, c2 es un criterio que mide la similaridad estimando la afinidad entre los temas de la canción y los temas de la foto. Ambos criterios c1 y c2 son ponderados respectivamente por w1 y w2, que son tales que w1 + w2 = 1. El usuario puede fijar estos pesos desde el interfaz de usuario. A continuación se muestra como se calculan c1 y c2. 3.1 Similaridad basada en el año El criterio c1 mide la similaridad entre una canción s y una foto p teniendo en cuenta el año en que se grabó la canción y el año en que se sacó la foto. Esta similaridad se define asi:

c1 (s, p)

0 c d (s, p) c 0

para d (s, p) 0 para 0 d (s, p) c para d (s, p) c

donde c es un valor constante que define un número máximo de años, tal que si la foto p fue sacada c o más años después de que se grabó la canción, entonces no hay ninguna similaridad entre p y s. Y d(s, p) se define como sigue:

d (s, p)

year( p) year(s)

donde year(p) es el año en que se sacó la foto p y year(s) es el año en que se grabó la canción s. Así, utilizando el criterio c1, la similaridad entre una canción y una foto es mayor que cero si la foto se sacó el mismo año en que se grabó la canción o después de ese año pero no más de c años después (ver figura 3). Además, la similaridad es mayor cuanto más cercanos son estos años.

Musimage: un sistema para la presentación automática de fotografías

141

c1(s,p) 1

0

d(s,p) 0

c

Figura 3. Similaridad basada en el año

3.2 Similaridad basada en el tema El criterio c2 mide la similaridad entre una canción s y una foto p estimando la afinidad entre los temas de la canción y los temas de la foto. La canción s se categoriza automáticamente. Como resultado, por cada categoría de canciones, sc, se obtiene un valor vcat(s, sc), tal que dicho valor indica el grado con el que la canción s pertenece a la categoría sc. Sea {sc1, ..., scn} el conjunto de categorías de canciones sci tales que vcat(s, sci) > 0. Por otro lado, cada foto p está anotada con un conjunto de categorías de fotos. Sea {pc1,..., pcp} el conjunto de categorías de fotos a las que pertenece la foto p (es decir, la foto p está anotada con estas categorías). El sistema usa una tabla que contiene la afinidad entre pares (sc, pc), donde sc es una categoría de canciones y pc es una categoría de fotos. Sea affinity(sc, pc) el valor de la afinidad entre sc y pc almacenado en esa tabla. Este valor indica el grado con que esperamos que una foto de la categoría pc sea disparado por una canción de la categoría sc. Así, la similaridad basada en el tema entre la canción s y la foto p se define como:

c2 (s, p)

n

p

i 1 j 1

vcat(s, sci ) affinity(sci , pc j )

y los valores de c2(s, p) se normalizan después entre 0 y 1.

4 Conclusiones y trabajo futuro En este artículo se ha descrito el diseño y desarrollo de Musimage, un nuevo sistema que muestra fotografías de acuerdo con las canciones que suenan al mismo tiempo. A través del interfaz de usuario se seleccionan las canciones que se desea escuchar, mientras que las fotografías son seleccionadas automáticamente por el sistema. Por cada canción seleccionada, el sistema selecciona un conjunto de fotografías, de acuerdo con varios criterios que se corresponden con algunas características de la canción. En este sentido, las fotografías que se muestran son, metafóricamente, disparadas por las canciones que se escuchan. El sistema se ha desarrollado como un sistema multiagente, lo que le confiere flexibilidad y extensibilidad.

142 J. Ibáñez, D. García, O. Serrano

El sistema descrito ha sido ya utilizado con éxito por parte de los autores en entornos individuales, y en un futuro próximo planeamos usarlo en espacios públicos compartidos. Nuestra idea es utilizar Musimage en bares, para aumentar con proyección de fotografías la música que pincha el DJ y explorar su efecto como agente provocador de las relaciones sociales y conversaciones. Como trabajo futuro también investigaremos el uso de otras acciones y medias como entrada y salida, aparte de las canciones y fotografías. En particular comenzaremos explorando otros tipos de visualización más abstracta y dinámica.

Referencias 1. Liafline: Newsletter of the long island alzheimer's foundation, February 2004. 2. Fabio Luigi Bellifemine, Giovanni Caire, and Dominic Greenwood, Developing multi-agent systems with jade, Wiley Series in Agent Technology, John Wiley and Sons Ltd, 2007. 3. Boris de Ruyter, 365 days ambient intelligence research in homelab, Neroc Publishers, Eindhoven, the Netherlands, 2003. 4. Michael L. Dertouzos, The unfinished revolution: Making computers human-centric, HarperCollins Publishers, 2001, Narrated By-Paul Hecht. 5. Jacques Ferber, Multi-agent system: An introduction to distributed artificial intelligence, Addison Wesley, 1999. 6. Maria Hakansson, Sara Ljungblad, and Lars Erik Holmquist, Capturing the invisible: designing context-aware photography, DUX '03: Proceedings of the 2003 conference on Designing for user experiences (New York, NY, USA), ACM, 2003, pp. 1-4. 7. Christian Halaschek-Wiener, Jennifer Golbeck, Andrew Schain, Michael Grove, Bijan Parsia, and James A. Hendler, Annotation and provenance tracking in semantic web photo libraries., IPAW (Luc Moreau and Ian T. Foster, eds.), Lecture Notes in Computer Science, vol. 4145, Springer, 2006, pp. 82-89. 8. Jianying Hu and Amit Bagga, Categorizing images in web documents, IEEE MultiMedia 11 (2004), no. 1, 22-30. 9. Sara Ljungblad, Maria Hakansson, Lalya Gaye, and Lars Erik Holmquist, Context photography: modifying the digital camera into a new creative tool, CHI '04: CHI '04 extended abstracts on Human factors in computing systems (New York, NY, USA), ACM, 2004, pp. 1191-1194. 10. Stefano Marzano and Emile Aarts (eds.), The new everyday: Views on ambient intelligence, Uitgeverij 010 Publishers, 2003. 11. William J. Mitchell, e-topia, The MIT Press, August 2000. 12. Mattias Rost, Lalya Gaye, Maria Hakansson, Sara Ljungblad, and Lars Erik Holmquist, Context photography on camera phones, UbiComp 2005 (Tokyo, Japan), September 2005. 13. A. Th. (Guus) Schreiber, Barbara Dubbeldam, Jan Wielemaker, and Bob Wielinga, Ontology-based photo annotation, IEEE Intelligent Systems 16 (2001), no. 3, 66-74. 14. M.D. Schulkind, L.K. Hennis, and D.C. Rubin, Music, emotion and autobiographical memory: They're playing your song, Memory & Cognition 27 (1999), 948-955. 15. Mark Weiser, The computer for the twenty-_rst century, Scienti_c American 265 (1991), no. 3, 94-104. 16. Mark Weiser, Ubiquitous computing, IEEE Computer 26 (1993), no. 10, 71-72. 17. Ian H. Witten and Eibe Frank, Data mining: Practical machine learning tools and techniques with java implementations, The Morgan Kaufmann Series in Data Management Systems, Morgan Kaufmann, 1999.