ANÁLISIS AUTOMÁTICO DE EMOCIONES EN LA RED INTERNACIONAL E-CULTURAS. Eladio Blanco López 1 Fernando Martínez Santiago Antonio Pantoja Vallejo

ISSN: 1989-2446 http://www.revistareid.net/revista/n5/REID5art3.pdf ANÁLISIS AUTOMÁTICO DE EMOCIONES EN LA RED INTERNACIONAL E-CULTURAS Eladio Blan

1 downloads 1 Views 236KB Size

Story Transcript

ISSN: 1989-2446

http://www.revistareid.net/revista/n5/REID5art3.pdf

ANÁLISIS AUTOMÁTICO DE EMOCIONES EN LA RED INTERNACIONAL E-CULTURAS

Eladio Blanco López 1 Fernando Martínez Santiago Antonio Pantoja Vallejo

Resumen. En este artículo se describen las actividades llevadas a cabo para la creación del corpus sobre emociones de la edición 2009 de la Red Internacional e-Culturas, en la que han participado alumnos de 10 y 11 años de diferentes países. Se hace un repaso de la clasificación de emociones propuestas por varios autores y las utilizadas en el sistema. Se explica como se ha refinado el corpus y la experimentación llevada a cabo para entrenar un categorizador automático para las emociones seleccionadas. Posteriormente se prevé integrar tal categorizador dentro de la plataforma e-Culturas, donde el análisis de sentimientos puede resultar de gran ayuda al poder detectar automáticamente una posible reacción negativa del alumno frente a determinadas situaciones específicas de la interculturalidad para proponer actividades concretas orientadas a corregir esa aversión o prejuicio del alumno. Los resultados obtenidos en la evaluación del categorizador son esperanzadores. Pensamos que demuestran que la metodología utilizada para la creación del corpus es adecuada, y que técnicas específicas del análisis de sentimientos pueden rendir a un nivel suficientemente bueno como para ser de utilidad dentro de la plataforma eCulturas.

Palabras clave: análisis de sentimientos, minería de opiniones, creación de corpus, categorización automática.

AUTOMATIC ANALYSIS OF EMOTIONS IN THE INTERNATIONAL ECULTURAS NETWORK

Abstract. This paper describes the activities to make a corpus of emotions in the 2009 edition of the Red International e-Culturas Network, in which 10-11-year-old-children of different countries have participated. It is given an overview of the classification of emotions proposed by several authors and those used in the system. It is explained how the corpus has been refined and experimentation conducted to train an automatic classifier for the selected emotions. Later it is expected to integrate the classifier into the e-Culturas web platform, where the analysis of emotions can be very helpful in order to automatically detect a possible negative reaction of the pupil against certain specific situations of multiculturalism to propose concrete actions aimed at correcting this hatred or prejudice of the student. The results of the evaluation of the classifier are hopeful. We think that they show that the methodology used for the making of the corpus is suitable, and specific techniques can perform at a level good enough to be useful within the e-Culturas web platform.

1

Datos de los autores al final del artículo.

Revista Electrónica de Investigación y Docencia (REID), 5, Enero, 2011, 53-68.

Blanco López, E. y otros

Key words: sentiment analysis, opinion mining, making of corpus, automatic classification.

ANÁLISE AUTOMÁTICA DE EMOÇÕES NA REDE INTERNACIONAL ECULTURAS

Resumo. Neste artigo são descritas as atividades desenvolvidas na criação do corpus sobre as emoções trabalhadas na edição 2009 da Rede Internacional e-Culturas, na qual participaram alunos de 10 e 11 anos de diferentes países. É sistematizada a classificação das emoções proposta por vários autores, bem como as utilizadas no sistema. Explica-se com foi refinado o entorno e a experiência desenvolvida para delimitar um categorizador automático para as emoções selecionadas. A previsão é de integrar, posteriormente, o categorizador na plataforma e-Culturas, sendo que a análise dos sentimentos realizada pelo mesmo pode resultar em grande ajuda para detectar automaticamente uma possível reação negativa do aluno frente a determinadas situações da interculturalidade, facilitando a proposição de atividades orientadas ao tratamento da aversão ou minimização dos prejuízos causados ao aluno. Os resultados obtidos na avaliação do categorizador são esperançosos e pensamos que demonstram que a metodologia pode ser significativamente útil na plataforma e-Culturas.

Palavras-chave: análise de sentimentos, mina de opiniões, criação do corpus, categorização automática.

Introducción La llegada de la Web 2.0 (OReilly, 2005) ha multiplicado el contenido textual en Internet, pues todos sus usuarios toman parte activa como productores de información. Pero esto trae consigo la consecuente diversificación de los registros lingüísticos lejos de formalismo o los lenguajes académicos. Comentarios en "blogs", opiniones en tiendas "online", discusiones en foros y otros paradigmas de publicación han atraído el interés por hacer minería y análisis sobre estos textos de libre escritura y, en consecuencia, retador análisis (Quarterly, 2009). Esta revisión de la minería de textos se conoce como Minería de Opiniones y Análisis de Sentimientos (Opinion Mining and Sentiment Análisis - Pang & Lee, 2008). Si bien ambos términos se usan de forma no diferenciada, no son lo mismo. El análisis de sentimientos (sentiment analisys) es una tarea del Procesamiento del Lenguaje Natural que trabaja sobre aspectos como la clasificación de la polaridad de los sentimientos o la subjetividad expresados en un texto. Evidentemente, estos análisis son de gran utilidad para las tareas de minería de opinión, en las que se intenta obtener, a partir de los comentarios escritos por diversos usuarios, una idea general de la opinión del público sobre productos, noticias u otras entidades presentes en la red. La popularización de la mencionada Web 2.0 requiere de herramientas adecuadas que permitan explotar de una manera adecuada tal flujo de información. Es

54

REID, 5, pp. 53-68

Análisis Automático de Emociones en la Red Internacional e-Culturas

prometedora la confluencia de toda esta nueva fuente de texto subjetivo junto con herramientas que permitan modelar automáticamente el conocimiento allí expresado de tal forma que sea computacionalmente manipulable. El interés que despiertan estas tareas puede verse reflejado en la aparición de recursos, como una variante de WordNet que refleja aspectos relativos a sentimientos o emociones en las palabras (Esuli & Sebastiani, 2006) o corpus destinados a ser usados como base para la experimentación en técnicas de minería de opiniones y análisis de sentimientos, como el corpus multilíngüe de NTCIR (Seki, Evans, Ku, Chen, Kando, & Lin, 2007) o el corpus usado en las competiciones TREC (Ounis, MacDonald, de Rijke, Mishne, & Soboroff, 2006). Además, ya han tenido lugar importantes competiciones a nivel internacional sobre la materia, como las cuatro últimas ediciones del TREC Blog Track (de 2006 a 2009) (Ounis, Macdonald, & Soboroff, 2008) o el MOAT de 2008 (Passant & Laublet, 2008). En el presente trabajo se propone la aplicación de técnicas propias de análisis de sentimientos como una herramienta valiosa para la integración intecultural de niños de 10 a 11 años dentro del proyecto e-Culturas (Pantoja, 2008) (Alcaide, Blanco, Pantoja, & Jiménez, 2008). El artículo está organizado como sigue: a continuación, se describe en qué consiste la Red Internacional e-Culturas. En la sección 2 se detallan las emociones utilizadas. En la sección 3 se hace un breve repaso de las actividades para crear el corpus e-Culturas, en la sección 4 se describen los experimentos realizados. En la sección 5, se hace un análisis de los resultados obtenidos. Finalmente en la sección 6 se resume brevemente este trabajo, así como la línea de investigación futura.

La Red Internacional e-Culturas La Universidad de Jaén a través del Grupo de Investigación IDEO ha puesto en marcha una investigación para aplicar el Programa intercultural e-Culturas, basado en el modelo constructivista y cognitivo de aprendizaje, mediante el uso de las Tecnologías de la Información y Comunicación (TIC), con el fin de apoyar el plan Andaluz para la inmigración desde una óptica socio-educativa. La primera edición del mismo tuvo lugar en el año 2005 y en ella participaron varios centros de Jaén y y de Ecuador. A partir de esta experiencia se comienzan a desarrollar otras ediciones del proyecto a las que se adscriben diversos países de Latinoamérica, pasando en 2007 el proyecto a denominarse Red internacional eCulturas iniciándose una experimentación basada en hermanamientos múltiples entre niños de España y de distintos países de Latinoamérica. La filosofía y el sustento psicopedagógico no varían, aunque los materiales de trabajo se modifican y actualizan según las evaluaciones llevadas a cabo los años anteriores.

REID, 5, pp. 53-68

55

Blanco López, E. y otros

Como objetivo principal cabe destacar el favorecer la interacción y el conocimiento cultural entre el alumnado y profesorado de centros educativos españoles y de Latinoamérica. Éste se completa con varios objetivos específicos, como los siguientes: •

Desarrollar modelos interculturales que integren contenidos de los países participantes, como ejes transversales que faciliten la adaptación de los estudiantes latinoamericanos e hispanos, en general, al sistema educativo español y que permitan a su contraparte española ayudar a esta adaptación.



Desarrollar guías didácticas y metodológicas que favorezcan la comprensión y puesta en práctica de los distintos materiales interculturales.



Desarrollar estrategias y habilidades cognitivas (análisis, síntesis, representación, elaboración, creatividad...) para el desenvolvimiento en una sociedad multicultural.



Diseñar un programa intercultural que permita, mediante el uso activo de las TIC, el intercambio de culturas.



Realizar e intercambiar proyectos pedagógicos que promuevan la participación activa de estudiantes españoles y latinoamericanos a través del uso de las TIC.



Capacitar al profesorado participante en el programa intercultural e-Culturas, utilizando de manera efectiva las TIC.

Los alumnos que han participado en la última edición del proyecto fueron 517 de 5 países diferentes agrupados en 14 centros y 18 aulas (cada grupo contaba con un tutor que les ayudaba en caso de alguna dificultad y a la vez los tutores de los grupos hermanados estaban también en contacto para cualquier problema que les surgiera). Todos eran alumnos de 5º y 6º de Educación Primaria de España y de niveles similares en el resto de los países (entre 10 y 11 años de edad). La Tabla 1 muestra los alumnos que han participado en esta experiencia en la última edición de e-Culturas, desglosado por países. País Argentina Brasil Chile España Paraguay Total

Número de alumnos 55 121 154 139 48 517

Tabla 1. Alumnos por país en la edición de e-Culturas correspondiente al año 2009.

Dado que la plataforma e-Culturas propone a cada alumno diversas tareas encaminadas a favorecer la interculturalidad, se pretende que algunas de estas tareas

56

REID, 5, pp. 53-68

Análisis Automático de Emociones en la Red Internacional e-Culturas

vayan encaminadas a reforzar positivamente aquellos aspectos que le causen rechazo al alumno, y es aquí donde es necesario aplicar análisis de sentimientos: la plataforma debe analizar los textos de los niños buscando determinadas reacciones, y una vez detectadas, proponer ciertas actividades correctoras. En esta primera etapa del trabajo que aquí se describe nos hemos centrado en tres emociones: alegría tristeza y miedo. El sistema software de la Red Internacional e-Culturas está compuesto principalmente por una plataforma web donde cada usuario, mediante contraseña, tiene acceso a los distintos materiales y recursos, así como noticias, eventos y otra información importante (e-Culturas, 2009). Dicha información y recursos cambia en función del rol del usuario, esto es, los alumnos tienen una vista de sus actividades, los tutores la tienen de sus distintos alumnos para ver cómo evolucionan y los administradores pueden gestionar diferentes aspectos de la plataforma.

Emociones utilizadas Antes de explicar el por qué de las emociones que se han utilizado, es necesario conocer algunas definiciones, como la propia de emoción, que es un estado complejo del organismo caracterizado por una excitación o perturbación que predispone a la acción (Bisquerra, 2000). Por Educación Emocional se entiende el desarrollo de conocimientos y habilidades sobre las emociones con la finalidad de capacitar a la persona para afrontar mejor los retos de la vida, mejorando su bienestar personal y social (Bisquerra, 2002). En la literatura existen diversas clasificaciones de emociones (Bisquerra, 2002; Goleman, 2001). En la Tabla 2 se muestran las clasificaciones de las emociones más extendidas. En este trabajo se han seleccionado tres de ellas atendiendo, primero, a su utilidad de cara a su integración dentro de la plataforma de e-Culturas y, segundo, que sean emociones bien diferenciadas. Por ejemplo, Bisquerra distingue entre alegría y felicidad; pensamos que conseguir distinguir entre emociones tan similares mediante un formalismo computacional es excesivamente ambicioso, al menos en el estadio actual del proyecto. La emoción ira, según bastantes autores, junto al miedo, alegría y tristeza forman las llamadas emociones primarias, las cuales están biológica y genéticamente predeterminadas (son innatas), a diferencia de las emociones secundarias (amor, sorpresa, aversión, vergüenza) que son el producto de aprendizajes, es decir, de combinaciones y modulaciones de las emociones básicas que han sido experimentadas y aprendidas por la persona. En este estudio inicial se ha dejado la ira fuera para abordar el problema a tratar con una mayor sencillez. En futuros trabajos de ampliación del corpus, se prevé incluirla, así como alguna otra emoción si se considere oportuno.

REID, 5, pp. 53-68

57

Blanco López, E. y otros

Emoción Ira Tristeza Miedo Placer Amor Sorpresa Enojo Vergüenza Ansiedad Aversión Alegría Humor Felicidad Esperanza Compasión Cólera

Goleman (2001) X X X X X X X X

Bisquerra (2002) X X X X X X X X X X X X X X

Tabla 2. Clasificación de emociones.

Actividades para generar textos sobre emociones En esta edición del a Red Internacional e-Culturas se han propuesto a los alumnos algunas actividades específicas orientas a describir ciertas emociones. Así, a los alumnos se les anima a expresen emociones relativas al miedo, la alegría y la tristeza. Para ello se les propone algunas actividades que se han seleccionado de entre las que se proponen por Renom i Plana (Renom i Plana, 2008). En concreto se han usado estas dos: Actividad 1: ¿Qué se siente? •

Objetivos: o Expresar emociones a través de una imagen dada. o Comunicar y describir verbalmente las propias emociones. o Diferenciar emociones en situaciones similares.



Procedimiento: Se le muestran al alumno una serie de fotografías y se le pide que anote la primera emoción que haya sentido y que desarrollen lo que piensan.



Ejemplo de fotografías: o Alegría: Una madre jugando con dos niños y un perro, personas riéndose... o Miedo: Personas con la boca abierta y caras de terror. o Tristeza: Una persona llorando con ropa sucia y rota.

58

REID, 5, pp. 53-68

Análisis Automático de Emociones en la Red Internacional e-Culturas



Variante: Se pone a la vista del usuario bastantes fotografías y se le pide que seleccione la que le causa alguna emoción. A continuación tendrá que explicar por qué la ha seleccionado y qué emoción ha provocado en él.

Actividad 2: Las emociones de la semana/mes •

Objetivos: o Recordar situaciones vividas. o Descubrir y comparar emociones propias.



Procedimiento: Se le pide al alumno que recuerde situaciones vividas durante la última semana/mes. A continuación se le pide que escriba por separado aquellas situaciones que tengan que ver con alegría, miedo y tristeza.

Cada alumno tuvo que realizar las dos actividades explicadas anteriormente. En el caso de las aulas de España se supervisó personalmente la realización de las actividades para que generaran el mayor número de texto posible. En los países Latinoamericanos se delegó esta responsabilidad en los tutores, cuya implicación fue menor al ser un apartado opcional dentro del proyecto y de ahí el menor número de textos producidos por estos países. De las actividades para recoger texto, la Actividad 1, en la que se le pedía al alumno que anotase la emoción que había sentido y lo que había pensado al ver una fotografía, no resultó de utilidad, pues el alumno se limitaba a describir lo que veía en la fotografía sin llegar a expresar ninguna emoción en el texto. Por ejemplo, en la figura 2 se limitaban a comentar que les parecía graciosa la situación, en vez de intentar ponerse en el pellejo de los personajes para describir que estaban asustados, o en la figura 3 que comentaban simplemente “esta triste”, sin llegar a generar más texto sobre el tema… La Actividad 2, en la que se les pedía que contaran situaciones vividas de cada emoción, sí funciono perfectamente para recoger texto con contenido emocional. A continuación se muestran algunas de las redacciones así obtenidas, incluidas en el corpus tal y como las escribieron los alumnos: •

Alegría: “Una vez que estuvimos jugando un. campeonato de futbol. ibamos perdiendo fueron a tirar un penalti y lo pare, claro yo era el portero entonce ya estaba la cosa rñiida los de mi equipo iban corriendo. sin parar iban cansados pero en lo unico que pensaban era en ganar y entoces marcaron un gol y asi desempatamos y ganamos me puse mas contento que sali a correr a felicitar a mis compañeros.”.



Miedo: “Un día tenía que ir al campo por la noche para echarle de comer al ganado porque por el día no pude ir. Entonces empezé a oir algo en las matas a mi lado, me asusté mucho; pero al final era un zorro y creo que él se

REID, 5, pp. 53-68

59

Blanco López, E. y otros

asustó más de verme a mi. Ya se me quitó el susto y seguí andando hasta llegar a mi campo. Ya estando allí me tranquilizé y me eché agua por la cabeza para refrescarme porque estaba muy cansado. Volví a casa pero pase mucho miedo ese día.”. •

Tristeza: “En el verano mi familia y yo teníamos pensado ir al parque temático de Madrid. Ya teníamos todo preparado pero no pudimos ir porque mi padre tenias trabajo pendiente para el verano y no pudimos ir por esa razón, asín que todos nos quedamos con las ganas de ir allá.”.

A cada alumno se le pidió que contará 2 situaciones vividas por emoción, de esta forma se llegaron a recoger 1160 textos de alumnos de los 5 países expresando las 3 emociones seleccionadas, tal como muestra la tabla 3. Aunque se ha insistido en que escribieran textos largos, debido a la edad de los alumnos ha sido bastante difícil esta cuestión, obteniéndose una media de 27 palabras por texto, como se puede ver en la tabla 4. Cabe destacar que para le emoción positiva (alegría) la media de palabras por texto aumenta, así como el número de textos escritos por los niños. Al ser estas actividades emocionales voluntarias, dentro de la Red Internacional e-Culturas, no todos los participantes las realizaron. En la creación del corpus participaron un 42% de los participantes en e-Culturas (véase Tabla 5). País Argentina Brasil Chile España Paraguay Total

Alegría 66 44 26 275 20 431

Tristeza 52 41 22 253 8 376

Miedo 45 41 22 239 6 353

Total 163 126 70 767 34 1160

Tabla 3. Documentos por país y emoción.

Número palabras Número textos Media de palabras por texto

Alegría

Tristeza

Miedo

Total

14113

9141

8068

31322

431

376

353

1160

32,74

24,31

22,85

27

Tabla 4. Palabras y textos por emoción.

60

REID, 5, pp. 53-68

Análisis Automático de Emociones en la Red Internacional e-Culturas

País Argentina Brasil Chile España Paraguay Total niños

Niños participantes 33 22 13 139 10 217

Tabla 5. Niños participantes en la creación del corpus e-Culturas en la edición 2009.

Experimentación Una vez creadas las tareas que los niños deben realizar para la creación del corpus, hemos procedido a realizar una experimentación con la finalidad de validar del corpus del que se dispone en la actualidad. Tal experimentación consiste en la categorización automática de cada texto atendiendo a la emoción predominante. Para ello se ha procedido de la siguiente manera: i.

Limpieza de los textos obtenidos, eliminando los que fueron escritos por alumnos que no se tomaban en serio la actividad y se limitaban a escribir caracteres para rellenar texto (Del tipo “sdfsdfsdfsdf…”). También se eliminaron los textos en portugués escritos por los alumnos participantes de Brasil. Se tomo esta opción porque se trataba de un porcentaje muy pequeño de los textos y poder así hacer más sencillo el sistema al evitar tener que traducirlos.

ii.

Etiquetado de cada uno de los textos válidos y en castellano con uno de las tres emociones.

iii.

Partición del corpus en dos: 90% de los textos para formar el conjunto entrenamiento del sistema, y el 10% restante, para la evaluación de los experimentos.

iv.

Dado que los textos son escritos por niños, se ha estimado oportuno aplicar un sencillo algoritmo con la finalidad de resolver las faltas de ortografía más usuales que se han encontrado al realizar un estudio sobre los textos del corpus. Para su corrección se ha utilizado un algoritmo que busca en un listado de palabras en español la palabra a corregir aplicándole recursivamente las reglas que se muestran en la tabla 6 mientras no se encuentre la palabra correcta. Para esto se ha utilizado un modelo de RI (Recuperación de Información) clásico mediante el software Lemur, en el que cada palabra del diccionario LaTeX para el español utilizado, mediante un etiquetado especial, ha sido indexada como un documento. La forma de proceder era, dada la palabra escrita por el alumno, se buscaba el documento (palabra) en el cual estaban sus letras (equivalentes a las palabras en un sistema clásico de RI).

REID, 5, pp. 53-68

61

Blanco López, E. y otros

Regla Cambiar c por s Cambiar z por s Cambiar s por c Cambiar s por z Cambiar s por x Cambiar v por b Cambiar b por v Cambiar n por m Cambiar i por y Cambiar y por i Cambiar r por l Suprimir h Tildes

Ejemplo centí → sentí morza → morsa ensender → encender piesa → pieza escursión → excursión avuelo → abuelo tube → tuve enpieza → empieza hoi → hoy fuy → fui arbaricoque → albaricoque hermita → ermita volvi - volví

Tabla 6. Reglas de corrección ortográfica aplicadas.

v.

Una vez corregido el corpus, se ha procedido a su lematización para concentrar en un único lema las formas de las palabras variables. Para ello se ha utilizado el software TreeTagger (Schmid, 1995).

vi.

A continuación se han realizado numerosos experimentos teniendo en cuenta diversas características como la ocurrencia de palabras, n-gramas, etiquetas POS (Part Of Speech) y lemas; el tamaño en Bytes y número de palabras del texto completo y la media por frase; ocurrencia y frecuencia de trigger words, palabras enfatizadas, símbolos especiales… En este trabajo las trigger words están formadas por conjuntos de unas 10-15 palabras semilla que se han seleccionado manualmente a partir del corpus de entrenamiento (véase Tabla 7). Algunos de los experimentos en los que se han obtenido mejores resultados son los siguientes: a. SEM: Ocurrencia de las palabras semilla. b. DIC: Ocurrencia de las palabras de diccionario. c. NGR: Ocurrencia de n-gramas de más de 4 letras. d. DIC+POS: Ocurrencia de las palabras de diccionario y etiquetas POS. e. NGR+POS: Ocurrencia de n-gramas de más de 4 letras y etiquetas POS.

62

REID, 5, pp. 53-68

Análisis Automático de Emociones en la Red Internacional e-Culturas

Emoción Alegría Tristeza Miedo

Palabras Semilla Ganar, contento, regalar, reír, aprobar, familia Llorar, pena, lástima, perder, suspender, morir, romper, enfadar Susto, secuestrar, terror, pegar, pesadilla, asustar, inquietud, morir, horror, atacar Tabla 7. Algunas palabras semilla.

vii.

Finalmente, se ha procedido a entrenar un algoritmo de aprendizaje supervisado con el corpus de entrenamiento, evaluando la bondad del modelo sobre el corpus de evaluación para cada uno de los experimentos anteriores. El algoritmo de aprendizaje automático utilizado en esta experimentación es SVM (Cristianini & Shawe-Taylor, 2000).

Análisis de los resultados Los resultados obtenidos se describen en la Tabla 8. A pesar del sencillo modelo de categorización implementado los resultados son esperanzadores, si bien hay diferencias significativas entre cada emoción dependiendo del experimento realizado, por ejemplo, tanto en NGR y NGR+POS mejoran los resultados obtenidos para tristeza y empeoran los de miedo y alegría si los comparamos con sus experimentos predecesores DIC y DIC+POS respectivamente. Exp. SEM

DIC

NGR DIC + POS NGR + POS

Emoción Alegría Miedo Tristeza Alegría Miedo Tristeza Alegría Miedo Tristeza Alegría Miedo Tristeza Alegría Miedo Tristeza

Accuracy 0,796 0,918 0,755 0,829 0,914 0,762 0,8 0,905 0,8 0,839 0,905 0,771 0,819 0,895 0,781

Precisión/ cobertura 0,681/0,833 1/0,692 0,687/0,611 0,844/0,675 0,893/0,807 0,765/0,382 0,771/0,675 0,862/0,807 0,809/0,5 0,849/0,7 0,862/0,807 0,778/0,412 0,8/0,7 0,857/0,774 0,789/0,441

Tabla 8. Resultados de la clasificación de emociones.

REID, 5, pp. 53-68

63

Blanco López, E. y otros

Si en vez de utilizar simplemente la ocurrencia de las características, como se hace en DIC+POS, se tiene en cuenta la frecuencia de las mismas, tal es el caso de FDIC+POS, se vuelve a obtener resultados mejores para tristeza, empeorándose ligeramente los de alegría y miedo. Utilizando solamente la ocurrencia de las palabras semilla, SEM, en general se consiguen buenos resultados, pero pensamos que es aquí donde hay más margen de mejora, por lo que en las siguientes líneas se tratará de forma más exhaustiva este tema haciendo un estudio de los errores cometidos. Como es usual en las tareas de categorización, una precisión elevada se suele conseguir penalizando la cobertura, tal es el caso del miedo en SEM con una precisión de 1, pero a costa de una discreta cobertura que no alcanza el 70% de los textos marcados con tal emoción. Sin duda, este resultado nos indica que el conjunto de palabras semilla seleccionado para esa emoción es preciso, pero incompleto. En el otro extremo se encuentra la alegría, que obtiene una cobertura que supera el 80%, pero con pobre resultado en cuanto a la precisión: un 0,68. Esto es, posiblemente superar esa cobertura a partir de las sencillas características léxicas y morfosintácticas utilizadas sea muy difícil, si no imposible, pero sí pensamos que es posible reducir la lista de palabras semilla sin que la cobertura se resienta. Finalmente, la tristeza se muestra como la emoción más difícil, con un resultado discreto tanto en precisión como en cobertura. Al realizar un estudio de la clasificación hecha, se observa que existen algunos errores como los cometidos por el categorizador en lo relativo a la categoría de tristeza, debido a que aparecen palabras semilla en una categoría distinta a la que se le presupone. Tal es el caso de los siguientes textos escritos por los alumnos que deberían haber sido clasificados con la emoción tristeza y en cambio ambos errores son inducidos por la palabra ganar que se corresponde con la categoría alegría. •

“Que el primer año de moto cros quede segundo por un puntito y no pude ganar el campeonato”.



“Ache 1 mes icimos un campeonato en educasion fisica,nos decepcionamos por que perdimos.Estabamos jugando el A contra el B nosotros que somos el b,perdimos gano el a porque nosotros estavamos muy cansados pero esque si no,ese dia ganamos el partido encima con la calor.Que acia que no iba a perder y quedars e agotado”.

Similar situación, pero a la inversa también se da con el verbo perder. Al margen que estos casos concretos indican que ganar/perder requiere un tratamiento particular, parece claro que para corregir estos casos se requiere un análisis sintáctico más profundo. Un caso especialmente interesante es el siguiente texto: “me perdi en el supermercado y me largue a llorar pero del miedo cuando tenia 4 años”. El categorizador marca con la categoría miedo un texto que el niño escribió como

64

REID, 5, pp. 53-68

Análisis Automático de Emociones en la Red Internacional e-Culturas

respuesta a una actividad pensada para que éste manifieste tristeza. Sin embargo, el texto claramente relata una situación en la que el niño pasó miedo, pero la recuerda con tristeza, no con miedo. Esto nos indica, por una parte, que los niños a estas edades pueden confundir ambas emociones y que puede darse solapamiento. En consecuencia es necesario etiquetar manualmente cada texto y contemplar la posibilidad de que haya textos pertenecientes a más de una categoría.

Conclusión Se ha presentado aquí la creación de corpus para el idioma español a partir de textos escritos por niños de 10 y 11 años relativos a experiencias en las que hayan sentido miedo, tristeza o alegría. Hemos descrito la metodología seguida para la creación del corpus. Para validar el corpus resultante se ha procedido a realizar una experimentación preliminar, orientada a la categorización automática de las emociones. Los resultados que hemos obtenido son en buena medida consistentes con el corpus tal cual está etiquetado manualmente, alcanzando una precisión media de 82.7% para una cobertura del 60%. El análisis de errores realizado por el categorizador desarrollado muestra que el enfoque para crear el corpus es el adecuado: en buena medida los errores tipo cometidos requieren ampliar el conjunto de palabras semillas o añadir algunas características basadas en reglas morfo-sintácticas. Sin embargo, algunos errores como la distinción entre miedo y tristeza son más sutiles, y posiblemente requiera de técnicas más afinadas, como el tratamiento individualizado para algunas palabras, tal es el caso de los verbos ganar/perder. En lo relativo a la creación del corpus, éste aún tiene un tamaño reducido, pero esperamos que a lo largo del curso escolar su tamaño se incremente significativamente, no sólo porque los niños sigan haciendo uso de las actividades ya diseñadas, sino también por la inclusión de nuevas actividades y la ampliación a un mayor número de alumnos con acceso a la plataforma de e-Culturas. Con esto, la estimación para este año se describe en la Tabla 9, donde 355 nuevos alumnos generarán unos 2130 documentos con una media de unas 30 palabras por texto. Niños participantes Argentina 19 Brasil 14 Chile 69 España 125 Paraguay 128 Total 355 País

Documentos por emoción Alegría Tristeza Miedo 38 38 38 28 28 28 138 138 138 250 250 250 256 256 256 710 710 710

Total 114 84 414 750 768 2130

Tabla 9. Previsión de participación en la experiencia e-Culturas para este año escolar y su incidencia en la ampliación del corpus.

REID, 5, pp. 53-68

65

Blanco López, E. y otros

Como trabajo futuro, se pretende realizar un sistema que detectará de forma automática de las emociones asociadas a un determinado tema sobre Interculturalidad o Educación Emocional. En el caso de que se detecte una emoción negativa, se le proporcionará al alumno actividades que le ayuden a cambiar esa emoción por una positiva sobre el tema tratado.

Referencias Alcaide, M., Blanco, E., Pantoja, A., & Jiménez, A. (2008). Capacitación de maestros en valores interculturales a través de la Red Internacional e-Culturas. INECE'08. Madrid. Bisquerra, R. (2002). Educación Emocional y Bienestar. Barcelona: Praxis. Bisquerra, R. (2003). Educación Emocional y competencias básicas para la vida. Revista de Investigación Educativa (RIE), 21, 1, 7-43. Cristianini, N., & Shawe-Taylor, J. (2000). An Introduction to Support Vector Machines and other kernel-based learning methods. Cambridge University Press. Diccionario LaTeX para el español. (2010). Recuperado el 15 de Enero de 2010, de http://copa.uniandes.edu.co/software/latex/manual.html e-Culturas. (2009). Recuperado el 15 de Enero de 2010, de http://www.e-culturas.org Esuli, A., & Sebastiani, F. (2006). SentiWordNet: A Publicly Available Lexical Resource. Proceedings of LREC 2006 - 5th Conference on Language. Goleman, D. (2001). Inteligencia emocional: a teoria revolucinária que define que é ser inteligente. (M. Santarrita, Trad.) Rio de Janeiro: Objetiva. OReilly, T. (2005). What Is Web 2.0? Design Patterns and Business Models for the Next Generation of Software. Ounis, I., Macdonald, C., & Soboroff, I. (2008). On the TREC Blog Track. Ounis, I., MacDonald, C., de Rijke, M., Mishne, G., & Soboroff, I. (2006). Overview of the TREC 2006 Blog Track. Special Publication 500-272. National Institute of Standards and Technology (NIST). Pang, B., & Lee, L. (2008). Opinion mining and sentiment analysis. Foundations and Trends in Information Retrieval , 2 (1-2), 1-135. Pantoja, A. (2008). Internet y la construcción de una ciudadanía intercultural. Balance de una experiencia. I Jornadas Internacionales y VI Jornadas sobre Diagnóstico y Orientación “El carácter universal de la educación intercultural, (págs. 72-128). Passant, A., & Laublet, P. (2008). Meaning Of A Tag: A collaborative approach to bridge the gap between tagging and Linked Data. Quarterly, M. (2009). How companies are benefiting from Web 2.0. techreport.

66

REID, 5, pp. 53-68

Análisis Automático de Emociones en la Red Internacional e-Culturas

Renom i Plana, A. (2008). Educación Emocional: programa para educación primaria (6-12 años). Wolters Kluwer España. Schmid, H. (1995). Improvements in part-of-speech tagging with an application to German. Proceedings of the ACL SIGDAT-Workshop . Seki, Y., Evans, D. K., Ku, L.-W., Chen, H.-H., Kando, N., & Lin, C.-Y. (2007). Overview of Opinion Analysis Pilot Task at NTCIR-6., (págs. 265-278).

REID, 5, pp. 53-68

67

Blanco López, E. y otros

Datos de los autores: Eladio Blanco López. Grupo IDEO (Universidad de Jaén). Correo electrónico: [email protected]. Fernando Martínez Santiago. Universidad de Jaén. Departamento de Ciencias de Lenguajes y Sistemas Informáticos. Correo electrónico: [email protected]. Antonio Pantoja Vallejo. Grupo IDEO (Universidad de Jaén). Correo electrónico: [email protected].

Fecha de recepción: 13/12/2010 Fecha de revisión: 28/12/2010 Fecha de aceptación: 04/01/2011

68

REID, 5, pp. 53-68

Get in touch

Social

© Copyright 2013 - 2024 MYDOKUMENT.COM - All rights reserved.