Proyecto: Gallito 2.0 Contacto:
[email protected]
Versión: 1.1
Nombre:
Tipo de Documento:
Manual UsuarioGallito.doc
Manual de Usuario
Fecha: 04-03-2012
MANUAL DE USUARIO GALLITO 2.0 64bits
ÍNDICE 1.
INTRODUCCIÓN
2.
INSTALACIÓN
3.
RESUMEN DE ACCIONES POSIBLES
4.
APLICACIONES
1. INTRODUCCIÓN Con este documento se pretende explicar el funcionamiento de Gallito 2.0. Gallito es una herramienta apta para dos tipos de ámbitos: Investigador: Permite procesar muestras del lenguaje y extraer índices para experimentos en psicolingüística, como la entropía de cada términos, la frecuencia medida con la longitud de vector, la similitud entre términos, listados de vecinos semánticos. Todo esto es muy útil para ejercer control experimental o incluso para investigar el efecto de este tipo de variables en el procesamiento. Tecnológico: Para categorizadores textuales de cualquier dominio. De hecho, Gallito 2.0 está siendo usado como un primer módulo en aplicaciones en la nube que categorizan llamadas a un servicio de atención al cliente. También puede ser usado para visualizar información útil para los departamentos de marketing.
La funcionalidad asociada a esta aplicación es:
Creación de espacios semántico-vectoriales a partir de textos Cálculo de funciones de importancia de términos (Entropía o IDF) Cálculo de las normas vectoriales de cada término Listados de vecinos semánticos de un término Similitud de términos Similitud de documentos existentes Similitud de documentos no existentes en el espacio (pseudodocumentos) Procesos por lotes (similitudes, grafos, vecinos) Salidas de las matrices a texto plano Salida en formato Pajek para visualización de términos Evaluación de resúmenes Coherencia textual Interpretación de dimensiones
2. INSTALACIÓN 2.1. Requisitos Para el correcto funcionamiento del Gallito 2.0 es necesario tener instalados los siguientes componentes, (también pueden descargarse desde la página web de Microsoft):
Sistema operativo Windows 64 bits (Windows 7 o Windows Server)
Microsoft SDK 4, que se incluye en el CD de instalación
Microsoft Visual C++ 2010 Redistributable Package (64bits)
Permisos de escritura en el directorio dónde se instale
Se requiere también algunos conocimientos sobre las técnicas basadas en Análisis Semántico Latente (LSA) y sus aplicaciones.
2.2. Procedimiento de instalación •
Acceder a la carpeta de instalación y ejecutar el programa Setup.exe.
•
Aparecerán las siguientes pantallas que le guiarán en el proceso de instalación:
2.2.1.
Primer paso
Pantalla de bienvenida a la instalación del producto, en la que se especifica el producto a instalar (Gallito 2.0). Deberá pulsar el botón siguiente para continuar con la instalación o el botón cancelar para salir del proceso de instalación.
2.2.2.
Segundo paso
En esta pantalla debe seleccionarse el directorio para la instalación del producto que por defecto será C:\Program Files\elsemantico.com\Gallito_2.0 64Bits\
En caso de que se desee instalar el producto en otro directorio diferente al directorio por defecto este deberá ser seleccionado pulsando el botón “Examinar” que aparece en la ventana de instalación. Pulsando este botón se accede a una ventana de exploración estándar de directorios de Windows a través de la cual se podrá seleccionar el directorio deseado para la instalación de Gallito 2.0 (ver siguiente imagen).
Una vez seleccionado el directorio para la instalación deberá pulsarse el botón “siguiente” para continuar con el proceso de instalación. 2.2.3.
Tercer paso
En este paso se avisa al usuario de que pulsando el botón “siguiente” se comenzará la instalación del producto. Pulsando el botón “atrás” se podrá volver a introducir la información recabada hasta el momento para realizar la instalación.
2.2.4.
Cuarto paso
La ventana mostrada indica el progreso de la instalación en tanto por ciento y los archivos que están siendo copiados en la máquina en la que se está instalando el producto. Una vez alcanzado el 100% del proceso de instalación se accederá al siguiente paso de la misma (ver siguiente epígrafe) tras informarse de que ha sido introducida en el registro la información necesaria para el correcto funcionamiento de la aplicación. Pulsando el botón cancelar de la ventana de progreso se detiene el proceso de instalación.
2.2.5.
Quinto Paso
Fin de la instalación. En esta pantalla se avisa de la finalización la instalación del producto. Pulsando el botón terminar se accede a la última pantalla del proceso de instalación.
3. RESUMEN DE ACCIONES POSIBLES La aplicación permite: •
Generar espacios semánticos bajo diferentes parámetros.
•
Consultar la semejanza de términos, documento y pseudodocumentos.
•
Generar listados de vecinos bajo diferentes parámetros (con posibilidad de ser exportados a Microsoft Excel).
•
Cargar y guardar espacios semánticos en diferentes formatos.
•
Generar ficheros .txt con las matrices importantes.
•
Procesos por lotes (vecindarios, similitud por pares, matrices de similitud)
Para ello, la aplicación constará de un único formulario o panel de control gestionado con pestañas y desplegables. La aplicación se divide en dos funcionalidades básicas: •
Generación de un espacio semántico.
•
Operaciones sobre un espacio semántico (Calcular Semejanzas, Guardar espacio, Cargar espacio, etc)
4. APLICACIONES Al iniciar la aplicación se desplegará una pequeña presentación seguida de la pantalla de control. A partir de aquí, Ud. Podrá optar por crear un nuevo espacio semántico o cargar uno existente que esté guardado en el disco duro. La pantalla que nos aparecerá será la siguiente:
Con las pestañas y desplegables se podrá empezar a realizar operaciones.
4.1 Crear un espacio semántico.
Para crear un espacio semántico será necesario un corpus. Este corpus de referencia estará en un fichero con de tipo texto plano (.txt). Si para el análisis se ha elegido una ventana contextual diferente a la frase, los documentos han de estar separados por un carácter, generalmente la “#”:
Los archivos planos constituyen la forma más básica de una base de datos # Los archivos planos incluyen un campo por cada uno de los elementos que se desean contemplar # La redundancia de elementos es una característica de estos archivos # La base de datos relacional soluciona la redundancia en los datos # Son frutos largos y con sabor # La recogida será buena si ha tenido una buena base como semillero # Los frutos son de color verde # En la recogida es parecida a los demás frutos largos # Si por el contrario, se ha elegido la frase como unidad, bastará con que las frases estén separadas con su correspondiente punto.
Para crear un espacio semántico se necesitarán los siguientes parámetros:
•
Nº de dimensiones o Valor singular acumulado: El nº de dimensiones no debe superar el nº total de documentos. Respecto al valor singular acumulado se expresará en porcentaje (sin el carácter “%”). Este porcentaje reflejará la dimensionalidad conservada, es decir, el porcentaje de dimensionalidad que se conservará. De esta manera, un 40% se referirá a un nº de dimensiones que corresponderá con esa dimensionalidad. En corpus extremadamente grandes no será posible el cálculo de dicho porcentaje por lo que se emplearán 300 dimensiones. Este dato se rellenará en el pestaña matriz del panel central.
• Ajuste lingüístico: Esta opcionalidad se referirá al cálculo de importancia de cada término en el corpus. Podrá seleccionarse log-Entropía o log-IDF. También la ausencia de estos cálculos. Este dato se rellenará en la pestaña matriz del panel central.
• Normalizar Matriz U: LA matriz U (de términos) que se extrae del proceso SVD, será normalizada antes de proceder a ponderarla por el peso que tiene cada dimensión. De esta forma se evita el efecto de la frecuencia de los términos. . Este dato se rellenará en la pestaña matriz del panel central.
• Corpus de referencia: Ruta del archivo de texto en donde se encuentra el corpus lingüístico (en un formato legítimo) Pulse el botón para “examinar” los directorios. . Este dato se rellenará en la pestaña corpus del panel central.
En ventana de exploración estándar de directorios de Windows podrá seleccionar el corpus deseado.
•
Separación de los documentos: Los documentos podrán estar separados por un carácter o simplemente por frases naturales. En el primer caso habrá que especificar el carácter separador (generalmente “#”). En el segundo caso habrá que configurar cuantas frases forman un documento (generalmente 1). Este dato se rellenará en la pestaña corpus del panel central.
•
“Un documento son mínimo ...”: Cual es el número mínimo de términos para que un documento sea introducido en el análisis. Este dato se rellenará en la pestaña corpus del panel central.
•
“eliminar palabras que no ocurran al menos en ...”: Cual es el número mínimo de documentos en el que un término concreto tiene que aparecer para ser incluido en el análisis. Este dato se rellenará en la pestaña corpus del panel central.
•
Suprimir: Se suprimen las apariciones literales de cada una de las estructuras propuestas. Este dato se rellenará en la pestaña corpus del panel central. Este dato se rellenará en la pestaña suprimir del panel central.
•
Generar “stop list”: 1) Seleccione en los desplegables estructuras > elegir e introduzca las estructuras que desea eliminar. En la parte izquierda las estructuras compuestas por más de un término. En la derecha, las estructuras simples o compuestas por un solo término.
2) Seleccione en la pestaña de suprimir la casilla “Adicionales”
•
Crear un espacio sólo con una “go list” : El procedimiento es semejante al anterior. Se selecciona en la pestaña de suprimir la casilla “Adicionales” y se introducen en estructuras > elegir las estructuras de la “lista pase”. También ha de habilitarse la opción “Agregar en exclusiva” .
Mediante este método se pueden seleccionar las demás estructuras para que formen parte de análisis, es decir, un análisis con palabras de función y adverbios por ejemplo y las estructuras adicionales seleccionadas. Este dato se rellenará en la pestaña suprimir del panel central.
• Sustituir términos por clases: Para reducir la variabilidad de algunas palabras, en ocasiones puede ser interesante incluir términos en categorías y usar esas categorías como términos. Por ejemplo, todas las marcas de teléfonos móviles podrían ser englobadas en la categoría ClasMovil. De esta forma, en el proceso, tanto Nokia como Alcatel se tratarían como el término ClasMovil, cuyas ocurrencias aumentarían. Este dato se rellenará en la pestaña suprimir del panel central.
La definición de las clases estaría en clases.txt en el directorio C:\Program Files\elsemantico.com\Gallito_2.0 64Bits\palabrasClases
Si se quiere cargar un espacio procesado previamente con definiciones de clases, será preciso especificarlo dentro de la pestaña de carga. Es necesario proporcionar las definiciones usadas en el archivo clases.txt
Una vez seleccionados los parámetros para crear el corpus se abrirá la pestaña de “Proceso” y se pinchará en el botón de “Comenzar”. A raíz de esto, los procesos se mostrarán encendidos conforme se vayan ejecutando. El proceso total puede ser lento, durando incluso varios días, según sean las opciones y el corpus textal.
El proceso final acabará con el siguiente mensaje.
Aceptando este aviso, términos y documentos se cargarán en la parte de la derecha y se podrá proceder a realizar operaciones sobre el espacio semántico.
4.2 Operaciones sobre los espacios semánticos.
Una vez cargado creado un espacio semántico, se podrá proceder a realizar operaciones sobre él. Estas operaciones pueden ser: Comparar dos términos, Comparar dos documentos identificados por un número, comparar dos textos libres introducidos por el usuario, extraer vecindarios semánticos ( con cosenos simples o corregidos, o con predicación simple o corregida). También se podrá guardar en espacio en un directorio del disco duro para ser cargado en otra ocasión. Propiedades del espacio: En esta opcionalidad se podrán consultar las propiedades de los espacios sobre los que se trabaja. Algunos de los índices estarán deshabilitados en las aplicaciones destinadas a grandes corpus lingüísticos. Espacio>Propiedades
Comparar dos términos: Se podrán comparar mediante el coseno o la distancia euclídea dos términos concretos.
Consultas > Término-Término
Comparar dos documentos identificados por un número: Se podrán comparar mediante el coseno o la distancia euclídea dos documentos concretos. Consultas > Documento-Documento
Comparar dos textos producidos de manera libre: Se podrán comparar mediante el coseno o la distancia euclídea dos textos libres (En espacios de gran tamaño este proceso tardará algunos segundos. El proceso será indicado mediante una barra de estado). Consultas > Textos libres
Extracción de vecindario semántico: Se extraer mediante diferentes métodos (cosenos, cosenos corregidos, predicación, predicación corregida) los vecinos semánticos de un término concreto. Se desplegarán árboles de vecindario según se extraigan vecinos de los términos. Además, se podrá seleccionar el número de vecinos a extraer. También se podrán exportar los resultados a Microsoft Excel. Consultas > Vecindario semántico
Extracción de los términos más representativos del espacio semántico: Se extraer mediante diferentes métodos los vecinos semánticos de un término concreto. Consultas > Representación
Guardar un espacio semántico: Un espacio semántico puede guardarse en el disco duro y volverse a cargar cuando lo necesitemos sin necesidad de volverlo a crear. Pestaña “guardar trabajo”
A continuación le pediremos que seleccione un nombre y una ruta para guardar 7 variables. Recomendamos que guarde todos en un mismo directorio que podrá crear en la misma ventana de exploración de directorios de cada una de las variables. Al finalizar, seleccione el formato (recomendamos “binario”) y pinche el botón de “Guardar”.
Cargar un espacio semántico: De la misma manera, un espacio semántico puede cargarse desde el disco duro sin necesidad de volverlo a crear.
Pestaña “Cargar trabajo”
A continuación le pediremos que seleccione un nombre y una ruta para localizar las 7 variables del espacio a cargar. En la misma ventana de exploración de directorios de cada una de las variables, puede buscar y seleccionar la ruta de la variable correspondiente. Al finalizar, seleccione el formato con el que se guardó (recomendamos “binario”).
Finalizado esto, pinche el botón de “Cargar”
y espere a que salga el siguiente mensaje.
Seleccione aceptar y el espacio será cargado en memoria para realizar las operaciones antes descritas.
4.3 Procesos por lotes
Existe la posibilidad de realizar acciones por lotes, especificando en un archivo los términos y las características de las operaciones que se desean realizar. 4.3.1 Lotes de vecinos
Se extraerán los n primeros vecinos semánticos a una sucesión de términos. En el menú expandible llamado lotes se encontrará un desplegable llamado lotes_vecinos. Seleccionando dicho desplegable nos saldrá la siguiente pantalla, dónde especificaremos el número de vecinos, el directorio en el que estará el fichero donde se especifican los términos y el propio fichero.
El fichero tendrá el siguiente formato partido fútbol nota
El mismo proceso irá generando un fichero por término, en el que se especificará el vecino, el coseno, y la longitud de vector o norma.
4.3.2 Matrices de similitud
Se extraerá una matriz en la que los vecinos de un término se compararán consigo mismo. Esta matriz cuadrada tendrá unos en su diagonal y cada celda representará el coseno entre un vecino y otro. Se especificará el directorio del fichero de referencia y el propio nombre del fichero. Las matrices de similitudes serán generadas en ese mismo directorio. El formato del archivo es el siguiente: partido|200 fútbol|300 nota|300 Donde se extraerá una matriz 200x200 en el primer caso, 300x300 en el segundo, etc.
4.3.3 Similitud por pares
Generará las similitudes de una sucesión de pares de términos. Se especificará el directorio del fichero de referencia y el propio nombre del fichero. El formato del fichero será el siguiente: tremendo|acción perro|gato acción|bolsa
4.4 Salidas estándar 4.4.1 Matrices a archivos de texto plano
En el desplegable “exportar”, se encuentra la opción “matrices a .txt”. Se introducirá simplemente el directorio dónde se desea que se generen los archivos, los cuales serán las matrices US, SV y S, además de los pesos asignados por los cálculos a cada palabra (log-entropía o log-idf) y la longitud de vector de cada término.
4.4.1 Término a archivo de pajek
Con vistas a la visualización, en el desplegable “exportar” existe la opción de “término a pajek”. De este proceso se extraerá un archivo que servirá de entrada al programa Pajek para generar redes de visualización.
Pajek está disponible en http://vlado.fmf.uni-lj.si/pub/networks/pajek/ y podrá ser descargado gratuitamente. Dicha salida usará los cosenos como similitud y la longitud de vector como tamaño del nodo. Introduciendo la salida, se conseguirán gráficas como la mostrada abajo.