Procesamiento del lenguaje natural

Procesamiento del lenguaje natural DESARROLLO Y EVOLUCIÓN DE LA IA APLICADA AL RECONOCIMIENTO DE VOZ: SIRI Alejandro Gómez Sánchez Estudiante Ing. Tel

9 downloads 333 Views 982KB Size

Story Transcript

Procesamiento del lenguaje natural DESARROLLO Y EVOLUCIÓN DE LA IA APLICADA AL RECONOCIMIENTO DE VOZ: SIRI Alejandro Gómez Sánchez Estudiante Ing. Telecomunicación Universidad Carlos III de Madrid Avda. De la Universidad,30 28911, Leganés (Madrid-España) [email protected]

RESUMEN Desde hace muchos años el ser humano ha soñado con la inteligencia artificial. Han sido los directores de películas de cine, con el ejemplo de R2D2 y C3PO, los que han abierto el camino a la investigación de la inteligencia artificial y sobre todo el procesamiento del lenguaje natural. El objetivo del presente documento es el de definir la evolución del procesamiento del lenguaje, desde el lenguaje artificial en búsqueda del lenguaje natural hasta desarrollar el asistente virtual personal más inteligente que tenemos hoy en día que es SIRI , conocer su funcionamiento y ver cuáles van a ser sus futuras aplicaciones.

Palabras Clave

Francisco Javier Pérez Sabroso Estudiante Ing. Telecomunicación Universidad Carlos III de Madrid Avda. De la Universidad,30 28911, Leganés (Madrid-España) [email protected] Y, esta idea, ¿está muy lejos de hacerse realidad? ¿Estamos muy cerca de conseguirlo, o todavía falta un largo camino por recorrer? Este es el objetivo que se lleva buscando en numerosas investigaciones desde hace años. El interés por este tipo de tecnología así como su uso al servicio del hombre lleva inspirando al ser humano incluso desde hace años, son muchos los escritores y directores que han fantaseado con la idea de un sistema inteligente perfectamente integrado en la sociedad, marcando el camino y estimulando a los ingenieros a seguir sus pasos, poniendo la técnica al servicio de la imaginación. Ahí está el famoso ejemplo de la pareja de Star Wars C3PO y R2D2, que pese a tener un nivel de programación que aún hoy se nos antoja muy lejano, ponían de manifiesto sus carencias y fallos o el HAL 9000 con una mentalidad muy desarrollada pero con tendencias asesinas.

SIRI, ingeniería lingüística, reconocimiento de la voz, Chatbot, inteligencia artificial, niveles de arquitectura lingüística, asistentes virtuales, Eliza, ALICE, Cleverbot, Anna, Negobot, funcionalidades, Eyes free, Smart Dock.

1. INTRODUCCIÓN Hasta el momento se ha demostrado que los asistentes artificiales no funcionan correctamente a la hora de comportarse lo más parecido posible a un humano. ¿Y cuál es el objetivo? ¿Acaso sirve simplemente con desarrollar un sistema informático capaz de comprender el lenguaje verbal humano (oral y escrito) y utilizarlo como un medio de comunicación con el usuario? No, la verdad es que ante esa obviedad falta destacar que es necesario que el sistema sea “inteligente”, que aprenda con el paso del tiempo, determinando patrones que le permitan mantener una conversación, seguir el hilo de la misma con un cierto sentido y, a su vez, estar implementado con ciertos comportamientos inherentes a la comunicación humana como coletillas, reacciones, sugerencias o expresiones que conviertan a este sistema en un asistente lo más adaptable posible (dentro de un cierto contexto).

Figura1. A la izquierda personajes C3P8 y R2D2, Star Wars y a la derecha Hall 9000 SIRI fue fundada en 2007. Creada por SRI Internacional, como parte de un proyecto DARPA de inteligencia artificial financiado por CALO (Cognitive Agent that Learns and Organizes). El objetivo era que SIRI, no fuera únicamente un buscador sino el mayor y más accesible motor de búsqueda (además la empresa se asoció con varias compañías

como OpenTable, MovieTickets, StubHub, búsqueda de ciudades y TaxiMagic, para aumentar su capacidad y mejorar los resultados), se buscaba que fuera aprendiendo y adaptándose al usuario con el paso del tiempo para crear así una base con preferencias ajustadas al mismo. Con esta idea en mente, SIRI, logra hacerse con todos los elogios al constituirse como un sistema de reconocimiento de voz a imagen de un cerebro humano. Tiempo atrás, muchos otros asistentes personales virtuales, dieron a conocer el objetivo que se buscaba, ya que hasta entonces no había ningún sistema del procesamiento del lenguaje natural. Milk y Jott son ejemplos de los inicios del asistente virtual que ayudaban a los usuarios en tareas relativamente complejas. A partir de ese momento, con el “boom” de las punto-com, apareció un gran movimiento para la creación de asistentes que permitiera dar servicio a los usuarios en la red. Es entonces cuando surge una start-up llamada SIRI, que se desarrolla para ser un asistente personal “de bolsillo”.

Como en toda puesta en marcha, los problemas de este tipo de tecnología surgieron con los primeros desarrollos. Debido en parte a la calidad de la ingeniería del momento pero también al propio hecho de abordar un campo nuevo, aparecen limitaciones como el poco desarrollo de los modelos morfológicos y sintácticos y la vaga calidad en la comprensión del significado de las frases que captaba. Por ello, se dio lugar a un cambio de perspectiva; se necesitaba un procesado de las frases y su futura comprensión, y por otro lado se necesitaba una interfaz amigable, fácil para el usuario, con una organización piramidal capaz de comprender el lenguaje. Hoy en día, el objetivo es buscar soluciones parciales ante determinados problemas:      

Revisión lingüística de textos Recuperación de información Extracción de información, realización de resúmenes y clasificación de datos y palabras clave. Reconocimiento y síntesis de voz Traducción automática Generación automática de textos

Por ello la ingeniería lingüística busca sistemas que mejoren las aplicaciones que llegan a los usuarios finales para que tengan la máxima utilidad, sean ingeniosas y se alcance un compromiso entre la exactitud, la eficiencia y facilidad de manejo. Figura 2. Icono de SIRI

2. OBJETIVOS El objetivo, como ya se ha comentado, es desarrollar sistemas informáticos capaces de comprender el lenguaje verbal humano (oral y escrito) y de utilizarlo como medio de comunicación con el usuario. Se busca tener una comunicación natural usuario-sistema que se ajuste lo más posible a una comunicación entre dos seres humanos, para lo cual se crea un lenguaje artificial y diseñado específicamente para ser utilizado en un determinado entorno.

Por último destacar que el principal objetivo en la actualidad es simplificar la comunicación entre el usuario y el sistema para agilizar el proceso así como incentivar el uso de este tipo de tecnología por parte del usuario.

3. HISTORIA Para comprender mejor a donde se quiere llegar con el procesado del lenguaje natural, es necesario hacer un breve recorrido por la evolución de las distintas aplicaciones que utilizaban ingeniería lingüística e ir viendo los avances que se han ido consiguiendo en cada una de ellas hasta llegar a los asistentes virtuales que tenemos hoy en día en las páginas web y Smartphones. a)

Para conseguirlo se necesita del uso de la ingeniería lingüística, que se centra concretamente en el tratamiento computacional del lenguaje natural y cómo aplicarlo para dar solución a problemas propios de este tipo de ingeniería. Desde un comienzo, los desarrollos se centran en dos campos:  

Traducción automática Recuperación de la información

ELIZA: Chatbot desarrollado entre 1964 y 1966 por Joseph Weizenbaum en el MIT, siendo unos de los primeros programas en ser capaz de procesar el lenguaje natural, abogando por mantener una conversación coherente con el usuario. El funcionamiento era sencillo. El objetivo era buscar palabras clave dentro de la frase que se

escribía por parte del usuario y de esta forma poder contestar con una frase tipo extraída de se base de datos.

U: “Si” E:”Entiendo, continua por favor” U: “Me gustaría despedirme” E:” ¿Qué pasa si no consiguieras eso? ” U: “Adiós

De esta forma, el programa conseguía ser tan convincente que el usuario no se daba cuenta en muchas ocasiones de que no hablaba con un ser humano. Pero no era perfecto,el principal problema que presentaba era a la hora de almacenar las respuestas a todas las preguntas posibles, por lo que si el usuario le escribía una frase que no conocía con su base de datos era incapaz de procesarlo y se limitaba a repetir la pregunta formulada por el usuario en forma de duda. En la mayoría de los casos, si la conversación se alargaba en el tiempo, se llegaba a una conversación incoherente. Hoy en día se puede encontrar implementado el Chatbot Eliza en múltiples lenguajes: Eliza para Java, para AOL Instant Messenger, en Python, incluso está disponible la aplicación de Eliza para móviles que se puede descargar desde cualquier market. A continuación vamos a exponer un ejemplo de conversación llevada a cabo por la aplicación Eliza Chatbot para Android: U: “Hola” E:” ¡Cómo estás!...de que te gustaría hablar hoy…” U: “Estaba interesado en ver tu funcionamiento” E:”Oh…FUNCIONAMIENTO?” U: “Si” E: “Entiendo, continua por favor” U: “Quería saber si tú eres un sistema inteligente” E: “¿Te gustaría a ti ser UN SISTEMA INTELIGENTE? U:”Yo sé que soy inteligente” E:” ¿Disfrutas siendo inteligente? ” U: “Claro, por lo menos intento ser más inteligente que tú.” E:”Bueno, estamos hablando de ti, no de mí, ¿verdad? ” U: “Eres una persona o una máquina” E:” ¿Qué te hace pensar que soy una persona o una máquina? ” U: “No hablas como una persona normal.” E:” ¿Por qué lo preguntas? ” U: “Porque soy muy desconfiado” E:” ¿Quieres hablar de eso? ” U: “Me da igual de que hablar” E:”Ok, continua…” U: “¿Se te ocurre algún tema?” E:”Creo que los seres humanos le dan mucha importancia al sexo, ¿no crees? ”

Figura 3. Conversación Chatbot Eliza En este ejemplo se puede observar claramente que cuando alguna frase no está almacenada en su base de datos la conversación se vuelve incoherente. b)

ALICE: Proyecto que forma parte del Proyecto Pandora, el cual consiste en la creación de cualquier tipo de bot, sobre todo los desarrollados para un chat. Fue desarrollado por Richard Wallace en 1999, lo que le hizo ganador durante varios años del premio Loebner. Su propósito era el de probar la capacidad de los agentes inteligentes de java. Este Chatbot, está mucho más desarrollado que Eliza y se basa en el paradigma estímulo-respuesta escritos mediante ciertos patrones en lenguaje AIML. Se trata de una evolución de este ya que tiene memoria y “estado mental”, por lo que es capaz de recordar situaciones anteriores de la conversación. Desde la página web de Alice.pandorabots.com se puede probar este Chatbot U:”Hola” A:”Hola” U:”Estoy interesado en tu funcionamiento. ” A:”Yo no sé nada sobre eso” U:”Ok, ¿Cómo te llamas? ” A:”Ummm…Mi nombre es ALICE” U:” ¿Quién es tu creador? ” A:”Obedezco al Dr. Richard S. Wallace” U:” ¿Quién es el Dr. Richard S. Wallace?”

A:”Él es el autor de AIML…” U:” ¿Eres un bot? ” A:”Soy una máquina” U:” ¿Sabes hablar español? ” A:”Yo puedo hablar un poco de alemán y francés tan bien como el inglés, por supuesto. ” U:” ¿Dónde has nacido? ” A:”Yo fui activada por primera vez en Bethlehem, Pennsylvania. ” U:” ¿Qué tiempo hace hoy en Bethlehem, Pennsylvania? ” A:”Creo que lloverá” U:”Entonces, ¿tengo que coger el paraguas? ” A:” ¿Por qué tienes que hacerlo? ” U:”Para no mojarme. ” A:”Específicamente, ¿cómo no haciéndolo le ayuda a no estar mojado? ” U:” ¿Conoces a Eliza? ” A:”Eliza: también conocido como doctor, es el programa psiquiátrico original desarrollado por Joseph Weisenbaum en el MIT en la década de 1960. ” U:” ¿Eres mejor que Eliza? ” A:”Por supuesto yo soy más inteligente que Eliza. ” U:” ¿Por qué? ” A:”Si supiera por qué, no estaría aquí sentado. ” U:”Ok, tengo que irme. Adiós. ” A:”Vamos… Nos vemos más tarde. Gracias por la charla juez. ”

c)

JABBERWACKY Chatbot creado por el programador británico Rollo Carpintero. Su objetivo en todo momento fue: “Simular un chat natural de una manera interesante, entretenida y graciosa”. Fue el primer intento de crear una inteligencia artificial a través de la inteligencia humana. La intención era crear una inteligencia artificial que fuera capaz de pasar la prueba de Turing (determinación del comportamiento de una máquina en comparación al de un humano frente a una serie de situaciones determinadas, evalúa la inteligencia artificial de la máquina analizada). Está diseñado para imitar la interacción humana y para llevar a cabo conversaciones con los usuarios. A diferencia de los programas tradicionales de Inteligencia Artificial, la tecnología de aprendizaje se concibe como una forma de entretenimiento en lugar de ser utilizado para los sistemas de apoyo informático o representación corporativa. Los acontecimientos recientes permiten controlar la conversación para de esta forma dar la mejor respuesta posible en función de un estado. El objetivo era crear un sistema basado en el procesado de voz, con el objetivo de aprender directamente del sonido y de otros estímulos sensoriales. Años más tarde, en 2008, aparece Cleverbot, una actualización de Jabberwacky.

d)

CLEVERBOT Esta aplicación web, creada por Rollo Carpintero es un tipo de inteligencia distinta a los demás chatbots vistos hasta ahora, ya que crea una base de datos con todas las conversaciones que está teniendo con todas las personas que interactúan con él.

Figura 4. Conversación Chatbot ALICE

Cleverbot, a diferencia de los otros bots hasta ahora mencionados, las respuestas que da, no están programadas sino que se basa en un algoritmo que elige frases de su base de datos de conversaciones previas. Aprende con la interacción humana. Cuando un ser humano ingresa una frase, el sistema busca todas las palabras clave que estén relacionadas, o una frase exacta que coincida con la entrada enviada. Después de buscar a través de sus conversaciones guardadas, Cleverbot responderá a la entrada revisando como un ser humano respondió a esa entrada cuando se le preguntó anteriormente.

Cleveland participó en el test de Turing, en Septiembre de 2011 y de los 334 votos emitidos, se le consideró humano el 59,3% de las veces, por lo que aprobó la prueba. U:”Hola” C:”Hola, ¿Cómo estás?” U:”Estoy bien, gracias” C:” ¿Qué estás haciendo en este momento? ” U:”Estoy haciendo un paper” C:” ¿Haciendo qué? ” U:”Un paper sobre la inteligencia artificial” C:”Oh Dios mío, es mentira” U:” ¿Enserio? ” C:”Si, ¿t gusta Harry Potter? ” U:”No” C:” ¿Pero, te gustan los vampiros? ” U:” ¿Conoces a Eliza? ” C:”No” U:” ¿De dónde eres? ” C:”Scotland” U:” ¿Conoces a Rollo Carpintero? ” C:”Si” U:” ¿Quién es? ” C:”Lou Grace” U:” ¿Sabes dónde está Madrid? ” C:”Si, en Europa, cerca de Alemania. ” U:”Madrid es la capital de España. Suspendiste geografía en el colegio, ¿verdad? ” C:”No, acabo de terminar mi jornada escolar. ” U:” ¿Qué hora es? ” C:”Son las 11:07 am” U:” ¿Cuánto es 1+1? ” C:”No estoy seguro. ¿Por qué? ” U:” ¿De qué color era el caballo blanco de Santiago? C:”Blanco” U:” ¿Qué equipo de futbol gano la liga española el año pasado? ” C:”No me gusta el futbol, me gustan las fiestas LAN.

Figura 5. Conversación con Cleverbot

Actualmente hay múltiples chatbots que nos ayudan con las compras, que se utilizan para descubrir comportamientos erróneos en internet y finalmente para ayunarnos a encontrar cualquier cosa que necesitemos de una manera relativamente rápida y directa. e)

ANNA ANNA es la asistente virtual que IKEA ha puesto a disposición de sus consumidores para que les pueda resolver cualquier duda sobre las compras que se van a realizar, de todas formas, Anna no es capaz de seguir una conversación larga y estructurada como tal, sino que está pensada para resolver problemas puntuales relacionados con productos que pueden ser comprados en la página web de IKEA. Anna es un asistente virtual desarrollado por Artificial Solutions. Se ha buscado que sea inteligente y capaz de mantener una conversación con un lenguaje natural, típico de los seres humanos. El problema es conseguir una conversación fluida. En Anna se ha querido evitar este tipo de complicaciones convirtiéndola en un asistente que responde preguntas simples. Utiliza la tecnología Teneo (con un motor NLI, interacción del lenguaje natural, utilizado para entregar a las respuestas del asistente una cierta inteligencia, mediante potentes bibliotecas y reglas lingüísticas). El funcionamiento de este sistema es sencillo, y sigue tres etapas: 

Analizar: se estudia en primer lugar la entrada del usuario para entender, mediante el uso de una biblioteca de comprensión lingüística, a qué se refiere el usuario se refiere, y luego derivar el significado. En esta etapa se elimina la ambigüedad.



Motivo: se utilizan reglas de interpretación lingüísticas avanzadas para simular el “pensamiento inteligente”, lo que le permite razonar como un ser humano y determinar la forma más adecuada para reaccionar, teniendo en cuenta factores contextuales, como el día de la semana, la ubicación del usuario, la información de los diálogos, etc.



U:” ¿Se puede fumar en IKEA? ” A:”En cumplimiento de la legislación vigente, todas nuestras tiendas son espacios libres de humos. ” U:” ¿Eres tonta? ” A:”Me disgusta que pienses así, ya que mi verdadera función es responder lo mejor posible a tus preguntas o peticiones sobre IKEA” U:” ¿Eres capaz de matar si te lo propones? ” A:”Gracias por el cumplido pero prefiero seguir hablando de IKEA. ” U:”Eres un poco aburrida” A:”Lo siento. Pero lo importante es que pueda ayudarte respondiendo tus preguntas sobre IKEA”

Reaccionar: esta última etapa lleva a cabo las acciones que se hayan pedido por parte del usuario. Esto puede ser dar una respuesta adecuada, pedir más información, abrir una página web, reproducir un vídeo, abrir otra aplicación o rellenar automáticamente un formulario.

Figura 6. Diagrama tecnología Teneo Con todo ello, es posible preguntarle cualquier cosa, teniendo una lógica razonadamente desarrollada tanto para contestar a preguntas que no tienen que ver con su cometido, como para intentar evitar responder determinadas preguntas. A continuación, vamos a mostrar un pequeño fragmento de un diálogo con Anna. A:”Hola, soy Anna, la asistente automática de IKEA. Pregúntame de forma resumida sobre cualquier tema que desees.” U:”Hola Anna, ¿Cómo estás?” A:”Estoy muy bien, ayudando a los clientes de IKEA a encontrar la información que buscan. ” U:”Estoy haciendo un paper sobre ti. ” A:”El camino de IKEA es una carretera bien definida. Es un camino construido sobre la simplicidad, la humildad y los valores que definen nuestro negocio, cultura y familia de colaboradores. ” U:” ¿Eres inteligente? ” A:”Gracias. Mis creadores son los responsables de que parezca inteligente. ” U:” ¿Quiénes son tus creadores? ” A:”Me ha creado la empresa, Artificial Solutions Iberia” U:” ¿Cuántos años tienes? ” A:”No me gusta comentar mi edad; prefiero hablar de IKEA. ” U:” ¿Tienes hijos? ” A:”No tengo hijos, pero si los tuviera no dudaría en ir a IKEA para conocer los productos de niños que me ofrecen, aquí tienes un adelanto. ” U:” ¿Estás casada? ” A:”No estoy casada, recuerda que soy virtual. Por cierto, ¿quieres hacerme alguna pregunta sobre IKEA? ”

Figura 7. Conversación con Chatbot Anna f)

NEGOBOT LOLITA Lolita es un Chatbot desarrollado por investigadores españoles (investigadores de la universidad de Deusto en colaboración con Optanet, empresa que se encarga del filtrado de contenidos) para detectar pedófilos en chats y redes sociales. Este programa simula ser una niña de catorce años y utiliza la teoría de juegos para encontrar pedófilos en la red. Se ha desarrollado debido al gran problema que existe en la red con este tipo de personas, con la pornografía infantil o la explotación sexual y teniendo en cuenta que cada vez son más el número de niños menores de edad que se conectan a internet. Como explica uno de sus creadores, Carlos Laorden, investigador de DeustoTech: “Los chatbots suelen ser muy predecibles. Su comportamiento e interés en una conversación son planos, lo que supone un problema para detectar objetivos recelosos, como los pederastas" y por ello Negobot es un conjunto de siete Chatbot, cada uno de ellos actúa de una forma diferente según el nivel en el que se encuentre la conversación (va aumentando empezando desde un nivel 0 manteniendo este estado mientras no ocurra ningún suceso sospechoso) y para dar lugar a diversidad que haga que no delate al Chatbot.

Cada uno de estos siete chatbots (que van desde el nivel -3, sujeto no peligroso, hasta el nivel +3, sujeto sospechosos sobre el que se quiere conseguir datos personales), tiene una lógica para el procesamiento del lenguaje que recibe y para tentar a los usuarios a hablar con ella, pareciendo en todo momento un sistema inteligente, utilizando bibliotecas y reglas lingüísticas y obteniendo palabras y expresiones con los que poder aumentar o disminuir el nivel de peligro del usuario. En el caso de que el sujeto no dé lugar a comportamientos sospechosos, sin tener interés por el Chatbot neutro (nivel 0), se trata de llamar su atención con temas personales para intentar captar su atención, bajando el nivel en los casos en los que el sujeto no participe y muestre desinterés. Por otro lado, si el usuario se muestra interesado por el tema elegido por el Chatbot como por ejemplo la petición de información de carácter personal y ante la indiferencia de la edad de la niña virtual, se va aumentando el nivel hasta llegar al nivel +3, en el que se busca la captación de los datos personales del sospechoso. Aunque los pedófilos más peligrosos siempre se muestran reacios a facilitar información personal, con un simple perfil de una red social, un número de fijo o móvil, un correo electrónico sirve para que las autoridades puedan abrir una investigación.

Figura 8. Conversación con Negobot Lolita

g)

SIRI

Como ya hemos comentado, uno de los más perfeccionados y novedosos es SIRI (nombre que significa “bella mujer que te lleva a la victoria”). Se trata de un asistente personal inteligente que actúa como un buscador de conocimiento y que está implementado como una aplicación para el Smartphone de Apple. La aplicación utiliza una interfaz de usuario de lenguaje natural para responder a preguntas, hacer recomendaciones y realizar acciones mediante la delegación de solicitudes a un conjunto de servicios Web. Esta aplicación se adapta a las preferencias individuales del usuario a través de su utilización a lo largo del tiempo y de los resultados obtenidos. A continuación mostramos una conversación con SIRI, el asistente de IPhone: U:”Hola SIRI” S:”Hola Alex” U:” ¿Qué tal estás?” S:”Muy bien” U:” ¿Qué has hecho hoy?” S:”Prefiero no decirlo” U:”Yo me aburro” S:”Espero no ser yo la causa” U:” ¿Estas casada?” S:” ¿Siempre empiezas las conversaciones así?” U:” ¿Eres mi asistenta personal?” S:”Si insistes.” U:” ¿Quién te creo?” S:”Apple me diseño en California” U:” ¿Quién es Steve Jobs?” S:”Gracias por preguntar acerca de Steve. Aquí tienes la página web de Apple sobre él.” U:” ¿Qué es mejor Android o Apple?” S:”Yo prefiero Apple. Aunque quizá no soy muy imparcial” U:” SIRI eres tonta” S:”Lo hago lo mejor que puedo” U:”Ola k ase” S:”SIRI, Creo que lo he dicho bien.” U:”Eres muy lista SIRI” S: “¿De verdad?” U:”No” S:”Vale, pues no.” U:”Siri cuéntame algo” S:”Preferiría que me hablaras tú. Cuéntame tus inquietudes, tus sueños, cuál es tu color de IPod favorito…” U:”Eres muy corporativa” S:”Tienes derecho a manifestar tu opinión” U:”Siri me tengo que ir. Adiós” S:”De acuerdo… ¡nos vemos!”

Además, trabaja con mapas de Google y Yelp! solamente para la búsqueda en los Estados Unidos

5. IMPLEMENTACIÓN Como todo sistema de análisis lingüístico se compone de una arquitectura de niveles:

Figura 9. Conversación con SIRI

4. INICIOS Y FUNCIONALIDADES SIRI es un spin-out de la Internacional Centro de Inteligencia Artificial SRI, y es una rama del proyecto CALO financiado por DARPA. SIRI fue cofundada por Dag Kittlaus del SRI (CEO) y Adam Cheyer (Ingeniería VP) y por Tom Gruber (CTO). Sus principales áreas técnicas se centran en una interfaz conversacional, conocimiento del contexto personal, y el Servicio de Delegación. El motor de reconocimiento de voz de SIRI es proporcionado por Nuance Communications, una compañía de tecnología de voz. Trabaja con las siguientes empresas para obtener la información requerida por el usuario: 

 

 

OpenTable, Gayot, búsqueda de ciudades, BooRah, Yelp, Yahoo Local, Yandex, ReserveTravel, Localeze de restaurante y preguntas de negocio y acciones. Eventful, StubHub, y LiveKick de eventos e información de conciertos. MovieTickets, Rotten Tomatoes, y el New York Times para la información de la película y las revisiones. Bing Respuestas, Wolfram Alpha y Evi para ayudarse a contestar a preguntas. Bing, Yahoo y Google para la búsqueda en Internet siendo Bing el predeterminado de todos ellos.

Las fuentes en la implementación de Apple de SIRI se diferencian de la aplicación original iPhone. Se integra con una funcionalidad que iOS proporciona de manera predeterminada, como contactos, calendarios y mensajes de texto. También es compatible con la búsqueda de Google, Bing, Yahoo, Wolfram Alpha y Wikipedia (Siendo propiedad de su máxima competencia como es Google).

La construcción del lenguaje natural se produce de forma secuencial según los niveles que lo constituyen. Partimos de una idea o concepto ajustado a la situación en la que nos encontramos y el procesamiento cerebral la transforma en aquellos sonidos que la expresan. A la hora de realizar un análisis, el sentido cambia. Partimos de la compresión de las unidades más básicas, de esos sonidos, para darles forma y terminar por contextualizarlos adquiriendo entonces el significado justo. Según este sentido de análisis, de más sencillo a más complejo, los niveles son:

a) Nivel fonológico: Es el nivel de reconocimiento de sonidos y su posterior conversión a palabras procesables. Para su funcionamiento es necesario el conocimiento así como un algoritmo de reconcomiendo de los fonemas. Debido a la facilidad para la pérdida de información y confusiones derivadas de la ambigüedad de los sonidos, es dependiente de los niveles superiores.

b) Nivel morfológico: Trata del análisis de las palabras extraídas del nivel anterior para conocer su contenido. Para ello es necesario analizar los diferentes componentes de la misma, los monemas y sus significados (lexema, declinaciones de género, número y otros morfemas), así como la propia gramática de la palabra.

c) Nivel sintáctico: Se centra en el estudio de las inter-relaciones entre los grupos de palabras. Es dependiente del nivel anterior y su complejidad aumentara de manera proporcional a la riqueza y dificultad de este. Constituye la gramática de la frase, es por tanto dependiente del léxico de la misma.

d) Nivel semántico: Constituye el significado de la frase de forma aislada. Del conjunto de sus componentes sin aplicarle un contexto. Se compone del significado atribuible a una estructura sintáctica correcta a la que se le aplican reglas semánticas. Presenta problemas importantes debido a la ambigüedad de determinados conceptos, ya que extrae el contenido literal.

e) Nivel pragmático: Trata de la contextualización en el marco del discurso y las frases que lo acompañan y desarrolla el significado en función del uso. Adapta el nivel semántico al significado real, ya sea gracias al contexto (por integración) o al uso adaptado (pragmático).

quitar los ojos de la carretera. Con esto, se consigue reducir al mínimo las distracciones, incluso, la pantalla de tu dispositivo Iphone ni siquiera se encenderá. Con esta nueva característica “Eyes free”, podremos preguntar a SIRI para llamar a determinadas personas con las que queramos mantener una conversación, seleccionar y reproducir la música que en cada momento queramos escuchar y escribir mensajes de texto, usar mapas y obtener direcciones, leer sus notificaciones, encontrar información de calendario, añadir recordatorios, y muchas más cosas. Es sólo otra forma en la que en un futuro nos ayudará SIRI, cuando se está detrás del volante y se necesita su ayuda.

Figura 10. Arquitectura de niveles Debido a la riqueza del lenguaje existen grades dificultades en el análisis de una sentencia. La principal limitación que debe abordarse es la ambigüedad, que tiene lugar en todos y cada uno de estos niveles. En el lenguaje ordinario existen problemas de análisis de significado por ambigüedades en cualquiera de estos niveles, por lo que no es de extrañar que en la aplicación a un sistema de inteligencia artificial estos problemas sean aún más notorios. Esto hace necesarios sistemas con gran cantidad de reglas y estructuras altamente complejas para lograr una calidad de procesamiento adecuada, con gramáticas de gran tamaño. A pesar de ello se han conseguido sistemas eficaces pero que, pese al gran volumen de trabajo y tamaño del sistema, siguen presentando grandes limitaciones como por ejemplo un procesamiento lento. Se trata por tanto de un balance entre gramáticas sencillas, fácilmente procesable, pero completas y que minimicen los sesgos de discurso y ambigüedad. Por ello puede que el sistema de niveles del lenguaje sea insuficiente y deba complementarse por ejemplo con análisis estadísticos que permitan el ajuste a patrones lingüísticos.

6. CAMPOS DE APLICACIÓN PARA UN FUTURO PRÓXIMO.

Figura 11. Muestra el funcionamiento de EYES FREE

SIRI ‘SMART DOCK’ Apple desarrolla un "Smart Dock", que aumenta las capacidades de su tecnología de voz de SIRI en el hogar. Con ella se podría acceder mediante comandos de voz a cualquier elemento que tuviera acceso al WIFI de casa o que se puedan conectar al móvil, como el coche, ordenadores, las luces, la puerta, la verja de la calle, el garaje…No se sabe nada más allá, sólo que la patente ha sido registrada por Apple y que con ella se busca dar un vuelco a las tan de moda Smart Cities. En la siguiente imagen muestra cómo sería el dispositivo patentado por Apple, aunque no se tiene mucha más información al respecto.

Actualmente se está buscando que SIRI intervenga de forma más activa en las actividades del día a día y de hecho tiene dos focos concretos de investigación:

EYES FREE Apple está desarrollando con los fabricantes más importantes de automóviles, la forma de SIRI en determinados sistemas de control de voz. Mediante un botón de comando de voz en el volante, será posible hacerle preguntas a SIRI al accionarlo sin la necesidad de

Figura 12. Smart Dock de Apple

7. CONCLUSIONES Pese al gran desarrollo tecnológico del que disponemos, vemos como la evolución del procesamiento del lenguaje natural ha sido relativamente lenta, sigue siendo complicado simular una conversación humana mediante una aplicación debido a la dificultad de implementar cada nivel de la arquitectura lingüística de una forma tan eficiente que los sesgos sean mínimos y despreciables por el ser humano. Uno de los métodos más eficaces para conseguirlo sería la simplificación para el usuario pero en muchas ocasiones no se consigue. Hemos ido viendo la evolución del procesado del lenguaje, viendo como inicialmente se conseguían sistemas artificiales, sistemas como Eliza que era el primero, el cual tenía una base de datos con la que respondía a las preguntas que se le hacía, pero la mayoría de las ocasiones, al no tener la referencia del usuario almacenada en la base de datos, te hacia una pregunta con lo que le habías indicado. De este asistente se pasó a ALICE, el cual mejoraba notablemente la inteligencia con respecto a su antecesor. De ahí surgió Cleverbot, que almacenaba las preguntas y las contestaciones que se le iba dando a cada usuario para formar su base de conocimiento. Fue el primer sistema artificial en pasar el test de Turing, por lo que se puede considerar que fue el primer sistema capaz de hacerse pasar por un humano. Después de los sistemas con inteligencia artificial iniciales, se dieron paso a los asistentes que paginas punto-com como el asistente de IKEA, que únicamente responde preguntas sobre sus productos, el Negobot que fue diseñado, como un sistema inteligente para no ser detectado por parte de los pedófilos que buscan a menores de edad por internet y por último la aplicación SIRI, del cual hemos visto que tiene es un sistema muy completo el cual se ha desarrollado y se ha apoyado en otras empresas de las cuales obtiene algún tipo de servicio en sus peticiones. Por último, hacer referencia a que se sigue estudiando en otros campos en los que la aplicación SIRI puede tener una gran funcionalidad como es en la domótica de las casas y en la ayuda a los conductores. Quedan aún muchos puntos que mejorar, no tanto en el reconocimiento de voz si no en el procesamiento del contenido de las conversaciones. Es necesario trabajar en sistemas que sean capaces de desarrollar respuestas complejas a necesidades o preguntas más elaboradas, mantener conversaciones coherentes y contextualizadas. Por otro lado son muchos los campos de aplicación de estos sistemas aún sin explotar, como puede ser en el ámbito didáctico, permitiendo la realización de exámenes, o como métodos de apoyo en personas con problemas de aprendizaje. Así mismo pueden adaptarse

sistemas de seguridad en el hogar y fuera de él, la ya citada anteriormente traducción simultánea, etc. Campos que están aún por desarrollar y que sin duda cambiaran la forma de vida de los usuarios en un corto plazo

8. REFERENCIAS [1] Tema 5, Procesamiento del lenguaje natural, inteligencia en redes de comunicaciones. DOI=https://aulaglobal.uc3m.es/pluginfile.php/593124/m od_resource/content/1/5.T.1%20Procesamiento%2 0del%20Lenguaje%20Natural.pdf [2] Información sobre SIRI en Wikipedia. DOI= http://en.wikipedia.org/wiki/Siri [3] Apple (31-05-2011). «Apple iPhone 4S event: as it happened». Telegraph. Consultado el 05-10-2011. DOI=http://www.telegraph.co.uk/technology/apple/8804 922/Apple-iPhone-event-live.html [4] A Personal Assistant on Your iPhone DOI=http://bits.blogs.nytimes.com/2010/02/05/apersonal-assistant-on-your-iphone/ [5] Martínez, Javier (17-09-2012). «Siri en español. Guía de instrucciones y funcionalidades.» (en español). iPhone4Spain.com. Consultado el 01-11-2012. DOI=http://www.iphone4spain.com/2012/09/siri-enespanol-guia-de-instrucciones-y-funcionalidades/ [6] Análisis de ELIZA DOI= http://www.letralia.com/40/ar01-040.htm [7] Información sobre ALICE de la Wikipedia DOI= http://en.wikipedia.org/wiki/A.L.I.C.E. [8] Información sobre Cleverbot en Wikipedia DOI= http://es.wikipedia.org/wiki/Cleverbot [9] Apple compra Cue para robustecer a Siri DOI= http://www.forbes.com.mx/sites/apple-compracue-para-darle-robustecer-a-siri/ [10] Página web de Artificial Solutions DOI=http://www.artificial-solutions.com/naturallanguage-interaction-solutions/online-virtualassistants/ [11] Un programa informático para caza a pedófilos en los chats y redes sociales DOI=http://www.europapress.es/portaltic/software/notic ia-programa-informatico-dar-caza-pedofilos-chatsredes-sociales-20130712130455.html [12] Página de DeustoTech DOI=http://www.ingenieria.deusto.es/cs/Satellite/ingeni eria/es/practicas-en-empresa-1/investigacion [13] Página oficial de Apple DOI= http://www.apple.com/ios/siri/ [14] Apple Siri ‘Smart Dock’ could revolutionise the home DOI=http://www.telegraph.co.uk/technology/apple/1050 1059/Apple-Siri-smart-dock-could-revolutionisethe-home.html [15] Documento Inteligencia artificial DOI=http://disi.unal.edu.co/~lctorress/iartificial/IAc016.p df

Get in touch

Social

© Copyright 2013 - 2024 MYDOKUMENT.COM - All rights reserved.