Curso de procesamiento del lenguaje natural

Curso de procesamiento del lenguaje natural César Antonio Aguilar Facultad de Letras 23/11/2016 [email protected]

Sintaxis y semántica (1) Dentro de los estudios de sintaxis y semántica, incluidos también los que se sitúan en el marco de la lingüística computacional, se hace diferencia entre el análisis de significado de palabras y oraciones. En este sentido, se considera que toda oración (y también frases) configuran eventos concretos del mundo, de tal suerte que dichos eventos se representan, en un plano sintáctico, conforme a una estructura argumental. Un ejemplo es: Un buen ejemplo respecto sobre cómo operan las estructuras argumentales son los verbos: si partimos del supuesto de que los verbos configuran eventos, entonces los argumentos son los elementos que representan en un plano lingüístico dichos eventos.

Sintaxis y semántica (4) Esta clase de fenómenos no son nuevos en los estudios lingüísticos: Platón, Aristóteles, Saussure, Frege, etc., ya nos han explicado que toda expresión lingüística tiene un significado, de modo que ambos mantienen una relación prácticamente indivisible.

Esto, así visto, parece una verdad de Perogrullo, sobre todo porque hay suficiente evidencia que nos confirma esta relación entre significante y significado. Empero, en los años 50 y 60 mucha gente se cuestionó seriamente si podían resolverse los procesos de producción y comprensión de estructuras sintácticas sin considerar su significado.

3

La teoría de las interfaces lingüísticas (1) Sin entrar demasiado en detalles, como lo comentamos en la clase anterior, quien ha propuesto una explicación bastante elegante sobre cómo operan los módulos sintáctico y semántico es Ray Jackendoff (1948), al postular que tales módulos configuran una interfaz..

Para Jackendoff, el hecho de que una unidad léxica pueda influir directamente en una estructura sintáctica es un claro ejemplo de que las lenguas naturales operan en términos de interfaces conectadas entre sí. De hecho, esto pasa en todos los niveles lingüísticos. 4

La teoría de las interfaces lingüísticas (2) La solución que da Jackendoff supone que el módulo semántico está próximo a un plano conceptual, en tanto que el módulo sintáctico es el resultado de un proceso previo de configuración de una estructura lingüística , la cual necesita adecuar su contenido léxico, dependiendo del evento que tendrá que expresar.

En este sentido, una estructura argumental no es más que una interfaz que cumple la siguiente función: mapear una representación sintáctica para un contenido conceptual dado.

5

La teoría de las interfaces lingüísticas (3) Jackendoff y otros autores consideran que el hecho de permitir un acceso a la sintaxis por parte de un nivel conceptual no debe ser algo caótico, sino todo lo contrario. En este sentido, una estructura argumental puede ser entendida como el mapeo de funciones que hace un contenido conceptual sobre el conjunto de estructuras sintácticas posibles de una lengua:

6

Mapeo de funciones (1) Vamos a tratar de entender el mapeo de funciones del siguiente modo: Supongamos que tenemos un predicado del tipo X es un satélite de Y. Más o menos entendemos, por extensión, una relación como: La Luna es un satélite de la Tierra.

…Ser un satélite de…

7

Mapeo de funciones (2) Como pueden observar, existen dos detalles en este tipo de relaciones: 1. Que el predicado … Ser un satélite de… requiere de dos argumentos, y que éstos tienen un orden concreto. 2. Que tal predicado se puede aplicar a otros objetos que puedan operar como argumentos similares. Si esto es así, entonces podemos formar un conjunto de lunas y planetas ligados por el predicado …Ser un satélite de…

En otras palabras, lo que tenemos es una función del tipo:

8

Mapeo de funciones (3) Ahora, para generar nuevos predicados, vamos a tomar en cuenta dos unidades básicas:

Relaciones: son vínculos formales, los cuales se pueden establecer a partir de reglas, que se dan entre objetos dentro de un conjunto, sean tuplas o no.

Funciones: indican los valores que pueden asumir uno o más objetos dentro de una relación.

9

Mapeo de funciones (4) Con estas dos unidades, podemos hacer un cálculo de predicados aplicable a cualquier cosa:

X es un planeta

A = (Planeta)

X = Venus

A = A [Relación de referencia]

X = “El lucero del alba” X = “El lucero vespertino”

A = B [Relación de sentido]

10

Mapeo de funciones (5) Otra forma de representar esto, en términos de una auténtica función, es:

Mercurio Venus

Tierra Marte

f (X ), X es un planeta

X puede ser =

Júpiter Saturno

Urano Neptuno

11

Mapeo de funciones (6) Podemos ajustar nuestras proposiciones del siguiente modo:

f( )= “SER el planeta llamado Venus” x = “el objeto Venus”

y = “el objeto Lucero del Alba”

f (x, y) = z “Los argumentos ‘Venus’ y ‘Lucero del Alba’ cumplen con la función del predicado ‘SER Venus’”

12

Cálculo Lambda en semántica (1) El cálculo lambda (usualmente representado con el símbolo λ) es un sistema formal diseñado para investigar la definición de función, la noción de aplicación de funciones y la recursión. Este cálculo fue desarrollado por Alonzo Church (1903-1995) y Stephen C. Kleene (1909-1994) alrededor de 1930.

Alonzo Church

Stephen C. Kleene

13

Cálculo Lambda en semántica (2) Para lo que viene a continuación, me voy a basar en la explicación que elabora Gennaro Chierchia (1953) sobre cómo funciona el cálculo Lambda en semántica. En semántica, Lambda se ocupa para definir de manera sistemática aquellos rasgos complejos, en términos de propiedades relacionadas con una función dada. P. e., si tenemos la siguiente fórmula: http://linguistics.fas.harvard.edu

Si  es una fórmula bien estructurada y x es una variable, entonces λx[] es un predicado. 14

Cálculo Lambda en semántica (3) La fórmula anterior se lee del siguiente modo:

λx[] La propiedad de ser un X tal que  cumple con dicha propiedad En otras palabras, lo que tenemos entonces es un mapeo de λx hacia , de tal forma que decimos que λx[] están ligados a través de Lambda, y por lo mismo [] es una proyección de λ. De hecho, Chierchia señala que la fórmula λx[] nos permite representar ya un predicado simple que cuenta con un argumento (precisamente []). 15

Cálculo Lambda en semántica (4) Vamos a ver qué podemos representar con nuestra fórmula. Tenemos entonces una serie de atributos asociados a X:

λx[casado(x)  hombre(x)  adulto(x)] Vamos a ver qué podemos representar con nuestra fórmula. Tenemos entonces una serie de atributos asociados a X:

λxy[amar(x,y)]

16

Cálculo Lambda en semántica (6) Recordemos, X representa aquí una variable, por tanto, la podemos sustituir por un término, el cual representa a una entidad dada en el mundo. P.e., Si cambiamos X por Juan, tenemos:

Juan[casado(J)  hombre(J)  adulto(J)] Y si modificamos nuestro siguiente predicado tenemos:

y[amar(y,J)]

Mapeando argumentos con Lambda (1) La mayoría de los semantistas que trabajan con Lambda lo emplean para mapear unidades semánticas con estructuras sintácticas. Veamos: x (man(x)) Everybody is a man x (man(x)) Somebody is a man x (man(x)) The function that maps men to “true” and non-men to “false”

x (man(x)) (john) The function that maps men to “true” and non-men to “false” applied to john

Mapeando argumentos con Lambda (2) Ahora bien, vamos a representar esto como predicados simples de acuerdo con la fórmula que nos propuso Chierchia:

[[ sleeps ]] = λx: sleeps(x) [[ man ]] = λx: man(x) [[ red ]] = λx: red(x) Y esta misma fórmula, con una mínima modificación, nos sirve para representar predicados transitivos con dos argumentos:

[[ loves ]] = λy: λx: loves(x,y)

Ejemplo (1)

Ejemplo (2)

Ejemplo (3)

Ejemplo (4)

Ejemplo (5)

Ejemplo (6)

Ejemplo (7)

Lambda y semántica formal (1) El cálculo Lambda es un mecanismo que nos permite representar cómo se constituye el significado de una oración o frase a partir de un proceso composicional: la suma de las partes mínimas genera una estructura más compleja, por lo que podemos identificar sus constituyentes mínimos a partir de un análisis.

compositional semantics

?x:think(bill,likes(harry,x))

or some other suitable representation

Lambda y semántica formal (2) Lambda es también un mecanismo muy valioso que permite explicar de manera clara cómo se establecen relaciones en una interfaz sintácticosemántica. Gramáticas como LFG ocupan Lambda en sus explicaciones:

28

Hacia un lexicón generativo (2) LFG es un modelo gramatical que permite comprender de una manera simple el supuesto básico que subyace en toda semántica léxica: en nuestra mente existe un enorme repositorio organizado de palabras, las cuales se combinan unas con otras para generar diversas relaciones de sentido. Ahora bien, estas combinaciones son controladas a partir de reglas, las cuales regulan los intercambios que hay entre las interfaces léxica y sintáctica.

29

Hacia un lexicón generativo (3) Ahora bien, con lo que hemos visto hasta ahora, parecería que los verbos son las unidades gramaticales que mejor representan cómo se dan las relaciones entre léxico y sintaxis. Sin embargo, no son las únicas, ya que otras unidades proyectan relaciones léxicas específicas. En concreto:

Hacia un lexicón generativo (4) Este conjunto de relaciones han sido desarrolladas durante muchos años dentro del seno de la lexicografía y la lexicología. Lo relevante de retomar estas relaciones es que justo nos ayudan a categorizar y organizar nuestro lexicón mental:

Hacia un lexicón generativo (5) Tomando en cuenta esta clase de relaciones, así como su función para desarrollar sistemas de clasificación de conceptos, James Pustejovsky publicó en 1991 (en la revista Computational Linguistics) un artículo titulado “The Generative Lexicon”, el cual fue la piedra de toque para el desarrollo de una teoría semántica llamada precisamente lexicón generativo (o GL).

James Pustejovsky

Pustejovsky propone, a grandes rasgos, una teoría que le permite desarrollar criterios de clasificación de información léxica, considerando una serie de estructuras cualitativas (ing. Qualia Structures) básicas y, por lo mismo, universales para cualquier lengua natural.

Hacia un lexicón generativo (6)

Pustejovsky retoma la teoría de las categorías aristotélicas, considerando que lo que intenta Aristóteles es desarrollar un sistema de clasificación de conceptos, el cual funcione a partir de un conjunto de categorías primitivas que permitan producir taxonomías capaces de capturar todos los conceptos posibles de una lengua natural.

Categoría

Interpretación de la Categoría

Ejemplos

Esencia

“¿Qué es X?”

Hombre Sócrates

Cantidad

“¿Cuánto es X?”

4 metros 2 kilos

Calidad (Qualia)

“¿Qué rasgos tiene X?”

Blanco Soluble

Relación

“¿Con qué se liga X?”

Superior Inferior

Locación

“¿Dónde está X?”

En la escuela En el mercado

Tiempo

“¿Cuándo es X?

Ayer Hoy

Posición

“¿Cómo está situado X?”

Horizontal Paralelo

Posesión

“¿Qué es propiedad de X?”

Tiene patas Está armado

Acción

“¿Qué hace X?”

Corta Quema

Pasión (Pasivo)

X es afectado por…

Cortado Quemado

Hacia un lexicón generativo (7) Pustejovsky logra codificar esta información léxica en 4 estructuras concretas, a saber:

Con estas 4 estructuras básicas, Pustejovsky logra sintetizar las categorías consideradas por Aristóteles en su lógica.

Hacia un lexicón generativo (8) ¿Cómo se relacionan estas 4 estructuras? En concreto, lo que queremos es establecer diferencias respecto al contenido léxico que puede asumir una palabra en dos o más contextos, p. e.:

Dependiendo del contenido léxico de las palabras que conforman las estructuras argumentales, cambia el significado del evento representado por la oración. Así, diríamos que hornear una papa es un cambio de estado, en tanto que hornear un pastel es crear un objeto concreto (a partir de la mezcla de otros elementos utilizados en el proceso).

Hacia un lexicón generativo (9) Cuando tomamos en cuenta esta clase de información, podemos pensar en la generación de taxonomías que nos ayuden a clasificar los conceptos que son referidos por las palabras de una lengua natural.

Ahora bien, hay que tener en cuenta que estas taxonomías no son fijas, sino dinámicas: son representaciones concretas de dominios de conocimiento que pueden ser generales y/o particulares.

Hacia un lexicón generativo (10) Al igual que LFG, GL supone que toda esta información se codifica en matrices léxicas, las cuales (siguiendo a Aristóteles), describen los rasgos necesarios y suficientes para describir una palabra. Una matriz léxica se construye del siguiente modo:

En este caso, la estructura qualia toma en cuenta 4 sub-rasgos: (1) Consistencia, (2) Forma, (3) Función y (4) Agentividad (esto es, cuál el origen o la génesis de nuestro concepto).

¿Cómo funcionan los rasgos Qualia? (1) Veamos con mayor detalle cómo operan estos rasgos. Primero, delimitemos un objeto con ciertos rasgos, p. e., ser un objeto físico (versus un objeto abstracto):

Una vez hecho esto, consideremos que este objeto es fabricado por una persona, de modo que podemos considerarlo (de acuerdo con Pustejovsky) como un artefacto, el cual es capaz de desempeñar ciertas funciones (de acuerdo con el verbo al cual se asocie, p. e. to eat (representado como E):

¿Cómo funcionan los rasgos Qualia? (2) Finalmente, la matriz de rasgos nos permite representar cualquier artefacto que pueda ser consumible (dado que se asocia con la acción de comer); ergo, si seleccionamos la palabra sandwich, su matriz léxica sería:

Observación: sin duda, estos no son los únicos rasgos que podemos considerar para sandwich, pero digamos que responden a preguntas básicas como: ¿qué es?, ¿de qué está hecho?, ¿qué forma asume?, ¿cómo funciona? , y finalmente ¿cuál es la naturaleza de su origen? Así, podemos considerar que esta matriz de rasgos es el equivalente formal a una entrada de diccionario.

¿Cómo funcionan los rasgos Qualia? (3) La construcción de matrices léxicas puede servir para muchas cosas, p.e., construir una taxonomía de conceptos en un área especializada, como es el caso de medicina:

Vean la liga a este proyecto del mismo Pustejovsky: www.medstract.org 40

Gracias por su atención Blog del curso: http://cesaraguilar.weebly.com/curso-deprocesamiento-del-lenguaje-natural.html

Curso de procesamiento del lenguaje natural

Recommend Stories

Story Transcript

Get in touch

Social