DE SIMILITUD DE DOCUMENTOS

´cnica de Madrid Universidad Polite ´cnica Superior de Ingenieros Informa ´ ticos Escuela Te

´ ster Tesis de Fin de Ma

´ ´ MODELO DE PARAFRASIS SEMANTICA DE SIMILITUD DE DOCUMENTOS ´ MASTER UNIVERSITARIO EN INTELIGENCIA ARTIFICIAL Departamento de Inteligencia Artificial Madrid, Julio 2016

Autora

Mar´ıa Navas Loro Supervisor

Jes´ us Carde˜ nosa Lera Grupo de Validaci´on y Aplicaciones Industriales

What else would be given without explanation? How far could he rely, then, on the knowledge he was gaining? He would have to ask questions constantly, take nothing for granted. There would be so many opportunities to miss the obvious, so many chances to misunderstand, so many ways of taking the wrong path.

The Robots of Dawn, Isaac Asimov

The difficult is what takes a little time; the impossible is what takes a little longer.

Fridtjof Nansen

ii

Dedicado a ...

Ojal´a existiese una m´etrica de agradecimientos que diese a cada uno de los que me aguantan acompa˜ nan el peso justo que merece. No obstante, y pese a lo que digan Riemann y Lebesgue, hay cosas que no se pueden medir.

iii

Abstract Treatment of paraphrasing is an understudied area of Natural Language Processing. Most related efforts have focused on the study of purely semantic similarity, oriented to tasks such as text categorization, leaving aside the study of the content of the text, of what it does really mean. The fact that the main approaches to the treatment of paraphrasing are limited either to related areas such as logic or to purely theoretical linguistic models with difficult and costly practical application make this phenomenon not to be properly covered nowadays, being still impossible to tell whether two texts say exactly the same despite being expressed in different ways. Existing approaches also tend to be oriented to a unique language, so their scope is even more limited, preventing them for instance from certifying if a translation is correct or not. This thesis aims to remove this obstacle by approaching paraphrasing from a multilingual point of view, basing the presented model on an interlingual representation that allows it to study paraphrased texts that can come from any language. This representation will also help to avoid other common obstacles in Natural Language Understanding, such as the ambiguity problem. Therefore we introduce a model based on a novel approach, language independent, along with an extensive State of the Art on the areas involved in the treatment of paraphrasing.

Resumen El tratamiento de la par´afrasis es un a´rea poco estudiada del Procesamiento del Lenguaje Natural. La mayor´ıa de esfuerzos relacionados se han centrado en el estudio de la similaridad puramente sem´antica, orientada a tareas como la categorizaci´on de textos, dejando a un lado el estudio del contenido del texto, de qu´e quiere decir realmente. El hecho adem´as de que los principales enfoques del tratamiento de la par´afrasis se limiten o bien a a´reas relacionadas como la l´ogica o bien a modelos ling¨ u´ısticos puramente te´oricos de dif´ıcil y costosa aplicaci´on pr´actica hacen que este fen´omeno no est´e a d´ıa de hoy debidamente cubierto, siendo imposible asegurar si dos textos dicen lo mismo pese a estar expresados de diferente manera. Las aproximaciones existentes suelen adem´as estar orientadas a una u ´nica lengua, por lo que su alcance es a´ un m´as limitado, impidiendo por ejemplo certificar si una traducci´on es correcta o no. En esta tesis se pretende eliminar esta traba abordando la par´afrasis desde un punto de vista multiling¨ ue, bas´andose en una representaci´on interlingual que permitir´a al modelo presentado estudiar la par´afrasis en textos que pueden proceder de cualquier idioma. Esta representaci´on servir´a tambi´en para evitar otros obst´aculos habituales en la Comprensi´on del Lenguaje Natural, como es el problema de la ambig¨ uedad. Presentaremos por tanto un modelo basado en un enfoque novedoso, independiente de la lengua, acompa˜ nado adem´as de un extenso Estado del Arte sobre las a´reas involucradas en el tratamiento de la par´afrasis.

´Indice general Dedicatoria

III

Abstract

IV

Resumen

V

1. Introducci´ on

1

1.1. Representaci´on . . . . . . . . . . . . . . . . . . . . . . . . . . . .

1

1.2. Similitud entre textos . . . . . . . . . . . . . . . . . . . . . . . . .

3

1.3. Par´afrasis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

4

1.4. Objetivos y utilidad de la propuesta . . . . . . . . . . . . . . . . .

6

1.5. Outline . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

7

2. Estado del Arte

9

2.1. Representaci´on del conocimiento . . . . . . . . . . . . . . . . . . .

9

2.1.1. Introducci´on . . . . . . . . . . . . . . . . . . . . . . . . . .

9

2.1.2. Teor´ıa de la Dependencia Conceptual . . . . . . . . . . . .

10

2.1.3. Roles Sem´anticos . . . . . . . . . . . . . . . . . . . . . . .

12

2.1.3.1. Marcos sem´anticos . . . . . . . . . . . . . . . . .

14

2.1.4. Redes Sem´anticas . . . . . . . . . . . . . . . . . . . . . . .

15

2.1.4.1. Tipos de Redes Sem´anticas . . . . . . . . . . . .

16

2.1.4.2. Ejemplos de Redes Sem´anticas . . . . . . . . . .

17

ConceptNet . . . . . . . . . . . . . . . . . . . . . .

17

WordNet . . . . . . . . . . . . . . . . . . . . . . . .

17

BabelNet . . . . . . . . . . . . . . . . . . . . . . . .

20

2.1.5. Ontolog´ıas . . . . . . . . . . . . . . . . . . . . . . . . . . .

20

2.1.5.1. Posibles definiciones . . . . . . . . . . . . . . . .

20

2.1.5.2. Tipos de ontolog´ıas . . . . . . . . . . . . . . . . .

21 vi

´ Indice general

vii

2.1.5.3. Componentes y ejemplos de Ontolog´ıas . . . . . .

22

2.1.6. Grafos conceptuales . . . . . . . . . . . . . . . . . . . . . .

23

2.1.6.1. Estructura

. . . . . . . . . . . . . . . . . . . . .

24

2.1.6.2. Roles Sem´anticos . . . . . . . . . . . . . . . . . .

24

2.1.6.3. Evoluci´on y aplicaciones . . . . . . . . . . . . . .

26

2.1.7. Teor´ıa del Texto-Significado . . . . . . . . . . . . . . . . .

27

2.1.8. Interlinguas . . . . . . . . . . . . . . . . . . . . . . . . . .

29

2.1.8.1. La Traducci´on Autom´atica . . . . . . . . . . . .

29

2.1.8.2. Caracter´ısticas de una interlingua . . . . . . . . .

32

2.1.8.3. Ejemplos de interlinguas . . . . . . . . . . . . . .

33

PIVOT . . . . . . . . . . . . . . . . . . . . . . . . .

33

ATLAS II . . . . . . . . . . . . . . . . . . . . . . .

33

KANT . . . . . . . . . . . . . . . . . . . . . . . . .

34

UNITRAN . . . . . . . . . . . . . . . . . . . . . . .

35

DLT . . . . . . . . . . . . . . . . . . . . . . . . . .

36

Mikrokosmos . . . . . . . . . . . . . . . . . . . . . .

36

Interlingua IAMTC . . . . . . . . . . . . . . . . . .

37

Otras interlinguas . . . . . . . . . . . . . . . . . . .

38

2.1.9. UNL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

38

2.1.9.1. Palabras Universales . . . . . . . . . . . . . . . .

39

2.1.9.2. Relaciones . . . . . . . . . . . . . . . . . . . . . .

41

2.1.9.3. Atributos . . . . . . . . . . . . . . . . . . . . . .

42

2.1.9.4. Grafos UNL . . . . . . . . . . . . . . . . . . . . .

43

2.1.9.5. Situaci´on actual

. . . . . . . . . . . . . . . . . .

45

2.2. Par´afrasis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

46

2.2.1. Introducci´on . . . . . . . . . . . . . . . . . . . . . . . . . .

46

2.2.2. Perspectiva ling¨ u´ıstica . . . . . . . . . . . . . . . . . . . .

47

2.2.2.1. Conceptos ling¨ u´ısticos relacionados . . . . . . . .

47

Textual entailment . . . . . . . . . . . . . . . . . .

47

Polisemia . . . . . . . . . . . . . . . . . . . . . . . .

48

An´afora y Correferencia

. . . . . . . . . . . . . . .

48

Sinonimia . . . . . . . . . . . . . . . . . . . . . . .

49

Sem´antica Distribucional . . . . . . . . . . . . . . .

50

2.2.2.2. Modelo del Texto-Significado . . . . . . . . . . .

52

Concepto de par´afrasis . . . . . . . . . . . . . . . .

52

´ Indice general

viii

Tipos de par´afrasis . . . . . . . . . . . . . . . . . .

53

Funciones l´exicas . . . . . . . . . . . . . . . . . . .

53

2.2.3. Perspectiva computacional . . . . . . . . . . . . . . . . . .

54

2.2.3.1. Tipos de par´afrasis . . . . . . . . . . . . . . . . .

54

2.2.3.2. Posibles enfoques . . . . . . . . . . . . . . . . . .

55

Generaci´on . . . . . . . . . . . . . . . . . . . . . . .

55

Extracci´on . . . . . . . . . . . . . . . . . . . . . . .

55

Reconocimiento . . . . . . . . . . . . . . . . . . . .

56

2.2.3.3. Campos de aplicaci´on . . . . . . . . . . . . . . .

58

Resumidores . . . . . . . . . . . . . . . . . . . . . .

58

2.2.3.4. Consultas expandidas, Q/A y EI . . . . . . . . .

60

2.2.3.5. Generaci´on de LN y TA . . . . . . . . . . . . . .

60

Otros usos . . . . . . . . . . . . . . . . . . . . . . .

61

2.2.3.6. Recursos . . . . . . . . . . . . . . . . . . . . . . .

61

2.2.3.7. Otras consideraciones . . . . . . . . . . . . . . .

62

2.3. Similaridad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

63

2.3.1. Introducci´on . . . . . . . . . . . . . . . . . . . . . . . . . .

63

2.3.2. Nivel de palabra

. . . . . . . . . . . . . . . . . . . . . . .

63

2.3.2.1. Cadenas de caracteres . . . . . . . . . . . . . . .

63

Basadas en edici´on . . . . . . . . . . . . . . . . . .

63

Basadas en tokens . . . . . . . . . . . . . . . . . . .

65

Otras medidas . . . . . . . . . . . . . . . . . . . . .

67

2.3.2.2. M´etodos de evaluaci´on de Traducci´on Autom´atica

68

BLEU . . . . . . . . . . . . . . . . . . . . . . . . .

68

NIST . . . . . . . . . . . . . . . . . . . . . . . . . .

69

METEOR . . . . . . . . . . . . . . . . . . . . . . .

69

WER . . . . . . . . . . . . . . . . . . . . . . . . . .

70

TER . . . . . . . . . . . . . . . . . . . . . . . . . .

70

PER . . . . . . . . . . . . . . . . . . . . . . . . . .

70

Otras medidas . . . . . . . . . . . . . . . . . . . . .

71

2.3.3. Nivel sint´actico . . . . . . . . . . . . . . . . . . . . . . . . ´ 2.3.3.1. Arboles . . . . . . . . . . . . . . . . . . . . . . .

71 71

2.3.3.2. Grafos . . . . . . . . . . . . . . . . . . . . . . . .

72

2.3.4. Nivel sem´antico . . . . . . . . . . . . . . . . . . . . . . . .

73

2.3.4.1. Co-ocurrencias o medidas basadas en corpus . . .

74

´ Indice general

ix

2.3.4.2. Medidas taxon´omicas para conceptos . . . . . . .

75

Basadas en el camino entre conceptos . . . . . . . .

75

Basadas en el Contenido de Informaci´on . . . . . .

78

2.3.4.3. Medidas de similaridad para oraciones y textos .

79

Sem´antica de las palabras . . . . . . . . . . . . . .

81

Orden de las palabras . . . . . . . . . . . . . . . . .

81

Diferencias . . . . . . . . . . . . . . . . . . . . . . .

82

Uso de Roles Sem´anticos . . . . . . . . . . . . . . .

82

2.3.4.4. Similaridad entre grafos . . . . . . . . . . . . . .

83

Conceptos previos . . . . . . . . . . . . . . . . . . .

83

Comparaci´on de Grafos Conceptuales . . . . . . . .

84

2.4. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

86

3. Definici´ on del Trabajo

88

3.1. Introducci´on y motivaci´on . . . . . . . . . . . . . . . . . . . . . .

88

3.2. Hip´otesis de trabajo . . . . . . . . . . . . . . . . . . . . . . . . .

89

3.3. Asunciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

90

3.4. Restricciones y limitaciones . . . . . . . . . . . . . . . . . . . . .

90

3.5. Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

91

3.6. M´etodo de validaci´on . . . . . . . . . . . . . . . . . . . . . . . . .

91

4. Modelo propuesto 4.1. Bases te´oricas del modelo

93 . . . . . . . . . . . . . . . . . . . . . .

93

4.1.1. Perspectiva sint´actica . . . . . . . . . . . . . . . . . . . . .

93

4.1.2. Perspectiva sem´antica . . . . . . . . . . . . . . . . . . . .

94

4.1.3. Comparaci´on de grafos . . . . . . . . . . . . . . . . . . . .

94

4.2. Puntos claves de UNL sobre los que se asienta el modelo . . . . .

94

4.2.1. Elementos de la oraci´on en UNL . . . . . . . . . . . . . . .

95

4.2.1.1. @entry, el n´ ucleo de la frase . . . . . . . . . . . .

95

4.2.1.2. Categor´ıas gramaticales . . . . . . . . . . . . . .

95

4.2.1.3. Atributos . . . . . . . . . . . . . . . . . . . . . .

98

4.3. Modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

98

4.3.1. Jerarqu´ıa de relaciones . . . . . . . . . . . . . . . . . . . .

98

4.3.1.1. Relaciones b´asicas . . . . . . . . . . . . . . . . .

99

4.3.1.2. Modificadores . . . . . . . . . . . . . . . . . . . . 100 Modificadores de primer nivel (Mod1 ) . . . . . . . . 100

´ Indice general

x

Modificadores de subgrafos de segundo nivel (ModS2 ) 102 Modificadores de subgrafos coordinados (ModSC ) . . 105 Modificadores de subgrafos de tercer nivel (ModS3 ) . 106 4.3.2. Otros tipos de mapeos o correspondencias . . . . . . . . . 106 4.3.2.1. Mapeo de relaciones entre verbos de distinta categor´ıa ontol´ogica . . . . . . . . . . . . . . . . . . 106 4.3.2.2. Mapeo de relaciones entre subgrafos con n´ ucleo sustantivo-verbo y sustantivo-sustantivo . . . . . 108 4.3.2.3. Casos especiales: la comparaci´on, los superlativos y la coordinaci´on . . . . . . . . . . . . . . . . . . 108 La comparaci´on . . . . . . . . . . . . . . . . . . . . 108 Los superlativos . . . . . . . . . . . . . . . . . . . . 110 La coordinaci´on . . . . . . . . . . . . . . . . . . . . 110 4.3.3. Selecci´on de atributos

. . . . . . . . . . . . . . . . . . . . 110

4.3.4. Medida de similaridad . . . . . . . . . . . . . . . . . . . . 112 4.3.4.1. Verbos . . . . . . . . . . . . . . . . . . . . . . . . 112 4.3.4.2. Adjetivos, adverbios y sustantivos . . . . . . . . . 115 4.3.4.3. Similaridad entre palabras de distinta categor´ıa . 116 4.3.4.4. Ejemplos de aplicaci´on de la medida . . . . . . . 116 4.3.5. Algoritmo de comparaci´on de grafos . . . . . . . . . . . . . 117 4.3.5.1. Distinci´on de casos del modelo comparativo . . . 118 4.3.5.2. Casos del modelo comparativo . . . . . . . . . . . 118 Caso 1 . . . . . . . . . . . . . . . . . . . . . . . . . 121 Casos 2, 3 y 4 . . . . . . . . . . . . . . . . . . . . . 122 4.3.5.3. Identificaci´on de subgrafos . . . . . . . . . . . . . 123 4.3.6. Ejemplos de aplicaci´on del modelo . . . . . . . . . . . . . . 124 4.3.6.1. Presencia de entidades . . . . . . . . . . . . . . . 125 Posibles variaciones . . . . . . . . . . . . . . . . . . 126 4.3.6.2. Similaridad sem´antica con varios verbos . . . . . 128 4.3.6.3. Caso de comparaci´on . . . . . . . . . . . . . . . . 131 Posibles variaciones . . . . . . . . . . . . . . . . . . 133 4.4. Resumen final sobre el modelo . . . . . . . . . . . . . . . . . . . . 133 5. Experimentaci´ on y resultados

135

5.1. Implementaci´on . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135 5.2. Validaci´on . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 136

´ Indice general

5.2.1. T´ıtulo . . . . 5.2.2. Oraci´on 1 . . 5.2.3. Oraci´on 2 . . 5.2.4. Oraci´on 3 . . 5.3. Conclusiones sobre la

xi

. . . . . . . . . . . . . . . . . . . . . . . . validaci´on

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

137 138 139 139 141

6. Conclusiones y futuros caminos 142 6.1. Contribuciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142 6.2. Futuras l´ıneas a seguir . . . . . . . . . . . . . . . . . . . . . . . . 143 A. Relaciones UNL

146

B. Atributos UNL

149

C. Validaci´ on del documento

154

D. Otros ejemplos de validaci´ on

159

Bibliograf´ıa

161

´Indice de figuras 2.1. Representaci´on cronol´ogica de Teor´ıas y Sistemas de Representaci´on 10 2.2. Relaciones m´as habituales en ConceptNet

. . . . . . . . . . . . .

18

2.3. Recursos principales de BabelNet . . . . . . . . . . . . . . . . . .

19

2.4. Tipos de ontolog´ıas . . . . . . . . . . . . . . . . . . . . . . . . . .

22

2.5. Ejemplo de Grafo Conceptual . . . . . . . . . . . . . . . . . . . .

25

2.6. Representaciones de MTT . . . . . . . . . . . . . . . . . . . . . .

29

2.7. Tri´angulo de Vauquois . . . . . . . . . . . . . . . . . . . . . . . .

30

2.8. Traducci´on entre pares vs Traducci´on basada en interlinguas . . .

31

2.9. Ejemplo cl´asico de grafo UNL. . . . . . . . . . . . . . . . . . . . .

43

2.10. Ejemplo de representaci´on UNL . . . . . . . . . . . . . . . . . . .

45

2.11. Escala de sinonimia . . . . . . . . . . . . . . . . . . . . . . . . . .

49

2.12. Arquitectura de par´afrasis seg´ un la Distribuci´on Estructural . . .

51

2.13. Tipos de par´afrasis . . . . . . . . . . . . . . . . . . . . . . . . . .

54

2.14. Medidas de similaridad para caracteres . . . . . . . . . . . . . . .

64

2.15. Ejemplo ´arbol de dependencias . . . . . . . . . . . . . . . . . . .

72

2.16. Comparativa medidas de similaridad sem´antica . . . . . . . . . .

80

2.17. Ejemplo de overlap en Grafos Conceptuales . . . . . . . . . . . . .

84

4.1. Ejemplo @entry verbo . . . . . . . . . . . . . . . . . . . . . . . .

95

4.2. Ejemplo @entry sustantivo . . . . . . . . . . . . . . . . . . . . . .

96

4.3. Modelo: Esquema de la jerarqu´ıa relaciones UNL propuesta . . . .

99

4.4. Modelo: Esquema de modificadores tipo Mod1 . . . . . . . . . . . 103 4.5. Modelo: Esquema de modificadores de subgrafos . . . . . . . . . . 104 4.6. Estructura de la comparaci´on . . . . . . . . . . . . . . . . . . . . 109 4.7. Modelo: Casos del modelo de comparaci´on . . . . . . . . . . . . . 119 4.8. Modelo: Caso 1 del modelo de comparaci´on . . . . . . . . . . . . . 120 4.9. Grafo de la frase: “Tom bought a Honda from John.” . . . . . . . 125 xii

´ Indice de figuras

xiii

4.10. Grafo de la frase: “Tom purchased a Honda from John.” . . . . . 4.11. Grafo de la frase: “Me coment´o que no pensaba participar en el concurso.” . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.12. Grafo de la frase: “Me dijo que pensaba participar en el concurso.” 4.13. Subgrafos en el proceso de comparaci´on entre dos oraciones . . . . 4.14. Grafo de la frase: “Las ciudades del norte son m´as ricas que las ciudades del sur.” . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.15. Grafo de la frase: “Las ciudades del sur son m´as pobres que las ciudades del norte.” . . . . . . . . . . . . . . . . . . . . . . . . . .

125 128 128 130 131 131

5.1. Verificaci´on: Grafo del t´ıtulo del texto original. “Los espa˜ noles no conf´ıan en que los Gobiernos est´en usando bien sus datos” . . . . 5.2. Verificaci´on: Grafo del t´ıtulo del texto modificado. “Los espa˜ noles no conf´ıan en que los Gobiernos no est´en usando bien sus datos” 5.3. Verificaci´on: Grafo de la oraci´on 1 del texto original. “Los ciudadanos afirman que no saben ni qui´en, ni d´onde, est´a capturando y almacenando sus datos” . . . . . . . . . . . . . . . . . . . . . . . 5.4. Verificaci´on: Grafo de la oraci´on 1 del texto modificado. “Los ciudadanos niegan que no saben ni qui´en, ni d´onde, est´a capturando y almacenando sus datos” . . . . . . . . . . . . . . . . . . . . . . 5.5. Verificaci´on: Grafo de la oraci´on 3 del texto original. “Adem´as, cuando aumenta la edad y baja el nivel de instrucci´on disminuye dr´asticamente las ventajas percibidas sobre el Big Data.” . . . . . 5.6. Verificaci´on: Grafo de la oraci´on 3 del texto modificado. “Adem´as, cuando disminuye la edad y aumenta el nivel de instrucci´on aumenta dr´asticamente las ventajas percibidas sobre el Big Data” . .

140

C.1. C.2. C.3. C.4.

155 156 157 158

Resultado Resultado Resultado Resultado

de de de de

la la la la

verificaci´on verificaci´on verificaci´on verificaci´on

del t´ıtulo del texto . . . . . . . de la primera oraci´on del texto de la segunda oraci´on del texto de la tercera oraci´on del texto

. . . .

. . . .

. . . .

. . . .

137 137

138

138

140

´Indice de tablas 2.1. 2.2. 2.3. 2.4.

Roles Sem´anticos est´andar . . . . . . . . . . . . . . . . . . . . . . Relaciones gramaticales vs Roles Sem´anticos . . . . . . . . . . . . Tipos de Participantes en los Grafos Conceptuales . . . . . . . . . Thematic Roles seg´ un el tipo de participante en los Grafos Conceptuales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

14 14 26 26

4.1. Modelo: Relaciones b´asicas UNL . . . . . . . . . . . . . . . . . . . 100 4.2. Correspondencias entre relaciones modificadoras sem´anticas . . . . 101 4.3. Mapeos entre verbos de distintas categor´ıas ontol´ogicas. . . . . . . 107 A.1. Atributos de UNL . . . . . . . . . . . . . . . . . . . . . . . . . . . 148 B.1. Relaciones conceptuales

. . . . . . . . . . . . . . . . . . . . . . . 153

D.1. Ejemplos de validaci´on . . . . . . . . . . . . . . . . . . . . . . . . 160

xiv

Cap´ıtulo 1 Introducci´ on El Procesamiento del Lenguaje Natural es un a´rea particularmente dif´ıcil de la Inteligencia Artificial, pues el Lenguaje Natural, ya de por s´ı complejo en la comunicaci´on entre seres humanos, es un escollo dif´ıcil de superar a la hora de ser procesado exclusivamente por m´aquinas. La riqueza y vasta diversidad del mismo conllevan problemas como la ambig¨ uedad y el multiling¨ uismo que, junto con otros aspectos como la separaci´on existente entre la Ling¨ u´ıstica Computacional y la Ling¨ u´ıstica pura, han dificultado la evoluci´on de esta disciplina. Impulsada recientemente por el auge de Internet y por el ´exito de propuestas como la Web Sem´antica, que hacen que cada d´ıa el volumen de informaci´on a tratar crezca de manera exponencial, la necesidad de sistemas capaces de analizar, procesar y especialmente interpretar correctamente todo tipo de informaci´on de distintas procedencias, idiomas y caracter´ısticas se hace cada vez m´as acuciante. Los soportes en los que estos datos llegan son cada vez m´as diversos: v´ıdeo, audio, documentos, blogs, webs, redes sociales, mensajer´ıa... pudiendo adem´as venir formulados por personas de muy distinta procedencia social, cultural y geoling¨ u´ıstica, lo que acarrea expresiones muy diferentes para los mismos conceptos. Todos estos formatos y posibles formas de expresi´on tienen algo en com´ un: necesitan de un correcto procesamiento del lenguaje para poder ser usados en toda su plenitud.

1.1.

Representaci´ on

Uno de los principales problemas a la hora de lidiar con el Lenguaje Natural es su representaci´on. Aunque el ingl´es ha sido casi un´animemente adoptado como lengua vehicular tanto en internet como en las relaciones internacionales a todos 1

Cap´ıtulo 1. Introducci´on

2

los niveles, no resulta efectivo como sistema de representaci´on del conocimiento a nivel m´aquina; adem´as, al no ser capaz de representar fielmente conceptos de otros idiomas, no puede cumplir adecuadamente las expectativas de la globalizada sociedad en la que vivimos, ni tampoco las necesidades impuestas por propuestas como la ya mencionada Web Sem´antica. Aunque existen tanto en el mercado como en el mundo de la investigaci´on multitud de iniciativas que tratan de paliar el problema del multiling¨ uismo mediante el uso de distintos sistemas de traducci´on y representaci´on del lenguaje, no es posible encontrar a d´ıa de hoy una soluci´on plenamente satisfactoria y completamente operativa. Una parte representativa del Estado del Arte del presente trabajo revisa algunas de las teor´ıas y representaciones m´as comunes propuestas desde la perspectiva de la Ling¨ u´ıstica Computacional para lidiar con esta cuesti´on, haciendo especial hincapi´e en UNL, el lenguaje universal impulsado por las Naciones Unidas como sistema de representaci´on intermedia entre distintos idiomas. Como veremos m´as adelante, el inter´es de esta iniciativa radica en el consenso alcanzado por equipos procedentes de distintos pa´ıses, compuestos por expertos del dominio y designados representantes de las distintas lenguas, a la hora de organizar y representar de manera estandarizada tanto los conceptos comunes a las diferentes lenguas como los rasgos caracter´ısticos y distintivos de cada una de ellas, as´ı como de definir y normalizar las distintas relaciones que se pueden dar entre dichos conceptos en el proceso de comunicaci´on. Se alcanza por tanto con UNL el objetivo de una representaci´on independiente de la lengua y basada exclusivamente en el significado tras la formulaci´on en el lenguaje en el que se expres´o originalmente, que facilita tanto su procesamiento a nivel m´aquina como su transformaci´on a otra lengua en el seno de un proceso de traducci´on autom´atica. No obstante, UNL est´a a´ un en desarrollo y constante evoluci´on, por lo que a la hora de comunicarnos con personas de otras lenguas y culturas, la mayor´ıa de veces no tenemos m´as remedio que conformarnos con el uso de traductores autom´aticos que en ocasiones son de dudosa fiabilidad. Esto puede resultar de utilidad en caso de tener dudas puntuales sobre expresiones concretas a la hora de redactar por ejemplo en idiomas que conocemos parcialmente (como generalmente es el caso del ingl´es) o que intuitivamente podemos interpretar, ya sea por su similitud ling¨ u´ıstica con nuestra lengua materna o porque su origen es similar

Cap´ıtulo 1. Introducci´on

3

y por tanto la estructura nos resulta familiar y es f´acil establecer similitudes con nuestra propia lengua (como por ejemplo ocurre con el italiano y el espa˜ nol); sin embargo, es poco probable que alguien con necesidad de escribir por ejemplo un contrato en una lengua como el japon´es confiase ciegamente en la traducci´on arrojada por uno de estos sistemas. ¿C´omo saber si la traducci´on es correcta? ¿existe alguna forma de corroborar esto a nivel m´aquina?

1.2.

Similitud entre textos

En lo concerniente a la relaci´on de similaridad entre textos (y como veremos m´as adelante en el Estado del Arte), se ha escrito mucho tanto a nivel monoling¨ ue como multiling¨ ue, ya que por ejemplo es u ´til a la hora de realizar clasificaciones tem´aticas de documentos, noticias, correos electr´onicos, etc. No obstante, en la mayor´ıa de ocasiones esta similaridad se centra casi exclusivamente en la sem´antica, podr´ıamos decir que respondiendo a la pregunta ¿hablan de los mismo?, cuando en el contexto de la comunicaci´on interling¨ ue y la traducci´on autom´atica la cuesti´on clave, la que realmente nos interesa, es ¿dicen lo mismo?, que es igual que decir que ambas representaciones significan lo mismo. Es importante recalcar esta diferencia entre similitud sem´antica y mismo significado o contenido, por lo que clarificaremos esta distinci´on con una serie ejemplos. Si tenemos las siguientes oraciones: Me gustan las patatas. No me gustan las patatas. para un ser humano es evidente que estamos hablando de lo mismo, pero que el significado es radicalmente opuesto. Un sistema de similitud sem´antica dar´ıa por tanto una relaci´on de similaridad elevada, cuando obviamente no transmiten la misma informaci´on. Asimismo, las frases: Los limones son frutas. Los limones son c´ıtricos. tienen tambi´en un alto grado de similaridad sem´antica, y aunque el contenido no podemos decir que sea exactamente el mismo, podemos considerar que s´ı que tienen un significado francamente parecido.

Cap´ıtulo 1. Introducci´on

4

Pensemos ahora en documentos legales o jur´ıdicos, como por ejemplo decretos o un contrato. La correcta definici´on y correspondencia entre una cl´ausula y su traducci´on puede cambiar por completo las condiciones de un acuerdo, dando lugar a posibles problemas y litigios que probablemente ambas partes quieran evitar. En este caso, la sensibilidad a la hora de homogeneizar el significado deber´ıa ser m´axima. Vemos por tanto que el concepto de tener el mismo de significado entre oraciones no est´a tampoco muy claro; aunque lo trataremos m´as adelante y con mayor rigurosidad en el Estado del Arte, siguiendo la idea de la definici´on de igualdad o similaridad en el significado pasamos a avanzar brevemente el concepto de par´afrasis.

1.3.

Par´ afrasis

Pese a que, como veremos, no es f´acil definir el concepto de par´afrasis y no existe una definici´on absoluta aceptada, habitualmente la par´afrasis se suele entender como expresiones ling¨ u´ısticas que, usando distintas palabras, tienen el mismo significado, pudiendo abarcar este fen´omeno distintas unidades l´exicas (desde morfemas a oraciones o textos completos) [126]. No obstante, ¿qu´e podemos considerar mismo significado? Algunos autores sostienen que la par´afrasis se da cuando hay una correspondencia pura de significado, una sinonimia absoluta, mientras que otros mantienen que la propia naturaleza del lenguaje hace pr´acticamente imposible que se d´e una correspondencia exacta de significado entre formulaciones distintas. Es por ello que com´ unmente se aceptan como par´afrasis las expresiones ling¨ u´ısticas que tienen aproximadamente el mismo significado, radicando el principal problema tanto a nivel m´aquina como para los propios humanos en discernir cu´ando se da y cu´ando no mediante alg´ un tipo de umbral difuso dependiente del propio contexto de las expresiones. Por su parte, Hirst [46] mantiene que la par´afrasis consiste en hablar de la “misma situaci´on de manera diferente”, matizando que la “misma situaci´on” no tiene por qu´e implicar las mismas condiciones, detalles o siquiera el mismo mensaje. Esta aproximaci´on a la par´afrasis se relaciona tambi´en con otra perspectiva en la que profundizaremos m´as adelante y que pasa por considerar la par´afrasis como una doble presencia de otro fen´omeno ling¨ u´ıstico conocido como “textual entailment”

Cap´ıtulo 1. Introducci´on

5

(o implicaci´on textual). El textual entailment consiste a grandes rasgos en que un primer texto implique el significado contenido en un segundo texto, por lo que en caso de darse de manera bidireccional entre ambos textos se podr´ıa considerar que estamos hablando de una par´afrasis, ya que esto significar´ıa que vienen a decir lo mismo. Antes habl´abamos de c´omo la riqueza del lenguaje, una de las caracter´ısticas que define al ser humano como especie superior, puede suponer un problema en s´ı mismo; esto se hace patente al encontrar mil formas diferentes de expresar lo que a priori consideramos el mismo contenido. Para decir que partimos de un lugar, podemos elegir por ejemplo entre expresiones como “me voy”, “me marcho”, “me piro”, “me largo” o incluso “huyo”. No obstante, aunque todas significan irse de un lugar, no debemos dejar de apreciar los distintos matices que aporta cada una de las posibles representaciones: “me piro” o “me largo”, por ejemplo, son expresiones mucho m´as coloquiales que las dem´as, dando una connotaci´on de familiaridad e indicios sobre el contexto que no nos aportan las otras opciones, mientras que “huir”, aunque signifique irse, implica urgencia y dejar atr´as una situaci´on no deseada. El mismo contenido de informaci´on y la forma en la que se expresa puede tambi´en buscar influir en la visi´on del receptor, o simplemente plasmar o reforzar un punto de vista. Es el caso de las siguientes oraciones (extra´ıdas de [46]): Los Estados Unidos dirigieron la invasi´on de Iraq. Los Estados Unidos dirigieron la liberaci´on de Iraq. Los Estados Unidos dirigieron la ocupaci´on de Iraq. donde los tres enunciados hacen referencia a la misma situaci´on, y sin embargo la designan de manera diferente, siendo obvio para una persona que hablan de lo mismo y que es una cuesti´on de perspectiva pero suponiendo un verdadero problema a nivel de procesamiento autom´atico. Igualmente ocurre con el ´enfasis que queramos darle a los diferentes elementos de una frase, como podemos observar en las siguientes oraciones: Mueren trece personas en un atentado terrorista. Un atentado terrorista provoca trece v´ıctimas mortales. donde la primera enfatiza el n´ umero de v´ıctimas y la segunda el propio atentado, pese a contener exactamente la misma informaci´on. Por u ´ltimo, muchas veces la

Cap´ıtulo 1. Introducci´on

6

forma de expresar la informaci´on viene impuesta tambi´en por el propio contexto del lenguaje, como es el caso de las f´ormulas prefijadas de muchos textos jur´ıdicos y legales, por lo que cabe resaltar que la par´afrasis en ciertos casos puede implicar p´erdida de informaci´on o incluso ambig¨ uedad en la interpretaci´on del contenido. Es por ello que a la hora de definir un sistema de gesti´on de par´afrasis es recomendable restringirse a un dominio concreto. En definitiva, podemos concluir que la par´afrasis es completamente subjetiva y que se mueve entre los l´ımites de la similitud de significado y la importancia de los diferentes matices de los que se compone una misma situaci´on, as´ı como de las distintas formas que nos ofrece la lengua de tratarlos y expresarlos y que forman parte de misma de la riqueza del lenguaje. Multitud de fen´omenos ling¨ u´ısticos como la iron´ıa y la met´afora lindan con la par´afrasis y pueden entenderse como tal, pero indudablemente aportan al texto una p´atina que dif´ıcilmente se puede reproducir o detectar adecuadamente en un sistema de par´afrasis autom´atico actual; esto nos demuestra lo lejos que estamos a´ un de un sistema de Procesamiento del Lenguaje Natural perfecto, capaz de entender las sutilezas y distintas dimensiones del lenguaje, y de c´omo queda a´ un mucho trabajo por delante para alcanzar resultados plenamente satisfactorios.

1.4.

Objetivos y utilidad de la propuesta

Pasamos ahora a enunciar los objetivos a alcanzar en el presente trabajo y la idea tras la propuesta planteada. Los objetivos a conseguir son los siguientes: Por una parte, en esta tesis se planea estudiar el propio fen´omeno de la par´afrasis, contestando entre otras a las siguientes cuestiones: ¿qu´e tipos hay? ¿c´omo se da? ¿c´omo se gestiona en los sistemas actuales? ¿hay avances en este a´mbito? ¿cu´ales son las necesidad en este aspecto de los sistemas de Procesamiento del Lenguaje Natural? ¿qu´e aplicaciones pueden beneficiarse m´as de un sistema de estas caracter´ısticas? ¿qu´e factores son importantes en la par´afrasis (estructura, sem´antica...)? y ¿qu´e debemos mirar, d´onde orientar nuestros esfuerzos? Para ello se ha realizado un extenso trabajo de documentaci´on sobre el estado actual de la cuesti´on, que ha desembocado en la redacci´on de un Estado del Arte en el que repasaremos algunas teor´ıas ling¨ u´ısticas al respecto y las soluciones que

Cap´ıtulo 1. Introducci´on

7

plantean, as´ı como posibles representaciones, formalizaciones e interpretaciones de las mismas a nivel pr´actico. Por otra parte, se busca en el presente trabajo plantear un modelo capaz de lidiar con la par´afrasis a nivel tanto sint´actico como sem´antico desde la representaci´on de UNL de la que hemos hablado anteriormente. Para ello se tendr´an en cuenta tanto las teor´ıas ling¨ u´ısticas y los modelos y soluciones ya desarrollados y examinados durante el Estado del Arte como las propias caracter´ısticas del sistema UNL, que se revisar´an tambi´en en dicho apartado de la tesis. Como veremos m´as adelante, la variaci´on que origina la par´afrasis puede darse a distintos niveles: sint´actico, l´exico, sem´antico... aunque la mayor´ıa de enfoques se han orientado a este u ´ltimo, creemos que la clave radica en combinar todas las perspectivas para alcanzar un sistema lo m´as completo posible; en definitiva, no podemos limitarnos solo a la sem´antica, por lo que vamos a abordarlo desde un punto de vista sem´antico y sint´actico. Respecto a la utilidad del trabajo realizado, las posibles aplicaciones de un sistema funcional de detecci´on de par´afrasis son muchas, como veremos m´as adelante en el Estado del Arte. Destacamos entre ellas la detecci´on de plagio, la comparaci´on de respuestas en ex´amenes y la expansi´on de b´ usqueda en sistemas de pregunta/respuesta. Otras ideas de mayor complejidad son la comprensi´on y generaci´on de textos po´eticos (principalmente de met´aforas), ya que la detecci´on puede adem´as ayudar a enriquecer la generaci´on de Lenguaje Natural, pudiendo dotar de distintos niveles de complejidad a un mismo texto, adapt´andolo a cierto tipo de receptor (ni˜ nos, extranjeros, profesionales de cierto sector...). Un modelo interling¨ ue como el propuesto en este trabajo a˜ nadir´ıa a esta lista, adem´as, la posibilidad de verificar traducciones de distintos idiomas.

1.5.

Outline

En lo concerniente a la organizaci´on de la tesis, tras la presente introducci´on ser´a como sigue. Primero se realizar´a una revisi´on de en qu´e punto se encuentra la cuesti´on a

Cap´ıtulo 1. Introducci´on

8

tratar actualmente; este Estado del Arte ha sido planteado en tres partes, como sigue: 1. Se comenzar´a por examinar las distintas teor´ıas ling¨ u´ısticas y los posibles sistemas de representaci´on que podemos encontrar en el Procesamiento del Lenguaje Natural, tanto en lo concerniente al propio texto a interpretar como en los distintos recursos que pueden ayudarnos en dicha tarea. 2. En segundo lugar pasaremos a revisar las distintas aproximaciones realizadas para abordar el problema de la par´afrasis, defini´endola en mayor profundidad y relacion´andola con otros fen´omenos ling¨ u´ısticos colindantes. Veremos tambi´en ´areas de aplicaci´on que se benefician de los modelos actuales de gesti´on de la par´afrasis, otras disciplinas del Procesamiento del Lenguaje Natural que tocan la par´afrasis y algunas de las soluciones planteadas hasta ahora. 3. Por u ´ltimo, hablaremos del concepto de similaridad en los distintos niveles del lenguaje y veremos las posibles maneras de abordar la comparaci´on de grafos, dado que es ´esta la representaci´on usada en UNL y con la que trataremos en el modelo propuesto. Tras el Estado del Arte enunciaremos el planteamiento del problema, matizando los principales obst´aculos que podemos encontrar (extra´ıdos de la revisi´on realizada en la secci´on anterior) y definiendo las limitaciones, las asunciones y las hip´otesis que consideraremos en el modelo propuesto; estas restricciones vienen impuestas por la propia naturaleza compleja del problema a tratar y por el hecho de tratarse el presente trabajo de una Tesis de Fin de M´aster y ser por tanto de una duraci´on y un enfoque forzosamente acotados. Una vez realizado el planteamiento se detallar´a el modelo propuesto, as´ı como los resultados obtenidos de su implementaci´on y la informaci´on que podemos extraer de los mismos. Finalmente, se enunciar´an las conclusiones derivadas del problema tratado, del modelo y de los resultados, y se realizar´a un an´alisis final que incluir´a las contribuciones principales de la tesis y el trabajo futuro a realizar.

Cap´ıtulo 2 Estado del Arte 2.1. 2.1.1.

Representaci´ on del conocimiento Introducci´ on

Como ya se indic´o en la secci´on previa, el Estado del Arte se dividir´a en tres partes bien diferenciadas. Por un lado veremos distintas formas de representar conocimiento ling¨ u´ıstico, as´ı como las teor´ıas y componentes m´as importantes de dicho campo. Comenzaremos por la Teor´ıa de la Dependencia Conceptual, considerada precursora de las interlinguas, y el concepto de Roles Sem´anticos para pasar a las representaciones propiamente dichas, entre las que veremos las Redes Sem´anticas, las Ontolog´ıas y los Grafos Conceptuales de John Sowa, acabando con el Modelo del Texto Significado de Igor Mel’ˇcuk y el concepto de interlingua, analizando las principales propuestas de este tipo. Por u ´ltimo, se expondr´an las principales caracter´ısticas del Lenguaje Universal UNL. En la Figura 2.1 encontramos una representaci´on cronol´ogica de los temas que trataremos en esta primera parte del Estado del Arte. A continuaci´on abordaremos directamente el tema de la par´afrasis, examinando estudios al respecto, formas de enfocarla y otras aproximaciones que tocan distintas formas de tratar un texto a nivel de significado y que pueden resultar u ´tiles de cara al tratamiento de este fen´omeno ling¨ u´ıstico. Por u ´ltimo, en el tercer apartado estudiaremos distintas medidas de similaridad entre los diferentes componentes del lenguaje, as´ı como en algunas de sus posibles representaciones. 9

Cap´ıtulo 2. Estado del Arte

10

~1980 1965

1968

~ 1970

Ontologías (origen filosófico)

Roles Semánticos

Redes Semánticas

Introducción de las Ontologías en la IA

C.S. Peirce (1883)

1965

1969

1976

Teoría Texto-Significado

Teoría de la Dependencia Conceptual

Grafos Conceptuales

Boom de las Interlinguas

~1990

Japón PIVOT ATLAS II

Europa 79 - DLT

2003 IAMTC (EEUU)

EEUU 87 - UNITRAN 89 - KANT (KANTOO) 90’s - Mikrokosmos

1996 UNL (UNU)

Figura 2.1: Representaci´on cronol´ogica de las teor´ıas y sistemas de representaci´on tratados durante la primera parte del Estado del Arte.

2.1.2.

Teor´ıa de la Dependencia Conceptual

Para conocer el origen de las interlinguas, debemos remontarnos a la Teor´ıa de la Dependencia Conceptual, considerada precursora de las mismas y planteada formalmente en 1975. La Teor´ıa de la Dependencia Conceptual (o Conceptual Dependency Theory) es un modelo de representaci´on del conocimiento cuyas bases se proponen por primera vez a finales de los a˜ nos 60, en el marco de la investigaci´on de la tesis doctoral de Roger Schank1 , publicada en 1969. Este modelo entiende la conceptualizaci´on de una oraci´on como una red de conceptos ling¨ u´ısticos unidos por una serie de relaciones de dependencia, pudiendo encuadrarse estos conceptos a una o varias categor´ıas predefinidas, que podemos subdividir en categor´ıas principales o gobernantes (Governing categories) y categor´ıas secundarias o de asistencia (Assisting categories). La pertenencia a dichas categor´ıas viene determinada por una serie de reglas de dependencia, como por ejemplo si una palabra tiene sentido o no por s´ı misma, sin depender de otra (este es el caso, por ejemplo, de los adjetivos, que deben acompa˜ nar necesariamente al concepto al que describen). Seg´ un esta teor´ıa, el proceso ling¨ u´ıstico puede entenderse como un mapeo desde y hasta una representaci´on mental [103], componi´endose dicho mapeo de conceptos unidos mediante relaciones de dependencia.

1

http://www.rogerschank.com/about#stuff-I-have-done. El u ´ltimo acceso a todas las webs citadas en el presente documento se ha realizado el 20 de junio de 2016.

Cap´ıtulo 2. Estado del Arte

11

En este modelo, los significados se representan por medio de una serie de Conceptos Primitivos (CPs), que pueden simbolizar acciones, cambios de estado o instrumentos para otras acciones, entre otros. Estos CPs tienen a su vez un rol conceptual concreto en el global de la frase (tales como agente, objeto...) y est´an estrechamente relacionados con sus representados en el mundo real, por lo que pueden utilizarse como referencia tanto para una interlingua como para un sistema de representaci´on interno para una base del conocimiento no necesariamente orientado a la ling¨ u´ıstica. Dentro de los CPs destacan las Acciones Primitivas, un conjunto de acciones base que han ido evolucionando al tiempo que la propia teor´ıa y que pueden representar cualquier suceso, ya sea individualmente o combin´andose unas con otras. Entre estas Acciones Primitivas encontramos, por ejemplo, PTRANS (que simboliza la transferencia de un objeto de un lugar a otro) o SPEAK (el acto de producir sonidos, no necesariamente con el fin de comunicarse). Las Acciones Primitivas pueden, adem´as, incluir modificadores para matizar o situar su ratio de acci´on; algunos de estos modificadores son, por ejemplo, los referentes al tiempo (pasado, futuro, transici´on...) o la actitud (interrogaci´on, negaci´on, condicionalidad...). Paralelamente, estas acciones se relacionan mediante relaciones de dependencia como instrumento de, objeto de o receptor, dando lugar a un grafo que simboliza el significado de la frase pero no emula necesariamente la estructura sint´actica de la misma. Uno de los puntos claves de esta propuesta es que introduce la idea de una representaci´on can´onica del significado, implicando por un lado la independencia con respecto a la lengua y por otro la posibilidad de que distintas palabras y estructuras puedan representar un mismo significado o concepto, contemplando as´ı la par´afrasis. Estas propiedades, como veremos m´as adelante, son algunos de los rasgos fundamentales que caracterizan a las interlinguas. La representaci´on can´onica, adem´as, permite un cierto grado de inferencia que otras representaciones m´as enfocadas a la ling¨ u´ıstica (como por ejemplo las Redes Sem´anticas, abordadas en la Secci´on 2.1.4) no admiten. M´as all´a de su posterior relaci´on con las interlinguas, este modelo ha sido ampliamente utilizado para diversas aplicaciones [62], destacando entre ellas la repre-

Cap´ıtulo 2. Estado del Arte

12

sentaci´on de escenarios y situaciones mediante planes y scripts o guiones (como es el caso de los proyectos PAM, Plan Applier Mechanism, y SAM, Script Applier Mechanism [102]) y el procesamiento del lenguaje natural en general (en proyectos como MARGIE, Meaning Analysis, Response Generation and Inference on English). Cabe mencionar que las bases de la Teor´ıa de la Dependencia Conceptual han ido evolucionando y adapt´andose dependiendo del uso y el contexto de aplicaci´on hasta desembocar finalmente en ciertos casos en la creaci´on de interlinguas propiamente dichas.

2.1.3.

Roles Sem´ anticos

Los Roles Sem´anticos o Thematic Roles (“roles tem´aticos” en espa˜ nol, tambi´en llamados case relations o karakas [28]) son, desde el punto de vista ling¨ u´ıstico [50], “generalizaciones entre los argumentos de un predicado para capturar regularidades entre la representaci´on sem´antica y la expresi´on sint´actica de dicho predicado”. El origen de los Roles Sem´anticos se remonta a la aparici´on del t´ermino original Thematic Relation a mediados de la d´ecada de los 60 y a su posterior popularizaci´on en los a˜ nos 70; no obstante, la idea ya estaba presente en distintas propuestas ling¨ u´ısticas anteriores (para m´as informaci´on al respecto, ver [29]). Existen adem´as distintos puntos de vista sobre qu´e perspectiva debe prevalecer al definir los roles, pudiendo verse desde una perspectiva sint´actica, l´exica o conceptual (o incluso una mezcla de varias), o si estos deben formar parte de la propia base del lenguaje o definirse en el mapeo entre significado y forma. De un manera m´as intuitiva, los roles sem´anticos podr´ıan definirse como etiquetas sem´anticas entre conceptos que describen relaciones conceptuales entre los mismos. Han sido ampliamente utilizados en todo tipo de representaci´on del conocimiento, desde los Grafos Conceptuales hasta las interlinguas (casos que veremos m´as adelante en este mismo cap´ıtulo), pasando por las Redes Sem´anticas. El nombre que se da a estas etiquetas, as´ı como su tipo y la cantidad de ellas, cambiar´a dependiendo de la implementaci´on, al igual que la forma de organizarlas (pueden estar relacionadas, por ejemplo, de manera taxon´omica, como ocurre en el caso de las ontolog´ıas y los tesauros). Aunque no existe un listado est´andar de Roles Sem´anticos, han sido muchos los ling¨ uistas que se han aventurado a dar su

Cap´ıtulo 2. Estado del Arte

13

propia lista, y son palpables las similitudes entre ciertos elementos en distintas formas de representaci´on (veremos casos concretos m´as adelante); en la Tabla 2.1 destacamos algunas de los roles m´as utilizados (recopilados en [28] a partir de los trabajos de distintos autores) y los nombres que reciben en algunas representaciones (seg´ un lo expuesto en [26]):

Rol

Descripci´ on

Ejemplo

Notaci´ on

Agent

Participante para el cu´al el significado del verbo especifica lo que hace o causa, posiblemente de manera intencionada.

sujeto de: matar comer golpear

CGs: agent, accompaniment KANT: agent, accompanier UNL: agent, coagent, partner

Patient

Participante para el cu´al el verbo caracteriza qu´e le ha ocurrido y c´omo le afecta lo que le ocurre.

objeto de: matar comer.

CGs: experiencer KANT: experiencer UNL: experiencer

Participante que se caExperiencer racteriza por ser consciente de algo

sujeto de: amar objeto de: molestar

CGs: experiencer KANT: experiencer UNL: experiencer

Theme

Participante que se caracteriza por cambiar su posici´on o condici´on, o por estar en un estado o posici´on

sujeto de: andar morir objeto de: dar

CGs: theme KANT: UNL: object

Source

Objeto del que procede el movimiento

caja en: Quit´o el libro de la caja

CGs: matter KANT: source UNL: source

Goal

Objeto al que se dirige el movimiento

caja en: Puso el libro en la caja

CGs: goal KANT: UNL: goal

Cap´ıtulo 2. Estado del Arte

14

Tabla 2.1: Algunos Roles Sem´anticos est´andar (los dos u ´ltimos propuestos por Jackendoff) y su notaci´on en distintas representaciones (CGs = Conceptual Graphs, UNL y KANT sendas interlinguas), todas ellas explicadas con mayor detalle m´as adelante en este mismo cap´ıtulo. Un error muy com´ un suele ser confundir los roles sem´anticos con las relaciones gramaticales est´andar usuales, tales como sujeto, objeto, complemento... Aunque en algunos casos establecer dicha relaci´on puede resultar u ´til para ciertas tareas de procesamiento o parsing, la relaci´on entre ambos etiquetados no es necesariamente directa: mientras que los Roles Sem´anticos son una notaci´on conceptual, las relaciones gramaticales son puramente morfosint´acticas 2 . En la Tabla 2.2 encontramos un ejemplo de esta diferencia, en el que tres sujetos desempe˜ nan tres roles sem´anticos distintos.

Frase de ejemplo

Sujeto

Rol Sem´ antico

Bob abri´o la puerta con una llave.

Bob

Agente

La llave abri´o la puerta.

La llave

Instrumento

La puerta se abri´o.

La puerta

Paciente

Tabla 2.2: Relaciones gramaticales vs Roles Sem´anticos: tres ejemplos en los que la misma relaci´on gramatical (el sujeto) desempe˜ na distintos roles sem´anticos.

2.1.3.1.

Marcos sem´ anticos

Intimamente ligado a los Roles Sem´anticos, otro concepto ling¨ u´ıstico interesante a la hora de representar consideraciones sem´anticas es el de frame o marco sem´antico. La idea de los marcos fue establecida en 1974 por Marvin Minsky, considerado el padre de la Inteligencia Artificial, y podr´ıan verse en el contexto de su investigaci´on (en ese momento orientada a la percepci´on y la representaci´on de conocimiento en el seno de la Visi´on por Computador) como “capturas o fotograf´ıas de un momento concreto en un contexto o problema determinado”. Como explica el propio Minsky en [78], un frame ser´ıa “una estructura de datos que almacenamos en nuestra memoria para representar una situaci´on estereotipada”, 2

http://www-01.sil.org/linguistics/GlossaryOfLinguisticTerms/ ComparisonOfSemanticRoleAndGra.htm

Cap´ıtulo 2. Estado del Arte

15

“un framework que recordamos y que debe ser ajustado o adaptado a la realidad introduciendo los cambios necesarios”. Cada frame implica a su vez cierta informaci´on adjunta (metainformaci´on, podr´ıamos decir), sobre c´omo usar el frame en la pr´actica, qu´e puede implicar en el futuro, etc. Los frames se podr´ıan agrupar en colecciones tem´aticas, convirti´endose en sistemas de frames que se relacionan entre s´ı por sus diferentes componentes, coordinando as´ı distintos puntos de vista sobre las situaciones relacionadas que representa cada frame. Siguiendo la idea de Minsky encontramos la Sem´antica de Frames, una teor´ıa ling¨ u´ıstica desarrollada por Charles Fillmore, donde el frame es “una estructura conceptual que representa y describe una situaci´on, un objeto o un evento junto con sus participantes y propiedades” [100]. Un frame ser´ıa como una lista de argumentos (slots) donde introducir´ıamos los distintos elementos participantes en la situaci´on que describe el frame [11]. En palabras de Sowa, los slots de los frames son la representaci´on de los roles sem´anticos en un sistema de frames, equivaliendo3 a las relaciones conceptuales de los Grafos Conceptuales (que trataremos m´as adelante en la Secci´on 2.1.6). El repositorio de frames m´as importante a nivel mundial es FrameNet4 , en ingl´es e iniciado por el propio Fillmore en la Universidad de Berkeley en 1997, pero existen alternativas en distintos idiomas, como por ejemplo Spanish FrameNet para el espa˜ nol5 . Existen asimismo otras iniciativas similares disponibles online, como es el caso de PropBank6 .

2.1.4.

Redes Sem´ anticas

Las Redes Sem´anticas (Semantic Networks) fueron introducidas en el mundo de la Inteligencia Artificial por primera vez en 1968 por Ross Quillian, pensadas como “un mecanismo asociativo general capaz de codificar el significado de las palabras” [12]. Los significados se representar´ıan mediante nodos que se unir´ıan unos con otros para representar informaci´on asociada como propiedades, clases, instancias... Una posible definici´on formal de las Redes Sem´anticas podemos encontrarla en [54], donde se las considera “una representaci´on del conocimiento grafal con forma de red”, distingui´endola expl´ıcitamente de otros tipos de red al considerar que “una red abstracta (...) se convierte en sem´antica cuando asig3 4 5 6

http://www.jfsowa.com/ontology/thematic.htm https://framenet.icsi.berkeley.edu/fndrupal/ http://spanishfn.org/ https://verbs.colorado.edu/~mpalmer/projects/ace.html

Cap´ıtulo 2. Estado del Arte

16

nas un significado a cada nodo y link”. Se pueden tambi´en interpretar las Redes Sem´anticas como una evoluci´on de las Redes de Herencia, tal y como declaran Branchman y Levesque en [11], al igual que se consideran precursoras de los Grafos Conceptuales (que abordaremos m´as tarde en la Secci´on 2.1.6). 2.1.4.1.

Tipos de Redes Sem´ anticas

Por su parte, John Sowa define en [109] las Redes Sem´anticas de la siguiente manera: “Informalmente, una Red Sem´antica es un grafo no dirigido y ac´ıclico en el cu´al los nodos representan entidades y los arcos etiquetados representan relaciones binarias entre las entidades.” Seg´ un este autor7 , existen diversos tipos de Redes Sem´anticas: Redes Defininicionales (Definitional networks): donde se hace ´enfasis en las relaciones is-a y subtipo-de, dando lugar a jerarqu´ıas con herencia. Redes Asercionales (Assertional networks): contienen aserciones; se diferencian de las primeras porque se asume que lo expresado es cierto. Redes Implicacionales (Implicational networks): la relaci´on primaria es la implicaci´on, pudiendo usarse para expresar patrones de creencia, causalidad o inferencia. Redes Ejecutables (Executable networks): este tipo de Redes Sem´anticas incluyen mecanismos que se ejecutan, como paso de mensajes, inferencias, b´ usqueda de asociaciones... Redes de Aprendizaje (Learning networks): construye o extiende las representaciones adquiriendo nuevo conocimiento a partir de ejemplos, pudiendo ajustarse (borrar o crear nuevos nodos) seg´ un un sistema de pesos asociado a su estructura (tanto a los arcos como a los nodos). Redes H´ıbridas (Hybrid networks): combinan dos o m´as de los tipos de redes vistas anteriormente, ya sea mezcl´andolas o interactuando de alguna manera. 7

http://www.jfsowa.com/pubs/semnet.htm

Cap´ıtulo 2. Estado del Arte

2.1.4.2.

17

Ejemplos de Redes Sem´ anticas

Algunas Redes Sem´anticas bien conocidas y ampliamente utilizadas tanto en el campo del Procesamiento del Lenguaje Natural como en otras disciplinas de la Inteligencia Artificial se exponen a continuaci´on: ConceptNet ConceptNet es una gran Red Sem´antica destinada a la representaci´on de conocimiento orientado a tareas que implican sentido com´ un. Es parte del proyecto OMCS8 (Open Mind Commonsense), desarrollado por el Media Lab del MIT (Instituto Tecnol´ogico de Massachusetts), y se construye a partir de un corpus escrito en lenguaje natural (en ingl´es) con el que la gente puede interactuar directamente, aportando nueva informaci´on de sentido com´ un. ConceptNet (actualmente en su quinta versi´on9 ) es conceptualmente un hipergrafo cuyos nodos representan palabras o frases cortas (conceptos) y que consta de relaciones etiquetadas entre dichos nodos (que expresan aserciones sobre el mundo) [114]. Algunas de estas relaciones (las m´as utilizadas) pueden encontrarse en la Figura 2.2, tomada de [114]. Existe asimismo una versi´on visual online llamada Lexipedia basada en ConceptNet10 , as´ı como diversos sistemas que lo usan para distintas aplicaciones (Sentiment Analysis, Traducci´on Autom´atica, Bases del Conocimiento...). WordNet WordNet es una Red Sem´antica (probablemente la m´as conocida del mundo) que viene desarroll´andose en la Universidad de Princeton desde 1985. Considerada uno de los recursos m´as utilizados en lengua inglesa, es una base de datos l´exica cuyo contenido se agrupa en synsets, un t´ermino espec´ıfico para denominar un concepto que puede representarse por medio de distintos t´erminos, a los que agrupa a nivel organizativo como si de un cl´ uster se tratara. Estos synsets (defi8 9 10

https://en.wikipedia.org/wiki/Open_Mind_Common_Sense#ConceptNet http://conceptnet5.media.mit.edu/ https://en.wikipedia.org/wiki/Lexipedia , http://www.lexipedia.com/

Cap´ıtulo 2. Estado del Arte

18

Figura 2.2: Relaciones m´as habituales en ConceptNet, con su n´ umero de apariciones y los patrones asociados (Fuente: [114]). nidos en la web de WordNet11 como “conjuntos de sin´onimos cognitivos”) pueden agrupar adjetivos, sustantivos, adverbios o verbos, y est´an relacionados entre s´ı tanto por relaciones sem´antico-conceptuales como por relaciones l´exicas, dando lugar a una red sem´antica completamente desambiguada. Aunque a primera vista la estructura de WordNet pueda recordar a la de un tesauro, WordNet es m´as profundo a nivel sem´antico, al considerar los propios significados m´as all´a de las palabras. Tambi´en se puede considerar que la infraestructura de relaciones que sostiene WordNet tiene todas las propiedades necesarias para ser usada como una ontolog´ıa, llegando a utilizarse en ocasiones como tal. Respecto a las relaciones sem´anticas que encontramos en WordNet, no todas pueden darse entre todos los tipos de synset; a continuaci´on citamos las principales con sus respectivas restricciones [77]: 11

https://wordnet.princeton.edu/

Cap´ıtulo 2. Estado del Arte

19

Sinonimia: es la relaci´on b´asica de WordNet, sim´etrica y equivalente a is-a para todas las categor´ıas gramaticales. Antonimia: tambi´en sim´etrica y aplicable a todas las categor´ıas gramaticales; es especialmente relevante en caso de darse en synsets adverbiales y adjetivales. Hiponimia/Hiperonimia (tambi´en conocidas como subclase de y superclase de): son relaciones transitivas y opuestas entre synsets exclusivamente nominales, creando jerarqu´ıas entre ellos. Meronimia/Holonimia (parte de/todo de): consta a su vez de distintas subclases (miembro, substantivo o componente). S´olo utilizable entre synsets nominales. Troponimia: equivalente para los synsets verbales a la relaci´on de hiponimia para los synsets nominales, aunque las jerarqu´ıas resultantes tienden a ser de menor profundidad. La estructura va a depender de las circunstancias sem´anticas que relacionen a los elementos de la jerarqu´ıa (pueden organizarse por intensidad, volumen...). Consecuencia l´ ogica (entailment): relaciones l´ogicas entre synsets de verbos (por ejemplo, las parejas dormir y roncar o comprar y vender est´an relacionadas en cierta manera aunque no cumplan ninguna de las relaciones previamente descritas). La popularidad de WordNet y su ´exito como recurso ling¨ u´ıstico llev´o a otras lenguas a emular el formato original en ingl´es (aunque no todas estas nuevas versiones mantuvieron el acceso abierto, siendo algunas de pago); nacieron as´ı iniciativas como EuroWordNet12 para las lenguas europeas, GerFigura 2.3: Recursos principales de BamaNet13 para el alem´an, IndoWord- belNet seg´ un la web oficial. Net14 para las 18 lenguas habladas en 12 13 14

https://en.wikipedia.org/wiki/EuroWordNet https://en.wikipedia.org/wiki/GermaNet https://en.wikipedia.org/wiki/IndoWordNet

Cap´ıtulo 2. Estado del Arte

20

la India e incluso una versi´on china (CWN, Chinese Wordnet 15 ). Tambi´en surgieron distintas versiones para una misma lengua, como es por ejemplo el caso del franc´es (con WOLF16 y WoNeF17 ). A nivel mundial encontramos Global WordNet, una asociaci´on que conecta la mayor parte de implementaciones de WordNet; en su web se puede encontrar una lista con muchas m´as versiones18 . BabelNet BabelNet es una red sem´antica multiling¨ ue desarrollada en la Universidad Sapienza de Roma y generada autom´aticamente a partir de distintos recursos. En un principio, estos recursos eran Wikipedia (de donde se extra´ıa fundamentalmente informaci´on sobre las categor´ıas y relaciones entre los art´ıculos) y el previamente mencionado WordNet (de donde se tomaban los synsets, que pasan a convertirse en babel synsets) [86], pero posteriormente se a˜ nadieron otros recursos adicionales. Del mismo modo, el proceso consist´ıa originalmente en realizar sucesivos mapeos sobre ambas fuentes, que finalmente daban lugar a la creaci´on de nuevas relaciones y por consiguiente a una nueva red sem´antica. A d´ıa de hoy, BabelNet se encuentra en la versi´on 3.6 e integra 217 lenguas diferentes en m´as de 14 millones de Babel synsets construidos autom´aticamente a partir de recursos como WordNet, Wikipedia o GeoNames; una lista completa de los recursos integrados se puede encontrar en la web oficial de BabelNet19 , destacando los presentes en la Figura 2.3, extra´ıda de dicha p´agina.

2.1.5.

Ontolog´ıas

2.1.5.1.

Posibles definiciones

En [40] encontramos distintas definiciones que se han ido dando a las ontolog´ıas en el campo de las ciencias de la computaci´on (tiene una connotaci´on anterior en la rama metaf´ısica de la filosof´ıa, que entre otras tareas estudia la 15 16 17 18 19

http://lope.linguistics.ntu.edu.tw/cwn/ http://alpage.inria.fr/~sagot/wolf.html http://wonef.fr/ http://globalwordnet.org/wordnets-in-the-world/ http://babelnet.org/about

Cap´ıtulo 2. Estado del Arte

21

manera en que se relacionan las entidades que existen20 ); a continuaci´on citamos algunas de las definiciones m´as representativas: “Una ontolog´ıa define los t´erminos y las relaciones b´asicos contenidos en el vocabulario de una ´area tem´atica, as´ı como las reglas para combinar t´erminos y relaciones para definir extensiones del vocabulario”. Aunque esta definici´on es importante porque fue una de las primeras en enunciarse, la m´as utilizada y aceptada generalmente apareci´o a˜ nos m´as tarde, expresada adem´as de una forma mucho m´as clara y concisa: “Una ontolog´ıa es una especificaci´on formal de una conceptualizaci´on consensuada”. Las definiciones de las ontolog´ıas pueden asimismo depender del punto de vista o del uso que se le vayan a dar; de cara a su utilizaci´on como base del conocimiento y focalizando en la estructura m´as que en el concepto, otra posible definici´on es la siguiente: “Una ontolog´ıa es un conjunto de t´erminos estructurado de manera jer´arquica que describen un dominio y que puede ser usado como el esqueleto fundamental de una base del conocimiento”. 2.1.5.2.

Tipos de ontolog´ıas

Dependiendo de su profundidad y de la manera de especificar los t´erminos, en general las ontolog´ıas se clasifican como lightweight (pudiendo representar tan s´olo la estructura taxon´omica, sin adentrarse en absoluto el significado de los t´erminos) o heavyweight (caso en el que se formalizan teor´ıas l´ogicas, a˜ nadiendo axiomas y restricciones a una ontolog´ıa lightweight). Adem´as, se considera que una ontolog´ıa puede ubicarse en una escala de formalidad en cuatro posiciones est´andar seg´ un lo expuesto en [40]: altamente informal si est´a expresada en lenguaje natural, semi-informal si este lenguaje natural est´a restringido y estructurado, semi-formal en caso de estar expresada en un lenguaje artificial definido formalmente o regurosamente formal si est´a provista de t´erminos dotados de una sem´antica formal, teoremas, etc. 20

https://es.wikipedia.org/wiki/Ontolog%C3%ADa

Cap´ıtulo 2. Estado del Arte

22

Figura 2.4: Tipos de ontolog´ıas lightweight seg´ un el nivel de especificaci´on, de menor a mayor. (Fuente: [45]) Las definiciones y el sistema de clasificaci´on de ontolog´ıas expuestos previamente engloban asimismo recursos ling¨ u´ısticos est´andar como los tesauros o los glosarios seg´ un su nivel de profundidad, como podemos observar en la Figura 2.4, tomada de [45]. 2.1.5.3.

Componentes y ejemplos de Ontolog´ıas

Dependiendo de qu´e usemos para modelar la ontolog´ıa, los componentes pueden variar; a continuaci´on se exponen los elementos m´as habituales que conforman una ontolog´ıa: Clases que representan conceptos (que en el caso de las ontolog´ıas heavyweight pueden ser primitivos o definidos), ya sean abstractos o espec´ıficos. Relaciones, habitualmente binarias, que representan alg´ un tipo de asociaci´on entre conceptos o de un concepto con sus atributos (caracter´ısticas de la clase). En el caso de las ontolog´ıas heavyweight, las relaciones se denominan roles; algunas relaciones habituales son subclase de o parte de, adem´as de las relaciones ad hoc, que se definen dentro del contexto de la ontolog´ıa. Dentro de las relaciones encontramos el caso concreto de las funciones. Axiomas formales, que modelizan frases que son siempre ciertas y resultan u ´tiles para realizar inferencia; un ejemplo puede ser indicar que ciertas clases son necesariamente disjuntas.

Cap´ıtulo 2. Estado del Arte

23

Instancias (o individuos en las ontolog´ıas heavyweight) que representan elementos o individuos de una ontolog´ıa. Algunas de las ontolog´ıas m´as conocidas y usadas como recurso auxiliar en el a´mbito de la Ingenier´ıa Ling¨ u´ıstica son las siguientes: SUMO21 (Suggested Upper Merged Ontology). SENSUS22 , una extensi´on de la ya tratada WordNet. OMEGA23 sucesora de la anterior y usada por una interlingua (como veremos m´as tarde). DOLCE24 (Descriptive Ontology for Linguistic and Cognitive Engineering).

2.1.6.

Grafos conceptuales

Seg´ un el propio John Sowa, considerado por muchos el creador de los grafos conceptuales, este tipo de representaci´on es el resultado de un siglo de trabajo, remont´andose sus or´ıgenes a los avances y creaci´on en 1883 de una notaci´on para la l´ogica de primer orden por parte de Charles Sanders Peirce [110]. La posterior representaci´on de esta l´ogica en la forma de grafos existenciales y distintas aportaciones y uso por parte de otros investigadores a lo largo del siglo XX (entre ellos Roger Shank, ya comentado, e Igor A. Mel’ˇcuk, cuyos trabajos trataremos m´as adelante) desembocan en la aparici´on de los grafos conceptuales propiamente dichos. De hecho, los autores de [11] consideran que los grafos conceptuales son una combinaci´on de los grafos existenciales y las inheritance networks (“redes de herencia”), en tanto que para Sowa son “forma l´ogica bidimiensional basada en las redes sem´anticas de la Inteligencia Artificial y los grafos l´ogicos de C.S. Peirce, siendo ambas notaciones exactamente equivalentes en sus sem´anticas” [111]. Eileen Way, una de las disc´ıpulas de Sowa en el campo de los Grafos Conceptuales, declar´o una d´ecada despu´es de la aparici´on de la obra original en la que se propusieron estas estructuras que era “algo m´as que una s´ıntesis del trabajo actual en Inteligencia Artificial; un intento de reconciliar lo mejor de las aproximaciones “limpias” y “chapuceras” a la Inteligencia Artificial”, llegando a considerarlos 21 22 23 24

http://www.adampease.org/OP/ http://www.isi.edu/natural-language/projects/ONTOLOGIES.html http://www.gabormelli.com/RKB/Omega_Ontology http://www.loa.istc.cnr.it/old/DOLCE.html

Cap´ıtulo 2. Estado del Arte

24

“un puente para salvar la distancia entre el rigor de la l´ogica y la expresividad de los m´etodos heur´ısticos o basados en esquemas”. 2.1.6.1.

Estructura

Respecto a la formaci´on original de los Grafos Conceptuales, Sowa explica en [108] que la primitiva b´asica son los llamados conceptos, que suelen representarse25 con una caja que contiene una etiqueta en ingl´es (sort label ) que identifica el tipo de dicho concepto. El conjunto de estas etiquetas est´a subordinado a un orden parcial con el objetivo de permitir representar distintos niveles de generalidad. La conexi´on entre los conceptos se representa con una serie de relaciones conceptuales (los Roles Sem´anticos analizados en la secci´on anterior), representadas generalmente con c´ırculos (podemos ver un ejemplo de Grafo Conceptual tomado de [111] en la Figura 2.5). ¿Pero qu´e es exactamente un Grafo Conceptual? A partir de los componentes previamente expuestos, Sowa da la siguiente definici´on: “Un grafo conceptual es un grafo bipartito, finito, conectado y no dirigido con un tipo de nodos llamados conceptos y nodos de otro tipo denominados relaciones conceptuales. Un grafo conceptual puede consistir en un u ´nico concepto, pero no puede tener relaciones conceptuales sin enlazar.” Tambi´en se suele considerar que un Grafo Conceptual es una representaci´on grafal etiquetada de una f´ormula L´ogica de Primer Orden. 2.1.6.2.

Roles Sem´ anticos

En los Grafos Conceptuales, los roles sem´anticos explicados en la secci´on anterior se denominan Thematic Roles o case relations, y equivalen a los predicados di´adicos del C´alculo de Predicados y a los slots de los sistemas basados en frames, siendo todas estas notaciones formas equivalentes de representar las relaciones entre un proceso y sus participantes26 . En la Tabla 2.4 encontramos un desglose de 25

Aunque se ha adoptado como can´onico, el sistema de representaci´on de cajas y c´ırculos es s´ olo un medio y no est´ a intr´ınsecamente ligado a la idea de los Grafos Conceptuales, sirviendo cualquier notaci´ on que se ajuste a las definiciones de la misma (tal y como declara el propio Sowa en [110]). 26 http://www.jfsowa.com/ontology/thematic.htm

Cap´ıtulo 2. Estado del Arte

25

Figura 2.5: Grafo conceptual de la frase ”You can lead a horse to water, but you can‘t make him drink.”(“Puedes llevar un caballo al agua, pero no puedes obligarle a beber.”) (Fuente: [111])

Cap´ıtulo 2. Estado del Arte

26

los Thematic Roles de Sowa seg´ un los tipos de participante, a su vez reflejados en la Tabla 2.3 [111]. Estos Thematic Roles relacionados con los participantes se engloban, a su vez, en una estructura mayor que clasifica todos los posibles roles presentes en la ontolog´ıa de los Grafos Conceptuales27 .

Source

Product

Determinant

Initiator

Goal

Immanent

Resource

Essence

Tabla 2.3: Tipos de Participantes en los Grafos Conceptuales

Initiator

Resource

Goal

Essence

Action

Agent, Effector

Instrument

Result, Recipient

Patient, Theme

Process

Agent, Origin

Matter

Result, Recipient

Patient, Theme

Transfer

Agent, Origin

Instrument, Medium

Experiencer, Recipient

Theme

Spatial

Origin

Path

Destination

Location

Temporal

Start

Duration

Completion

PointInTime

Ambient

Origin

Instrument, Matter

Result

Theme

Tabla 2.4: Thematic Roles seg´ un el tipo de participante en los Grafos Conceptuales

2.1.6.3.

Evoluci´ on y aplicaciones

Los Grafos Conceptuales han evolucionado mucho desde su creaci´on, dando lugar a diversas versiones [112], entre las que destacan las expuestas a continuaci´on: Core Conceptual Graph: la versi´on original, que de hecho cuenta con su propia notaci´on est´andar ISO (Core CGIF, Core Conceptual Graph Iterchange Format). 27

http://www.jfsowa.com/ontology/roles.htm

Cap´ıtulo 2. Estado del Arte

27

Extended Conceptual Graph: una versi´on extendida del anterior con aportaciones de distintos tipos (como la adici´on del cuantificador universal, nuevas etiquetas...) con su correspondiente notaci´on en el est´andar ISO (Extended CGIF ). Research Conceptual Graphs: extensiones formales o informales para distintas aplicaciones. Entre ellos encontramos los Nested Conceptual Graphs (NCGs), usados para formalizar la sem´antica de distintos tipos de l´ogica modal e intencional. Entre las diversas posibles aplicaciones de los Grafos Conceptuales encontramos por ejemplo la construcci´on de un parser sem´antico [113]; la investigaci´on en este campo sigue asimismo muy activa, con la publicaci´on de nuevas propuestas de manera peri´odica y la celebraci´on de distintas conferencias en torno al tema, entre las que sobresale ICCS (International Conference on Conceptual Structures), celebrada cada dos a˜ nos y fuente de interesantes propuestas de aplicaci´on en distintos a´mbitos. Destacamos dentro desde este evento algunas de las aplicaciones sugeridas durante la conferencia 18´esima, celebrada en 2010, como por ejemplo la comprensi´on del lenguaje natural por medio de NCGs o el procesamiento de queries, direcciones de correo electr´onico y sistemas de pregunta/respuesta de sentido com´ un con CGs [21].

2.1.7.

Teor´ıa del Texto-Significado

Pasando a la perspectiva ling¨ u´ıstica, la Teor´ıa del Texto-Significado (en ingl´es ˇ Meaning-Text Theory, o MTT ) es una teor´ıa propuesta por Aleksandr K. Zolkovskij e Igor A. Mel’ˇcuk en 1965 a la que posteriormente contribuyeron tambi´en otros investigadores, como Jurij D. Apresjan, formando la llamada Escuela o C´ırculo Sem´antico de Mosc´ u [70]. A partir de esta teor´ıa surgen los Meaning-Text Models (o MTMs), modelos ling¨ u´ısticos funcionales (es decir, sistemas de expresiones simb´olicas creadas con el objetivo de representar el funcionamiento global de las lenguas naturales) basados en la premisa de que el lenguaje es un mapeo entre el contenido o significado (la sem´antica) de un enunciado y la se˜ nal (ac´ ustica o gr´afica) usada para comunicar dicho contenido (a esta representaci´on la denominaremos fon´etica). Estas representaciones ser´ıan los dos extremos de una serie de representaciones intermedias estratificadas expuestas en la Figura 2.628 . Las tres 28

Fuente: http://www.neuvel.net/meaningtext.htm

Cap´ıtulo 2. Estado del Arte

28

u ´ltimas representaciones (sint´actica, morfol´ogica y fon´etica) se compondr´ıan a su vez de dos subniveles, uno superficial y otro m´as profundo, con un mayor grado abstracci´on e independiente de las peculiaridades ling¨ u´ısticas [73], conformando un total de 7 niveles (cabe matizar que este n´ umero ha ido variando con el tiempo). Paralelamente, cada unas de estas representaciones es una tupla de distintas estructuras en funci´on de su situaci´on en el proceso comunicativo29 ; la representaci´on sem´antica, por ejemplo, se compone de la estructura sem´antica principal (una red sem´antica), de una estructura sem´antico-comunicativa, de una estructura ret´orica y de una estrucura referencial, mientras que la sint´actica tendr´ıa una sint´actica principal y una anaf´orica, entre otras. La teor´ıa de MTT se asienta sobre una serie de postulados y se puede resumir en seis propiedades principales enunciadas por el propio Mel’ˇcuk en [72]: Se basa en la sem´antica, siendo dicha representaci´on el punto de partida. Se sit´ ua desde el punto de vista del hablante, centr´andose en la producci´on del texto m´as que en su comprensi´on (este enfoque se considera una tarea mucho m´as compleja a nivel ling¨ u´ıstico). Est´a enfocada a una separaci´on estricta de niveles ling¨ u´ısticos (los 7 que ya hemos comentado anteriormente); la correspondencia y equivalencia entre cada uno de estos niveles de representaci´on se da por medio de una serie de reglas bidireccionales, organizadas en 6 m´odulos independientes (simbolizados con ⇔) situados entre los niveles adyacentes: SemanticR ⇔ Deep-SyntacticR ⇔ Surface-SyntacticR ⇔ Deep-MorphologicalR ⇔ Surface-MorphologicalR ⇔ Deep-PhonologicalR ⇔ Surface-PhonologicalR. Cabe destacar que el u ´ltimo m´odulo no se encuentra dentro del propio MTM. Pone ´enfasis en el l´exico por medio de un diccionario especial fuertemente formalizado conocido como Explanatory Combinatorial Dictionary. Usa dependencias en vez de constituyentes. 29

http://meaningtext.net/wiki/Main_Page

Cap´ıtulo 2. Estado del Arte

29

Figura 2.6: Representaciones de MTT. La representaci´on sem´antica (SemR) se basa en una red sem´antica, mientras que la representaci´on sint´actica lo hace en en a´rboles de dependencia y la representaci´on morfol´ogica se representa mediante cadenas de morfemas. Es una teor´ıa que entiende la generaci´on del lenguaje no como la acci´on de pasar de unas entidades a otras, sino como hacerlo de un significado a su correspondiente representaci´on textual o fonol´ogica y viceversa. Existen algunas posibles explicaciones acerca de por qu´e esta teor´ıa no lleg´o a extenderse y tener m´as ´exito del que tuvo [39]; fundamentalmente, podemos achacarlo a que en el momento de su concepci´on no exist´ıan a´ un los recursos necesarios para su implementaci´on y al uso masivo de otras teor´ıas ya instauradas y fuertemente asentadas en las principales corrientes de investigaci´on occidentales. No obstante, la teor´ıa de MTT ha tenido importantes repercusiones en trabajos posteriores, como pueden ser el traductor ruso-ingl´es ETAP30 o el sistema de traducci´on de CETA, del que hablaremos m´as adelante. Adem´as del ya mencionado diccionario combinatorio, otros puntos clave de la teor´ıa MTT fueron el uso de indicadores del discurso tanto a nivel sem´antico como sint´actico y la creaci´on de un conjunto de “funciones l´exicas” para el tratamiento de las relaciones sem´anticas. En lo concerniente a la par´afrasis, fue uno de los aspectos ling¨ u´ısticos a los que la teor´ıa MTT dio mayor importancia [71], formalizando y distinguiendo los distintos tipos y las posibles maneras de lidiar con ella desde el modelo MTM. Abordaremos este tema en la segunda parte del Estado del Arte, dedicada a la par´afrasis (ver 2.2.2.2).

2.1.8.

Interlinguas

2.1.8.1.

La Traducci´ on Autom´ atica

Antes de continuar hacia las interlinguas, cabe recordar los tres principales tipos de traducci´on autom´atica que existen, dado que ´esta es su principal a´rea de 30

http://cl.iitp.ru/etap3

Cap´ıtulo 2. Estado del Arte

30

Figura 2.7: Tri´angulo de Vauquois. De arriba a abajo, traducci´on basada en interlinguas, sistema transfer y traducci´on directa. Versi´on enriquecida basada en el original de Vauquois. aplicaci´on (aunque ni mucho menos la u ´nica). Una imagen que ilustra las distintas competencias y los grados de profundidad de cada aproximaci´on es el “tri´angulo de Vauquois” de la Figura 2.731 , donde la altura indica el nivel de representaci´on abstracta y de independencia de las lenguas (siendo el v´ertice superior la independencia idealmente absoluta), lo que implica a su vez una mayor necesidad de estructuras para establecer equivalencias y un mayor esfuerzo a nivel de procesamiento. Por un lado tenemos la traducci´on directa, que se corresponder´ıa en la imagen con la base del tri´angulo y que se queda en un an´alisis morfol´ogico superficial del texto de entrada. La siguiente opci´on ser´ıa un sistema transfer, donde se lleva a cabo un an´alisis m´as profundo a nivel sint´actico y/o sem´antico pero se sigue dependiendo de las lenguas de entrada y de salida de la traducci´on. Finalmente, en la c´ uspide del tri´angulo encontrar´ıamos la traducci´on autom´atica basada en una interlingua, ajena tanto a la lengua de entrada como a la de salida. Tambi´en podemos distinguir entre traducci´on autom´atica basada en reglas (donde entrar´ıan los sistemas transfer y las interlinguas) o basadas en analog´ıas 31

Fuente: https://sites.google.com/site/b490nlp/machine-translation

Cap´ıtulo 2. Estado del Arte

31

Figura 2.8: a) Traducci´on entre pares. Cada flecha representa dos m´odulos, uno en cada direcci´on, por lo que son necesarios 12 m´odulos (n(n − 1) = 4 · 3 = 12). b) Traducci´on basada en una interlingua LI (en gris en la imagen), con tan solo 2n = 2 · 4 = 8 m´odulos.

(que puede basarse en estad´ıstica, ejemplos, corpus...). No obstante, en el presente proyecto nos centraremos exclusivamente en representaci´on mediante el uso de interlinguas. En un entorno multiling¨ ue, la traducci´on entre pares de lenguas conllevar´ıa la implementaci´on de n(n − 1) m´odulos de traducci´on directa (siendo n el n´ umero de lenguas a traducir), mientras que una interlingua necesitar´ıa, como mucho, 2n (uno para traducir de la lengua original a la interlingua y otro para pasar de la interlingua a la lengua destino); como veremos m´as adelante, el sistema basado en interlingua UNITRAN necesita incluso menos. En la Figura 2.832 se pueden ver las distintas interacciones entre las lenguas en caso de disponer de una interlingua o en caso de traducir directamente entre pares de lenguas para un entorno multiling¨ ue de n = 4 lenguas. Imaginemos intentar traducir entornos mucho mayores, como la Uni´on Europea (con 24 lenguas oficiales33 ); con los 24 · 23 = 552 m´odulos de la traducci´on entre pares de lenguas frente al m´aximo de 2 · 24 = 48 que ofrece una interlingua, el ahorro en t´erminos de tiempo y eficiencia ser´ıa enorme. No obstante, como veremos a continuaci´on, el enfoque de las interlinguas presenta tambi´en importantes problemas a la hora de llevarse a la pr´actica.

32

Fuente: https://upload.wikimedia.org/wikipedia/commons/f/fc/TAInterlingua_ Figura2.png 33 http://europa.eu/about-eu/facts-figures/administration/index_es.htm

Cap´ıtulo 2. Estado del Arte

2.1.8.2.

32

Caracter´ısticas de una interlingua

Una posible definici´on formal de una interlingua la encontramos en [16], donde se especifica que, para ser considerada como tal, una lengua debe cumplir las siguientes caracter´ısticas: Representar el significado independientemente de la lengua, en el nivel m´as abstracto y profundo del an´alisis ling¨ u´ıstico, descartando rasgos superficiales de cada idioma y adentr´andose en el significado com´ un para todas las lenguas (idealmente, en la pr´actica suele ser s´olo para una gran cantidad de ellas). Se puede considerar una lengua independiente, aut´onoma, al poseer vocabulario y relaciones sem´anticas propios. Los a´tomos ling¨ u´ısticos suelen ser el sentido de un concepto, y no palabras como en otras lenguas. Las relaciones tem´aticas y funcionales, que deben ser universales y del m´as profundo grado de abstracci´on, se establecen entre los ´atomos sem´anticos de la interlingua. En definitiva, una interlingua debe evitar la ambig¨ uedad y ser universal (independiente del resto de lenguas y capaz de representar todas las particularidades de cada una de ellas). Esta es la raz´on por la que las lenguas naturales no resultan buenas interlinguas (como veremos m´as adelante en el caso del esperanto y el sistema DLT). No obstante, el dise˜ no y la implementaci´on de las interlinguas conllevan una gran dificultad, raz´on por la cu´al no se utilizan a menudo para nuevos sistemas de traducci´on autom´atica ni han gozado de gran ´exito comercial en el pasado: la selecci´on y creaci´on de los CPs de una interlingua para que sean realmente independientes del resto de lenguas es una tarea de por s´ı complicada, y que se vuelve m´as y m´as impracticable a medida que se aumenta el n´ umero de lenguas a traducir. En favor de las interlinguas, cabe destacar que no s´olo sirven para la traducci´on autom´atica (esta es s´olo una de sus m´ ultiples aplicaciones); tambi´en se pueden usar para representar informaci´on en bases de conocimiento, realizar inferencia o relacionar preguntas y respuestas en sistemas Question-Answer, entre otras posibles aplicaciones. Suele considerarse tambi´en a nivel inform´atico que una interlingua es un metalenguaje usado para anotar

Cap´ıtulo 2. Estado del Arte

33

informaci´on conceptual con el objetivo de facilitar el procesamiento del lenguaje natural y compuesto por cuatro elementos: un vocabulario (conceptos, no palabras), una serie de relaciones (los roles sem´anticos vistos previamente), una sintaxis (a nivel de representaci´on, propia de la interlingua) y una sem´antica (el mapeo con las lenguas naturales, qu´e significan los elementos de la interlingua). 2.1.8.3.

Ejemplos de interlinguas

A continuaci´on se exponen algunas de las interlinguas m´as representativas junto con una breve descripci´on de su sistema de representaci´on: PIVOT Entre las interlinguas basadas en Conceptos Primitivos (CPs) encontramos PIVOT [83], la propuesta impulsada por la empresa nipona NEC en la d´ecada de los ochenta. En este planteamiento, cada CP se relaciona con una o varias expresiones (palabras o morfemas) presentes en los diccionarios de cada lengua, permitiendo traducciones bidireccionales en una suerte de interlingua compuesta por CPs. El primer obst´aculo que encontr´o PIVOT parte del propio planteamiento del problema: se comenz´o por crear CPs exclusivamente pensadas para una traducci´on ingl´es/japon´es – japon´es/ingl´es, y fue a la hora de extender esta funcionalidad a una tercera lengua cuando descubrieron que los CPs no eran lo suficientemente gen´ericos ni independientes de ambas lenguas. Pese a ello, el proyecto continu´o expandi´endose a otras lenguas (entre ellas el espa˜ nol [88], de cuya traducci´on a la interlingua se encarg´o la Universidad Polit´ecnica de Madrid), pero finalmente cay´o en desuso en los a˜ nos noventa. ATLAS II Al mismo tiempo que surge la anteriormente mencionada PIVOT, otra empresa japonesa, en este caso Fujitsu, lanza su propio proyecto de traducci´on basada en una interlingua. Sucesora de ATLAS I, el primer sistema comercial de traducci´on ingl´es/japon´es – japon´es/ingl´es del mundo, ATLAS II [120] surge con la necesidad de realizar una traducci´on multiling¨ ue que englobe m´as de dos idiomas

Cap´ıtulo 2. Estado del Arte

34

(concretamente, se buscaba incluir la traducci´on al coreano). La interlingua presente en ATLAS II es una estructura conceptual expresada por un conjunto de relaciones binarias entre conceptos y sus respectivas caracter´ısticas, permitiendo representar el significado de cada oraci´on en forma de una o varias de estas relaciones binarias. A grandes rasgos, el vocabulario de la interlingua consist´ıa en los propios conceptos y en las relaciones entre ellos, siendo estas relaciones lo m´as universales posibles pero incluyendo a su vez expresiones u ´nicas de cada lengua que no se puedan expresar mediante relaciones m´as universales. Finalmente, ATLAS II no lleg´o a buen t´ermino, y de cara al proyecto ATLAS Fujitsu s´olo mantiene actualmente la comercializaci´on de la versi´on biling¨ ue ingl´es 34 /japon´es – japon´es/ingl´es . KANT Cruzando el charco, en Estados Unidos encontramos una nueva propuesta de finales de los ochenta, esta vez a nivel acad´emico. En 1989 el Centro de Traducci´on Autom´atica (CMT) de la Universidad de Carnegie Mellon pone en marcha el proyecto KANT (Knowledge-based, Accurate Natural-Language Translation) con el objetivo de traducir a gran escala y de forma efectiva documentos t´ecnicos, centr´andose principalmente en los dominios de la electricidad, los reportes m´edicos y ciertos campos industriales35 . KANT se enfoca por tanto y en exclusiva al procesamiento de lenguaje controlado, lo que permite cierta facilidad a la hora de definir y poblar la interlingua, ya que la canonizaci´on a nivel de independencia del idioma no es tan estricta. Los propios autores reconocen las limitaciones que esto implica [22], definiendo la interlingua de KANT como una representaci´on “literal” de la entrada, una suerte de representaci´on con frames (cada uno con sus correspondientes slots, que pueden ser de distintos tipos), incapaz de resolver problemas de correferencia y generalizaci´on a nuevos dominios (aunque se han realizado en este aspecto avances en posteriores versiones). En la interlin34

https://www.fujitsu.com/global/products/software/packaged-software/ translation/atlas/ 35 http://www.cs.cmu.edu/afs/cs/project/lti-web/Research/Kant/ http://www.lti.cs.cmu.edu/Research/Kant/

Cap´ıtulo 2. Estado del Arte

35

gua de KANT encontramos, adem´as de los frames, una serie de features y roles sem´anticos bastante est´andar, algunos de los cuales ya se mencionaron en la correspondiente secci´on (por ejemplo36 , agente, atributo, manner...). KANT destaca por ser el u ´nico sistema de Traducci´on Autom´atica interlingual que ha obtenido cierto ´exito comercial; precisamente de cara a esta comercializaci´on y a una mayor robustez, se ha redise˜ nado y reimplementado gran parte del proyecto en C++, pasando a denominarse KANTOO37 . En esta nueva versi´on se han paliado algunos de los problemas presentes en el planteamiento inicial previamente mencionados, como por ejemplo la resoluci´on de las an´aforas pronominales [79]. UNITRAN En paralelo a los sistemas anteriores, el MIT lanza en 1987 UNITRAN (UNIversal TRANslator ). Este sistema usa descripciones de la gram´atica basadas en principios parametrizados en lugar basarse en reglas libres de contexto (siendo esta u ´ltima la elecci´on m´as habitual). Inspirado en las teor´ıas desarrolladas por Noam Chomsky en los a˜ nos 80 en torno al framework “Government and 38 Binding” (en espa˜ nol, “Recci´on y ligamiento”), los par´ametros asociados a los principios pueden ser ajustados con distintas variaciones en funci´on de la lengua, permitiendo manejar fen´omenos comunes pero en general problem´aticos en el a´mbito de la traducci´on autom´atica como pueden ser la elipsis, la presencia de cl´ausulas embebidas o la inversi´on del sujeto [27]. Como interlingua se usa como representaci´on LCS (Lexical Conceptual Structure, una abstracci´on composicional usada en diversos proyectos, como MILT). Los LCS39 son grafos dirigidos con una ra´ız donde los nodos se asocian a cierta informaci´on y las primitivas pueden ser de clases cerradas o de estructuras. Una de las caracter´ısticas m´as rese˜ nables del sistema UNITRAN es que permite usar el mismo parser y el mismo generador para todas las lenguas con respecto a 36

http://www.cs.cmu.edu/~teruko/KANT-ir-description.html http://www.cs.cmu.edu/afs/cs/project/lti-web/Research/Kant/ kantoo-overview.html 38 https://en.wikipedia.org/wiki/Government_and_binding_theory 39 http://www2.let.uu.nl/uil-ots/lexicon/zoek.pl?lemma=Lexical+Conceptual+ Structure&lemmacode=605 37

Cap´ıtulo 2. Estado del Arte

36

la interlingua (facilidad poco habitual en sistema basado en interlingua), adem´as de ser capaz de ir creando reglas basadas en principios ling¨ u´ısticos a medida que procesa el texto de entrada. DLT En 1979 la empresa holandesa BSO (Buro voor Systemontwikkeling, actualmente Atos40 ) inicia el proyecto DLT (Distributed Language Translation), en un principio para prop´ositos ajenos a la traducci´on autom´atica [129]. No es hasta los a˜ nos 80, al introducirse el esperanto como lengua a considerar en el desarrollo de aplicaciones de traducci´on autom´atica, cuando se lleva el proyecto a dicho terreno, adoptando este nuevo idioma como interlingua para la traducci´on de un total de 12 lenguas europeas. El proyecto no lleg´o a buen t´ermino, ya que la elecci´on del esperanto como interlingua aunaba tanto los problemas de ser una lengua viva en constante evoluci´on y con ciertas ambig¨ uedades como el hecho de tener un vocabulario limitado al ser una lengua artificialmente creada a posteriori a partir de otras lenguas. Mikrokosmos Mikrokosmos es un sistema de traducci´on autom´atica basado en conocimiento (KBMT) derivado de Pangloss [51] e iniciado en los a˜ nos 90 en el Laboratorio de Investigaci´on Computacional (CRL) de la Universidad Estatal de Nuevo M´exico y financiado por el Ministerio de Defensa estadounidense. En el sistema Mikrokosmos hay cuatro componentes fundamentales: un lexic´on, una ontolog´ıa, una conjunto de microteor´ıas y una serie de representaciones interlinguales (TMRs, o Text Meaning Representation) basadas en frames y generadas a partir de las dos primeras. Estos TMRs simbolizan cada frase introducida y se componen de distintos slots con diferentes tipos de informaci´on41 (relaciones, actitudes, modalidad...) representados por medio de una notaci´on espec´ıfica [10]. 40 41

http://atos.net/en-us/home.html http://elies.rediris.es/elies9/3-3-6.htm

Cap´ıtulo 2. Estado del Arte

37

Interlingua IAMTC

IAMTC (Interlingual Annotation of Multilingual Corpora) [96] fue un proyecto iniciado en 2003 por distintas universidades norteamericanas y actualmente parado donde la construcci´on de la interlingua se basaba a una serie de corpus biling¨ ues. Estos corpus conten´ıan noticias en varios idiomas (espa˜ nol, hindi, japon´es, coreano, ´arabe y franc´es) y distintas versiones en ingl´es. Destaca principalmente por basarse en la anotaci´on, a diferencia del enfoque habitual de otras interlinguas, que suele ser la desambiguaci´on l´exica. El proceso de creaci´on de la interlingua comienza con la traducci´on y anotaci´on de cada texto de los seis idiomas originales por parte de tres traductores distintos. ´ Esta es, sin duda, una de las particulares m´as interesantes del proyecto: el hecho de que dispongamos de distintas interpretaciones y versiones de un texto en un mismo idioma nos permite cubrir uno de los principales problemas que encontramos no s´olo en la traducci´on autom´atica o en la representaci´on del conocimiento, sino en el procesamiento del lenguaje natural en general: la par´afrasis. Adem´as, este proceso manual nos permite localizar ambig¨ uedades y limitaciones a la hora de pasar conceptos de un idioma a otro, cuesti´on absolutamente fundamental y cr´ıtica a la hora de desarrollar y validar una interlingua. Una vez tenemos las traducciones realizadas y anotadas, ´estas pasan por tres niveles distintos de representaci´on (IL0, IL1 e IL2). En el primero, IL0, se incluyen muchas referencias sint´acticas que permitir´an en etapas posteriores deducir dependencias como los argumentos de los verbos. IL1 a˜ nadir´a informaci´on sem´antica como los ya mencionados argumentos verbales, adem´as de reemplazar relaciones sint´acticas como sujeto y predicado por roles como agente o tema y de sustituir las palabras originales de la traducci´on por conceptos correspondientes en la Ontolog´ıa Omega (de la que deber´ıa haber hablado ya). Finalmente, IL2 lograr´a la independencia de la interlingua con respecto a las lenguas con distintos mecanismos; uno de ellos, por ejemplo, ser´ıa identificar y normalizar situaciones como comprar y vender, que dan la misma informaci´on pero que se expresa de distinta forma; esta labor se llevar´ıa a cabo usando frames [32]. El principal problema de la interlingua de IAMTC radica en la dependencia de

Cap´ıtulo 2. Estado del Arte

38

una ontolog´ıa externa como es Omega. Esta ontolog´ıa, adem´as, se crea de manera semi-autom´atica a partir de otros recursos, por lo que arrastrar´a los errores de sus predecesoras y de los posibles problemas que surjan durante su aprendizaje. Adem´as, al igual que el propio proyecto IAMTC, dicha ontolog´ıa no actualmente activa (dej´o de desarrollarse en 2008). Otras interlinguas Aunque se ha tratado de recopilar las principales interlinguas, existen multitud de ellas de las que no hemos hablado, adem´as de sistemas h´ıbridos que tambi´en se pueden considerar basados en interlinguas. Ejemplos de ello son el sistema Rosetta de la empresa Phillips [105] (donde la interlingua deriva de los a´rboles sem´anticos obtenidos a partir del estudio del isomorfismo entre gram´ati´ cas de distintas lenguas), la “lengua pivote” de CETA (Centre d’Etudes pour la Traduction Automatique de la Universidad de Grenoble, donde abandonaron las interlinguas en favor de un sistema transfer [124]), el proyecto Eurotra42 (impulsado por la Uni´on Europea y a medio camino entre las interlinguas y la traducci´on transfer entre pares de lenguas) o las “Preference Semantics” de Yorick Wilks43 .

2.1.9.

UNL

Tras este breve repaso a las interlinguas llegamos a UNL (Universal Networking Language), el lenguaje universal artificial impulsado por la Universidad de las Naciones Unidas en 1996 para facilitar la comunicaci´on entre diferentes culturas. Aunque en un principio este papel mediador recay´o sobre lenguas como el esperanto y en ingl´es, ´estas han demostrado no ser capaces de reproducir todos los matices presentes en otros idiomas [122], por lo que no son las opciones o´ptimas para este intento de eliminaci´on de las distintas barreras ling¨ u´ısticas a nivel mundial (como ya vimos anteriormente en el caso concreto del sistema DLT y el esperanto). Surge por tanto la necesidad de crear un lenguaje nuevo, neutral a las lenguas ya existentes, y que adem´as pueda ser procesado por ordenadores (pero sin estar exclusivamente orientado a las m´aquinas): el lenguaje UNL es el fruto de esta iniciativa. 42 43

http://elies.rediris.es/elies9/3-2-6.htm http://staffwww.dcs.shef.ac.uk/people/Y.Wilks/

Cap´ıtulo 2. Estado del Arte

39

UNL consta un conjunto de palabras universales (Universal Words, el vocabulario de UNL), una serie de relaciones y atributos (que representar´an los roles sem´anticos y los rasgos sint´acticos de las oraciones) y una base del conocimiento (que aportar´a la informaci´on sem´antica) [121]. Como la mayor parte de las interlinguas revisadas anteriormente, UNL representa la informaci´on presente en un documento oraci´on a oraci´on, expresando cada una de estas frases en la forma de un hipergrafo compuesto por palabras universales (de ahora en adelante, UWs) a modo de nodos y una serie de relaciones binarias como arcos entre ellos. Es posible aportar ciertos matices y grados de subjetividad a dicha representaci´on mediante la adici´on de atributos, como veremos m´as adelante. 2.1.9.1.

Palabras Universales

Las UWs pueden ser clasificadas de acuerdo con muchos criterios distintos, como por ejemplo si es temporal (como los n´ umeros) o permanente en el diccionario UW, si es compuesta o simple o si hace referencia a un concepto o a una entidad concreta. Las UWs quedan en cualquiera de los casos anteriories supeditadas a unos formatos sint´acticos muy espec´ıficos (recordemos que la representaci´on ser´a procesada por maquinas). En el caso de ser UWs simples, su representaci´on se compone de: Una headword : en general, palabras o expresiones inglesas (s´olo en caso de no encontrar una u ´nica palabra capaz de expresar lo mismo) para facilitar la tarea de enlace a t´erminos de otros idiomas a representantes de todos los pa´ıses. No obstante, en el caso de expresiones propias de un pa´ıs se hace una excepci´on (por ejemplo con la palabra paella, que es la headword de dicho concepto). Si la headword es de origen ingl´es, se considera que la UW es de tipo b´asico (Basic UW ), mientras que en caso contrario se denomina Extra UW. Una lista de restricciones: que ayudan a delimitar, concretar y desambiguar el significado expresado por la headword. Pueden ser de tres tipos: • Restricciones ontol´ ogicas: definen relaciones con otras UWs, pudiendo ser estas de hiperonimia/hiponimia, instanciaci´on, sinonimia/antonimia o meronimia. Es obligatorio que las UWs contengan o bien la restricci´on de hiperonimia (representada por el comando icl) o bien la

Cap´ıtulo 2. Estado del Arte

40

de instanciaci´on (iof); para saber qu´e poner en cada restricci´on existen una serie de jerarqu´ıas dependiendo de si el concepto que representa la palabra universal es un verbo, un nombre o sustantivo (denominado thing en UNL), un adjetivo o un adverbio: ◦ Conceptos verbales: dependiendo del significado del propio verbo, puede ser: (icl>do): indica que la acci´on o la situaci´on la inicia alguien o algo. (icl>occur): implica que el proceso o el evento no necesita de un iniciador. (icl>be): expresa estados, propiedades o situaciones est´aticas en el tiempo. ◦ Conceptos nominales: su jerarqu´ıa es la m´as profunda, componi´endose de varios niveles; no obstante, a la hora de concretar habitualmente se suele recurrir a la clase padre nominal (icl>thing) o a sus subclases hijas inmediatas ((icl>abstract thing) y (icl>concrete thing), englobando esta u ´ltima casos como (icl>living thing) o (icl>natural thing)). Tambi´en se dan en esta categor´ıa instanciaciones como por ejemplo el caso de nombres y lugares como Pedro(iof>person) o Madrid(iof>city). ◦ Conceptos adjetivales: pueden ser cualitativos ((icl>qual adj)), cardinales ((icl>card adj)), ordinales ((icl>ord adj)), temporales ((icl>time adj)) o espaciales ((icl>place adj)); en caso de no pertenecer a ninguna de estas subcategor´ıas, se remite directamente al tipo adjetivo ((icl>adj)). ◦ Conceptos adverbiales: engloban tambi´en a las preposiciones y a las conjunciones. Las categor´ıas son similares a las de los adjetivos, y algunas incluyen restricciones espec´ıficas. • Restricciones sem´ anticas: sirven para hacer distinciones m´as precisas a nivel sem´antico, matices en el uso concreto de las palabras. Se incluyen en este tipo de restricci´on com (componente) y fld (dominio). • Argumentos: permiten delimitar los conceptos restringiendo las caracter´ısticas de las UWs relacionadas con ellos. Un ejemplo ser´ıa el UW de comer, eat(icl>consume,agt>living thing,obj>concrete thing),

Cap´ıtulo 2. Estado del Arte

41

donde se especifica que la acci´on de comer es un tipo de consumici´on necesariamente desempe˜ nada por un ser vivo con respecto a una cosa concreta. 2.1.9.2.

Relaciones

Las relaciones UNL (la versi´on UNL de los roles sem´anticos) enlazan las UWs de una oraci´on indicando c´omo interactuan en la frase a nivel sint´actico. Estas relaciones llevan gran parte de la carga de significado de la oraci´on, por lo que ser´an cruciales a la hora de determinar lo que expresa un texto. Una forma est´andar de organizarlas [16], junto con algunos de los fen´omenos a los que hacen referencia, es la siguiente: Relaciones causales: prop´ositos, causas... Relaciones temporales: comienzo y fin de un suceso, co-ocurrencia... Relaciones espaciales: origen, destino... Relaciones l´ ogicas: conjunci´on, disyunci´on... Relaciones num´ ericas: cantidades, bases, proporciones... Relaciones circunstanciales: instrumento, manera... Relaciones argumentales: agente, objeto, objetivo... Relaciones argumentales secuendarias: co-agente, beneficiario... Relaciones nominales: posesi´on, meronimia... Existen adem´as relaciones especiales, de las que ya hemos hablado en el apartado anterior, que se usan exclusivamente para la definici´on de las restricciones de las UWs: icl y iof para la hiperonimia y la instanciaci´on y equ y ant para la equivalencia y la antonimia. Existen tambi´en otras posibles categorizaciones44 . Se adjunta como anexo la lista completa de las 40 relaciones conceptuales presentes en UNL (ver Anexo A). 44

http://www.unlweb.net/wiki/Universal_Relations

Cap´ıtulo 2. Estado del Arte

2.1.9.3.

42

Atributos

Los atributos son informaci´on adicional que se adjunta en las UWs de un grafo para aportar matices de tipo temporal, de subjetividad, informaci´on dependiente del hablante o acerca de la forma en que viene expresada originalmente la informaci´on (en voz pasiva, por ejemplo). Se representan mediante el s´ımbolo ’@’ (por ejemplo, @not), y cada UW puede tener m´as de uno (o ninguno). Las categor´ıas en las que se pueden clasificar y algunos ejemplos de cada una de ellas son las siguientes: Actitud: @exclamation (exclamaci´on), @not (para la negaci´on)... Aspecto: @begin y @state (comienzo y estado final de una acci´on, respectivamente). Conclusi´ on: @conclusion (conclusi´on), @consequence (consecuencia). Consentimiento: @grant (permitir), @grant-not (no permitir). Expectaci´ on: @expectation (expectaci´on), @wish (deseo)... Foco o ´ enfasis: @emphasis, @entry (elemento principal de la oraci´on). Intenci´ on: @intention (intenci´on), @will (determinaci´on). Modificadores de aspecto: @just (acabar de), @yet (pendiente). Necesidad: @need (necesidad), @obligation (obligaci´on)... N´ umero: @pl (plural). Posibilidad: @certain (certeza), @may (posibilidad)... Signos de puntuaci´ on: @parenthesis (par´entesis), @double quote (comillas)... Referencia: @def (para especificar si hablamos de individuos concretos, como en la casa o en gen´erico, una casa), @ordinal (para n´ umeros ordinales)... Sentimientos: @surprised, @admire...

Cap´ıtulo 2. Estado del Arte

43

Tiempo: @future y @past para representar cu´ando sucede la acci´on (tambi´en se puede usar @present, pero normalmente se asume si no se especifica otro momento). Al igual que ocurr´ıa con las relaciones, existen diversos puntos de vista sobre la jerarqu´ıa a utilizar45 . En el Anexo B se da una lista detallada de los atributos est´andar de UNL, aunque se permite la creaci´on libre de nuevos atributos siempre que no puedan representarse su intenci´on mediante el uso y combinaci´on de los ya existentes.

Figura 2.9: Ejemplo cl´asico de grafo UNL.

2.1.9.4.

Grafos UNL

Los grafos son redes sem´anticas en las que los nodos (conceptos) se enlazan mediante relaciones binarias, desempe˜ nando estos papeles las UWs (con posibles 45

http://www.unlweb.net/wiki/index.php/Attributes

Cap´ıtulo 2. Estado del Arte

44

modificaciones por parte de atributos) y las relaciones UNL, respectivamente. En un grafo UNL podemos encontrar tambi´en hipernodos, es decir, que pueden existir conjuntos de nodos que se comporten como uno solo; estos hipernodos deben ser herm´eticos (sin arcos a o desde un solo nodo del hipernodo, sino al global del mismo). Los hipernodos pueden ser sem´anticos (contienen informaci´on que de no existir se perder´ıa) o sint´acticos (usados para que el grafo sea m´as comprensible, pero sin aportar informaci´on; suelen usarse para representar frases largas). El ejemplo cl´asico que suele usarse para ilustrar la representaci´on UNL se expone en forma de grafo en la Figura 2.9. La representaci´on interna de dicho grafo en c´odigo plano (a nivel m´aquina), relaci´on a relaci´on, ser´ıa la siguiente.

1 2 3

4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19

[S:2] { org : es } Hace tiempo , en l a c i u d a d de B a b i l o n i a , l a g e n t e comenzo a c o n s t r u i r una t o r r e enorme , que p a r e c i a a l c a n z a r l o s c i e l o s . {/ o r g } { unl } tim ( b e g i n ( i c l >do ) . @entry . @past , l o n g ago ( i c l >ago ) ) mod( c i t y ( i c l >r e g i o n ) . @def , Babylon ( i c l >c i t y ) ) p l c ( b e g i n ( i c l >do ) . @entry . @past , c i t y ( i c l >r e g i o n ) . @def ) a g t ( b e g i n ( i c l >do ) . @entry . @past , p e o p l e ( i c l >p e r s o n ) . @def ) o b j ( b e g i n ( i c l >do ) . @entry . @past , b u i l d ( i c l >do ) ) a g t ( b u i l d ( i c l >do ) , p e o p l e . @def ) o b j ( b u i l d ( i c l >do ) , tower ( i c l >b u i l d i n g ) . @indef ) a o j ( huge ( i c l >b i g ) , tower ( i c l >b u i l d i n g ) . @indef ) a o j ( seem ( i c l >be ) . @past , tower ( i c l >b u i l d i n g ) . @indef ) o b j ( seem ( i c l >be ) . @past , r e a c h ( i c l >come ) . @begin . @soon ) o b j ( r e a c h ( i c l >come ) . @begin−soon , tower ( i c l >b u i l d i n g ) . @indef ) g o l ( r e a c h ( i c l >come ) . @begin−soon , heaven ( i c l >r e g i o n ) . @def . @pl ) {/ u n l } [/S]

Otro ejemplo del sistema de representaci´on de grafos UNL, ilustrando tambi´en la presencia de atributos y restricciones ontol´ogicas, lo encontramos en la Figura 2.1046 . En dicha imagen podemos observar c´omo se vinculan las caracter´ısticas intr´ınsecas a una frase expresada en lenguaje natural a las relaciones y los atributos que conformar´an su representaci´on en el sistema UNL. 46

Fuente: https://upload.wikimedia.org/wikipedia/commons/5/56/UNLGraph.svg

Cap´ıtulo 2. Estado del Arte

45

the

English

sky

was

blue

?

!

@def graph representation in UNL

@interrogative sky(icl>natural world)

aoj

blue(icl>color) @exclamation @past @entry

tabular representation in UNL

aoj ( blue(icl>color).@entry.@past.@interrogative.@exclamation , sky(icl>natural world) .@def )

Figura 2.10: Ejemplo de proceso de representaci´on UNL: c´omo se derivan las relaciones y los atributos presentes en una frase en lenguaje natural a la hora de representarla en el sistema UNL. 2.1.9.5.

Situaci´ on actual

Cabe destacar que aunque UNL empez´o siendo un proyecto com´ un entre equipos de distintos pa´ıses, que discutieron y consensuaron una serie de bases y est´andares para poder desarrollar una interlingua verdaderamente independiente del lenguaje, ahora mismo hay en marcha distintas iniciativas que divergen en su planteamiento. La propuesta expuesta previamente es la original del proyecto UNL, disponible en la web espa˜ nola47 y en las distintas publicaciones de Uchida y otros miembros de los equipos originales (entre ellos el espa˜ nol, procedente de la Universidad Polit´ecnica); informaci´on adicional sobre otra propuesta representativa est´a disponible en la web de dicha iniciativa, UNDL48 . Por u ´ltimo, una comparativa bastante reciente del sistema UNL con respecto a algunas de las interlinguas mencionadas previamente puede encontrarse en [3].

47 48

http://www.unl.fi.upm.es/spanish/about.htm http://www.undl.org/

Cap´ıtulo 2. Estado del Arte

2.2. 2.2.1.

46

Par´ afrasis Introducci´ on

Como ya avanzamos en la introducci´on de esta tesis, no existe una definici´on u ´nica de par´afrasis, ya que el t´ermino engloba a su vez fen´omenos muy diferentes y dif´ıciles de estandarizar que pueden considerarse desde diversos puntos de vista. Comenzaremos por tanto esta nueva secci´on viendo varias definiciones propuestas por distintos autores, as´ı como caracter´ısticas y opiniones de los mismos sobre la par´afrasis. La primera definici´on la encontramos en [63], donde Dorr y Madnani mencionan que la definici´on m´as habitual parte de la base de la equivalencia sem´antica, desarrollando la siguiente definici´on: ‘‘Una par´afrasis es una forma superficial alternativa en el mismo lenguaje que expresa el mismo contenido sem´antico que la forma original.” A˜ naden adem´as que cuando encontramos ´ıtems l´exicos individuales con el mismo significado se habla de par´afrasis l´exica (que no se limitar´ıa s´olo a la sinonimia, sino que englobar´ıa tambi´en fen´omenos como la hiperonimia), mientras que cuando son fragmentos de frase las que comparten el mismo contenido sem´antico se usa el t´ermino par´afrasis frasal ; cuando ocurre con dos frases completas, se denomina par´afrasis oracional. En [125] podemos encontrar una recopilaci´on de otras posibles definiciones, tales como “expresar una cosa con otras palabras”, “formas alternativas de aportar la misma informaci´on” o “frases u oraciones que aportan aproximadamente el mismo significado usando distintas palabras en la superficie”; los autores recalcan la “vaguedad” de las mismas y justifican la complejidad del asunto por la naturaleza “polifac´etica e ilimitada” del fen´omeno de la par´afrasis. Para dar una idea de lo inabordable del problema de la par´afrasis, citamos la siguiente reflexi´on expuesta en [6]: “(...) La cantidad relativamente peque˜ na de art´ıculos de aplicaci´on (con respecto a publicaciones que proponen nuevos m´etodos o los

Cap´ıtulo 2. Estado del Arte

47

prueban in vitro, o incluso llegan a apuntar a posibles aplicaciones de dichos m´etodos) puede considerarse un indicador de que la par´afrasis y el textual entailment no gozan a´ un de un uso extendido en grandes sistemas. Creemos que esto puede deberse al menos a dos razones. La primera, que la eficiencia de los m´etodos necesita mejorar, lo que podr´ıa requerir combinar los m´etodos de reconocimiento, generaci´on y extracci´on (...). Segundo, la literatura en par´afrasis y textual entailment es abundante, lo que dificulta que los investigadores que trabajan en grandes sistemas asimilen los conceptos claves e identifiquen los m´etodos que mejor se adapten a su caso.” Veamos ahora c´omo definen y manejan el fen´omeno de la par´afrasis distintas teor´ıas desde el punto de vista puramente ling¨ u´ıstico.

2.2.2.

Perspectiva ling¨ u´ıstica

2.2.2.1.

Conceptos ling¨ u´ısticos relacionados

La par´afrasis est´a estrechamente ligada a otros fen´omenos ling¨ u´ısticos, como pueden ser la sinonimia, la an´afora/correferencia, la polisemia y muy especialmente el llamado “textual entailment” (la traducci´on al espa˜ nol ser´ıa “implicaci´on textual”), que ya mencionamos brevemente en la introducci´on y en el que ahora profundizaremos brevemente (para ver m´as informaci´on al respecto, ver [6]). Textual entailment El fen´omeno denominado textual entailment se refiere a la relaci´on que se da entre dos enunciados cuando uno de ellos es necesariamente consecuencia l´ogica del otro, pero no a la inversa. El caso bidireccional ser´ıa, de hecho, una par´afrasis propiamente dicha (aunque esta definici´on no engloba todas las par´afrasis, ya que por ejemplo se aceptan algunos textual entailments unidireccionales como tal [125]). Una manera intuitiva de entender la diferencia entre ambos fen´omenos es pensar en la par´afrasis como una forma de sinonimia y en el textual entailment como una hiponimia; ve´amoslo con un ejemplo: Luis vive en Espa˜ na. Luis vive en Madrid.

Cap´ıtulo 2. Estado del Arte

48

La segunda frase implica la primera, pero no as´ı a la inversa. Es unidireccional y no es una par´afrasis. En cambio, “Luis vive en territorio espa˜ nol.” s´ı ser´ıa par´afrasis de la primera, ya que el territorio espa˜ nol es Espa˜ na y viceversa. El textual entailment y la par´afrasis suelen de hecho buscarse y estudiarse siguiendo m´etodos muy similares, como veremos m´as adelante. Polisemia La polisemia es el fen´omeno ling¨ u´ıstico consistente en que una misma palabra tenga varios significados. De cara a la par´afrasis, imaginemos por ejemplo los siguientes casos: Luis sigui´o el curso del r´ıo con atenci´on. Luis sigui´o el curso con atenci´on. Aunque a primera vista (y muy especialmente para un sistema de reconocimiento autom´atico) pueda parecer que las dos frases hablan de lo mismo, y que tan s´olo se omite en la segunda un peque˜ no matiz respecto a la primera, no tiene por qu´e ser una verdadera par´afrasis. La segunda frase podr´ıa referirse a asistir a unas clases, por lo que no habr´ıa en absoluto par´afrasis. Aunque este es un caso extremo y dif´ıcil de encontrar en la comparaci´on de textos que a priori se asumen relacionados al menos a nivel contextual, ilustra la importancia de la desambiguaci´on l´exica y de la correcta representaci´on de la sem´antica de cara a la identificaci´on de la par´afrasis. An´ afora y Correferencia La an´afora y la correferencia son problemas siempre presentes en el Procesamiento del Lenguaje Natural. La posibilidad de hacer referencia a un elemento anterior del texto por medio de palabras distintas y no necesariamente relacionadas a nivel sem´antico o incluso gramatical con dicho antecedente dificulta e incluso impide un correcto procesamiento del texto en cuesti´on. En el caso de la par´afrasis, est´an completamente ligadas a la misma, ya que puede considerarse un caso especial de reformulaci´on de la oraci´on. Un estudio exhaustivo sobre la diferencia entre ambos fen´omenos fue llevado a cabo por Vila y Recasens en [95]; extraemos de dicho an´alisis que la principal diferencia radica en que mientras la

Cap´ıtulo 2. Estado del Arte

49

Figura 2.11: Escala de menor a mayor parecido en la sinonimia. Correspondencia entre t´erminos de las escalas propuestas por Murphy (arriba) y Cruse (abajo). igualdad de la par´afrasis se da en el significado, en la correferencia lo equivalente son los referentes (que apuntan a una misma entidad). Sinonimia La sinonimia es el fen´omeno por el cu´al dos o m´as formas ling¨ u´ısticas comparten el mismo significado [115]. Esta relaci´on puede darse en diversos niveles ling¨ u´ısticos: morfemas, unidades l´exicas, oraciones... y est´a obviamente ligada al concepto de par´afrasis. Dado que no existe una forma est´andar de medir lo parecidas que son dos palabras (pues depende del contexto, de la lengua...), existen varias maneras de clasificar los sin´onimos seg´ un sea de parecido su significado. En [115] se citan dos escalas (ilustradas tambi´en en la Figura 2.11). Escala de Cruse: • Sin´ onimos absolutos: identificaci´on absoluta de todos los significados de dos o m´as lexemas en todos los posibles contextos. Se considera antinatural encontrarlos en una lengua.

Cap´ıtulo 2. Estado del Arte

50

• Sin´ onimos cognitivos: lo que habitualmente se denominar´ıa sinonimia; es decir, t´erminos con pr´acticamente el mismo significado en algunos contextos. A la sinonimia cognitiva se la conoce tambi´en como descriptiva, proposicional o referencial [115]. • Sin´ onimos cercanos: significados cercanos o muy similares. Escala de Murphy: se centra en la polisemia y el contexto. • Sin´ onimos l´ ogicos: pueden ser completos (mismo sentido en todas los posibles contextos) o de sentido (coinciden en algunos contextos). • Sin´ onimos cercanos: sentidos muy parecidos dependiendo del contexto. En lo relativo a los sin´onimos cercanos, como ya se ha mencionado no hay una forma est´andar de medir este concepto de cercan´ıa; Hirst y Edmonds recopilan en [30] una serie de dimensiones o variaciones seg´ un las cuales se puede guiar la distancia entre sin´onimos cercanos, como por ejemplo las variaciones denotacionales (como el grado de ´enfasis que puede aportar un t´ermino frente a otro), las estil´ısticas (dial´ecticas, por ejemplo), las estructurales (de subcategorizaci´on) o las expresivas (rasgos de la actitud). Sem´ antica Distribucional Un concepto particularmente relevante en el tratamiento de la par´afrasis es la Distribuci´on Estructural (tambi´en llamada Hip´otesis Distribucional), que asume que el lenguaje posee una cierta estructura distribucional. Esta idea fue enunciada por primera vez por Zellig Harris en 1954 [42], continuando su desarrollo a lo largo de distintas publicaciones y libros posteriores, y ha sido estudiada y usada por muchos autores despu´es de ´el (como veremos m´as adelante), populariz´andose con la expresi´on “a word is characterized by the company it keeps” (“una palabra se caracteriza por sus acompa˜ nantes”). Para llegar a esta conclusi´on respecto a la presencia subyacente de una estructura, Harris se bas´o en una serie de observaciones enunciadas en [42] y citadas textualmente a continuaci´on: 1. “Las partes de un lenguaje no ocurren arbitrariamente unas respecto a otras: cada elemento ocurre en ciertas posiciones en relaci´on a otros elementos concretos.”

Cap´ıtulo 2. Estado del Arte

51

Figura 2.12: Arquitectura general de par´afrasis siguiendo la teor´ıa de la Distribuci´on Estructural (fuente: [63]). 2. “La distribuci´on restringida de clases persiste en todas sus ocurrencias; las restricciones no se desestiman arbitrariamente por, por ejemplo, necesidades sem´anticas. (...) Todos los elementos de un lenguaje pueden ser agrupados en clases cuya ocurrencia relativa se puede concretar de manera exacta. Sin embargo, para la ocurrencia un miembro particular de una clase con respecto a un miembro particular de otra clase ser´ıa necesario hablar en t´erminos de probabilidad, bas´andose en la frecuencia de esa ocurrencia en un muestreo.” 3. “Las declaraciones distributivas cubren todo el material de una lengua sin requerir asistencia de ning´ un otro tipo de informaci´on.” 4. “Las restricciones de la ocurrencia relativa de cada elemento se describen simplemente mediante una red de declaraciones interrelacionadas, algunas de las cuales se expresan seg´ un los resultados de otras, en vez de con una simple medida de la restricci´on de cada elemento de manera separada.” De esta teor´ıa se deduce la idea de la Sem´antica Distribucional (ver Figura 2.12, tomada de [63]), que defiende que las palabras y frases que comparten la

Cap´ıtulo 2. Estado del Arte

52

misma distribuci´on tienden a tener significados similares. Adem´as, se considera a esta teor´ıa la base de la Sem´antica Estad´ıstica, campo en el que encontramos importantes aportaciones al Procesamiento del Lenguaje Natural, como por ejemplo el LSA (Latent Semantic Analysis)49 . Otras ideas interesantes derivadas de esta hip´otesis (y recopiladas por Vila en el transcurso de su tesis doctoral [126]), son por ejemplo la preservaci´on de las entidades en las par´afrasis o la inmutabilidad del significado del texto en torno a las mismas en distintas ocurrencias.

2.2.2.2.

Modelo del Texto-Significado

Desde un punto de vista ling¨ u´ıstico, seg´ un los autores de [125] existen dos grandes teor´ıas en las que la par´afrasis se puede considerar un componente central: la anteriormente analizada Teor´ıa del Texto-Significado (ver 2.1.7) y la Gram´atica Sist´emico-Funcional (Systemic-Functional Grammar o SFG), ambas con distintos planteamientos pero compartiendo la misma idea sobre la par´afrasis como posible consecuencia de un sistema de elecciones o alternativas. Para ver esta idea nos centraremos por tanto y en exclusiva en el Modelo del Texto-Significado, dado que ya hemos introducido las bases de dicha teor´ıa ling¨ u´ıstica y que adem´as Igor Mel’ˇcuk desarroll´o ampliamente c´omo lidiar con la par´afrasis en 1992 [71]. A continuaci´on resumimos brevemente la extensa y detallada aportaci´on presentada en dicha publicaci´on. Concepto de par´ afrasis Como no pod´ıa ser de otra manera, Mel’ˇcuk comienza por dar su propia interpretaci´on del concepto de par´afrasis, expresando50 la relaci´on de par´afrasis entre dos frases como una relaci´on de sinonimia o cuasi-sinonimia y entendiendo la propia sinonimia como una noci´on intuitiva y dependiente del contexto de la conversaci´on. Cabe destacar que limita la sinonimia a un nivel puramente ling¨ u´ıstico, aunque en el proceso de identificaci´on puedan intervenir nociones l´ogicas o matem´aticas, entre otras posibilidades. Adem´as, entiende que el sentido de 49

http://www.aclweb.org/aclwiki/index.php?title=Statistical_Semantics El propio Mel’ˇcuk aclara que no pretende definirla, ya que considera que “la identificaci´ on del sentido es una noci´ on indefinible”. 50

Cap´ıtulo 2. Estado del Arte

53

una frase se compone de tres elementos (el sentido situacional, el comunicativo y el ret´orico, reflejados en las tres estructuras asociadas al nivel sem´antico de representaci´on de la Teor´ıa del Texto-Significado), y considera que la par´afrasis debe mantener “suficientemente parecido” s´olo el primero de ellos, pudiendo variar los otros dos. Tipos de par´ afrasis En un Modelo de Texto-Significado, la par´afrasis puede aparecer de dos maneras: o bien pasando de un nivel de representaci´on a otro o bien estableci´endose a trav´es de reglas de equivalencia en un mismo nivel de representaci´on (pudiendo ser estas reglas l´exicas o sint´acticas51 ). Puede haber asimismo par´afrasis sint´acticas, derivadas de elegir o sustituir distintas estructuras sint´acticas pero usando las mismas lexies o unidades l´exicas, o sem´anticas, fruto de una distribuci´on distinta de lexies (distingui´endose entre las dos frases al menos un lexie). Distingue adem´as otro tipo, las llamadas par´afrasis l´exicas, que mantienen las mismas relaciones sem´anticas: estas ser´an las par´afrasis a tratar, las cuales aborda con la creaci´on del concepto de funci´on l´exica. Funciones l´ exicas A grandes rasgos, una funci´on l´exica es una dependencia o correspondencia que asocia una unidad l´exica argumento con un conjunto de unidades l´exica valor. Cada funci´on l´exica corresponde a un sentido muy general entre unidades l´exicas y a un rol sint´actico profundo, y deben ser universales. Un ejemplo representativo de funci´on l´exica (de entre las m´as de 100 definidas originalmente en la Teor´ıa) es Magn. Magn representa el sentido sem´antico abstracto “muy o mucho”, y puede darse por ejemplo acompa˜ nando a ‘t´e’(indicando en ese caso “t´e cargado”), a lluvia (“fuerte”), tr´afico (“denso”)... Por u ´ltimo, cabe destacar que el sistema de par´afrasis desarrollado en el marco de la Teor´ıa del Texto-Significado se orienta principalmente a la generaci´on de la par´afrasis, no a su reconocimiento (m´as tarde veremos la diferencia). 51

Las listas de las 54 reglas l´exicas y de las 29 reglas sint´acticas pueden encontrarse en las secciones V.3 y V.4 del art´ıculo [71]

Cap´ıtulo 2. Estado del Arte

54

Figura 2.13: Tipos de par´afrasis seg´ un lo expuesto en [125].

2.2.3.

Perspectiva computacional

2.2.3.1.

Tipos de par´ afrasis

Existen numerosos estudios sobre los distintos tipos de par´afrasis existentes (una recopilaci´on de los mismos se puede encontrar en [125]); no obstante, la mayor´ıa de ellos se realizan o bien desde un punto de vista no computacional (puramente ling¨ u´ıstico y/o psicol´ogico) o bien dentro de un campo de aplicaci´on muy limitado. Adem´as, estos an´alisis suelen centrarse exclusivamente en la definici´on de los tipos y no en c´omo decidir si se da dicho tipo, por lo que no podemos considerar las tipolog´ıas que plantean como ´optimas para el problema que nos ocupa. En su art´ıculo [125], Vila propone su propia tipolog´ıa, caracterizada por intentar definir unos l´ımites entre qu´e es una par´afrasis, siendo ´estos la p´erdida de informaci´on de una frase a su supuesta par´afrasis, la presencia de conocimiento de sentido com´ un (ya sea enciclop´edico o situacional) o caracter´ısticas gramaticales (cambios de persona, n´ umero...). La tipolog´ıa completa se puede ver en la Figura 2.13.

Cap´ıtulo 2. Estado del Arte

2.2.3.2.

55

Posibles enfoques

Los autores de [6] distinguen tres grandes enfoques o desaf´ıos en lo concerniente a la par´afrasis: por un lado estar´ıa la generaci´on de par´afrasis a partir de una expresi´on, por otro el reconocimiento de la par´afrasis entre dos expresiones distintas (siendo la salida una cierta probabilidad sobre la certeza de la presencia de par´afrasis), y por u ´ltimo tendr´ıamos la extracci´on de par´afrasis de un corpus (de cara, por ejemplo, a la creaci´on de un recurso con posibles par´afrasis ayude tanto a la generaci´on como al reconocimiento). Aunque trataremos brevemente estos tres enfoques, nos centraremos principalmente en el campo del reconocimiento. Generaci´ on A la hora de abordar la generaci´on, un campo en el que se inspiran muchas opciones es el de la Traducci´on Autom´atica, ya sea tomando distintos art´ıculos sobre la misma noticia (igual que se toman textos con sus respectivas traducciones en distintos idiomas) o usando una lengua pivote para traducir de un mismo idioma a s´ı misma (obteniendo probablemente otra estructura distinta a la original), entre otras opciones. Otra posibilidad pasa por aplicar bootstrapping con respecto a ciertos elementos clave (como pueden ser por ejemplo entidades relacionadas) y ver c´omo se relacionan en un gran corpus, obteniendo plantillas de los casos de aparici´on. Estas plantillas deben ser posteriormente filtradas (ya que pueden se˜ nalar par´afrasis, entailment o ser falsos positivos) y una vez verificadas pueden ayudar a buscar nuevas plantillas. Extracci´ on En lo concerniente a la extracci´on a nivel l´exico, muchas t´ecnicas se basan en el descubrimiento de sin´onimos, hiper´onimos... para par´afrasis frasales u oracionales, en cambio, son necesarias t´ecnicas algo m´as complejas. Una posible opci´on es basarse en la Hip´otesis Distribucional (ya vista en la Secci´on 2.2.2.1), identificando n-gramas y sus contextos para ver casos de repetici´on o fij´andose en los roles sem´anticos de las oraciones.

Cap´ıtulo 2. Estado del Arte

56

En ausencia de plantillas semilla de partida como en el caso de la generaci´on de par´afrasis, se suele comenzar por vocabulario est´andar del dominio, que puede estar a su vez construido autom´aticamente a partir de un corpus. Otra opci´on es el uso iterativo de reglas en la b´ usqueda de la par´afrasis. Tambi´en es habitual el uso de lenguas pivote y otras t´ecnicas de Traducci´on Autom´atica, como ocurr´ıa en el caso de la generaci´on. Reconocimiento De cara al reconocimiento de par´afrasis, Androutsopoulos y Malakasiotis establecen en [6] las siguientes familias de m´etodos: M´ etodos basados en l´ ogica Esta forma de abordar el reconocimiento de par´afrasis est´a particularmente ligada al fen´omeno del textual entailment, haciendo uso de distintos axiomas l´ogicos para localizar las par´afrasis. Un ejemplo ser´ıa el caso de “´opera” y “obra’ ’, siendo el primero hiper´onimo del segundo y pudiendo por tanto reconocerse la par´afrasis mediante axiomas del tipo: ∀x ∀y opera de(x; y) ⇒ obra de(x; y) En casos como: Turandot es una obra de Puccini. Turandot es una ´opera de Puccini. Los axiomas pueden obtenerse de recursos como el ya mencionado FrameNet (ver la Secci´on 2.1.3.1), entre otros. Uso de Vector Space Models Sem´ anticos El m´etodo del Vector Space Model (usado habitualmente en el campo de la Recuperaci´on de Informaci´on para relacionar consultas o documentos con temas u otros documentos) consiste, a grandes rasgos, en usar vectores de pesos no binarios para representar las palabras presentes en un recurso de cara a la comparaci´on de la similaridad de dicho recurso con el vector de alg´ un otro. La idea subyacente es representar cada documento como un punto en un espacio, siendo la distancia en dicho espacio la similaridad: cuanto m´as cerca est´en dos puntos, mayor similaridad habr´a entre los documentos a los que representan. Ha sido ampliamente utilizado, siendo la medida de similaridad predilecta la del coseno, descrita a continuaci´on [7]:

Cap´ıtulo 2. Estado del Arte

sim(dj , q) =

57

d~j •~ q ~ |dj |×|~ q|

Pt

i=1 wi,j ×wi,q Pt 2 i=1 wi,j × i=1

= √ Pt

√

2 wi,j

donde d~j = (w1,j , w2,j , ..., wt,j ) representa el vector asociado a un documento y ~q = (w1,q , w2,q , ..., wt,q ) es el vector consulta. Esta t´ecnica ha trascendido al campo de la sem´antica con la siguiente idea: si disponemos de un conjunto de vectores compuestos por palabras relacionadas entre s´ı (dicho conjunto podr´ıamos obtenerlo, por ejemplo, a partir de un corpus), podr´ıamos medir la distancia de las palabras de una expresi´on a dicho vector usando distintas distancias de similaridad. En [118] los autores distinguen tres tipos de representaci´on seg´ un la matriz: la cl´asica matriz para los t´erminos en un documento, una matriz para representar el contexto o una tercera matriz llamada “pareja-patr´on” donde encontrar´ıamos parejas de conceptos relacionados en las filas y los patrones que representan en las columnas. De cara a la par´afrasis, los dos u ´ltimos tipos de matriz son los m´as relevantes, siendo u ´til la primera para la detecci´on de la similaridad atribucional (la que puede existir por ejemplo entre t´erminos como lobo y perro) y la segunda para la similaridad relacional (es el caso de la pareja madera-carpintero); en el pr´oximo cap´ıtulo hablaremos m´as de este tema.

M´ etodos basados en similaridad superficial de cadenas de caracteres Otra manera de estudiar la relaci´on de par´afrasis pasa por analizar las palabras y buscar similaridad en su construcci´on m´as all´a del rol sem´antico o sint´actico que desempe˜ nen. M´as adelante, en el pr´oximo y u ´ltimo cap´ıtulo del Estado del Arte, abordaremos m´as profundamente una peque˜ na representaci´on de las distintas medidas de similaridad existentes entre cadenas de caracteres.

M´ etodos basados en similaridad sint´ actica Una de las t´ecnicas m´as habituales es la representaci´on sint´actica de las expresiones a analizar, normalmente en forma de ´arbol, y el procesado de las mismas en busca de ciertos patrones en los nodos, arcos o subgrafos. Existen asimismo distintas distancias propias de las representaciones en forma de a´rbol de dependencias y de grafos que permiten un mejor an´alisis de dichas representaciones sint´acticas (como veremos en el pr´oximo cap´ıtulo).

Cap´ıtulo 2. Estado del Arte

58

Medidas basadas en representaciones simb´ olicas del significado Tambi´en puede ocurrir que en dos oraciones con absolutamente ninguna palabra en com´ un se d´e la par´afrasis. En estos casos se suele recurrir a recursos externos como el ya mencionado WordNet, que cuentan con sus propias medidas de similaridad y que permiten relacionar t´erminos cercanos aunque no se parezcan. Tambi´en pueden usarse las previamente expuestas relaciones sem´anticas para hallar puntos comunes entre una oraci´on y otra. Machine Learning y reglas Por u ´ltimo, existen tambi´en m´etodos tomados del Aprendizaje Autom´atico que han demostrado ser u ´tiles en el reconocimiento de la par´afrasis, como pueden ser por ejemplo el SVM (Support Vector Machine) y la combinaci´on de distintas t´ecnicas usadas para el entrenamiento, el aprendizaje y la clasificaci´on de los vectores. Otro formato muy extendido pero mucho m´as costoso a nivel de implementaci´on es el uso de reglas. Otra manera frecuente de organizar las t´ecnicas para el tratamiento de la par´afrasis es seg´ un el tipo de los datos: entre distintas traducciones, en un corpus monoling¨ ue o en corpus comparables. Una manera de entender la par´afrasis pasa precisamente por alinear corpus y ver c´omo se relacionan las distintas oraciones que a priori pueden expresar lo mismo. Adem´as, en un mismo sistema es habitual encontrar combinaciones de todas estas aproximaciones. 2.2.3.3.

Campos de aplicaci´ on

Al ser la par´afrasis un fen´omeno tan com´ un, han sido muchas las aplicaciones de procesamiento de lenguaje natural que han incorporado t´ecnicas para su tratamiento o han desarrollado versiones que “tocan” ligeramente este campo. A continuaci´on haremos un repaso de los principales campos de aplicaci´on, con los avances m´as recientes en el ´area, y tambi´en de los campos relacionados con el propio concepto de par´afrasis a nivel de procesamiento. Resumidores En el caso de los resumidores, por ejemplo, encontramos que un resumen es tambi´en una par´afrasis, y de manera muy similar procesar´a el lenguaje para adaptarlo. La idea principal es determinar lo m´as relevante y representativo de

Cap´ıtulo 2. Estado del Arte

59

un texto y reescribirlo de forma m´as concisa, pudiendo abordarse esta tarea desde un enfoque abstractivo (generando el resumen a partir de las ideas del texto) o extractivo (eliminando las partes no deseadas y tomando las relevantes). Seg´ un la tesis doctoral de Cheung, que gira en torno a los resumidores autom´aticos [19], este proceso se puede dividir en tres etapas principales: an´alisis/selecci´on de contenido, transformaci´on/refinamiento y s´ıntesis o realizaci´on. Aunque el aspecto sem´antico es importante en todas ellas, destaca especialmente en las dos primeras. Selecci´ on de contenido: En la fase de an´alisis se seleccionan las frases que contienen la informaci´on del texto y que por tanto aparecer´an (modificadas en mayor o menor medida) en la versi´on final del resumen; es por ello que la correcta detecci´on de par´afrasis ya existentes es primordial para evitar repetir informaci´on ya presente en otras frases seleccionadas, alargando as´ı innecesariamente el resumen o incluso dejando fuera otra informaci´on. Es lo que se denomina el sentence extraction. Transformaci´ on: Una vez se tienen las frases m´as representativas es el momento de comprimirlas lo m´aximo posible (sentence compression), lo que puede suponer de hecho una par´afrasis de la frase original. De cara a las distintas t´ecnicas, un buen estado del arte de resumidores autom´aticos atendiendo a los distintos niveles del procesamiento es el elaborado por Lloret en [61], que incluye adem´as una extensa comparativa de algunos sistemas concretos. Si nos centramos en cambio en posibles contextos del resumen a realizar (resumen de emails, de art´ıculos, basados en queries o de webs), podemos encontrar un survey bastante completo de las distintas t´ecnicas en [87], as´ı como un an´alisis de las principales t´ecnicas de Aprendizaje Autom´atico aplicadas a los resumidores. Destacamos entre las t´ecnicas de res´ umenes autom´aticos las basadas en grafos, donde cada nodo representa una frase y las relaciones entre ellas, representadas por las aristas de distintas maneras seg´ un el algoritmo, sirven para decidir su importancia en el global del texto; un ejemplo reciente puede ser el propuesto en [5]. Algunos de los algoritmos m´as utilizados en este enfoque son TextRank [76] y LexRank [31], m´etodos que sigues una idea similar a PageRank donde se decide la importancia de una frase en base a una cierta noci´on de centralidad y “votaci´on democr´atica” entre los nodos. Existen tambi´en propuestas de t´ecnicas

Cap´ıtulo 2. Estado del Arte

60

de res´ umenes basados en representaciones con grafos UNL (ver [69], [90], [106]) que aprovechan las caracter´ısticas de dicho sistema de representaci´on, tales como las relaciones sem´anticas o los atributos, y proponen una serie de reglas propias para el proceso de resumen. 2.2.3.4.

Consultas expandidas, Q/A y Extracci´ on de Informaci´ on

Dado que los sistemas de extracci´on de informaci´on a menudo usan patrones para localizar la informaci´on pertinente, una buena forma de definir dichos patrones es el uso de patrones de par´afrasis con respecto a una expresi´on est´andar. Lo mismo ocurre en los sistemas de pregunta/respuesta, donde la par´afrasis a partir de la consulta del usuario (consulta expandida) es una etapa indispensable en la correcta localizaci´on de la informaci´on y en la elaboraci´on de la respuesta, como podemos ver en el proceso propuesto en [132]. Un recurso ampliamente utilizado desde los comienzos de la disciplina de la expansi´on de queries es WordNet, como podemos ver en [127], [132] y [133]; en esta u ´ltima publicaci´on encontramos adem´as el concepto de “reducci´on de query”, donde la par´afrasis tambi´en juega un papel importante a la hora de cambiar o eliminar de la consulta las partes que o bien dificultan la obtenci´on de la respuesta o bien repiten informaci´on. Para un Estado del Arte reciente y m´as profundo en distintas t´ecnicas para la expansi´on de consultas, se puede consultar [18], mientras que la evoluci´on del uso de par´afrasis para este fin a trav´es de distintas aplicaciones se desarrolla en [63]. En el ´ambito de UNL, en [17] y [15] se describen frameworks completos para sistemas de recuperaci´on de informaci´on basados en representaci´on UNL 2.2.3.5.

Generaci´ on de Lenguaje Natural y Traducci´ on Autom´ atica

Obviamente, la Generaci´on de Lenguaje Natural es un campo en el que la par´afrasis (y muy especialmente su generaci´on) va a enriquecer notablemente la producci´on de texto, evitando repeticiones y posibilitando adaptar un mismo contenido a distintos niveles, estilos y contextos (simplificando, por ejemplo, textos para estudiantes o art´ıculos t´ecnicos para un p´ ublico m´as general). Esto evidentemente tendr´a aplicaci´on tambi´en en el ´ambito de la Traducci´on Autom´atica, tanto a la hora de generar la traducci´on como en el momento de evaluar si una traducci´on es correcta en comparaci´on con traducciones de referencia realizadas por humanos. Es u ´til adem´as si disponiendo, por ejemplo, de

Cap´ıtulo 2. Estado del Arte

61

un corpus biling¨ ue, el sistema no encuentra informaci´on sobre la frase concreta a traducir. En este caso, disponer de un sistema de reconocimiento de par´afrasis en la lengua de partida podr´ıa ayudarnos a localizar posibles candidatas en el corpus de salida. Otros usos Al margen de los principales campos de aplicaci´on previamente citados, existen multitud de aplicaciones en las que el procesamiento de la par´afrasis puede aportar grandes avances. Algunos ejemplos son la correcci´on de respuestas de estudiante en base a respuestas correctas est´andar (ya que pueden ser correctas aun estando escritas de manera distinta), la expansi´on de recursos anotados manualmente por humanos de cara a evaluaci´on o la detecci´on de plagio ([6], [63]). Existen adem´as niveles incluso m´as profundos de par´afrasis/entailment que analizar, como por ejemplo el uso de met´aforas [80], donde la relaci´on sem´antica puede ser a´ un m´as dif´ıcil de establecer. Cabe destacar que el propio UNL ha sido usado en ocasiones (y en combinaci´on con otros recursos) como reconocedor de par´afrasis y textual entailment (ver [89]).

2.2.3.6.

Recursos

Existen numerosos workshops (ver [6], [68]) y recursos disponibles como WordNet y FrameNet (para una lista m´as completa consultar [68]) utilizados frecuentemente en el an´alisis de la par´afrasis. Tambi´en hay publicadas multitud de m´etricas y algoritmos52 tanto para la par´afrasis como para la Traducci´on Autom´atica que suelen usarse para filtrar o validar la existencia de par´afrasis entre dos frases candidatas (ver [64]). Para la evaluaci´on existen numerosos corpus, entre los cuales destacamos para el ingl´es el Microsoft Research Paraphrase Corpus53 (MRPC), paraphrase.org54 52

http://www.aclweb.org/aclwiki/index.php?title=Paraphrase_Identification_ (State_of_the_art) 53 Descargable en: http://research.microsoft.com/en-us/downloads/ 607D14D9-20CD-47E3-85BC-A2F65CD28042/default.aspx 54 Las par´ afrasis inglesas se pueden descargar en: http://paraphrase.org/, pero otras, como las espa˜ nolas, no est´ an disponibles.

Cap´ıtulo 2. Estado del Arte

62

o el corpus PAN55 para evitar el plagio. Existen adem´as numerosas versiones extra´ıdas de dichos corpus (por ejemplo la creada por la Universidad de Barcelona a partir de este u ´ltimo 56 ) y otros tantos recursos para idiomas diferentes del ingl´es. No obstante, cabe destacar que estos repositorios suelen preprocesarse antes de ser utilizados, pues dado que cada investigador mantiene su propia definici´on y tipolog´ıa de par´afrasis, habitualmente es necesario cribar los repositorios para seleccionar qu´e casos se ajustan a su definici´on o a sus objetivos y limitaciones y cu´ales no. 2.2.3.7.

Otras consideraciones

Antes de finalizar el cap´ıtulo sobre la par´afrasis es necesario matizar ciertos aspectos sobre este fen´omeno: La par´afrasis es un fen´omeno en muchas ocasiones subjetivo: en la creaci´on y evaluaci´on de los corpus, muchos de los evaluadores humanos no est´an a menudo de acuerdo sobre la presencia de la par´afrasis. La presencia de la par´afrasis no es habitualmente clara, y por tanto no se puede ver como algo binario: la aproximaci´on m´as habitual consiste en dar una probabilidad a la presencia de la par´afrasis y considerar su existencia cuando dicha probabilidad sobrepasa un determinado umbral. Como ya hemos comentado, la par´afrasis no s´olo es tan solo una forma diferente de escribir una oraci´on: en ocasiones aporta informaci´on extra que en caso de expresarse de otra manera no hubiese reflejado: contexto, puntos de vista, riqueza l´exica, ´enfasis en un una parte determinada de la frase... es dif´ıcil definir en qu´e momento se puede considerar una par´afrasis sin perder esta informaci´on, depender´a en gran medida del contexto de la frase.

55

Descargable en: http://www.uni-weimar.de/en/media/chairs/webis/corpora/ corpus-pan-pc-10/ 56 http://intime.dlsi.ua.es/textmess20/content/corpus-p4p-paraphrase-plagiarism

Cap´ıtulo 2. Estado del Arte

2.3.

Similaridad

2.3.1.

Introducci´ on

63

En la secci´on anterior hemos hablado los conceptos de similaridad y distancia, mencionando de que no existe una medida est´andar a la hora de definir la cercan´ıa sem´antica entre elementos l´exicos, ya sea a nivel de t´erminos o de oraciones. En esta secci´on intentaremos ver los esfuerzos que se han hecho en este sentido tanto en cuanto a medidas de similitud est´andar en los distintos niveles del texto (de palabra, sint´actico y sem´antico) como en la representaci´on en forma de grafo, el modelo m´as parecido al que sigue UNL.

2.3.2.

Nivel de palabra

Dado que muchas de las medidas de similitud sint´acticas y sem´anticas se centran casi exclusivamente en el an´alisis de verbos y nombres, la combinaci´on de dichas medidas con un an´alisis a nivel de las palabras que componen el texto puede mejorar notablemente el desempe˜ no de un sistema de par´afrasis. Dividiremos este apartado en m´etricas y distancias entre cadenas de caracteres (que nos ayudan a encontrar por ejemplo palabras con distinta categor´ıa gramatical pero misma familia l´exica, como hablar y habladur´ıa) y m´etricas a nivel de evaluaci´on de Traducci´on Autom´atica, que han sido ampliamente usadas en distintos sistemas de par´afrasis para verificar la existencia de las mismas. 2.3.2.1.

Cadenas de caracteres

De cara a la exposici´on de los distintos m´etodos revisados en lo relativo a la comparaci´on de cadenas de caracteres, seguiremos la organizaci´on propuesta por Naumann en [85] (puede verse dicha organizaci´on en la representaci´on gr´afica de la Figura 2.14). Basadas en edici´ on Distancia de Hamming En inform´atica, una de las distancias cl´asicas m´as usadas es la Distancia de Hamming, pensada para permitir la detecci´on y correcci´on de errores en transmisiones de cadenas binarias pero aplicable a cadenas de

Cap´ıtulo 2. Estado del Arte

64

Figura 2.14: Organizaci´on de medidas de similaridad para caracteres propuesta en [85]. caracteres. B´asicamente, mide los d´ıgitos diferentes entre dos cadenas de la misma longitud; planteada originalmente en [41], encontramos la siguiente definici´on formal en [101]: Pmin{|a|,|b|} simH (a, b) =

id(ai , bi ) max {|a| , |b|}

i=1

donde la funci´on id(a, b) devuelve 1 en caso de coincidir los n´ umeros y 0 en caso contrario. Aunque la versi´on original cl´asica s´olo compara elementos en la misma posici´on, es posible abarcar las coincidencias en ventanas de distinto tama˜ no (para m´as informaci´on, ver [101]).

Distancia de Levenshtein Tambi´en denominada “edit distance” o “distancia de edici´on”, comporta el n´ umero de operaciones (inserci´on, eliminaci´on o sustituci´on de un car´acter) necesarias para transformar una cadena de caracteres en otra. Como veremos m´as adelante, en la secci´on de Nivel Sint´actico, este concepto de similaridad se ha extendido a representaciones distintas de las cadenas de caracteres, tales como los grafos y los a´rboles, pudiendo a˜ nadirse otras opera-

Cap´ıtulo 2. Estado del Arte

65

ciones dependientes del contexto de la comparaci´on. Una posible formulaci´on y la correspondiente funci´on de similitud derivada las encontramos recopiladas en [101] en la siguiente formulaci´on: distL (a, b) =

min {n : b = op1 ◦ · · · ◦ opn (a)} max {|a| , |b|}

simL (a, b) = 1 − distL (a, b) Otras medidas de edici´on relacionadas57 son la de Damerau-Levenshtein (que permite la transposici´on de caracteres adyacentes), la LCS (Longest Common Subsequence, o Cadena Com´ un de Mayor Longitud, que no permite la sustituci´on) o la ya mencionada distancia de Hamming, que s´olo permite la sustituci´on y act´ ua exclusivamente sobre cadenas de la misma longitud. Distancias de Jaro y Jaro-Winkler Otra distancia es la planteada por Jaro en 198958 , de la siguiente forma: ( distJaro =

0 1 m(a,b) ( |a| 3

+

m(a,b) |b|

+

m(a,b)−t(a,b) ) m(a,b)

si m(a, b) = 0 sino

donde m(a, b) simboliza las coincidencias y t(a, b) el n´ umero de transposiciones presentes entre dos cadenas. En algunas versiones se a˜ naden pesos a cada uno de los tres componentes de la suma (ver [128]). Posteriormente fue adaptada por Winkler en [128], dando lugar a la distancia de Jaro-Winkler, que tiene en cuenta una determinada longitud de prefijo l (de m´aximo 4 caracteres) y un factor de escalado constante p (que normalmente toma 0,1 como valor est´andar): distJW = distJaro + (l · p(1 − distJaro )) Basadas en tokens Similaridad del coseno Una funci´on del a´mbito matem´atico ampliamente usada en el contexto de la Ling¨ u´ıstica es la funci´on de similaridad del coseno, empleada en algoritmos como TF-IDF: 57 58

https://en.wikipedia.org/wiki/Levenshtein_distance https://en.wikipedia.org/wiki/Jaro%E2%80%93Winkler_distance

Cap´ıtulo 2. Estado del Arte

66

Pn ai b i a·b pPn simcos (a, b) = cos(θ) = = pPn i=1 2 2 kak kbk i=1 ai i=1 bi Para que entre en el rango est´andar (0, 1), se suele adaptar de la siguiente forma: simcosV 2 (a, b) = 1 −

arccos(simcos (a, b)) π

Q-gramas y N-gramas Los N-gramas son subsecuencias de N elementos de una secuencia dada (en el caso de palabras, estos elementos son los caracteres y suelen denominarse q-gramas, aunque la distinci´on entre q-gramas y n-gramas no est´a estandarizada; en caso de oraciones, ser´an los elementos ser´an cada una de las palabras que la componen).

Coeficiente de Jaccard Planteado en 1901 y v´alido para la comparaci´on de dos conjuntos cualesquiera, el coeficiente o ´ındice de Jaccard se puede aplicar tambi´en a la medida de similaridad entre cadenas de caracteres; es una comparaci´on entre la uni´on y la intersecci´on de dos conjuntos: simJac (a, b) =

|a| ∩ |b| |a| ∪ |b|

Coeficiente de Dice Otra medida de conjuntos bastante similar a la de Jaccard y con diversas aplicaciones (como veremos posteriormente en las medidas de comparaci´on de Grafos Conceptuales), el llamado coeficiente de Dice tiene la siguiente formulaci´on: simDice (a, b) = 2

|a ∩ b| |a| + |b|

En ocasiones se considera que el numerador |a ∩ b| es una medida en s´ı misma, llamada el Matching Coefficient. Entre las medidas derivadas de los coeficientes de Dice y Jaccard encontramos el denominado Overlap Coefficiente (o coeficiente de solapamiento), con la siguiente forma: cOverlap (a, b) =

|a ∩ b| min(|a| , |b|)

Cap´ıtulo 2. Estado del Arte

67

Otras medidas Funci´ on de Tversky Uno de los an´alisis m´as profundos realizados acerca del concepto de similaridad desde distintos puntos de vista es sin duda el realizado por Amos Tversky (ver [119]). De dicho estudio deriva la llamada funci´on de similaridad de Tversky, donde se da libertad a la hora de elegir la importancia de los elementos no comunes en funci´on de unos pesos w1 y w2 : simT v (a, b) =

|a ∩ b| |a ∩ b| + w1 |a − b| + w2 |b − a|0

Distancias Manhattan y Euclidea La distancia de Manhattan (tambi´en denominada “City Block Distance” o “Takicab”59 ), desarrollada por Hermann Minkowski, se usa habitualmente para vectores, pero puede aplicarse tambi´en a la comparaci´on de cadenas de caracteres, al igual que la Euclidea (la distancia usada por defecto en todos los campos). Se basa en la suma de las proyecciones de un segmento en el espacio que recorre y tiene la siguiente forma: dM (a, b) =

n X

|ai − bi |

i=1

v u n uX dE (a, b) = t (ai − bi )2 i=1

donde ai y bi con suelen representar el n´ umero de apariciones de una palabra (o un car´acter) concreta. Otras distancias usadas habitualmente en la comparaci´on de vectores en el entorno matem´atico se pueden adaptar igualmente a este contexto (por ejemplo, las distancias de Chebyshev, Mahalanobis...). Dependientes del dominio A la hora de comparar cadenas m´as concretas, como fechas, divisas, entidades o lugares, suelen usarse reglas concretas de transformaci´on y similaridad o ayudarse de una base de conocimiento, software implementado para tal fin (como el reconocedor de Stanford60 ) o usar b´ usquedas y URIs. Un estado del arte sobre c´omo reconocer estos casos se puede encontrar en [84]. 59 60

https://en.wikipedia.org/wiki/Taxicab_geometry http://nlp.stanford.edu/ner/

Cap´ıtulo 2. Estado del Arte

68

Otras medidas Otras medidas y algoritmos de diversas a´reas tambi´en aplicables a la comparaci´on de cadenas de caracteres y no revisadas previamente son los algoritmos de Needleman–Wunsch61 (usado principalmente en bioinform´atica para comparaci´on de secuencias biol´ogicas) y Smith-Waterman62 (posteriormente mejorado por diversos autores, como Gotoh, Monger y Elkan o Atshchul y Erickson). Para una recopilaci´on m´as extensa de medidas de comparaci´on entre conjuntos y colecciones, se puede consultar [101]. A la hora de reconocer entidades, un planteamiento particularmente interesante pero alejado de los vistos previamente es Soundex63 , un algoritmo que indexa nombres por su sonido, referenci´andolos a representaciones est´andar u ´nicas (una suerte de interlingua num´erica) que sigue una idea similar a la de las URIs en las bases de conocimiento y la Web Sem´antica.

2.3.2.2.

M´ etodos de evaluaci´ on de Traducci´ on Autom´ atica

Otra forma est´andar de evaluar la existencia de par´afrasis entre dos textos es el uso de m´etodos de evaluaci´on propios de la Traducci´on Autom´atica, ya que estos sirven precisamente para intentar verificar que dos textos dicen lo mismo. A continuaci´on se exponen brevemente algunas de las m´etricas m´as usadas y conocidas (para m´as informaci´on sobre el tema, se recomienda consultar [34]). BLEU BLEU (BiLingual Evaluation Understudy) es sin duda la medida usada por excelencia a la hora de identificar la par´afrasis [93]. Se puede interpretar como la media geom´etrica de la precisi´on de los n-gramas, ya que va considerando n-gramas con distintos valores de n: # N X 1 × log(pn ) = BP × exp N n=1 "

evalBLEU

donde BP simboliza la penalizaci´on de brevedad (Brevity Penalty), que penaliza si la traducci´on es m´as corta que el texto de referencia (en el caso de la par´afrasis suele tomar 1 como valor, puesto que la diferencia de longitud no es indicativo de 61 62 63

https://en.wikipedia.org/wiki/Needleman%E2%80%93Wunsch_algorithm https://en.wikipedia.org/wiki/Smith%E2%80%93Waterman_algorithm https://es.wikipedia.org/wiki/Soundex

Cap´ıtulo 2. Estado del Arte

69

presencia o ausencia de la misma) y pn es la precisi´on de los n-gramas, dada por: P P counte (n − gramas) i=1,...,I Pn−gramas∈si pn = P i=1,...,I n−gramas∈si count(n − gramas) donde a su vez count(n − grama) es la cantidad de n-gramas en los dos textos (referente, ri , y evaluado, si ) y counte (n − gramas) considera la presencia s´olo en el texto a evaluar. NIST Existen numerosas m´etricas derivadas de BLEU, como por ejemplo NIST64 , que est´a basada en la informaci´on aportada por los distintos n-gramas y tiene la siguiente forma: evalN IST =

N X

P BP ×

inf o(n − gram) cant(n − gramas)

∀ n−gram co−occur

n=1

donde la informaci´on viene dada por: inf o(n − gram) = log2

cant((n − 1) − gramas) cant(n − gramas)

METEOR METEOR (Metric for Evaluation of Translation with Explicit ORdering) es una extensi´on de BLEU definida como sigue [25]: evalM ET EOR = Fmean · (1 − pen) donde la penalizaci´on (pen) se obtiene dividiendo en n´ umero de chuncks (ch) entre las correspondencias (matches, m) entre los textos y modificando por una serie de par´ametros ajustables γ, β: pen = γ · (

ch β ) m

METEOR intenta paliar algunos de los problemas presentes en BLEU y sus 64

https://en.wikipedia.org/wiki/NIST_(metric)

Cap´ıtulo 2. Estado del Arte

70

derivados [8], tales como la falta de recall, de mapeo entre palabras o el uso de n-gramas de un orden mayor

WER

WER (Word Error Rate) es una medida del n´ umero de operaciones de edici´on requeridas para transformar una palabra en otra. Sigue la idea de la distancia de Levenshtein vista en el apartado anterior, usando las mismas operaciones de inserci´on (I(si , ri )), eliminaci´on (D(si , ri )) y sustituci´on ((S(si , ri )): evalW ER =

I(si , ri ) + D(si , ri ) + S(si , ri ) |ri |

a partir de WER se han creado versiones alternativas, como la de Hunt, que propon´ıa dar menos peso a las eliminaciones y las inserciones65 .

TER

Otra m´etrica similar a WER es TER (Translation Edit Rate) [107], que consiste en dividir el n´ umero de ediciones (incluyendo operaciones como el desplazamiento de palabras) entre la media de palabras de referencia: evalT ER =

cant(edits) media(cant(ri ))

PER

PER (Position-independent word Error Rate) sigue la idea de WER pero sin tener en cuenta el orden de las palabras (es decir, que trata las oraciones como meras bolsas de palabras), considerando las que est´an en uno de los textos pero no en el otro (dif (a, b)): evalP ER (si , ri ) =

65

max[dif (si , ri ), dif (ri , si )] |ri |

https://en.wikipedia.org/wiki/Word_error_rate

Cap´ıtulo 2. Estado del Arte

71

Otras medidas Otras posibles medidas son SSER (Subjective Sentence Error Rate), la Fmeasure (usada en multitud de aplicaciones del Procesamiento del Lenguaje Natural), CDer (basada en movimientos de bloques) y LEPOR. Existen adem´as diversos paquetes de medidas, como ROUGE (Recall-Oriented Understudy for Gisting Evaluation), un conjunto que engloba e implementa algunas de las ya vistas.

2.3.3.

Nivel sint´ actico

Aunque la par´afrasis y el textual entailment suelen considerarse desde un punto de vista puramente sem´antico, Vanderwende y Dolan demostraron en [123] que con un an´alisis sint´actico y la ayuda de un recurso externo (en su caso, un tesauro) se pueden testar exitosamente el 48 % de los casos de textual entailment (sin este recurso ling¨ u´ıstico el porcentaje bajar´ıa al 34 %). Un an´alisis combinado a nivel sem´antico y sint´actico puede, adem´as, ayudar a solventar problemas que se dan al usar tan s´olo sem´antica o correspondencia entre cadenas de caracteres, como puede ser el siguiente caso (extra´ıdo de [68]): El Instituto Nacional de Psicolog´ıa de Israel se cre´o en 1979. Israel se cre´o en 1979. Aun as´ı, la mayor´ıa de m´etodos se enfocan a la similitud sem´antica, como veremos en la secci´on inmediatamente posterior a esta. En el a´mbito sint´actico, la mayor´ıa de t´ecnicas act´ uan sobre dos tipos de representaci´on (´arboles y grafos), que veremos con mayor detalle. No obstante, cabe mencionar algunas aproximaciones que no siguen esa idea, como los an´alisis sint´acticos propuestos en [89] o [55], donde simplemente se basan un etiquetado POS o en la b´ usqueda de similitud en “porciones” de dependencias, como es el caso de [23]. 2.3.3.1.

´ Arboles

A nivel sint´actico, la similaridad entre oraciones se suele hacer usando a´rboles de dependencia como representaci´on (los llamados parse trees, ver por ejemplo la Figura 2.15). La manera m´as habitual de medir la similaridad entre dos ´arboles de dependencia pasa o bien por realizar un mapeo entre ambos a´rboles (como

Cap´ıtulo 2. Estado del Arte

72

Figura 2.15: Ejemplo a´rbol de dependencias y posible par´afrasis (fuente: [68]). es el caso de [44]) o bien por usar la llamada Tree Edit Distance (TED o Dis´ tancia de Edici´on de Arboles), que expresa el n´ umero m´ınimo de operaciones o cambios que habr´ıa que hacer entre un a´rbol y otro para que quedasen iguales (siendo habitualmente estas operaciones de inserci´on, eliminaci´on o sustituci´on y teniendo distintos costes [52], pero pudiendo extenderse para el caso concreto de la par´afrasis a m´as, como proponen en [43]). Esta opci´on se ha extendido posteriormente (ver por ejemplo [2]), de manera que en vez de nodos se pueden estudiar el n´ umero de operaciones sobre sub´arboles completos de cara al textual entailment.

2.3.3.2.

Grafos

Otra opci´on menos habitual es representar las dependencias sint´acticas mediante grafos. En este caso, la opci´on mayoritaria es buscar el maximal common subsumer subgraph (MCSS), del que hablaremos m´as adelante en la secci´on relativa a la similaridad entre grafos (ver la Secci´on 2.3.4.4), en la que trataremos adem´as formas de similitud entre grafos no necesariamente ling¨ u´ısticos pero que

Cap´ıtulo 2. Estado del Arte

73

tambi´en pueden contribuir en dicho campo. En [92] encontramos una posible medida de similaridad orientada al textual entailment (pero aplicable a la par´afrasis) considerada precisamente sobre el MCSS. Desarrollan adem´as lo que denominan las “transformaciones invariantes del grafo”, que engloban una serie de fen´omenos en estructuras ling¨ u´ısticas comunes a la hora de reformular un enunciado: Nominalizaci´ on: casos como La ca´ıda de la Bolsa fue estrepitosa. y La Bolsa cay´o estrepitosamente. Pasivizaci´ on: como en Luis come patatas. y Las patatas son comidas por Luis. Negaci´ on: puede expresarse de distintas maneras; en el caso del espa˜ nol tenemos concretamente el caso de la doble negaci´on Jam´as voy al parque. y No voy jam´as al parque. Otros autores proponen medidas basadas en grafos que se apoyan tanto en la sem´antica como en la sintaxis. Considerando de nuevo las transformaciones grafales que pueden darse con fen´omenos ling¨ u´ısticos como los previamente planteados (nominalizaci´on y pasivizaci´on), en [91] usan esta aproximaci´on centr´andose en los “gobernadores” de cada parte de la frase, que pueden ser s´olo nombres o verbos.

2.3.4.

Nivel sem´ antico

En el nivel sem´antico encontramos distintas maneras de medir la similaridad. Por un lado tenemos la similaridad sem´antica entre conceptos, que podemos dividir en dos grandes grupos [75]: por un lado, las medidas basadas en corpus (donde encontramos medidas basadas en la co-ocurrencia de las palabras, como en el Latent Semantic Analysis) y por otro la basadas en conocimiento (donde la similaridad se mide de acuerdo a la informaci´on proporcionada por distintos sistemas de representaci´on del conocimiento, tales como redes sem´anticas); de cara al Estado del Arte nos centraremos principalmente en este u ´ltimo grupo, concretamente en las que actuan sobre redes sem´anticas (para medidas basadas en otras representaciones ling¨ u´ısticas, como diccionarios y tesauros, se pueden consultar [13] y [117]).

Cap´ıtulo 2. Estado del Arte

74

Encontramos por otro lado la similaridad entre textos, de la que hablaremos brevemente ya que, aunque est´a directamente relacionada con la par´afrasis, no existe tanta bibliograf´ıa disponible al respecto como en el caso de la similaridad sem´antica entre conceptos. Finalizaremos la secci´on con un repaso sobre la similaridad entre grafos, forma habitual de representar oraciones y textos tanto a nivel sint´actico como sem´antico. 2.3.4.1.

Co-ocurrencias o medidas basadas en corpus

Existen numerosas hip´otesis sobre c´omo la ubicaci´on de las palabras en un texto pueden ayudar a determinar (o al menos dar indicios acerca de) la relaci´on de similitud con las palabras de su entorno y con palabras que suelen aparecer de manera similar, como la ya comentada Hip´otesis Distribucional de Harris (ver 2.2.2.1). A continuaci´on exponemos brevemente otras hip´otesis relacionadas con esta idea tal y como aparecen en [118]: Hip´ otesis Sem´ antica Estad´ıstica (del ingl´es Statistical semantics hypothesis): patrones estad´ısticos de c´omo usan las palabras los seres humanos pueden usarse para descubrir qu´e quiere decir la gente (y esto puede estudiarse a partir de las frecuencias de aparici´on y ubicaci´on). Hip´ otesis Bag of Words: la frecuencia de palabras en un documento tienden a indicar la relevancia de dicho documento con respecto a una consulta. Hip´ otesis Distribucional Extendida: los patrones que ocurren con pares similares de conceptos tienden a tener significados similares. Hip´ otesis de Relaci´ on Latente (extensi´on de el LSA, o Latent Semantic Analysis): pares de palabras que tienden a darse en patrones similares tienden a tener relaci´on de similaridad sem´antica (ser´ıa justamente la idea inversa a la expresada en la Hip´otesis Distribucional Extendida). Estas hip´otesis son particularmente interesantes porque permiten descubrir situaciones de similaridad relacional, mientras que las medidas basadas en taxonom´ıas que veremos a continuaci´on suelen centrarse exclusivamente en relaciones atribucionales.

Cap´ıtulo 2. Estado del Arte

2.3.4.2.

75

Medidas taxon´ omicas para conceptos

En las medidas taxon´omicas en las que los arcos tienen determinados pesos (como por ejemplo WordNet), existen cuatro factores a tener en cuenta a la hora de asignar dichos pesos y medir las distancias [101]: 1. La densidad de la taxonom´ıa a nivel local: cu´antos m´as nodos haya en una secci´on de la taxonom´ıa, m´as cercanos ser´an los conceptos a los que representan. 2. La profundidad de la taxonom´ıa: relacionado con el concepto de granularidad, cuanto m´as profundicemos en la taxonom´ıa, m´as sutiles ser´an las diferencias entre los conceptos y m´as cercanos ser´an entre s´ı. 3. El tipo de relaci´ on: dependiendo de la taxonom´ıa en la que nos movamos, encontraremos distintas conexiones entre los nodos (relaciones is-a, hiperonimia/hiponimia, meronimia...), y cada una tendr´a sus propios baremos en lo respectivo al peso. 4. La fuerza de la conexi´ on entre dos nodos: la distancia de un padre a cada hijo no tiene porqu´e tener el mismo peso. Uno de los factores que se suele tener en cuenta en estos casos es el concepto de Contenido de Informaci´on (IC), que veremos m´as adelante y que se relaciona habitualmente con la frecuencia de aparici´on en un corpus. Basadas en el camino entre conceptos Como el propio nombre indica, la idea tras estas medidas radica en que la similaridad entre dos conceptos se puede entender como la longitud del camino (definida en base a los nodos o a los arcos) que une ambos conceptos y que depende tambi´en la posici´on de los mismos en la taxonom´ıa. Rada et al La idea m´as intuitiva es sin duda la introducida por Rada, Mili, Bicknell y Blettner en 1987, que consiste en usar exclusivamente relaciones is-a y en emplear como medida de similaridad la longitud del camino entre dos conceptos [94]. simRal (a, b) = dist(a, b)

Cap´ıtulo 2. Estado del Arte

76

Leacock y Chodorow Leacock y Chodorow [53] proponen como medida “obvia” (expresi´on textual) medir la distancia m´ınima entre dos t´erminos, normaliz´andola de alguna manera al tener en cuenta la profundidad m´axima de la taxonom´ıa en la que se est´a estudiando la similaridad (ellos la proponen para WordNet, pero podr´ıa aplicarse a otras). La funci´on de similaridad entre dos palabras a y b quedar´ıa por tanto como sigue: NP simLCh (a, b) = max −log 2·D Donde NP representa el n´ umero de nodos en un camino (el m´aximo implica que se elegir´a el camino m´ınimo) y D simboliza la profundidad de la taxonom´ıa en cuesti´on. Lesk En los a˜ nos ochenta, Lesk propuso un algoritmo66 capaz de desambiguar t´erminos partiendo de la informaci´on de un diccionario. De dicho algoritmo surgi´o la idea de que la similaridad entre dos conceptos se puede interpretar como una funci´on del solapamiento entre las definiciones de dichos conceptos [75]. Wu y Palmer Por su parte, Wu y Palmer propusieron en [130] una medida de similaridad conceptual en el marco de la traducci´on autom´atica entre ingl´es y chino (m´as concretamente, en la representaci´on sem´antica de los verbos), que puede expresarse como sigue: simW P (a, b) =

2 · dist(R, LCS(a, b)) 2 · D(LCS(a, b)) = dist(R, a) + dist(R, b) D(a) + D(b)

Donde dist(x, y) representa la distancia m´ınima entre dos nodos (en n´ umero de nodos), R simboliza el nodo ra´ız de la taxonom´ıa, D(x) es la profundidad (de nuevo, en n´ umero de nodos) y LCS es el Least Common Superconcept (el padre com´ un m´as cercano en la jerarqu´ıa) de los conceptos a y b. Sussna Sussna propuso en [116] una m´etrica basada en el peso de las aristas de la red, considerando que una arista equivale a dos relaciones inversas, y que cada tipo de relaci´on tendr´a su propio rango de peso w(a −→r b) ∈ [minr , maxr ]. Adem´as introduce la idea de “reescalado relativo a la profundidad” (depth-relative 66

https://en.wikipedia.org/wiki/Lesk_algorithm

Cap´ıtulo 2. Estado del Arte

77

scaling), que considera que dos conceptos hermanos a mayor profundidad en el a´rbol taxon´omico guardar´an mayor relaci´on sem´antica que conceptos hermanos presentes en la parte alta de la jerarqu´ıa. La funci´on de similitud queda de la siguiente manera: simS (a, b) =

w(a −→r b) + w(b −→r0 a) 2 · max(D(a), D(b))

con el c´alculo del peso efectuado de la siguiente manera: w(a −→r b) = maxr −

maxr − minr Nr (a)

siendo Nr (a) el n´ umero de relaciones del tipo r que salen del nodo a. Maedche y Zacharias Por u ´ltimo, destacamos la medida desarrollada por Maedche y Zacharias en [65] en el marco de la Web Sem´antica, donde se distinguen tres dimensiones a la hora de calcular la medida final: Similaridad taxon´ omica (T S(a, b)): basada en la posici´on de los conceptos dentro de la taxonom´ıa. Similaridad relacional (RS(a, b)): basada en la relaci´on de los conceptos con otros objetos. Similaridad atributiva (AS(a, b)): basada en los atributos de los conceptos y sus correspondientes valores. Cada una de estas funciones de similaridad tiene su propia definici´on (para el desglose completo, ver [65]), habitualmente basada en la media de la actuaci´on de ciertas funciones sobre cada una de las relaciones y los atributos asociados a los conceptos a comparar. Una vez se tiene esta informaci´on, se hace la media aritm´etica con cada una de las dimensiones, asignando pesos como se considere necesario en cada caso: simM Z (a, b) =

wT × T S(a, b) + wR × RS(a, b) + wA × AS(a, b) wT + wR + wA

Li, Bandar y McLean Por otro lado, Li, Bandar y McLean desarrollaron una m´etrica que considera tanto la densidad sem´antica como la distancia entre los conceptos:

Cap´ıtulo 2. Estado del Arte

78

simLBM (a, b) =

eλ·wsim(a,b) − e−λ·wsim(a,b) eλ·wsim(a,b) + e−λ·wsim(a,b)

con λ un par´ametro libre a determinar y wsim(a, b) siendo la m´axima similaridad (determinada por por el antecesor com´ un con mayor cantidad de informaci´on) entre los posibles significados que pueden tomar a y b.

Hirst y St-Onge Por u ´ltimo, una medida menos conocida pero tambi´en usada es la desarrollada por Hirst y St-Onge en [47], inicialmente pensada para un entorno m´edico pero adaptada a redes sem´anticas como WordNet. Distinguen entre tres tipos de posibles relaciones e imponen ciertas condiciones en los caminos a recorrer, dando lugar a la siguiente funci´on de asignaci´on de peso a la hora de calcular un camino: semHStO (a, b) = C − len(a, b) − k · cambiosd (a, b) Donde C y k son constantes a definir dependiendo del contexto, mientras que len(a, b) es la longitud del camino entre los conceptos y cambiosd (a, b) es el n´ umero de cambios de direcci´on en dicho camino. Basadas en el Contenido de Informaci´ on Asumen la existencia de cierta informaci´on adicional, habitualmente suministrada por un recurso externo tipo corpus.

Resnik Resnik por su parte propuso y evalu´o en [97] tres posibles funciones para taxonom´ıas con relaciones is-a; a continuaci´on reproducimos la m´as utilizada, con la que introdujo el concepto de Contenido de Informaci´on (IC, Information Content) entre dos conceptos: simR (a, b) = IC(LCS) donde IC(x) = −log2 P (x)

Cap´ıtulo 2. Estado del Arte

79

y la probabilidad P (x) viene dada por la frecuencia de aparici´on del concepto en un recurso (habitualmente, un corpus) determinado.

Lin Otra medida de similaridad es la propuesta por Lin en [57] y [58], donde expone que la similaridad entre dos conceptos se mide por el ratio entre la cantidad de informaci´on necesaria para determinar lo que tienen en com´ un (el antecesor com´ un m´as cercano) y la informaci´on necesaria para describir lo que son, quedando la funci´on: simLin (a, b) =

2 × I(F (a)) ∩ I(F (b)) logP (common(a, b)) = logP (describe(a, b)) I(F (a)) + I(F (b))

donde F simboliza lo que Lin denomina las caracter´ısticas (las relaciones independientes entre s´ı) y P (X) es la probabilidad de una de estas caracter´ısticas (basandose de nuevo en frecuencias de aparici´on). Esta medida fue posteriormente generaliza para ser usada en grafos en [66].

Jiang y Conrath En 1997, Jiang y Conrath proponen una m´etrica basada en la presentada anteriormente por Resnik y que a´ una el estudio de los nodos y de los arcos. Se considera una de las m´as precisas y ha sido objeto de numerosos estudios. A continuaci´on citamos s´olo la f´ormula definitiva; el desarrollo completo de dicha f´ormula se puede encontrar en [49]. simJC (a, b) =

1 IC(a) + IC(b) − 2 × IC(LCS(a, b))

En [74] encontramos una comparativa (Figura 2.16) sobre algunas de las medidas previamente expuestas. Para otras medidas y m´as informaci´on al respecto, se pueden consultar [13], [117] o [74]; en la primera se realiza una experimento en el que se determina que la medida de Jiang sobrepasa notablemente al resto de medidas.

2.3.4.3.

Medidas de similaridad para oraciones y textos

A la hora de comparar oraciones y textos, encontramos las aproximaciones expuestas a continuaci´on.

Cap´ıtulo 2. Estado del Arte

(2) parameter k needs to be adapted manually for good performance. If k=1, formula (20) is path-based; if k=0, formula (20) is IC-based measure. In the experiment in [21] k=0.5.

80

4. Comparison and Evaluation

Table1. Comparison of Different Semantic Similarity Measures

category Path based

Principle

function of path length linking the concepts and the position of the concepts in the taxonomy

measure

features

advantages

disadvantages

W&P

path length to subsumer, scaled by subsumer path to root count of edges between and log smoothing

simple

non-linear function of the shortest path and depth of lso IC of lso

simple

two pairs with the same lso and equal lengths of shortest path will have the same similarity two pairs with equal lengths of shortest path will have the same similarity

Shortest path

L&C

Li

IC based

Feature based

Hybrid method

The more common information two concepts share, the more similar the concepts are.

Resnik

Concepts with more common features and less noncommon features are more similar combine multiple information sources

count of edges between concepts

Lin

IC of lso and the compared concepts

Jiang

IC of lso and the compared concepts

Tversky

compare concepts' feature, such as their definitions or glosses

Zhou

combines IC and shortest path

simple

simple

two pairs with equal lengths of shortest path will have the same similarity

two pairs with the same lso and equal lengths of shortest path will have the same similarity simple two pairs with the same lso will have the same similarity take the IC of two pairs with the same compared summation of IC(c1) concepts into and IC(c2) will have the considerate same similarity take the IC of compared concepts into considerate

take concept's feature into considerate

well distinguished different concepts pairs

two pairs with the same summation of IC(c1) and IC(c2) will have the same similarity Computational

works well when there is not a complete features set.

parameter to be settled, turning is required. If turned well it bring deviation.

may

Figura 2.16: Comparativa de medidas de similaridad sem´antica. lso equivale en nuestra notaci´on a LCS (Least Common Superconcept), y representa el antecesor m´as cercano a ambos conceptos, el superconcepto m´as espec´ıfico; el camino m´as 9 corto (la primera medida) equivaldr´ıa asimismo al algoritmo de Rada et al (fuente: [74]).

Cap´ıtulo 2. Estado del Arte

81

Sem´ antica de las palabras Una propuesta directamente enfocada a la identificaci´on tanto de textual entailment como de par´afrasis la encontramos en [59], con la funci´on: sim(O1 , O2 ) =

1 X w1 ∈ O1 m´ax (simw (w1 , w2 )) w2 ∈O2 m

donde m es el n´ umero de palabras en la oraci´on 1 (O1 ) y simw es una m´etrica de similaridad entre palabras como las expuestas previamente. Por su parte, Corley y Milhacea plantean en [20] las nociones de especifidad y direccionalidad a la hora de medir la similaridad entre fragmentos de texto, dando lugar a la siguiente funci´on de similaridad direccional:

P simDir(O1 , O2 )O1 =

P pos( wk ∈ Sp os(maxSim(wk ) · IDFwk ) P wk ∈ TIpos IDFwk

donde maxSim(x) representa a la palabra de O2 con mayor similaridad a la tratada de O1 seg´ un una medida de similaridad entre conceptos como las ya revisadas, pos es la clase de palabra e IDF (Inverse Document Frequency) representa una m´etrica cl´asica sobre la frecuencia de las palabras en un documento (y que aporta una medida sobre la especifidad de las mismas). Para usar m´etrica direccional para medir la similaridad a nivel de par´afrasis, debemos usarla de manera bidireccional y sim´etrica, resultando: sim(O1 , O2 ) =

simDir(O1 , O2 )O1 + simDir(O1 , O2 )O2 2

Orden de las palabras Otra idea interesante es la planteada en [56], donde la similaridad entre dos oraciones se define como una combinaci´on de la similaridad sem´antica (Ss ) y la similaridad en el orden de las palabras (Sr ), quedando la f´ormula: sim(O1 , O2 ) = δSs + (1 − δ)Sr = δ

s1 · s2 ks1 k − ks2 k + (1 − δ) ks1 k · ks2 k ks1 k + ks2 k

Cap´ıtulo 2. Estado del Arte

82

donde δ ≤ 1 representa la importancia de la sem´antica frente a la sint´axis (el orden de las palabras); dado que normalmente la segunda queda subordinada a la primera, se recomienda elegir δ ∈ (0,5, 1]. sx representa una medida de similaridad (en la propuesta se usa una basada en informaci´on, pero podr´ıan usarse otras opciones) y rx es un vector que representa el orden de las palabras (por ejemplo, los vectores de “Luis come patatas.” y “Patatas come Luis.” ser´ıan (1, 2, 3) y (3, 2, 1), respectivamente). Diferencias Otra idea interesante es combinar la habitual perspectiva de buscar la similaridad entre frases con la de buscar diferencias entre ambas. Este es el planteamiento propuesto por Ho et al. en [48], donde la medida de similaridad viene dada por la similaridad sem´antica Sim(O1 , O2 ) y la distancia entre las oraciones Dist(O1 , O2 ): sim(O1 , O2 ) =

α × Sim(O1 , O2 ) α × Sim(O1 , O2 ) + β × Dist(O1 , O2 )

con α y β factores de suavizado. La distancia viene a su vez de la propuesta de buscar las diferencias entre palabras en textos cortos expuesta por Liu en [60]. Uso de Roles Sem´ anticos En caso de representar oraci´on a oraci´on, una posible medida de similaridad la encontramos en [104], donde Shen y Lapata utilizan los Roles Sem´anticos para realizar la divisi´on del grafo en subgrafos que comparan preguntas y sus posibles respuestas para luego sumar sus similaridades de cara al global de la oraci´on, como vemos en la siguiente f´ormula: simSubGs (SubG1 , SubG2 ) =

X ndSR 1 ∈SubG1 ndSR 2 ∈SubG2 SR ndSR 1 =nd2

|s (ndw , ndSR 1 )

1 − s (ndw , ndSR 2 )| + 1

SR donde ndSR anticamente conectados un nodo 1 y nd2 representan los nodos sem´ ndw parte de un frame en su correspondiente subgrafo (SubG1 o SubG2 , respecti vamente) y s ndw , ndSR es el peso de la arista que une dos nodos en su subgrafo. x Otra opci´on reciente que involucra los Roles Sem´anticos para alinear dos frases

Cap´ıtulo 2. Estado del Arte

83

candidatas a ser similares es TINE, la propuesta por R´ıos et al. en [98] y [99]; usan distintos recursos externos que ayudan tanto en la identificaci´on de los roles asociados a los verbos como en la identificaci´on de Entidades, otro punto clave a la hora de comparar dos oraciones. Para una revisi´on m´as completa de m´etodos cl´asicos de colecciones que tambi´en pueden usarse en oraciones, como el coeficiente de Jaccard, ver [101] o [1]. 2.3.4.4.

Similaridad entre grafos

Existen muchas posibilidad distintas a la hora de medir la similaridad entre grafos con atributos, destacando entre ellas la GED o Graph Edit Distance, similar a la previamente vista TED. Asimismo, dentro de GED existen diversas aproximaciones, como los algoritmos basados en SOM, los basados en kernel o en probabilidad y los basados en grafos y supergrafos. Por su frecuente aplicaci´on al campo de la similaridad sem´antica, nos centraremos s´olo en estos u ´ltimos; para m´as informaci´on en las otras aproximaciones, ver [37]. Conceptos previos Debemos comenzar por definir qu´e es exactamente un grafo. Un grafo [14] es una tripleta G = (V, α(x), β(x, y)) donde V representa los v´ertices del grafo, α(x) : V −→ L son las etiquetas de los nodos y β(x, y) : V × V −→ L las etiquetas de las aristas. Diremos que G1 = (V, α(x), β(x, y)) es supergrafo de G2 = (V 0 , α0 (x), β 0 (x, y)) (y G2 es por tanto subgrafo de G1 ) si se dan las siguientes condiciones: V0 ⊆V, α(x)0 = α(x)∀x ∈ V 0 , β 0 (x, y) = β(x, y)∀x, y ∈ V 0 × V 0 Asimismo, un isomorfismo se define como la relaci´on biyectiva f (x, y) : V −→ V entre dos grafos G1 = (V, α(x), β(x, y)) y G2 = (V 0 , α0 (x), β 0 (x, y)) tal que: 0

α(x) = α0 (f (x))∀x ∈ V , β(x, y) = β 0 (x, y)∀x, y ∈ V × V

Cap´ıtulo 2. Estado del Arte

84

Si para dos grafos existen dos subgrafos contenidos en ellos entre los cuales exista una funci´on de isomorfismo, estos subgrafos se consideran subgrafo com´ un; si no existe otro subgrafo com´ un con m´as nodos, se considerar´a el Subgrafo Com´ un M´aximo (en ingl´es, MCSS). Aunque muchos autores se basan en este MCSS, existe tambi´en se ha propuesto el concepto de Minimum Figura 2.17: Ejemplo de overlap en Grafos Conceptuales. Fuente: [82] Common Supergraph a la hora de plantear m´etricas de comparaci´on de grafos [33]. Por u ´ltimo, una distancia de edici´on entre grafos (GED) entre dos grafos es el coste m´ınimo de realizar las operaciones de inserci´on, eliminaci´on y sustituci´on sobre los arcos y/o los v´ertices para alcanzar la isomorf´ıa. Comparaci´ on de Grafos Conceptuales A la hora de comparar dos grafos conceptuales, la mayor´ıa de t´ecnicas se basan en el mapeo directo entre conceptos. Esto implica la siguiente terminolog´ıa, seg´ un [82] y [81]: Una serie de grafos son compatibles si existen mapeos entre ellos tales que dichas proyecciones no intersequen entre s´ı. Si dos grafos conceptuales son solapados (overlap) si son compatibles y maximales. Este concepto es fundamental a la hora de decidir la similaridad, ya que cada overlap (pueden darse varios) definir´a una similaridad distinta (los grafos pueden ser similares o no dependiendo tambi´en del punto de vista desde el que se enfoque). La idea intuitiva del solapamiento queda bien ilustrada en la Figura 2.17, tomada de [82]. La medida de similaridad usada por excelencia en Grafos Conceptuales es la adaptaci´on del ya mencionado coeficiente de Dice, que seg´ un lo propuesto por Montes-y-G´omez et al. en [81] permite la distinci´on entre distintos tipos de conceptos (dando distintos pesos w(c) a casos concretos, como entidades, atributos, acciones...) y tiene la siguiente forma en su aplicaci´on a Grafos Conceptuales:

Cap´ıtulo 2. Estado del Arte

85

P simDice = 2 ·

× β(πG1 (c), πG2 (c))) P c∈G2 w(c) c∈G1 w(c) +

c∈∪O (w(c)

P

S donde O representa el conjunto de los nodos y arcos de los grafos de un overlap entre G1 y G2 , πGx (c) representa el concepto involucrado en el mapeo en cada uno de los Grafos conceptuales y β(πG1 (c), πG2 (c)) denota por tanto la relaci´on de similaridad entre los conceptos mapeados. En base a esta definici´on, los autores de [81] desarrollaron su propia definici´on de la similaridad relacional, expresada como sigue: P

simrel = 2 · P

wO (r) P r∈NO (G1 ) wG1 (r) + r∈NO (G2 ) wG2 (r) r∈O

donde NO (Gx ) es el conjunto de las relaciones conectadas al grafo com´ un en (Gx ) y la importancia de una relaci´on viene dada por su peso wO (r), calculado en funci´on de los vecinos para normalizar. A continuaci´on se combinan ambas similaridades (conceptual de Dice y relacional), originando la siguiente funci´on de similaridad: simCG = simDice × (a + b × simrel ) donde cabe rese˜ nar que a + b = 1 (los valores concretos depender´an de qu´e aspecto, conceptual o relacional, se desee enfatizar en mayor medida) y que el hecho de no existir similaridad relacional no implica necesariamente que la similaridad global sea 0. Otro planeamiento interesante es el posteriormente realizado por Zhong en [131], donde distingue tambi´en los niveles de similaridad relacional (simr ) y conceptual (simc ) a la hora de comparar los conceptos entrada de cada subgrafo; concretamente, en la formulaci´on original se comparan queries y recursos, pero es aplicable a Grafos Conceptuales gen´ericos. La definici´on es recursiva (el concepto en el subgrafo asociado con la relaci´on ser´a la entrada del siguiente subgrafo a comparar, y as´ı sucesivamente) y se puede enunciar como sigue: simCG = w(c1 , c) · simc (c1 , c2 ) P rr rr i h G1 G2 j j + max∀comb w(c , j) · r , r · sim 1 r CG cG1 , cG2 G1 G2 j

Cap´ıtulo 2. Estado del Arte

86

debiendo cumplirse w(c1 , c) +

X

w(c1 , j) = 1

j

donde w(c1 , c) representa el peso de la entrada y w(c1 , j) es el peso de la i-´esima relaci´on asociada a la entrada. Por u ´ltimo, destacamos una de las primeras medidas de comparaci´on de Grafos Conceptuales: la planteada por Maher en [67], que considera en un primer momento la similaridad local entre conceptos para luego extenderla al total del Grafo Conceptual. La medida toma en consideraci´on factores como el n´ umero de nodos o los referentes de la oraci´on. Otras opciones pasan por la b´ usqueda directa de patrones en dominios concretos [4], el uso de algoritmos gen´ericos para hallar dichos patrones o incluso usar la informaci´on mutua; para m´as informaci´on sobre estas aproximaciones, se puede consultar [36]. Un ejemplo de por qu´e estas medidas no pueden usarse per se en el caso de la identificaci´on de la par´afrasis la encontramos en [81], donde la m´etrica de similaridad de las frases toma valores muy altos pese a no expresar los mismo (pero usar la misma estructura y las mismas palabras): las frases Bush critica a Gore y Gore critica a Bush obtienen similaridades de entre el 0,84 y el 0,9 (dependiendo de los par´ametros a y b). No obstante, la introducci´on de ciertas modificaciones en combinaci´on con la idea del overlap puede dar lugar a resultados mejores.

2.4.

Conclusiones

A partir del Estado del Arte expuesto previamente podemos concluir que queda a´ un mucho trabajo por hacer en el a´mbito de la par´afrasis, ya que los enfoques actuales son claramente insuficientes tanto a nivel de representaci´on como de determinaci´on de la similaridad y de detecci´on la propia par´afrasis, limit´andose en la mayor´ıa de los casos a la detecci´on de una similaridad puramente sem´antica, tem´atica, sin ahondar en ning´ un momento en el verdadero contenido del texto. A continuaci´on se exponen de manera concisa algunos de los problemas que se han detectado en los modelos planteados hasta ahora, derivados del estudio de la secci´on anterior.

Cap´ıtulo 2. Estado del Arte

87

Uno de los problemas m´as evidentes es la brecha existente entre los modelos ling¨ u´ısticos y los computacionales; mientras que los primeros son dif´ıciles de llevar a la pr´actica y en la mayor´ıa de casos s´olo sirven como referencia meramente te´orica, los segundos presentan evidentes carencias a nivel de representaci´on y de concepto, consistiendo en muchas ocasiones en repositorios de par´afrasis est´aticos. Los sistemas basados en estos repositorios son habitualmente incapaces de detectar las nuevas formas de expresar contenido que surgen inevitablemente con la evoluci´on del lenguaje y con los cambios de registro que encontramos en las diferentes lenguas, culturas y a´mbitos sociales, adem´as de funcionar exclusivamente para un u ´nico idioma. Otro factor relevante ser´a la representaci´on, pues la que elijamos para los textos tambi´en jugar´a un papel fundamental, dado que los modelos de detecci´on y gesti´on de la par´afrasis suelen actuar sobre sistemas de representaci´on concretos (habitualmente, a´rboles). Respecto a los grafos, aunque existen ideas interesantes a nivel de similaridad (como el comentado overlap o la divisi´on en subgrafos), la detecci´on de la par´afrasis no es a´ un efectiva en este tipo de representaci´on.; si nos centramos concretamente en el uso de grafos UNL para la representaci´on, destacar´ıa como camino a seguir la propuesta de Zhong sobre las entradas de los subgrafos y su tratamiento recursivo (adem´as de la idea de la similaridad relacional y conceptual), pero tampoco resultar´ıa suficiente por s´ı misma para el tratamiento de la par´afrasis. Otro problema viene dado por el propio contexto en el que se desarrolla la situaci´on descrita por un texto, que va a influir de manera determinante en la propia definici´on de la similaridad, tanto sem´antica como en lo concerniente a la correcta identificaci´on de los marcos; esto se refleja tambi´en a la hora de verificar el funcionamiento del modelo, dado que las pruebas y la validaci´on suelen necesitar en alg´ un momento de supervisi´on directa de una o varias personas (recordemos que la par´afrasis no deja de ser un fen´omeno subjetivo, dif´ıcil de decretar incluso para seres humanos e incurriendo en muchas ocasiones en desacuerdos al respecto). Existen tambi´en, como ya hemos visto previamente, bater´ıas y corpus de par´afrasis, pero dadas la ambig¨ uedad y el vasto rango de situaciones (y sus respectivas posibles par´afrasis), estos recursos no est´an en posici´on de asegurar ni desestimar realmente ning´ un modelo.

Cap´ıtulo 3 Definici´ on del Trabajo 3.1.

Introducci´ on y motivaci´ on

Para cubrir, paliar y dar soluci´on y respuesta a algunos de los problemas expuestos en las conclusiones del Estado del Arte, en esta tesis presentaremos un modelo de detecci´on de la par´afrasis basado en el sistema de representaci´on UNL, que nos ofrece una representaci´on interlingual y sin ambig¨ uedad. En el plano te´orico, se han desarrollado tambi´en una serie de hip´otesis ling¨ u´ısticas centradas en el propio modelo, al tiempo que se han definido distintas t´ecnicas de similaridad sem´antica y un algoritmo de comparaci´on de grafos. Una de las conclusiones principales que obtenemos de la revisi´on del cap´ıtulo anterior es que la par´afrasis es un fen´omeno extremadamente complejo que puede entenderse y darse en muchas dimensiones, por lo que la propuesta de un modelo general es un proyecto excesivamente ambicioso no ya para una Tesis de Fin de M´aster, sino tambi´en para una Tesis Doctoral o incluso un proyecto de investigaci´on a m´as largo plazo y alto nivel. Es por ello que debemos necesariamente delimitar los objetivos de la presente tesis, incluyendo al tiempo una serie de asunciones y restricciones acordes al tiempo disponible y la profundidad alcanzable en una Tesis de Fin de M´aster. A continuaci´on se listan las hip´otesis, asunciones, restricciones, limitaciones y objetivos a alcanzar en el presente trabajo, as´ı como el m´etodo de validaci´on de los mismos. Posteriormente se proceder´a a exponer los detalles del modelo; primero repasaremos brevemente ciertos puntos clave de UNL a tener en cuenta, despu´es hablaremos de los componentes desarrollados pa88

Cap´ıtulo 3. Definici´on del Trabajo

89

ra el modelo y finalmente expondremos el procedimiento de comparaci´on, junto con algunos ejemplos sencillos de aplicaci´on y su validaci´on en un texto completo.

3.2.

Hip´ otesis de trabajo

Las hip´otesis del modelo son las siguientes: Trabajaremos sobre el sistema de representaci´on UNL. El modelo verificar´a la existencia de par´afrasis entre dos frases, la negar´a o informar´a si no hay un resultado concluyente. El modelo realizar´a la comparaci´on de los documentos oraci´on a oraci´on, asumiendo que las oraciones est´an por tanto en el mismo orden en ambos textos y que no se dan casos de segmentaci´on. No cubriremos fen´omenos como la consecuencia l´ogica o los marcos sem´anticos (en este caso el modelo responder´a que no existe la par´afrasis o que no se puede alcanzar un resultado concluyente). Consideraremos que dentro de las cuatro categor´ıas ontol´ogicas que puede tener una palabra universal (sustantivo, verbo, adjetivo y adverbio), la carga del significado, el n´ ucleo de los grafos y los subgrafos en los que dividiremos los grafos de cara a su mapeo, comparaci´on y contrastado, ser´an los sustantivos y los verbos, mientras que se considera que los adverbios y los adjetivos cumplir´an fundamentalmente una funci´on de modificaci´on de dichos n´ ucleos. Los sustantivos y los verbos pueden aparecer tambi´en como modificadores, pero en dicho caso la relaci´on UNL correspondiente lo definir´a como tal, por lo que estos casos no contradir´an la hip´otesis, ya que ser´an el n´ ucleo de otro subgrafo que realizar´a la modificaci´on (normalmente introducida por conjunciones o preposiciones). Los verbos sin´onimos deben tener las mismas restricciones ontol´ogicas (es decir, que deben ser de la misma categor´ıa icl>do, icl>occur o icl>be), y por tanto sus argumentos b´asicos (m´as adelante matizaremos este t´ermino) deben corresponderse. Por supuesto, la misma informaci´on puede reescribirse con verbos de distinta categor´ıa, pero en este caso no ser´an verbos

Cap´ıtulo 3. Definici´on del Trabajo

90

sin´onimos y por tanto la correspondencia deber´a buscarse en nodos y subgrafos apuntados por relaciones de distinto tipo (entrar´ıamos en los marcos sem´anticos, que queda fuera de esta Tesis de Fin de M´aster).

3.3.

Asunciones

Dado que, como hemos comentado ya, el alcance del problema es muy grande y dif´ıcil de abarcar, partiremos para la elaboraci´on del modelo de las siguientes asunciones: Al ser una representaci´on interlingual, asumiremos que se podr´ıa generalizar a comparaciones de grafos obtenidos a partir de cualquier lengua (los ejemplos elegidos est´an en ingl´es y en espa˜ nol). Asumiremos que los grafos est´an bien construidos, sin ning´ un tipo de ambig¨ uedad, y siguiendo siempre las reglas de las especificaciones del sistema UNL. Carecer´an asimismo de errores ortogr´aficos, tipogr´aficos o sint´acticos.

3.4.

Restricciones y limitaciones

Dada la limitaci´on temporal y la complejidad del trabajo, se imponen tambi´en las siguientes restricciones: Los grafos se obtendr´an de textos en espa˜ nol e ingl´es codificados a mano (como ya mencionamos en las asunciones, esto no supone que el modelo no funcione para grafos obtenidos de cualquier lengua, se hace as´ı por cuestiones pr´acticas y de disponibilidad, ya que tampoco existe un repositorio p´ ublico de grafos UNL). No contemplaremos di´alogos, tan s´olo textos escritos (ya que los di´alogos pueden incluir muchos m´as matices y quedan fuera del alcance de una Tesis de Fin de M´aster). Nos ce˜ niremos al an´alisis de grafos sin hipernodos, con frases simples. No cubriremos el fen´omeno del textual entailment, ya que har´ıa necesario el uso de bases de conocimiento.

Cap´ıtulo 3. Definici´on del Trabajo

91

Dado que, como ya mencionaba Javier Garc´ıa Sogo en su tesis [38], existen ciertas carencias en los recursos de UNL (como que no existen ni la ontolog´ıa ni una jerarqu´ıa de palabras universales UNL), usaremos una medida de similaridad basada en las rescticciones de las palabras universales. Las palabras universales las codifican a mano distintos especialistas UNL de diversos pa´ıses, por lo que aunque hay cierta estandarizaci´on, es posible que en algunos casos no aporten suficiente informaci´on para determinar la similaridad. En estos casos, asumiremos el uso de recursos externos por medio de las headwords de las palabras universales.

3.5.

Objetivos

En cuanto a los objetivos, se pueden extrapolar directamente de las hip´otesis mencionadas previamente: Definici´on de un modelo que permita asegurar que dos documentos tienen el mismo significado. Creaci´on de una jerarqu´ıa de relaciones UNL (esto se ha intentado sin ´exito previamente) y organizaci´on de los atributos, as´ı como establecimiento formal de las relaciones entre ellos. Creaci´on de una medida de similaridad sobre palabras universales. Creaci´on de un repositorio de par´afrasis para testar el modelo comparativo. Automatizaci´on de la comparaci´on de grafos a nivel de la informaci´on que contienen, y no s´olo a nivel sem´antico (pues esto ya se intent´o, ver la tesis [38]).

3.6.

M´ etodo de validaci´ on

Para comprobar que se han cumplido las hip´otesis planteadas en el modelo, se buscar´a por un lado la aprobaci´on te´orica de un equipo de ling¨ uistas y por otro se realizar´a una implementaci´on parcial del modelo (dada la magnitud del a´rea en cuesti´on es imposible realizar una implementaci´on del total del modelo en el tiempo concedido a la realizaci´on de un Trabajo de Fin de M´aster) de

Cap´ıtulo 3. Definici´on del Trabajo

92

cara a su aplicaci´on a un texto completo y a una versi´on modificada del mismo, buscando los puntos en los que dicho texto se ha modificado y comprobando si estos cambios implican que el significado se mantiene o no. Cabe resaltar que dada la complejidad del tema a tratar, el modelo parte de que si la par´afrasis no es clara, va a decir que puede que exista o directamente que no existe (ya que en este contexto consideramos preferible un falso negativo que un falso positivo).

Cap´ıtulo 4 Modelo propuesto 4.1. 4.1.1.

Bases te´ oricas del modelo Perspectiva sint´ actica

A nivel sint´actico, el modelo desarrollado se sustenta sobre el sistema UNL, sobre sus atributos y sobre los roles sem´anticos representados en el mismo mediante relaciones. Estos elementos tienen a su vez una gran influencia de la Teor´ıa del Texto-Significado de Igor Mel’cuck, ya que en UNL se ven realizadas algunas de las ideas planteadas por ´el, como es el caso de las funciones l´exicas. Ya hemos comentado ampliamente las propiedades de UNL como sistema de representaci´on del conocimiento interlingual (aunque antes de exponer el modelo propuesto repasaremos los conceptos m´as importantes sobre los que se sustenta el mismo). No obstante, nunca se han intentado explotar estas propiedades en el a´mbito de la par´afrasis, orient´andolo a una comprobaci´on de similitud de contenidos (lo m´as cercano que encontramos se da en una tesis de Fin de M´aster de a˜ nos anteriores [38], desarrollada en el seno del mismo grupo de investigaci´on, donde se intent´o llevar a cabo una medida de similitud entre grafos, pero exclusivamente a nivel de similaridad sem´antica). Se ha intentado en numerosas ocasiones ([16]) realizar una jerarqu´ıa de relaciones gen´erica, pero dichos esfuerzos han sido infructuosos, en parte debido a que (en opini´on de la autora), esta jerarquizaci´on debe basarse en el uso para el cu´al se est´a desarrollando para poder resultar verdaderamente u ´til. Es por ello que ser´a necesaria un estudio de dichas propiedades (principalmente de las relaciones y los atributos UNL) de cara a la constituci´on 93

Cap´ıtulo 4. Modelo propuesto

94

del modelo desde el punto de vista sint´actico y orientado concretamente a la tarea de la par´afrasis. Este estudio derivar´a, entre otros, en nuestra propia jerarqu´ıa de relaciones. Explicaremos en detalle este trabajo en la siguiente secci´on. Respecto al propio fen´omeno de la par´afrasis, intentaremos usar los distintos elementos de UNL para gestionarla, ya que sus propiedades lo hacen id´oneo como sistema de representaci´on para intentar gestionar la par´afrasis. No obstante, el propio sistema impondr´a tambi´en ciertas limitaciones, entre las que destaca la falta de una ontolog´ıa o de una medida de detecci´on de la similaridad sem´antica.

4.1.2.

Perspectiva sem´ antica

A nivel sem´antico, un elemento importante a tener en cuenta en la par´afrasis es sin duda la similitud sem´antica, dado que la sint´actica vendr´a dada por el propio sistema de representaci´on y las consideraciones a˜ nadidas al mismo en el modelo. Como ya hemos comentado anteriormente, no existe una ontolog´ıa de UNL en la que poder aplicar las medidas vistas en el Estado del Arte, por lo que en trabajos anteriores se ha recurrido a recursos externos como WordNet. En nuestro caso, hemos considerado m´as interesante para cubrir esta necesidad la creaci´on de una nueva medida de similaridad basada exclusivamente en la representaci´on UNL, evitando as´ı arrastrar los errores y limitaciones de dicho recurso. Expondremos nuestra medida m´as adelante.

4.1.3.

Comparaci´ on de grafos

Disponiendo de estas bases te´oricas, lo que nos falta es un modelo que conjugue todas ellas y permita comparar dos grafos UNL. Desarrollaremos para este fin un algoritmo con el que poner en pr´actica las ideas desarrolladas en el modelo expuesto en las siguientes secciones.

4.2.

Puntos claves de UNL sobre los que se asienta el modelo

Antes de pasar al modelo, repasaremos los conceptos de UNL relevantes para su constituci´on, que nos llevar´an intuitivamente al modelo plantado.

Cap´ıtulo 4. Modelo propuesto

95

Figura 4.1: Un ejemplo de @entry verbal (se˜ nalado en rojo). La frase original es “Ella permaneci´o en silencio”.

4.2.1.

Elementos de la oraci´ on en UNL

4.2.1.1.

@entry, el n´ ucleo de la frase

A la hora de comparar dos grafos, debemos comenzar por alg´ un punto determinado. Para ello usaremos el concepto de @entry: en un grafo UNL, el @entry es un atributo especial obligatorio que identifica “la entrada”, el punto m´as relevante de la frase, el nodo que tienen m´as importancia. Suele ser un verbo (como es el caso de la Figura 4.1), pero tambi´en puede ser un sustantivo, como en la Figura 4.2; en casos muy concretos y poco frecuentes, los @entry tambi´en pueden ser adverbios y adjetivos. De este nodo @entry ir´an surgiendo distintas relaciones UNL, que apuntar´an a otros nodos que a su vez apuntar´an a otros (creando as´ı subgrafos y dando un orden de prioridad en el que mirar las relaciones a la hora de contrastar la par´afrasis, como podemos observar en la Figura 4.2). 4.2.1.2.

Categor´ıas gramaticales

Para determinar la similaridad sem´antica entre palabras universales, debemos fijarnos en sus dos componentes: la headword y el contenido de sus restricciones, que depender´an del tipo de palabra. Dentro de UNL encontr´abamos cuatro posibles categor´ıas, con distintas restricciones: 1. Verbos: que pod´ıan ser de tres tipos (do o de acci´on, occcur o de proceso y be o de estado) y partiremos de la hip´otesis de que verbos sin´onimos van a ser del mismo tipo de verbo. Adem´as de esta tipolog´ıa, las palabras universales (o UWs) incluyen en su descripci´on las relaciones argumentales

Cap´ıtulo 4. Modelo propuesto

96

Figura 4.2: Un ejemplo de @entry sustantivo (se˜ nalado en rojo). La frase original es “Una galer´ıa de arte rica en pinturas de los artistas holandeses”. Podemos adem´as observar los distintos subgrafos que se van creando. que le acompa˜ nan y de qu´e tipo deben ser las mismas; opcionalmente tambi´en puede tener otras restricciones. En definitiva, los indicios que pueden ayudar a determinar la similaridad sem´antica entre dos verbos UNL son: Headword: nos va a permitir identificar la palabra universal y, en caso de que la jerarqu´ıa UNL resulte insuficiente para la determinaci´on de la similaridad, buscar la palabra en otros recursos (como tesauros o redes sem´anticas). Hiper´onimos e hip´onimos (expresados como icl, y que llegan a uno de los tres tipos de verbos, pasando por otros), como es el caso del ejemplo de la UW buy(icl>get>do, agt>thing), de donde extraemos que get es un hiper´onimo de buy. Sinonimia (relaci´on equ) y antonimia (ant) con otros verbos (como en sell(icl>transact>do, equ>deal, agt>thing, obj>thing)). Las restricciones de dominio, meronimia y contexto (fld, pof y com) no nos ayudar a determinar la sinonimia, pero pueden aportar pistas sobre la palabra de cara a su ubicaci´on en un mapa sem´antico.

Cap´ıtulo 4. Modelo propuesto

97

Las restricciones argumentales sobre qu´e roles intervienen en la acci´on del verbo. Si dos verbos son sin´onimos en una misma situaci´on, deben estar tambi´en relacionados con los mismos agentes de dicha relaci´on. Encontramos un ejemplo de esto en los dos siguientes verbos: demonstrate(icl>show>do,equ>exhibit,agt>thing,obj>uw,rec>thing) expose(icl>show>do,equ>exhibit,agt>thing,obj>thing,rec>thing) donde vemos que comparten el mismo sin´onimo exhibit, la misma posici´on en la ontolog´ıa (ambos son del tipo do e hip´onimos de show), adem´as de tener las mismas relaciones; aunque en el caso de demonstrate el obj no tiene por qu´e ser de tipo thing, y puede ser cualquier palabra universal, la sinonimia se conservar´a siempre que en las oraciones a comparar se cumplan las restricciones de ambos (es decir, que el objeto sea thing). Podemos por tanto concluir que en el caso de que el obj sea thing, los verbos pueden ser sin´onimos (es decir, cuando se cumpla que la intersecci´on de los requisitos de los dos verbos no es vac´ıa). 2. Sustantivos: Adem´as de los criterios anteriores (tambi´en aplicables a los sustantivos), en los sustantivos UNL encontramos otra posible restricci´on ontol´ogica: iof, o ’instancia de’. Esto se aplicar´a s´olo a las entidades, y ser´a completamente discriminante (en nuestro modelo, una entidad s´olo puede corresponderse consigo misma). 3. Adjetivos y adverbios: los adjetivos y los adverbios son muy parecidos en UNL. Ambos comparten una jerarqu´ıa muy similar: Adjetivos: cualitativos, cardinales, ordinales, temporales y de lugar. Adverbios: de tiempo, lugar, causa, cantidad, manera y modo. Si pertenecen a otras subclases, simplemente se marca la clase gramatical (adj o adv), como es por ejemplo el caso del adjetivo absent(icl>adj). Los adjetivos y adverbios sin´onimos deber´an ser de la misma subclase, y pueden tener tambi´en relaciones de tipo equ y ant que ayuden en la detecci´on de la similaridad.

Cap´ıtulo 4. Modelo propuesto

4.2.1.3.

98

Atributos

Por u ´ltimo, otro punto relevante en los grafos UNL ser´a la presencia de los atributos. Como ya mencionamos, los atributos son libres (hay una lista de ellos, adjunta como Anexo B) pero cualquiera de los investigadores involucrados en el proyecto puede crear uno y usarlo sin necesidad de consulta o consenso), por lo que no es trivial analizarlos todos. No obstante, algunos han llegado a convertirse en est´andar: el de negaci´on, el que determina el n´ umero, el tiempo verbal... aprovecharemos su presencia para descartar la par´afrasis en algunos casos.

4.3.

Modelo

Pasamos ahora a ver el modelo y los distintos elementos que lo componen. Primero, siguiendo con las caracter´ısticas de UNL explicadas en la secci´on anterior, veremos una jerarqu´ıa con las equivalencias entre relaciones UNL desarrollada exclusivamente para el tratamiento de la par´afrasis. Despu´es se expondr´an una serie de correspondencias entre grafos con distintos tipos de verbos o correspondencias especiales y una selecci´ on de atributos que pueden llevar a descartar la par´afrasis en ciertos casos. Finalmente se explicar´a la medida de similaridad, creada tambi´en exclusivamente para la par´afrasis.

4.3.1.

Jerarqu´ıa de relaciones

Como ya hemos comentado con anterioridad, un punto clave en el proceso de corroborar la par´afrasis entre dos oraciones se da a nivel sint´actico. UNL resulta de gran utilidad en este punto, ya que transforma y expresa las relaciones sint´acticas cl´asicas en una serie de relaciones clave limitadas (expuestas en detalle en el Anexo A). No obstante, estas relaciones pueden corresponderse entre s´ı en las distintas maneras de expresar la misma informaci´on. La pregunta, por tanto, ser´a d´onde debemos buscar la informaci´on de cada parte de la frase. En el caso por ejemplo de tener informaci´on de lugar, como “Ir´e de vacaciones a Roma” y “Pasar´e mis vacaciones en Roma”, las dos frases expresan lo mismo, pero en la primera Roma aparecer´ıa en UNL como la relaci´on PLT (place to), mientras que en la segunda lo har´ıa como PLC (place), donde ocurre la acci´on. Debemos por tanto establecer una organizaci´on de las relaciones UNL, un sistema de correspondencia que nos indique qu´e relaciones debemos mirar en un grafo B para

Cap´ıtulo 4. Modelo propuesto

99

Relaciones UNL

Básicas Argumentales

Grupo 1

Grupo 2

Grupo 2bis

Modificadores

Grupo 3

Otros

Mod1

ModS2

ModSC

ModS3

A nivel de subgrafo

Figura 4.3: La jerarqu´ıa propuesta para el modelo de gesti´on de par´afrasis se divide en relaciones b´asicas argumentales y relaciones modificadoras, conteniendo cada uno de estos tipos a su vez una serie de distintas clases de relaciones. contrastar la informaci´on de una determinada relaci´on del grafo A. Es por ello que de cara a la constituci´on del modelo se ha realizado una tarea de jerarquizaci´on de las relaciones UNL, que se expone detalladamente a continuaci´on. Las relaciones se dividir´an en dos grandes grupos: modificadores y relaciones b´asicas argumentales, como podemos ver en la Figura 4.3.

4.3.1.1.

Relaciones b´ asicas

Por un lado tenemos las relaciones b´asicas de cada verbo, sus argumentos, que describen las circunstancias y las partes que intervienen en el evento, propiedad o acci´on que expresan. La informaci´on que representan estas relaciones aparecer´a, por tanto, en cualquier otra expresi´on de la misma situaci´on; de otra manera, entenderemos que no puede darse la par´afrasis. Seg´ un las guidelines de UNL, para cada uno de los tipos de verbo en UNL existe una relaci´on b´asica obligatoria y una serie de relaciones argumentales accesorias que pueden darse o no (pero en caso de darse, deben tener correspondencia en un segundo grafo con par´afrasis). Las relaciones b´asicas y su nivel de importancia podemos encontrarlas en la Tabla 4.1. Estas relaciones, por tanto, deben corresponderse exactamente entre una frase y otra en caso de tener el mismo tipo de @entry. Imaginemos en este contexto las frases “Luis (AGT) compra pan (OBJ) con Laura (PTN)” y “Luis (AGT) compra pan (OBJ)”. El hecho de que en la segunda oraci´on no est´e la relaci´on PTN

Cap´ıtulo 4. Modelo propuesto

Tipo

Grupo 1

Grupo 2

icl>do

AGT

OBJ

icl>occur

OBJ

icl>be

AOJ

OBJ

100

Grupo 2bis SRC GOL SRC GOL SRC GOL

Grupo 3 COB REC COB REC COB REC

Otras PTN

Tabla 4.1: Relaciones b´asicas UNL para el modelo. En la primera columna encontramos el tipo de verbo seg´ un las restricciones ontol´ogicas de dicha categor´ıa. La segunda columna (Grupo 1) es la relaci´on argumental b´asica obligatoria para el correspondiente tipo de verbo. Las siguientes columnas son relaciones argumentales que pueden aparecer o no en la frase, por orden de importancia y de menci´on en la forma tabular del grafo. . indica que es imposible que ambas puedan decir lo mismo, ya que es una relaci´on argumental.

4.3.1.2.

Modificadores

Dentro de los modificadores encontramos cuatro subgrupos o niveles, diferenciados por el nivel de profundidad dentro del grafo en el cu´al los encontraremos y por el tipo de nodo al que modifican (dentro de las categor´ıas gramaticales). Como veremos a continuaci´on, el primer grupo se distingue por ser un modificador verbal, que act´ ua normalmente a nivel oracional (a no ser que nos encontremos ante una frase con varios verbos), mientras que los otros tres grupos modifican dentro de un subgrafo, habitualmente con n´ ucleo sustantivo. Modificadores de primer nivel (Mod1 ) Son los modificadores del verbo, act´ uan normalmente a nivel de la frase (o en compuestas subordinadas o coordinadas). Intuitivamente podr´ıamos relacionarlos con los complementos circunstanciales. Encontramos en este tipo de modificador las siguientes subclases, indicando al lado de cada relaci´on sus posibles equivalencias o mapeos en otro grafo: Modificadores Sem´ anticos: influyen sem´anticamente en la frase. Son los siguientes.

Cap´ıtulo 4. Modelo propuesto

Relaci´on BEN PUR RSN CON

Posibles equivalencias PUR, RSN BEN, RSN PUR, BEN

101

Ejemplos Lo compr´e para ti (BEN, beneficiario). Lo compr´e para regal´artelo a ti (PUR, prop´osito). Lo compr´e por ti (RSN, raz´on).

Tabla 4.2: Correspondencias entre relaciones modificadoras sem´anticas, junto con algunos ejemplos. . Modificadores de Lugar: indican informaci´on sobre el emplazamiento de la acci´on. Cada relaci´on incluye un peque˜ no matiz en la informaci´on, y la relaci´on suele depender del verbo que se use (como ve´ıamos en el ejemplo expuesto previamente con “pasar las vacaciones en” e “ir de vacaciones a”). • PLC: relaci´on gen´erica de lugar. Puede implicar los siguientes matices: ◦ PLT: lugar final o destino de la acci´on. ◦ PLF: lugar inicial o del que surge la acci´on (puede equivaler tambi´en con SRC, fuente, en algunos contextos). ◦ VIA: lugar o estado intermedio. Tambi´en puede indicar modo, como veremos m´as adelante. • FRT: de-a (from-to), indica un recorrido o un transcurso. Modificadores de Tiempo: indican la situaci´on temporal de la acci´on. • TIM: el equivalente temporal a PLC, como en “Abre temprano” se puede relacionar con: ◦ TMF: momento inicial (“Abre desde las 8”). ◦ TMT: momento final (“Abre hasta las 5”). ◦ DUR: duraci´on (“Abre durante 7 horas”). TIM tambi´en puede mapearse en algunas ocasiones con las siguientes relaciones: • COO: coocurrencia de dos sucesos. La frase “Ver la tele mientras desayuno” implica dos acciones simult´aneas, pero tambi´en da informaci´on

Cap´ıtulo 4. Modelo propuesto

102

temporal del suceso ver la tele, y podr´ıa considerarse equivalente a “Ver la tele a la hora del desayuno” (que se representar´ıa como TIM). El de COO es un caso controvertido, pues adem´as de tiempo puede expresar tambi´en modo (como en “Cruzar corriendo”). • FMT (relacionado adem´as con DUR y TMF y TMT): rango, no necesariamente temporal (aunque suele serlo) (“Abre de 5 a 8”). Modificadores de Modo: indican c´omo se realiza la acci´on. • MAN: la manera de hacer algo, se relaciona con elementos de otros grupos, como PTN (compa˜ n´ıa), OBJ (objeto, m´as adelante veremos un caso concreto de esta equivalencia), QUA (cantidad) o VAL (valor); esto se debe a c´omo se realice la traducci´on a UNL, pues depende mucho de la percepci´on de quien codifique el proceso). Otras relaciones que tambi´en pueden contener la misma informaci´on son las siguientes: ◦ MET: m´etodo (relacionado con INS): “Lo hizo a mano (MET)”. ◦ INS: instrumento (relacionado con MET): “Lo hizo con sus propias manos (INS)”. ◦ VIA: tambi´en pertenec´ıa a los modificadores de lugar. “Lleg´o pasando por la cocina”. ◦ COO: coocurrencia; como mencionamos anteriormente, tambi´en puede considerarse un modificador temporal. • BAS: comparaci´on. La par´afrasis m´as evidente en este caso se da con la doble negaci´on (“Es m´as grande”, “Es menos peque˜ no” o “No es m´ as peque˜ no”). La comprarci´on es un caso con una estructura espec´ıfica en UNL, y se trata con mayor detalle en la Secci´on 4.3.2.3. En la Figura 4.4 podemos ver estos grupos y sus relaciones de manera m´as esquem´atica; podemos tambi´en apreciar c´omo se relacionan dichas relaciones: como ya hemos mencionado, algunas aparecen en m´as de un grupo y otras incluso pueden contener la misma informaci´on que relaciones de otros tipos. Modificadores de subgrafos de segundo nivel (ModS2 ) Dentro de los modificadores de subgrafos con n´ ucleo sustantivo encontramos en primer lugar los modificadores de sustantivos, que pueden ser de cantidad o

Cap´ıtulo 4. Modelo propuesto

103

Semántico

BEN PUR RSN CON

Lugar

FRT PLC PLT PLF VIA

Tiempo

TIM TMF TMT DUR COO FMT

Modo

BAS MAN MET INS VIA COO

Mod1

SRC

PTN, OBJ, QUA, VAL

Figura 4.4: Esquema de modificadores tipo Mod1 . - Unidas en azul, las relaciones que pueden corresponderse entre s´ı dentro de un grupo (tambi´en pueden corresponderse las que se desglosan de otra relaci´on con la misma). - En verde, correspondencias con relaciones de otro tipo en la jerarqu´ıa. - Subrayadas, las relaciones que aparecen en dos clases distintas dentro de los modificadores. A la hora de comparar, si por ejemplo en el grafo 1 nos encontr´asemos con una relaci´on PLC y en el grafo 2 no existiese, seguiendo el esquema tendr´ıamos que mirar tambi´en si existe alguna relaci´on tipo PLT, PLF, SRC o VIA. Para PLF, buscar´ıamos en SRC y PLC, para BEN en PUR y RSN, etc.

Cap´ıtulo 4. Modelo propuesto

104

Cantidad

PER QUA VAL

Otros

MOD CNT NAM POS OBJ, AGT, AOJ POF

ModS2

ModS

ModSC

AND OR APN

ModS3

MAN

Figura 4.5: Tipos de modificadores de subgrafos y sus respectivas relaciones y correspondencias. En rojo encontramos las relaciones b´asicas que aparecen como modificadores de un sustantivo en caso de norminalizar un verbo (si el verbo es icl>do, AGT, para icl>occur, OBJ, y para icl>be, AOJ).

Cap´ıtulo 4. Modelo propuesto

105

de otro tipo, y que pueden englobar distintas descripciones del sustantivo al que acompa˜ nan. Estas relaciones suelen venir desempe˜ nadas por adjetivos; algunos casos podr´ıan ser por ejemplo “dos (QUA) patatas” o “r´ıo largo (MOD)”. En la Figura 4.5 encontramos un esquema de los tres tipos de modificadores en este nivel y las relaciones que pertenecen a cada uno de estos grupos. Modificadores de cantidad. Pueden expresar lo mismo en distintos tipos de medidas (“un (QUA) euro (VAL)” por ejemplo puede ser lo mismo que “diez (QUA) coronas (VAL)”; aunque en esta tesis no entremos en ese tipo de equivalencias, puede ser u ´til en cierto tipo de documentos, como contratos internacionales). • PER: proporci´on (Pag´o dos euros el kilo (PER)). • QUA: cantidad (Pag´o dos (QUA) euros el kilo). • VAL: valor (Pag´o dos euros (VAL) el kilo). Otros modificadores (describen diversas caracter´ısticas del sustantivo al que acompa˜ nan): • MOD: modifica distintas caracter´ısticas (colores, altura...): “El ni˜ no alto (MOD)” ◦ CNT: aposici´on, introduce un grupo nominal, habitualmente entre comas. Se relaciona con NAM: (“Rajoy, el presidente (CNT)” y “El presidente Rajoy (NAM)”). ◦ NAM: el nombre de algo, relacionado con CNT en caso de aparecer una entidad (como vemos en el ejemplo anterior). ◦ POS: posesivo (Mi (POS) casa). • POF: parte de, puede aparecer rara vez como relaci´on en un grafo en expresiones del tipo “tres de ellos”. • OBJ, AOJ, AGT: son modificadores que aparecen al nominalizar un verbo, como veremos m´as adelante. Modificadores de subgrafos coordinados (ModSC ) Tambi´en podemos tener dentro de un subgrafo relaciones que unan otros subgrafos a un mismo nivel; analizaremos las posibles par´afrasis a las que dan lugar en la Secci´on4.3.2.3. Las relaciones que pertenecen a este grupo ser´an:

Cap´ıtulo 4. Modelo propuesto

106

AND: representa la conjunci´on “y”. Puede ser par´afrasis reordenando la relaci´on siempre y cuando no estemos enumerando algo (donde el orden es relevante) o incluyamos restricciones de tiempo (“Me gustan el rojo y el azul” es igual que “Me gustan el azul y el rojo”, pero “Fui a tu casa y me gust´o” implica cierto orden, no es lo mismo que “Me gust´o y fui a tu casa”). OR: representa “o”; el orden en este caso no es relevante, y s´ı se cumple la par´afrasis en la mayor´ıa de casos. APN: es una concatenaci´on, representar´ıa comas y ser´ıa equivalente a varios AND seguidos. Modificadores de subgrafos de tercer nivel (ModS3 ) Por u ´ltimo, tambi´en podemos encontrar modificadores de adverbios y de adjetivos dentro de un subgrafo; ´esta funci´on la desempe˜ nar´a siempre un adverbio y vendr´a dada por una relaci´on que ya hab´ıamos englobado dentro del grupo Mod1 , MAN. Podremos distinguir su categor´ıa dentro del modelo por el elemento al que modifica en la oraci´on (ser´a Mod1 si es a un verbo y ModS3 si es otro tipo de palabra). Un ejemplo de aparici´on del modificador MAN como miembro de esta categor´ıa se da en las comparaciones, con el adverbio m´as (“Es m´as (MAN) alto”) .

4.3.2.

Otros tipos de mapeos o correspondencias

Adem´as de las posibles equivalencias entre relaciones expuestas anteriormente, pueden existir otros posibles mapeos entre relaciones en ciertas situaciones concretas que se exponen a continuaci´on. 4.3.2.1.

Mapeo de relaciones entre verbos de distinta categor´ıa ontol´ ogica

Existe la posibilidad de que la misma informaci´on venga expresada por verbos distintos. Este ser´ıa por ejemplo el caso de las frases “Te recomiendo hacerlo as´ı.” y “Mi recomendaci´on es hacerlo as´ı.”. Se han desarrollado por ello algunos mapeos para los casos m´as frecuentes, teniendo en cuenta para ello la siguiente consideraci´on: dado que es poco habitual que los verbos icl>occur se puedan

Cap´ıtulo 4. Modelo propuesto

107

expresar de otras maneras, y teniendo en cuenta adem´as que son muy poco frecuentes en UNL (tan s´olo 70 de 8670 palabras universales son verbos de tipo icl>occur, ni el 1 % de ellas1 ), no contemplaremos mapeos desde o hasta las relaciones de este tipo de verbos. Partiendo de esta base, se han desarrollado los siguientes mapeos para los otros tipos de verbos: En el caso de encontrar un verbo icl>do nominalizado como el del ejemplo anterior en una frase con una @entry verbal icl>be, se testar´an los siguientes mapeos:

oraci´on con @entry icl>do

oraci´on con @entry icl>be

AGT

POS

MAN

OBJ

verbo

AOJ

atributos del verbo

atributos del verbo

Tabla 4.3: Mapeos entre verbos de distintas categor´ıas ontol´ogicas. Un ejemplo de estos casos lo encontramos en frases como: T´ u (AGT) huiste r´apidamente (MAN). Tu (POS) huida (AOJ) fue r´apida (OBJ).

Como ya vimos en la jerarqu´ıa de relaciones, en muchos casos tras la nominalizaci´on se conservan algunas relaciones argumentales (AGT, AOJ y OBJ, principalmente). Por ejemplo: Los precios (AGT) subieron, lo que provoc´o la crisis. La subida de los precios (AGT) (AGT) provoc´o la crisis. Por ello, tambi´en buscaremos este tipo de correspondencias directas (dejando a un margen la transformaci´on gramatical, salvable gracias a las medidas de similaridad y la comparaci´on cadenas de caracteres) en el modelo. Adem´as, debemos considerar que cuando nominalizamos un verbo, habitualmente sus modificadores (los del grupo Mod1 , especialmente los de modo) 1

Informaci´ on consultada en mayo de 2016

Cap´ıtulo 4. Modelo propuesto

108

suelen pasar a modificar al sustantivo, transform´andose en modificadores del sustantivo (del grupo ModS2 ). En este caso mapearemos los adjetivos y los adverbios seg´ un su tipo (los adverbios de modo y manera corresponder´an a los adjetivos cualificativos, los adverbios de tiempo y lugar con los adjetivos temporales y de lugar, etc). 4.3.2.2.

Mapeo de relaciones entre subgrafos con n´ ucleo sustantivoverbo y sustantivo-sustantivo

El caso anterior se centraba en comparar dos grafos cuyos n´ ucleos (@entry) eran verbos, pero tambi´en es posible que uno o ambos sean sustantivos. En este caso se realizar´a la comparaci´on como si se tratase de buscar la identidad entre subgrafos (m´as adelante, en la Secci´on 4.3.5.3, comentaremos c´omo ha de hacerse esta comparaci´on), partiendo de que los @entry mantienen alg´ un tipo de relaci´on de sinonimia o de similaridad a nivel de caracteres. De nuevo, habitualmente el contenido de las relaciones de tipo Mod1 se reflejar´a en el grafo nominalizado en relaciones de tipo ModS2 . 4.3.2.3.

Casos especiales: la comparaci´ on, los superlativos y la coordinaci´ on

En UNL encontramos algunos casos especiales de par´afrasis que requieren un mapeo especial. Algunos de ellos se exponen a continuaci´on: La comparaci´ on La comparaci´on (expresada en UNL mediante la relaci´on BAS), implica el uso de las UWs more, less y as as (a los que llamaremos comparativos). La estructura ser´a la expuesta en la Figura 4.6. Las posibles par´afrasis se pueden dar de las siguientes maneras en el caso de less y more: Negar el verbo (atributo @not) e intercambiar los conceptos: “Luis corre m´as r´apido que Juan” y “Juan no corre m´as r´apido que Luis”. Intercambiar los conceptos y usar una caracter´ıstica ant´onima: “Luis corre m´as r´apido que Juan” y “Juan corre m´as despacio que Luis”.

Cap´ıtulo 4. Modelo propuesto

109

Figura 4.6: Estructura de la comparaci´on. Las relaciones b´asicas aoj y obj pueden ser otras (depender´an del tipo de verbo con el que tratemos). Adem´as, en algunos casos puede no mencionarse la caracter´ıstica (por ejemplo, en “10 es m´as que 5”, aunque en ese caso ya no aparecer´ıa la relaci´on BAS y no entrar´ıa en este caso), y hay que tener en cuenta que tanto los conceptos como la caracter´ıstica pueden ser nodos independientes o n´ ucleos de subgrafos.

Intercambiar los conceptos y usar el comparativo opuesto: “Luis corre m´ as r´apido que Juan” y “Juan corre menos r´apido que Luis”.

Mantener los conceptos y usar el comparativo opuesto y la caracter´ıstica ant´onima: “Luis corre m´as r´apido que Juan” y “Luis corre menos despacio que Juan”.

Otro posible caso de par´afrasis vendr´ıa con la aparici´on de @not y la negaci´on de la caracter´ıstica o el comparador, pero son casos algo extremos y que suelen implicar cierta intenci´on, por lo que no contemplaremos ese caso. Si encontramos en cambio una comparaci´on de igualdad (con as as), la u ´nica posibilidad de par´afrasis pasa por intercambiar los conceptos, pero depender´a tambi´en de la situaci´on, as´ı que no lo consideraremos tal. En los ejemplos de aplicaci´on del modelo (Secci´on 4.3.6) encontramos un caso pr´actico de comparaci´on.

Cap´ıtulo 4. Modelo propuesto

110

Los superlativos En el caso de tratar con superlativos (least y most), estas UWs actuar´an sobre la caracter´ıstica mediante la relaci´on MAN. La u ´nica par´afrasis posible (adem´as de la sinonimia) es que se d´e el superlativo opuesto y un ant´onimo (“Luis es el m´ as alto” y “Luis es el menos bajo”). La coordinaci´ on Como ya hemos comentado al explicar los modificadores ModSC en la Secci´on 4.3.1.2, en ocasiones se pueden intercambiar los subgrafos a los que unen las relaciones de coordinaci´on; es lo mismo, por ejemplo “Comprar patatas y manzanas” que “Comprar manzanas y patatas”. No obstante, hay casos en los que el orden es relevante “Compro eso y voy a tu casa” no es lo mismo que “Voy a tu casa y compro eso”, pues implica alg´ un tipo de preferencia o informaci´on temporal. Es por ello que en lo respectivo a la coordinaci´on (aplicable a las relaciones del grupo ModSC : AND, OR y APN), consideraremos que un cambio en el orden puede producir par´afrasis, pero s´olo la verificaremos si lo que une no son verbos o subgrafos con n´ ucleo verbal. Adem´as, consideramos que si se dan AND y APN, u OR y APN juntos con sustantivos, pueden intercambiarse los conceptos, pues en una enumeraci´on de sustantivos el orden no es relevante (“patatas, manzanas y peras” equivale a “manzanas, peras y patatas”).

4.3.3.

Selecci´ on de atributos

Como ya mencionamos previamente, los atributos en UNL son libres (los expertos UNL de cada lengua pueden introducir nuevos atributos cuando lo consideren necesario) y en muchos casos subjetivos; esta falta de estandarizaci´on en comparaci´on con las relaciones UNL provoca que el tratamiento de los atributos s´olo pueda sistematizarse hasta cierto punto. La idea tras la selecci´on realizada es, por tanto, decidir qu´e atributos deben coincidir necesariemente en caso de darse; un ejemplo claro es el tiempo verbal: aunque tengamos exactamente el mismo contenido en dos grafos, si tienen distinto tiempo verbal no puede existir la par´afrasis (“Yo voy a comer patatas” y “Yo com´ı patatas”, por ejemplo). Tras analizar los atributos m´as habituales dentro de las guidelines, extraemos las

Cap´ıtulo 4. Modelo propuesto

111

siguientes consideraciones en cuanto a atributos que deben coincidir obligatoriamente: N´ umero (@pl ): si en un nodo aparece el plural, en su correspondencia con el grafo a comparar debe aparecer tambi´en. Existen ciertos matices en esta afirmaci´on, pero depender´an de la propia relaci´on que mantengan las palabras; por ejemplo, el equipo y los jugadores, o la poblaci´on y los habitantes, dependiendo del contexto, pueden referirse a lo mismo, pero consideramos esto parte del sentido com´ un, fuera por tanto de nuestro a´rea de actuaci´on (como indicamos en las hip´otesis de trabajo). Determinaci´ on (@def, @indef y @generic): si en una oraci´on habl´asemos de un concepto indefinido y en otra del mismo concepto pero determinado, no hablar´ıamos de lo mismo (“Un ni˜ no juega” y “El ni˜ no juega”, por ejemplo, no tienen por qu´e referirse al mismo ni˜ no). Sin embargo, aqu´ı tambi´en entramos (al igual que en el caso de los plurales) en el tipo de relaci´on que une dos conceptos: un perro y el animal en frases consecutivas pueden referirse a lo mismo, ya que mantienen una relaci´on de hiperonimia. No obstante, a nivel de comparaci´on frase a frase no necesitaremos mantener el llamado “foco del discurso”2 . Negaci´ on (@not): si una frase est´a en negativo, debe estarlo tambi´en la otra (o bien debe expresar lo contrario por medio de antonimia). Es el caso de “Es alto” y “No es alto”, donde en el grafo UNL encontrar´ıamos los mismos nodos con las mismas palabras universales pero en el segundo caso vendr´ıa a˜ nadido el atributo @not. En los ejemplos de la Secci´on 4.3.6 encontramos un caso donde la par´afrasis no se da precisamente por esta raz´on. Atributos verbales y de tiempo: entendemos que si dos oraciones se expresan en distinto tiempo o modo verbal no van a poder decir lo mismo, as´ı como sucesos con distintos tempos. Por tanto, los siguientes atributos deber´an coincidir necesariamente: • Tiempo: @present, @past, @progress, @begin, @end, @complete, @continue, @custom. Adem´as, existen tiempos que pueden resultar sin´oni2

Extraemos este t´ermino de la tesis doctoral [24], refiri´endonos a un t´ermino para determinar el concepto aludido en caso de correferencia y an´aforas.

Cap´ıtulo 4. Modelo propuesto

112

mos en ciertos casos, como el futuro o el condicional, que puede expresarse en presente o con @future (es decir, que si encontramos una frase con @future y otra en presente, a´ un puede existir la par´afrasis). En estos casos, se marcar´a como posible par´afrasis. • Modo: @imperative, @ability, @may, @obligation, @obligation.not, @possibility, @probability, @should y las posibles correspondencias entre ellas. • Tempo: @just, @soon, @yet, @although, podr´ıan corresponderse tambi´en con algunas relaciones UNL del tipo TIM.

4.3.4.

Medida de similaridad

En el marco de la tesis, hemos observado que no existe ninguna medida de similaridad sem´antica asociada a UNL. Es por ello que parte del trabajo se ha destinado al estudio de las palabras universales y a la creaci´on de una medida que se ajuste a sus caracter´ısticas pertinentes (repasadas anteriormente en 4.2.1.2). Obviamente, esta medida devolver´a para una misma UW el valor 1, que se considera el umbral a partir del cu´al los UWs son sin´onimos (siendo -1 el umbral inferior para la antonimia, pero no estando acotada por dichos valores). Esta funci´on de similaridad no cumplir´a por tanto las condiciones matem´aticas para ser considerada distancia (pues puede tomar valores negativos, no toma valor 0 para una misma UW y no tiene por qu´e cumplir la desigualdad triangular). La medida de similaridad entre dos verbos UW se dar´a por medio de pesos, que dependen de la comparaci´on de las restricciones de las palabras universales de la siguiente manera: 4.3.4.1.

Verbos

1. El tipo de verbo debe ser igual; si no, se descarta la sinonimia (el resultado es 0). 2. Si se da la condici´on anterior, tambi´en puede ser que entre icl y el tipo de verbo (do, be, occur) haya algun caso de hiperonimia o hiponimia (como ve´ıamos por ejemplo con show en expose(icl>show>do,equ>exhibit,agt> thing,obj>thing,rec>thing)). Si se diese una coincidencia en ese nivel se

Cap´ıtulo 4. Modelo propuesto

113

le dar´ıa un peso extra entre 0 y 0,5 (cuanto m´as a profunda se diese dicha coincidencia, mayor peso, siendo m´as profunda cuanto m´as a la izquierda est´e en la jerarqu´ıa de flechas). M´as tarde veremos la funci´on espec´ıfica. 3. El siguiente punto a observar es la propia restricci´on de sinonimia, equ. Entre dos UW, esta sinonimia puede ser: Bidireccional: ambos verbos tienen la misma UW en equ (como en el caso de expose(icl>show>do,equ>exhibit,...) y demonstrate( icl>show>do,equ>exhibit,...) ), o se tienen mutuamente entre s´ı. Esto da un peso de 1 a la similaridad. Unidireccional: uno de los verbos tiene como equ al otro, pero no a la inversa. En este caso, podr´ıan ser necesarios modificadores para que se diese la par´afrasis. Pensemos por ejemplo en el caso “Para cenar com´ı patatas” y “Cen´e patatas”: cenar es un caso concreto de comer (ser´ıa pues un hip´onimo), pero la modificaci´on dada por para cenar complementa al hiper´onimo en la frase, provocando la par´afrasis. No obstante, este tipo de comprobaciones necesitar´ıan de una base del conocimiento, una de las limitaciones que mencion´abamos en el planteamiento de la tesis. Dado que no entramos en ese terreno, en caso de encontrar un equ unidireccional, daremos un 0,75 de similaridad, pues no podemos asegurarla al no poder comprobar los modificadores necesarios. Las ideas anteriores se aplican igual para ant, la restricci´on de antonimia. Si un verbo fuese ant´onimo del otro, daremos valor negativo a la medida (-1 en caso de ser bidireccional y -0,75 en caso de ser unidireccional). Esto ser´a u ´til si en caso de la comparaci´on encontramos por ejemplo el atributo @not o la doble negaci´on. Diferentes equ o ant: en este caso miraremos sucesivamente las restricciones de las UWs relacionadas hasta encontrar relaci´on o hasta un determinado nivel de profundidad. Puede que por ejemplo que morada y hogar no aparezcan como sin´onimos, pero que morada se considere sin´onimo de refugio, hogar de casa y que refugio y casa s´ı se relacionen de alguna manera. En este caso sumaremos tan solo 0,25. Ninguna relaci´ on de equ o ant: si no encontramos ninguna relaci´on de tipo sinonimia, no podemos descartar la existencia de la misma.

Cap´ıtulo 4. Modelo propuesto

114

Una posible soluci´on es buscar la relaci´on entre las headwords en un recurso externo, como un tesauro o una red sem´antica. Tambi´en podemos recurrir a lematizadores y distancia en cadenas de caracteres. En este caso, las restricciones tipo fld y com pueden ayudar en la desambiguaci´on.

4. Restricciones argumentales: dos verbos sin´onimos deben tener las mismas restricciones argumentales. Es posible que alguno cubra m´as relaciones o permita que dichas relaciones las desempe˜ nen UWs m´as gen´ericas en la jerarqu´ıa (siendo por ejemplo, thing m´as gen´erico que person y menos que uw); bastar´a en este caso con que la intersecci´on de los argumentos cubiertos en la frase no sea vac´ıa. Si tenemos por ejemplo que en un verbo el agt>uw y en otro que agt>person, puede darse la par´afrasis, pero entre agt>plant y agt>person no es posible (pues asumimos que el contexto de aplicaci´on no es el mismo, imposibilitando la par´afrasis).

La funci´on sim(U W1 , U W2 ), siendo las UWs de la forma U Wi = HWi (icl > aiKi > ... > ai2 > ai1 > tipo, equ > bi , ant > ci , rel1 > uwi1 , ..., relN > uwiNi ) para verbos (y en general), quedar´a seg´ un lo expuesto previamente de la siguiente manera:

sim(U W1 , U W2 ) = simicl (U W1 , U W2 )· (simequ (U W1 , U W2 ) + simant (U W1 , U W2 )) · simrel (U W1 , U W2 ) con

( simicl (U W1 , U W2 ) =

0 1+

k 2·K

si U W1 y U W2 son verbos de distinto tipo. si son del mismo tipo.

siendo k = max(x, x0 ) el mayor ´ındice en el que coincidan las restricciones de ambas UWs, es decir, a1x = a2x0 , y K = max(K1 , K2 ).

Cap´ıtulo 4. Modelo propuesto

115

  1 si b1 = b2 o b1 = HW2 , b2 = HW1      si b1 = HW2 o b2 = HW1  0,75 simequ (U W1 , U W2 ) = 0,25 si ∃j ≤ J tal que con j concatenaciones    encontramos una equivalencia com´ un.     f (HW1 , HW2 ) si no hay ning´ un equ ni ant donde J es un par´ametro que indica a qu´e profundidad queremos buscar la similaridad (intuitivamente, el m´aximo de equ que concatenaremos buscando iterativamente en los equ de cada UW hasta dar con alg´ un punto com´ un) y f (x, y) una funci´on de similaridad aplicable en recursos externos o cadenas de caracteres, normalizada a 1.

  −1 si c1 = c2 o c1 = HW2 , c2 = HW1      si c1 = HW2 o c2 = HW1  −0,75 simant (U W1 , U W2 ) = −0,25 si ∃j ≤ J tal que con j concatenaciones    encontramos una antonimia com´ un.     f (HW1 , HW2 ) si no hay ning´ un equ ni ant

( simrel (U W1 , U W2 ) =

1 si ∀relin tal que in ≤ Ni , rel1n ∩ rel2n 6= ∅ 0 si no

si alguno de los dos verbos tiene m´as relaciones que otro, bastar´a con que no aparezcan en el grafo en cuesti´on (depender´a de la forma de aplicar el verbo). 4.3.4.2.

Adjetivos, adverbios y sustantivos

Los adjetivos y los adverbios usar´an la misma medida que la previamente expuesta para los verbos (aunque en este caso las restricciones relacionales se podr´an referir a qu´e rol desempe˜ na la UW en un grafo). En el caso de los sustantivos, encontramos la particularidad de las instancias, que en vez de icl contienen en sus restricciones iof, que son u ´nicos y s´olo son sin´onimos de s´ı mismos. Por lo dem´as, la medida de similaridad ser´a igual a la general expuesta previamente, aunque dada la escasez de restricciones relacionales en comparaci´on con los verbos, esta parte de la funci´on aportar´a informaci´on en menos ocasiones:

Cap´ıtulo 4. Modelo propuesto

116

La funci´on sim(U W1 , U W2 )sust , con U Wi = HWi (icl > aiKi > ... > ai2 > ai1 > tipo, equ > bi , ant > ci , rel1 < uwi1 , ..., relN < uwiNi ) o U Wi = HWi (iof > ai ) quedar´a de la siguiente manera:

  si ambos son iof y HW1 6= HW2  0 simsust (U W1 , U W2 ) = 1 si ambos son iof y HW1 = HW2   sim(U W1 , U W2 ) en otro caso. 4.3.4.3.

Similaridad entre palabras de distinta categor´ıa

Si en alg´ un caso de mapeo debemos comparar la similaridad entre palabras de distintas clase (por ejemplo en el caso de “huir” y “huida”), usaremos como ayuda un lematizador de UWs y alguna de las distancias propuestas en el Estado del Arte para cadenas de caracteres (no hay ninguna que prevalezca sobre las dem´as en este contexto). 4.3.4.4.

Ejemplos de aplicaci´ on de la medida

A continuaci´on exponemos algunos ejemplos de c´omo act´ ua la medida desarrollada: UW1 : green(icl>qual adj,valqual adj,valdo,equ>calculate,agt>thing,obj>thing), UW2 : calculate(icl>do,equ>count,agt>thing,obj>thing) simicl (U W1 , U W2 ) = 1, pues ambos son verbos tipo icl>do pero no contienen ning´ un otro indicio intermedio.

Cap´ıtulo 4. Modelo propuesto

117

simrel (U W1 , U W2 ) = 1, ambos tienen las mismas restricciones en las relaciones argumentales. simequ (U W1 , U W2 ) = 1, pues la equivalencia es bidireccional: sim(U W1 , U W2 ) = 1 · 1 · 1 = 1, luego son sin´onimos.

UW1 : demonstrate(icl>show>do,equ>exhibit,agt>thing,obj>uw,rec>thing) UW2 : exhibit(icl>show>do,equ>expose,agt>thing,obj>thing) simicl (U W1 , U W2 ) = 1,5, pues ambos son verbos tipo icl>do y tienen un elemento intermedio com´ un. simrel (U W1 , U W2 ) = 1, pues no hay intersecciones vac´ıas entre sus relaciones comunes. simequ (U W1 , U W2 ) = 0,75, pues la equivalencia es unidireccional; sim(U W1 , U W2 ) = 1,5 · 0,75 · 1 = 1,125, luego son sin´onimos.

UW1 : poor(icl>adj,ant>rich), UW2 : rich(icl>adj,ant>poor) simicl (U W1 , U W2 ) = 1 simrel (U W1 , U W2 ) = 1, pues no existen restricciones. simant (U W1 , U W2 ) = −1, pues la antonimia es bidireccional; sim(U W1 , U W2 ) = 1 · (−1) · 1 = −1, luego son ant´onimos.

UW1 : poor(icl>adj,equ>bad), UW2 : rich(icl>adj,ant>poor) simicl (U W1 , U W2 ) = 1 simrel (U W1 , U W2 ) = 1, pues no existen restricciones. simant (U W1 , U W2 ) = −0,75, pues la antonimia es unidireccional; sim(U W1 , U W2 ) = 1·(−0,75)·1 = −0,75, luego son ant´onimos hasta cierto punto.

4.3.5.

Algoritmo de comparaci´ on de grafos

Veamos por u ´ltimo el algoritmo dise˜ nado para la comparaci´on de grafos, que utiliza los elementos expuestos hasta ahora.

Cap´ıtulo 4. Modelo propuesto

4.3.5.1.

118

Distinci´ on de casos del modelo comparativo

En el modelo de comparaci´on dividiremos los casos en funci´on de las @entry de los grafos que estemos tratando, pudiendo ser ambos verbos, ambos sustantivos, un verbo y un sustantivo, u otra categor´ıa gramatical. En la Figura 4.7 encontramos un diagrama con los cuatro casos contemplados, a saber: Caso 1: el @entry de ambos grafos es un verbo; es el caso m´as com´ un, en el que nos centraremos principalmente. Caso 2: un @entry es un sustantivo y el otro un verbo; para que se d´e la par´afrasis debe existir por tanto un cambio profundo en la estructura de una frase con respecto a la otra, siguiendo alguna de las regla de mapeo expuestas 4.3.2 para ver d´onde buscar las correspondencias en la frase. Un ejemplo muy sencillo de este caso es la par´afrasis entre “Gracias por tu ayuda” y “Te agradezco tu ayuda”, donde la similaridad a nivel de cadena de caracteres y de similaridad sem´antica (“agradecer” es igual que “dar gracias”) permiten ver la equivalencia. Caso 3: ambos @entry son sustantivos. La clave en estas oraciones suele encontrarse en la sinonimia, las cadenas de caracteres y los modificadores que acompa˜ nan al sustantivo (por ejemplo, en “Gracias por tu ayuda” y “Mis agradecimientos por tu ayuda”). Caso 4: caso en el que alg´ un @entry no es ni sustantivo ni verbo. Suelen ser casos concretos o frases muy cortas (como por ejemplo las frases “Encima de la mesa” y “Sobre la mesa” o “Cordialmente,” y “Suyo,” en un correo).

4.3.5.2.

Casos del modelo comparativo

A continuaci´on veremos en mayor detalle cada uno de los casos, poniendo especial ´enfasis en el caso 1 (donde los dos verbos son @entry). Contemplamos tres posibles resultados de la comparaci´on: o bien se corrobora la par´afrasis, o bien se descarta, o bien se considera que no hay suficientes indicios para afirmar o negar su existencia (por ejemplo, en casos como la presencia de textual entailment u otros fen´omenos que no cubrimos en esta tesis).

Cap´ıtulo 4. Modelo propuesto

119

grafo 1

grafo 2

(g1)

(g2)

g1.@entry

sustantivo

¾qué es?

verbo

otro

g2.@entry ¾qué es?

otro

caso 4

g2.@entry otro

¾qué es?

sustantivo verbo

verbo

caso 1

caso 2

sustantivo

caso 3

Figura 4.7: Los cuatro casos que podemos encontrar dependiendo de los @entry de las frases a comparar. El caso 1 son dos @entry verbales, el caso 2 un @entry verbal y otro nominal, el caso 3 dos @entry nominales y el caso 4 se da cuando alg´ un @entry no pertenece a ninguna de estas dos categor´ıas gramaticales.

Cap´ıtulo 4. Modelo propuesto

120

grafo 1 (g1)

grafo 2 (g2)

g1.@entry vs g2.@entry

distinto tipo de verbo

mismo tipo de verbo

g1.@entry = g2.@entry

¾caso de mapeo en clases de verbos?

sí

no sinónimos sinónimos

no ¾mismo marco semántico?

no

1. Comprobación de relaciones básicas

NO HAY PARÁFRASIS no

sí PUEDE EXISTIR PARÁFRASIS no / no se puede determinar ¾la información no mapeada no es relevante?

HAY PARÁFRASIS

sí

correspondencia exacta

correspondencia inexacta

3. Comprobación de mapeo entre relaciones

¾coinciden o es un caso especial? sí 2. Comprobación modicadores por orden

sí

no

¾coinciden?

Figura 4.8: Los pasos a seguir en el modelo de comparaci´on para el Caso 1 (ambos @entry son verbos).

Cap´ıtulo 4. Modelo propuesto

121

Caso 1 Como hemos mencionado en el apartado anterior, el caso 1 (verbo-verbo) es uno de los m´as frecuentes, por lo que ser´a en el que m´as profundicemos. El modelo comparativo para esta situaci´on se puede encontrar en la Figura 4.8, y los pasos de los que se compone se desglosan a continuaci´on: 1. En primer lugar, miramos si la categor´ıa ontol´ogica de los verbos @entry es la misma. Si lo es, miraremos si los verbos son sin´onimos (seg´ un nuestra medida de similaridad, expuesta en 4.3.4); si no tienen la misma categor´ıa, miraremos si se pueden mapear siguiendo las pautas explicadas previamente en la Secci´on 4.3.2 entre verbos icl>do y icl>be. a) Si tienen la misma categor´ıa y son sin´ onimos, las relaciones b´asicas argumentales deben corresponderse (paso 1). Si no lo hiciesen, y no se debiese a alguna de los casos especiales expuestos en la previamente en la Secci´on 4.3.2.3 (comparaci´on o superlativo), no podr´ıa existir la par´afrasis. En caso de corresponderse, pasamos a mirar los modificadores. b) Si tienen la misma categor´ıa y no son sin´ onimos, la u ´nica posibilidad de par´afrasis pasa por que los verbos pertenezcan al mismo marco sem´antico. Para ver si es el caso, basta con mirar la medida de similaridad: si los verbos tienen cierta relaci´on pero no llegan a ser sin´onimos o ant´onimos (es decir, que usamos como medida u ´nicamente la componente simicl (U W1 , U W2 ) esperando que sea mayor que 1), existe la posibilidad del marco sem´antico. Si no, descartamos la par´afrasis (aunque es posible que exista pero las restricciones de las UWs no sean suficientes para detectarla, siendo necesario alg´ un recurso externo tipo FrameNet). c) Si son de distinta categor´ıa pero el mapeo icl>do y icl>be no se cumple, a´ un queda la posibilidad de equivalencia dentro de un marco sem´antico (volver´ıamos al punto anterior). d ) Por u ´ltimo, si las pautas del mapeo s´ı se cumpliesen, pasar´ıamos a comparar las relaciones de los grafos (paso 1) siguiendo las equivalencias marcadas en la secci´on de mapeos (Secci´on 4.3.2).

Cap´ıtulo 4. Modelo propuesto

122

2. Una vez llegamos al paso 1, comparamos las relaciones argumentales b´asicas o las de mapeo, que deben cumplirse (si no, considerar´ıamos que no hay par´afrasis). Si lo hacen, pasamos al paso 2.

3. En el paso 2 compararemos los modificadores y los subgrafos en el orden explicado en la siguiente secci´on (identificaci´on de subgrafos). Si se cumpliesen todas las correspondencias, admitir´ıamos la par´afrasis. Si no, tendr´ıamos que ver si realizando cierto mapeo entre las relaciones (siguiendo las equivalencias de la jerarqu´ıa y teniendo en cuenta la peculiaridad de las relaciones coordinadas del grupo ModSC ) se solucionar´ıa este problema, o si la informaci´on no coincidente no es relevante o es imposible de determinar (un ejemplo de relaci´on no relevante se da con NAM y CNT, pues decir “Barack Obama, el presidente de EEUU” y “Barack Obama” es lo mismo). En estos casos podr´ıa haber par´afrasis; si no, rechazar´ıamos esta posibilidad.

Casos 2, 3 y 4

En el caso de tener @entry sustantivos o de otras categor´ıas, como ya comentamos anteriormente, usar´ıamos la medida de similaridad, los lemas y las medidas de cadenas de caracteres partiendo de que, a priori, los @entry deber´ıan corresponderse aunque sean de distinta categor´ıa gramatical. Las relaciones sem´anticas y argumentales se conservar´ıan en todos los casos, pero habr´ıa que tener en cuenta que si el n´ ucleo de un subgrafo es un sustantivo y mapea con otro subgrafo cuyo n´ ucleo es un verbo, los modificadores del primero ser´an ModS y mapear´an en el segundo grafo con modificadores Mod1 ; ocurre igual con los adjetivos y los verbos (aunque en este caso las relaciones ser´an siempre ModS3 , MAN). Es el caso por ejemplo de “Agradecer” y “gracias”, cuyas UWs son distintas (thank(icl>convey>do, agt>thing, obj>thing) y thank you(icl>thanks>thing), respectivamente) pero para las cuales la aplicaci´on de medidas de cadenas de caracteres prueba la similaridad (obteniendo por ejemplo, 0,5 en la medida derivada de la distancia de Levenshtein y 0,87 en la de Jaro-Winkler con p = 0,1 y l = 4).

Cap´ıtulo 4. Modelo propuesto

4.3.5.3.

123

Identificaci´ on de subgrafos

Cuando nos encontremos con un verbo, comprobaremos la similaridad entre los subgrafos igual que en el Caso 1 (considerando el verbo n´ ucleo como si fuese el @entry). Para comprobar la correspondencia (que dos nodos o subgrafos dicen lo mismo) entre otros tipos de palabra, seguiremos los siguientes pasos en la comprobaci´on: 1. Named Entities Recognition: si existen entidades en un subgrafo (representadas por medio de la restricci´on iof) y no en el otro, va a ser imposible que ambos subgrafos digan lo mismo (recordemos que trabajamos frase a frase, en textos completos podr´ıa identificarse la entidad con un hiper´onimo, por ejemplo). Este ser´a por tanto un paso clave en la identificaci´on de correspondencias entre dos grafos. Debemos considerar tambi´en que en el caso de no existir una correlaci´on directa, es posible que sean la misma entidad pero que debamos usar t´ecnicas de equivalencia como las usadas por ejemplo en las b´ usquedas extendidas, para lo cu´al ser´ıa necesario tener acceso a bases del concimiento y otros recursos similares (por ejemplo, para establecer la relaci´on entre “UPM” y “Universidad Polit´ecnica de Madrid”). Ya hemos comentado que esto queda fuera del alcance de la tesis, y se plantea como futura mejora del modelo. 2. Similitud entre nodos: usando la medida desarrollada previamente en la Secci´on 4.3.4. En este paso la similitud se buscar´a a su vez en el siguiente orden: a) Sinonimia sem´ antica: medida de similaridad. b) Antonimia sem´ antica: si el resultado de aplicar la medida de similaridad es negativo y menor de -1, se considerar´an ant´onimo. En este caso la similaridad estar´a relacionada con la presencia del atributo @not (“No es m´as alto que yo” y “Es m´as bajo que yo” por ejemplo expresar´ıan lo mismo) o el orden de los conceptos involucrados en una comparaci´on (“Es m´as alto que yo” y “Yo soy m´as bajo que ´el”). En cualquier otro caso implicar´ıa que los subgrafos son diferentes y se rechazar´ıa la equivalencia. c) Correspondencia entre cadenas de caracteres y lemas: como ya mencionamos en el apartado de similaridad sem´antica, en ocasiones

Cap´ıtulo 4. Modelo propuesto

124

puede que comparemos UWs que no sean de la misma categor´ıa (recordemos el ejemplo de “gracias” y “agradecer”). En este caso, podemos recurrir a las distancias de cadenas de caracteres o a la comparaci´on de lemas para ver si las palabras expresan lo mismo. 3. Presencia de modificadores en el subgrafo que puedan aportar matices relevantes a la frase (por ejemplo, si decimos “el coche rojo” y “el coche azul”, los subgrafos ser´an similares pero no es una par´afrasis, no hay equivalencia). 4. Revisi´ on de atributos: Si se ha comprobado la existencia de una relaci´on de similaridad, quedar´a por verificar la presencia de ciertos atributos. Encontramos dos casos posibles de atributo: Obligatorios: como por ejemplo @past o @not; en el caso de existir la negaci´on en uno de los grafos, debe darse en el otro o existir cierta diferencia que lo compense (por ejemplo, en el caso de la comparaci´on puede ser la presencia de un ant´onimo). Dependientes del contexto: la correspondencia ser´a en este caso m´as dif´ıcil de establecer. Un ejemplo muy com´ un, por ejemplo, se da en la correspondencia entre grupos y el plural de sus individuos: “El equipo se alegr´o de la victoria” y “Los jugadores del equipo se alegraron de la victoria”, donde en el segundo caso encontramos el atributo @pl. No obstante, tambi´en puede haber quien opine que no se da la par´afrasis, pues un equipo puede involucrar, por ejemplo, al entrenador, por lo que generalmente estos casos devolver´an en el modelo ausencia o posibilidad de par´afrasis como resultado. En el presente modelo s´olo nos preocupamos por los atributos obligatorios.

4.3.6.

Ejemplos de aplicaci´ on del modelo

A continuaci´on se exponen unos ejemplos del funcionamiento del modelo, cada uno con una particularidad. Uno de ellos contiene entidades, otro muestra la importancia de los atributos en la detecci´on de la par´afrasis y el u ´ltimo implica una comparaci´on (un caso con una estructura UNL particular). Comentamos adem´as en algunos de los ejemplos c´omo la introducci´on de algunas peque˜ nas modificaciones podr´ıa cambiar el resultado de la aplicaci´on del modelo.

Cap´ıtulo 4. Modelo propuesto

4.3.6.1.

125

Presencia de entidades

En este ejemplo usaremos dos frases extra´ıdas de [35]. En ella encontramos entidades (nombres de personas y una marca de coches) y un caso de sinonimia:

Figura 4.9: Grafo de la frase: “Tom bought a Honda from John.”

Figura 4.10: Grafo de la frase: “Tom purchased a Honda from John.”

1. Lo primero que vemos es que ambas @entry son verbos, por lo que esta comparaci´on seguir´a los pasos del Caso 1 (ver Figura 4.8). 2. El siguiente paso es ver si ambos @entry son el mismo tipo de verbo. Tanto buy como purchase son icl>do, por lo que s´olo quedar´ıa ver si dicen lo mismo. 3. Para ver si ambos verbos dicen lo mismo aplicamos la medida de similaridad desarrollada para el modelo: UW1 : purchase(icl>get>do, equ>buy, agt>thing), UW2 : buy(icl>get>do, agt>thing) simicl (U W1 , U W2 ) = 1,5, pues ambos tienen get en su jerarqu´ıa. simrel (U W1 , U W2 ) = 1 simequ (U W1 , U W2 ) = 0,75, pues la sinonimia es unidireccional; sim(U W1 , U W2 ) = 1,5 · (0,75) · 1 = 1,125, luego son sin´onimos.

Cap´ıtulo 4. Modelo propuesto

126

4. Ahora que sabemos que son sin´onimos, falta ver si existen atributos obligatorios y, en tal caso, si los comparten. Ambos tienen el mismo atributo temporal (@past), por lo que ambos expresan exactamente lo mismo. 5. En el siguiente paso del modelo debemos comprobar las relaciones b´asicas. En el caso de verbos tipo icl>do, son las siguientes: a) agt: ¿el contenido del subgrafo al que apunta la relaci´on agt es el mismo? Para comprobarlo seguimos los pasos expuestos en la Secci´on 4.3.5.3 para la identificaci´on de subgrafos. Lo primero es ver la presencia de entidades; en caso de darse, deben ser exactamente las mismas. Vemos que este es el caso, pues en ambos encontramos la misma entidad (Tom(iof>person)). No existen modificadores, ni atributos, ni nada m´as aparte de la entidad, por lo que significan lo mismo. b) obj: repetimos el proceso anterior y vemos que ambos verbos tienen como obj la entidad Honda(iof>car) con el atributo @indef, por lo que se verifica tambi´en esta relaci´on. c) src: ocurre lo mismo con John(iof>person). 6. El siguiente paso ser´ıa ver si se cumplen los modificadores. Al no haber, confirmamos la existencia de la par´afrasis. Posibles variaciones Imaginemos que en uno de los grafos hubiese existido alg´ un modificador, por ejemplo “Tom bought a Honda from John today” (lo que a˜ nadir´ıa una relaci´on TIM entre el verbo y today), y en el otro no. En ese caso, al no haber ninguna correspondencia en el otro grafo con dicha informaci´on, y sin saber si esa informaci´on es relevante (igual el contexto de la situaci´on hace que sea obvio), el modelo arrojar´ıa como resultado que la par´afrasis puede existir. Si en cambio ambas frases tuviesen modificadores, la par´afrasis podr´ıa depender de ellas: Pongamos por ejemplo que una frase tiene informaci´on temporal “Tom bought a Honda from John today” y otra espacial “Tom purchased a Honda from John here” (relaci´on PLC). En la jerarqu´ıa de relaciones del modelo,

Cap´ıtulo 4. Modelo propuesto

127

PLC y TIM no est´an juntas, es decir, que no pueden nunca expresar la misma informaci´on. Por ello, la par´afrasis no puede existir. Ahora imaginemos que ambas tienen la relaci´on TIM, pero con distinto contenido: “Tom bought a Honda from John today” y “Tom purchased a Honda from John tomorrow”. La medida de similaridad entre today y tomorrow es 0, por lo que no podemos determinar que sean sin´onimos ni ant´onimos (aunque podemos recurrir a recursos externos para verificarlo) y rechazamos por tanto la existencia de la par´afrasis. Pensemos en relaciones del mismo tipo (en este caso, modales): “Tom bought a Honda from John with cash payment” (INS, instrumento) y “Tom purchased a Honda from John paying with cash” (podr´ıa considerarse MAN o COO). Una vez verificado que el contenido del modificador es el mismo (dado que tanto por cadenas de caracteres como por lema se corroborar´ıa la similaridad entre payment y pay, los n´ ucleos de los subgrafos, y que ambos son modificados por cash), veremos que no tienen los mismos modificadores, pero que seg´ un nuestra jerarqu´ıa puede existir un mapeo entre INS, MAN y COO (esto se ver´ıa en el paso 3 del Caso 1, ver la Figura 4.8), d´andose la correspondencia exacta y concluyendo por tanto el modelo que la par´afrasis existe. Por u ´ltimo, veamos que ocurrir´ıa si cambi´asemos el verbo dentro del marco sem´antico de la frase. Como seres humanos, sabemos que “Tom bought a Honda from John” es lo mismo que “John sold a Honda to Tom”. Sin embargo, a nivel m´aquina y sin recursos externos, no podr´ıamos reconocer esta situaci´on, y el modelo decidir´ıa que los verbos no son sin´onimos. Ddado que las UWs sell(icl>exchange>do, agt>thing, obj>thing) y buy(icl>get>do, agt>thing) no se relacionar´ıan seg´ un la medida de similaridad sem´antica, determinar´ıa que no hay par´afrasis (en caso de consultar a un recurso de marcos sem´anticos, dir´ıa que puede existir). Una manera de solucionar esto ser´ıa transcribir marcos sem´anticos ya testados a estructuras UNL (por ejemplo, ser capaces de mapear que el agt de buy ser´a el rec de buy, y que src pasar´a a ser agt, debiendo mantenerse el contenido de obj igual en ambos grafos), pero se deja planteado como trabajo futuro.

Cap´ıtulo 4. Modelo propuesto

4.3.6.2.

128

Similaridad sem´ antica con varios verbos

El siguiente (extra´ıdo de [9]) es un ejemplo con frases que incluyen varios verbos (y por tanto varios subgrafos).

Figura 4.11: Grafo de la frase: “Me coment´o que no pensaba participar en el concurso.”

Figura 4.12: Grafo de la frase: “Me dijo que pensaba participar en el concurso.”

1. De nuevo, ambas @entry son verbos, por lo que esta comparaci´on seguir´a los pasos del Caso 1. 2. Los dos @entry, say y tell, son icl>do, pasamos pues al siguiente punto. 3. Es el momento de aplicar la medida de similaridad desarrollada para el modelo: UW1 : say(icl>express>do, equ>state, agt>thing, obj>thing), UW2 : tell(icl>express>do, equ>state, agt>thing, obj>thing) simicl (U W1 , U W2 ) = 1,5, pues ambos tienen express en su jerarqu´ıa.

Cap´ıtulo 4. Modelo propuesto

129

simrel (U W1 , U W2 ) = 1 simequ (U W1 , U W2 ) = 1, pues la sinonimia es bidireccional. sim(U W1 , U W2 ) = 1,5 · (1) · 1 = 1,5, luego son sin´onimos. 4. Ahora que sabemos que son sin´onimos, falta ver si existen atributos obligatorios y, en tal caso, si los comparten. Ambos tienen el mismo atributo temporal (@past), por lo que expresan exactamente lo mismo. 5. En el siguiente paso del modelo debemos comprobar las relaciones b´asicas. La primera ser´a agt, que vemos que en ambos casos es la misma UW. Despu´es miramos obj, que es un verbo (es decir, que estamos ante una oraci´on subordinada), n´ ucleo de su propio subgrafo (en las Figura 4.13 se ilustran los subgrafos de la oraci´on para facilitar el seguimiento del proceso). Volvemos a iniciar por tanto el proceso de comparaci´on del Caso 1 tratando al verbo como si fuese la @entry del subgrafo (el 1 seg´ un la nomenclatura en la Figura 4.13): a) Lo primero ser´a ver si los verbos son del mismo tipo y si son sin´onimos. Dado que son la misma UW (intend(icl>will>do, agt>thing, obj>thing)), es evidente que s´ı. Miramos ahora los atributos. Ambos tienen el mismo atributo temporal (@past), pero uno de ellos tiene @not y el otro no, por lo que no expresan lo mismo. No obstante, no podemos descartar la par´afrasis, pues puede que alguna de las relaciones de este verbo contengan la antonimia que compense la negaci´on (podr´ıamos encontrar por ejemplo una relaci´on de comparaci´on BAS). b) Miremos ahora las relaciones: en ambos grafos el verbo comparte el mismo agt (he(icl>thing)) y el mismo obj, que de nuevo es un verbo, por lo que comenzamos otra vez el proceso de comparaci´on entre subgrafos con n´ ucleos verbales, tomando participate(icl>do, equ>enter, agt>thing) como @entry. 1) Dado que son la misma UW y que tienen los mismos atributos, participate(icl>do, equ>enter, agt>thing) quieren decir lo mismo. Miramos a continuaci´on las relaciones. 2) Tambi´en coincide el obj (contest(icl>competition>thing)), siendo la misma UW con los mismos atributos (@def ).

Cap´ıtulo 4. Modelo propuesto

130

3) El siguiente paso es mirar los modificadores. Existe en ambos un modificador del verbo de lugar (PLC), con el mismo contenido. Concluimos por tanto que este subgrafo (el 2 en la Figura 4.13) dice exactamente lo mismo. Una vez comprobadas ambas relaciones y visto que contienen exactamente la misma informaci´on pero no contiene la relaci´on BAS, no existe nada que pueda compensar el atributo @not que encontr´abamos en el verbo. Por tanto, en el subgrafo 1 negamos la par´afrasis. Aunque la equivalencia en la relaci´on rec que nos quedaba por mirar se cumple (en ambos casos es la UW i(icl>thing)), dado que la relaci´on obj (el subgrafo 1) de ambos @entry no se corresponde, negamos la existencia de la par´afrasis.

Figura 4.13: Subgrafos en el proceso de comparaci´on entre dos oraciones. Consideraremos el subgrafo 1 el mayor y de color m´as claro, siendo por tanto el subgrafo 2 el menor y de tonalidad m´as oscura.

Cap´ıtulo 4. Modelo propuesto

4.3.6.3.

131

Caso de comparaci´ on

Por u ´ltimo, veamos uno de los casos especiales expuesto en la Secci´on 4.3.2.3, la comparaci´on, con un ejemplo parecido al expuesto en [9].

Figura 4.14: Grafo de la frase: “Las ciudades del norte son m´as ricas que las ciudades del sur.”. Las expresiones tipo :01 y :02 responden a notaci´on interna de UNL y sirven para distinguir la aparici´on repetida de una misma UW en distintas partes del grafo, ya que pueden tener distintos atributos, por ejemplo (no afectar´a para la comparaci´on).

Figura 4.15: Grafo de la frase: “Las ciudades del sur son m´as pobres que las ciudades del norte.” Comenzamos como siempre por el @entry de las oraciones. Ambos son del mismo tipo y son de hecho la misma UW, be(icl>be,aoj>thing,obj>thing), por lo que son sin´onimos. Faltar´ıa s´olo mirar los atributos; en ambos grafos tienen @present como u ´nico atributo obligatorio, con lo que pasamos a mirar las relaciones.

Cap´ıtulo 4. Modelo propuesto

132

Las relaciones b´asicas argumentales de los verbos tipo icl>be son aoj y obj, as´ı que pasamos a examinarlas. Lo primero que nos encontramos con dos aoj. Esto s´olo puede significar que nos encontramos ante un caso de comparaci´on, por lo que pasamos a enfocarlo como tal, siguiendo lo explicado en la Secci´on 4.3.2.3. Recordemos que ten´ıamos varios posibles casos de par´afrasis y una estructura (expuesta en la Figura 4.6). Miraremos uno por uno si se cumple alguno de ellos: 1. Negaci´on del verbo e intercambio de conceptos: en ambas oraciones el verbo estaba sin negar, as´ı que no puede ser este caso. 2. Intercambio de conceptos y usar una caracter´ıstica ant´onima. Este caso s´ı es posible en nuestro ejemplo, as´ı que comenzamos la comprobaci´on. Primero miramos el obj. Son distintas palabras universales, as´ı que procedemos a aplicar la medida de similaridad. UW1 : rich(icl>adj, ant>poor), UW2 : poor(icl>adj, ant>rich) simicl (U W1 , U W2 ) = 1 simrel (U W1 , U W2 ) = 1, pues no tienen restricciones en este aspecto. simant (U W1 , U W2 ) = 1, pues la antonimia es bidireccional. sim(U W1 , U W2 ) = 1 · (1) · 1 = 1, luego son ant´onimos. Miramos ahora la correspondencia entre los atributos obligatorios (en ambas @pl ) y las relaciones que salen de nuestra caracter´ıstica (pues podr´ıa ser tambi´en un subgrafo, por ejemplo “descaradamente rico”, y ser´ıa necesario comprobar que no modifican la antonimia y que se corresponden en ambos). Visto que la u ´nica relaci´on saliente es la del comparativo (que es la misma UW), se cumple la antonimia, y s´olo nos queda por ver si los conceptos se intercambian. Siguiendo la relaci´on saliente BAS del comparativo encontramos el concepto 2, unido tambi´en al @entry por la relaci´on aoj. Comparemos entonces el concepto 2 del grafo 1 con el concepto 1 del grafo 2, y viceversa: concepto 2 - grafo 1 VS concepto 1 - grafo 2 : seg´ un el proceso de identificaci´on de subgrafos, miramos si el n´ ucleo del subgrafo es una entidad. No lo es, as´ı que pasamos a ver si hay una relaci´on de similaridad seg´ un nuestra medida. Vemos que es la misma UW city(icl>administrati ve district>thing,equ>town, y con los mismos atributos obligatorios, @def y @pl. Debemos ahora si tambi´en se corresponden los modifi-

Cap´ıtulo 4. Modelo propuesto

133

cadores; el u ´nico que encontramos en cada grafo es un MOD con la misma UW y mismos atributos, south(icl>cardinal compass point>thing) y @def, sin modificadores propios, as´ı que podemos concluir que el n´ ucleo es el mismo y con los mismos modificadores, por lo que concluimos que ambos subgrafos expresan lo mismo. concepto 1 - grafo 2 VS concepto 2 - grafo 1: seguimos el mismo proceso y vemos que tambi´en se corresponden. Se da por tanto el caso de comparaci´on de antonimia e intercambio de conceptos, por lo que pasamos al siguiente punto del algoritmo para el Caso 1, la comprobaci´on de modificadores. Al no haberla, el modelo concluye que hay par´afrasis. Posibles variaciones Algunas posibles variantes sobre el mismo grafo: Modificadores dentro de subgrafos: si por ejemplo en una de las frases hubi´esemos encontrado “ciudades del este”, o simplemente “ciudades”, no se hubiese dado la par´afrasis. Modificadores oracionales: si hubi´esemos a˜ nadido informaci´on del tipo “Las ciudades del sur son habitualmente m´as pobres que las ciudades del norte.”, tendr´ıamos que haber seguido comparando despu´es de establecer la correspondencia. Sin´ onimos: el concepto no tiene por qu´e ser igual, tambi´en se hubiese dado la par´afrasis en el caso de que en un grafo el concepto fuese “ciudad del norte” y en el otro “poblaci´on del norte”.

4.4.

Resumen final sobre el modelo

En el presente cap´ıtulo hemos presentado el modelo desarrollado para la tesis, desglosando los distintos componentes que lo conforman por separado. A continuaci´on se expone un breve repaso de estos elementos:

Cap´ıtulo 4. Modelo propuesto

134

La jerarqu´ıa de relaciones, donde se agrupan las relaciones UNL por el tipo de informaci´on que expresan y se relacionan entre s´ı respondiendo a cu´ales de ellas pueden contener la misma informaci´on en caso de par´afrasis. Mapeos y correspondencias entre distintos tipos de verbos, grafos no verbales y algunos casos especiales de relaciones en UNL (comparaci´on, superlatividad y coordinaci´on). Una selecci´ on de los atributos que deben coincidir para que se d´e la par´afrasis. Una medida de similaridad creada para estudiar la sinonimia y la antonimia entre UWs. El algoritmo de comparaci´ on entre grafos, junto con los pasos para la identificaci´on de los subgrafos con n´ ucleo no verbal. Finalmente, se han expuesto algunos ejemplos de c´omo actuar´ıa en frases sencillas, sem´anticamente muy parecidas, con y sin par´afrasis. En el siguiente cap´ıtulo veremos un caso de aplicaci´on pr´actica a un documento completo, con oraciones mucho m´as complejas.

Cap´ıtulo 5 Experimentaci´ on y resultados 5.1.

Implementaci´ on

Para la validaci´on formal del modelo se ha implementado una versi´on parcial del mismo (que no incluye los casos en los que se usan recursos externos al modelo ni la base de datos de las todas las UWs existentes o la comparaci´on de cadenas de caracteres) en Java. Esta implementaci´on, al no depender de recursos externos, funciona de manera independiente y requiere s´olo los grafos UNL a comparar, ya que u ´nicamente usa la informaci´on contenida en los mismos. Esta implementaci´on permite procesar los grafos UNL y efectuar la detecci´on de la par´afrasis, devolviendo paso a paso las distintas etapas del algoritmo y el resultado final. A grandes rasgos, esta implementaci´on se compone de cuatro clases: Una para las UWs, que incorpora la medida de similaridad desarrollada y el tratamiento de los atributos (si son obligatorios o no, si una UW es @entry, etc). Otra para el procesamiento de las relaciones dentro del grafo. Una tercera clase para la lectura de los grafos. Una u ´ltima clase, m´as compleja, para el modelo, que incluye la identificaci´on del caso, el algoritmo (implementado de forma recursiva a trav´es de los distintos n´ ucleos de los subgrafos) y el proceso de comparaci´on de los distintos subgrafos. 135

Cap´ıtulo 5. Experimentaci´on y resultados

5.2.

136

Validaci´ on

Como ya se coment´o en el apartado correspondiente de la definici´on del trabajo (Secci´on 3.6), para la validaci´on se ha usado un documento ajeno elegido por un ling¨ uista, a quien tambi´en se le ha solicitado que introduzca cambios (distintas palabras, negaciones...) para modificar el significado del mismo. El texto original y su versi´on modificada se muestran a continuaci´on: Texto original Los espa˜ noles no conf´ıan en que los Gobiernos est´en usando bien sus datos Los ciudadanos afirman que no saben ni qui´en, ni d´onde, est´a capturando y almacenando sus datos. Es decir, solo el 33 % de los espa˜ noles cree que los Gobiernos respetan la privacidad y el 22 % sostiene que conf´ıan en que lo est´en haciendo las empresas. Adem´as, cuando aumenta la edad y baja el nivel de instrucci´on disminuye dr´asticamente las ventajas percibidas sobre el Big Data.

Texto modificado Los espa˜ noles no conf´ıan en que los Gobiernos no est´en usando bien sus datos Los ciudadanos niegan que no saben ni qui´en, ni d´onde, est´a capturando y almacenando sus datos. Es decir, solo el 33 % de los espa˜ noles cree que los Gobiernos respetan la privacidad y el 22 % sostiene que conf´ıan en que no lo est´en haciendo las empresas. Adem´as, cuando disminuye la edad y aumenta el nivel de instrucci´on aumenta dr´asticamente las ventajas percibidas sobre el Big Data. Aplicaremos ahora la implementaci´on realizada del modelo de comparaci´on desarrollado sobre las cuatro frases del texto original y sus correspondientes en la versi´on modificada para ver si ambos textos dicen lo mismo. Por cuestiones de legibilidad, los resultados del algoritmo se muestran en el Anexo C. Aunque para validar el funcionamiento del modelo vamos a mirar todas las frases por orden, cabe destacar que no es necesario hacerlo as´ı, pues hallar una diferencia ya implicar´ıa que ambos textos son distintos, por lo que a la primera discrepancia podr´ıamos parar la comparaci´on sin necesidad de revisar m´as oraciones. Adem´as,

Cap´ıtulo 5. Experimentaci´on y resultados

137

el orden no es relevante, y una posible opci´on para intentar tardar el m´ınimo tiempo posible en la comprobaci´on ser´ıa por ejemplo buscar primero entidades y corroborar si las frases en las que aparecen se corresponden; si no lo hacen, se descartar´ıa la par´afrasis.

5.2.1.

T´ıtulo

Las frases a comparar son las siguientes, expuestas tambi´en en forma de grafo UNL:

Figura 5.1: Verificaci´on: Grafo del t´ıtulo del texto original. “Los espa˜ noles no conf´ıan en que los Gobiernos est´en usando bien sus datos”

Figura 5.2: Verificaci´on: Grafo del t´ıtulo del texto modificado. “Los espa˜ noles no conf´ıan en que los Gobiernos no est´en usando bien sus datos” Es evidente que estas dos frases no expresan lo mismo. El cambio viene dado por una negaci´on en la relaci´on obj, el n´ ucleo del primer subgrafo, por lo que ser´a en ese punto en el que el algoritmo decidir´a que no hay par´afrasis (despu´es de detectar internamente que no se trata de un caso especial, como podr´ıa ser por ejemplo la comparaci´on). El resultado arrojado por la implementaci´on del

Cap´ıtulo 5. Experimentaci´on y resultados

138

modelo es por tanto que no hay par´afrasis, pues como podemos ver en la Figura C.1, el algoritmo detecta la negaci´on y niega en consecuencia la existencia de la par´afrasis.

5.2.2.

Oraci´ on 1

Los grafos de la primera oraci´on del texto y su versi´on modificada son los siguientes:

Figura 5.3: Verificaci´on: Grafo de la oraci´on 1 del texto original. “Los ciudadanos afirman que no saben ni qui´en, ni d´onde, est´a capturando y almacenando sus datos”

Figura 5.4: Verificaci´on: Grafo de la oraci´on 1 del texto modificado. “Los ciudadanos niegan que no saben ni qui´en, ni d´onde, est´a capturando y almacenando sus datos” Estas dos oraciones tampoco dicen lo mismo. El modelo devuelve el como re-

Cap´ıtulo 5. Experimentaci´on y resultados

139

sultado que no hay par´afrasis al no encontrar similaridad entre los verbos de las oraciones (es un caso que requerir´ıa de marcos sem´anticos, pues “afirmar A(obj)” equivale a nivel l´ogico a “negar A.@not(obj)”), como podemos ver en la Figura C.2. Aunque el resultado es correcto (pues no hay par´afrasis), vemos que ha sido propiciado por la limitaci´on impuesta sobre los marcos sem´anticos. No obstante, como ya hemos comentado, es preferible que no detecte los marcos y rechace la par´afrasis a que la diese por v´alida no existiendo, por lo que dentro de las limitaci´on prefijadas del modelo el resultado es correcto.

5.2.3.

Oraci´ on 2

Dado que la siguiente oraci´on y su correspondiente modificaci´on son particularmente complejas en lo referente a cantidad de verbos, los grafos son excesivamente extensos, por lo que no los adjuntamos como imagen: Es decir, solo el 33 % de los espa˜ noles cree que los Gobiernos respetan la privacidad y el 22 % sostiene que conf´ıan en que lo est´en haciendo las empresas. Es decir, solo el 33 % de los espa˜ noles cree que los Gobiernos respetan la privacidad y el 22 % sostiene que conf´ıan en que no lo est´en haciendo las empresas. Como vemos en el resultado (ver la Figura C.3), tampoco estas dos frases dicen lo mismo, pues se ha introducido un no que cambia el final de la frase. Este es un buen ejemplo de c´omo el algoritmo se va introduciendo recursivamente en los distintos subgrafos, comprobando la similaridad hasta que descubre alg´ un punto conflictivo, momento en el que va devolviendo este descubrimiento a los subgrafos que contienen esta la discrepancia y que han ido llam´andole.

5.2.4.

Oraci´ on 3

Por u ´ltimo, las terceras oraciones (cuyos grafos se muestran a continuaci´on) s´ı mantienen una relaci´on de par´afrasis, ya que el hecho de que al darse ciertas condiciones en una funci´on estad´ıstica aumente un resultado implica que de darse

Cap´ıtulo 5. Experimentaci´on y resultados

140

las contrarias bajar´a. No obstante, esto pertenece a la l´ogica y nuestro modelo no tiene por qu´e detectarlo.

Figura 5.5: Verificaci´on: Grafo de la oraci´on 3 del texto original. “Adem´as, cuando aumenta la edad y baja el nivel de instrucci´on disminuye dr´asticamente las ventajas percibidas sobre el Big Data.”

Figura 5.6: Verificaci´on: Grafo de la oraci´on 3 del texto modificado. “Adem´as, cuando disminuye la edad y aumenta el nivel de instrucci´on aumenta dr´asticamente las ventajas percibidas sobre el Big Data”

En el resultado (Figura C.4) vemos c´omo la medida de similitud identifica cierta relaci´on en las restricciones de los verbos aumentar y disminuir, por lo que considera que pertenecen al mismo marco sem´antico y devuelve que puede existir par´afrasis (como es efectivamente el caso).

Cap´ıtulo 5. Experimentaci´on y resultados

5.3.

141

Conclusiones sobre la validaci´ on

En el proceso de comparaci´on de los textos hemos comprobado c´omo el modelo es capaz de detectar cambios en el contenido, ya sea por falta de sinonimia o por la introducci´on de diferentes modificadores. Adem´as, podemos observar que en los casos en que la posible par´afrasis viene dada por fen´omenos no contemplados en esta tesis (como los marcos sem´anticos), el modelo devolver´a que la par´afrasis puede existir si es capaz de detectar cierto marco sem´antico com´ un (como es el caso de la u ´ltima oraci´on), o que no existe si no encuentra dicha relaci´on (como ocurre en la primera oraci´on), lo que se corresponde con lo deseado: si no se puede verificar, mejor negar o decir que puede existir la par´afrasis. Concluimos por tanto que el modelo funciona correctamente en el texto analizado. Por u ´ltimo, para testar el correcto comportamiento del modelo en otros casos de posible par´afrasis no presentes en el texto, se adjuntan otros casos de prueba usados para la validaci´on de la implementaci´on en el Anexo D.

Cap´ıtulo 6 Conclusiones y futuros caminos El modelo presentado en esta tesis ofrece una soluci´on al problema de la par´afrasis ling¨ u´ıstica. En el Estado del Arte hemos visto c´omo algo tan b´asico como la propia definici´on del concepto de par´afrasis no est´a completamente estandarizado, y distintos autores ofrecen diferentes tolerancias a lo que es o no el mismo significado; adem´as, existen multitud de maneras de expresar la misma informaci´on en cada lengua, por lo que la par´afrasis en un idioma no tiene por qu´e serlo en otro. Es por ello que hemos limitado el alcance de nuestro modelo a los casos m´as comunes e independientes de la lengua. Cabe destacar, adem´as, que las propuestas existentes suelen ser funcionar s´olo para una lengua, y aunque el procedimiento sea en ocasiones aplicable a corpus de distintos idiomas o se use alguna lengua pivote intermedia en el proceso, estos modelos no podr´an comparar frases en cualquier idioma, caso que s´ı contempla nuestro modelo. Presentamos por tanto el que es que hasta la fecha (y hasta donde sabemos) el primer modelo de detecci´on de par´afrasis interlingual existente, si bien este modelo sufre a´ un de ciertas limitaciones que se espera eliminar en una futura tesis doctoral. Pasamos a continuaci´on a enumerar las contribuciones del trabajo realizado, as´ı como las l´ıneas futuras de investigaci´on a las que da pie (y que se planea abordar en la tesis doctoral derivada de esta tesis de m´aster).

6.1.

Contribuciones

Las principales contribuciones de la presente tesis de cara a investigaci´on futura en el a´mbito de la par´afrasis son las siguientes: 142

Cap´ıtulo 6. Conclusiones y futuros caminos

143

La redacci´on de un extenso Estado del Arte relativo tanto a la par´afrasis como a dos a´reas fundamentales relacionadas con la misma: los sistemas de representaci´on del conocimiento y el concepto de similaridad. Definici´on de un modelo de comparaci´ on y detecci´ on de par´ afrasis entre dos oraciones expresadas como grafos UNL, tarea que ha llevado a la creaci´on de una jerarqu´ıa de relaciones UNL organizadas en funci´on de la informaci´on que contienen y a la selecci´on de los atributos UNL imprescindibles para que se de la par´afrasis entre dos oraciones. Este modelo ha sido tambi´en parcialmente implementado para verificar el correcto funcionamiento del algoritmo que propone, en combinaci´on con los distintos elementos desarrollados que lo componen. Definici´on de una distancia sem´ antica sobre palabras universales de UNL, la primera de la que se tiene conocimiento, para suplir la carencia de una ontolog´ıa UNL. Construcci´on de un repositorio de casos de par´ afrasis (tanto originales como recopilados de distintos art´ıculos sobre la par´afrasis) de cara a la continuaci´on de la investigaci´on en una futura tesis doctoral, para la cu´al se han esbozado adem´as los principales obst´aculos a superar y algunos posibles caminos a seguir, que se exponen en la siguiente secci´on.

6.2.

Futuras l´ıneas a seguir

De cara a la continuaci´on del tema presentado, estos son algunos de los posibles caminos que se plantean: Creaci´on de un corpus mayor de oraciones con y sin par´afrasis en formato de grafo UNL para una mayor y m´as exhaustiva verificaci´on del modelo y su implementaci´on. Ampliaci´on del funcionamiento del modelo. Algunas ideas que se barajan son: • Buscar m´as casos de par´afrasis y otros posibles v´ınculos entre las relaciones y los atributos.

Cap´ıtulo 6. Conclusiones y futuros caminos

144

• Reforzar las equivalencias entre las relaciones por medio de pesos cuantitativos y patrones concretos, como por ejemplo el uso de palabras clave, como ciertos verbos (la relaci´on INS y MOD puede verse reforzada en caso de aparecer verbos como emplear, utilizar o usar ). • Subordinar la similaridad entre ciertas palabras a la presencia de ciertos modificadores que complementen (positiva o negativamente) dicha similaridad (como ocurre en tomar o comer algo de cena, que equivale a cenar ), creando patrones para las distintas expresiones. • Ampliar el alcance de las entidades: actualmente s´olo contemplamos nombres propios o n´ umeros ya clasificados como tal en UNL gracias a la restricci´on iof; no obstante, podemos encontrar entidades no clasificadas, como ser´ıa el caso de “la Universidad Polit´ecnica de Madrid”. Podr´ıan usarse para identificar estos casos los patrones ling¨ u´ısticos sobre grafos UNL desarrollados en una tesis doctoral de este mismo a˜ no [24], ideados para el Ontology Learning pero aplicables tambi´en en este contexto, o alguna t´ecnica de expansi´on de consultas como las expuestas en el Estado del Arte adapt´andola a UNL. Profundizaci´on e incorporaci´on de algunos de los fen´omenos relacionados, como el ya mencionado textual entailment y la l´ogica (para lo que necesitar´ıamos adaptar recursos externos a UNL o crear algunos nuevos). Otro fen´omeno importante a nivel de documentos completos es el tratamiento de la correferencia, ya tratado en UNL en [24] y cuyo enfoque podr´ıa adaptarse tambi´en al tratamiento de la par´afrasis en UNL. El tratamiento de los marcos sem´anticos tambi´en ofrece una interesante l´ınea de investigaci´on a seguir. La creaci´on de marcos en forma de plantillas del tipo “A(agt) buy B(obj) C(src) = C(agt) sell B(obj) A(rec)” nos permitir´ıa tratar algunas de las par´afrasis que en nuestro caso no se corroboran (ver el u ´ltimo caso de los ejemplos de validaci´on del Anexo D). Otra limitaci´on que ser´ıa interesante eliminar es la de la correspondencia frase a frase, permitiendo por ejemplo la segmentaci´on de una oraci´on en dos (para este caso ser´ıa imprescindible abordar el tratamiento de la correferencia comentado en l´ıneas anteriores). Una de las principales carencias que hemos sufrido en este trabajo es la

Cap´ıtulo 6. Conclusiones y futuros caminos

145

falta de una ontolog´ıa UNL. Aunque no se ha llevado a cabo por la falta de tiempo, se considera que podr´ıa crearse una autom´aticamente teniendo en cuenta las mismas consideraciones contempladas en la medida de similaridad, permitiendo adem´as que esta fuese m´as r´apida (pues no ser´ıa necesario ir concatenando equivalencias y antonimias). La necesidad de una posterior revisi´on manual del resultado ha impedido realizarla en el plazo de esta Tesis de Fin de M´aster, pero se perfila como una de las primeras tareas a abordar en el futuro. Por u ´ltimo, dada la magnitud del trabajo a llevar a cabo, se plantea para la continuaci´on del trabajo la limitaci´on del modelo a un a´rea determinada (se est´a considerando concretamente la validaci´on de contratos), lo que permitir´ıa una correcta y exhaustiva creaci´on de todos los recursos necesarios (plantillas, marcos...) dentro de un ´ambito controlado (ser´ıa inabordable crear todos estos recursos de cero para absolutamente cualquier contexto). Esto, en combinaci´on con la consecuci´on de las l´ıneas anteriores, dar´ıa lugar a un modelo completo de detecci´on de la par´afrasis a nivel interlingual, con todas las ventajas y posibilidades que esto implica y con el rigor que permitir´ıa la independencia de recursos externos.

Anexo A Relaciones UNL Relacion UNL

Descripci´on

agt

agent

a thing which initiates an action

and

conjunction

a conjunctive relation between concepts

aoj

thing with attribute

a thing which is in a state or has an attribute

apn

concatenation

bas

basis

a thing used as the basis(standard) for expressing degree

ben

beneficiary

a not directly related beneficiary or victim of an event or state

cnt

content

an equivalent concept

cob

affected co-thing

a thing which is directly affected by an implicit event done in parallel or an implicit state in parallel

con

condition

a non-focused event or state which conditioned a focused event or state

coo

co-occurrence

a co-occurred event or state for a focused event or state

dur

duration

a period of time during an event occurs or a state exists

fmt

range

a range between two things

frm

origin

an origin of a thing

146

Anexo A. Relaciones UNL

147

gol

goal/final state

the final state of object or the thing finally associated with object of an event

ins

instrument

the instrument to carry out an event

man

manner

the way to carry out event or characteristics of a state

met

method

a means to carry out an event

mod

modification

a thing which restrict a focused thing

nam

name

a name of a thing

obj

affected thing

a thing in focus which is directly affected by an event or state

or

disjunction

disjunctive relation between two concepts

per

proportion, rate or distribution

a basis or unit of proportion, rate or distribution

plc

place

the place an event occurs or a state is true or a thing exists

plf

initial place

the place an event begins or a state becomes true

plt

final place

the place an event ends or a state becomes false

pof

part-of

a concept of which a focused thing is a part

pos

possessor

the possessor of a thing

ptn

partner

an indispensable non-focused initiator of an action

pur

purpose or objective

the purpose or an objective of an agent of an event or a purpose of a thing which exist

qua

quantity

a quantity of a thing or unit

rec

recipient

a participant that recieves something

rsn

reason

a reason that an event or a state happens

scn

scene

a virtual world where an event occurs or state is true or a thing exists

seq

sequence

a prior event or state of a focused event or state

src

source/initial state

the initial state of an object or thing initially associated with the object of an event

tim

time

the time an event occurs or a state is true

Anexo A. Relaciones UNL

148

tmf

initial time

the time an event starts or a state becomes true

tmt

final time

the time an event ends or a state becomes false

val

value

describes the value of a parameter

via

intermediate place or state

an intermediate place or state of an event

Tabla A.1: Atributos de UNL, versi´on actualizada de los originales de [121]

.

Anexo B Atributos UNL Time @past

happened in the past ex) He went there yesterday. ex) It was snowing yesterday

@present

happening at present ex) It’s raining hard.

@future

will happen in future ex) He will arrive tomorrow Speaker’s view of Aspect

@begin

beginning of an event or a state ex) It began to work again.

@complete

finishing/completion of a (whole) event. ex) I’ve looked through the script

@continue

continuation of an event ex) He went on talking.

@custom

customary or repetitious action ex) I used to visit [I would often go] there when I was a boy

@end

end/termination of an event or a state ex) I have done it.

@experience

Experience ex) Have you ever visited Japan? ex) I have been there.

149

Anexo B. Atributos UNL

150

@experience

Experience ex) Have you ever visited Japan? ex) I have been there.

@progress

an event is in progress ex) I am working now.

@repeat

repetition of an event ex) He is jumping.

@state

final state or the existence of the object on which an action has been taken ex) It is broken.

@just

ex) He has just come.

@soon

ex) The train is about to leave.

@yet

feeling of not yet begin or end/complete ex) I have not yet done it. Speaker’s view of Reference

@generic

generic concept

@def

already referred

@indef

non-specific class

@not

complement set

@ordinal

ordinal number Speaker’s Focus

@emphasis

Emphasis ex) “I do like it”

@entry

Entry point or main UW of whole UNL expressions or in a hyper (scope) node

@qfocus

The focused UW of a question

@theme

Instantiates an object from different class

@title

Title

@topic

The topic UW of a sentence Speaker’s attitudes

@confirmation

Confirmation ex) “You won’t say that, will you?” ex) “sou desu ne?” (In Japanese)

Anexo B. Atributos UNL

151

@exclamation

Feeling of exclamation ex) “kirei na!”(“How beautiful (it is)!”In Japanese) ex) “Oh!, look out!”, “Ow!”

@imperative

Imperative ex) “Get up!” ex) “You will please leave the room.”

@interrogative

Interrogation ex) “Who is it?”

@invitation

Inducement to do something ex) “Will / Won’t you have some tea?” ex) “Let’s go, shall we?”

@polite

Polite feeling ex) “Could you (please)...” ex) “If you could . . . I would . . . ”

@request

Request ex) “ please don’t forget (@request)

@respect

Respectful feeling ex) “o taku(@respect)”(“(your) house” in Japanese) ex) “Good morning(@respect), sir.”

@vocative

Vocative ex) “Boys(@vocative), be ambitious!” Speaker’s view point

@ability

ability, capability of doing things ex) He can speak English but he can’t write it very well.

@admire

express speaker’s admiration

@although

ex) Quit smoking but he still smoke

@apodosis-real

apodosis: reality in the first person ex) We should (would) love to go abroad if we had the chance

@apodosis-unreal

apodosis: A supposed result from a supposition contrary to reality ex) If we had more money, we could buy a car.

@apodosis-cond

apodosis: A supposed result from an assumed condition ex) He would smoke too much if I did not stop him

Anexo B. Atributos UNL

152

@ask-back

ask back

@conclusion

ex) He is her husband ; she is his wife.

@doubt

have doubt

@expectation

expectation to other’s ex) He’ll help you if you ask him. Will you have another cup of coffee? Will you (please, kindly, etc.) open the window? Would you excuse me ?

@grant

to give consent to do ex) Can I smoke in here? Could I smoke in here ? You may borrow my car if you like.

@grant-not

to not give consent to ex ) You mustn’t/are not allowed to/may not borrow my car.

@induce

induce to do

@inevitability

supposition that something is inevitable ex) They should be home by now. The game will (must / should) be finished by now. Oil will float (floats) on water. He’ll (always) talk for hours if you give him the chance. There must be a mistake. Mustn’t there be another reason for his behavior? They ought to be here by now.

@insistence

strong will to do ex) You shall do as I say. He shall be punished. It’s your own fault; you would take the baby with you.

@intention

will, intention to do ex) He shall get this money. You shall do exactly as you wish. I’ll write as soon I as can.. We won’t stay longer than two hours. He will do it, whatever you say. He will keep interrupting me.

@may

supposition of actual possibility ex ) We could go to the concert. The road may be blocked. We might go to the concert. What you say might be true.

Anexo B. Atributos UNL

153

@obligation

to oblige someone ex) The vendor shall maintain the equipment in good repair.

@obligation-not

forbid to do ex) You must be back by 10 o’clock. Yesterday you had to be back by 10 o’clock. Yesterday you said you must had to be back by 10 o’clock. You needn’t/don’t have to/are not obliged to be back by 10 o’clock.

@possibility

assume reasonable possibility ex ) Anybody can make mistakes. The road can be blocked. The road could be blocked.

@probability

assume probability ex) That would be his mother.

@regret

feel sorry

@should

to feel duty ex) You should do as he says.

@unexpectedpresumption

presumption contrary to a wish or expectation ex) It is odd that you should say this to me. I am sorry that this should have happened.

@unexpectedconsequence

consequence contrary to a wish or expectation ex) I made a draft, but it still needs another work.

@will

will to do ex) I shall not be long. We shall let you know our decision. We shall overcome. UNL Convention

@pl

Plural

@angle bracket

is used

@double parenthesis (( )) is used @double quotation

“ ” is used

@parenthesis

( ) is used

@single quotation

‘ ’ is used

@square bracket

[ ] is used

Tabla B.1: Relaciones conceptuales de UNL seg´ un [121]

.

Anexo C Validaci´ on del documento Los resultados de la validaci´on del texto devueltos por la implementaci´on se exponen a continuaci´on: Texto original Los espa˜ noles no conf´ıan en que los Gobiernos est´en usando bien sus datos Los ciudadanos afirman que no saben ni qui´en, ni d´onde, est´a capturando y almacenando sus datos. Es decir, solo el 33 % de los espa˜ noles cree que los Gobiernos respetan la privacidad y el 22 % sostiene que conf´ıan en que lo est´en haciendo las empresas. Adem´as, cuando aumenta la edad y baja el nivel de instrucci´on disminuye dr´asticamente las ventajas percibidas sobre el Big Data.

Texto modificado Los espa˜ noles no conf´ıan en que los Gobiernos no est´en usando bien sus datos Los ciudadanos niegan que no saben ni qui´en, ni d´onde, est´a capturando y almacenando sus datos. Es decir, solo el 33 % de los espa˜ noles cree que los Gobiernos respetan la privacidad y el 22 % sostiene que conf´ıan en que no lo est´en haciendo las empresas. Adem´as, cuando disminuye la edad y aumenta el nivel de instrucci´on aumenta dr´asticamente las ventajas percibidas sobre el Big Data.

154

Caso 1: (dos @entry verbales) --------------------------------------Comparación de subgrafo verbal con núcleos: trust[@present, @not, @entry] y trust[@present, @not, @entry] --------------------------------------Sinonimia correcta entre: trust[@present, @not, @entry] y trust[@present, @not, @entry] PASO 1: comparación de relaciones básicas de: trust[@present, @not, @entry] y trust[@present, @not, @entry] Comprobación de la relación obj:

Anexo C. Validaci´on del documento

run:

--------------------------------------Comparación de subgrafo verbal con núcleos: use[@progress, @present] y use[@not, @progress, @present] --------------------------------------Sinonimia correcta entre: use[@progress, @present] y use[@not, @progress, @present] Detectada negación unilateral entre use[@progress, @present] y use[@not, @progress, @present] No se cumple una relación obligatoria: obj ----------------------------RESULTADO: NO HAY PARÁFRASIS -----------------------------

´ Figura C.1: Resultado de la verificaci´on del t´ıtulo del texto: NO HAY PARAFRASIS 155

Caso 1: (dos @entry verbales)

---------------------------------------

Comparación de subgrafo verbal con núcleos: affirm[@present, @entry] y deny[@present, @entry] --------------------------------------Miramos los marcos

Anexo C. Validaci´on del documento

run:

Según los marcos, NO HAY PARÁFRASIS

----------------------------RESULTADO: NO HAY PARÁFRASIS

-----------------------------

´ Figura C.2: Resultado de la verificaci´on de la primera oraci´on del texto: NO HAY PARAFRASIS

156

Caso 1: (dos @entry verbales) --------------------------------------Comparación de subgrafo verbal con núcleos: hold[@present, @entry] y hold[@present, @entry] --------------------------------------Sinonimia correcta entre: hold[@present, @entry] y hold[@present, @entry] PASO 1: comparación de relaciones básicas de: hold[@present, @entry] y hold[@present, @entry] Comprobación de la relación aoj: --------------------------------------Comparación de subgrafo nominal con núcleos: spanish:02[@pl, @def] y spanish:02[@pl, @def] ----------------------------------------------------------------------------Comparación de subgrafo nominal con núcleos: percent:20[] y percent:20[] ----------------------------------------------------------------------------Comparación de subgrafo nominal con núcleos: 22[] y 22[] --------------------------------------Todos los modificadores se corresponden en el subgrafo con núcleos: 22[] y 22[] Todos los modificadores se corresponden en el subgrafo con núcleos: percent:20[] y percent:20[] Todos los modificadores se corresponden en el subgrafo con núcleos: spanish:02[@pl, @def] y spanish:02[@pl, @def] Comprobación de aoj OK Comprobación de la relación obj: --------------------------------------Comparación de subgrafo verbal con núcleos: trust[@present] y trust[@present] --------------------------------------Sinonimia correcta entre: trust[@present] y trust[@present] PASO 1: comparación de relaciones básicas de: trust[@present] y trust[@present] Comprobación de la relación obj: --------------------------------------Comparación de subgrafo verbal con núcleos: do[@progress, @present] y do[@progress, @present, @not] --------------------------------------Sinonimia correcta entre: do[@progress, @present] y do[@progress, @present, @not] Detectada negación unilateral entre do[@progress, @present] y do[@progress, @present, @not] No se cumple una relación obligatoria: obj No se cumple una relación obligatoria: obj ----------------------------RESULTADO: NO HAY PARÁFRASIS -----------------------------

157

´ Figura C.3: Resultado de la verificaci´on de la segunda oraci´on del texto: NO HAY PARAFRASIS

Anexo C. Validaci´on del documento

run:

Caso 1: (dos @entry verbales)

---------------------------------------

Comparación de subgrafo verbal con núcleos: decrease[@present, @entry] y increase[@present, @entry] --------------------------------------Miramos los marcos

Anexo C. Validaci´on del documento

run:

Según los marcos, PUEDE EXISTIR LA PARÁFRASIS

-----------------------------

RESULTADO: PUEDE EXISTIR PARÁFRASIS -----------------------------

´ Figura C.4: Resultado de la verificaci´on de la tercera oraci´on del texto: PUEDE EXISTIR LA PARAFRASIS

158

Anexo D Otros ejemplos de validaci´ on A continuaci´on se exponen algunas de las frases que se han usado para validar la implementaci´on del modelo, incluidos casos que no respetan las limitaciones impuestas para el modelo, junto con el resultado arrojado por la implementaci´on:

Frases

Resultado

¿Cu´al es la ciudad m´as grande de la India? ¿Cu´al es la ciudad menos peque˜ na de la India?

S´I (S´I)

¿Cu´al es la ciudad m´as grande de la India? ¿Cu´al es la ciudad m´as grande de Jap´on?

NO (NO)

¿Cu´al es la ciudad m´as grande de la India? ¿Cu´al es la ciudad menos grande de la India?

NO (NO)

¿Cu´al es la ciudad m´as grande de la India? ¿Cu´al es la ciudad m´as peque˜ na de la India?

NO (NO)

¿Cu´al es la ciudad menos peque˜ na de la India? ¿Cu´al es la ciudad menos grande de la India?

NO (NO)

¿Cu´al es la ciudad menos peque˜ na de la India? ¿Cu´al es la ciudad m´as peque˜ na de la India?

NO (NO)

Honda abre en 1980. Honda abre desde 1980.

S´I (S´I)

Honda abre en 1980. Honda abre en Jap´on.

NO (NO)

Tom compr´o el Toyota y un Honda a John. Tom compr´o un Honda y el Toyota a John.

S´I (S´I)

159

Anexo D. Otros ejemplos de validaci´on

160

Tom compr´o el Toyota y un Honda a John. Tom compr´o un Toyota y el Toyota a John.

NO (NO)

Las ciudades del norte son m´as ricas que las ciudades del sur. Las ciudades del norte son menos ricas que las ciudades del sur.

NO (NO)

Las ciudades del norte son m´as ricas que las ciudades del sur. Las ciudades del sur son menos ricas que las ciudades del norte.

S´I (S´I)

Las ciudades del norte son m´as ricas que las ciudades del sur. Las ciudades del norte son menos pobres que las ciudades del sur.

S´I (S´I)

Las ciudades del norte son m´as ricas que las ciudades del sur. Las ciudades del sur son menos pobres que las ciudades del norte.

NO (NO)

Las ciudades del norte son m´as ricas que las ciudades del sur. Las ciudades del norte no son m´as ricas que las ciudades del sur.

NO (NO)

Las ciudades del norte son m´as ricas que las ciudades del sur. Las ciudades del norte no son m´as pobres que las ciudades del sur.

NO (S´I)

Las ciudades del norte son tan ricas como las ciudades del sur. Las ciudades del norte son tan rica como las ciudades del sur.

NO (NO)

Tom compr´o un Honda a John. Tom no compr´o un Honda a John.

NO (NO)

Me dijo que pensaba participar en el concurso. Me coment´o que pensaba participar en el concurso.

S´I (S´I)

Me coment´o que pensaba participar en el concurso. Me coment´o que no pensaba participar en el concurso.

NO (NO)

Me dijo que pensaba participar en el concurso. Me coment´o que no pensaba participar en el concurso.

NO (NO)

La casa azul y blanca. La casa blanca y azul.

S´I (S´I)

Tom compr´o un Honda a John. John vendi´o un Honda a Tom.

NO (S´I)

. Tabla D.1: Algunos de las oraciones usadas para validar el modelo. En la primera columna encontramos las oraciones comparadas y en la segunda el resultado arrojado por la implementaci´on, junto con el resultado considerado correcto (entre par´entesis).

Bibliograf´ıa [1] Palakorn Achananuparp, Xiaohua Hu, y Xiajiong Shen. The Evaluation of Sentence Similarity Measures. En Data warehousing and knowledge discovery, p´ags. 305–316. Springer, 2008. [2] Maytham Alabbas y Allan Ramsay. Dependency Tree Matching with Extended Tree Edit Distance with Subtrees for Textual Entailment. En 2012 Federated Conference on Computer Science and Information Systems (FedCSIS), p´ags. 11–18. 2012. [3] Sameh Alansary. Interlingua-based Machine Translation Systems : UNL versus Other Interlinguas. 11th International Conference on Language Engineering, Ain Shams University, 2011. [4] Boanerges Aleman-meza, Christian Halaschek-wiener, Satya Sanket Sahoo, Amit Sheth, y I. Budak Arpinar. Template Based Semantic Similarity for Security Applications. En Intelligence and Security Informatics, p´ags. 621– 622. 2005. [5] Saif AlZahir, Qandeel Fatima, y Martin Cenek. New Graph-Based Text Summarization Method. En 2015 IEEE Pacific Rim Conference on Communications, Computers and Signal Processing (PACRIM), p´ags. 396–401. 2015. [6] Ion Androutsopoulos y Prodromos Malakasiotis. A survey of paraphrasing and textual entailment methods. Journal of Artificial Intelligence Research, 38:135–187, 2010. [7] Ricardo Baeza-Yates y Berthier Ribeiro-Neto. Modern information retrieval. ACM press New York, 1999. 161

Bibliograf´ıa

162

[8] Satanjeev Banerjee y Alon Lavie. METEOR: an automatic metric for MT evaluation with improved correlation with human judgments. En Proceedings of Workshop on Intrinsic and Extrinsic Evaluation Measures for MT and/or Summarization at the 43rd Annual Meeting of the Association of Computational Linguistics (ACL-2005), June, p´ags. 65–72. 2005. [9] Alberto Barr´on-Cede˜ no, Marta Vila, y Paolo Rosso. Detecci´on autom´atica de plagio : de la copia exacta a la par´afrasis. (2007):1–19, 2010. [10] Stephen Beale, Sergei Nirenburg, y Kavi Mahesh. Semantic analysis in the Mikrokosmos machine translation project. En Proceedings of the 2nd Symposium on Natural Language Processing, p´ags. 297–307. 1995. [11] Ronald Brachman y Hector Levesque. Knowledge Representation and Reasoning. Morgan Kaufmann Publishers Inc., 2004. [12] Ronald J. Brachman. What’s in a concept: structural foundations for semantic networks. International Journal of Man-Machine Studies, 9(2):127– 152, 1977. [13] Alexander Budanitsky y Graeme Hirst. Evaluating WordNet-based Measures of Lexical Semantic Relatedness. Computational Linguistics, 32(1):13– 47, 2006. [14] Horst Bunke. On a relation between graph edit distance and maximum common subgraph. Pattern Recognition Letters, 18(8):689–694, 1997. ´ [15] Jes´ us Carde˜ nosa, Carolina Gallardo, y Miguel Angel de la Villa. Interlingual information extraction as a solution for multilingual QA systems. En Proceedings of the 8th international conference on Flexible Query Answering Systems, p´ags. 500–511. Springer-Verlag, 2009. [16] Jes´ us Carde˜ nosa, Carolina Gallardo, y Luis Iraola. Interlinguas : A classical Approach for the Semantic Web. A Practical Case. En Mexican International Conference on Artificial Intelligence, p´ags. 932–942. Springer, 2006. [17] Jes´ us Carde˜ nosa, Carolina Gallardo, y Luis Iraola. UNL as a Text Content Representation language for Information Extraction. En Proceedings of the 7th international conference on Flexible Query Answering Systems, p´ags. 507–518. Springer Berlin Heidelberg, 2006.

Bibliograf´ıa

163

[18] Claudio Carpineto y Giovanni Romano. A Survey of Automatic Query Expansion in Information Retrieval. ACM Computing Surveys, 44(1):1–50, 2012. [19] Jackie Chi Kit Cheung. Distributional Semantics for Robust Automatic Summarization. Tesis Doctoral, University of Toronto, 2014. [20] Courtney Corley y Rada Mihalcea. Measuring the semantic similarity of texts. Proceedings of the Association for Computational Linguistics Workshop on Empirical Modeling of Semantic Equivalence and Entailment, p´ags. 13–18, 2005. [21] Madalina Croitoru, S´ebastien Ferr´e, y Dickson Lukose. Conceptual Structures: From Information to Intelligence, tomo 9 de Lecture Notes in Computer Science. Springer Berlin Heidelberg, 2010. [22] Krzysztof Czuba, Teruko Mitamura, y Eric Nyberg. Can Practical Interlinguas Be Used for Difficult Analysis Problems? En Proceedings of AMTA-98 Workshop on Interlinguas. 1998. [23] S¸tef˘anescu Dan, Rajendra Banjade, y Vasile Rus. A Sentence Similarity Method Based on Chunking and Information Content. En International Conference on Intelligent Text Processing and Computational Linguistics, p´ags. 442–453. Springer, 2014. ´ [24] Miguel Angel de la Villa. M´etodo para la construcci´on autom´atica de ontolog´ıas basado en patrones ling¨ u´ısticos. Tesis Doctoral, Universidad Polit´ecnica de Madrid, 2016. [25] Michael Denkowski y Alon Lavie. Meteor Universal: Language Specific Translation Evaluation for Any Target Language. En Proceedings of the Ninth Workshop on Statistical Machine Translation, p´ags. 376–380. 2014. [26] Mike Dillinger. Semantic Roles & Interlinguas. 2005. [27] Bonnie J. Dorr. UNITRAN: An Interlingual Approach to Machine Translation. En AAAI-87 Proceedings, p´ags. 534–539. 1987. [28] David Dowty. On the Semantic Content of the Notion of Thematic Role. En Properties Types and Meaning, tomo 39, p´ags. 69–130. 1989.

Bibliograf´ıa

164

[29] David Dowty. Thematic proto-roles and argument selection. Language, 67(3):547–619, 1991. [30] Philip Edmonds y Graeme Hirst. Near-Synonymy and Lexical Choice. Computational Linguistics, 28(2):105–144, 2002. [31] G¨ unes Erkan y Dragomir R. Radev. LexRank: Graph-based lexical centrality as salience in text summarization. Journal of Artificial Intelligence Research, 22:457–479, 2004. [32] David Farwell, Stephen Helmreich, Bonnie J. Dorr, et al. Interlingual annotation of multilingual text corpora. Proceedings of The North American Chapter of the Association for Computational Linguistics Workshop on Frontiers in Corpus Annotation, p´ags. 55–62, 2004. [33] Mirtha Lina Fern´andez y Gabriel Valiente. A graph distance metric combining maximum common subgraph and minimum common supergraph. Pattern Recognition Letters, 22(6-7):753–758, 2001. [34] Andrew Finch, Young-Sook Hwang, y Eiichiro Sumita. Using Machine Translation Evaluation Techniques to Determine Sentence-level Semantic Equivalence. En Proceedings of the Third International Workshop on Paraphrasing (IWP 2005), p´ags. 17–24. 2005. [35] Atsushi Fujita. Automatic Generation of Syntactically Well-formed and Semantically Appropriate Paraphrases. Tesis Doctoral, Nara Institute of Science and Technology (NAIST), 2005. [36] Brian Gallagher. Matching Structure and Semantics : A Survey on GraphBased Pattern Matching. Technical Report FS-06-02, p´ags. 45–53, 2006. [37] Xinbo Gao, Bing Xiao, Dacheng Tao, y Xuelong Li. A survey of graph edit distance. Pattern Analysis and Applications, 13(1):113–129, 2010. [38] Javier Garc´ıa Sogo. Medida de distancia sem´antica en grafos UNL. Tesis de M´aster. Universidad Polit´ecnica de Madrid. 2015. [39] Alexander F. Gelbukh y Igor A. Bolshakov. The Meaning - Text Model : Thirty Years After. En International Forum on Information and Documentation, tomo 1, p´ags. 10–16. 2000.

Bibliograf´ıa

165

[40] Asunci´on G´omez-P´erez, Mariano Fern´andez-L´opez, y Oscar Corcho. Ontological Engeenering: with examples from the areas of knowledge management, e-commerce and the Semantic Web. 2004. [41] Richard Wesley Hamming. Error Detecting and Error Correcting Codes. Bell System Technical Journal, 29(2):147–160, 1950. [42] Zellig Sabbettai Harris. Distributional Structure. Word, 10(2-3):146–162, 1954. [43] Michael Heilman y Noah A. Smith. Tree edit models for recognizing textual entailments, paraphrases, and answers to questions. En The 2010 Annual Conference of the North American Chapter of the ACL, p´ags. 1011–1019. 2010. [44] Jes´ us Herrera, Anselmo Pe˜ nas, y Felisa Verdejo. Textual Entailment Recognision Based on Dependency Analysis and WordNet. En Machine Learning Challenges. Evaluating Predictive Uncertainty, Visual Object Classification, and Recognising Tectual Entailment, p´ags. 231–239. 2006. [45] Djoerd Hiemstra, Nicholas Kushmerick, Carlotta Domeniconi, et al. Lightweight Ontologies. En Encyclopedia of Database Systems, p´ags. 1613–1619. Springer US, Boston, MA, 2009. [46] Graeme Hirst. Paraphrasing paraphrased. Invited talk at the Second International Workshop on Paraphrasing. En 41st Annual Meeting of the Association for Computational Linguistics. 2003. [47] Graeme Hirst y David St-Onge. Lexical chains as representations of context for the detection and correction of malapropisms. En WordNet - An Electronic Lexical Database, p´ags. 305–332. 1998. [48] ChukFong Ho, Masrah Azrifah Azmi Murad, Shyamala C. Doraisamy, y Rabiah Abdul Kadir. Measuring sentence similarity from both the perspectives of commonalities and differences. En Proceedings of the International Conference on Tools with Artificial Intelligence, ICTAI, tomo 1, p´ags. 318– 322. 2010.

Bibliograf´ıa

166

[49] Jay J. Jiang y David W. Conrath. Semantic Similarity Based on Corpus Statistics and Lexical Taxonomy. Proceedings of International Conference Research on Computational Linguistics, p´ags. 19–33, 1997. [50] Simon Kasper. A comparison of thematic role theories. Tesis Doctoral, 2008. [51] Kevin Knight y Steve K Luk. Building a Large-Scale Knowledge Base for Machine Translation. En AAAI 94 Proceedings of the twelfth national conference on Artificial Intelligence, tomo 94, p´ags. 773–778. 1994. [52] Milen Kouylekov y Bernardo Magnini. Tree edit distance for recognizing textual entailment: Estimating the cost of insertion. En Proceedings of the PASCAL RTE-2 Challenge, p´ags. 68–73. 2006. [53] Claudia Leacock y Martin Chodorow. Combining Local Context and WordNet Similarity for Word Sense Identification. WordNet: An electronic lexical database., 49(2):265–283, 1998. [54] Fritz Lehmann. Semantic networks. Computers & Mathematics with Applications, 23(2-5):1–50, 1992. [55] Xiao Li y Qingsheng Li. Calculation of Sentence Semantic Similarity Based on Syntactic Structure. Mathematical Problems in Engineering, 2015. [56] Yuhua Li, David McLean, Zuhair A. Bandar, James D. O’Shea, y Keeley Crockett. Sentence similarity based on semantic nets and corpus statistics. IEEE Transactions on Knowledge and Data Engineering, 18(8):1138–1150, 2006. [57] Dekang Lin. Using syntactic dependency as local context to resolve word sense ambiguity. En Proceedings of the 35th annual meeting on Association for Computational Linguistics, p´ags. 64–71. 1997. [58] Dekang Lin. Automatic retrieval and clustering of similar words. En Proceedings of the 17th international conference on Computational linguistics, p´ags. 768–774. 1998. [59] Xiaoying Liu y Chuan-Lun Ren. Similarity measures based on sentence semantic structure for recognizing paraphrase and entailment. En Proceedings

Bibliograf´ıa

167

of the 2013 International Conference on Machine Learning and Cybernetics, tomo 4, p´ags. 1601–1607. 2013. [60] Xiaoying Liu, Yiming Zhou, y Ruoshi Zheng. Sentence Similarity based on Dynamic Time Warping. International Conference on Semantic Computing (ICSC 2007), p´ags. 250–256, 2007. [61] Elena Lloret. Text summarization: an overview. 2008. [62] Steven L. Lytinen. Conceptual dependency and its descendants. Computers & Mathematics with Applications, 23(2):51–73, 1992. [63] Nitin Madnani y Bonnie J. Dorr. Generating Phrasal and Sentential Paraphrases: A Survey of Data-Driven Methods. Computational Linguistics, 36(3):341–387, 2010. [64] Nitin Madnani, Joel Tetreault, y Martin Chodorow. Re-examining Machine Translation Metrics for Paraphrase Identification. En Proceedings of the 2012 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies (NAACL HLT ’12), p´ags. 182–190. 2012. [65] Alexander Maedche y Valentin Zacharias. Clustering Ontology-Based Metadata in the Semantic Web. Principles of Data Mining and Knowledge Discovery, 2431:383–408, 2002. [66] Ana G. Maguitman, Filippo Menczer, Heather Roinestad, y Alessandro Vespignani. Algorithmic detection of semantic similarity. En Proceedings of the 14th international conference on World Wide Web, p´ags. 107–116. 2005. [67] P. Maher. A similarity measure for conceptual graphs. Journal of Intelligent Systems, 8:819–819, 1993. [68] Prodromos Malakasiotis. Paraphrase and Textual Entailment. Tesis Doctoral, 2011. [69] S. Mangairkarasi y S. Gunasundari. Semantic based Text Summarization using Universal Networking Language. International Journal of Applied Information Systems, 3(8):18–23, 2012.

Bibliograf´ıa

168

[70] Igor A. Mel’ˇcuk. Meaning-Text Models: A Recent Trend in Soviet Linguistics. En Annual Review of Anthropology, p´ags. 27–62. 1981. [71] Igor A. Mel’ˇcuk. Paraphrase et lexique: la th´eorie Sens-Texte et le Dictionnaire explicatif et combinatoire. 1992. [72] Igor A. Mel’ˇcuk. The Meaning-Text Approach to the Study of Natural Language and Linguistic Functional Models. En LACUS Forum, tomo 24, p´ags. 3–20. 1998. [73] Igor A. Mel’ˇcuk y A. K. Zholkovskij. Towards a Functioning “MeaningText” Model of Language. Linguistics, 8(57):10–47, 1970. [74] Lingling Meng, Runqing Huang, y Junzhong Gu. A Review of Semantic Similarity Measures in WordNet. International Journal of Hybrid Information Technology, 6(1):1–12, 2013. [75] Rada Mihalcea, Courtney Corley, y Carlo Strapparava. Corpus-based and knowledge-based measures of text semantic similarity. En Proceedings of the 21st national conference on Artificial Intelligence, tomo 1, p´ags. 775–780. 2006. [76] Rada Mihalcea y Paul Tarau. TextRank: Bringing order into texts. Proceedings of EMNLP, 4(4):404–411, 2004. [77] George A. Miller. WordNet : A Lexical Database for English. Communications of the ACM, 38(11):39–41, 1995. [78] Marvin Minsky. A framework for representing knowledge. 1974. [79] Teruko Mitamura, Eric Nyberg, Enrique Torrejon, et al. Pronominal anaphora resolution in KANTOO English-to-Spanish machine translation system. En Proceedings of MT Summit, p´ags. 235–239. 2001. [80] Michael Mohler, Marc Tomlinson, y David Bracewell. Applying textual entailment to the interpretation of metaphor. En Proceedings - 2013 IEEE 7th International Conference on Semantic Computing, ICSC 2013, p´ags. 118–125. 2013.

Bibliograf´ıa

169

[81] Manuel Montes y G´omez, Alexander Gelbukh, Aurelio L´opez-L´opez, y Ricardo Baeza-Yates. Flexible Comparison of Conceptual Graphs. Database and Expert Systems Applications, p´ags. 102–111, 2001. [82] Manuel Montes y G´omez, Alexander F. Gelbukh, y Aurelio L´opez-L´opez. Comparison of conceptual graphs. En MICAI 2000: Advances in Artificial Intelligence, p´ags. 548–556. Springer, 2000. [83] Kazunori Muraki. PIVOT: Two-Phase Machine Translation System. En Machine Translation Summit, p´ags. 81–83. 1989. [84] David Nadeau y Satoshi Sekine. A survey of named entity recognition and classification. Lingvisticae Investigationes, 1(30):3–26., 2007. [85] Felix Naumann. Similarity measures. 2013. [86] Roberto Navigli y Simone Paolo Ponzetto. BabelNet : The automatic construction, evaluation and application of a wide-coverage multilingual semantic network. Artificial Intelligence, 193:217–250, 2012. [87] Ani Nenkova y Kathleen McKeown. A survey of text summarization techniques. En Mining Text Data, p´ags. 43–76. Springer, 2012. [88] Akitoshi Okumura, Kazunori Muraki, y Susumu Akamine. Multi-lingual sentence generation from the PIVOT interlingua. En Proceedings of the MT Summit ’91, July, p´ags. 67–71. 1991. [89] Partha Pakray, Soujanya Poria, y Sivaji Bandyopadhyay. Semantic Textual Entailment Recognition using UNL. Polibots. Research journal on Computer science and computer engineering with applications, 43(Ml):23–27, 2011. [90] S. Lakshmana Pandian y S. Kalpana. UNL based document summarization based on level of users. International Journal of Computer Applications, 66(24):28–36, 2013. [91] Maria Teresa Pazienza, Marco Pennacchiotti, y Fabio Massimo Zanzotto. Textual Entailment as Syntactic Graph Distance: a rule based and a SVM based approach. Recognizing Textual Entailment, 2005.

Bibliograf´ıa

170

[92] Maria Teresa Pazienza, Marco Pennacchiotti, y Fabio Massimo Zanzotto. Learning textual entailment on a distance feature space. En Machine Learning Challenges. Evaluating Predictive Uncertainty, Visual Object Classification, and Recognising Textual Entailment, p´ags. 240–260. Springer Berlin Heidelberg, 2006. [93] Diana P´erez y Enrique Alfonseca. Application of the Bleu algorithm for recognising textual entailments. En Proceedings of the First Challenge Workshop Recognising Textual Entailment, p´ags. 9–12. 2005. [94] Roy Rada, Hafedh Mili, Ellen Bicknell, y Maria Blettner. Development and applications of a metric on semantic nets. Transactions on Systems, Man and Cybernetics, 19(1):17–30, 1989. [95] Marta Recasens y Marta Vila. On Paraphrase and Coreference. Computational Linguistics, 36(4):639–647, 2010. [96] Florence Reeder, Bonnie J. Dorr, David Farwell, et al. Interlingual annotation for MT development. Machine Translation: From Real Users to Research. 6th Conference of the Association for Machine Translation in the Americas, AMTA 2004. Proceedings (Lecture Notes in Artificial Intelligence Vol.3265), p´ags. 236–245, 2004. [97] Philip Resnik. Using Information Content to Evaluate Semantic Similarity in a Taxonomy. En Proceedings of the 14th international joint conference on Artificial intelligence - IJCAI’95, tomo 1, p´ag. 6. 1995. [98] Miguel Rios, Wilker Aziz, y Lucia Specia. TINE: A Metric to Assess MT Adequacy. En Proceedings of the Sixth Workshop on Statistical Machine Translation (WMT 2011), p´ags. 116–122. 2011. [99] Miguel Rios, Wilker Aziz, y Lucia Specia. UOW: Semantically Informed Text Similarity. En Proceedings of the First Joint Conference on Lexical and Computational Semantics (*SEM), p´ags. 673–678. 2012. [100] Josef Ruppenhofer, Michael Ellsworth, y Mrl Petruck. FrameNet II: Extended theory and practice. p´ag. 118, 2010. [101] Alfredo S´anchez Alberca. Modelado y Comparaci´on de Colecciones en la Web Sem´antica. Tesis Doctoral, Universidad Polit´ecnica de Madrid, 2015.

Bibliograf´ıa

171

[102] Roger C. Schank y Robert P. Abelson. Scripts, Plans, and Knowledge. En Proceedings of the 4th International Joint Conference on Artificial Intelligence, p´ags. 151–157. 1975. [103] Roger C. Schank y Lawrence G. Tesler. A conceptual parser for natural language. En Proceedings of the 1st international joint conference on Artificial intelligence, p´ags. 569–578. Morgan Kaufmann Publishers Inc., 1969. [104] D. Shen y M. Lapata. Using semantic roles to improve question answering. En Proceedings of EMNLP, p´ags. 12–21. 2007. [105] Andr´e Shenk. Idioms in the Rosetta Machine Translation System. En Proceedings of the 11th Conference on Computational Linguistics, 16, p´ags. 319–324. 1986. [106] Sherry y Parteek Bhatia. Multilingual text summarization with UNL. En In Computer Engineering and Applications (ICACEA), 2015 International Conference on Advances in, p´ags. 740–745. 2015. [107] Matthew Snover, Bonnie Dorr, Richard Schwartz, Linnea Micciulla, y John Makhoul. A Study of Translation Edit Rate with Targeted Human Annotation. En Proceedings of Association for Machine Translation in the Americas, p´ags. 223–231. 2006. [108] John F. Sowa. Conceptual Graphs for a Data Base Interface. IBM Journal of Research and Development, 20(4):336–357, 1976. [109] John F. Sowa. Principles of Semantic Networks: Explorations in the Representation of Knowledge, tomo 8. Morgan Kaufmann Publishers Inc., 1991. [110] John F. Sowa. Conceptual graphs as a universal knowledge representation. Computers and Mathematics with Applications, 23(2-5):75–93, 1992. [111] John F. Sowa. Knowledge representation: logical, philosophical, and computational foundations. 2000. [112] John F. Sowa. Conceptual Graphs. En Handbook of Knowledge Representation, tomo Volume 3, cap. 5, p´ags. 213–237. 2008.

Bibliograf´ıa

172

[113] John F. Sowa y Eileen C. Way. Implementing a semantic interpreter using conceptual graphs. IBM Journal of Research and Development, 30(1):57– 69, 1986. [114] Robert Speer y Catherine Havasi. ConceptNet 5: A Large Semantic Network for Relational Knowlwdge. En Oliver Ferschke, Johannes Daxenberger, y Iryna Gurevych, eds., The People’s Web Meets NLP: Theory and Applications of Natural Language Processing., p´ags. 121–160. 2013. [115] Maja Stanojevi´c. Cognitive synonymy: A general overview. Linguistics and Literature, 7:193–200, 2009. [116] Michael Sussna. Word Sense Disambiguation for Free-text Indexing Using a Massive Semantic Network. Proceedings of the Second International Conference on Information and Knowledge Management, p´ags. 67–74, 1993. [117] George Tsatsaronis, Iraklis Varlamis, y Michalis Vazirgiannis. Text relatedness based on aword thesaurus. Journal of Artificial Intelligence Research, 37:1–39, 2010. [118] Peter D. Turney y Patrick Pantel. From frequency to meaning: Vector space models of semantics. Journal of Artificial Intelligence Research, 37:141–188, 2010. [119] Amos Tversky y Eldar Shafir. Preference, Belief, and Similarity: selected writings. MIT Press, 2004. [120] Hiroshi Uchida. ATLAS II: A Machine Translation System Using Conceptual Structure as an Interlingua. Second International Conference on Theoretical and Methodological Issues in Machine Translation of Natural Languages, 1988. [121] Hiroshi Uchida y Meiying Zhu. The universal networking language beyond machine translation. En International Symposium on Language in Cyberspace. Se´ ul, 2001. [122] Hiroshi Uchida, Meiying Zhu, y Tarcisio Della Senta. A Gift for a Millennium. JANUARY. 1999.

Bibliograf´ıa

173

[123] Lucy Vanderwende y William B Dolan. What Syntax can Contribute in the Entailment Task. En Machine Learning Challenges. Evaluating Predictive Uncertainty, Visual Object Classification, and Recognising Textual Entailment, p´ags. 205–216. Springer Berlin Heidelberg, 2006. [124] Bernard Vauquois y Christian Boitet. Automated translation at Grenoble University. Computational Linguistics, 11(1):28–36, 1985. [125] Marta Vila, M. Ant`onia Mart´ı, y Horacio Rodr´ıguez. Is This a Paraphrase? What Kind? Paraphrase Boundaries and Typology. Open Journal of Modern Linguistics, p´ags. 205–218, 2014. [126] Marta Vila Rigat. Paraphrase Scope and Typology . A Data-Driven Approach from Computational Linguistics A Data-Driven Approach from Computational Linguistics. Tesis Doctoral, Univesitat de Barcelona, 2013. [127] Ellen M. Voorhees. Query Expansion using Lexical-Semantic Relations. En Proceedings of the 17th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, p´ags. 61–69. SpringerVerlag New York, Inc., 1994. [128] William E. Winkler. String Comparator Metrics and Enhanced Decision Rules in the Fellegi-Sunter Model of Record Linkage. En Proceedings of the Section on Survey Research, p´ags. 354–359. 1990. [129] Toon Witkam. DLT: an industrial R & D project for multilingual MT. En Association for Computational Linguistics, ed., Journal of Chemical Information and Modeling, p´ags. 756–759. 1988. [130] Zhibiao Wu y Martha Palmer. Verb semantics and lexical selection. 32nd annual meeting on Association for Computational Linguistics, p´ags. 133– 138, 1994. [131] J. W. Zhong, H. P. Zhu, J. M. Li, y Y. Yu. Conceptual graph matching for semantic search. Conceptual Structures: Integration and Interfaces, Proceedings, 2393:92–106, 2002. [132] Ingrid Zukerman y Bhavani Raskutti. Lexical query paraphrasing for document retrieval. En Proceedings of the 19th international conference on Computational linguistics -Volume 1, p´ags. 1–7. 2002.

Bibliograf´ıa

174

[133] Ingrid Zukerman, Bhavani Raskutti, y Yingying Wen Yingying Wen. Query expansion and query reduction in document retrieval. En Proceedings of the 15th IEEE International Conference on Tools with Artificial Intelligence. 2003.

Recommend Stories

Story Transcript

Get in touch

Social