Palabras y elementos funcionales en atribución de autoría árabe

V Jornada de Recerca de l'IULA, BARCELONA, septiembre 2012 Palabras y elementos funcionales en atribución de autoría árabe Palabras y elementos func

2 downloads 36 Views 220KB Size

Story Transcript

V Jornada de Recerca de l'IULA, BARCELONA, septiembre 2012

Palabras y elementos funcionales en atribución de autoría árabe

Palabras y elementos funcionales en atribución de autoría árabe

David García Barrero

INSTITUT UNIVERSITARI DE LINGÜÍSTICA APLICADA UNIVERSITAT POMPEU FABRA

1

Palabras y elementos funcionales en atribución de autoría árabe

V Jornada de Recerca de l'IULA, BARCELONA, septiembre 2012

ÍNDICE • • • •

Marco teórico Objetivos Hipótesis Metodología – Corpus – Herramientas – Variables – Análisis estadístico • ANOVA • A. Discriminante

• Conclusiones • Investigación futura

INSTITUT UNIVERSITARI DE LINGÜÍSTICA APLICADA UNIVERSITAT POMPEU FABRA

2

Palabras y elementos funcionales en atribución de autoría árabe

MARCO TEÓRICO

V Jornada de Recerca de l'IULA, BARCELONA, septiembre 2012

Lingüística aplicada

• Lingüística forense – Lenguaje evidencial o probatorio • Atribución/determinación de autoría de textos → ejecutiva (que no: » declarada » colaborativa » de revisión)

• Variación lingüística • Lingüística computacional y de corpus (metodología)

INSTITUT UNIVERSITARI DE LINGÜÍSTICA APLICADA UNIVERSITAT POMPEU FABRA

3

Palabras y elementos funcionales en atribución de autoría árabe

V Jornada de Recerca de l'IULA, BARCELONA, septiembre 2012

OBJETIVOS 1. Verificar para el árabe las hipótesis ya validadas para otras lenguas de trabajo (inglés, castellano, catalán). 2. Determinar las variables potencialmente discriminantes en árabe (tipológicamente diversa de aquellas). 3. Establecer una metodología fiable de atribución, que permita realizar con rigor científico la comparación forense de textos escritos en árabe estándar moderno.

INSTITUT UNIVERSITARI DE LINGÜÍSTICA APLICADA UNIVERSITAT POMPEU FABRA

4

Palabras y elementos funcionales en atribución de autoría árabe

HIPÓTESIS

V Jornada de Recerca de l'IULA, BARCELONA, septiembre 2012

• Estilo idiolectal (Turell 2010) 1. Variación interautor > intraautor 2. Variación interautor intragénero > intraautor intergénero 3. Variación interautor intratiempo > intraautor intertiempo

INSTITUT UNIVERSITARI DE LINGÜÍSTICA APLICADA UNIVERSITAT POMPEU FABRA

5

Palabras y elementos funcionales en atribución de autoría árabe

METODOLOGÍA: Corpus

V Jornada de Recerca de l'IULA, BARCELONA, septiembre 2012

• Variedad: ‘árabe estándar moderno’ •

Variable de control

– 1 origen: autores marroquíes (v. diatópica) •

Variables de estratificación

– 2 géneros (relato y artículo de crítica literaria) – 2 tiempos relativos •

Muestras de 650 “palabras” [adaptación estándar 800]



3 autores, 2 tiempos, 2 géneros; x 5 = 60 muestras



Dificultad: recopilación, procesamiento (no OCR)

INSTITUT UNIVERSITARI DE LINGÜÍSTICA APLICADA UNIVERSITAT POMPEU FABRA

6

Palabras y elementos funcionales en atribución de autoría árabe

V Jornada de Recerca de l'IULA, BARCELONA, septiembre 2012

METODOLOGÍA: Herramientas • CADIM (Columbia's Arabic Dialect Modeling Group), Universidad de Columbia – MADA 3.2 (Morphological Analysis and Disambiguation for Arabic) + TOKAN (“a general tokenizer for Arabic”) • Buckwalter Arabic Morphological Analyzer (BAMA) – Standard Arabic Morphological Analyzer (SAMA) – Aramorph 1.2.1, desde MADA 3.2 (febrero 2012), gratuito. INSTITUT UNIVERSITARI DE LINGÜÍSTICA APLICADA UNIVERSITAT POMPEU FABRA

7

Palabras y elementos funcionales en atribución de autoría árabe

V Jornada de Recerca de l'IULA, BARCELONA, septiembre 2012

METODOLOGÍA: Herramientas input

‫ا  و‬ Alcrbya wxSwSyAthA

TOKAN

‫ه‬+ ‫ ت‬+‫   و‬+‫ال‬ Al+ crbya w+ xSwSyAt +Ha

MADA [+PRON]

N

[CONJ+]

N

[ART+]

INSTITUT UNIVERSITARI DE LINGÜÍSTICA APLICADA UNIVERSITAT POMPEU FABRA

8

Palabras y elementos funcionales en atribución de autoría árabe

V Jornada de Recerca de l'IULA, BARCELONA, septiembre 2012

METODOLOGÍA: Variables Unidades • Palabras segmentadas – – – – – – –

Artículo Pronombres Preposiciones Conjunciones Demostrativos Negadores Puntuación

(+) (+/-) (+/-) (+/-) (-) (-) (-)

Mediciones • Frecuencias relativas WordSmith • Densidad léxica (ratio type/token) • Desviación estándar de palabra por frase • Palabras con n caracteres

Combinaciones (enegramas) de conjunción y puntuación INSTITUT UNIVERSITARI DE LINGÜÍSTICA APLICADA UNIVERSITAT POMPEU FABRA

9

Palabras y elementos funcionales en atribución de autoría árabe

METODOLOGÍA: Variables

V Jornada de Recerca de l'IULA, BARCELONA, septiembre 2012

Combinación de conjunciones y puntuación: ----------------[, y]---------------• Trigrama de caracteres • Bigrama de tokens (palabras, puntuación) • Bigrama de categoría gramatical y puntuación

Arroja información sobre categorías oracionales: [----------------], y[----------------] INSTITUT UNIVERSITARI DE LINGÜÍSTICA APLICADA UNIVERSITAT POMPEU FABRA

10

Palabras y elementos funcionales en atribución de autoría árabe

Análisis: ANOVA INTERAUTOR

V Jornada de Recerca de l'IULA, BARCELONA, septiembre 2012

T1G1

T1G2

INTERGÉNERO T2G1

T2G2

MEDIA A1T1

A1T2

INTERTIEMPO A2T1

A2T2

A3T1

A3T2

A1G1

A1G2

A2G1

A2G2

A3G1

A3G2

108 ratio type/token (ag)

0,00801 0,00067 0,00099 0,00004 0,00243 0,02699 0,67472 0,04187 0,64248 0,02924 0,31544 0,56637 0,00855 0,02878 0,75751 0,71537 0,37994

110 ratio type/token (sg)

0,00842 0,00156 0,00006 0,00001 0,00251 0,17954 0,33317 0,96818 0,63695 0,03037 0,02214 0,65504 0,04492 0,12987 0,45880 0,96119 0,38723

89 , ‫و‬

0,03417 0,00101 0,00382 0,00004 0,00976 0,18722 0,35545 0,60316 0,10040 0,00982 0,24048 0,00316 0,00027 0,96366 0,12237 0,71066 0,09734

117 palabras de 2 letras (ag)

0,03047 0,00059 0,00585 0,03211 0,01726 0,07112 0,57020 0,28791 0,60978 0,10711 0,41628 0,21453 0,00506 0,07558 0,61086 0,91137 0,04851

125 REL. palabras de 2 letras (ag)

0,02956 0,00085 0,01221 0,04981 0,02311 0,03667 0,96399 0,16014 0,81134 0,25628 0,32576 0,14656 0,00032 0,03681 0,80879 0,83746 0,08467

81 RATIO ,/.

0,07344 0,01816 0,00369 0,00024 0,02388 0,00506 0,07236 0,30152 0,00032 0,01086 0,06697 0,01565 0,00133 0,03958 0,15550 0,64544 0,01861

103 RATIO /‫و‬

0,02419 0,06126 0,01365 0,00046 0,02489 0,80327 0,13466 0,25141 0,85023 0,02578 0,49237 0,00809 0,00238 0,01469 0,51175 0,29488 0,50701

109 types (segmentados)

0,07559 0,02450 0,00110 0,00003 0,02530 0,00488 0,54474 0,03147 0,89965 0,58667 0,35391 0,43257 0,00020 0,02970 0,64936 0,98386 0,79675

90 . ‫و‬

0,00252 0,01334 0,02262 0,06877 0,02682 0,23886 0,42081 1,00000 0,61954 0,14553 0,66021 0,06592 0,00517 0,61954 1,00000 0,65385 0,38533

11 SUBTOTAL (pronombres independientes)

0,00707 0,07379 0,02856 0,00549 0,02873 0,47967 0,84941 0,22535 0,23956 0,58894 1,00000 0,29485 0,08942 0,25853 0,21469 0,41169 0,25985

132 REL. palabras de 9 letras (ag)

0,01491 0,00379 0,11644 0,00355 0,03467 0,00041 0,02264 0,00347 0,01628 0,87341 0,35896 0,01623 0,09764 0,51455 0,06554 0,10096 0,72565

116 desviación estándar (de palabras por frase) 0,03922 0,06369 0,00133 0,03485 0,03477 0,00823 0,30838 0,49341 0,01087 0,33239 0,46462 0,62039 0,03654 0,30546 0,16324 0,51297 0,97821 118 palabras de 3 letras (ag) 95 . ‫ ¶و‬+ ‫( و‬frases que comienzan con ‫)و‬ 9 ‫ﻫﻮ‬

0,11435 0,00066 0,02170 0,00238 0,03477 0,00014 0,24115 0,44713 0,00083 0,70860 0,36640 0,13645 0,00164 0,05555 0,55461 0,52735 0,49500 0,01371 0,00949 0,02093 0,11025 0,03859 0,09978 0,10764 0,68051 0,54316 0,67366 0,66744 0,06631 0,00115 0,76245 0,51767 0,71097 0,81068 0,04963 0,01004 0,10964 0,00847 0,04445 0,03735 0,80590 0,27969 0,12205 0,50596 0,89210 0,16957 0,00437 0,46086 0,08679 0,68691 0,32333

124 9-letter words

0,01569 0,00739 0,15363 0,00656 0,04581 0,00032 0,02826 0,00369 0,01945 0,93608 0,31679 0,01385 0,08217 0,61931 0,06779 0,09747 0,71529

123 8-letter words

0,12727 0,00888 0,05362 0,00085 0,04765 0,00001 0,03402 0,00447 0,00309 0,90840 0,30085 0,83032 0,00602 0,59976 0,87198 0,05290 0,42297

131 REL. 8-letter words

0,18452 0,00422 0,03454 0,00032 0,05590 0,00001 0,02320 0,00678 0,00220 0,79505 0,34638 0,99420 0,00838 0,42439 0,79297 0,05124 0,41915

INSTITUT UNIVERSITARI DE LINGÜÍSTICA APLICADA UNIVERSITAT POMPEU FABRA

11

Palabras y elementos funcionales en atribución de autoría árabe

Análisis: ANOVA INTERAUTOR

INTERGÉNERO

INTERTIEMPO

V Jornada de Recerca de l'IULA, BARCELONA, septiembre 2012

T1G1 T1G2 T2G1 T2G2 A1T1 A1T2 A2T1 A2T2 A3T1 A3T2 A1G1 A1G2 A2G1 A2G2 A3G1 A3G2 0,7717 0,0853 0,2623 0,0018 0,0008 0,0663 0,0030 0,0011 0,3828 0,1095 0,5689 0,0289 1,0000 0,0633 0,2585 0,3802

139 palabras de 7 letras

0,3937 0,1660 0,0014 0,2609 0,0006 0,0620 0,0079 0,0005 0,0227 0,1452 0,6999 0,0968 0,0241 0,2509 0,4606 0,1926

142 REL. palabras de 3 letras 3 REL.TOTAL (sg)

0,4420 0,0290 0,1813 0,3924 0,0000 0,0151 0,2683 0,0230 0,0226 0,0976 0,0266 0,2035 0,7724 0,5750 0,7192 0,7266

111 frases (ag)

0,1825 0,0679 0,0660 0,7371 0,0215 0,0208 0,0975 0,0040 0,0936 0,0256 0,3221 0,0815 0,0474 0,3671 0,2088 0,3200 0,3265 0,0209 0,1902 0,5472 0,0014 0,1000 0,0215 0,0037 0,0093 0,0790 0,8743 0,2527 0,5698 0,4910 0,4247 0,0155

86 ¶ (inicio de línea) 112 media en palabras (de frases, ag) 115 media en palabras (de frases, sg) 114 frases (sg) 2 REL.TOTAL (artículo, ag) 106 incremento en % 1 ‫ال‬

0,1376 0,1393 0,0614 0,7675 0,0029 0,0065 0,1650 0,0006 0,0450 0,0156 0,2634 0,0621 0,0698 0,3856 0,1109 0,3546 0,2078 0,1432 0,2117 0,5413 0,0029 0,0085 0,1324 0,0024 0,0530 0,0058 0,3740 0,0677 0,0997 0,2831 0,1199 0,6627 0,2690 0,0683 0,2242 0,7351 0,0206 0,0221 0,1771 0,0020 0,0920 0,0084 0,4038 0,0801 0,0481 0,2709 0,1541 0,4994 0,8637 0,0259 0,2461 0,4237 0,0000 0,0132 0,1856 0,0212 0,0098 0,1166 0,0214 0,1700 0,9519 0,5495 0,7968 0,7800 0,1044 0,2138 0,8131 0,8791 0,0021 0,0215 0,0784 0,0843 0,0859 0,3911 0,2216 0,1765 0,1413 0,6634 0,5319 0,9436 0,9260 0,0336 0,4184 0,6863 0,0000 0,0237 0,1090 0,0364 0,0066 0,1061 0,0735 0,0602 0,6889 0,6968 0,7251 0,9624

INSTITUT UNIVERSITARI DE LINGÜÍSTICA APLICADA UNIVERSITAT POMPEU FABRA

12

Palabras y elementos funcionales en atribución de autoría árabe

V Jornada de Recerca de l'IULA, BARCELONA, septiembre 2012

Análisis Discriminante

% Clasificación original

% Clasificación validación cruzada

12 variables (F: 3,84-2,71)

98,3 (1 error)

93,3 (4 errores)

9 variables (F: 5,5-4,5)

96,7 (2 errores)

95 (3 errores)

7 variables (F: 7-6)

98,3 (1 error)

95 (3 errores)

5 variables (F: 8-7)

93,3 (4 errores)

85 (9 errores)

INSTITUT UNIVERSITARI DE LINGÜÍSTICA APLICADA UNIVERSITAT POMPEU FABRA

13

Palabras y elementos funcionales en atribución de autoría árabe

V Jornada de Recerca de l'IULA, BARCELONA, septiembre 2012

Análisis Discriminante

% Clasificación original

% Clasificación validación cruzada

8 variables (F: 3,84-2,71)

98,3 (1 error)

83,3 (10 errores)

4 variables (F: 5,5-4,5)

81,7 (11 errores)

78,3 (13 errores)

INSTITUT UNIVERSITARI DE LINGÜÍSTICA APLICADA UNIVERSITAT POMPEU FABRA

14

Palabras y elementos funcionales en atribución de autoría árabe

V Jornada de Recerca de l'IULA, BARCELONA, septiembre 2012

Análisis Discriminante

% Clasificación original

% Clasificación validación cruzada

9 variables (F: 3,84-2,71)

86,7 (8 errores)

73,3 (16 errores)

6 variables (F: 5,5-4,5)

75 (15 errores)

68,3 (19 errores)

INSTITUT UNIVERSITARI DE LINGÜÍSTICA APLICADA UNIVERSITAT POMPEU FABRA

15

Palabras y elementos funcionales en atribución de autoría árabe

V Jornada de Recerca de l'IULA, BARCELONA, septiembre 2012

Análisis Discriminante

% Clasificación original

% Clasificación validación cruzada

10 variables (F: 3,84-2,71)

100

100

5 variables (F: 5,5-4,5)

100

96,7 (1 error)

INSTITUT UNIVERSITARI DE LINGÜÍSTICA APLICADA UNIVERSITAT POMPEU FABRA

16

Palabras y elementos funcionales en atribución de autoría árabe

V Jornada de Recerca de l'IULA, BARCELONA, septiembre 2012

Análisis Discriminante

% Clasificación original

% Clasificación validación cruzada

11 variables (F: 3,84-2,71)

100

100

5 variables (F: 5,5-4,5)

100

96,7 (1 error)

INSTITUT UNIVERSITARI DE LINGÜÍSTICA APLICADA UNIVERSITAT POMPEU FABRA

17

Palabras y elementos funcionales en atribución de autoría árabe

V Jornada de Recerca de l'IULA, BARCELONA, septiembre 2012

Análisis Discriminante Variables seleccionadas (más discriminantes): • ratio type/token (densidad léxica) • ‘, y’ (+‫‘ )و‬. y’ ‘.’ ‘,’ ‘entonces’ () [C], ‘pues’ (+‫[ )ف‬R], ‘..(.)’, " / ‘y’, frases, ¶ (puntuación y conjunciones copulativas) • palabras de 2, 3 caracteres • desviación estándar palabras/frases (variabilidad de longitud de frase) • ‘que’ (‫( )ان‬conjunción subordinativa sustantiva [ambig]) • ‘sobre’ () (preposición) • ‘estos’ (‫[ )هء‬persona masculino, R] (demostrativo) • ‘no’ () [presente] () [pasado] / frases (negación) INSTITUT UNIVERSITARI DE LINGÜÍSTICA APLICADA UNIVERSITAT POMPEU FABRA

18

Palabras y elementos funcionales en atribución de autoría árabe

Análisis Discriminante Distribución type/token ratio 83

82,65 82,45

V Jornada de Recerca de l'IULA, BARCELONA, septiembre 2012

80,59 79,23 78,23

78

74,79 74,54

78,02

78,06

76,83 76,26 75,99 75,30 75,00

75,98

73,88 73,65

75,38 74,16 73,58

73,37

73

71,90

70,68 70,63

68

66,21 65,65 65,60

65,28497314

73,98 73,32

71,94 71,58 70,89

Relato Tiempo 1 Relato Tiempo 2

Crítica Tiempo 1

69,44 68,70

68,24

75,71 74,77

72,57

72,47 71,77177429 71,51 69,60 69,16666412 69,16426849 68,73

78,65 78,68

Crítica Tiempo 2

68,44 66,38

65,14 65,11

64,24 63,30049133

63

62,68

63,23 61,13

59,82 58 1 Medini

2 Tasi

3 Berrada

INSTITUT UNIVERSITARI DE LINGÜÍSTICA APLICADA UNIVERSITAT POMPEU FABRA

19

Palabras y elementos funcionales en atribución de autoría árabe

V Jornada de Recerca de l'IULA, BARCELONA, septiembre 2012

Conclusiones • Primeros resultados positivos • Escaso procesamiento – Textos segmentados, sin revisar • Primer grado de desambiguación – Textos sin segmentar • Hipótesis: – Variación interautor > intraautor / intergénero » para determinadas variables – Variación interautor > intertiempo

INSTITUT UNIVERSITARI DE LINGÜÍSTICA APLICADA UNIVERSITAT POMPEU FABRA

20

Palabras y elementos funcionales en atribución de autoría árabe

Investigación futura

V Jornada de Recerca de l'IULA, BARCELONA, septiembre 2012

Más variables • Desviación estándar del número de palabras por frase [EP] – » comas » – » conjunciones » • Frecuencias de enegramas de categorías gramaticales [FL] Mayor corpus INSTITUT UNIVERSITARI DE LINGÜÍSTICA APLICADA UNIVERSITAT POMPEU FABRA

21

V Jornada de Recerca de l'IULA, BARCELONA, septiembre 2012

Palabras y elementos funcionales en atribución de autoría árabe

ً‫ ! ا‬+‫و‬ [gracias]

INSTITUT UNIVERSITARI DE LINGÜÍSTICA APLICADA UNIVERSITAT POMPEU FABRA

22

Get in touch

Social

© Copyright 2013 - 2024 MYDOKUMENT.COM - All rights reserved.