Story Transcript
V Jornada de Recerca de l'IULA, BARCELONA, septiembre 2012
Palabras y elementos funcionales en atribución de autoría árabe
Palabras y elementos funcionales en atribución de autoría árabe
David García Barrero
INSTITUT UNIVERSITARI DE LINGÜÍSTICA APLICADA UNIVERSITAT POMPEU FABRA
1
Palabras y elementos funcionales en atribución de autoría árabe
V Jornada de Recerca de l'IULA, BARCELONA, septiembre 2012
ÍNDICE • • • •
Marco teórico Objetivos Hipótesis Metodología – Corpus – Herramientas – Variables – Análisis estadístico • ANOVA • A. Discriminante
• Conclusiones • Investigación futura
INSTITUT UNIVERSITARI DE LINGÜÍSTICA APLICADA UNIVERSITAT POMPEU FABRA
2
Palabras y elementos funcionales en atribución de autoría árabe
MARCO TEÓRICO
V Jornada de Recerca de l'IULA, BARCELONA, septiembre 2012
Lingüística aplicada
• Lingüística forense – Lenguaje evidencial o probatorio • Atribución/determinación de autoría de textos → ejecutiva (que no: » declarada » colaborativa » de revisión)
• Variación lingüística • Lingüística computacional y de corpus (metodología)
INSTITUT UNIVERSITARI DE LINGÜÍSTICA APLICADA UNIVERSITAT POMPEU FABRA
3
Palabras y elementos funcionales en atribución de autoría árabe
V Jornada de Recerca de l'IULA, BARCELONA, septiembre 2012
OBJETIVOS 1. Verificar para el árabe las hipótesis ya validadas para otras lenguas de trabajo (inglés, castellano, catalán). 2. Determinar las variables potencialmente discriminantes en árabe (tipológicamente diversa de aquellas). 3. Establecer una metodología fiable de atribución, que permita realizar con rigor científico la comparación forense de textos escritos en árabe estándar moderno.
INSTITUT UNIVERSITARI DE LINGÜÍSTICA APLICADA UNIVERSITAT POMPEU FABRA
4
Palabras y elementos funcionales en atribución de autoría árabe
HIPÓTESIS
V Jornada de Recerca de l'IULA, BARCELONA, septiembre 2012
• Estilo idiolectal (Turell 2010) 1. Variación interautor > intraautor 2. Variación interautor intragénero > intraautor intergénero 3. Variación interautor intratiempo > intraautor intertiempo
INSTITUT UNIVERSITARI DE LINGÜÍSTICA APLICADA UNIVERSITAT POMPEU FABRA
5
Palabras y elementos funcionales en atribución de autoría árabe
METODOLOGÍA: Corpus
V Jornada de Recerca de l'IULA, BARCELONA, septiembre 2012
• Variedad: ‘árabe estándar moderno’ •
Variable de control
– 1 origen: autores marroquíes (v. diatópica) •
Variables de estratificación
– 2 géneros (relato y artículo de crítica literaria) – 2 tiempos relativos •
Muestras de 650 “palabras” [adaptación estándar 800]
•
3 autores, 2 tiempos, 2 géneros; x 5 = 60 muestras
•
Dificultad: recopilación, procesamiento (no OCR)
INSTITUT UNIVERSITARI DE LINGÜÍSTICA APLICADA UNIVERSITAT POMPEU FABRA
6
Palabras y elementos funcionales en atribución de autoría árabe
V Jornada de Recerca de l'IULA, BARCELONA, septiembre 2012
METODOLOGÍA: Herramientas • CADIM (Columbia's Arabic Dialect Modeling Group), Universidad de Columbia – MADA 3.2 (Morphological Analysis and Disambiguation for Arabic) + TOKAN (“a general tokenizer for Arabic”) • Buckwalter Arabic Morphological Analyzer (BAMA) – Standard Arabic Morphological Analyzer (SAMA) – Aramorph 1.2.1, desde MADA 3.2 (febrero 2012), gratuito. INSTITUT UNIVERSITARI DE LINGÜÍSTICA APLICADA UNIVERSITAT POMPEU FABRA
7
Palabras y elementos funcionales en atribución de autoría árabe
V Jornada de Recerca de l'IULA, BARCELONA, septiembre 2012
METODOLOGÍA: Herramientas input
ا و Alcrbya wxSwSyAthA
TOKAN
ه+ ت+ و+ال Al+ crbya w+ xSwSyAt +Ha
MADA [+PRON]
N
[CONJ+]
N
[ART+]
INSTITUT UNIVERSITARI DE LINGÜÍSTICA APLICADA UNIVERSITAT POMPEU FABRA
8
Palabras y elementos funcionales en atribución de autoría árabe
V Jornada de Recerca de l'IULA, BARCELONA, septiembre 2012
METODOLOGÍA: Variables Unidades • Palabras segmentadas – – – – – – –
Artículo Pronombres Preposiciones Conjunciones Demostrativos Negadores Puntuación
(+) (+/-) (+/-) (+/-) (-) (-) (-)
Mediciones • Frecuencias relativas WordSmith • Densidad léxica (ratio type/token) • Desviación estándar de palabra por frase • Palabras con n caracteres
Combinaciones (enegramas) de conjunción y puntuación INSTITUT UNIVERSITARI DE LINGÜÍSTICA APLICADA UNIVERSITAT POMPEU FABRA
9
Palabras y elementos funcionales en atribución de autoría árabe
METODOLOGÍA: Variables
V Jornada de Recerca de l'IULA, BARCELONA, septiembre 2012
Combinación de conjunciones y puntuación: ----------------[, y]---------------• Trigrama de caracteres • Bigrama de tokens (palabras, puntuación) • Bigrama de categoría gramatical y puntuación
Arroja información sobre categorías oracionales: [----------------], y[----------------] INSTITUT UNIVERSITARI DE LINGÜÍSTICA APLICADA UNIVERSITAT POMPEU FABRA
10
Palabras y elementos funcionales en atribución de autoría árabe
Análisis: ANOVA INTERAUTOR
V Jornada de Recerca de l'IULA, BARCELONA, septiembre 2012
T1G1
T1G2
INTERGÉNERO T2G1
T2G2
MEDIA A1T1
A1T2
INTERTIEMPO A2T1
A2T2
A3T1
A3T2
A1G1
A1G2
A2G1
A2G2
A3G1
A3G2
108 ratio type/token (ag)
0,00801 0,00067 0,00099 0,00004 0,00243 0,02699 0,67472 0,04187 0,64248 0,02924 0,31544 0,56637 0,00855 0,02878 0,75751 0,71537 0,37994
110 ratio type/token (sg)
0,00842 0,00156 0,00006 0,00001 0,00251 0,17954 0,33317 0,96818 0,63695 0,03037 0,02214 0,65504 0,04492 0,12987 0,45880 0,96119 0,38723
89 , و
0,03417 0,00101 0,00382 0,00004 0,00976 0,18722 0,35545 0,60316 0,10040 0,00982 0,24048 0,00316 0,00027 0,96366 0,12237 0,71066 0,09734
117 palabras de 2 letras (ag)
0,03047 0,00059 0,00585 0,03211 0,01726 0,07112 0,57020 0,28791 0,60978 0,10711 0,41628 0,21453 0,00506 0,07558 0,61086 0,91137 0,04851
125 REL. palabras de 2 letras (ag)
0,02956 0,00085 0,01221 0,04981 0,02311 0,03667 0,96399 0,16014 0,81134 0,25628 0,32576 0,14656 0,00032 0,03681 0,80879 0,83746 0,08467
81 RATIO ,/.
0,07344 0,01816 0,00369 0,00024 0,02388 0,00506 0,07236 0,30152 0,00032 0,01086 0,06697 0,01565 0,00133 0,03958 0,15550 0,64544 0,01861
103 RATIO /و
0,02419 0,06126 0,01365 0,00046 0,02489 0,80327 0,13466 0,25141 0,85023 0,02578 0,49237 0,00809 0,00238 0,01469 0,51175 0,29488 0,50701
109 types (segmentados)
0,07559 0,02450 0,00110 0,00003 0,02530 0,00488 0,54474 0,03147 0,89965 0,58667 0,35391 0,43257 0,00020 0,02970 0,64936 0,98386 0,79675
90 . و
0,00252 0,01334 0,02262 0,06877 0,02682 0,23886 0,42081 1,00000 0,61954 0,14553 0,66021 0,06592 0,00517 0,61954 1,00000 0,65385 0,38533
11 SUBTOTAL (pronombres independientes)
0,00707 0,07379 0,02856 0,00549 0,02873 0,47967 0,84941 0,22535 0,23956 0,58894 1,00000 0,29485 0,08942 0,25853 0,21469 0,41169 0,25985
132 REL. palabras de 9 letras (ag)
0,01491 0,00379 0,11644 0,00355 0,03467 0,00041 0,02264 0,00347 0,01628 0,87341 0,35896 0,01623 0,09764 0,51455 0,06554 0,10096 0,72565
116 desviación estándar (de palabras por frase) 0,03922 0,06369 0,00133 0,03485 0,03477 0,00823 0,30838 0,49341 0,01087 0,33239 0,46462 0,62039 0,03654 0,30546 0,16324 0,51297 0,97821 118 palabras de 3 letras (ag) 95 . ¶و+ ( وfrases que comienzan con )و 9 ﻫﻮ
0,11435 0,00066 0,02170 0,00238 0,03477 0,00014 0,24115 0,44713 0,00083 0,70860 0,36640 0,13645 0,00164 0,05555 0,55461 0,52735 0,49500 0,01371 0,00949 0,02093 0,11025 0,03859 0,09978 0,10764 0,68051 0,54316 0,67366 0,66744 0,06631 0,00115 0,76245 0,51767 0,71097 0,81068 0,04963 0,01004 0,10964 0,00847 0,04445 0,03735 0,80590 0,27969 0,12205 0,50596 0,89210 0,16957 0,00437 0,46086 0,08679 0,68691 0,32333
124 9-letter words
0,01569 0,00739 0,15363 0,00656 0,04581 0,00032 0,02826 0,00369 0,01945 0,93608 0,31679 0,01385 0,08217 0,61931 0,06779 0,09747 0,71529
123 8-letter words
0,12727 0,00888 0,05362 0,00085 0,04765 0,00001 0,03402 0,00447 0,00309 0,90840 0,30085 0,83032 0,00602 0,59976 0,87198 0,05290 0,42297
131 REL. 8-letter words
0,18452 0,00422 0,03454 0,00032 0,05590 0,00001 0,02320 0,00678 0,00220 0,79505 0,34638 0,99420 0,00838 0,42439 0,79297 0,05124 0,41915
INSTITUT UNIVERSITARI DE LINGÜÍSTICA APLICADA UNIVERSITAT POMPEU FABRA
11
Palabras y elementos funcionales en atribución de autoría árabe
Análisis: ANOVA INTERAUTOR
INTERGÉNERO
INTERTIEMPO
V Jornada de Recerca de l'IULA, BARCELONA, septiembre 2012
T1G1 T1G2 T2G1 T2G2 A1T1 A1T2 A2T1 A2T2 A3T1 A3T2 A1G1 A1G2 A2G1 A2G2 A3G1 A3G2 0,7717 0,0853 0,2623 0,0018 0,0008 0,0663 0,0030 0,0011 0,3828 0,1095 0,5689 0,0289 1,0000 0,0633 0,2585 0,3802
139 palabras de 7 letras
0,3937 0,1660 0,0014 0,2609 0,0006 0,0620 0,0079 0,0005 0,0227 0,1452 0,6999 0,0968 0,0241 0,2509 0,4606 0,1926
142 REL. palabras de 3 letras 3 REL.TOTAL (sg)
0,4420 0,0290 0,1813 0,3924 0,0000 0,0151 0,2683 0,0230 0,0226 0,0976 0,0266 0,2035 0,7724 0,5750 0,7192 0,7266
111 frases (ag)
0,1825 0,0679 0,0660 0,7371 0,0215 0,0208 0,0975 0,0040 0,0936 0,0256 0,3221 0,0815 0,0474 0,3671 0,2088 0,3200 0,3265 0,0209 0,1902 0,5472 0,0014 0,1000 0,0215 0,0037 0,0093 0,0790 0,8743 0,2527 0,5698 0,4910 0,4247 0,0155
86 ¶ (inicio de línea) 112 media en palabras (de frases, ag) 115 media en palabras (de frases, sg) 114 frases (sg) 2 REL.TOTAL (artículo, ag) 106 incremento en % 1 ال
0,1376 0,1393 0,0614 0,7675 0,0029 0,0065 0,1650 0,0006 0,0450 0,0156 0,2634 0,0621 0,0698 0,3856 0,1109 0,3546 0,2078 0,1432 0,2117 0,5413 0,0029 0,0085 0,1324 0,0024 0,0530 0,0058 0,3740 0,0677 0,0997 0,2831 0,1199 0,6627 0,2690 0,0683 0,2242 0,7351 0,0206 0,0221 0,1771 0,0020 0,0920 0,0084 0,4038 0,0801 0,0481 0,2709 0,1541 0,4994 0,8637 0,0259 0,2461 0,4237 0,0000 0,0132 0,1856 0,0212 0,0098 0,1166 0,0214 0,1700 0,9519 0,5495 0,7968 0,7800 0,1044 0,2138 0,8131 0,8791 0,0021 0,0215 0,0784 0,0843 0,0859 0,3911 0,2216 0,1765 0,1413 0,6634 0,5319 0,9436 0,9260 0,0336 0,4184 0,6863 0,0000 0,0237 0,1090 0,0364 0,0066 0,1061 0,0735 0,0602 0,6889 0,6968 0,7251 0,9624
INSTITUT UNIVERSITARI DE LINGÜÍSTICA APLICADA UNIVERSITAT POMPEU FABRA
12
Palabras y elementos funcionales en atribución de autoría árabe
V Jornada de Recerca de l'IULA, BARCELONA, septiembre 2012
Análisis Discriminante
% Clasificación original
% Clasificación validación cruzada
12 variables (F: 3,84-2,71)
98,3 (1 error)
93,3 (4 errores)
9 variables (F: 5,5-4,5)
96,7 (2 errores)
95 (3 errores)
7 variables (F: 7-6)
98,3 (1 error)
95 (3 errores)
5 variables (F: 8-7)
93,3 (4 errores)
85 (9 errores)
INSTITUT UNIVERSITARI DE LINGÜÍSTICA APLICADA UNIVERSITAT POMPEU FABRA
13
Palabras y elementos funcionales en atribución de autoría árabe
V Jornada de Recerca de l'IULA, BARCELONA, septiembre 2012
Análisis Discriminante
% Clasificación original
% Clasificación validación cruzada
8 variables (F: 3,84-2,71)
98,3 (1 error)
83,3 (10 errores)
4 variables (F: 5,5-4,5)
81,7 (11 errores)
78,3 (13 errores)
INSTITUT UNIVERSITARI DE LINGÜÍSTICA APLICADA UNIVERSITAT POMPEU FABRA
14
Palabras y elementos funcionales en atribución de autoría árabe
V Jornada de Recerca de l'IULA, BARCELONA, septiembre 2012
Análisis Discriminante
% Clasificación original
% Clasificación validación cruzada
9 variables (F: 3,84-2,71)
86,7 (8 errores)
73,3 (16 errores)
6 variables (F: 5,5-4,5)
75 (15 errores)
68,3 (19 errores)
INSTITUT UNIVERSITARI DE LINGÜÍSTICA APLICADA UNIVERSITAT POMPEU FABRA
15
Palabras y elementos funcionales en atribución de autoría árabe
V Jornada de Recerca de l'IULA, BARCELONA, septiembre 2012
Análisis Discriminante
% Clasificación original
% Clasificación validación cruzada
10 variables (F: 3,84-2,71)
100
100
5 variables (F: 5,5-4,5)
100
96,7 (1 error)
INSTITUT UNIVERSITARI DE LINGÜÍSTICA APLICADA UNIVERSITAT POMPEU FABRA
16
Palabras y elementos funcionales en atribución de autoría árabe
V Jornada de Recerca de l'IULA, BARCELONA, septiembre 2012
Análisis Discriminante
% Clasificación original
% Clasificación validación cruzada
11 variables (F: 3,84-2,71)
100
100
5 variables (F: 5,5-4,5)
100
96,7 (1 error)
INSTITUT UNIVERSITARI DE LINGÜÍSTICA APLICADA UNIVERSITAT POMPEU FABRA
17
Palabras y elementos funcionales en atribución de autoría árabe
V Jornada de Recerca de l'IULA, BARCELONA, septiembre 2012
Análisis Discriminante Variables seleccionadas (más discriminantes): • ratio type/token (densidad léxica) • ‘, y’ (+‘ )و. y’ ‘.’ ‘,’ ‘entonces’ () [C], ‘pues’ (+[ )فR], ‘..(.)’, " / ‘y’, frases, ¶ (puntuación y conjunciones copulativas) • palabras de 2, 3 caracteres • desviación estándar palabras/frases (variabilidad de longitud de frase) • ‘que’ (( )انconjunción subordinativa sustantiva [ambig]) • ‘sobre’ () (preposición) • ‘estos’ ([ )هءpersona masculino, R] (demostrativo) • ‘no’ () [presente] () [pasado] / frases (negación) INSTITUT UNIVERSITARI DE LINGÜÍSTICA APLICADA UNIVERSITAT POMPEU FABRA
18
Palabras y elementos funcionales en atribución de autoría árabe
Análisis Discriminante Distribución type/token ratio 83
82,65 82,45
V Jornada de Recerca de l'IULA, BARCELONA, septiembre 2012
80,59 79,23 78,23
78
74,79 74,54
78,02
78,06
76,83 76,26 75,99 75,30 75,00
75,98
73,88 73,65
75,38 74,16 73,58
73,37
73
71,90
70,68 70,63
68
66,21 65,65 65,60
65,28497314
73,98 73,32
71,94 71,58 70,89
Relato Tiempo 1 Relato Tiempo 2
Crítica Tiempo 1
69,44 68,70
68,24
75,71 74,77
72,57
72,47 71,77177429 71,51 69,60 69,16666412 69,16426849 68,73
78,65 78,68
Crítica Tiempo 2
68,44 66,38
65,14 65,11
64,24 63,30049133
63
62,68
63,23 61,13
59,82 58 1 Medini
2 Tasi
3 Berrada
INSTITUT UNIVERSITARI DE LINGÜÍSTICA APLICADA UNIVERSITAT POMPEU FABRA
19
Palabras y elementos funcionales en atribución de autoría árabe
V Jornada de Recerca de l'IULA, BARCELONA, septiembre 2012
Conclusiones • Primeros resultados positivos • Escaso procesamiento – Textos segmentados, sin revisar • Primer grado de desambiguación – Textos sin segmentar • Hipótesis: – Variación interautor > intraautor / intergénero » para determinadas variables – Variación interautor > intertiempo
INSTITUT UNIVERSITARI DE LINGÜÍSTICA APLICADA UNIVERSITAT POMPEU FABRA
20
Palabras y elementos funcionales en atribución de autoría árabe
Investigación futura
V Jornada de Recerca de l'IULA, BARCELONA, septiembre 2012
Más variables • Desviación estándar del número de palabras por frase [EP] – » comas » – » conjunciones » • Frecuencias de enegramas de categorías gramaticales [FL] Mayor corpus INSTITUT UNIVERSITARI DE LINGÜÍSTICA APLICADA UNIVERSITAT POMPEU FABRA
21
V Jornada de Recerca de l'IULA, BARCELONA, septiembre 2012
Palabras y elementos funcionales en atribución de autoría árabe
ً ! ا+و [gracias]
INSTITUT UNIVERSITARI DE LINGÜÍSTICA APLICADA UNIVERSITAT POMPEU FABRA
22