2. Traducción Automática. Dimensiones y Estrategias

Traducci´ on Autom´ atica: Dimensiones y Estrategias Luciana BENOTTI Sandra ROGER [email protected] [email protected] Departamento de Infor

5 downloads 65 Views 87KB Size

Recommend Stories


1. UNIDADES Y DIMENSIONES 2. VECTORES
1. UNIDADES Y DIMENSIONES DIMENSIONES FUNDAMENTALES longitud (L) masa (M) tiempo (T) UNIDADES metro (m) Kilogramo (kg) segundo (s) 2. VECTORES

Tema 2 Concepto de calidad y dimensiones que lo componen
Gestión y Control de Calidad. Ingeniería Técnica de Comunicaciones. Tema 2 Concepto de calidad y dimensiones que lo componen 2.1.- El concepto de cal

Tipologías y Dimensiones Preventivas
Tipologías y Dimensiones Preventivas domingo, 18 de agosto de 2013 Mtro. Gerardo D. Insua Casao Objetivos Objetivo General  Que los servidores pú

Story Transcript

Traducci´ on Autom´ atica: Dimensiones y Estrategias

Luciana BENOTTI Sandra ROGER [email protected] [email protected] Departamento de Inform´atica y Estad´ıstica. Universidad Nacional del Comahue. Buenos Aires 1400, CP 8300, Neuqu´en, Argentina. FAX: (54)(0299)4490313.

Palabras Claves: Procesamiento en Lenguaje Natural, Traducci´on Autom´atica, Arquitectura por Transferencia.

1.

Introducci´ on

Entre las dificultades hist´oricas de la comunicaci´on podemos mencionar a la barrera del lenguaje. Es por ello que la traducci´on ha cobrado gran inter´es a´ un antes del nacimiento de la inform´atica. Los avances tecnol´ogicos, han propiciado el desarrollo de herramientas para la automatizaci´on de este proceso. La traducc´ı´on autom´atica1 (en adelante: TA) es sin duda un desaf´ıo cient´ıfico. Sin embargo la raz´on por la cual despierta tanto inter´es no es de ´ındole cient´ıfica, sino por una necesidad netamente pr´actica. No existe en la bibliograf´ıa una definici´on formal de lo que significa TA, podemos encontrar definiciones recursivas y/o aproximaciones de lo que deber´ıa entenderse: “es el proceso por el cual una m´aquina traduce un texto de una lengua a otra, subdividiendo la sintaxis, identificando las partes del discurso, intentando resolver eventuales ambig¨ uedades y, por u ´ltimo, traduciendo los componentes y la estructura en la lengua de destino”[Mer02]. El prop´osito de este trabajo es presentar la motivaci´on de nuestra l´ınea de investigaci´on, metas y desarrollos futuros. Fundamentalmente, nuestro inter´es estar´a en poder capturar el potencial de las t´ecnicas y paradigmas actualmente desarrollados en el ´area traducci´on autom´atica, para luego realizar una comparaci´on y evaluaci´on de los mismos.

2.

Traducci´ on Autom´ atica

La comunicaci´on existe cuando el receptor logra reconocer la intenci´on del emisor y no s´olo el significado literal del mensaje. En este sentido, la traducci´on autom´atica posee un punto 1 Se ha optado por denominar Traducci´on Autom´atica al concepto en ingl´es Machine Traslation(MT), el cual ser refiere a los sistemas inform´aticos que realizan traducciones con o sin ayuda humana.

d´ebil, y no es una tarea f´acil el lograr poder transmitir la intenci´on o la doble intenci´on al receptor. Un traductor autom´atico no tiene en cuenta las condiciones extraling¨ u´ısticas (la intenci´on, el contexto situacional, hist´orico o cultural), y, por lo tanto, no puede hacerse cargo de las ambig¨ uedades del lenguaje. De la misma manera, carece de sentido com´ un, no distingue matices, posee una flexibilidad limitada y no puede apoyarse en un nivel pragm´atico ni incorporar su experiencia ni su conocimiento del mundo para solucionar problemas, cosas que s´ı puede hacer el traductor humano.

2.1.

Arquitecturas del sistema de traducci´ on autom´ atica

En la traducci´on autom´atica podemos contar con cinco tipos de conocimiento[AS94]: lenguaje origen(LO), lenguaje meta(LM), correspondencia entre t´erminos del LO y el LM (diccionario), conocimiento sobre el dominio de lo que se traduce(sentido com´ un) y conocimiento del entorno cultural, convenciones sociales, costumbres, etc. del LO y del LM. 1. Arquitectura directa o transformer: La idea principal en esta arquitectura consiste en la traducci´on directa palabra por palabra del lenguaje origen al lenguaje meta usando para ello, un diccionario biling¨ ue. Luego de ´esto, las palabras, son reordenadas seg´ un reglas espec´ıficas de la lengua meta en cuesti´on. Ejemplo de este tipo de TA son: SYSTRAN (grupo GAT de la Universidad de Georgetown y CEE), SPANAM (utilizado por la Pan-American Health Organization), GTS, PC-TRANSLATOR, etc. 2. Arquitectura de traducci´ on por transferencia y el uso de patrones. En este tipo de traducci´on contamos con 3 fases: an´alisis, transferencia y s´ıntesis. La primera fase consite en procesar la lengua origen a una representaci´on dependiente de ´esta (entrada de la siguente fase). La transferencia (dependiente del LO y del LM) se puede producir en varios niveles: l´exico, sint´actico y sem´antico, Transferencia l´exica: la b´ usqueda del t´ermino equivalente en el LM se realiza a partir de informaci´on contenida en el diccionario. Transferencia sint´acica: el ´arbol de an´alisis de la oraci´on origen se transforma en un ´arbol de generaci´on ”equivalente”para la oraci´on meta. Transferencia sem´antica: se transforman representaciones profundas (patrones sem´anticos). Podemos mencionar los siguienes ejemplos en este tipo de traducci´on: METAL (Universidad de Texas, Siemens-Nixdorf), GETA (Universidad de Grenoble, Vauquois, 1985), TAUM-METEO/AVIATION (Universidad de Montreal, Isabelle, 1985), EUROTRA (CEE, Johnson, 1985), etc. on por interlingua: 3. Arquitectura de traducci´ En este tipo de arquitectura es m´as antiguo que el anterior y consiste en traducir el lenguaje origen a una representaci´on independiente (interling¨ ua o pivot). Dicha representaci´on es utilizada como entrada en la generaci´on de la traducci´on al lenguaje meta. Ejemplos de este tipo de TA son: ULTRA (New Mexico State University) y PANGLOSS (CMU, NMSU y University of Southern California), entre otros.

En la figura anterior se distinguen los tres enfoques principales enunciados anteriormente, es decir, enfoques directos, los de interlingua y los de transferencia (normalmente sint´actica y en contados casos tambi´en sem´antica). Esta pir´amide se basa en las diferencias de “longitudes relativas”de los tres componentes de la traducci´on: an´alisis, transferencia y s´ıntesis o generaci´on.

2.2.

Dimensiones de la TA

Una dimensi´on es un factor que permite clasificar el ´ambito de aplicaci´on de la TA, acotando as´ı su dise˜ no con el objetivo de mejorar su efectividad. Se distingue entre seis dimensiones [Aba02]: Tipolog´ıa del texto: Para afrontar las peculiaridades de los distintos textos se suele recurrir a los siguientes conceptos: • Registro (o jerga): Se relaciona con la variedad del lenguaje elegido para la comunicaci´on. Se puede distinguir entre distintos lenguajes de especialidad definidos por una terminolog´ıa o fraseolog´ıa particular, en contraste con la lengua com´ un cuyas expresiones y vocabulario son de uso gen´erico. • Estilo: Dentro de un mismo registro se pueden encontrar diferentes estilos (directo o indirecto, formal o informal, etc.). La noci´on de estilo distingue los textos por sus propiedades ling¨ u´ısticas: longitud de oraciones, uso de conectores, etc. • G´enero: Distingue los textos seg´ un su pragm´atica (novela, poes´ıa, teatro, ensayo, etc.). • Tipo: Diferencia textos dentro de un mismo g´enero. Por ejemplo, dentro del g´enero period´ıstico se puede distinguir entre: noticias, reportajes, columnas, anuncios, etc. Densidad y granularidad: La densidad l´exica de un texto es inversamente proporcional a su granularidad. La granularidad de un texto se define en t´erminos del tama˜ no de las unidades l´exicas en las que se puede segmentar un texto. Los textos de granularidad m´as gruesa son aquellos que tienen una mayor combinaci´on de palabras: f´ormulas, frases hechas y t´erminos compuestos. Un sistema de TA debe ser capaz de reconocer las unidades mayores primero, antes de tratar cada palabra por separado. Una lengua con una densidad mayor (como un lenguaje de especialidad) es m´as apropiado para la TA.

Distancia ling¨ u´ıstica y cultural: Cuando el LO y el LM son lenguas afines (por ejemplo, un par de lenguas latinas), es posible obtener resultados aceptables con un sistema simple de traducci´on palabra por palabra. Los problemas t´ıpicos de la traducci´on son minimizados por la proximidad ling¨ u´ıstica. Por el contrario, la estrategia de traducci´on entre lenguajes m´as distantes debe ser necesariamente m´as elaborada. Al problema de la ling¨ u´ıstica, hay que sumarle el de la distancia cultural; principalmente cuando alguno de los lenguajes intervinientes pertenece a una cultura con convenciones ex´oticas. Desarrollo ling¨ u´ıstico: El grado de disponibilidad de recursos ling¨ u´ısticos como diccionarios, gram´aticas y, sobre todo, corpus (tanto para el LO como para el LM), afectar´a la facilidad de desarrollo de una herramienta de TA. Medio y modo: Podemos distinguir tres modos de traducci´on seg´ un el medio involucrado: • Interpretaci´on: Cuando el medio es oral el lenguaje es espont´aneo, contextualizado, discontinuo y, muchas veces, agramatical. • Traducci´on: Un traductor de textos escritos generalmente se enfrenta a textos cuidadosamente redactados. • Localizaci´on: Tratamiento autom´atico de textos en soporte electr´onico. Fin: El factor m´as importante a tener en cuenta cuando se dise˜ na un programa es definir claramente su objetivo. Las herramientas de TA no son la excepci´on a esta regla. Algunos prop´ositos comunes de los sistemas de TA son: dar una idea del contenido, informar y publicar.

3.

Conclusiones y Trabajos Futuros

Se ha presentado una de las l´ıneas de investigaci´on que se est´a desarrollando dentro del marco de un proyecto de investigaci´on de la Universidad Nacional del Comahue. Los objetivos espec´ıficos de esta l´ınea est´an encuadrados dentro de la TA, definidos dentro de las arquitecturas de transferencias expuestas en el punto 2 de la secci´on 2.1. Aunque a´ un estamos en sus primeras etapas, se ha comenzado a desarrollar un an´alisis de las herramientas a fin de poder establecer el grado de complejidad de los algoritmos, orientando nuestro desarrollo trabajos sobre textos inform´aticos, de estilo formal(en ingl´es) para poder realizar una traducci´on al idioma espa˜ nol.

Referencias [Aba02] Joseba Abaitua. Introducci´on a la traducci´on autom´atica. http://sirio.deusto.es/abaitua/konzeptu/ta/mt10 es/ta10h−1es.htm. Material ¯ preparado para los cursos de postgrado en Traducci´ on por la UD y en Tecnolog´ıa Lingu´ıstica por la UEU/EHU, 2002. [AS94] D. Arnold, L. B. S. M. R. L. H. and L. Sadler. Machine translation: An introductory guide. London: Blackwel l-NCC, 1994. [Mer02] Pilar Hern´andez Mercedes. En torno a la traducci´on autom´atica. http://internet.cervantes.es/internetcentros/cultura/pdf/traduc-cionautomatica.pdf. Cervantes No 2., 2002.

[Tru00] Arturo Trujillo. Estrategias de traducci´on autom´atica. Quark. Ciencia, Medicina, Comunicaci´ on y Cultura, 19:53 – 57, 2000.

Get in touch

Social

© Copyright 2013 - 2024 MYDOKUMENT.COM - All rights reserved.