4 o Ingeniería Informática

4o Ingenier´ıa Inform´ atica II26 Procesadores de lenguaje Pr´actica 1: microcalc, una calculadora elemental Pr´ actica: microcalc 3 ´Indice Introducci´ on . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 Especificaci´ on . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 1 Invocaci´ on y comportamiento de la calculadora. . . . . . . . . . . . . . . . . . . . . 9 2 Estructura de la entrada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 3 Algunos elementos l´exicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.1 Literales 3.2 Componentes l´exicos que se omiten 9 9 10 4 Tipos de datos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 5 Expresiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 I II Gu´ıa de desarrollo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 6 La 6.1 6.2 6.3 6.4 6.5 6.6 calculadora b´asica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Estructura de la calculadora Representaci´ on de las expresiones mediante ASTs Especificaci´ on l´exica Implementaci´ on del analizador l´exico An´alisis sint´actico y construcci´on del AST Programa principal 13 13 13 14 14 16 17 7 Ampliaci´ on 1: Enteros largos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 8 Ampliaci´ on 2: Par´entesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 9 Ampliaci´ on 3: Cadenas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 10 Ampliaci´ on 4: Resto de operadores . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 c Universitat Jaume I 2009-2010 Pr´ actica: microcalc 5 Introducci´ on En clase de teor´ıa se ha estudiado la estructura general de los procesadores de lenguaje, viendo que se pueden descomponer en una fase de an´alisis, cuyo objetivo es acabar obteniendo un AST que representa la entrada, y una fase posterior que, en el caso de los int´erpretes, consiste en su evaluaci´ on mediante un recorrido recursivo del AST. A su vez, la fase de an´alisis consta de tres etapas: an´ alisis l´exico, an´ alisis sint´ actico y an´alisis sem´antico. El objetivo de esta pr´ actica es que seas capaz de aplicar esto a un caso real, aunque de momento relativamente sencillo. Para ello, te proponemos implementar una calculadora que eval´ ue expresiones con enteros y cadenas. A lo largo del curso veremos c´omo crear int´erpretes con m´as posibilidades en cuanto a las expresiones que se pueden manejar. Sin embargo, los principios de organizaci´ on ser´ an muy similares a los que seguir´as aqu´ı. Este documento est´ a dividido en dos partes. En la primera, se describe el problema a resolver a lo largo de toda esta pr´ actica, y se detalla el comportamiento de la calculadora y las caracter´ısticas del lenguaje de entrada. La segunda parte es una gu´ıa de desarrollo, con orientaciones sobre el dise˜ no y la implementaci´ on de la calculadora. En ella te propondremos seguir un ciclo de desarrollo incremental: empezaremos por una calculadora b´asica de funcionalidad limitada, pero con un dise˜ no orientado desde el principio a facilitar la posterior incorporaci´on de extensiones en versiones sucesivas. Te recomendamos que te asegures de que la calculadora b´asica y cada ampliaci´on funcionan correctamente antes de pasar a la siguiente. Para ello, deber´as dise˜ nar pruebas, tanto de entradas correctas como err´ oneas. Adem´ as, te resultar´a u ´til implementar las opciones que se detallan en la secci´ on 1 para depurar errores. El desarrollo lo realizar´ as en Linux, utilizando Python como lenguaje de programaci´on. Por lo dem´ as, puedes elegir libremente el editor o entorno de programaci´on que m´as te guste. c Universitat Jaume I 2009-2010 Parte I Especificaci´ on 7 Pr´ actica: microcalc 1. 9 Invocaci´ on y comportamiento de la calculadora La calculadora debe poder ejecutarse interactivamente escribiendo en un terminal la orden: ./microcalc [opci´ on ] Su labor es analizar y ejecutar cada l´ınea que le llegue por la entrada est´andar y, si no hay errores, mostrar el resultado en la salida est´andar. En caso de que la l´ınea le´ıda contenga alg´ un error, se mostrar´ a en la salida de error un mensaje en ASCII (sin acentos) que indique el n´ umero de l´ınea (contando desde uno) y el tipo del primer error encontrado (“Linea n : Error lexico.”, “Linea n : Error sintactico.”, “Linea n : Error semantico.” o “Linea n : Error de ejecucion.”) y se analizar´ a la l´ınea siguiente. Los posibles efectos secundarios de la l´ınea no suceder´ıan (esto es, no se escribir´ıa nada por la salida est´andar). Con la opci´ on -l debe mostrar la secuencia de componentes l´exicos, con la opci´on -a debe mostrar el ´ arbol de derivaci´ on, y con la opci´on -s debe mostrar el AST, todo ello por la salida est´ andar1 . Dichas opciones son excluyentes e inhiben la salida de resultados. El comportamiento de estas opciones ante l´ıneas de entrada err´oneas est´a indefinido. 2. Estructura de la entrada La entrada de microcalc es una secuencia de l´ıneas, cada una de las cuales tiene una expresi´on que se eval´ ua y cuyo resultado se muestra por la salida est´andar seguido de un salto de l´ınea. Los resultados, tanto enteros como cadenas, se muestran en el mismo formato que la sentencia print de Python. Algunas expresiones en microcalc (m´as adelante se explica su significado) y sus correspondientes resultados son: Expresi´ on Resultado 2+3*5 7*(4+2) |"a\tb"| |3*"ab"|-2 3*"a\"b" ||"ab"|*"cde"|*|"fg"+"hi"| 17 42 3 4 a"ba"ba"b 24 Las l´ıneas vac´ıas (formadas s´ olo por el car´acter salto de l´ınea, o por componentes que se omiten y el salto de l´ınea) se consideran err´ oneas. Tambi´en son incorrectas las l´ıneas que no finalizan con salto de l´ınea (esto podr´ıa suceder en la u ´ltima l´ınea de un fichero de entrada). 3. Algunos elementos l´ exicos 3.1. Literales En microcalc hay dos tipos de literales: Literales enteros: el car´ acter 0 o cualquier secuencia de d´ıgitos que comience por uno distinto del 0. Literales de cadena: secuencias de caracteres encerradas entre comillas dobles. Se admiten cuatro secuencias de escape, \\, \", \n y \t que representar´an los caracteres barra invertida, comillas, fin de l´ınea y tabulador. Estos caracteres no pueden aparecer de otra forma entre las comillas
Author:  Eduardo Tebar Rey

2 downloads 39 Views 151KB Size

Story Transcript

4o Ingenier´ıa Inform´ atica II26 Procesadores de lenguaje Pr´actica 1: microcalc, una calculadora elemental

Pr´ actica: microcalc

3

´Indice Introducci´ on . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

5

Especificaci´ on . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

7

1

Invocaci´ on y comportamiento de la calculadora. . . . . . . . . . . . . . . . . . . . .

9

2

Estructura de la entrada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

9

3 Algunos elementos l´exicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.1 Literales 3.2 Componentes l´exicos que se omiten

9 9 10

4

Tipos de datos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

10

5

Expresiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

10

I

II

Gu´ıa de desarrollo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 6 La 6.1 6.2 6.3 6.4 6.5 6.6

calculadora b´asica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Estructura de la calculadora Representaci´ on de las expresiones mediante ASTs Especificaci´ on l´exica Implementaci´ on del analizador l´exico An´alisis sint´actico y construcci´on del AST Programa principal

13 13 13 14 14 16 17

7

Ampliaci´ on 1: Enteros largos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

17

8

Ampliaci´ on 2: Par´entesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

17

9

Ampliaci´ on 3: Cadenas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

18

10

Ampliaci´ on 4: Resto de operadores . . . . . . . . . . . . . . . . . . . . . . . . . . .

18

c Universitat Jaume I 2009-2010

Pr´ actica: microcalc

5

Introducci´ on En clase de teor´ıa se ha estudiado la estructura general de los procesadores de lenguaje, viendo que se pueden descomponer en una fase de an´alisis, cuyo objetivo es acabar obteniendo un AST que representa la entrada, y una fase posterior que, en el caso de los int´erpretes, consiste en su evaluaci´ on mediante un recorrido recursivo del AST. A su vez, la fase de an´alisis consta de tres etapas: an´ alisis l´exico, an´ alisis sint´ actico y an´alisis sem´antico. El objetivo de esta pr´ actica es que seas capaz de aplicar esto a un caso real, aunque de momento relativamente sencillo. Para ello, te proponemos implementar una calculadora que eval´ ue expresiones con enteros y cadenas. A lo largo del curso veremos c´omo crear int´erpretes con m´as posibilidades en cuanto a las expresiones que se pueden manejar. Sin embargo, los principios de organizaci´ on ser´ an muy similares a los que seguir´as aqu´ı. Este documento est´ a dividido en dos partes. En la primera, se describe el problema a resolver a lo largo de toda esta pr´ actica, y se detalla el comportamiento de la calculadora y las caracter´ısticas del lenguaje de entrada. La segunda parte es una gu´ıa de desarrollo, con orientaciones sobre el dise˜ no y la implementaci´ on de la calculadora. En ella te propondremos seguir un ciclo de desarrollo incremental: empezaremos por una calculadora b´asica de funcionalidad limitada, pero con un dise˜ no orientado desde el principio a facilitar la posterior incorporaci´on de extensiones en versiones sucesivas. Te recomendamos que te asegures de que la calculadora b´asica y cada ampliaci´on funcionan correctamente antes de pasar a la siguiente. Para ello, deber´as dise˜ nar pruebas, tanto de entradas correctas como err´ oneas. Adem´ as, te resultar´a u ´til implementar las opciones que se detallan en la secci´ on 1 para depurar errores. El desarrollo lo realizar´ as en Linux, utilizando Python como lenguaje de programaci´on. Por lo dem´ as, puedes elegir libremente el editor o entorno de programaci´on que m´as te guste.

c Universitat Jaume I 2009-2010

Parte I Especificaci´ on

7

Pr´ actica: microcalc

1.

9

Invocaci´ on y comportamiento de la calculadora La calculadora debe poder ejecutarse interactivamente escribiendo en un terminal la orden:

./microcalc [opci´ on ] Su labor es analizar y ejecutar cada l´ınea que le llegue por la entrada est´andar y, si no hay errores, mostrar el resultado en la salida est´andar. En caso de que la l´ınea le´ıda contenga alg´ un error, se mostrar´ a en la salida de error un mensaje en ASCII (sin acentos) que indique el n´ umero de l´ınea (contando desde uno) y el tipo del primer error encontrado (“Linea n : Error lexico.”, “Linea n : Error sintactico.”, “Linea n : Error semantico.” o “Linea n : Error de ejecucion.”) y se analizar´ a la l´ınea siguiente. Los posibles efectos secundarios de la l´ınea no suceder´ıan (esto es, no se escribir´ıa nada por la salida est´andar). Con la opci´ on -l debe mostrar la secuencia de componentes l´exicos, con la opci´on -a debe mostrar el ´ arbol de derivaci´ on, y con la opci´on -s debe mostrar el AST, todo ello por la salida est´ andar1 . Dichas opciones son excluyentes e inhiben la salida de resultados. El comportamiento de estas opciones ante l´ıneas de entrada err´oneas est´a indefinido.

2.

Estructura de la entrada

La entrada de microcalc es una secuencia de l´ıneas, cada una de las cuales tiene una expresi´on que se eval´ ua y cuyo resultado se muestra por la salida est´andar seguido de un salto de l´ınea. Los resultados, tanto enteros como cadenas, se muestran en el mismo formato que la sentencia print de Python. Algunas expresiones en microcalc (m´as adelante se explica su significado) y sus correspondientes resultados son: Expresi´ on

Resultado

2+3*5 7*(4+2) |"a\tb"| |3*"ab"|-2 3*"a\"b" ||"ab"|*"cde"|*|"fg"+"hi"|

17 42 3 4 a"ba"ba"b 24

Las l´ıneas vac´ıas (formadas s´ olo por el car´acter salto de l´ınea, o por componentes que se omiten y el salto de l´ınea) se consideran err´ oneas. Tambi´en son incorrectas las l´ıneas que no finalizan con salto de l´ınea (esto podr´ıa suceder en la u ´ltima l´ınea de un fichero de entrada).

3.

Algunos elementos l´ exicos

3.1.

Literales

En microcalc hay dos tipos de literales: Literales enteros: el car´ acter 0 o cualquier secuencia de d´ıgitos que comience por uno distinto del 0. Literales de cadena: secuencias de caracteres encerradas entre comillas dobles. Se admiten cuatro secuencias de escape, \\, \", \n y \t que representar´an los caracteres barra invertida, comillas, fin de l´ınea y tabulador. Estos caracteres no pueden aparecer de otra forma entre las comillas que delimitan la cadena. 1 Para

poder ver los a ´rboles, puedes escribirlos en el formato de la herramienta VerArbol.

c Universitat Jaume I 2009-2010

10

II26 Procesadores de lenguaje

3.2.

Componentes l´ exicos que se omiten

Los componentes l´exicos pueden separarse por cualquier secuencia de espacios en blanco y tabuladores, que son omitidos.

4.

Tipos de datos El lenguaje dispone de dos tipos de datos: entero y cadena.

5.

Expresiones

En microcalc son expresiones v´ alidas los literales (enteros y cadenas). Adem´as, tambi´en son v´ alidas aquellas expresiones que pueden construirse a partir de otras utilizando correctamente los operadores ofrecidos por el lenguaje. Finalmente, cualquier expresi´on v´alida puede encerrarse entre par´entesis para formar as´ı una nueva expresi´on v´alida. El lenguaje dispone de los siguientes operadores: Operador suma: +. Es binario, infijo y asociativo por la izquierda. Ambos operandos deben ser del mismo tipo, que coincide con el del resultado. En el caso de las cadenas, se interpreta como concatenaci´ on de sus operandos. Operador resta: -. Es binario, infijo y asociativo por la izquierda. Ambos operandos deben ser de tipo entero, igual que el resultado. Operador producto: *. Es binario, infijo y asociativo por la izquierda. Si ambos operandos son de tipo entero, el resultado es de este tipo. Si uno de los operandos es de tipo cadena y el otro entero, el resultado es una cadena formada concatenando la cadena dada el n´ umero de veces indicado por el entero. Si el entero es negativo o cero, el resultado es la cadena vac´ıa. Operador divisi´ on: /. Es binario, infijo y asociativo por la izquierda. Ambos operandos deben ser de tipo entero, igual que el resultado. Si el divisor es cero, se produce un error de ejecuci´on. Operador cambio de signo: -. Es unario y prefijo. El operando es de tipo entero, igual que el resultado. Operador identidad: +. Es unario y prefijo. El resultado es el valor del operando, que debe ser entero. Operador barra: |·|. Es unario. El operando debe ser una expresi´on de tipo entero o cadena encerrada entre las dos barras verticales. Si el operando es de tipo entero, el resultado es su valor absoluto; si es de tipo cadena, su longitud. El orden de prioridad de los operadores es el siguiente, de menor a mayor: 1. Suma y resta. 2. Producto y divisi´ on. 3. Cambio de signo e identidad. En las expresiones se pueden emplear par´entesis para agrupar subexpresiones y alterar el orden de evaluaci´ on, de la forma habitual. Por otro lado, el operador barra no necesita un nivel de prioridad expl´ıcito puesto que se aplica sobre la expresi´on que encierra.

Parte II Gu´ıa de desarrollo

11

Pr´ actica: microcalc

6.

13

La calculadora b´ asica

Comenzaremos por una calculadora muy b´asica. Admitir´a u ´nicamente enteros de un d´ıgito, que podr´ a sumar o multiplicar. No tendr´ a par´entesis pero s´ı seguir´a las reglas habituales de precedencia y asociatividad: el producto ser´ a m´ as prioritario que la suma y ambas operaciones ser´an asociativas por la izquierda.

6.1.

Estructura de la calculadora

El fichero principal ser´ a microcalc y se encargar´a de leer las l´ıneas de la entrada est´andar, construir los analizadores l´exico y sint´actico y utilizar el AST para calcular el resultado. Adem´as se ocupar´ a del tratamiento de errores. Para el analizador l´exico, utilizaremos la clase Lexico, que residir´a en lexico.py y que ser´a capaz de dividir la l´ınea de entrada en componentes. Estos componentes estar´an definidos en componentes.py. Como se comenta en el tema de teor´ıa sobre estructura de los compiladores e int´erpretes, ser´a el analizador sint´ actico el que “lleve la batuta”. Para ello, tendremos en sintactico.py la definici´on de una clase, Sintactico, que har´ a las llamadas oportunas al analizador l´exico y construir´a el AST correspondiente a la l´ınea le´ıda. Para la construcci´on del AST, contar´a con las clases que definiremos en AST.py. Finalmente, tendremos dos ficheros auxiliares: errores.py y tipos.py. El fichero errores.py simplemente contendr´ a cuatro clases derivadas de Exception: ErrorLexico, ErrorSintactico, ErrorSemantico y ErrorEjecucion. De momento, deja las clases vac´ıas (el cuerpo s´olo tiene pass). El m´ odulo tipos.py definir´ a dos variables: Entero y Cadena. Para microcalc, nos bastar´a con que contengan sendas cadenas con el nombre del tipo. En casos m´as complicados, interesar´a que sean objetos con informaci´ on adicional. Puede que eches a faltar un m´ odulo para el an´alisis sem´antico. En realidad, es la fase m´as dispersa puesto que est´ a mezclada con el an´alisis sint´actico y con los AST. De todas formas, en una calculadora tan sencilla como ´esta, el sem´antico tiene un papel muy reducido.

6.2.

Representaci´ on de las expresiones mediante ASTs

´ Como sabes, representaremos las expresiones internamente mediante Arboles de Sintaxis Abstracta, a los que llamamos AST. Por ejemplo, la expresi´on 2 + 3 ∗ 4 se podr´ıa representar internamente mediante el ´ arbol: + *

2 3

4

Empieza creando un m´ odulo, AST.py, que contenga tres clases para representar los tres posibles nodos que encontraremos en los ´ arboles: NodoSuma: representa una suma. Tiene dos hijos, izdo y dcho. NodoProducto: representa un producto. Tiene dos hijos, izdo y dcho. NodoEntero: representa un literal entero. Tiene un atributo: valor. El constructor para los nodos que tienen hijos recibe dos par´ametros, uno por hijo. En el caso del NodoEntero, el constructor recibe directamente el valor. Con esta convenci´on, si queremos representar la expresi´ on anterior, podemos escribir: NodoSuma(NodoEntero(2), NodoProducto(NodoEntero(3), NodoEntero(4))) c Universitat Jaume I 2009-2010

14

II26 Procesadores de lenguaje

Para poder evaluar las expresiones, a˜ nade a cada nodo el m´etodo evalua. Este m´etodo no tiene par´ ametros y devuelve el valor de la expresi´on correspondiente. En el caso de los enteros, el valor es el que se ha almacenado. Para las expresiones, habr´a que evaluar el hijo izquierdo, despu´es el derecho y, finalmente, sumar o multiplicar los valores para devolver el resultado. Si quieres comprobar que las expresiones se representan correctamente en memoria, puedes a˜ nadir el m´etodo __str__ a los nodos. Este m´etodo devuelve una representaci´on “agradable” del objeto. En nuestro caso, debes hacer lo siguiente: el m´etodo __str__ de los enteros devolver´a el valor convertido en cadena. En el caso de las sumas y productos, puede devolver una cadena formada por: un par´entesis abierto, el hijo izquierdo, el s´ımbolo de la operaci´on, el hijo derecho y un par´entesis cerrado. Para implementar la opci´ on -s, a˜ nade adem´as el m´etodo arbol. Este m´etodo no tiene par´ametros y devuelve una representaci´ on en el formato VerArbol. Por ejemplo, para las sumas y productos devolver´ a una cadena formada por: un par´entesis abierto, el operador entre comillas, el resultado de llamar al m´etodo arbol del hijo izquierdo, el resultado de llamar al m´etodo arbol del hijo derecho y un par´entesis cerrado.

6.3.

Especificaci´ on l´ exica

Ya tenemos una manera de representar las expresiones internamente y de trabajar con ellas. Ahora tenemos que lograr traducir cadenas de caracteres (la entrada del usuario) a esas representaciones. Nuestro analizador l´exico tendr´ a inicialmente las siguientes categor´ıas: Categor´ıa

Expresi´on regular

Atributos

Acciones

suma producto entero

\+ \* [0–9]

— — valor

blanco nl eof

[ \t] \n

— — —

emitir emitir calcular valor emitir omitir emitir emitir

e o f

Por un lado, est´ an los operadores; por otro, los literales enteros (de un d´ıgito). Tambi´en tendremos que tratar los blancos y los fines de l´ınea. Los primeros, para limpiarlos; los segundos, para indicar que se termina la expresi´ on. Finalmente, debemos indicar de alguna forma al analizador sint´ actico que se ha terminado la entrada. Para esto utilizamos la categor´ıa eof. Puede parecer redundante tener un fin de l´ınea y un fin de fichero. Piensa, sin embargo, que puede darse el caso de que una l´ınea no est´e terminada por un car´acter fin de l´ınea, por ejemplo si, en lugar de introducirla por el teclado, lo hacemos redireccionando un fichero. En este caso, ¿qu´e categor´ıa deber´ıa devolver el analizador l´exico? Por otro lado, es bueno tener previsto qu´e devolver si se pide un nuevo componente tras el nl.

6.4.

Implementaci´ on del analizador l´ exico

Vamos a descomponer el an´ alizador l´exico en dos partes: la definici´on de los componentes l´exicos y el analizador en s´ı. Crea un m´odulo, componentes.py, con una clase por cada categor´ıa de las que no se omiten. Cada clase Python tendr´a un atributo cat, que nos indique a qu´e categor´ıa pertenece el componente l´exico2 . Adem´as, la clase entero tendr´a el atributo valor que habr´a que calcular en el constructor a partir del lexema. Para poder comprobar el funcionamiento de tu analizador, querr´as escribir c´omodamente los componentes l´exicos. Para ello, puedes a˜ nadir a cada objeto el m´etodo __str__. Puedes usar la 2 Observa que este atributo no est´ a en la tabla anterior; en realidad, es algo que nos facilitar´ a la implementaci´ on, pero no pertenece a los atributos que consideramos como parte de la especificaci´ on l´ exica.

Pr´ actica: microcalc

15

convenci´ on de escribir un componente mediante el nombre de su categor´ıa y, en el caso de los enteros, mediante el nombre seguido de la cadena “valor:” y el valor entre par´entesis. De este modo, con print componentes.Entero(’7’) obtendr´ıas el mensaje “entero (valor: 7)” por la salida est´andar. Ahora vas a definir una clase para representar el analizador l´exico. Para ello, crea en el fichero lexico.py la clase Lexico. El comportamiento de los objetos de esta clase ser´a el siguiente. Al crearlos, les pasaremos la cadena que se va a analizar, presumiblemente le´ıda por teclado. Posteriormente, iremos llamando a un m´etodo, siguiente, que ir´a devolviendo en cada llamada un nuevo componente l´exico. Por ejemplo, la secuencia lexico= Lexico(’2 + 3*4\n’) while True: componente= lexico.siguiente() print componente if componente.cat== ’eof’: break deber´ a escribir por pantalla algo similar a entero (valor: 2) suma entero (valor: 3) producto entero (valor: 4) nl eof F´ıjate en que los blancos han “desaparecido”, ya que la especificaci´on l´exica indica que se deben omitir. Escribe el constructor de la clase Lexico. Como par´ametro, recibe una cadena que representa la l´ınea que contiene la expresi´ on. Adem´as de copiar la cadena, inicializa a cero un atributo (por ejemplo pos) que indicar´ a en qu´e posici´on de la cadena esperamos encontrar el siguiente componente. Crea ahora un m´etodo, siguiente, sin par´ametros y que al ser llamado devuelva el siguiente componente que se encuentre en la cadena y que no haya que omitir. Puedes implementar este m´etodo de dos formas. Puedes dise˜ nar e implementar una MDD, o, dado que este caso es especialmente sencillo, puedes hacer que siguiente se comporte as´ı: Si pos es mayor o igual que la longitud de la cadena, devuelve un componente eof. Si lo que hay en la posici´ on pos de la cadena es un blanco o un tabulador, avanza pos y busca otro componente. Si se encuentra un d´ıgito, devuelve un componente entero inicializado con el car´acter correspondiente. Si se encuentra un m´ as (+), un por (*) o un car´acter fin de l´ınea, devuelve el componente correspondiente. Antes de cada una de las devoluciones, excepto de eof, incrementa la posici´on de pos en uno. Si se encuentra un error (un car´acter que no est´e en la lista anterior), eleva una excepci´on de tipo ErrorLexico. c Universitat Jaume I 2009-2010

16

II26 Procesadores de lenguaje

6.5.

An´ alisis sint´ actico y construcci´ on del AST

Nuestro objetivo ahora es construir, a partir de lo que nos vaya devolviendo el analizador l´exico, ASTs que se correspondan con las expresiones que se introduzcan por el teclado. Las expresiones que podemos encontrar se construyen a partir de la siguiente gram´atica3 : hL´ıneai



hExpresi´oni nl

hExpresi´ oni



hT´erminoi(suma hT´erminoi)∗

hT´erminoi



hFactori(producto hFactori)∗

hFactori

→ entero

¿C´ omo se lee esto? La primera regla dice que una l´ınea en la entrada se compone de una expresi´ on y de un fin de l´ınea; la segunda nos dice que, para construir una expresi´on, tendremos que tener un t´ermino seguido de cero o m´as repeticiones de un operador suma y un t´ermino; la tercera indica la forma de los t´erminos y la u ´ltima dice que un factor es simplemente un literal entero. Ahora implementar´ as un analizador para esta gram´atica, que construir´a el correspondiente AST. Para ello, crea el fichero sintactico.py con la clase Sintactico, cuyo constructor recibe un analizador l´exico que almacena en el atributo lexico. Adem´as, llama a siguiente del analizador l´exico y almacena el resultado en el atributo componente. La parte principal de Sintactico va a ser un conjunto de m´etodos que se corresponder´an con los no terminales de la gram´ atica. Estos m´etodos ser´an analizaLinea, analizaExpresion, analizaTermino y analizaFactor. No tendr´an par´ametros y su ejecuci´on supondr´a analizar la entrada desde el punto donde se obtuvo el u ´ltimo valor de componente hasta que se haya encontrado una l´ınea, una expresi´ on, un t´ermino o un factor, respectivamente, y devolver el ´arbol correspondiente. As´ı, analizaLinea llama a analizaExpresion y despu´es comprueba que la categor´ıa de componente es igual a ’nl’. Si todo ha ido bien, se avanza al siguiente componente en el analizador l´exico (as´ı, el an´ alisis de la l´ınea consume su salto final) y se devuelve el ´arbol que analizaLinea ha recibido de analizaExpresion. En caso contrario, se eleva una excepci´on de tipo ErrorSintactico. M´ as interesante es analizaExpresion. Hace lo siguiente: Primero busca un t´ermino mediante analizaTermino. El ´arbol devuelto lo almacena en la variable arbol. Despu´es, mientras encuentre un operador suma, avanza en el l´exico, y busca otro t´ermino. Con el ´ arbol correspondiente a este t´ermino como hijo derecho y el que tenemos en arbol como izquierdo, crea otro ´ arbol que guarda en arbol. Finalmente (cuando no encuentra m´as operadores suma), devuelve arbol. En c´ odigo: def analizaExpresion(self): arbol= self.analizaTermino() while self.componente.cat== ’suma’: self.componente= self.lexico.siguiente() dcho= self.analizaTermino() arbol= AST.NodoSuma(arbol, dcho) return arbol El m´etodo analizaTermino es an´ alogo. Finalmente, analizaFactor comprueba que en componente hay un entero. Si no, eleva una excepci´ on de tipo ErrorSintactico. Si efectivamente hay un entero, crea un ´arbol con NodoEntero utilizando el valor que tiene el componente y, tras avanzar en el l´exico, devuelve ese ´arbol. 3 Esta gram´ atica tiene partes derechas regulares, es una generalizaci´ on de las que conoces por TALF y que veremos en el tema de an´ alisis sint´ actico.

Pr´ actica: microcalc

6.6.

17

Programa principal

Finalmente, vamos a escribir el programa principal. Llama al fichero microcalc. Tras importar los m´ odulos necesarios, escribe un bucle que haga lo siguiente: Intenta leer una l´ınea de sys.stdin mediante readline. Si no hay ninguna l´ınea m´ as (readline ha devuelto la cadena vac´ıa), sale del bucle. En caso contrario, crea un objeto de la clase Lexico y otro de la clase Sintactico. Llama a analizaLinea del objeto de la clase Sintactico dentro de una sentencia try que capture los errores l´exicos y sint´ acticos. En caso de que se produzca alguno de ellos, muestra, por stderr, el correspondiente mensaje de error seg´ un el formato especificado en la p´agina 9. Si no ha habido errores, escribe, por stdout, el resultado de evaluar la expresi´on. Determina si es posible que se produzca un error l´exico durante la creaci´on del objeto analizador sint´ actico y, de ser as´ı, desplaza la construcci´on de los analizadores al interior de la sentencia try.

7.

Nivel l´ exico:

Con esta ampliaci´ on, se permite trabajar con enteros de longitud arbitraria. Bastar´a con modificar el analizador l´exico. Completa la especificaci´ on l´exica de la secci´on 6.3 modificando la expresi´on asociada a la categor´ıa entero. Ten en cuenta que, seg´ un la especificaci´on del lenguaje, para los literales enteros se admite el car´ acter 0 o cualquier secuencia de d´ıgitos que comience por uno distinto del 0. A partir de tu especificaci´ on, dise˜ na e implementa la correspondiente MDD. Para ello, tendr´as que modificar el m´etodo siguiente de la clase Lexico.

8.

Nivel l´ exico: Nivel sint´ actico:

Ampliaci´ on 1: Enteros largos

Ampliaci´ on 2: Par´ entesis

Con esta ampliaci´ on, se pueden utilizar par´entesis en las expresiones. Bastar´a con modificar el analizador l´exico para introducir las categor´ıas apar (abre par´entesis) y cpar (cierra par´entesis) y el analizador sint´ actico para permitir su utilizaci´on. Completa la especificaci´ on l´exica con las nuevas categor´ıas y modifica la MDD. La nueva gram´ atica ser´ a la siguiente: hL´ıneai



hExpresi´oni nl

hExpresi´ oni



hT´erminoi(suma hT´erminoi)∗

hT´erminoi



hFactori(producto hFactori)∗

hFactori

→ entero | apar hExpresi´oni cpar

Para actualizar la clase Sintactico, bastar´a con cambiar en sintactico.py el m´etodo analizaFactor. Lo que tendr´ a que hacer ahora el m´etodo ser´a examinar self.componente. Si es de la categor´ıa entero, deber´ a construir y devolver un objeto NodoEntero, como hasta ahora. Si se encuentra un componente de la categor´ıa apar, tendr´a que: avanzar el analizador l´exico; llamar a analizaExpresion; comprobar que self.componente tiene un par´entesis cerrado, avanzando el l´exico si es as´ı o elevando una excepci´ on en caso contrario; finalmente, debe devolver el ´ arbol que haya recibido de analizaExpresion. Si self.componente no est´ a en ninguno de los casos anteriores, debe elevar una excepci´on. Observa que no necesitamos nuevos tipos de nodos en el AST. c Universitat Jaume I 2009-2010

18

II26 Procesadores de lenguaje

9.

Nivel l´ exico:

Nivel sint´ actico:

Ampliaci´ on 3: Cadenas

Esta ampliaci´ on permite utilizar cadenas en las expresiones. Esto requerir´a mayores cambios que las modificaciones anteriores. En el analizador l´exico tendremos que a˜ nadir la nueva categor´ıa cadena. Sint´ acticamente, tendremos que a˜ nadir otra posibilidad para hFactori. Adem´as, definiremos nuevos nodos para los AST y tendremos que incluir comprobaciones de tipos. Ampl´ıa la especificaci´ on l´exica para incluir la clase cadena teniendo en cuenta lo que se dice en la secci´ on 3.1. Piensa qu´e diferencias hay entre evitar la aparici´on de secuencias de escape incorrectas mediante la expresi´on regular o mediante la acci´on de c´alculo del atributo correspondiente. En componentes.py, tendr´as que a˜ nadir una nueva clase para esta categor´ıa. En el constructor de esta categor´ıa a˜ nade el c´odigo para eliminar las comillas que delimitan la cadena y sustituir las secuencias de escape por los caracteres que representan. Por ejemplo, el lexema "El autor de \"El Quijote\" es Cervantes" representa la cadena El autor de "El Quijote" es Cervantes. Modifica la MDD para reflejar la nueva especificaci´ on. En la parte sint´ actica, bastar´ a con que la regla de hFactori sea hFactori

Nivel sem´ antico:

Generaci´ on resultados:

de

→ entero | cadena | apar hExpresi´oni cpar

Modifica analizaFactor para incorporar este cambio. En AST.py habr´ a que a˜ nadir NodoCadena para representar los literales de cadena. Su estructura ser´ a similar a NodoEntero. Hasta ahora, no hemos tenido problemas con los tipos de las expresiones. S´olo ten´ıamos expresiones de un tipo, el entero. Con la introducci´on de las cadenas, la situaci´on cambia. Por ejemplo, aunque la gram´ atica lo permite, no es posible multiplicar dos expresiones si ambas corresponden a cadenas. Esto nos obliga a a˜ nadir un nivel adicional de comprobaciones. A˜ nade a los nodos un nuevo m´etodo, compsemanticas, que no tendr´a par´ametros. Tras su ejecuci´on, el nodo tendr´ a un atributo, tipo, con uno de los dos valores definidos en el m´odulo tipos. En NodoEntero y NodoCadena, compsemanticas se limita a asignar a self.tipo el valor correspondiente (tipos.Entero o tipos.Cadena). En NodoSuma y NodoProducto, compsemanticas comenzar´ a llamando a los m´etodos compsemanticas de los hijos izquierdo y derecho del nodo. Para la suma, exigiremos que ambos hijos tengan el mismo tipo, que ser´a el que se asigne a self.tipo. Si no tienen el mismo tipo, compsemanticas deber´a elevar una excepci´on del tipo ErrorSemantico. En el caso del producto, el tipo del resultado ser´a cadena si uno de los hijos es de tipo cadena y el otro entero. Si ambos hijos son de tipo entero, el producto tambi´en lo ser´a. Finalmente, si ambos hijos son de tipo cadena, se elevar´ a una excepci´on. El programa principal deber´ a llamar a compsemanticas del nodo ra´ız del AST que ha encontrado antes de evaluarlo. Dado que seguimos el convenio de Python, no har´a falta modificar los m´etodos evalua de los nodos NodoSuma y NodoProducto para tener en cuenta las nuevas posibilidades.

10.

Ampliaci´ on 4: Resto de operadores

Modifica tu int´erprete para incluir todos los operadores de la secci´on 5. La gram´atica correspondiente ser´ıa: hL´ıneai



hExpresi´ oni nl

hExpresi´ oni



hT´erminoi(opad hT´erminoi)∗

hT´erminoi



hFactori(opmul hFactori)∗

hFactori

→ entero | cadena | apar hExpresi´oni cpar| opad hFactori| barra hExpresi´oni barra

Observa que hemos agrupado los operadores aditivos (+ y -) en la categor´ıa opad y los operadores multiplicativos (* y /), en la categor´ıa opmul. Intenta decidir t´ u las modificaciones necesarias en los niveles l´exico, sint´actico y sem´antico.

Get in touch

Social

© Copyright 2013 - 2024 MYDOKUMENT.COM - All rights reserved.