2. Representación de números 1

´ de numeros ´ 2. Representacion 1 An´ alisis Num´ erico Julio C. Carrillo E. Escuela de Matem´ aticas, UIS ´ lisis Nume ´ rico Ana ´ de numeros

Author: Rosa Palma de la Cruz

16 downloads 111 Views 211KB Size

Report

DOWNLOAD PDF

Recommend Stories

^6+1 2^5+1 2^2+1 2^1+1 2^ ^6+1 2^0-65

$ ($ 0 1! - 2! .! 2 +!

Ecuaciones. 2x + 3 = 5x 2. 2x + 1 = 2 (x + 1) 2x + 1 = 2x x + 2 = 2 (x + 1) 2x + 2 = 2x = 2. x + 1 = 2 x = 1

1-2

Lesson 1 Homework 2 2

Na 2 0=1-2

FELDESPATO Y ARENAS FELDESPÁTICAS (2011) Los feldespatos son una familia de minerales que comprende un grupo de aluminosilicatos relacionados entre sí

1. 1. INTRODUCCION 2. TABLA DE CONTENIDO

Los Expatriados 1 Pedro 1:1-2

Z 1 = 8 Z 2 = 16 W 1 Z 1 = W 2 Z 2

sec. 83 x 2 y 1 2 1;

Swokowski_03A_3R.qxd 15/1/09 1:59 PM Page 159 3.3 Rectas Ejer. 81-84: Grafique las dos ecuaciones en el mismo plano de coordenadas, y estime las

Story Transcript

´ de numeros ´ 2. Representacion

1

An´ alisis Num´ erico Julio C. Carrillo E. Escuela de Matem´ aticas, UIS

´ lisis Nume ´ rico Ana

´ de numeros ´ 2. Representacion

1.

2

Representaci´ on de punto flotante normalizada

La notaci´on cient´ıfica es un tipo de representaci´on de n´ umeros reales la cual es particularmente para representar y operar num´ericamente, en particular, con aquellos de tales n´ umeros que son demasiado peque˜ nos o demasiado grandes. Como veremos, este tipo de problema tambi´en se presentan cuando en una computadora se tratan de representar y manipular n´ umeros reales, pero con una dificultad adicional: toda calculadora o computadora solo trabaja con n´ umeros finitos, m´as no infinitos. Una variaci´on de la notaci´on cient´ıfica da la soluci´on a este problema.

´ lisis Nume ´ rico Ana

´ de numeros ´ 2. Representacion

3

Sea β la base a ser utilizada por una computadora para representar n´ umero reales. Entonces todo n´ umero real no nulo x puede ser representado en la forma de punto flotante normalizada (notaci´on cient´ıfica normalizada) como: x = σ · (0.a1 a2 · · · at at+1 · · · )β × β e donde σ = ±, a1 6= 0 y e es un entero. Los n´ umeros a1 , a2 , . . . son d´ıgitos tales que 0 ≤ ai < β. Por ejemplo, en base 10, 37,21829 = 0,37211829 × 102 0,00227 = 0,2271828 × 10−2 3000527,11059 = 0,300052711059 × 107 En esta representaci´on, el exponente e es un n´ umero entero que no necesariamente se considera que tiene representaci´on en la base β. ´ lisis Nume ´ rico Ana

´ de numeros ´ 2. Representacion

4

Por ejemplo, en base 2, 3 = 0,011 × 2−1 = 0,110 × 2−2 . 16 Debe aclararse que en la representaci´on de punto flotante normalizada en una base β dada, los n´ umeros reales pueden tener una representaci´on decimal finita, infinita peri´odica o infinita no peri´odica. A´ un m´as, tambi´en puede suceder que n´ umeros reales que tienen representaci´on finita en una base pueden tener representaci´on infinita en otra base. Por ejemplo, 1 = (0,1)10 = (0,00011 0011 0011 0011 0011 · · · )2 . 10 = (0,06314 6314 6314 6314 6314 6314 6314 · · · )8 Como una calculadora o computadora tiene u ´nicamente capacidad de representar y almacenar cantidades finitas, este tipo de m´aquinas u ´nicamente operan con n´ umeros que se puedan representar con un n´ umero finito de d´ıgitos. Los n´ umeros reales que son representados ´ lisis Nume ´ rico Ana

´ de numeros ´ 2. Representacion

5

en un computador son llamados n´ umeros de m´ aquina. Como todo n´ umero usado en c´alculos num´ericos por el sistema de una computadora debe ser conforme al formato de los n´ umeros en tal sistema, este n´ umero debe tener una expansi´ on finita. Es importante destacar que la mayor´ıa de n´ umeros reales no pueden ser representados exactamente en un computador. El sistema num´erico utilizado por un computador no es un continuo pero si es un conjunto discreto. A fin de ejemplificar la anteriormente mencionado, consideremos todos los n´ umeros de punto flotante que se pueden representar de la forma x = ±(0.b1 b2 b3 )2 × 2±k donde b1 , b2 , b3 y k son d´ıgitos binarios. En este caso existen dos elecciones para el signo ±, dos opciones para b1 , dos opciones para b2 , dos opciones para b3 y tres opciones para el exponente: ±1, 0. En total, existen 2 · 2 · 2 · 2 · 3 = 48 diferentes n´ umeros que tienen esta ´ lisis Nume ´ rico Ana

´ de numeros ´ 2. Representacion

6

forma. Los n´ umeros de este sistema son dados as´ı:

´ lisis Nume ´ rico Ana

´ de numeros ´ 2. Representacion

7

El menor y el mayor n´ umero, no negativos, que se pueden representar en este sistema son, respectivamente, 0,001 × 2−1 = 0,111 × 21 =

1 16

(menores mantisa y exponente)

7 4

(mayores mantisa y exponente)

Los n´ umeros positivos de este sistema en este rango es un conjunto discreto el cual es dado en la siguiente figura.

Si en el proceso de un c´alculo num´erico, el resultado es un n´ umero x de la forma ±q e , donde e est´a fuera del rango permitido, entonces se dice que un desbordamiento o un subdesbordamiento ha ocurrido o que x esta fuera del rango del computador. Generalmente el desbordamiento resulta en un error fatal para, y la ejecuci´on normal del programa se para. Un subdesbordamiento se resuelve f´acilmente al hacer x igual a cero. ´ lisis Nume ´ rico Ana

´ de numeros ´ 2. Representacion

8

En en un computador con un sistema de n´ umeros de punto flotante como el considerado anteriormente, cualquier n´ umero no nulo m´as 1 puede producir subdesbordamiento a cero y cercano a 0 que a 16 cualquier n´ umero fuera del rango −1,75 = − 47 y 1,75 = 74 puede desbordar la m´aquina a infinito. En efecto, al utilizar la forma de punto flotante normalizada encontramos que estos n´ umeros (excepto el cero) tienen la forma x = ±(0,1b2 b3 )2 × 2±k . Los n´ umeros de m´aquina no negativos se encuentran representados en la siguiente figura, y se encuentran en el rango 14 y 74 .

En efecto, el menor numero de m´aquina positivo es (0,100)×2−1 = 14 . 3 = 0,011 × 2−1 escrito en forma de punto flotante Por ejemplo, 16 3 normalizada es 16 = 0,110 × 2−2 en donde −2 = e 6= k = 0, ±1. ´ lisis Nume ´ rico Ana

´ de numeros ´ 2. Representacion

2.

9

Representaci´ on de punto flotante

En representaci´on de punto flotante, un n´ umero es representado internamente por un bit con signo (interpretado como mas o menos), un exponente entero exacto e, llamado caracter´ıstica, y una mantisa de la forma 1.f = 1 + f . Juntas representan el n´ umero (−1)s · β e−E · (1.f )2

(1)

donde s = 0 corresponde a “+” y s = 1 a “−”, 2 es la base de la representaci´on (algunas veces la base es 8 o 16), y E es el sesgo del exponente (para la representaci´on adecuada de n´ umeros con magnitud peque˜ na), una constante entera fija para cualquier m´aquina y representaci´on dada. Como ejemplo, ver la siguiente tabla.

´ lisis Nume ´ rico Ana

´ de numeros ´ 2. Representacion

10

Tipo

#s

#e

#f

w

E

p

Media

1

5

10

16

15

11

Simple

1

8

23

32

127

24

Doble

1

11

52

64

1023

53

Extendida

1

15

112

128

16383

113

#s: bits del signo, #e: n´ umero de bits del exponente, #f : n´ umero de bits de la mantisa, E = 2#e−1 − 1, w: n´ umero total de bits o longitud de la palabra, p = #f + 1: bits de precisi´ on.

Cuadro 1: Formatos binarios del est´andar IEEE 754-2008.

´ lisis Nume ´ rico Ana

´ de numeros ´ 2. Representacion

11

Por ejemplo, el valor de e en la representaci´on de un n´ umero de punto flotante en doble precisi´on debe cumplir con la condici´on 0 < e < (11 111 111 111)2 = 211 − 1 = 2047. Para poder representar n´ umeros muy peque˜ nos se considera el sesgoa como (1 111 111 111)2 = 210 − 1 = 1023 As´ı, el exponente de los n´ umeros en esta representaci´on cumplen con la condici´on que −1022 ≤ e − 1023 ≤ 1023. De igual modo, la mantisa de cada n´ umero no negativo debe cumplir la desiguadadb 1 ≤ (1.f )2 ≤ (1,111111 · · · 11111)2 = 2 − 2−52 a 10

es el n´ umero de d´ıgitos que se usan en el exponente, el primero de ellos se usa para el signo. b Como 1 2

+

1 22

1 + r + ··· +

+ ··· +

1 2n

rn

=

r n+1 −1 , r−1

entonces 1 + 2 + · · · + 2n = 2n+1 − 1 y

= 1 − 2−n . ´ lisis Nume ´ rico Ana

´ de numeros ´ 2. Representacion

12

dado que f incluye 52 bits. Como 2−52 ≈ 2,22 × 10−16 = 0,222 × 10−15 , entonces en c´alculos corrientes 15 d´ıgitos decimales significativos pueden ser obtenidos con doble precisi´on. El mayor n´ umero de m´aquina de doble precisi´on que se puede obtener es 21023 (2 − 252 ) ≈ 21024 ≈ 1,8 × 10308 . El n´ umero de m´aquina m´as peque˜ no de doble precisi´on es 2−1022 ≈ 2,2 × 10−308 . Ejemplo 1. Determine la representaci´ on en n´ umero de m´ aquina de simple precisi´ on del n´ umero deciamal −52,234375.

Soluci´ on. La part entera en binario es (52)10 = (11010)2 , y la parte decimal es (0,234375)10 = (0,001 111)2 . Entonces (52,234375)10 = (110 100,001 111)2 = (1,10 100001 1110)2 × 25 es la representaci´on en la forma de punto flotante en base 2, y (0,10 100001 1110)2 es la mantisa almacenada. Ahora el exponente es ´ lisis Nume ´ rico Ana

´ de numeros ´ 2. Representacion

13

(5)10 , y como e − 127 = 5, entonces (e)10 = (132)10 = (10 000 100)2 es el exponente almacenado. Por lo tanto, la representaci´on buscada es (−52,23437)10 = [1 10 000 100 101 000 011 110 000 000 000 00]2

Ejemplo 2. Determine el n´ umero decimal que corresponde al n´ umero de m´ aquina (0100 0101 1101 1110 0100 0000 0000 0000)2 .

Soluci´ on. Este n´ umero involucra 32 bits, por la cual corresponde a la representaci´on de un n´ umero real x en simple precisi´on: 1 d´ıgito binario para el signo, 7 para el exponente y 23 para la mantisa. Una ´ lisis Nume ´ rico Ana

´ de numeros ´ 2. Representacion

14

idea de esta distribuci´on es, (0|100 0101 1|101 1110 0100 0000 0000 0000)2 . El exponente almacenado es (100 0101 1)2 = (20 + 21 + 23 + 27 )10 = (130)10 y el exponente de x es e − E = 139 − 127 = 12. La mantisa es positiva y representa el n´ umero x = (1,101 1110 01)2 × 212 = (1101 1110 01000.)2 = 23 + 26 + 27 + 28 + 29 + 211 + 212 = 7112.

´ lisis Nume ´ rico Ana

´ de numeros ´ 2. Representacion

3.

15

Errores de computador en la representaci´ on de n´ umeros

Revisemos de nuevo el problema que ocurre en la representaci´on en el computador de un n´ umero real dado x. Utilicemos un computador que utiliza n´ umeros de m´aquina de 32 bits (precisi´on simple: #s = 1, #e = 8, #f = 23). Si x = 25321697 o x = 2−3251 , estos exponentes exceden por desbordamiento y subdesbordamiento, resp., y el error relativo que se obtiene al reemplazar a x por el n´ umero de m´aquina m´as cercano a x ser´ıa muy grande. Tal n´ umero est´a fuera del rango de n´ umeros de m´aquina de 32 bits de longitud: en este caso el exponente e debe representar un n´ umero entre −(27 − 1) = −127 y 128. A modo de discusi´on, consideremos un n´ umero real cualquiera x en forma punto de punto flotante en precisi´on simple de la forma x = q × 2e

( 21 ≤ q < 1, −126 ≤ e ≤ 127) ´ lisis Nume ´ rico Ana

´ de numeros ´ 2. Representacion

16

El proceso de reemplazar a x por su n´ umero de m´aquina m´as cercano es llamado redondeo de correcci´ on, y el error involucrado es llamado error de redondeo el cual deseamos saber que tan grande es. Supongamos que x es representado en la forma binaria normalizada, x = (0,1b2 b3 · · · b24 b25 · · · )2 × 2e . Un n´ umero de m´aquina cercano a x puede ser obtenido mediante redondeo por defecto o redondeo por exceso. En el primer caso simplemente resulta que no se consideran los d´ıgitos b24 b25 · · · , puesto que s´olo se pueden almacenar 23 d´ıgitos en la mantisa. Este n´ umero de m´aquina es x− = (0,1b2 b3 · · · b24 )2 × 2e , el cual evidentemente se encuentra a la izquierda de x. Otro n´ umero de m´aquina, x+ , esta a la derecha de x y es obtenido por redondeo por exceso. Este n´ umero es obtenido al sumar una unidad a b24 en ´ lisis Nume ´ rico Ana

´ de numeros ´ 2. Representacion

17

la expresi´on de x. As´ı, x+ = (0,1b2 b3 · · · b24 )2 + 2−24 ) × 2e , pues (0,0 · · · 01)2 = 2−24 . El n´ umero m´as cercano de estos dos n´ umeros a x es el n´ umero de m´aquina elegido para representar a x.

Definici´ on 1. Si x∗ es una aproximaci´ on de x, el error absoluto en |x − x∗ | ∗ esta aproximaci´ on es |x − x | y el error relativo es , si x 6= 0. |x|

Si x− esta m´as cercano a x, entonces |x − x− | ≤ 21 |x+ − x− | = 2−25+e

´ lisis Nume ´ rico Ana

´ de numeros ´ 2. Representacion

18

En este caso, el error relativo es acotado de la forma |x − x− | 2−25+e 2−25 −24 = 2 =u ≤ ≤ 1 e x− (0,1b2 b3 · · · b24 )2 × 2 2 donde u es la unidad de redondeo para un computador con simple precisi´on con aritm´etica de punto flotante. Como el epsilon de la m´aquina se define como ε = 2−23 entonces u = 12 ε. Adem´as, u =−k , donde k es el n´ umero de d´ıgitos binarios usados en la mantisa, incluyendo el bit oculto (k = 24 en simple precisi´on y k = 53 en doble precisi´on). De otro lado, si x est´a mas cercano a x+ que a x− , entonces |x − x+ | ≤ 12 |x+ − x− | y de manera similar a como ya se hizo anteriormente se demuestra que el error relativo no es m´as grande que 2−24 = k. As´ı que en el caso del error por redondeo al n´ umero m´as cercano, el error relativo es acotado por u. Observe que cuando todos los d´ıgitos o bits ´ lisis Nume ´ rico Ana

´ de numeros ´ 2. Representacion

19

son descartados, el proceso es llamado recorte. Si un palabra de computador de 32 bits se designa para n´ umeros recortados, la cota de error relativo puede ser dos veces mas grande que la anterior, o 2u = 2−23 = ε.

4.

Notaci´ on de n´ umeros de m´ aquina y an´ alisis regresivo del error

Veamos ahora el error que se produce cuando se realizan operaciones aritm´eticas con n´ umeros de m´aquina. Por simplicidad, supongamos que estamos trabajando con n´ umeros de m´aquina de cinco lugares decimales y que los vamos a sumar. Dos n´ umeros de este tipo pueden ser x = 0,37218 × 104 ,

y = 0,71422 × 10−1 . ´ lisis Nume ´ rico Ana

´ de numeros ´ 2. Representacion

20

Suponiendo que el computador realiza operaciones aritm´eticas en un ´area que es el doble de la longitud de los n´ umeros, es decir, que el computador tiene un acumulador de diez lugares. La mayor´ıa de computadores realizan operaciones aritm´eticas en un ´area del doble de la longitud de la palabra, as´ı que asumamos que el computador con el cual trabajamos tiene un acumulador en lugares de diez. Primero, el exponente de ambos n´ umeros debe ser ajustado al mismo exponente. A continuaci´on los n´ umeros son sumadas en el acumulador y el resultado redondeado es puesto en formato de palabra de computador: x= 0,37218 00000 × 104 y= 0,00000 71422 × 104 x + y= 0,37218 71422 × 104 El n´ umero de m´aquina m´as cercano a x + y es z = 0,37219 × 104 y ´ lisis Nume ´ rico Ana

´ de numeros ´ 2. Representacion

21

el error relativo involucrado en esta operaci´on de m´aquina es |x + y − z| 0,00000 28578 × 104 −5 = ≈ 0,77 × 10 |x + y| 0,37218 71422 × 104 Este typo de error es aceptable en computadores que manejen este tipo de precisi´on tan baja. Para analizar el error relativo cuando se realizan operaciones aritm´eticas con n´ umeros de m´aquina, es conveniente considerar la notaci´on f l(x) para denotar el n´ umero de m´ aquina de punto flotante que corresponde al n´ umero real x. De hecho, la funci´on f l depende del particular en particular que se considere. Por ejemplo, si trabajamos con n´ umeros de m´aquina de cinco lugares decimales, entonces f l(0,3721871422 × 104 ) = 0,37219 × 104 .

´ lisis Nume ´ rico Ana

´ de numeros ´ 2. Representacion

22

Para un computador con palabras de longitud de 32 bits (simple precisi´on), se tiene del resultado previamente establecido que |x − f l(x)| ≤u |x|

(u = 2−24 ).

En lo sucesivo consideramos que un redondeo se esta realizando. Haciendo f l(x) − x , δ= x encontramos que esta desigualdad puede ser expresada de una manera equivalente, y m´as u ´til, como f l(x) = x(1 + δ)

con |δ| ≤ 2−24 .

Teniendo en cuenta los detalles con la suma de 1 + ε, entonces  f l(1 + ε) > 1 si ε ≥ 2−23 , f l(1 + ε) = 1 si ε < 2−23 . ´ lisis Nume ´ rico Ana

´ de numeros ´ 2. Representacion

23

Consecuentemente, si el epsilon de la m´ aquina es el n´ umero de m´aquina m´as peque˜ no ε tal que f l(1 + ε) > 1 entonces ε = 2−23 . Existen rutinas para encontrar el epsilon de un computador, o bien, se puede escribir un programa que encuentre el menor entero positivo x = 2m tal que 1 + x > 1 en la m´aquina. Sea ahora ⊙ que denota una de las operaciones aritm´eticas +, −, × o ÷. Supongamos que en un computador se utilizan palabras de w bits de longitud, las cuales tienen una precisi´on p (ver Tabla 1, pag. 9). Bajo esta suposici´on el error relativo no excede 2−p . Por ejemplo, en simple precisi´on se tiene que las palabras son de 32 bits de longitud y la precisi´on es de orden 24; por esto, error relativo no excede 2−24 . Por un an´alisis similar al anterior, se tiene que f l(x ⊙ y) = (x + y)(1 + δ)

con |δ| ≤ 2−p . ´ lisis Nume ´ rico Ana

´ de numeros ´ 2. Representacion

24

En la mayor´ıa de computadores las suposiciones acerca del error relativo y la estimaci´on de δ no se cumplen. Por ejemplo, es posible que que x y y sean n´ umeros de m´aquina para los cuales x ⊙ y se desborda o subdesborda. La ecuaci´on anterior puede ser escrita de diferentes maneras, algunas de las cuales sugieren interpretaciones alternativas de redondeo. Por ejemplo, f l(x ⊙ y) = x(1 + δ) + y(1 + δ). Esto quiere decir que el resultado de sumar los n´ umeros de m´aquina x y y no es en general x + y, pero si es en realidad la suma de x(1 + δ) y y(1 + δ). Podemos pensar que x(1 + δ) es el resultado de una peque˜ na perturbaci´on de x. As´ı, la versi´on de m´aquina de x + y, que es f l(x + y), es la suma exacta de las peque˜ nas perturbaciones de x y y. Este interpretaci´on es un ejemplo de error de an´ alisis regresivo, ´ lisis Nume ´ rico Ana

´ de numeros ´ 2. Representacion

25

y con ´el se intenta determinar que perturbaci´on de los datos originales pueden causar que los resultados del computador sean exactos para un problema perturbado. En contraste, un an´ alisis directo del error intenta determinar como las respuestas del computador difieren de las respuestas exactas con estos mismos datos. En este aspecto el c´alculo cient´ıfico a estimulado una nueva forma de ver los errores computacionales. Ejemplo 3. Si x, y y z son n´ umeros en un computador con palabras de longitud de 32 bits (simple precisi´ on, o float), estime la cota superior que puede se obtenida para el error relativo al calcular z(x + y).

Soluci´ on. En el computador, primero se hace el c´alculo de x + y. Esta operaci´on aritm´etica da como resultado el n´ umero f l(x + y), el cual difiere de x + y por el redondeo. Por los principios establecidos,

´ lisis Nume ´ rico Ana

´ de numeros ´ 2. Representacion

26

existe un δ1 tal que f l(x + y) = (x + y)(1 + δ1 )

con |δ1 | ≤ 2−24 .

Ahora bien, z es ya un n´ umero de m´aquina. Cuando este es multiplicado por el n´ umero de m´aquina f l(x + y), el resultado es el n´ umero de m´aquina f l(z f l(x + y)). Estos n´ umeros tambi´en difieren de su contraparte exacta, y por ello, existen un δ2 tal que f l(z f l(x + y)) = z f l(x + y)(1 + δ2 )

donde |δ2 | ≤ 2−24

De estas dos ecuaciones tenemos que f l(z f l(x + y)) = z(x + y)(1 + δ1 )(1 + δ2 ) = z(x + y)(1 + δ1 + δ2 + δ1 δ2 ) ≈ z(x + y)(1 + δ1 + δ2 ) = z(x + y)(1 + δ), donde el t´ermino δ1 δ2 es ignorado, dado que |δ1 δ2 | ≤ 2−48 , y δ = ´ lisis Nume ´ rico Ana

´ de numeros ´ 2. Representacion

27

δ1 + δ2 . Como |δ| ≤ |δ1 | + |δ2 | ≤ 2−24 + 2−24 = 2−23 , entonces la cota superior que se espera para el error relativo es 2−24 . Ejemplo 4. Encuentre, de ser posible, una estimaci´ on del error de redondeo relativo en el c´ alculo de la suma de dos n´ umeros reales x y y en un computador con palabras de longitud de 32 bits. Determinar si en tal caso es cierto que z = f l(f l(x) + f l(y)) = [(x(1 + δ) + y(1 + δ)](1 + δ) = (x + y)(1 + δ)2 ≈ (x + y)(1 + 2δ) y que el error relativo es acotado de la forma (x + y) − z 2δ(x + y) = = |2δ)| ≤ 2−23 . x+y x+y

Soluci´ on. La cantidad δ que ocurre en estos c´alculos no siempre es ´ lisis Nume ´ rico Ana

´ de numeros ´ 2. Representacion

28

la misma. El c´alculo correcto es z = f l(f l(x) + f l(y)) = [(x(1 + δ1 ) + y(1 + δ2 )](1 + δ3 ) = [(x + y) + δ1 x + δ2 y(δ3 x + δ3 y + δ1 δ3 x + δ2 δ3 y] ≈ (x + y) + x(δ1 + δ3 ) + y(δ2 + δ3 ). Por lo tanto, el error de redondeo relativo es (x + y) − z x(δ1 + δ3 ) + y(δ2 + δ3 ) x+y = x+y (x + y)δ3 + xδ1 + yδ2 = x+y xδ1 + yδ2 = δ3 + x+y

el cual no puede ser acotado superiormente, porque el segundo t´ermino tiene en el denominador una cantidad que puede ser cero o cercana a cero. Observe que si x y y son n´ umeros de m´aquina, entonces ´ lisis Nume ´ rico Ana

´ de numeros ´ 2. Representacion

29

δ1 = δ2 = 0 y entonces δ3 es una cota superior de este error. Pero en este caso estos c´alculos no se necesitan ya que cuando se combinan n´ umeros de m´aquina mediante las cuatro operaciones elementales se tiene que asumir que el error relativo no debe exceder 2−24 en magnitud. En resumen, 1. Un n´ umero en simple precisi´on de punto flotante en una computador de palabra de longitud de 32 bits con representaci´on est´andar de punto flotante es almacenado en una sola palabra con el patr´on de bits b1 b2 · · · b9 b10 b11 · · · b32 la cual es interpretada como el n´ umero real (−1)b1 × 2(b2 b3 ···b9 )2 × 2−127 × (1.b10 b11 · · · b32 )2 . 2. Un n´ umero en doble precisi´on de punto flotante en una compu´ lisis Nume ´ rico Ana

´ de numeros ´ 2. Representacion

30

tador de palabra de longitud de 32 bits con representaci´on est´andar de punto flotante es almacenado en un dos palabras con el patr´on de bits b1 b2 · · · b9 b10 b11 · · · b32 b33 b34 b35 · · · b64 la cual es interpretada como el n´ umero real (−1)b1 × 2(b2 b3 ···b12 )2 × 2−1023 × (1.b13 b14 · · · b64 )2 . 3. La relaci´on entre un n´ umero real x y su n´ umero de m´ aquina de punto flotante f l(x) puede ser escrita como f l(x) = x(1 + δ)

donde |δ| ≤ 2−24 .

Si ⊙ denota cualquiera de las operaciones aritm´eticas, entonces podemos escribir f l(x ⊙ y) = (x ⊙ y)(1 + δ), en donde δ depende de x y y. ´ lisis Nume ´ rico Ana