Arquitectura de Computadoras

Arquitectura de Computadoras Tema 2: Costo, Potencia y Performance Eduardo Daniel Cohen – [email protected] http://www.herrera.unt.edu.ar/arqcom

Author: Juan Luis Ortega Pinto

8 downloads 259 Views 7MB Size

Report

DOWNLOAD PDF

Recommend Stories

Arquitectura de Computadoras

Arquitectura de computadoras

Arquitectura de computadoras I

Arquitectura de computadoras I JUAN BERNARDO VAZQUEZ GOMEZ Red Tercer Milenio ARQUITECTURA DE COMPUTADORAS I ARQUITECTURA DE COMPUTADORAS I JUA

Arquitectura de computadoras

Ejercicios de Arquitectura de Computadoras

Unidad II Arquitectura de Computadoras

Conceptos de Arquitectura de Computadoras Curso 2015

Conceptos de Arquitectura de Computadoras Curso 2015 PRACTICA 1 Assembly, Instrucciones, Programas, Subrutinas y Simulador MSX88 Objetivos: que el a

Story Transcript

Arquitectura de Computadoras

Tema 2: Costo, Potencia y Performance Eduardo Daniel Cohen – [email protected] http://www.herrera.unt.edu.ar/arqcom

UNT – Arq. de Computadoras - 2014

1

Costo y Performance – Temas a Tratar en la clase

°  Revisión tema anterior °  Costo de Circuitos integrados °  Definición de Medidas de Performance °  Potencia y Energía. °  Resumiendo y Sintetizando.

UNT – Arq. de Computadoras - 2014

2

Repaso: Arquitectura de Computadoras ° Cordinación de

niveles de abstracción

Aplicación Sistema Operativo Compilador Procesador

Sistema I/O

instruction Set Architecture

Diseño Digital Diseño de Circuitos ° Bajo presión de fuerzas que cambian muy rapidamente

UNT – Arq. de Computadoras - 2014

3

Compilador, Ensamblador, Lenguaje de Máquina Programa de Alto Nivel

temp = v[k]; v[k] = v[k+1]; v[k+1] = temp;

Compilador Programa Lenguaje Assembler

lw lw sw sw

$15, 0($2) $16, 4($2) $16, 0($2) $15, 4($2)

Ensamblador Programa Lenguaje de Máquina

0000 1010 1100 0101

1001 1111 0110 1000

1100 0101 1010 0000

0110 1000 1111 1001

1010 0000 0101 1100

1111 1001 1000 0110

0101 1100 0000 1010

1000 0110 1001 1111

interpretación de Máquina Especificación de señales de control

UNT – Arq. de Computadoras - 2014

4

Repaso Niveles de Organización

PC

Computador Procesador

UNT – Arq. de Computadoras - 2014

Memoria

Dispositivos

Control

input

Datapath

Output

5

En Síntesis. °  Todas las computadoras consisten en 5 componentes. •  Procesador (CPU): (1) camino de datos y (2) control •  (3) Memoria •  (4) Dispositivos de Entrada y (5) Dispositivos de Salida.

°  No toda la “memoria” es igual. •  Cache: memoria rápida (y cara) se ubica cerca del CPU. •  Memoria Principal: menos cara – se puede poner más cantidad. •  Memoria Secundaria: muy barata (y lenta) – se accede por I/O.

°  Los dispositivos de I/O son los de organización más dispar. •  Amplia variación de Velocidades: discos vs. teclados •  Amplio rango de especificaciones: velocidad, costo, standards, ... etc. •  Los menos tomados en cuenta en investigación (hasta ahora) UNT – Arq. de Computadoras - 2014

6

Proceso de Fabricación Circuitos Integrados

°  Factor de Producción (Yield) – cant chips buenos / total de chips. UNT – Arq. de Computadoras - 2014

7

Oblea de Intel I-Core 7

° Oblea de 300 mm, 280 chips, tecnología de 32nn ° Cada chip mide 20.7 x 10.5 mm UNT – Arq. de Computadoras - 2014

8

Costo de los Circuitos integrados Costo del Chip =

Costo Oblea Dados p/oblea * Factor de Producción

Factor de producción: porcentaje de dados que salen sin defecto. Chips p/oblea = Area de Oblea (aprox., excluir los que no entran en el círculo) Area del Dado

Se ve que conviene dados más pequeños El costo del dado es proporcional aprox. al cubo de su área.. UNT – Arq. de Computadoras - 2014

9

Performance (desempeño) °  Permite Elegir inteligentemente °  Mirar por sobre las modas del marketing. °  Clave para comprender las razones de diferentes estructuras de CPU. ¿Por

qué cierto Hw es mejor que otros para determinados programas?

¿Que factores de la performance del sistema están relacionados al Hw? (¿Necesitamos una máquina nueva o un nuevo sistema Operativo?) ¿Cómo afecta a la performance el ISA de una máquina?

UNT – Arq. de Computadoras - 2014

10

Performance en Computadores: TIEMPO, TIEMPO Y TIEMPO °  Tiempo de Respuesta (latencia) — ¿Cuánto tiempo toma para correr mi trabajo? — ¿En cuanto tiempo se ejecuta mi trabajo? — ¿Cuánto esperar por una consulta a una base de datos? °  Productividad — ¿Cuántos trabajos pueden ejecutarse simultáneamente? — ¿Cuál es el tiempo de ejecución promedio? — ¿Cuánto trabajo se efectúa por unidad de tiempo? ¿Qué

se mejora si cambiamos el CPU de una máquina por otro más rápido?

Si agregamos una nueva máquina a un laboratorio para estudiantes, ¿qué mejoramos? UNT – Arq. de Computadoras - 2014

11

Tiempo de Ejecución °  Tiempo transcurrido •  Cuenta todo (accesos a disco y memoria, I/O , etc.) •  En general no es bueno para comparar. ¿Por qué?

°  Tiempo de CPU •  No cuenta I/O o tiempo que se usa para correr otros progr. •  Puede separarse en tiempo del usuario y tiempo del sistema.

°  Nuestro Interés: tiempo de CPU del usuario •  Tiempo para ejecutar las instrucciones de “mi programa”.

UNT – Arq. de Computadoras - 2014

12

Definición de Performance °  Problema •  La máquina A corre un programa en 20 segundos •  La máquina B necesita 25 segundos. •  ¿Cuánto más rápido es A?

°  Decimos que "X es n veces más rápida que Y" PerformanceX / PerformanceY = n = tiempo(y) / tiempo(x) -  La rapidez es inversamente proporcional al tiempo.

°  Definimos por tanto la performance Para un dado programa P que corre en la máquina X, Performance(p,x) = 1 / tiempo de ejecución(p,x)

UNT – Arq. de Computadoras - 2014

13

Ciclos de Reloj °  Para iguales frecuencias de reloj, en lugar de hablar de tiempo de ejecución en segundos, usamos ciclos

segundos ciclos segundos = × programa programa ciclo °  Pulsos de Reloj indican cuando comenzar actividades (una abstracción)

€ tiempo

°  Ciclo de Reloj = Tiempo entre pulsos = segundos por ciclo = T = 1/f °  Frecuencia de reloj = ciclos por segundo (1 Hz. = 1 cycle/sec) Un reloj de 200 Mhz. Tiene un tiempo de ciclo de:

UNT – Arq. de Computadoras - 2014

€

1 200 ×106

×109 = 5 nanoseg

14

Métricas de Performance

Respuestas por mes Operaciones por segundo

Aplicación Lenguaje de Programación Compilador

(Millones) de instrucciones por segundo – MIPS (Millones) de operaciones (P.F.) / segundo – MFLOP/s

ISA Camino de Datos Control

Megabytes por segundo

Unidades Funcionales Transistores Buses

UNT – Arq. de Computadoras - 2014

Pins

Ciclos por segundo (frecuencia de reloj)

15

Métricas del Procesador •  Tiempo de ejecución para un programa dado:

t(programa) = ciclos totales del programa x T Ciclos del Programa = Cant Instrucciones x cant de ciclos promedio por inst. CI CPI Ciclos Instrucciones ciclos = ×( °  (1) ) programa programa instrucciones °  t(p) = CI x CPI x T °  (1)  CPI = total de ciclos del programa / cant instrucciones programa °  CPI promedio nos da información acerca del set de instrucciones, la implementación del ISA, y el programa medido.

UNT – Arq. de Computadoras - 2014

16

Aspectos de la Performance del CPU CPU time

= Seconds Program

= instructions x Cycles x Seconds Program instruction Cycle

Marcar con una X quién tiene influencia: Cant Instrucc.

CPI

Frec. reloj

Programa Compilador ISA. Organización Tecnología UNT – Arq. de Computadoras - 2014

17

Aspectos de la Performance del CPU CPU time

= Seconds Program

Cant. Instr

= instructions x Cycles x Seconds Program instruction Cycle

CPI

Programa

X

Compilador

X

(x)

ISA.

X

X

Organización Tecnología UNT – Arq. de Computadoras - 2014

X

Frec. reloj

X X 18

CPI t(CPU) = segundos/programa = CI (Programa) x CPI prom x T 1) CPI = (tiempo CPU * f) / CI = = Ciclos de reloj del Programa / Cantidad de Instrucciones del Prog. n

Σ

“Ij = N° veces de la Instrucción j" 2) Tiempo CPU = T * CPI * I i =1 i i = (suma de los tiempos de todas las instrucciones)

De (1) y (2):

n

Σ

CPI = CPI i * i =1

Fi

donde Fi =

Ii Cantidad Instrucciones

¡Invertir recursos en donde se gaste más tiempo!

UNT – Arq. de Computadoras - 2014

19

Ejemplo Para un programa en un CPU tenemos la siguiente mezcla típica: Op ALU Load Store Branch

Frec. 50% 20% 10% 20%

Ciclos 1 2 2 2

CPI(i).F(i) .5 .4 .2 .4 1.5

%tiempo 33% 27% 13% 27%

CPI promedio

% tiempo = CPI(i).F(i) / CPI Ranquear el % tiempo y a partir de allí tenemos prioridad en mejorar CPI.

UNT – Arq. de Computadoras - 2014

20

Performance °  ¿Cuál de las siguientes variables miden performance? •  # de ciclos para ejecutar el programa (n) •  # de instrucciones de un programa (I) •  # de ciclos por segundo (f) •  # promedio de ciclos por instrucción (cpi medio) •  # promedio de instrucciones por segundo

[1/(cpi.T)]

°  Pifia común: •  pensar que una variable sola es indicativa de la performance, cuando en realidad no lo es.

UNT – Arq. de Computadoras - 2014

21

Métricas de Marketing MIPS = Millones de instrucciones por segundo = 1 / (CPI * T * 106) = Frecuencia de reloj / (CPI * 106) • ¿Maquinas con diferentes conjuntos de instrucciones? • Para un mismo programa distinta cantidad de instrucciones. • Una con menos CPI puede necesitar más instrucciones. • ¿Programas con diferentes mezclas de instrucciones ? •  Frecuencia dinámica de instrucciones es lo que cuenta. •  Programas distintos tienen diferentes CPI y también MIPS • Por tanto MIPS nada que ver con performance. MFLOP/S = millones de operaciones de punto flotante por segundo Idénticas observaciones que para MIPS. • Generalmente no miden en dónde se gasta el tiempo. • Los cálculos no mienten, pero hay mentirosos que calculan.

UNT – Arq. de Computadoras - 2014

22

Ejemplo CPI °  Supongamos que tenemos dos implementaciones distintas de un mismo ISA: máquinas A y B.

Si dos máquinas tienen el mismo ISA ¿cuál de las siguientes medidas (frecuencia de reloj, CPI, tiempo de ejecución, # de instrucciones, MIPS) serán siempre idénticas para el mismo programa? Para cierto programa La máquina A tiene un ciclo de reloj de 10 ns. y un CPI de 2.0 La máquina B tiene un ciclo de reloj de 20 ns. y un CPI de 1.2 Las dos máquinas funcionan con el mismo compilador Las dos máquinas tienen el mismo ISA. ¿Cuál máquina es más rápida para este programa y por cuánto? UNT – Arq. de Computadoras - 2014

23

Ejemplo: MIPS °  Dos compiladores se testean para una máquina de 100 MHz con 3 clases diferentes de instrucciones: A, B, y C, de 1, 2, y 3 ciclos respectivamente. Ambos compiladores se usan para producír código de una gran pieza de Sw. El primer compilador genera 5 millones de instrucciones A, 1 millón Clase B, y 1 millón Clase C. °  El segundo genera 10 millones de instrucciones A, 1 millón Clase B, y 1 millón Clase C. °  ¿Qué secuencia será más rápida de acuerdo a los MIPS. °  ¿Y de acuerdo al tiempo de ejecución?

UNT – Arq. de Computadoras - 2014

24

Cálculo

M. Instrucc

M. Instrucc.

Tipo

Ciclos

COMP 1

MCiclos (1)

COMP 2

MCiclos (2)

A

1

5

5

10

10

B

2

1

2

1

2

C

3

1

3

1

3

7

10

12

15

ciclos T CPI Promedio

1,428571429

1,25

cuánto?

MIPS = k/CPI t = kk x ciclos totales

UNT – Arq. de Computadoras - 2014

1/CPI

0,7

0,8

14%

10

15

50%

25

¿Benchmarks – para qué? °  Para evaluar diferencias •  Sistemas Diferentes •  Cambios al mismo sistema. °  Proveer un objetivo •  Los benchmarks deben representar un amplia clase de programas importantes. •  Mejorar la performance de los benchmarks debería mejorar también la de muchos programas. °  Para bien o para mal, los benchmarks dan forma a nuestro campo °  Los buenos aceleran el progreso •  Buen objetivo para desarrollo. °  Los malos traban el progreso •  Ayudan a los vendedores de máquinas. •  Mejoras a ejecución programas reales no mejoran benchmarks.

UNT – Arq. de Computadoras - 2014

26

Programas para evaluar performance de CPU °  (Juegos) Benchmarks •  ej.,: go, puzzle, quicksort °  Benchmarks sintéticos. •  Intento de lograr frecuencias medias de cargas de trabajo reales. •  Ej: Whetstone, Dhrystone (basados en programas científicos) °  Kernels (núcleos) •  Segmentos críticos en tiempo de programas reales. •  Se prestan para “optimizaciones” de compiladores. •  Ej. Lazos de Livermore (21 fragmentos de lazos pequeños) °  Programas reales. •  e.g., gcc (compilador c), spice

UNT – Arq. de Computadoras - 2014

27

Benchmark Exitoso: SPEC °  5 compañías fundaron en 1988 un comité de evaluación denominado: •  Systems Performance Evaluation Committee (SPEC): Sun, MIPS, HP, Apollo, DEC (fundadores). °  Objetivo: Crear una lista standard de programas, realizar tests y reportes: algunos programas reales, incluso con llamadas a Sistema Operativo y algunos I/O. °  Los standards están en constante evolución de acuerdo a la evolución del mercado: 1991, 1992, 1995, 2000... °  La tarea del comité no es nada fácil.

UNT – Arq. de Computadoras - 2014

28

Primera Ronda SPEC °  1989; 10 programas, un único número para resumir la performance. °  Un programa: 99% del tiempo en una sola línea de código. °  Nuevos compiladores pudieron mejorar dramaticamente el número.

80 0 70 0

SPEC Perf

60 0 50 0 40 0 30 0 20 0 10 0 tomcatv

fpppp

matrix300

eqntott

li

nasa7

doduc

spice

epresso

gcc

0

Benchmark

UNT – Arq. de Computadoras - 2014

29

CINT2006 for Intel Core i7 920

UNT – Arq. de Computadoras - 2014

30

Comparando y Resumiendo Performance q  ¿Cómo

se resume la performance en un único número?   Primero, se normalizan los tiempos de ejecución à “relación SPEC” (mayor es más veloz, la relación SPEC es el inverso del tiempo de ejecución).   Se saca la media geométrica de las relaciones SPEC (MG) n

MG=

n

Π

SPEC ratioi

i=1

°  Un principio vital para reportar performance es la reproducibiiidad – listar todo lo que otra persona debe hacer para obtener este resultado (version del sistema operativo, seteo del compilador, datos de entradas, configuración específica de la computadora (frecuencia, tamaño cache y tiempo de acceso, tamaño de memoria y t de acceso, etc.)) UNT – Arq. de Computadoras - 2014

31

SPEC °  Hay benchmarks para distintos tipos de computadoras y usos. °  También de consumo de potencia °  Por supuesto que para Punto Flotante, además de Enteros. Tipos •  Procesadores Embebidas •  PCs. •  Web Servers •  Supercomputadoras.

UNT – Arq. de Computadoras - 2014

32

Ley de Ahmdal Evalúa el efecto total de una mejora en una parte de una tarea. •  Incremento en velocidad por la mejora E: tiempo_ej sin E Aceleración(E) = ----------------------- = tiempo_ej con E

Performance con E ---------------------------Performance sin E

Supongamos que la mejora E acelera una parte F de la tarea en un factor S y que no influye en el resto de la misma: Tiempo_ej(con E) = ((1-F) + F/S) x tiempo_ej(sin E) aceleración(con E) = 1 / [(1-F) + F/S] UNT – Arq. de Computadoras - 2014

33

Ejemplos 1.  Mejoramos una máquina para que todas las instrucciones de punto flotante corran 5 veces más rápido. Si el tiempo de ejecución de cierto benchmark antes de la mejora es 10 seg, ¿cuál será el nuevo tiempo de ejecución si la mitad del tiempo del mismo se pasaba ejecutando instrucciones de punto flotante antes de la mejora? 2.  ¿Cuánta debe ser la mejora para lograr un tiempo de ejecución de 5 seg? 3.  Ahora, inventemos un nuevo benchmark que muestre una mejora en velocidad de 3 veces, para hacer marketing de la nueva unidad de FP de (1) (mentirosos que calculan). Consideramos un benchmark que tarda 100 seg. con la vieja unidad de FP. ¿Qué porcentual del tiempo de ejecución debe destinar este benchmark a instrucciones de punto flotante para que logremos el resultado deseado cuando corramos el benchmark en la nueva unidad? UNT – Arq. de Computadoras - 2014

34

Pifia: Ley de Ahmdal ° Mejorar un aspecto de la computadora y esperar que la totalidad de se mejore de igual forma. Timproved n 

Ejemplo: si multiplicación lleva 80% del tiempo n 

n 

Taffected = + Tunaffected improvemen t factor

¿Cuánto mejorar la multiplicación para obtener una mejora total de 5? 80 n  Imposible! 20 = + 20 n

Corolario: Mejorar el caso más común.

UNT – Arq. de Computadoras - 2014

35

Tendencias Tecnológicas ° Mejora continua •  Capacidad y Perormance •  Reducción de costos Capacidad DRAM Year

Tecnología

1951

Válvulas

1965

Transistores

1975

Circuito Integrado (IC)

1995

Muy alta escala IC (VLSI)

2013

Ultra alta escala IC

UNT – Arq. de Computadoras - 2014

Relative performance/cost 1 35 900 2,400,000 250,000,000,000

36

Era Post-PC

UNT – Arq. de Computadoras - 2014

37

La Era Post-PC n 

Dispositivos Móviles Personales (PMD) n  n  n  n 

n 

Operados a batería. Conectados a Internet. Cientos de dollares (más baratos que PC) Smart phones, tabletas, lentes electrónicos

Cloud computing Warehouse Scale Computers (WSC) n  Software as a Service (SaaS) n  Parte del Sw corre en un PMD y parte en la Nube. n  Ej. Amazon and Google n 

UNT – Arq. de Computadoras - 2014

38

Tendencias Tecnológicas

Lógica

Capacidad 2x en 3 años

Velocidad 2x en 3 años

DRAM

4x en 3 años

2x en 10 años

discos

4x en 3 años

2x en 10 años

Ley de Moore: Performance se duplica cada 18 meses.

Pero desde 2002 se frenó la ley de Moore – ¿2x en 5 años? Más lógica à más transistores à más consumo à difícil miniaturizar Más consumo à difícil portabilidad (batería).

UNT – Arq. de Computadoras - 2014

39

Ley de Moore q  En

1965, Gordon Moore de Intel predijo que el número de transistores que pueden integrarse en un chip se duplicaría cada tres años.

q  Diseñar

Dual Core Itanium with 1.7B transistors

según Ley de Moore

q  Pensando

en la tecnología para cuando salga el producto y no de ahora.

UNT – Arq. de Computadoras - 2014

Courtesy, Intel ®

40

Estadísticas de Tecnologías (nm). Year

2004

2006

2008

2010

2012

Tecnología (nm)

90

65

45

32

22

Capacidad (BT)

2

4

6

16

32

°  Transistores de 45 nm, comparaciones: •  30 millones entran en la cabeza de un alfiler. •  Más de 2000 entran en el espesor del cabello humano. •  Si el precio de los autos hubiera seguido la misma evolución que la de un transistor, desde 1968, un auto nuevo hoy día costaría 1 centavo de dólar. UNT – Arq. de Computadoras - 2014

41

Power (Wa*s)

Pero, qué pasó con la frecuencia de reloj

¿Performance?: Varios núcleos simples de menor frecuencia trabajando en paralelo UNT – Arq. de Computadoras - 2014

42

Ejemplo: I-Pad Apple ° Dispositivo Post-PC ° No requiere mouse ni teclado ° Display capacitivo. •  Capacitivo permite multiple toques simultaneamente.

UNT – Arq. de Computadoras - 2014

43

La I-Pad por dentro Pantalla Capacitiva Multi-Toque. 3.8 V, batería de 25 Watt-hora Computer board

Comparar tamaños batería Vs placa principal. UNT – Arq. de Computadoras - 2014

44

Dentro del Procesador: ° Apple A5. contiene dual Core ARM Cortex - A9 ° Ipad 3, Ipad Mini, ° Ipod Touch 5. ° ARM – RISC 1985

UNT – Arq. de Computadoras - 2014

45

Potencia: Ej. IPOD Nano (2005) Batería: 1.2 W-hora Permite Consumo: 5 W 1.2 W.h / 5 W = 15 min. Más capacidad de batería para: más tiempo mayor tamaño – no más “nano” L

Especificaciones Reales : " 14 horas para música, " 4 horas para fotos - video." Con un buen diseño:" 85 mW para música.

300 mW para video. UNT – Arq. de Computadoras - 2014

46

¿Cuál es el CPU de la iPod nano?

Algo parecido ... 2 CPUs simples de baja potencia. Uno para Audio. Otro para Video. ARM de baja pot. Aprox. 1 mW/MHz Pueden dormirse.

UNT – Arq. de Computadoras - 2014

47

Requerimientos de la Evolución Mayor Portabilidad Más miniaturización

Baterías mejores y más pequeñas

UNT – Arq. de Computadoras - 2014

Menor Consumo

48

UNT – Arq. de Computadoras - 2014

49

15 gr"

12 Hs. Batería" "

UNT – Arq. de Computadoras - 2014

50

20 horas para audio, " 6.5 horas para películas (80GB)"

2006

2005

24 horas audio " " 5 horas de batería para fotos"

14 hs audio 4 hs fotos

Batería de 12 hs." " UNT – Arq. de Computadoras - 2014

51

Notebooks ... la Apple MacBook -- Pesa 2.4 Kg 22,6 cm 2,5 cm

32,5 cm

Performance: debería ser bastante cercana a la desktop, muchos ya ni usan desktop (mi caso)" Tamaño y Peso. Ideal: un cuaderno." Calor: Es portatil, no se debe calentar. La lleva el usuario en su regazo." UNT – Arq. de Computadoras - 2014

52

Batería: limitada por tamaño y peso

Especifiación: 55 W-hora. A 2.3 GHz, Intel Core Duo consume 31 W con carga fuerte de trabajo – menos de 2 hs! Sólo el CPU!

46 veces más energía que la del iPod nano. El iPod permite escuchar 14 horas! UNT – Arq. de Computadoras - 2014

A 1 GHz, CPU consume 13 Watts. “La opción energía sin conexión”. 53

Una batería de 55 W.hora tiene la energía de medio cartucho de dinamita

UNT – Arq. de Computadoras - 2014

54

¡Pero el CPU es sólo una parte! Una notebook del 2004 ejecutando a full.

“Ley de Ahmdal de la Potencia”

“otros” GPU

LCD Backlight LCD

UNT – Arq. de Computadoras - 2014

CPU

Si este CPU no consumiera nada, sólo se duplicaría la vida de la batería! 55

Servidores Las salas de computadora son caras. La disipación de calor limita la cantidad de servidores que caben en la sala. Tarifa eléctrica ¡costosa! Energía de los servidores más A. Acondicionado.

Confiabilidad: usar computadores calientes causa fallas más seguidas. UNT – Arq. de Computadoras - 2014

56

SPECpower_ssj2008 for Xeon X5650 Consumo de Potencia del Servidor a diferentes niveles de carga de trabajo

UNT – Arq. de Computadoras - 2014

57

SPEC: Benchmark de Potencia

" 10 % " 10 % Total ops servers por Watt = $ ∑ ssj_opsi ' $ ∑potenciai ' # i=0 & # i=0 &

UNT – Arq. de Computadoras - 2014

58

Falacia: muy baja potencia sin carga. ° Revisando Xeon benchmark de Potencia. • Carga 100%: 258W • Carga 50%: 170W (66%) • Carga 10%: 121W (47%) ° Google Data Center • Opera en general con carga al 10% – 50% • Llega al 100% menos del 1% del tiempo.

UNT – Arq. de Computadoras - 2014

59

Energía de Conmutación Cada transición lógica disipa energía" Vdd V dd

1 C. V 2 E0->1= 2 dd

2 1 C V E1->0= 2 dd

Resultado: Independiente de la tecnología." Además hay una corriente de cortocircuito que se debe a que los flancos se superponen, en total un 15% aprox de esta energía." UNT – Arq. de Computadoras - 2014

60

¿Cómo Reducir la Energía? Cálculo de la Potencia. E = V2dd.C por cada pulso P = N . V2dd .C . f . A A=Factor de Actividad. N=cantidad de transistores. f=frecuencia de clock. 1. 

Menor frecuencia (menos pulsos) •  Pero se desea velocidad. Además un trabajo más rápido o más lento consume lo mismo.

2. 

Bajar Vdd •  Obliga a bajar la frecuencia (transiciones más lentas). •  Menor tolerancia a ruido.

3. 

Menos Transistores. •  Pero más transistores permiten más trabajo.

4. 

Reducir C – con mayor miniaturización •  Se hace constantemente – depende de la tecnología.

UNT – Arq. de Computadoras - 2014

61

Tendencias de Potencia.

°  En tecnología CMOS – Circuitos Integrados.

Potencia = C × V 2 × f ×30 UNT – Arq. de Computadoras - 2014

5V → 1V

×1000 62

Ocho Grandes Ideas de Diseño 1.  Diseñar según Ley de Moore. 2.  Usar Abstracción para simplificar. 3.  Optimizar el caso más común. 4.  Paralelismo para más performance 5.  Pipelining para más performance 6.  Predicción para más performance 7.  Jerarquía de Memorias 8.  Dependabilidad via redundancia UNT – Arq. de Computadoras - 2014

63

Resúmen de Costos °  La Industria de Computación es impulsada por la de Circuitos Integrados. °  Los costos de una pastilla son proporcionales al cubo de su superficie.

UNT – Arq. de Computadoras - 2014

64

Resumen de Evaluación de Perfomance CPU time

= Seconds Program

= instructions x Cycles x Seconds Program instruction Cycle

°  ¡El tiempo es la medida de la performance de una computadora! °  Se pueden crear buenos productos cuando se parte de: •  Buenos Benchmarks. •  Formas adecuadas de generar indicadores de varios Benchmarks. °  Si no hay buenos benchmarks e indicadores, entonces en la elección entre mejorar productos y mejorar ventas: •  Las ventas siempre ganan. °  Recordar Ley de Ahmdal: Incremento en velocidad está limitado por la parte no mejorada de una tarea.

UNT – Arq. de Computadoras - 2014

65

Recordar °  La performance siempre es específica para un programa dado. •  Su tiempo de ejecución. °  Para una determinada máquina, se puede mejorar performance si: •  Mejora el ciclo de reloj (sin que haya efectos adversos en CPI) •  Mejora en la organización del CPU para que baje el CPI •  Mejora compiladores para bajar CPI y/o número de Instrucciones. °  Pifia: Esperar que la mejora en un aspecto de la performance de una máquina afecte en igual medida la performance total. (MIPS, MFLOPS, Ahmdal)

UNT – Arq. de Computadoras - 2014

66

Recordar °  La evolución requiere máquinas que consuman menor energía. °  Cuidar la energía es cuidar el mundo y mejorar los costos. E = V2dd.C por cada pulso P = N . V2dd .C . f . A A=Factor de Actividad. N=cantidad de transistores. f=frecuencia de clock °  Mejorar el consumo no es sólo cuestión de tecnología sino también •  de Diseño. •  Al final del curso veremos conceptos de diseño para bajar energía.

UNT – Arq. de Computadoras - 2014

67

Recommend Stories

Story Transcript

Get in touch

Social