Arquitectura de Computadoras
Tema 2: Costo, Potencia y Performance Eduardo Daniel Cohen –
[email protected] http://www.herrera.unt.edu.ar/arqcom
UNT – Arq. de Computadoras - 2014
1
Costo y Performance – Temas a Tratar en la clase
° Revisión tema anterior ° Costo de Circuitos integrados ° Definición de Medidas de Performance ° Potencia y Energía. ° Resumiendo y Sintetizando.
UNT – Arq. de Computadoras - 2014
2
Repaso: Arquitectura de Computadoras ° Cordinación de
niveles de abstracción
Aplicación Sistema Operativo Compilador Procesador
Sistema I/O
instruction Set Architecture
Diseño Digital Diseño de Circuitos ° Bajo presión de fuerzas que cambian muy rapidamente
UNT – Arq. de Computadoras - 2014
3
Compilador, Ensamblador, Lenguaje de Máquina Programa de Alto Nivel
temp = v[k]; v[k] = v[k+1]; v[k+1] = temp;
Compilador Programa Lenguaje Assembler
lw lw sw sw
$15, 0($2) $16, 4($2) $16, 0($2) $15, 4($2)
Ensamblador Programa Lenguaje de Máquina
0000 1010 1100 0101
1001 1111 0110 1000
1100 0101 1010 0000
0110 1000 1111 1001
1010 0000 0101 1100
1111 1001 1000 0110
0101 1100 0000 1010
1000 0110 1001 1111
interpretación de Máquina Especificación de señales de control
UNT – Arq. de Computadoras - 2014
4
Repaso Niveles de Organización
PC
Computador Procesador
UNT – Arq. de Computadoras - 2014
Memoria
Dispositivos
Control
input
Datapath
Output
5
En Síntesis. ° Todas las computadoras consisten en 5 componentes. • Procesador (CPU): (1) camino de datos y (2) control • (3) Memoria • (4) Dispositivos de Entrada y (5) Dispositivos de Salida.
° No toda la “memoria” es igual. • Cache: memoria rápida (y cara) se ubica cerca del CPU. • Memoria Principal: menos cara – se puede poner más cantidad. • Memoria Secundaria: muy barata (y lenta) – se accede por I/O.
° Los dispositivos de I/O son los de organización más dispar. • Amplia variación de Velocidades: discos vs. teclados • Amplio rango de especificaciones: velocidad, costo, standards, ... etc. • Los menos tomados en cuenta en investigación (hasta ahora) UNT – Arq. de Computadoras - 2014
6
Proceso de Fabricación Circuitos Integrados
° Factor de Producción (Yield) – cant chips buenos / total de chips. UNT – Arq. de Computadoras - 2014
7
Oblea de Intel I-Core 7
° Oblea de 300 mm, 280 chips, tecnología de 32nn ° Cada chip mide 20.7 x 10.5 mm UNT – Arq. de Computadoras - 2014
8
Costo de los Circuitos integrados Costo del Chip =
Costo Oblea Dados p/oblea * Factor de Producción
Factor de producción: porcentaje de dados que salen sin defecto. Chips p/oblea = Area de Oblea (aprox., excluir los que no entran en el círculo) Area del Dado
Se ve que conviene dados más pequeños El costo del dado es proporcional aprox. al cubo de su área.. UNT – Arq. de Computadoras - 2014
9
Performance (desempeño) ° Permite Elegir inteligentemente ° Mirar por sobre las modas del marketing. ° Clave para comprender las razones de diferentes estructuras de CPU. ¿Por
qué cierto Hw es mejor que otros para determinados programas?
¿Que factores de la performance del sistema están relacionados al Hw? (¿Necesitamos una máquina nueva o un nuevo sistema Operativo?) ¿Cómo afecta a la performance el ISA de una máquina?
UNT – Arq. de Computadoras - 2014
10
Performance en Computadores: TIEMPO, TIEMPO Y TIEMPO ° Tiempo de Respuesta (latencia) — ¿Cuánto tiempo toma para correr mi trabajo? — ¿En cuanto tiempo se ejecuta mi trabajo? — ¿Cuánto esperar por una consulta a una base de datos? ° Productividad — ¿Cuántos trabajos pueden ejecutarse simultáneamente? — ¿Cuál es el tiempo de ejecución promedio? — ¿Cuánto trabajo se efectúa por unidad de tiempo? ¿Qué
se mejora si cambiamos el CPU de una máquina por otro más rápido?
Si agregamos una nueva máquina a un laboratorio para estudiantes, ¿qué mejoramos? UNT – Arq. de Computadoras - 2014
11
Tiempo de Ejecución ° Tiempo transcurrido • Cuenta todo (accesos a disco y memoria, I/O , etc.) • En general no es bueno para comparar. ¿Por qué?
° Tiempo de CPU • No cuenta I/O o tiempo que se usa para correr otros progr. • Puede separarse en tiempo del usuario y tiempo del sistema.
° Nuestro Interés: tiempo de CPU del usuario • Tiempo para ejecutar las instrucciones de “mi programa”.
UNT – Arq. de Computadoras - 2014
12
Definición de Performance ° Problema • La máquina A corre un programa en 20 segundos • La máquina B necesita 25 segundos. • ¿Cuánto más rápido es A?
° Decimos que "X es n veces más rápida que Y" PerformanceX / PerformanceY = n = tiempo(y) / tiempo(x) - La rapidez es inversamente proporcional al tiempo.
° Definimos por tanto la performance Para un dado programa P que corre en la máquina X, Performance(p,x) = 1 / tiempo de ejecución(p,x)
UNT – Arq. de Computadoras - 2014
13
Ciclos de Reloj ° Para iguales frecuencias de reloj, en lugar de hablar de tiempo de ejecución en segundos, usamos ciclos
segundos ciclos segundos = × programa programa ciclo ° Pulsos de Reloj indican cuando comenzar actividades (una abstracción)
€ tiempo
° Ciclo de Reloj = Tiempo entre pulsos = segundos por ciclo = T = 1/f ° Frecuencia de reloj = ciclos por segundo (1 Hz. = 1 cycle/sec) Un reloj de 200 Mhz. Tiene un tiempo de ciclo de:
UNT – Arq. de Computadoras - 2014
€
1 200 ×106
×109 = 5 nanoseg
14
Métricas de Performance
Respuestas por mes Operaciones por segundo
Aplicación Lenguaje de Programación Compilador
(Millones) de instrucciones por segundo – MIPS (Millones) de operaciones (P.F.) / segundo – MFLOP/s
ISA Camino de Datos Control
Megabytes por segundo
Unidades Funcionales Transistores Buses
UNT – Arq. de Computadoras - 2014
Pins
Ciclos por segundo (frecuencia de reloj)
15
Métricas del Procesador • Tiempo de ejecución para un programa dado:
t(programa) = ciclos totales del programa x T Ciclos del Programa = Cant Instrucciones x cant de ciclos promedio por inst. CI CPI Ciclos Instrucciones ciclos = ×( ° (1) ) programa programa instrucciones ° t(p) = CI x CPI x T ° (1) CPI = total de ciclos del programa / cant instrucciones programa ° CPI promedio nos da información acerca del set de instrucciones, la implementación del ISA, y el programa medido.
UNT – Arq. de Computadoras - 2014
16
Aspectos de la Performance del CPU CPU time
= Seconds Program
= instructions x Cycles x Seconds Program instruction Cycle
Marcar con una X quién tiene influencia: Cant Instrucc.
CPI
Frec. reloj
Programa Compilador ISA. Organización Tecnología UNT – Arq. de Computadoras - 2014
17
Aspectos de la Performance del CPU CPU time
= Seconds Program
Cant. Instr
= instructions x Cycles x Seconds Program instruction Cycle
CPI
Programa
X
Compilador
X
(x)
ISA.
X
X
Organización Tecnología UNT – Arq. de Computadoras - 2014
X
Frec. reloj
X X 18
CPI t(CPU) = segundos/programa = CI (Programa) x CPI prom x T 1) CPI = (tiempo CPU * f) / CI = = Ciclos de reloj del Programa / Cantidad de Instrucciones del Prog. n
Σ
“Ij = N° veces de la Instrucción j" 2) Tiempo CPU = T * CPI * I i =1 i i = (suma de los tiempos de todas las instrucciones)
De (1) y (2):
n
Σ
CPI = CPI i * i =1
Fi
donde Fi =
Ii Cantidad Instrucciones
¡Invertir recursos en donde se gaste más tiempo!
UNT – Arq. de Computadoras - 2014
19
Ejemplo Para un programa en un CPU tenemos la siguiente mezcla típica: Op ALU Load Store Branch
Frec. 50% 20% 10% 20%
Ciclos 1 2 2 2
CPI(i).F(i) .5 .4 .2 .4 1.5
%tiempo 33% 27% 13% 27%
CPI promedio
% tiempo = CPI(i).F(i) / CPI Ranquear el % tiempo y a partir de allí tenemos prioridad en mejorar CPI.
UNT – Arq. de Computadoras - 2014
20
Performance ° ¿Cuál de las siguientes variables miden performance? • # de ciclos para ejecutar el programa (n) • # de instrucciones de un programa (I) • # de ciclos por segundo (f) • # promedio de ciclos por instrucción (cpi medio) • # promedio de instrucciones por segundo
[1/(cpi.T)]
° Pifia común: • pensar que una variable sola es indicativa de la performance, cuando en realidad no lo es.
UNT – Arq. de Computadoras - 2014
21
Métricas de Marketing MIPS = Millones de instrucciones por segundo = 1 / (CPI * T * 106) = Frecuencia de reloj / (CPI * 106) • ¿Maquinas con diferentes conjuntos de instrucciones? • Para un mismo programa distinta cantidad de instrucciones. • Una con menos CPI puede necesitar más instrucciones. • ¿Programas con diferentes mezclas de instrucciones ? • Frecuencia dinámica de instrucciones es lo que cuenta. • Programas distintos tienen diferentes CPI y también MIPS • Por tanto MIPS nada que ver con performance. MFLOP/S = millones de operaciones de punto flotante por segundo Idénticas observaciones que para MIPS. • Generalmente no miden en dónde se gasta el tiempo. • Los cálculos no mienten, pero hay mentirosos que calculan.
UNT – Arq. de Computadoras - 2014
22
Ejemplo CPI ° Supongamos que tenemos dos implementaciones distintas de un mismo ISA: máquinas A y B.
Si dos máquinas tienen el mismo ISA ¿cuál de las siguientes medidas (frecuencia de reloj, CPI, tiempo de ejecución, # de instrucciones, MIPS) serán siempre idénticas para el mismo programa? Para cierto programa La máquina A tiene un ciclo de reloj de 10 ns. y un CPI de 2.0 La máquina B tiene un ciclo de reloj de 20 ns. y un CPI de 1.2 Las dos máquinas funcionan con el mismo compilador Las dos máquinas tienen el mismo ISA. ¿Cuál máquina es más rápida para este programa y por cuánto? UNT – Arq. de Computadoras - 2014
23
Ejemplo: MIPS ° Dos compiladores se testean para una máquina de 100 MHz con 3 clases diferentes de instrucciones: A, B, y C, de 1, 2, y 3 ciclos respectivamente. Ambos compiladores se usan para producír código de una gran pieza de Sw. El primer compilador genera 5 millones de instrucciones A, 1 millón Clase B, y 1 millón Clase C. ° El segundo genera 10 millones de instrucciones A, 1 millón Clase B, y 1 millón Clase C. ° ¿Qué secuencia será más rápida de acuerdo a los MIPS. ° ¿Y de acuerdo al tiempo de ejecución?
UNT – Arq. de Computadoras - 2014
24
Cálculo
M. Instrucc
M. Instrucc.
Tipo
Ciclos
COMP 1
MCiclos (1)
COMP 2
MCiclos (2)
A
1
5
5
10
10
B
2
1
2
1
2
C
3
1
3
1
3
7
10
12
15
ciclos T CPI Promedio
1,428571429
1,25
cuánto?
MIPS = k/CPI t = kk x ciclos totales
UNT – Arq. de Computadoras - 2014
1/CPI
0,7
0,8
14%
10
15
50%
25
¿Benchmarks – para qué? ° Para evaluar diferencias • Sistemas Diferentes • Cambios al mismo sistema. ° Proveer un objetivo • Los benchmarks deben representar un amplia clase de programas importantes. • Mejorar la performance de los benchmarks debería mejorar también la de muchos programas. ° Para bien o para mal, los benchmarks dan forma a nuestro campo ° Los buenos aceleran el progreso • Buen objetivo para desarrollo. ° Los malos traban el progreso • Ayudan a los vendedores de máquinas. • Mejoras a ejecución programas reales no mejoran benchmarks.
UNT – Arq. de Computadoras - 2014
26
Programas para evaluar performance de CPU ° (Juegos) Benchmarks • ej.,: go, puzzle, quicksort ° Benchmarks sintéticos. • Intento de lograr frecuencias medias de cargas de trabajo reales. • Ej: Whetstone, Dhrystone (basados en programas científicos) ° Kernels (núcleos) • Segmentos críticos en tiempo de programas reales. • Se prestan para “optimizaciones” de compiladores. • Ej. Lazos de Livermore (21 fragmentos de lazos pequeños) ° Programas reales. • e.g., gcc (compilador c), spice
UNT – Arq. de Computadoras - 2014
27
Benchmark Exitoso: SPEC ° 5 compañías fundaron en 1988 un comité de evaluación denominado: • Systems Performance Evaluation Committee (SPEC): Sun, MIPS, HP, Apollo, DEC (fundadores). ° Objetivo: Crear una lista standard de programas, realizar tests y reportes: algunos programas reales, incluso con llamadas a Sistema Operativo y algunos I/O. ° Los standards están en constante evolución de acuerdo a la evolución del mercado: 1991, 1992, 1995, 2000... ° La tarea del comité no es nada fácil.
UNT – Arq. de Computadoras - 2014
28
Primera Ronda SPEC ° 1989; 10 programas, un único número para resumir la performance. ° Un programa: 99% del tiempo en una sola línea de código. ° Nuevos compiladores pudieron mejorar dramaticamente el número.
80 0 70 0
SPEC Perf
60 0 50 0 40 0 30 0 20 0 10 0 tomcatv
fpppp
matrix300
eqntott
li
nasa7
doduc
spice
epresso
gcc
0
Benchmark
UNT – Arq. de Computadoras - 2014
29
CINT2006 for Intel Core i7 920
UNT – Arq. de Computadoras - 2014
30
Comparando y Resumiendo Performance q ¿Cómo
se resume la performance en un único número? Primero, se normalizan los tiempos de ejecución à “relación SPEC” (mayor es más veloz, la relación SPEC es el inverso del tiempo de ejecución). Se saca la media geométrica de las relaciones SPEC (MG) n
MG=
n
Π
SPEC ratioi
i=1
° Un principio vital para reportar performance es la reproducibiiidad – listar todo lo que otra persona debe hacer para obtener este resultado (version del sistema operativo, seteo del compilador, datos de entradas, configuración específica de la computadora (frecuencia, tamaño cache y tiempo de acceso, tamaño de memoria y t de acceso, etc.)) UNT – Arq. de Computadoras - 2014
31
SPEC ° Hay benchmarks para distintos tipos de computadoras y usos. ° También de consumo de potencia ° Por supuesto que para Punto Flotante, además de Enteros. Tipos • Procesadores Embebidas • PCs. • Web Servers • Supercomputadoras.
UNT – Arq. de Computadoras - 2014
32
Ley de Ahmdal Evalúa el efecto total de una mejora en una parte de una tarea. • Incremento en velocidad por la mejora E: tiempo_ej sin E Aceleración(E) = ----------------------- = tiempo_ej con E
Performance con E ---------------------------Performance sin E
Supongamos que la mejora E acelera una parte F de la tarea en un factor S y que no influye en el resto de la misma: Tiempo_ej(con E) = ((1-F) + F/S) x tiempo_ej(sin E) aceleración(con E) = 1 / [(1-F) + F/S] UNT – Arq. de Computadoras - 2014
33
Ejemplos 1. Mejoramos una máquina para que todas las instrucciones de punto flotante corran 5 veces más rápido. Si el tiempo de ejecución de cierto benchmark antes de la mejora es 10 seg, ¿cuál será el nuevo tiempo de ejecución si la mitad del tiempo del mismo se pasaba ejecutando instrucciones de punto flotante antes de la mejora? 2. ¿Cuánta debe ser la mejora para lograr un tiempo de ejecución de 5 seg? 3. Ahora, inventemos un nuevo benchmark que muestre una mejora en velocidad de 3 veces, para hacer marketing de la nueva unidad de FP de (1) (mentirosos que calculan). Consideramos un benchmark que tarda 100 seg. con la vieja unidad de FP. ¿Qué porcentual del tiempo de ejecución debe destinar este benchmark a instrucciones de punto flotante para que logremos el resultado deseado cuando corramos el benchmark en la nueva unidad? UNT – Arq. de Computadoras - 2014
34
Pifia: Ley de Ahmdal ° Mejorar un aspecto de la computadora y esperar que la totalidad de se mejore de igual forma. Timproved n
Ejemplo: si multiplicación lleva 80% del tiempo n
n
Taffected = + Tunaffected improvemen t factor
¿Cuánto mejorar la multiplicación para obtener una mejora total de 5? 80 n Imposible! 20 = + 20 n
Corolario: Mejorar el caso más común.
UNT – Arq. de Computadoras - 2014
35
Tendencias Tecnológicas ° Mejora continua • Capacidad y Perormance • Reducción de costos Capacidad DRAM Year
Tecnología
1951
Válvulas
1965
Transistores
1975
Circuito Integrado (IC)
1995
Muy alta escala IC (VLSI)
2013
Ultra alta escala IC
UNT – Arq. de Computadoras - 2014
Relative performance/cost 1 35 900 2,400,000 250,000,000,000
36
Era Post-PC
UNT – Arq. de Computadoras - 2014
37
La Era Post-PC n
Dispositivos Móviles Personales (PMD) n n n n
n
Operados a batería. Conectados a Internet. Cientos de dollares (más baratos que PC) Smart phones, tabletas, lentes electrónicos
Cloud computing Warehouse Scale Computers (WSC) n Software as a Service (SaaS) n Parte del Sw corre en un PMD y parte en la Nube. n Ej. Amazon and Google n
UNT – Arq. de Computadoras - 2014
38
Tendencias Tecnológicas
Lógica
Capacidad 2x en 3 años
Velocidad 2x en 3 años
DRAM
4x en 3 años
2x en 10 años
discos
4x en 3 años
2x en 10 años
Ley de Moore: Performance se duplica cada 18 meses.
Pero desde 2002 se frenó la ley de Moore – ¿2x en 5 años? Más lógica à más transistores à más consumo à difícil miniaturizar Más consumo à difícil portabilidad (batería).
UNT – Arq. de Computadoras - 2014
39
Ley de Moore q En
1965, Gordon Moore de Intel predijo que el número de transistores que pueden integrarse en un chip se duplicaría cada tres años.
q Diseñar
Dual Core Itanium with 1.7B transistors
según Ley de Moore
q Pensando
en la tecnología para cuando salga el producto y no de ahora.
UNT – Arq. de Computadoras - 2014
Courtesy, Intel ®
40
Estadísticas de Tecnologías (nm). Year
2004
2006
2008
2010
2012
Tecnología (nm)
90
65
45
32
22
Capacidad (BT)
2
4
6
16
32
° Transistores de 45 nm, comparaciones: • 30 millones entran en la cabeza de un alfiler. • Más de 2000 entran en el espesor del cabello humano. • Si el precio de los autos hubiera seguido la misma evolución que la de un transistor, desde 1968, un auto nuevo hoy día costaría 1 centavo de dólar. UNT – Arq. de Computadoras - 2014
41
Power (Wa*s)
Pero, qué pasó con la frecuencia de reloj
¿Performance?: Varios núcleos simples de menor frecuencia trabajando en paralelo UNT – Arq. de Computadoras - 2014
42
Ejemplo: I-Pad Apple ° Dispositivo Post-PC ° No requiere mouse ni teclado ° Display capacitivo. • Capacitivo permite multiple toques simultaneamente.
UNT – Arq. de Computadoras - 2014
43
La I-Pad por dentro Pantalla Capacitiva Multi-Toque. 3.8 V, batería de 25 Watt-hora Computer board
Comparar tamaños batería Vs placa principal. UNT – Arq. de Computadoras - 2014
44
Dentro del Procesador: ° Apple A5. contiene dual Core ARM Cortex - A9 ° Ipad 3, Ipad Mini, ° Ipod Touch 5. ° ARM – RISC 1985
UNT – Arq. de Computadoras - 2014
45
Potencia: Ej. IPOD Nano (2005) Batería: 1.2 W-hora Permite Consumo: 5 W 1.2 W.h / 5 W = 15 min. Más capacidad de batería para: más tiempo mayor tamaño – no más “nano” L
Especificaciones Reales : " 14 horas para música, " 4 horas para fotos - video." Con un buen diseño:" 85 mW para música.
300 mW para video. UNT – Arq. de Computadoras - 2014
46
¿Cuál es el CPU de la iPod nano?
Algo parecido ... 2 CPUs simples de baja potencia. Uno para Audio. Otro para Video. ARM de baja pot. Aprox. 1 mW/MHz Pueden dormirse.
UNT – Arq. de Computadoras - 2014
47
Requerimientos de la Evolución Mayor Portabilidad Más miniaturización
Baterías mejores y más pequeñas
UNT – Arq. de Computadoras - 2014
Menor Consumo
48
UNT – Arq. de Computadoras - 2014
49
15 gr"
12 Hs. Batería" "
UNT – Arq. de Computadoras - 2014
50
20 horas para audio, " 6.5 horas para películas (80GB)"
2006
2005
24 horas audio " " 5 horas de batería para fotos"
14 hs audio 4 hs fotos
Batería de 12 hs." " UNT – Arq. de Computadoras - 2014
51
Notebooks ... la Apple MacBook -- Pesa 2.4 Kg 22,6 cm 2,5 cm
32,5 cm
Performance: debería ser bastante cercana a la desktop, muchos ya ni usan desktop (mi caso)" Tamaño y Peso. Ideal: un cuaderno." Calor: Es portatil, no se debe calentar. La lleva el usuario en su regazo." UNT – Arq. de Computadoras - 2014
52
Batería: limitada por tamaño y peso
Especifiación: 55 W-hora. A 2.3 GHz, Intel Core Duo consume 31 W con carga fuerte de trabajo – menos de 2 hs! Sólo el CPU!
46 veces más energía que la del iPod nano. El iPod permite escuchar 14 horas! UNT – Arq. de Computadoras - 2014
A 1 GHz, CPU consume 13 Watts. “La opción energía sin conexión”. 53
Una batería de 55 W.hora tiene la energía de medio cartucho de dinamita
UNT – Arq. de Computadoras - 2014
54
¡Pero el CPU es sólo una parte! Una notebook del 2004 ejecutando a full.
“Ley de Ahmdal de la Potencia”
“otros” GPU
LCD Backlight LCD
UNT – Arq. de Computadoras - 2014
CPU
Si este CPU no consumiera nada, sólo se duplicaría la vida de la batería! 55
Servidores Las salas de computadora son caras. La disipación de calor limita la cantidad de servidores que caben en la sala. Tarifa eléctrica ¡costosa! Energía de los servidores más A. Acondicionado.
Confiabilidad: usar computadores calientes causa fallas más seguidas. UNT – Arq. de Computadoras - 2014
56
SPECpower_ssj2008 for Xeon X5650 Consumo de Potencia del Servidor a diferentes niveles de carga de trabajo
UNT – Arq. de Computadoras - 2014
57
SPEC: Benchmark de Potencia
" 10 % " 10 % Total ops servers por Watt = $ ∑ ssj_opsi ' $ ∑potenciai ' # i=0 & # i=0 &
UNT – Arq. de Computadoras - 2014
58
Falacia: muy baja potencia sin carga. ° Revisando Xeon benchmark de Potencia. • Carga 100%: 258W • Carga 50%: 170W (66%) • Carga 10%: 121W (47%) ° Google Data Center • Opera en general con carga al 10% – 50% • Llega al 100% menos del 1% del tiempo.
UNT – Arq. de Computadoras - 2014
59
Energía de Conmutación Cada transición lógica disipa energía" Vdd V dd
1 C. V 2 E0->1= 2 dd
2 1 C V E1->0= 2 dd
Resultado: Independiente de la tecnología." Además hay una corriente de cortocircuito que se debe a que los flancos se superponen, en total un 15% aprox de esta energía." UNT – Arq. de Computadoras - 2014
60
¿Cómo Reducir la Energía? Cálculo de la Potencia. E = V2dd.C por cada pulso P = N . V2dd .C . f . A A=Factor de Actividad. N=cantidad de transistores. f=frecuencia de clock. 1.
Menor frecuencia (menos pulsos) • Pero se desea velocidad. Además un trabajo más rápido o más lento consume lo mismo.
2.
Bajar Vdd • Obliga a bajar la frecuencia (transiciones más lentas). • Menor tolerancia a ruido.
3.
Menos Transistores. • Pero más transistores permiten más trabajo.
4.
Reducir C – con mayor miniaturización • Se hace constantemente – depende de la tecnología.
UNT – Arq. de Computadoras - 2014
61
Tendencias de Potencia.
° En tecnología CMOS – Circuitos Integrados.
Potencia = C × V 2 × f ×30 UNT – Arq. de Computadoras - 2014
5V → 1V
×1000 62
Ocho Grandes Ideas de Diseño 1. Diseñar según Ley de Moore. 2. Usar Abstracción para simplificar. 3. Optimizar el caso más común. 4. Paralelismo para más performance 5. Pipelining para más performance 6. Predicción para más performance 7. Jerarquía de Memorias 8. Dependabilidad via redundancia UNT – Arq. de Computadoras - 2014
63
Resúmen de Costos ° La Industria de Computación es impulsada por la de Circuitos Integrados. ° Los costos de una pastilla son proporcionales al cubo de su superficie.
UNT – Arq. de Computadoras - 2014
64
Resumen de Evaluación de Perfomance CPU time
= Seconds Program
= instructions x Cycles x Seconds Program instruction Cycle
° ¡El tiempo es la medida de la performance de una computadora! ° Se pueden crear buenos productos cuando se parte de: • Buenos Benchmarks. • Formas adecuadas de generar indicadores de varios Benchmarks. ° Si no hay buenos benchmarks e indicadores, entonces en la elección entre mejorar productos y mejorar ventas: • Las ventas siempre ganan. ° Recordar Ley de Ahmdal: Incremento en velocidad está limitado por la parte no mejorada de una tarea.
UNT – Arq. de Computadoras - 2014
65
Recordar ° La performance siempre es específica para un programa dado. • Su tiempo de ejecución. ° Para una determinada máquina, se puede mejorar performance si: • Mejora el ciclo de reloj (sin que haya efectos adversos en CPI) • Mejora en la organización del CPU para que baje el CPI • Mejora compiladores para bajar CPI y/o número de Instrucciones. ° Pifia: Esperar que la mejora en un aspecto de la performance de una máquina afecte en igual medida la performance total. (MIPS, MFLOPS, Ahmdal)
UNT – Arq. de Computadoras - 2014
66
Recordar ° La evolución requiere máquinas que consuman menor energía. ° Cuidar la energía es cuidar el mundo y mejorar los costos. E = V2dd.C por cada pulso P = N . V2dd .C . f . A A=Factor de Actividad. N=cantidad de transistores. f=frecuencia de clock ° Mejorar el consumo no es sólo cuestión de tecnología sino también • de Diseño. • Al final del curso veremos conceptos de diseño para bajar energía.
UNT – Arq. de Computadoras - 2014
67