Arquitectura para gráficos y multimedia: noviembre 2010

29 noviembre 2010

Tema 3. Comparación de PCI‐Express con PCI y AGP

Peripheral Component Interconnect (PCI)

El bus PCI (Peripheral Component Interconnect o "Interconexión de Componentes Periféricos") básicamente es un bus de ordenador estándar para conectar dispositivos periféricos directamente a su placa base. Estos dispositivos pueden aparecer como circuitos integrados ajustados en la placa base o tarjetas de expansión que se ajustan en conectores. Es común en PCs, donde ha desplazado al ISA como bus estándar, pero también se emplea en otro tipo de ordenadores.

A diferencia de los buses ISA, el bus PCI permite configuración dinámica de un dispositivo periférico. En el tiempo de arranque del sistema, las tarjetas PCI y el BIOS interactúan y negocian los recursos solicitados por la tarjeta PCI. Esto permite asignación de IRQs y direcciones del puerto por medio de un proceso dinámico diferente del bus ISA, donde las IRQs tienen que ser configuradas manualmente usando jumpers externos. Las últimas revisiones de ISA y el bus MCA de IBM ya incorporaron tecnologías que automatizaban todo el proceso de configuración de las tarjetas, pero el bus PCI demostró una mayor eficacia en tecnología "plug and play". Aparte de esto, el bus PCI proporciona una descripción detallada de todos los dispositivos PCI conectados a través del espacio de configuración PCI.

Seguir leyendo >>

28 noviembre 2010

Tema 3. Interrupciones MSI

Las interrupciones (también conocidas como interrupción hardware o petición de interrupción o IRQ) es una señal recibida por el procesador de un ordenador, indicando que debe "interrumpir" el curso de ejecución actual y pasar a ejecutar código específico para tratar esta situación. Una interrupción supone la ejecución temporaria de un programa, para pasar a ejecutar una "subrutina de servicio de interrupción", que pertenece al BIOS (Basic Input Output System). Las interrupciones surgen de las necesidades que tienen los dispositivos periféricos de enviar información al procesador principal de un sistema de computación.

De este modo, un dispositivo utiliza una interrupción cuando necesita detener el proceso que está realizando la CPU para informale de que él, por su parte esta haciendo algo. Si dos dispositivos utilizan la misma interrupción, se produce un conflicto, el ordenador no sabe qué elemento intenta avisarle y suelen aparecer problemas de funcionamiento.

Seguir leyendo >>

26 noviembre 2010

Tema 3. Técnicas de gestión de E/S

Los dispositivos de entrada y salida (E/S) son aquellos que permiten la comunicación entre la computadora y el usuario. El papel que juegan los dispositivos periféricos del ordenador es esencial; sin tales dispositivos éste no sería totalmente útil. A través de los dispositivos periféricos podemos introducir a la computadora datos que nos sea útiles para la resolución de algún problema y por consiguiente obtener el resultado de dichas operaciones, es decir; poder comunicarnos con el ordenador.

La computadora necesita de entradas para poder generar salidas y éstas se dan a través de dos tipos de dispositivos periféricos existentes:

- Dispositivos periféricos de entrada.

- Dispositivos periféricos de salida.

Seguir leyendo >>

24 noviembre 2010

Tema 3. Análisis de la jerarquía de memoria de Intel Pentium Pro

La arquitectura Intel Pentium Pro es la sexta generación de arquitectura x86 de los microprocesadores de Intel, cuya meta era remplazar al Intel Pentium en toda la gama de aplicaciones, pero luego se centró como chip en el mundo de los servidores y equipos de sobremesa de gama alta. Posteriormente Intel lo dejó de lado a favor de su gama de procesadores de altas prestaciones llamada Xeon.

Pentium Pro fue puesto a la venta en noviembre de 1995, dos años después de la salida de Pentium. En 1997 fue reemplazado cuando Intel estrenó Pentium II.

Pentium Pro tiene una dirección virtual de 32 bits, hoy en día se queda un poco corto, pues las nuevas arquitecturas tienen una dirección virtual mayor. Las direcciones físicas son de 32 bits. Esta máquina permite páginas grandes (4KB, 4MB), lo que se puede usar para cuestiones como el sistema operativo o para tener un buffer de bloques. Las páginas grandes evitan que se asignen muchas entradas a un simple objeto que estará siempre presente.

Seguir leyendo >>

23 noviembre 2010

Tema 3. Tecnologías de memoria DRAM utilizadas en tarjetas gráficas y videoconsolas

Toda arquitectura (tanto gráfica como de propósito general) tiene una memoria principal. Al aparecer arquitecturas dedicadas a gráficos se provocó un avance, y una especialización de memorias dedicadas a gráficos. En este post daré un repaso leve a distintas memorias DRAM para tarjetas gŕaficas y comentaré los tipos de memoria de la actual generación de consolas.

Seguir leyendo >>

22 noviembre 2010

Tema 3. Técnicas de optimización para la memoria caché

Para optimizar el tiempo de acceso de la memoria caché, se pueden hacer varias cosas: reducir la penalización por fallo, reducir la tasa de fallos, aprovechar el paralelismo y reducir el tiempo de acierto (latencia).

Reducir la penalización por fallo

Para lograr este objetivo se trabaja con cachés multinivel, cachés de víctimas, cachés no bloqueantes, se hace uso del Write Merging y la técnica Palabra crítica primero / rearranque rápido.

Seguir leyendo >>

21 noviembre 2010

Tema 3. ¿Cómo afectan las decisiones de organización de la caché a su rendimiento?

La memoria caché es una memoria pequeña y muy rápida que se utiliza para mejorar el rendimiento de los programas. En lugar de acceder a la memoria principal con lentas lecturas y escrituras, se usan algoritmos que predicen las zonas de la memoria principal con mayor probabilidad de ser direccionadas en el futuro próximo, y se llevan a la caché. El acierto a la hora de elegir estas políticas determinará una mayor o menor efectividad.

Las decisiones de organización de la memoria caché son varias. Tenemos diferentes políticas de emplazamiento: totalmente asociativa, de correspondencia directa, asociativa de dos vías, asociativa de cuatro vías, etc…

Seguir leyendo >>

20 noviembre 2010

Tema 3. ¿Cómo se traduce de dirección virtual a dirección física?

Memoria Virtual

La Memoria Virtual es un concepto que permite al software usar más memoria principal que la que realmente posee el ordenador. La mayoría de los ordenadores tienen cuatro tipos de memoria: registros en la CPU, la memoria caché (tanto dentro como fuera del CPU), la memoria física (generalmente en forma de RAM, donde la CPU puede escribir y leer directa y razonablemente rápido) y el disco duro, que es mucho más lento, pero también más grande y barato.

Las dos razones por las que se utiliza memoria virtual son:

- compartir la memoria eficientemente y sin peligros entre múltiples programas.

- eliminar el inconveniente de tener un espacio de memoria principal pequeño y limitado, ya que puede ocurrir que los programas necesiten más memoria que la disponible en memoria principal.

Seguir leyendo >>

19 noviembre 2010

TEMA 3. Jerarquía de memoria y sistema de E/S

a. (B) ¿Cómo se traduce de dirección virtual a dirección física?

b. (B) ¿Cómo afectan las decisiones de organización de la caché a su rendimiento?

c. (E) Explicar en detalle 2 técnicas de optimización para la memoria caché de cada tipo.

d. (E) Tecnologías de memoria DRAM utilizadas en tarjetas gráficas y videoconsolas (memorias de vídeo).

e. (B) Análisis de la jerarquía de memoria de una arquitectura comercial (incluido esquema de ubicación de cada nivel de la memoria y cálculos de anchos de banda).

f. (B) Explicación en detalle de las técnicas de gestión de E/S: espera de respuesta, interrupciones, DMA y procesadores de E/S.

g. (E) Interrupciones MSI.

h. (B) Comparación de PCI‐Express con PCI y AGP.

i. (E) Nuevos buses de altas prestaciones.

13 noviembre 2010

Tema 2. Arquitectura de GPU Fermi: NVIDIA GeForce GTX 580 (GF110)

Recientemente NVIDIA ha anunciado el lanzamiento de la familia de GPU "Serie 500", con la salida al mercado de la GeForce GTX 580. Basada en la renovada arquitectura Fermi, está pensada para competir con la serie de ATI, AMD Radeon HD 6000. Se trata de la CPU DX11 "más rápida del planeta", que dispondrá de un nuevo diseño de refrigeración "vapor chamber" que permitie un funcionamiento más silencioso y una temperatura inferior a la alcanzada por la serie GeForce 400.

El chip Fermi incluye 512 procesadores de stream, agrupados en 16 clústers de multiprocesadores de stream (cada uno con 32 núcleos CUDA), y está manufacurado por TSMC en 40 nm. La tarjeta gráfica Nvidia GeForce GTX 580 será la primera de la Serie Nvidia GeForce 500 en usar un chip completamente basado en la renovada arquitectura Fermi, con todos los 16 clústers de multiprocesadores de stream y los seis controladores de memoria de 64 bits activos. La nueva GPU GF110 ha sido mejorada con filtros FP16 a toda velocidad (la anterior generación GF100 GPU sólo podía alcanzar media velocidad FP16) y unidades mejoradas de z-culling.

Seguir leyendo >>

11 noviembre 2010

Tema 2. Arquitectura de procesador Intel Core i7

Intel Core i7 es una familia de procesadores de cuatro núcleos de la arquitectura Intel x86-64. Los Core i7 son los primeros procesadores que usan la microarquitectura Nehalem de Intel y es el sucesor de la familia Intel Core 2. El identificador Core i7 se aplica a la familia inicial de procesadores con el nombre clave Bloomfield. Esta nueva generación de procesadores refleja los recientes e importantes avances en tecnología de Intel.

Los procesadores Core i7 están basados en la micro-arquitectura Intel Nehalem. Cado uno de estos chips ofrece cuatro núcleos y velocidades que van de los 2,66GHz a los 3,20GHz. Algunos de estos procesadores forman la serie Extreme Edition, como el Core i7 965 Extreme Edition tiene una velocidad de 3,20GHz y tecnología QPI (QuickPath Interface) de 6,4GT/s que es su principal diferenciador.

Seguir leyendo >>

10 noviembre 2010

Tema 2. Utilización del multithreading en las arquitecturas para gráficos y multimedia

El multhreading es la capacidad del Sistema Operativo de ejecutar las diferentes partes de un programa (threads o hilos) simultáneamente. En sistemas operativos, un thread es similar a un proceso en que ambos hilos representan una secuencia simple de instrucciones ejecutada en paralelo con otras secuencias. Los hilos nos permiten dividir un programa en dos o más tareas que corren simultáneamente, por medio de la multiprogramación.

Un ejemplo de la utilización de hilos es tener un hilo atento a la interfaz gráfica (iconos, botones, ventanas), mientras otro hilo hace una larga operación internamente. De esta manera el programa responde de manera más ágil a la interacción con el usuario. También pueden ser utilizados por una aplicación servidora para dar servicio a múltiples clientes.

Seguir leyendo >>

07 noviembre 2010

Tema 2. Predictores de salto multinivel y adaptativos

El pipelining ofrece una gran ventaja aumentando la velocidad del procesador, pero desafortunadamente, la presencia de instrucciones de saltos condicionales en el programa en ejecución reduce fuertemente este aumento de la capacidad de procesamiento.

Esto se debe a que los saltos condicionales se resuelven (el salto es tomado o no) en las últimas etapas. Si el salto se realiza, debe vaciarse la mayoría de las etapas del pipeline, y completarse nuevamente con las instrucciones que siguen a la de la dirección de salto, lo cual significa una pérdida de tiempo. Esta pérdida de beneficio en el pipeline se realiza cada vez que un salto condicional ingresa al procesador, es decir por cada salto dinámico del código en ejecución. En el caso de los saltos incondicionales, no existe este problema, dado que se conoce de antemano la dirección de salto y no existe duda alguna de que éste será tomado. Sin embargo, el hardware del microprocesador debe identificar este tipo de instrucciones antes de que ingresen a la etapa DECODE. Para reducir la pérdida de eficacia del pipeline ante la presencia de saltoscondicionales se introdujo el concepto de Predicción de Salto (Branch Prediction).

Seguir leyendo >>

05 noviembre 2010

Tema 2. Funcionamiento de los algoritmos de Pizarra y Tomasulo, con códigos ejemplo

Algoritmo de Tomasulo

Para reducir al máximo el número de paradas por riesgos estructurales y de datos, la planificación dinámica reordena las instrucciones en tiempo de ejecución. La emisión de instrucciones sigue en orden, pero permite la lectura de operandos y la ejecución fuera de orden. Existen para ello diferentes algoritmos de planificación, aunque casi todos derivan de los dos más conocidos:

- Algoritmo de la Pizarra

- Algoritmo de Tomasulo

Algoritmo de Pizarra

El algoritmo de Pizarra es un método centralizado para programar dinámicamente un pipeline, de modo que las instrucciones se puedan ejecutar fuera de orden cuando no hay conflictos y el hardware está disponible. En una pizarra, las dependencias de datos de todas las instrucciones se registran. Las instrucciones se ponen en marcha sólo cuando la pizarra determina que no hay conflictos con instrucciones previamente manejadas o incompletas. Si una instrucción se detiene porque es inseguro continuar, la tabla monitorea el flow de las instrucciones ejecutándose hasta que todas las dependencias se hayan resuelto antes de que se maneje la instrucción parada.

Seguir leyendo >>

04 noviembre 2010

Tema 2. Técnicas de resolución de riesgos en procesadores segmentados utilizando como ejemplo la arquitectura MIPS

Haciendo bueno el dicho del gran emperador romano Julio César, "Divide y Vencerás", seguiremos su táctica de conquista para abordar este tema. Comentaremos primero qué es la segmentación, para pasar luego brevemente por los procesadores MIPS y, finalmente, terminaremos explicando con los riesgos de procesadores segmentados y las soluciones posibles.

La segmentación y sus problemas

A finales de los años 90 aparecieron en el mundo de la informática los llamados microprocesadores supersegmentados. Estos microprocesadores se caracterizan por utilizar pipelines muy segmentadas, para tratar de alcanzar frecuencias lo más altas posibles. Los microprocesadores no ejecutan instrucciones “de una vez”, sino que dividen el proceso de ejecución en varias partes, que son ejecutadas una detrás de otra. Esto se llama “pipelining” y es un principio usado en muchos campos de la informática, como el envío de paquetes en redes, la ejecución de instrucciones en procesadores… Para ilustrar esta idea, podemos poner el ejemplo de una manzana. Imaginemos que una persona quiere comerse una manzana. Podríamos ver esta acción como una serie de pasos que deben realizarse en orden: primero se lava la fruta, luego se pela la piel, después se corta la manzana en partes más pequeñas, y finalmente se comen los trozos.

Seguir leyendo >>

03 noviembre 2010

Tema 2. Diferencias entre arquitecturas y repertorios de instrucciones RISC y CISC

   Una arquitectura define el modo de trabajar del microprocesador, el repertorio de instrucciones y cómo estas se implementan en la práctica. RISC y CISC son dos arquitecturas para microprocesadores.

   Los CISC (Complex Instruction Set Computer) pertenecen a la primera corriente de construcción de procesadores, antes del desarrollo de los RISC. Ejemplos de ellos son: Motorola 68000, Zilog Z80 y toda la familia Intel x86 usada en la mayoría de las computadoras personales del planeta. La utilización del término CISC comenzó tras la aparición de los procesadores RISC como nomenclatura despectiva por parte de los defensores/creadores de éstos últimos.

   Las arquitecturas CISC, tienen repertorios de instrucciones mucho más complicados que se traducen en diseños de la ruta de datos mucho más complejos, su conjunto de instrucciones se caracteriza por ser muy amplio y permitir operaciones complejas entre operandos situados en la memoria o en los registros internos, en contraposición a la arquitectura RISC. Este tipo de arquitectura dificulta el paralelismo entre instrucciones, por lo que, en la actualidad, la mayoría de los sistemas CISC de alto rendimiento implementan un sistema que convierte dichas instrucciones complejas en varias instrucciones simples del tipo RISC, llamadas generalmente microinstrucciones.

Seguir leyendo >>

TEMA 2: Arquitectura de procesadores

a. (B) Diferencias entre arquitecturas y repertorios de instrucciones RISC y CISC.

b. (B) Explicación en detalle de las técnicas de resolución de riesgos en procesadores segmentados utilizando como ejemplo la arquitectura MIPS.

c. (E) Explicación en detalle del funcionamiento de los algoritmos de Pizarra y Tomasulo utilizando códigos ejemplo.

d. (B) Explicación en detalle de los predictores de salto multinivel y adaptativos.

e. (E) Explicación en detalle del funcionamiento de Tomasulo Especulativo.

f. (B) Utilización del multithreading en las arquitecturas para gráficos y multimedia.

g. (B) Análisis de una arquitectura de procesador de los dos últimos años diferente de las vistas en clase.

h. (B) Análisis de una arquitectura de GPU de los dos últimos años diferentes de las vistas en clase.

i. (E) Comparación exhaustiva de ambas arquitecturas.

j. (E) Modelos de programación de GPUs, comparación con los modelos tradicionales de CPUs, etc.

k. (E) Programación de GPUs con Cg.

l. (E) Programación de GPUs con CUDA.

Suscribirse a: Entradas (Atom)