Story Transcript
Percepción, Atención y Memoria.
TEMA 3. PROCESAMIENTO DE LA ESTRUCTURA ESPACIAL DE LA IMAGEN 1. Objetivos 2. Método de trabajo 3. Introducción 4. Análisis de la frecuencia espacial 4.1. Estímulos para estudiar la frecuencia espacial 4.2. Función de sensibilidad al contraste 4.3. Teorema de Fourier y procesamiento espacial de la imagen 4.4. Estudios empíricos en torno al papel de la FE y el teorema de Fourier 4.5. Codificación neural de la Frecuencia Espacial 5. El esbozo primario en bruto 5.1. Nivel computacional 5.2. Nivel algorítmico 5.3. Nivel de implementación 6. El esbozo primario completo 7. Bibliografía recomendada 8. Actividades
1. OBJETIVOS Los objetivos del presente módulo de aprendizaje son los siguientes: 1) Comprender a qué hacemos referencia con la noción de procesamiento de la estructura espacial de la imagen visual. 2) Entender el conjunto de términos asociados al análisis de la frecuencia espacial, así como el papel que este parámetro de la luz tiene de cara a que el sistema visual adquiera información sobre la disposición espacial de la luz en la imagen. 3) Analizar las implicaciones que tiene la Función de Sensibilidad al Contraste de cara a conocer y predecir la respuesta del sistema visual a los cambios de intensidad luminosa del entorno. 4) Conocer los mecanismos neurales implicados en la codificación de la estructura espacial de la imagen. 5) Comprender y saber desarrollar los distintos aspectos contemplados por la teoría sobre la visión de David Marr sobre las capacidades del sistema visual para determinar la estructura y
1
Percepción, Atención y Memoria.
composición de nuestro entorno a partir de los efectos que éste produce en términos de imágenes visuales. 2. MÉTODO DE TRABAJO
El presente módulo de aprendizaje tiene un notable carácter teórico. Por ello, se recomienda una primera lectura "on-line" especialmente pausada que permita captar la estructura del módulo y la relación entre los distintos conceptos abordados (a este respecto, también se considera muy oportuno la elaboración de un glosario de términos). Posteriormente, debe realizarse un análisis detallado de una versión impresa del módulo repartida equitativamente (en términos de tiempo de dedicación) entre las partes correspondientes al análisis de la frecuencia espacial y la teoría de David Marr sobre el esbozo primario en bruto. No obstante, la preparación de este apartado requiere indefectiblemente una comprensión completa del apartado anterior. Ello se debe, básicamente a dos razones: por una parte, porque esta propuesta puede considerarse una formalización teórica basada en muchos de los conceptos relacionados con el análisis de la frecuencia espacial. De otra parte, porque debido a su formalización matemática, la teoría de D. Marr puede constituir una de las partes de la asignatura más complejas, especialmente para aquellos alumnos no excesivamente familiarizados con las matemáticas. Por ello, para la preparación de esta parte se hace especialmente recomendable la consulta de otras fuentes bibliográficas.
3. INTRODUCCIÓN En general, los trabajos de Hubel y Wiesel (1965) sobre la selectividad de respuesta celular de las neuronas de V1 (véase el apartado "La corteza visual estriada o primaria") pueden considerarse el punto de partida de una serie de planteamientos teóricos sobre la percepción visual basados en el análisis de características particulares del estímulo, un enfoque radicalmente opuesto al de posiciones como, por ejemplo, la Gestalt (véase el apartado "Gestalt"). No obstante, esta perspectiva y los hallazgos de los que partían no estaba exenta de críticas. Así, para algunos autores la idea de que las células simples actúan como detectores de bordes o barras es demasiado simplista. Asimismo, numerosos estudios han puesto de manifiesto que estas células se activan ante una amplia variedad de estímulos, por lo que su respuesta no puede servir para indicar inequivocamente la existencia de un determinado rasgo o característica en el estímulo.
Por ello, se desarrollaron otras perspectivas alternativas al planteamiento del análisis de características que, si bien mantenían una postura analítica a la hora de entender el procesamiento visual (basado en elementos componentes), propusieron que los campos
2
Percepción, Atención y Memoria.
receptivos de las células de V1están especializados en el análisis de una característica básica de la luz y común a cualquier tipo de estímulo visual, independientemente de su complejidad: la frecuencia espacial del contraste, un parámetro que especifica la “rapidez” con la que cambia la iluminación en el estímulo.
4. ANALISIS DE LA FRECUENCIA ESPACIAL
4.1 Estímulos para estudiar la frecuencia espacial La frecuencia espacial del contraste se ha estudiado mediante estímulos luminosos simples denominados enrejados (del término inglés, “gratings”), consistentes en estímulos cuya intensidad luminosa cambia de forma periódica a lo largo de toda su extensión (normalmente medida en grados de ángulo visual). Los enrejados pueden ser enrejados sinusoidales, en los cuales los cambios de intensidad tienen lugar de forma progresiva. Los enrejados sinusoidales se definen fundamentalmente por cuatro aspectos: su frecuencia espacial (número de ciclos de cambios de luminancia a lo largo del enrejado), la orientación de las distintas áreas luminosas con respecto a la vertical del campo visual, la amplitud (diferencia entre los puntos más y menos luminosos del estímulo) y la fase, es decir, la posición de cada punto luminoso con respecto a un punto de referencia arbitrario, siendo los 0º el punto de inicio del patrón sinusoidal (ver figura 1). Por su parte, en los enrejados de onda cuadrada, los cambios de intensidad luminosa están perfectamente definidos (ver figura 2 y figura 3).
3
Percepción, Atención y Memoria.
4.2 Función de sensibilidad al contraste La detección del contraste está relacionada especialmente con la frecuencia espacial. Así, la relación psicofísica entre ambos aspectos se refleja en lo que se conoce como función de sensibilidad al contraste (FSC). Esta función indica cuál es el contraste necesario para detectar un estímulo cuya frecuencia espacial varía periódicamente en cada especie animal (ver figura 4) y en cada momento evolutivo (ver figura 5). En definitiva, la FSC describe la capacidad del sistema
4
Percepción, Atención y Memoria.
visual y permite predecir la sensibilidad de éste a un estímulo determinado (ver figura 6). La FSC también permite conocer los motivos por los que se producen determinados efectos perceptivos.
5
Percepción, Atención y Memoria.
4.3 Teorema de Fourier y procesamiento espacial de la imagen
Los distintos modelos interesados en el papel que tiene el análisis inicial de los distintos valores de intensidad luminosa en la imagen visual dependen estrechamente de los estudios realizados por el físico y matemático francés J. B. Fourier (1768-1830). Este autor demostró que
6
Percepción, Atención y Memoria.
toda función puede expresarse como la suma de una serie de funciones sinusoidales con unas determinadas características de amplitud, frecuencia, fase, etc. Concretamente, en el caso de funciones periódicas, existe un componente con una frecuencia fundamental (primer armónico) y una serie de componentes -armónicos - cuya frecuencia se corresponde con la de sus múltiplos enteros impares (tercer, quinto armónico...) (ver figura 7). La transformación de Fourier permite tanto determinar las características de cada función sinusoidal como sintetizar la función original a partir de sus componentes sinusoidales. Una de las aplicaciones más útiles de esta transformación es que permite considerar cualquier enrejado cuadrado (un patrón de cambio luminoso periódico) como la suma de una onda sinusoidal fundamental y un número infinito de armónicos. Es más, la aplicación de las ideas de Fourier al análisis de la imagen visual bidimensional permite considerar que ésta se puede descomponer en la suma de un conjunto de patrones de bandas sinusoidales que difieren en frecuencia espacial, orientación, amplitud y fase (ver figura 8 y figura 9).
7
Percepción, Atención y Memoria.
De estos planteamientos se deriva la hipótesis de que el análisis visual tiene lugar por elementos receptores que responden específicamente a los valores concretos de dichos parámetros luminosos sinusoidales. Es decir, que las distintas unidades que forman el sistema visual podrían responder de manera específica a los diversos componentes sinusoidales que son en sí la imagen visual (modelos multicanal). Alternativamente, otros planteamientos consideran que el sistema visual humano actúa como un único sistema cuyo funcionamiento se describe básicamente mediante la FSC (modelos unicanal). De acuerdo con esta perspectiva, la imagen visual es una versión borrosa de la imagen original en la que los objetos de tamaño medio resultan menos “distorsionados” que los grandes o los pequeños
4.4 Estudios empíricos en torno al papel de la FE y el teorema de Fourier Campbell y sus colaboradores fueron los primeros defensores del modelo multicanal, fundamentalmente sobre la base de los resultados obtenidos en trabajos de adaptación selectiva a la frecuencia espacial. Así, Campbell y Robson (1969) hallaron que la presentación de estímulos enrejados sinusoidales con una determinada frecuencia espacial durante intervalos temporales en torno a los dos minutos disminuía específicamente la sensibilidad a estímulos con una frecuencia espacial próxima a la del estímulo expuesto previamente. Resultados similares en torno al papel de la frecuencia espacial también se han obtenido en estudios de enmascaramiento (un estímulo de una determinada frecuencia espacial afecta al umbral de
8
Percepción, Atención y Memoria.
contraste de un estímulo de prueba presentado anterior, posterior o simultáneamente), así como en estudios de suma sub-umbral, donde se halla que la presentación de un estímulo por debajo del umbral afecta al umbral de contraste de otro estímulo presentado superpuesto espacialmente. Una de las pruebas más sólidas de que el sistema visual procesa selectivamente los diferentes valores de frecuencia espacial del estímulo es el trabajo de Campbell y Robson (1968). Estos autores hallaron que los participantes de su estudio eran incapaces de diferenciar un estímulo enrejado sinusoidal de otro cuadrado cuando la frecuencia fundamental de éste era elevada (por ejemplo, 28 c/g.a.v. - véase figura 10). Sin embargo, cuando la frecuencia fundamental era baja (por ejemplo, 2º c/ g.a.v.), sí podían discriminar entre ambos enrejados. Según estos resultados, los observadores no son sensibles a ninguno de los armónicos del estímulo enrejado cuadrado de frecuencia espacial elevada, por lo cual lo percibían igual que el enrejado sinusoidal con una frecuencia fundamental idéntica. Sin embargo, la discriminación sí fue posible en el caso de enrejados cuadrados de menor frecuencia.
Los estudios de detección y discriminación de estímulos enrejados sinusoidales vs cuadrados realizados por Graham y Nachmias (1971) arrojaron resultados similares a los de Campbell y Robson (1968) y, por tanto, acordes con la propuesta del análisis visual basado en la frecuencia espacial (modelos multicanal). Graham y Nachmias (1971) evaluaron esta idea presentando a los sujetos pares de estímulos enrejados cuyos componentes eran idénticos en
9
Percepción, Atención y Memoria.
términos de frecuencia espacial pero en un caso, ambos componentes estaban desfasados (el desfase entre dos componentes sinusoidales se traduce en una reducción de la amplitud del estímulo resultante equivalente a la diferencia en la amplitud entre ambos - véase figura 11 y figura 12). Sin embargo, los sujetos detectaban igualmente ambos estímulos complejos, lo cual demuestra que el sistema visual responde selectivamente a los componentes específicos de frecuencia espacial del estímulo. No obstante, este resultado es válido sólo cuando se emplean estímulos enrejados elaborados con componentes sinusoidales a nivel de umbral de contraste. En otras palabras, cuando el contraste está bien por encima del nivel umbral (son perfectamente detectables los cambios de intensidad luminosa), la fase de los enrejados influye en la detección y, por tanto, los dos enrejados complejos presentados a los observadores se perciben distintos.
10
Percepción, Atención y Memoria.
4.5 Codificación neural de la Frecuencia Espacial La respuesta selectiva a la frecuencia espacial parece estar basada en diferentes mecanismos neuronales. Inicialmente, la estructura concéntrica de los campos receptivos de las células ganglionares y, en concreto, aspectos como su tamaño, podrían ser características capaces de explicar la respuesta selectiva del sistema visual a las frecuencias espaciales. Así, es de esperar que una célula ganglionar de centro “on” se active enérgicamente si esta parte del campo receptivo coincide con la parte clara de un enrejado (ver figura 13). Sin embargo, estas células no son sensibles a la orientación, por lo que no parece que puedan codificar la estructura espacial de la imagen retiniana. La codificación selectiva de diferentes frecuencias espaciales con una determinada orientación espacial parece relacionada principalmente con la actividad de las células de V1. Así, de Valois, Albrecht y Thorell (1982) demostraron la existencia de células simples y complejas en V1 que responden selectivamente a frecuencias espaciales altas, mientras que otras células están “afinadas” específicamente a frecuencias espaciales bajas. Estos autores también hallaron que la respuesta de estas células depende también del grado específico de orientación de los estímulos enrejados. Es más, la respuesta de estas células depende conjuntamente de los valores de frecuencia espacial y de orientación del enrejado, lo cual es acorde con la demostración psicofísica de que la respuesta a la frecuencia espacial tiene lugar en un rango limitado de orientaciones.
11
Percepción, Atención y Memoria.
De acuerdo con numerosos investigadores, la actividad de las células simples se puede comparar con la de canales o filtros localizados que responden selectivamente en función de la frecuencia espacial y la orientación (véase el apartado "Macroestructura celular de V1"). De acuerdo con esta propuesta, el sistema visual obtiene información en cada localización acerca de los aspectos espaciales de la imagen. Más concretamente, las neuronas selectivas a frecuencias espaciales bajas detectarán la estructura general, mientras que las que responden a frecuencias espaciales elevadas codificarán la estructura fina (detalles). Por tanto, es posible pensar que este tipo de células estaría implicado en los primeros niveles de análisis espacial del estimulo y, por tanto, en los procesos encaminados al procesamiento de la forma.
5. EL ESBOZO PRIMARIO EN BRUTO De acuerdo con D. Marr, el procesamiento visual comienza con el análisis de la intensidad y composición espectral de la luz reflejada por los objetos y superficies de la escena visual que dan lugar a la imagen retiniana. El objetivo de ello es elaborar una descripción de la escena visual que represente las estructuras y superficies de la misma, así como su orientación y distancia del observador (estructura de la imagen). La elaboración de esta representación se basa estrechamente en el hecho de que las discontinuidades en los objetos y/o en las superficies (contornos) se reflejan en cambios de la intensidad y composición espectral de la luz en la imagen retiniana. No obstante, en la imagen retiniana también hay cambios luminosos debidos la diferente
12
Percepción, Atención y Memoria.
textura de los objetos observados, a su orientación con respecto a la fuente luminosa, etc. Por ello, Marr considera que la identificación de la estructura espacial de las escenas naturales a partir de la imagen retiniana implica dos fases: - en la primera, se forma una representación de los cambios significativos de intensidad luminosa en la imagen retiniana, denominada esbozo primario bruto (del inglés, “raw primal sketch” - ver la figura 14).
- la segunda fase, el esbozo primario completo (del inglés, “full primal sketch”) se apoya en la información incluida en el esbozo primario bruto para especificar los bordes y las discontinuidades en las superficies, sus orientaciones, localizaciones, contraste, etc.
5.1 Nivel computacional El esbozo primario bruto especifica dónde tienen lugar los cambios significativos de intensidad en la imagen, es decir, los producidos por objetos, superficies y sus propiedades (como la textura o los límites entre objetos), sin incluir los cambios de intensidad luminosa irrelevantes (e.g. los debidos a fluctuaciones momentáneas de la luz reflejada por los objetos - ver figura 14). Un modo de lograr este objetivo consiste en reducir el rango de valores de intensidad luminosa de la imagen con el fin de atenuar las diferencias de intensidad luminosa irrelevantes con respecto a las correspondientes a características prominentes de la imagen.
13
Percepción, Atención y Memoria.
Esta atenuación, equivalente a un filtrado de las frecuencias espaciales altas (eliminación de los pequeños cambios de intensidad luminosa), se puede llevar a cabo, por ejemplo, sustituyendo el valor de intensidad luminosa de cada punto de la imagen por el valor promedio de un conjunto de puntos cercanos. Sin embargo, dado que en la escena visual se producen cambios de intensidad luminosa a diferentes escalas (es decir, de distinta magnitud) para poder reflejar todos los cambios de intensidad relevantes en la escena, la elaboración del esbozo primario bruto implica el procesamiento en paralelo de varias representaciones de la imagen con diferentes niveles de filtrado de frecuencia espacial.
5.2 nivel algoritmico
14
Percepción, Atención y Memoria.
15
Percepción, Atención y Memoria.
5.3 nivel de implementación
16
Percepción, Atención y Memoria.
6. EL ESBOZO PRIMARIO COMPLETO Tras la especificación de las diferentes primitivas en el esbozo primario bruto (segmentos de borde, terminaciones, barras y manchas), extraídas a partir de los diferentes niveles de intensidad luminosa existentes en la imagen retiniana, el sistema visual organiza estas primitivas en conjuntos de mayor envergadura que ofrezcan información acerca de estructuras globales, estructuras internas y texturas de la superficie. Esta información conformará el esbozo primario completo, y su elaboración está íntimamente relacionada con lo que se denomina organización perceptiva.
7. BIBLIOGRAFÍA RECOMENDADA Para la preparación del presente módulo de aprendizaje se recomiendan las siguientes referencias blibliográficas: Aznar, J. A. (1999). Percepción del contraste: procesamiento de bajo nivel. En E. Munar, J. Roselló y A. Sánchez-Cabaco (Eds.) Atención y Percepción (pp. 267-300). Madrid: Alianza. Ballesteros, S. (1997). Psicología general. Un enfoque cognitivo. (2º Ed.).Madrid: Universitas. Capítulo 14. Bruce, V., Green, P., y Georgeson, M. A. (1997). Visual perception: Physiology, psychology and ecology. (3ª Ed.). Hove: Psychology Press. (Capítulos 4 y 5). Lillo Jover, J. (1993). Psicología de la percepción. Madrid: Debate. Capítulo 5 Matlin, M. W., y Foley, H. J. (1996). Sensación y percepción (3ª Ed.). Mexico: Prentice-Hall. Capítulo 5. Monserrat, J. (1998). La percepción visual: La arquitectura del psiquismo desde el enfoque de la percepción visual. Madrid: Biblioteca Nueva. Capítulo V. Palmer, S. E. (1999). Vision science: Photons to phenomenology. MA: MIT Press. Capítulo 4. Sierra-Vazquez, V. (1992). Procesamiento visual inicial: aspectos biológicos, psicofísicos y computacionales del análisis espacial de imágenes por el sistema visual humano. En J. Mayor y J. L. Pinillos (Eds.) Tratado de Psicología General. Vol. 3. Atención y Percepción. (pp. 163-322). Madrid. Alhambra Longman. Tudela, P. (1988). Psicología Experimental. Madrid: U.N.E.D. Capítulo VIII.
17