Loading

Alison's New App is now available on iOS and Android! Download Now

Study Reminders
Support
Text Version

Set your study reminders

We will email you at these times to remind you to study.
  • Monday

    -

    7am

    +

    Tuesday

    -

    7am

    +

    Wednesday

    -

    7am

    +

    Thursday

    -

    7am

    +

    Friday

    -

    7am

    +

    Saturday

    -

    7am

    +

    Sunday

    -

    7am

    +

Para la última conferencia de esta semana, vamos a mirar lo que hayamos visto desde una perspectiva muy diferente del sistema visual humano. Por lo tanto, vimos que las imágenes de procesamiento se pueden hacer para lograr varias tareas, tales como extraer bordes, extraer tetas, esquinas, puntos clave, extraer representaciones alrededor de puntos clave, imágenes de segmentos, así sucesivamente y así sucesivamente. Durante muchas décadas, estos fueron utilizados extensivamente en aplicaciones de visión por computadora. En particular, uno de los temas que cubrimos en las conferencias, que era un banco de filtros usando un banco de filtro Gabor o filtros dirigibles era sobre el uso de múltiples filtros diferentes en diferentes orientaciones y escalas para extraer contenido de las imágenes. En cierta medida, veremos ahora cómo este enfoque es similar a cómo el sistema visual humano procesa las imágenes. No es exactamente una imitación, pero hay similitudes en cómo estos métodos fueron utilizados para procesar imágenes versus cómo suceden las cosas en el sistema visual visual humano. Así que para completar eso, veamos una visión un poco detallada del sistema visual humano. Para empezar con un reconocimiento, la mayor parte de esta conferencia se desliza de las diapositivas del profesor Rajesh Rao en la Universidad de Washington, por lo que, a menos que se indique explícitamente, los orígenes de imágenes también son los mismos. (2:03) Así que el sistema visual humano puede ser resumido en este diagrama. Hay mucho más detalle que lo que se ve en este diagrama aquí, pero lo que se ve aquí es el ojo y la retina, y la escena alrededor de usted está aquí alrededor del campo visual humano y izquierdo y el campo visual derecho cae en ambos ojos y luego se puede ver que el ojo derecho va a la parte izquierda del cerebro, que se dibuja en el color azul aquí y de manera similar, la entrada al ojo izquierdo va a la parte derecha del cerebro dibujada en colores rojos. La corteza visual primaria está situada en la parte posterior y hay otros componentes que el sistema visual humano atraviesa, como el núcleo pulvinar, el LGN o el núcleo de geniculado lateral, la radiación óptica superior de colliculus, así sucesivamente y así sucesivamente. Así que si observas cuidadosamente aquí, entre todos los insumos que llegan a través de la retina, la mayor parte de ella va a la corteza visual, pero hay una ligera desviación de algún contenido aquí, que entra en el colliculus superior y el collículo superior es lo que es responsable de la retroalimentación para mover el ojo. Así que el collículo superior es lo que te dice mover tus globos oculares para ver algo para obtener un mejor entendimiento, así sucesivamente, mientras que la corteza visual es lo que nos da entendimiento y percepción de la escena alrededor de nosotros mismos. Veamos esto en un poco más de detalle. (3:48) Para empezar una vez más, hablamos de esto en una conferencia anterior también que la luz visible para el ojo humano está restringida a una parte del espectro electromagnético, que va de algún lugar aproximadamente entre un poco menos de 400 nanómetros a un poco más de 700 nanómetros yendo de violeta a rojo. Obviamente, las radiaciones que tienes a la izquierda del violeta se llaman ultra violeta y las radiaciones que tienes a la derecha del rojo llamado infrarrojo. Por lo tanto, esto es conocido por nosotros. (4:24) Así que, si nos preguntas, ¿por qué es que nuestro ojo recibe sólo este espectro de luz, lo más, parece ser que a medida que hemos evolucionado nuestra visión parece ser optimizada para recibir el más abundante resplandor espectral de nuestra estrella, el sol. Así, en este gráfico en la parte superior se ve la energía de los diversos componentes en el espectro electromagnético, se puede ver que los picos de energía del sol en el espectro visible y luego se cae sobre el resto de la radiación electromagnética. Y eso es potencialmente una razón por la que nuestros ojos parecen haberse acostumbrado a ese espectro como el espectro más útil desde una perspectiva de visión. (5:18) Así que la retina misma, que es el sensor de nuestra vía visual humana, consiste en fotoreceptores, y también hace mucho filtrado de imágenes, antes de que pase información a la siguiente fase de la vía visual humana. Así que si esta fue nuestra retina y la luz cayó de izquierda a derecha aquí, por lo que la parte posterior de la retina es volada hacia arriba en el lado derecho, por lo que se puede ver que un poco más cerca. Así que en el extremo lejano, consiste en, por supuesto, células epiteliales, y justo antes de las células epiteliales, la retina consiste de lo que se conoce como las varillas y conos, de los cuales usted puede haber oído hablar. Pero antes de que los fotones caigan sobre las varillas y los conos hay muchas otras células también, como lo que se conoce como ganglio, células bipolares, así sucesivamente y así sucesivamente, que la información pasa a través de antes de llegar a las varillas y conos. Así, cada una de las varillas y conos tienen propiedades específicas. (6:26) Las varillas son sensibles a la intensidad, pero no el color y por qué se llaman barras y conos que se forman como se puede ver aquí, las varillas tienen la forma de esto, y los conos se forman cónicamente. Por lo tanto, las varillas son sensibles a la intensidad, pero no son sensibles al color, por lo que en algún sentido obtener una imagen borrosa de lo que está sucediendo a nuestro alrededor. Y los conos son sensibles al color que forman imágenes nítidas y requieren muchos más fotones para absorber la información. Los conos típicamente forman tres tipos diferentes en los seres humanos cada uno de estos conos son sensibles a las longitudes de onda específicas. (7:16) ¿Y cuáles son estas longitudes de onda? Así que tienes un conjunto de conos que responden muy bien al color azul, un conjunto de conos que responden muy bien al color verde, un conjunto de conos que responden muy bien al color rojo. Claramente, las varillas están en algún lugar entre donde no son sensibles al color, sino que son sensibles a la intensidad de los fotones que caen sobre la retina. También debo explicar el aspecto RGB de color que elegimos porque parece ser donde nuestros conos están llegando a su punto máximo en el espectro de VIBGYOR. Así que esto también explica por qué una persona podría ser coloreada. Así que por ejemplo, si una persona no tiene conos verdes la persona puede no ser capaz de ver el color verde en el mundo que nos rodea. (8:06) Así que, antes de que la imagen los fotones lleguen a las varillas y conos, hay lo que se conoce como células ganglionares u otras células en la retina, que típicamente operan en lo que se conoce como una manera excitatoria o una manera inhibitoria. Por lo tanto, en este diagrama que ves en la diapositiva, más denota una reacción excitatoria y menos denota una reacción inhibitoria. Por lo tanto, las células se organizan de esta manera, donde hay una célula central, que es, que se emociona cuando un fotón cae sobre ella, y hay un conjunto de células alrededor que se suprime cuando el fotón cae sobre él. Entonces, ¿qué pasa? Recuerde, al final del día, vamos a ver esto a medida que vamos a través de esta conferencia que incluso los filtros de imagen de acceso a los ojos y esa es la razón por la que estamos hablando de ello ahora, habiendo discutido los filtros de imagen, los bordes, las características, así sucesivamente y así sucesivamente, es quizás un momento adecuado para poder relacionar lo que hemos discutido hasta ahora, a cómo suceden las cosas en el sistema visual, visual humano. Una diferencia clave entre lo que hemos estudiado hasta ahora en lo que vamos a hablar en el sistema visual humano es que el sistema visual humano hace el filtrado espaciotemporal. No solo son los filtros espaciales, lo que en gran medida es lo que hemos visto hasta ahora en este curso, sino que también lo hace filtrando con el tiempo. Hablaremos de esto un poco más de detalle en las próximas diapositivas. Antes de ir allí, como estábamos diciendo, los arreglos de células en la retina tienen componentes de elementos excitatorios e inhibitorios para ellos. Así que podría haber una célula excitatoria flanqueada por células inhibitorias en cualquier lado, así que cuando un punto de luz brilla en ese fotón o el punto de luz brilla en la célula central, así que cuando la luz está encendida, puedes ver aquí estos son sólo un conjunto de impulsos, recuerda que al final del día, el cerebro humano o estas células liberan productos químicos de picos de electricidad, como puedes ver, que son conocidos como potenciales de acción. Así, cada uno de esto es un pico y cuando la luz está encendida, parece haber una reacción excitatoria, porque la luz está en la parte excitatoria esos fotones siguen la parte excitatoria de la célula. Por otro lado, si la luz está encendida, y esa parte cae sobre la parte inhibitoria de las células, realmente se ve que no hay respuesta o picos de las células porque esas células que son inhibidoras, incluso cuando los fotones caen sobre ellas en realidad suprimen y no arrojan ningún potencial. Esta idea de inhibitoria de un excitatorio es extremadamente clave para cómo funciona nuestro sistema visual humano. (11:06) Así que hay dos tipos. El tipo anterior es donde vimos el excitatorio para estar en el medio, por lo que se llama célula fuera del centro. También tienes el conversatorio, donde tienes un offcenter y una celda en la envolvente, en cuyo caso, tienes una célula inhibidora en el medio y luego un excitatorio alrededor de él flanqueada por cualquier lado. En este caso cuando el fotón o la luz está encendido y el fotón cae en la célula media, sus potenciales de acción o sus puntas se detienen por algún tiempo esto, por lo que este conjunto particular de picos son picos que se consiguen con el tiempo. Así que la luz estaba encendida para esa duración que ves allí para que el gráfico sea una gráfica en el tiempo yendo de izquierda a derecha. Así que cuando la luz estaba encendida, se puede ver que no hay un pico que salga de esas células en particular. Mientras que, cuando en este caso cuando la luz está en la región fuera de la célula inhibitoria, esas son las células ejecutivas y realmente se puede ver que lanzan un montón de puntos diferentes. Así que esta idea de fuera de centro y en el centro donde hay células que inhiben y las células que excite son componentes importantes de cómo funciona nuestro sistema visual. (12:30) Como acabo de mencionar, el sistema visual humano es un filtro espaciotemporal. Así que hay un filtro en el sitio espacial, que en gran medida se asemeja a un detector de blob o a un Laplacian de Gaussiano en gran medida. Así que podría ser de cualquier manera. Así que usted podría tener un Laplacian de Gaussiano recordar la otra manera, que puede alcanzar su punto máximo en la otra dirección. Así que se podría mirar para gran parte, parecen montar el Laplacian de Gaussianos. Pero como acabo de mencionar, también hay filtro temporal, que actúa como este gráfico aquí. ¿Qué significa este gráfico? HWhen la luz es más alto, se obtiene la respuesta más alta. Después de eso, en realidad se obtiene una respuesta negativa antes de estabilizarse, lo que significa recordar, de nuevo, que en un sistema visual humano, es un filtro temporal espacial. Así que cuando tienes un fotón que brilla, o tienes un borde que cae sobre ti, primero vas a detectar el borde, luego por unos pocos milisegundos, la reacción va a ser lo contrario en términos de tiempo, y luego vuelvas a un estado estable. Así que eso es lo que hace el filtro temporal. ¿Dónde puedes ver que entra en vigor? ¿Por qué crees que esto sucede? Aquí hay un ejemplo para eso. (13:51) Si has visto esta ilusión óptica, que es común, ¿qué crees que ves en el centro, los puntos negros son las intersecciones, puntos negros o puntos blancos. Esto debería explicarte lo que está sucediendo en el ojo. Así que si ves un punto blanco, cuando mueves el ojo de eso, recuerda la respuesta a lo largo del tiempo es volver al otro lado y hacer que parezca un punto negro antes de recuperarte y averiguarlo es un punto blanco, y esa es la razón por la que ocurre tal ilusión es por cómo funciona el filtro temporal en el sistema visual humano. (14:30) Otro efecto que usted puede haber visto popularmente es lo que se conoce como procesamiento de color-oponente. Así que, en este caso en particular, si ves muchos de estos ejemplos, estos son también ilusiones visuales, ilusiones ópticas pero puedes, puedes haber visto esto tiene muchos otros ajustes. Cuando usted se enfoca en algunos colores muy fuertes, usted típicamente tiene una imagen negativa después. Así que te centras en el amarillo y rápidamente te movemos por ahí puedes encontrar que ser un color azul y que obtienes una imagen posterior negativa, que de nuevo corresponde al filtro temporal del que estamos hablando, donde obtienes una respuesta opuesta con el tiempo antes de estabilizarte a un equilibrio. (15:16) Como hemos mencionado, en la vía del sistema visual humano, usted también tiene un componente llamado LGN, que se encuentra en algún lugar intermedio. LGN también tiene un centro muy similar-rodea una estructura de onoff a las células de esa región en particular, lo que significa que hay un conjunto de células mientras que una célula podría ser inhibidora puede estar rodeada de células excitatorias y viceversa en esa misma región. Así que tienes combinaciones de ambos tipos de células, que juntas conducen a la percepción de la manera en que vemos las cosas. Originalmente, el LGN o el núcleo de geniculado lateral se consideró que era más un sistema de relé que toma la entrada de la retina y la pasa a la corteza visual, pero ahora se entiende que recibe una gran cantidad de comentarios de varias partes del cerebro, que también vuelven a entrar en la LGN para hacer que obtenga una imagen más holística de la escena. Así que hay otros comentarios que llegan para hacer que obtenga la percepción que realmente ve. (16:23) Así que la corteza visual o la corteza V1 se encuentra en el extremo lejano y nos deja hablar de la vía visual un poco más de detalle en las próximas diapositivas. (16:35) En la corteza visual la corteza de V1, volvemos y recordamos la historia de la visión de la computadora de la que hablamos la semana pasada, donde dijimos que había dos investigadores Hubel y Wiesel, que fueron los primeros en caracterizar los campos V1 y receptivo grabando desde un gato que ve los estímulos de una pantalla. También hablamos de que recibieron el Premio Nobel en 1981 por este trabajo. (17:02) Y una de sus mayores contribuciones fue mostrar que la corteza V1 tiene dos tipos de células, células simples que simplemente detectan barras y bordes orientados. Por ejemplo, se puede ver un detector de barras, una barra es simplemente una región blanca flanqueada por dos regiones negras o de otra manera, y un detector de bordes es el detector de bordes que ya sabemos que son células simples. Mientras que las células complejas pueden ser invariantes de posición, pero son sensibles a la orientación. Así que si usted tiene ciertas orientaciones de los bordes de las células complejas son las que recogen ese tipo de orientaciones en su estructura. (17:46) Las células corticales terminan en realidad los derivados de la computación. Recuerda, de nuevo, que el derivado espacial es sensible a la orientación para que te vayas dependiendo de cómo colocas tu filtro, vas a detectar diferentes orientaciones de bordes en tu imagen. Así que, si tuvieras tal borde en tu, en la escena que cayó sobre tus ojos, el campo del receptor espacial se vería algo así, que es un derivado en el espacio y el derivado en el tiempo, como ya dijimos, alcanzaría su punto máximo y luego caería al otro extremo y luego gradualmente irá más allá. Hasta cierto punto el derivado espacial y este derivado temporal se parecen similares, pero el derivado del tiempo o el derivado temporal conduce a ilusiones basadas en el tiempo cuando estamos mirando una imagen. (18:45) Así también, algunas de estas células corticales tienen selectividad de dirección como dijimos, las células complejas responden a orientaciones específicas, y el derivado orientado en realidad puede estar en un espacio de XT en lugar de sólo en el espacio X. Así, por ejemplo, con todos los detectores de borde que vimos hasta ahora, vimos que se podía tener un detector de borde que detecta un borde vertical, un detector de borde que detecta un borde horizontal, o un detector de borde que detecta un borde con cierta orientación. Pero debido a que el cerebro está procesando la información en tres dimensiones, X, Y, y T, usted también podría tener un borde que se está moviendo. Por ejemplo, usted podría tener un borde vertical que realmente está en movimiento que es lo que usted ve aquí. Así que tienes un borde en movimiento hacia la derecha, pero a medida que sigues moviendo el borde de izquierda a derecha, ahora tienes un cuboide del espacio X e Y y el tiempo T. Y notarías que porque con el tiempo, los bordes se mueven de izquierda a derecha. Recuerda de nuevo, que a diferencia de los casos simples que vimos, hasta ahora con filtros y máscaras, el sistema visual humano está respondiendo a estímulos que cambian con el tiempo. No es una imagen fija, sino una imagen cambiante, por lo que el ojo humano tiene que adaptarse a esos cambios en la imagen también. Así que entonces parece que sobre T, usted va a tener un borde en una dirección diferente, porque el borde está realmente moviéndose de una parte de la imagen a la otra parte de la imagen. Así que en la dimensión X, T, esta célula cortical particular terminará teniendo un borde a lo largo de esta dirección. Así que donde T viene del movimiento en una dirección, un borde X es el borde que en realidad es, recuerde que hay un borde vertical por lo que usted va a tener cambio a lo largo de la dirección X, y usted habrá cambiado a lo largo de la dirección T porque también está en movimiento. Así que un derivado orientado ahora no necesita ser sólo un espacio XY que es lo que hemos visto hasta ahora, pero puede ser en el espacio de XT espacio YT, así sucesivamente y así sucesivamente. Por lo tanto, recuerde que el concepto de un detector de borde orientado es muy diferente en el sistema visual humano, debido al concepto de tiempo. (21:13) ¿Por qué son importantes los filtros orientados? Así que incluso desde la perspectiva del sistema visual humano, la gente ha demostrado que, dadas las imágenes naturales, y digamos que teníamos que aprender filtros independientes, cuya combinación lineal sería mejor representar imágenes naturales, se puede demostrar que el conjunto óptimo de tales filtros son en realidad filtros orientados y se localizan en diferentes regiones de la imagen. Otra forma de decir esto es una imagen natural simplemente se convierte en una respuesta positiva a un banco de filtros con varias orientaciones, y cada uno de estos filtros colocados en diferentes regiones en la imagen. Esto quizás debería, conectarte a la discusión que teníamos con los bancos de filtros y las longitudes de onda de Gabor y los filtros Gabor y los filtros dirigibles, así sucesivamente y así sucesivamente. Así que incluso en ese momento mencionamos que los filtros Gabor son conocidos por ser poco similares a como el sistema visual, el sistema visual humano realiza y este debería quizás ser el contexto de por qué hicimos esa declaración. (22:20) También, en la corteza visual, el procesamiento final también tiene dos vías llamadas las vías dorsales y ventrales en la corteza visual. Así que la vía dorsal es responsable de dónde la información, de modo que parte de la escena delante de ti estás viendo lo que estás viendo y la vía ventral se corresponde con la información o qué objeto estás viendo delante de ti. Así que cada una de estas partes nos lleva a diferentes aspectos de la percepción que vemos en la escena que nos rodea. (23:02) Así que el camino de qué, así es lo que ves aquí. The What pathway va de la corteza V1 a la corteza V2 a la corteza V4 a un par de regiones llamadas TEO y TE, no vamos a entrar en esto hoy, va a haber referencias al final de esta conferencia si te gustaría saber más sobre esto, pero esas son diferentes partes del cerebro como puedes ver aquí, lo que finalmente lleva a entender lo que es el objeto. Y a medida que va de cada una de estas regiones, a medida que va de la corteza V1 a la corteza V2 a la corteza V4 a TEO y TE, cada región captura abstracciones más altas de la información que nos rodea. Recuerda de nuevo, que si las varillas y los conos y otros procesos tempranos en el sistema visual humano solo están respondiendo a los bordes y texturas tiene que haber capas posteriores en el sistema visual humano que nos hacen entender la escena que nos rodea. Tal vez una mesa, un escritorio, una pared, una botella de agua así sucesivamente. Así que la V4 obtiene mayores niveles de abstracción que el TEO obtiene una abstracción de nivel aún mayor. Y esto se pone juntos a medida que ustedes van más y más profundamente. (24:25) Por otro lado, la vía de Dónde, se va de V1 a V2 dos regiones llamadas MST, MT y lo que se conoce como la corteza parietal posterior. Por lo tanto, estas células responden a formas más y más complejas de movimiento y relaciones espaciales y es ahí donde la vía de Dónde entra en la imagen, mientras que la vía de qué manera toma diferentes características y las pone en niveles más altos de abstracción, la respuesta de la vía de Dónde a formas más complejas de movimiento y relaciones espaciales. De hecho, se demuestra que si hay daño a la corteza parietal derecha, podría conducir a una condición llamada hemi-abandono espacial donde un paciente que es considerado una discapacidad donde un paciente no puede ver un lado de sí mismo todo el tiempo. Por lo tanto, una vez más que se relaciona con la vía de Dónde. Por lo tanto, si una parte de la corteza parietal está dañada, realmente no pueden ver un lado de la escena alrededor de ellos, y el paciente se comporta como si ese campo izquierdo no existiera en absoluto. Así que ha habido algunos experimentos que se han realizado, donde la gente ha preguntado, por lo que se trata de movimientos oculares que tienen, que se rastrearon en la pantalla y se puede ver que el paciente solo se está centrando en la parte derecha de la pantalla o en otro caso en el que se le pide a un paciente que dibuje un reloj, el paciente termina dibujando solo el lado derecho del reloj y no dibuja un lado izquierdo del reloj. Estas son formas en las que esta condición es diagnosticada y la condición es conocida como hemi-abandono espacial o abandono hemo-espacial. (26:02) Así que para resumir la jerarquía de procesamiento visual, por lo que va de la retina a la LGN a la corteza V1, y de la corteza V1, hay dos vías de la vía de Dónde y la vía de Qué, donde la, Qué camino va de V1 a V2 a V4 donde V1 le da un cierto conjunto de atributos en su imagen, atributos de bajo nivel en su imagen. V2 pone las cosas juntas y consigue cosas como los bordes, las fronteras, los colores, y así sucesivamente. V4 obtiene ángulos, curvaturas, contornos cinéticos, movimiento y así sucesivamente y así sucesivamente y TEO obtiene formas simples y TE obtiene las partes del cuerpo complejas o percibe el mundo que nos rodea como lo vemos. La vía Where, usted va de V1 a V2 a MT que detecta cosas como la frecuencia espacial, la frecuencia temporal, el movimiento local y global así sucesivamente. El MST obtiene niveles aún más altos de abstracción en términos de movimiento tales como contracciones, rotaciones, traducción, flujo óptico, etc. Y por último, usted tiene integración multimodal y una mejor comprensión de la vía de Dónde y las regiones parietales. (27:15) Este conjunto fue principalmente, destinado a darle un paralelo entre lo que hemos estado discutiendo hasta ahora y el cómo el sistema visual humano percibe. Si usted está más interesado hay un buen resumen de lo que hemos discutido hasta ahora en las notas de la conferencia de Dr. Aditi Majumder en la UCI sobre la percepción visual. Y si usted está más interesado, hay muchos más enlaces en la diapositiva, que usted puede leer para entender más y las conferencias del Dr. Rajesh Rao de quien estas diapositivas fueron prestados, también está allí como uno de estos enlaces si usted quiere leer más. Aquí hay algunas referencias para que usted lea.