Loading

Alison's New App is now available on iOS and Android! Download Now

Study Reminders
Support
Text Version

Set your study reminders

We will email you at these times to remind you to study.
  • Monday

    -

    7am

    +

    Tuesday

    -

    7am

    +

    Wednesday

    -

    7am

    +

    Thursday

    -

    7am

    +

    Friday

    -

    7am

    +

    Saturday

    -

    7am

    +

    Sunday

    -

    7am

    +

En esta conferencia hablaremos de la formación de imágenes. Antes de ir allí, ¿tuvo usted la oportunidad de comprobar la respuesta para la pregunta de la trivia que teníamos la última clase? ¿Para qué se conocía Lawrence Roberts? Además de su contribución a la visión de la computadora es más conocido por ser uno de los fundadores de Internet. De hecho, fue el líder del proyecto ARPANET que fue el precursor de Internet para la organización de defensa estadounidense-DARPA. Pasemos al tema de esta conferencia. Como la mayoría de ustedes pueden conocer imágenes se forman cuando una fuente de luz nos golpea la superficie de un objeto y la luz se refleja y parte de esa luz se refleja en un plano de imagen que luego es capturado a través de la óptica en un plano sensor. Por lo tanto, esa es la información general y los factores que afectan a la formación de la imagen son la fuerza y dirección de la fuente de luz, la geometría de la superficie, el material de la superficie como su textura, así como otras superficies cercanas que, cuya luz podría reflejarse en la superficie, las propiedades de captura del sensor vamos a hablar más sobre eso a medida que vamos y la representación de la imagen y el propio espacio de color. Hablaremos de algunos de estos a medida que vayamos. (01:54) Así que, para estudiar todos estos, probablemente sería necesario estudiar esto desde la perspectiva geométrica, donde se estudian las transformaciones en 2D, las transformaciones 3D, la calibración de la cámara, la distorsión. Desde una perspectiva fotométrica donde se estudia iluminación, reflectancia, sombreado, óptica, así sucesivamente. Desde una perspectiva de color en la que se estudia la física del color, el color humano, la representación del color y desde una perspectiva de sensor que lo mira desde las percepciones humanas, el diseño de la cámara, el muestreo y el Aliasing, la compresión así sucesivamente. Por lo tanto, no cubriremos todos estos, sino que cubriremos algunos temas relevantes de estos en esta conferencia en particular. Si usted está interesado en una cobertura más detallada de estos temas por favor lea los capítulos 1 a 5 del libro de Forsyth y Ponce. (02:48) A partir de cómo la luz se refleja fuera de una superficie, la moral más típica del reflejo indica que cuando la luz golpea una superficie hay 3 reacciones simples posibles, hay más de 3 pero 3 reacciones simples para empezar. En primer lugar, se absorbe algo de luz y eso depende de un factor llamado albedo (ρ) y, por lo general, cuando se tiene una superficie con bajo albedo se absorbe más luz. Así que por eso dices que es el factor 1-ρ para la absorción. Alguna luz se refleja de manera difusa. Se dispersa en múltiples direcciones, de modo que sucede independientemente del ángulo de visión. Ejemplo de superficies donde las luces se esparce difusivamente es de ladrillo, tela, madera áspera o cualquier otro material de textura y en este escenario la ley coseno de Lambert afirma que la cantidad de luz reflejada es proporcional al coseno de ángulo desde el que se está viendo la reflexión. Y en tercer lugar algo de luz también se refleja especularmente donde la luz reflejada depende de la dirección de visión. Así, un ejemplo de una superficie donde esto sucede es un espejo donde todos sabemos que la luz reflejada sigue el mismo ángulo que la luz incidente. (04:15) Por lo general, en el mundo real la mayoría de las superficies tienen componentes tanto especulares como difusos y la intensidad que usted recibe en la salida depende también del ángulo de iluminación, porque cuando usted tiene un ángulo oblicuo, la luz inferior viene a través. Y además de la absorción, la reflexión difusa y la reflexión especular, hay otras acciones posibles como hay transparencia, donde la luz podría pasar a través de la superficie, hay refracción como un prisma donde la luz podría ser refractada allí también está la dispersión de la subsuperficie, donde múltiples capas de la superficie podrían resultar en ciertos niveles de dispersión. Y finalmente, también hay fenómenos como la fluorescencia, donde la longitud de onda de salida podría ser diferente de la longitud de onda de entrada u otros fenómenos como la fosforescencia. Un concepto importante que también se estudia aquí se llama el BRDF o la Función de Distribución Reflectancia Bidireccional que es un modelo de reflexión local que nos dice lo brillante que aparece una superficie de una dirección cuando la luz cae sobre ella desde otra dirección, otra dirección prespecificada. Y hay modelos para evaluar qué tan brillante aparece la superficie. (05:46) Así que desde un punto de vista del propio color, todos sabemos que la luz visible es 1 porción del vasto espectro electromagnético, por lo que la luz visible es una pequeña porción del vasto espectro electromagnético, por lo que sabemos que el infrarrojo cae por un lado, la ultravioleta cae del otro lado y hay muchas otras formas de luz a través del espectro electromagnético. Por lo tanto, la luz coloreada que llega a un sensor típicamente involucra dos factores, el color de la fuente de luz y el color de la superficie misma. (06:26) Por lo tanto, un desarrollo importante en la detección del color en las cámaras es lo que se conoce como la Red Bayer o el Filtro de Bayer. El Bayer Grid habla de la disposición de los filtros de color en un sensor de cámara. Por lo tanto, no todos los elementos de detección en una cámara captura los tres componentes de la luz que puede ser consciente de que normalmente representamos la luz como RGB al menos de color claro como RGB; Rojo Verde y Azul. Hablaremos un poco más sobre otras formas de representar la luz coloreada un poco más tarde, pero esta es la forma típica de representar la luz coloreada y no cada elemento de detección en la cámara captura los tres colores en cambio una persona llamada Bayer propuso este método en una forma de cuadrícula donde se tienen sensores de 50 por ciento de color verde, 25 por ciento de sensores rojos y 25 por ciento de los sensores azules que se inspira en los receptores visuales humanos. Y así es como estos sensores están a cuadros, por lo que en un dispositivo de cámara real se tendría una matriz de sensores y hay un conjunto de sensores que captura solo la luz roja, hay un conjunto de sensores que captura la luz verde, hay un conjunto de sensores que captura la luz azul y para obtener la imagen de color completa se utilizan algoritmos de desosahielo donde se utilizan los píxeles circundantes para aportar el valor del color exacto en un píxel dado. Por lo tanto, ese elemento de detección particular tendrá su propio color de que también se utilizan los elementos circundantes para saber asignar un color a ese elemento de detección en particular. Estos son conocidos como algoritmos de desosahielo. Este no es el único tipo de filtro de color. Bayer Filter es un filtro que es más popular especialmente en las cámaras de sensores individuales, pero ha habido otros tipos de filtros, otro tipo de mecanismo de clasificación de color que se han desarrollado a lo largo de los años también. Por lo tanto, también puede leer un poco más sobre esto en las entradas de Wikipedia de Bayer Filter que también habla de otros tipos de mecanismos que se utilizan. (08:41) Así que, vamos a hacer una pregunta para que usted piense, si el espectro de luces visibles es VIBGYOR o Violeta, Índigo, Azul, Verde, Amarillo, Naranja, Rojo, ¿por qué usamos una onda RGB que representa el color? Hay algo para que usted piense, nosotros la responderemos en la siguiente clase por lo menos tratar de encontrar esto usted mismo si usted puede. (09:01) Así, el conducto de detección de imágenes en una cámara sigue un diagrama de flujo como este, donde se tiene la óptica como la lente. Por supuesto la luz cae a través de eso. Tienes unos parámetros de apertura y obturación que puedes especificar o ajustar y a partir de ahí cae la luz sobre el sensor. Sensor puede ser CCD o CMOS, hablaremos de estas variantes muy pronto. Entonces hay un factor de ganancia, vamos a hablar de eso también pronto. A continuación, la imagen se obtiene en una forma analógica o digital que representa la imagen cruda que se obtiene, las cámaras típicamente no se detienen allí, entonces se utilizan algoritmos de desosahielo de los que acabamos de hablar, podríamos, se podría agudizar la imagen si te gusta o cualquier otro algoritmo de procesamiento de imágenes importantes. Un poco de equilibrio en blanco, algunos otros métodos de procesamiento de señales digitales para mejorar la calidad de la imagen y finalmente se comprime la imagen en un formato adecuado para almacenar la imagen. Por lo tanto, este es el conducto general de captura de imágenes. (10:12) Así que, intentemos volver a visitar, visitar algunos de estos componentes durante los próximos minutos. Por lo tanto, lo primero es el propio sensor de cámara para que todos ustedes deban haber oído hablar de CCD y CMOS. Esta es a menudo una decisión común a ser hecha cuando usted compra una cámara estos días un tema menor, pero días anteriores solía ser aún más. ¿Cuál es la diferencia? Por lo tanto, la principal diferencia entre CCD y CMOS es que en CCD es para el dispositivo acoplado cargado. Normalmente se genera un cargo en cada elemento de detección y luego se mueve esa carga fotogenerada, por lo que la carga generada por un fotones que llama la atención de los elementos de pixel a pixel y la convierte en un voltaje en un nodo de salida en esa columna en particular. Entonces normalmente un ADC o un convertidor analógico a digital convierte el valor de cada píxel en un valor digital. Así funcionan los sensores CCD. (11:15) Por otro lado, los sensores CMOS, los semiconductores de óxido metálico complementarios, funcionan mediante la conversión de carga a voltaje dentro de cada elemento. Por lo tanto, CCD acumula que hay CMOS convertidos en cada elemento que utiliza transistores en cada píxel para amplificar y mover la carga utilizando cables más tradicionales. Por lo tanto, la señal CMOS es digital por lo que no necesita ningún ADC en un momento posterior. Por lo tanto, hoy CMOS, originalmente las tecnologías CMOS tenían algunas limitaciones, pero hoy las tecnologías CMOS están bastante bien desarrolladas y la mayoría de las cámaras que usamos hoy en día son en realidad dispositivos CMOS o CMOS. (11:59) Por lo tanto, las muchas propiedades que usted puede ver en realidad cuando se mira, cuando se toma una imagen en una cámara. Velocidad de obturación que controla la cantidad de luz que llega a un sensor o también llamada tiempo de exposición. Paso de muestreo, que define un espaciado entre las celdas del sensor en el chip de imagen. Factor de llenado o también conocido como tamaño de área de detección activa, lo sentimos, que es la proporción del tamaño de área de detección activa con respecto al área de detección teóricamente disponible en el elemento de detección. Tamaño de chip que es el tamaño entero del área del chip en sí. Ganancia analógica que es la amplificación de la señal de detección utilizando la lógica de control de ganancia automática que no iríaa los detalles de cada uno de esto una vez más si usted está interesado usted puede leer las referencias proporcionadas al final de esta conferencia para obtener más detalles de todos ellos. Por lo general, la ganancia analógica es lo que usted controla usando su configuración ISO en su cámara, también puede tener ruido de sensor que proviene de varias fuentes en el proceso de detección. Su resolución le indica cuántos bits se especifican para cada píxel que también se decide por un módulo de conversión analógica a digital en CCD o en caso de CMOS en la detección, en los elementos de detección. Por lo tanto, lo que significa que si utiliza 8 bits para representar cada píxel, por lo que podría obtener un valor que va de 0 a 255 por cada píxel que le da la resolución de detección para ese píxel en particular, y finalmente también hay elementos de procesamiento posterior como ya mencionamos brevemente como los métodos de mejora de imagen digital utilizados antes de la compresión y el almacenamiento de la imagen capturada. (13:48) Por lo tanto, una pregunta popular que a menudo se puede preguntar aquí es, estos días los teléfonos inteligentes parecen ser tan buenos, usted tiene cámaras de alta resolución en los teléfonos inteligentes, realmente necesita lo que se conoce como cámaras réflex. Entonces, ¿qué son las cámaras réflex? La cámara réflex digital es para la cámara Digital Single Lens Reflex y la principal diferencia entre una cámara réflex digital o cualquier otro punto y cámara de rodaje o una cámara de teléfono celular es el uso de espejos. La cámara réflex utiliza un mecanismo de espejo para reflejar la luz a un buscador de vistas o también puede apagar el espejo, moviendo el espejo fuera de la manera de reflejar realmente la luz en el sensor de imagen. Por lo tanto, afectivamente la comparación aquí se hace entre las cámaras duplicadas y las cámaras sin espejo. Por lo tanto, las cámaras sin espejo como lo que ves en tus smartphones son más accesibles, portátiles, de bajo costo, mientras que cuando tienes un espejo, la calidad de la imagen tiende a ser mejor, tienes más funcionalidad posible, de nuevo no vamos a entrar en más detalles aquí, pero por favor, lea las fuentes de los enlaces dados debajo de cada diapositiva si desea saber más. Las cámaras duplicadas como las réflex digitales también le dan una variable de mecanismo de obturación física de longitud focal y apertura así sucesivamente. Esa es la razón por la que hay valor para las cámaras réflex a pesar del avance en las cámaras de teléfonos inteligentes. (15:22) Por lo tanto, los otros factores que usted necesita entender cuando usted habla de formación de imagen es el concepto de muestreo y Aliasing, vamos a hablar de esto en más detalles poco más tarde, pero una breve revisión ahora es Shannon Sampling Theorem afirma que si la frecuencia máxima de sus datos en su imagen es f_max usted debe al menos una muestra al doble de esa frecuencia. Por qué así, veremos un poco más tarde, pero por el momento esa frecuencia que usted capturó también se llama la frecuencia Nyquist y si usted tiene frecuencias acerca de la frecuencia Nyquist en su imagen entonces el fenómeno llamado Aliasing sucede. Entonces, ¿por qué es esto malo y qué impacto puede tener en la formación de imágenes? Esto a menudo puede crear problemas cuando se muestra una muestra o una muestra abajo de una imagen. Si captura una imagen en una resolución en particular, diga 256 cruz 256. Si usted elige subir muestra o abajo el ejemplo de Aliasing puede ser malo en esos ajustes, vamos a ver esto en más detalle un poco más tarde en una conferencia que vendrá en algún momento. (16:37) Además, en términos de representación de la imagen en sí hay varios espacios de colores posibles, mientras que RGB es el más común, la gente hoy utiliza varios otros tipos de espacios de color no necesariamente en una cámara, pero en otro tipo de dispositivos lo veremos. Lo mencionaré brevemente ahora. Los espacios de colores populares son RGB y CMYK, CMYK significa cian, magenta, amarillo y negro que es lo que se ve aquí. Por lo tanto, se supone que son; por lo que los colores aditivos son RGB, R, G y B; los colores subtractivos son C, M e Y la aplicación en particular donde CMYK se utiliza en la práctica está en las impresoras. Por lo tanto, sucede que es mucho más fácil controlar los colores utilizando CMYK en impresoras, puede leer más sobre estos en estos enlaces que se proporcionan a continuación. Otros espacios de color que se utilizan en la práctica son XYZ, YUV, Lab, YCbCr, HSV así sucesivamente. En realidad hay una organización llamada la CIE que establece estándares para los espacios de color porque esto es un importante, esto es realmente importante para la industria de la impresión y el escaneo, creo que esto es muy importante la gente que trabaja en ese espacio. Así que, esa es la razón por la que hay estándares establecidos para este tipo de espacios, no entraríamos en más detalles aquí una vez más si usted está interesado por favor pasar a través de estos enlaces a continuación para saber más sobre los espacios de color qué significa por aditivo, subtractivo, así que en y así sucesivamente, por favor, mire estos enlaces. (18:19) Finalmente, la última etapa en la formación de imágenes es la compresión de imágenes, porque usted tiene que almacenar la imagen que ha capturado, por lo que normalmente convierte la señal en un formulario llamado YCbCr donde Y es luminancia CbCr habla sobre cromo lo que se conoce como factor de color o la crominancia y la razón de esto es que usted por lo general trata de comprimir la luminancia con una mayor fidelidad que la crominancia. Debido a la forma en que los seres humanos o el sistema visual humano percibe la luz, la luminancia es un poco más importante que la crominancia, por lo que se asegura de que la luminancia en realidad se comprime con una mayor fidelidad, lo que significa que su reconstrucción es mejor para la luminancia que para la crominancia, por lo que es una razón por la que YCbCr se utiliza como un espacio de color popular antes del almacenamiento, una vez más si no entiende YCbCr, volver a la diapositiva anterior ver todos estos enlaces para entender YCbCr es una de las representaciones del espacio de color que están disponibles en la práctica. Y como acabo de mencionar por lo que la técnica de compresión más común que se utiliza para almacenar una imagen se llama la transformación Cosine Discream que se utiliza popularmente en estándar como MPEG y JPEG Discreate Cosine Transform es en realidad una variante de la Transformada Discreta Fourier y es un usted puede llamarlo como una aproximación razonable de una descomposición de eigen de los parches de imagen. Por lo tanto, no entraríamos en el tiempo ahora, videos así es como las imágenes se comprimen utilizando el método de llamada DCT, los videos también utilizan lo que se conoce como compensación de movimiento a nivel de bloque, por lo que también divide las imágenes en marcos y el conjunto de marcos en bloque y luego se almacenan ciertos marcos basados en conceptos de la compensación de movimiento, esto se utiliza típicamente en el estándar MPEG que utiliza, que divide todos los marcos en lo que se conoce como cuadros i, marcos p y marcos b y luego utiliza estrategias para decidir cómo debe codificarse cada cuadro, es decir, cómo se comprimen los vídeos. Y la calidad de compresión finalmente se mide a través de una métrica llamada PSNR, disculpas por el error tipográfico, se arreglará antes de que se suban las diapositivas, lo que significa "Peak Signal to Noise Ratio", lo siento por estos typos. PSNR se define como 10log10 I max 2 MSE, donde i_max es la intensidad máxima y MSE simplemente habla del error cuadrático medio entre la imagen original y la imagen comprimida, cuánto es el error de cuadriculado medio entre estas dos imágenes. Y el numerador habla de la intensidad máxima que se puede tener en una imagen, por lo que esto se llama típicamente como PSNR que se utiliza para medir la calidad de la compresión de imagen, hay otros tipos de matriz que se basan en la percepción humana, pero esta es la métrica estadística más popular que se utiliza. Es decir acerca de esta conferencia sobre la formación de imágenes así que si necesita leer más por favor lea el capítulo 2 del libro de Szeliski, por favor lea también los enlaces proporcionados en algunas de las diapositivas especialmente uno de esos temas que le interesan o le quedan algunas preguntas por favor lea esos enlaces. Si quieres saber con más detalle cómo se capturan las imágenes incluyendo los aspectos geométricos de la misma y el aspecto fotométrico de la misma, por favor lee los capítulos 1 a 5 de Forsyth y Ponce.