Loading

Alison's New App is now available on iOS and Android! Download Now

Study Reminders
Support
Text Version

Set your study reminders

We will email you at these times to remind you to study.
  • Monday

    -

    7am

    +

    Tuesday

    -

    7am

    +

    Wednesday

    -

    7am

    +

    Thursday

    -

    7am

    +

    Friday

    -

    7am

    +

    Saturday

    -

    7am

    +

    Sunday

    -

    7am

    +

Vamos a revisar la historia de la visión de la computadora en las últimas décadas sólo para dar una perspectiva de dónde comenzó el campo y cómo se ha desarrollado en las últimas décadas. Por lo tanto, esta conferencia está estructurada en cuatro partes. Describiremos brevemente las incursiones iniciales en el campo en los años cincuenta, sesenta y setenta. Entonces hablaremos de que nos permite que contribuimos a la comprensión de las imágenes de bajo nivel en los años 80 en gran medida, entonces vamos a llegar a un alto nivel de comprensión de la comunidad en los años 90 y 2000 y, por supuesto, entonces cubriremos una breve historia de aprendizaje profundo en la última década más o menos. (1:01) Para empezar con una exención de responsabilidad, esto va a ser un historial del campo como se captura de múltiples fuentes: el libro de Szeliski, así como muchas otras fuentes que se mencionan en cada una de las diapositivas. Puede ser una historia ligeramente sesgada desde múltiples perspectivas: 1) tal vez de la manera en que lo he visto y he visto que es importante por favor desnudo con ese sesgo personal. 2) También puede ser parcial a los temas que cubrimos en el curso, puede no cubrir la visión basada en la física, la visión basada en la geometría en demasiado detalle. Una vez más les remito a esos libros de los que os hablábamos en la conferencia anterior si queréis conocerlos con más detalle. También hay una ligera predisposición a trabajar en torno a las imágenes, más que los vídeos pero aún así esperemos que este toboganes te dé una perspectiva del campo y de cómo se ha evolucionado a lo largo de las últimas décadas. (1:53) La historia más temprana de la visión de la computadora fue la vuelta en los años 50 cuando dos investigadores David Hubel y Torsten Wiesel publicaron su trabajo llamado " Campos receptivos de las neuronas solteras en el cortex" del gato. Así, realizaron múltiples experimentos para entender cómo funciona la corteza de visión de mamífero y se llevaron un gato y hicieron muchos experimentos al respecto pero insertaron electrones en un gato sedado y luego trataron de ver cómo se disparan las neuronas del gato con respecto a los estímulos visuales presentados al gato. Por cierto durante mucho tiempo mucho tiempo, no pudieron avanzar y accidentalmente encontraron que el fuego de la neurona del gato cuando cambiaron de diapositivas en el proyector delante del gato. Inicialmente estaban perplejos, pero luego se dieron cuenta y esa fue una de sus proposiciones que los bordes creados en la pantalla por la diapositiva que se insertó en el proyector fue lo que disparó una neurona en el gato. Uno de los resultados de sus primeros experimentos fue que la neurona simple y compleja existe en la corteza visual de los mamíferos y que el procesamiento visual comienza con estructuras simples como bordes orientados. De hecho, Hubel y Wiesel hicieron muchos más experimentos en las próximas dos décadas. En realidad ganaron el Premio Nobel en 1981 por su trabajo en la comprensión de la corteza visual de los mamíferos. Por lo tanto, este es uno de los primeros esfuerzos en la visión de la computadora. (3:35) En el mismo año en 1959, también había otro desarrollo importante, que era por Russell Kirsch y sus colegas eran por primera vez que representaban una imagen como un conjunto de 1s y 0s. Por lo tanto, representar una imagen como una rejilla de números es un logro enorme que es algo que heredamos hasta hoy y de hecho la primera imagen tomada fue del hijo infantil de Russell que era de 5 centímetros por 5 centímetros de foto. Alrededor de 176 matriz cruzada de 176 que se capturó en ese momento en particular. Esto es considerado como un logro tan grande en el campo de la visión, que esta foto en particular todavía se conserva en el Museo de Arte de Portland en los Estados Unidos. (4:24) Entonces en 1963, hubo un desarrollo significativo por parte de una persona llamada Lawrence Roberts y escribió una tesis de doctorado sobre "La percepción de la máquina de 3 sólidos dimensionales". La tesis de doctorado de hecho está hipervinculada en esta diapositiva en particular. Por lo tanto, por favor, eche un vistazo si usted está interesado. Pero creo que esta tesis tenía algunas ideas incluso más allá de sus tiempos en ese momento. Por lo tanto, la tesis discutida por Roberts habló sobre la extracción de información 3D sobre objetos sólidos a partir de fotografías en 2D de dibujos de líneas. Por lo tanto, si se recuerda lo que hablamos en la conferencia anterior, dijimos que el objetivo de la visión de ordenador es entender el mundo 3D que nos rodea de unas imágenes en 2D que obtenemos o los vídeos en 2D que obtenemos. En cierta medida esto es lo que se habló de regreso en esa tesis de doctorado a principios de los años 60. Por lo tanto, la tesis discutió temas como las transformaciones de las cámaras, los efectos de perspectiva, las reglas y las suposiciones de la percepción de la profundidad así sucesivamente. Curiosamente, Lawrence Roberts pasó de este tema y en realidad es más famoso por algún otro gran desarrollo que todos nosotros le debemos. Así que, voy a dejar eso como un cuestionario trivial para que lo enteres. Hablaremos de eso en la próxima clase. Pero tratar de averiguar de qué se sabe Lawrence Roberts y la pista es que no es para nada en la visión de la computadora, pero es un enorme desarrollo tecnológico que todos nosotros hoy le debemos. Echarle un vistazo y tratar de encontrarlo antes de la próxima conferencia. (6:06) Posteriormente en 1966, uno de los primeros esfuerzos en tratar de llegar a los sistemas para la visión de la computadora que sucedió en el MIT en 1966 por Papert y Sussman que decidieron que podían utilizar un montón de sus pasantes de verano para desarrollar un final al sistema final para la visión de la computadora. Pensaron que podían tomar unos pocos pasantes de verano y desarrollar una plataforma para segmentar automáticamente el primer plano y el fondo y extraer objetos no superpuestos de imágenes del mundo real y esto es algo que pensaron que podían lograr dentro de un verano. Por lo tanto, esto fue en realidad una nota que fue escrita por Papert en ese momento. Obviamente, usted y yo sabemos ahora que el proyecto no prosperó más bien el proyecto abrió investigadores al hecho de que este era un problema muy profundo y no era algo que se pudiera resolver en 2-3 meses y todavía sabemos que este problema, ciertos aspectos del mismo se resuelven pero muchos otros aspectos siguen sin resolverse. (7:13) Entonces los años pasaron y principios de la década de 1970, también había obras que trataban de estudiar cómo las líneas podían ser etiquetadas en una imagen como decir, convexa, cóncava u ocluida o cosas de ese tipo. Así que, ese fue uno de los esfuerzos de Huffman y Clowes a principios de los años 70. (7:35) Y en 1973 vino un enfoque importante llamado las Estructuras Pictoriales de Fischer y Elschlager que se reinventó de nuevo a principios de la década de 2000, hablaré de eso un poco más tarde. Pero de lo que hablaban había, querían que dada la descripción de un objeto visual que alguien debería ser capaz de encontrar el objeto en una fotografía. Por lo tanto, la parte de la solución era definir un objeto como una combinación de componentes individuales y las conexiones entre esos componentes. Y propusieron una solución que en primer lugar una especialización de un esquema descriptivo de un objeto como dije en términos de partes individuales y conexiones entre partes. Pero también definieron una métrica sobre la cual se podría basar la decisión de bondad de emparejamiento o detección basado en dicho esquema descriptivo. Este es un desarrollo significativo en este momento y muchos de los modelos que se desarrollaron en 2000 heredaron este enfoque del problema. (8:39) Entonces entre 1971 y 1978, hubo muchos esfuerzos que fueron intentados por los investigadores y ese período fue también conocido como el "Invierno de la IA". Pero en ese momento muchos esfuerzos en el reconocimiento de objetos usando el entendimiento de la forma, en algún sentido tratando de imaginar objetos como suma de partes. Las partes podrían ser cilindros, las partes podrían ser diferentes tipos de partes esqueléticas o esqueléticas fue un esfuerzo importante en eso en ese tiempo. Por lo tanto, cilindros generalizados, esqueletos en cilindros fueron todos los esfuerzos en ese momento en particular. Y es importante, también hubo el primer curso de visión artificial del mundo ofrecido por el laboratorio de IA del MIT en ese tiempo en la década de 1970. Así que, hablaré de las aplicaciones más adelante, pero en la década de 1970, también se desarrolló uno de los primeros productos de la visión informática que era el reconocimiento de carácter óptico que fue desarrollado por Ray Kurzweil que consideró un visionario para el campo de la IA y esto fue en los años 70 otra vez. (9:42) Entonces entre 1979 y 1982 fue una vez más un acontecimiento histórico para la visión de la computadora. David Marr que es la investigación se sigue hasta este, hasta hoy. Y de hecho, la conferencia ICCV, la Conferencia Internacional en Computer Vision en realidad da un premio que lleva el nombre de David Marr por logros históricos en la visión de la computadora. Por lo tanto, David Marr propuso un marco bastante importante en su libro llamado "Visión de investigación computacional sobre la representación humana y el procesamiento de información visual". En primer lugar, estableció que la visión es jerárquica y que también introdujo un marco eran algoritmos de bajo nivel que detectan bordes, curvas, esquinas se utilizan entonces para alimentar a un alto nivel de comprensión de los datos visuales. En particular, su marco representacional primero tenía un bosquejo primario de una imagen donde se tienen bordes, barras, límites, etc. Luego tienes una representación de bosquejo de 2 y medio D donde las superficies de información sobre la profundidad, las discontinuidades están todas unidas. Y por último un modelo 3D que se organiza jerárquicamente en términos de primitivos superficiales y volumétricos. Por lo tanto, a alguna extensión se podría decir que esto también se asemeja a cómo un cerebro humano percibe información pero hablaremos de eso un poco más tarde. Pero este fue el marco de representación de Marr que llevó a una gran cantidad de investigación en años y décadas posteriores. (11:19) En el mismo período alrededor del tiempo de 80-81, también hubo un desarrollo significativo por parte de Kunihiko Fukushima llamado Neocognitron, que en realidad es el precursor de las redes neuronales convolucionales el día que vemos hoy. Creo que fue un desarrollo significativo para el tiempo y Fukushima introdujo una red artificial auto-organización de células simples y complejas para reconocer patrones, De hecho, usted puede llamar a esto la ConvNet original. También se habló de las capas convolucionales con los vectores de peso que también se llaman filtros hoy en día. Esa fue una de las primeras versiones de redes neuronales convolucionales que se utilizan hasta el día de hoy. (12:00) Así, que fueron los años iniciales y ahora hablaremos de algunos desarrollos en la comprensión a bajo nivel de las imágenes que ocurren en gran medida en los años 80. Por lo tanto, es posible que no cubramos todos los métodos, pero al menos algunos de los más importantes a medida que vayamos avanzando. (12:17) Así, en 1981, hubo un método muy popular llamado Flujo óptico que fue desarrollado por Horn y Schunck y la idea de este método era entender y estimar la dirección y velocidad es un objeto en movimiento a través de dos imágenes capturadas en una línea de tiempo. Por lo tanto, para el objeto movido de la posición A a la posición B, entonces cuál era la velocidad de ese objeto a través de las dos imágenes. Por lo tanto, el flujo fue formulado como una energía global funcional que fue minimizada y la solución es la solución se obtuvo. Y este es el método que fue ampliamente utilizado durante muchas décadas, especialmente para la comprensión de video. Y creo que todavía se utiliza en ciertas aplicaciones como por ejemplo, compresión, compresión de vídeo u otras aplicaciones de comprensión de vídeo. (13:12) En 1986 vino el Detector de Canny Edge que fue un desarrollo significativo para la Detección de Edge. John Canny propuso un operador de detección de bordes multietapas que también se conoce como una teoría computacional de detección de bordes. Utiliza el cálculo de una variación para encontrar la función que optimiza un determinado funcional. Fue un método de principio muy bien definido, sencillo de implementar y se hizo muy popular para la detección de bordes. Por lo tanto, fue ampliamente utilizado durante muchos años para detectar los bordes probablemente hasta este día en ciertas industrias. (13:47) En 1987, también hubo el reconocimiento por parte de la teoría de los componentes propuesta por Biederman, que era un proceso de abajo hacia arriba para explicar el reconocimiento de objetos donde el objeto estaba constituido en términos de partes que fueron etiquetadas como las geons, las geons simplemente significaron tres formas dimensionales básicas de tres dimensiones tales como cilindros, conos y así sucesivamente como se puede ver en algunas de estas imágenes aquí que fueron ensambladas para formar un objeto. De nuevo esta era una teoría del reconocimiento visual para ver si podíamos reconocer objetos en términos de sus partes. (14:26) En 1988, llegó lo que se conoce como Snakes o modelos de contorno activo que ayudaron a delinear un contorno de objeto de una imagen 2D potencialmente ruidosa. Fue ampliamente utilizado en aplicaciones como seguimiento, reconocimiento de forma, segmentación, detección de bordes, etc. (14:48) En 1989, fue la primera versión de la propagación de la espalda para las redes neuronales convolucionales. Por lo tanto, no es necesariamente de bajo nivel de comprensión visual, pero creo que ocurrió en los años 80 y por eso estoy hablando de ello aquí y se aplicó a un reconocimiento de dígitos por escrito de la mano, ya que hablaremos de muy pronto. (15:08) Otras cosas que ocurrieron en los años 80 donde el desarrollo de la imagen pirámides representación de la imagen y múltiples escalas, el procesamiento del espacio a escala, el procesamiento de una imagen a diferentes escalas, wavelets que es el desarrollo histórico en ese momento. Forma-de-X que es forma de sombreado, forma de enfoque, forma de silueta, básicamente tratar de obtener forma de varios aspectos de la formación de imágenes. Métodos de optimización variacional, Markov Random field, todos estos fueron desarrollados en la década de 1980. (15:41) Entonces vino la década de 1990 donde la comunidad entró en un nivel superior de comprensión más allá de artefactos de bajo nivel tales bordes o esquinas o así sucesivamente y así sucesivamente. (15:53) Comenzó con Eigenfaces para el reconocimiento de la cara que usó una variante de la descomposición de Eigen para hacer el reconocimiento de la cara. Ocurrió en 1991, que tuvo éxito para el reconocimiento de la cara al menos en la configuración de restricciones. También hubo teorías computacionales de detección de objetos por parte de Edelman que fue propuesta en 1997. Luego vino la agrupación Perceptual y los cortes Normalizados que fue un paso histórico para los métodos de segmentación de imágenes que vinieron en 1997. Llegaron filtros de partículas y cambio medio en 1998, Escala Invariante de Característica Transform. Hablaremos de algunos de estos métodos en detalle que fue un importante detector de puntos clave de imagen y método de representación que se desarrolló a finales de los años 90 a principios de la década de 2000. Luego la detección de la cara de Viola-Jones, otra vez que llegó a principios de la década de 2000. Campos aleatorios condicionales que era una mejora sobre los campos Random de Markov. A continuación, las estructuras pictóricas, el método propuesto en 1973 fue revisitado en 2005 para desarrollarse, se presentaron con un enfoque estadístico mejorado para poder estimar las partes individuales y sus conexiones entre las partes que se llamó estructuras pictóricas en ese momento y en realidad mostraron que eso podría funcionar en la práctica y dar un buen rendimiento para la comparación de imágenes. PASCAL VOC que es un conjunto de datos que es popular para este día en realidad comenzó en 2005 y alrededor de ese tiempo entre 2005 y 2007, un montón de métodos para el reconocimiento de escena, reconocimiento de panorama, reconocimiento de ubicación también creció en ese momento. Los modelos de constelación que eran modelos de generadores probabilísticos basados en parte también crecieron en ese momento para poder volver a reconocer los objetos en términos de partes y cómo las partes fueron juntas en el todo. Y los modelos de piezas deformables, un enfoque muy popular creo que considerado uno de los grandes desarrollos de la primera década del 2000 del siglo XXI llegó en 2009. (18:10) Y desde entonces, por supuesto, los grandes acontecimientos han sido el aprendizaje profundo. Por lo tanto, vamos a revisarlas brevemente también. (18:17) En 2010, el conjunto de datos de ImageNet se desarrolló y el objetivo del conjunto de datos era que, hasta entonces, una gran cantidad de desarrollos en la visión de la computadora se basaban en conjuntos de datos de escala de laboratorio, por supuesto, el conjunto de datos de PASCAL VOC cambió esto hasta cierto punto en 2005 y 2006. Pero muchos otros desarrollos se basaron en conjuntos de datos de escala de laboratorios que se desarrollaron en varios laboratorios de todo el mundo y no dio una forma estándar de comparar métodos y compararlos a través de una plataforma unificada, a través del conjunto de datos unificado. Y ese es el propósito ImageNet ordenar para lograr ese tiempo en particular. Así que, 2010 fue cuando ImageNet llegó y 2012 fue un punto de inflexión para el aprendizaje profundo como muchos de ustedes pueden ser conscientes, AlexNet ganó el desafío de ImageNet hasta entonces todos los modelos que ganaron ImageNet hasta 2012 eran lo que quiero decir son los modelos poco profundos. Por lo tanto, usted extrajo algunas características de las imágenes y luego utilizó modelos de Machine Learning como máquinas vectoriales de apoyo para poder hacer el reconocimiento de objetos. Así, en 2012 AlexNet entró en escena y fue la primera red neuronal convolucional que ganó el desafío de ImageNet y fue un logro significativo porque tomó la precisión en el desafío de ImageNet por una cantidad significativa más allá de los años anteriores mejores intérpretes. Hablaremos de los números y todos estos detalles cuando lleguemos a este punto en el curso. (19:51) Entonces en 2013 vino una variante de una red neuronal convolucional llamada ZFNet significa Zeiler y Fergus, ganó el desafío de ImageNet. Entonces también las regiones CNNs o R-CNNs se desarrollaron por primera vez en 2013 para la tarea de detección de objetos y la gente también empezó a invertir esfuerzos en tratar de entender cómo funcionan los CNNs. (20:17) En 2014, llegaron los modelos InceptionNet y VGG. Las estimaciones de la pose humana fueron desarrolladas por lo que, CNN comenzó a ser utilizado para otras tareas más allá de sólo el reconocimiento de objetos, los modelos generativos profundos tales como las redes Generative Adversarial GANs y Variational Auto Encoders VAEs también fueron desarrollados en 2014. En 2015, las redes Residuales o ResNets llegaron y CNNs igualó el rendimiento humano en ImageNet. Fue de nuevo un logro histórico. (20:53) 2015 también vio redes de segmentación que entraron en escena. Las redes totalmente convolucionales SegNet y U-Net se desarrollaron en 2015 para la tarea de segmentación semántica o etiquetado de cada píxel en una imagen con una etiqueta de clase particular. El conjunto de datos de COCO también comenzó a aparecer en ese momento y también el primer conjunto de datos de respuesta de preguntas visuales VQA se desarrolló realmente en 2015. En 2016, moviéndose más allá de CNNs con base en la región para la detección de objetos, se desarrollaron métodos de una sola etapa como You Only Look Once y Single Short Detector, YOLO y SSD. El conjunto de datos de Cityscapes llegó, el conjunto de datos del genoma visual llegó y 2017 fue el inicio de un mayor nivel de abstracción en la comprensión de imágenes que es la generación de gráficos de escena. Dada una imagen, ¿cómo entender cuál es el gráfico de escena? Una persona sentada en un caballo o un hombre que va en una bicicleta de motor, así sucesivamente y así sucesivamente. Y en 2018 y 19, niveles más altos de abstracción como el conjunto de datos de razonamiento visual de sentido común donde tratamos de ver si no solo damos una respuesta a una pregunta sobre una imagen sino que también podemos dar un racional a esa respuesta y tarea como que se ha desarrollado la Segmentación Panóptica. Así que, como se puede ver este viaje se ha centrado en pasar de la comprensión de la imagen de bajo nivel a las abstracciones más altas y más altas del mundo que vemos a nuestro alrededor a partir de las imágenes. (22:34) Desde un punto de vista de la aplicación, no vamos a caminar a través de cada aplicación, sino a un alto nivel, en los años 70 como ya he mencionado, uno de los primeros productos que fue desarrollado fue el Reconocimiento óptico de caracteres por Kurzweil Technologies por Ray Kurzweil. Ese fue uno de los primeros éxitos de la visión de la computadora que se puede decir. En la década de 1980, la mayoría de los desarrollos de la industria fueron en visión artificial que instaló cámaras en varias configuraciones de fabricación o ajustes industriales. Probablemente encontrando defectos en el procesamiento de chips por ejemplo o incluso en cámaras inteligentes, donde algunos de estos algoritmos como la detección de bordes y así sucesivamente y así sucesivamente se incrustaron como parte de la fabricación de cámaras en sí que creo que se conoce como cámaras inteligentes, que creo que es un campo que es importante incluso hoy en día. En la década de 1990, lentamente las aplicaciones de la visión comenzaron a crecer, la visión de la máquina en los entornos de fabricación continuó creciendo, la biometría o el reconocimiento de las personas de las imágenes podrían ser de la marcha, podría ser de la cara, podría ser del iris, podría ser de los gestos, todos ellos comenzaron a crecer. Las imágenes médicas comenzaron a ser importantes. Dispositivos de grabación, videovigilancia, todos ellos empezaron a crecer en los 90. En 2000, más de todo esto, mejor imagen médica, detección de objetos y rostros, navegación autónoma iniciada a mediados de la década de 2000, Google Goggles, visión de redes sociales, todo eso iniciado en 2000. Y en 2010s, ni siquiera voy a tratar de enumerar las aplicaciones, creo que se cultiva hasta un punto en el que las aplicaciones de visión están en varios dominios a nuestro alrededor. (24:25) Con suerte, eso te dio una breve perspectiva de la historia de la visión de la computadora en las últimas décadas. Le recomendaría leer el capítulo 1 de Szeliskis en este momento y también leer algunos de estos enlaces que se han compartido como parte de estas diapositivas, cada diapositiva tenía una nota a pie de página de donde se tomó la información. Por lo tanto, pasar por algunas de estas diapositivas, crecer a través de los enlaces, usted será capaz de entender cómo algunos de estos temas crecieron en áreas específicas en esos enlaces. Vamos a parar aquí por ahora y continuar con el próximo tema muy pronto. Aquí hay algunas referencias si te gusta echar un vistazo.