Loading

Alison's New App is now available on iOS and Android! Download Now

Study Reminders
Support
Text Version

Set your study reminders

We will email you at these times to remind you to study.
  • Monday

    -

    7am

    +

    Tuesday

    -

    7am

    +

    Wednesday

    -

    7am

    +

    Thursday

    -

    7am

    +

    Friday

    -

    7am

    +

    Saturday

    -

    7am

    +

    Sunday

    -

    7am

    +

Au cours des dernières décennies, nous réviserons l'histoire de la vision informatique pour donner une perspective de l'évolution du domaine et de son évolution au cours des dernières décennies. Donc, cette conférence est structurée en quatre parties. Nous décrirons brièvement les prémations initiales dans le domaine dans les années cinquante, soixante et soixante-dix. Ensuite, nous parlerons des accords qui ont contribué à une meilleure compréhension des images dans les années 80 en grande partie, puis nous allons à un niveau élevé de compréhension de la communauté a pris dans les années 90 et 2000 et, bien sûr, nous couvrons ensuite une brève histoire de l'apprentissage profond au cours de la dernière décennie. (1:01) Pour commencer par un avertissement, il s'agit d'une histoire de la zone telle qu'elle est capturée à partir de sources multiples: le livre de Szeliski ainsi que de nombreuses autres sources qui sont mentionnées sur chacune des diapositives. Il peut s'agir d'une histoire légèrement biaisée par rapport à plusieurs points de vue: 1) peut-être comme je l'ai vu et je l'ai vu comme étant important, s'il vous plaît, avec ce biais personnel. 2) Il peut aussi être biaisé sur les sujets que nous couvrons dans le cours, ne couvre pas la vision basée sur la physique, la vision à géométrie trop détaillée. Encore une fois, je vous renvoie à ces livres dont nous avons parlé lors de la conférence précédente si vous voulez les connaître plus en détail. Il y a aussi une légère prédisposition à travailler autour des images, plus ces vidéos mais j'espère que ces diapositives vous donnent une perspective du terrain et comment elle a évolué au cours des dernières décennies. (1:53) L'histoire la plus ancienne de la vision de l'ordinateur remonte aux années 50, lorsque deux chercheurs, David Hubel et Torsten Wiesel, ont publié leur travail intitulé "Les champs Réceptifs des neurones uniques dans le cortex strié du chat". Donc, ils ont mené de multiples expériences pour comprendre comment le cortex visuel des mammifères fonctionne et ils ont pris un chat et ils ont fait de nombreuses expériences à cet égard, mais ils ont inséré des électrons dans un chat sédaté et ont ensuite essayé de voir comment les neurones du chat se sont mis en feu par rapport aux stimuli visuels présentés au chat. Accessoirement pour une longue période de temps, ils n'ont pas pu faire de la tête et accidentellement ils ont trouvé que le neuro-feu du chat quand ils ont allumé des lames dans le projecteur en face du chat. Ils étaient initialement perplexes, mais ils se sont aperçus plus tard et c'était l'une de leurs propositions que les bords créés sur l'écran par la diapo qui a été insérée dans le projecteur était ce qui a tiré un neurone dans le chat. L'un des résultats de leurs premières expériences a été que le neuron simple et complexe existe dans le cortex visuel des mammifères et que le traitement visuel commence par des structures simples telles que des arêtes orientées. En fait, Hubel et Wiesel ont fait de nombreuses autres expériences au cours des deux prochaines décennies. Ils ont obtenu le prix Nobel en 1981 pour leur travail dans la compréhension du cortex visuel des mammifères. Donc, c'est l'un des premiers efforts de la vision informatique. (3:35) Dans la même année en 1959, il y avait en fait un autre développement majeur, celui de Russell Kirsch et de ses collègues pour la première fois ils représentaient une image comme un ensemble de 1s et de 0s. Donc, représenter une image comme une grille numérique est une grande réalisation qui est quelque chose dont nous héritons jusqu'à aujourd'hui et en fait la première image prise était celle du fils de Russell, qui était une photo de 5 centimètres de 5 centimètres. Environ 176 tableaux croisés 176 qui ont été capturés à ce moment précis. Ceci est considéré comme une réalisation si grande dans le domaine de la vision, que cette photo particulière est encore conservée au Portland Art Museum aux États-Unis. (4:24) Puis en 1963, il y a eu un développement significatif par une personne appelée Lawrence Roberts et il a écrit une thèse de doctorat sur la " Perception de la machine de 3 Solides Dimensionnels. La thèse de doctorat est en fait hyperliée sur cette diapositive en particulier. Alors, s'il vous plaît, regardez ça si vous êtes intéressé. Mais je pense que cette thèse avait quelques idées même au-delà de son époque. Ainsi, la thèse discutée par Roberts a parlé d'extraire des informations 3D sur des objets solides à partir de photographies 2D de dessins en ligne. Donc, si vous vous souvenez de ce que nous avons parlé lors de la conférence précédente, nous avons dit que l'objectif de la vision informatique est de comprendre le monde 3D autour de nous à partir d'images 2D que nous obtenons ou des vidéos 2D que nous obtenons. Dans une certaine mesure, c'est ce qui a été dit dans cette thèse au début des années 60. Ainsi, la thèse a abordé des questions telles que les transformations de caméra, les effets de perspective, les règles et les hypothèses de la perception de profondeur ainsi de suite. Il est intéressant de noter que Lawrence Roberts s'est ému de ce sujet et qu'il est en fait plus célèbre pour un autre grand développement que nous lui devons tous. Donc, je vais laisser ça comme un jeu de quiz pour vous. Nous en parlerons dans la prochaine classe. Mais essayer de découvrir ce que Lawrence Roberts est connu et le soupçon c'est que ce n'est pas pour rien dans la vision informatique, mais c'est un énorme développement technologique que nous devons tous aujourd'hui à nous tous. Jetez un coup d'œil et essayez de le trouver avant la conférence suivante. (6:06) Par la suite, en 1966, l'un des premiers efforts pour essayer de mettre en place des systèmes de vision informatique qui se sont produits au MIT en 1966 par Papert et Sussman qui ont décidé qu'ils pouvaient utiliser une bande de leurs stagiaires d'été pour mettre au point un système de bout en bout pour la vision par ordinateur. Ils pensaient qu'ils pouvaient prendre quelques stagiaires d'été et développer une plateforme pour segoccuper automatiquement le premier plan et l'arrière-plan et extraire des objets qui ne se chevauchaient pas à partir d'images du monde réel et c'est quelque chose qu'ils pensaient pouvoir réaliser en un été. Donc, c'était en fait une note qui a été écrite par Papert à ce moment-là. De toute évidence, vous et moi savons maintenant que le projet n'a pas réussi plutôt que le projet a ouvert des chercheurs au fait qu'il s'agissait d'un problème très profond et que ce n'était pas quelque chose qui pouvait être résolu en 2-3 mois et nous savons encore que ce problème, certains aspects de celui-ci sont résolus, mais beaucoup d'autres aspects restent encore non résolus. (7:13) Puis les années sont allées et au début des années 70, il y avait aussi des gens qui essayaient d'étudier comment les lignes pouvaient être étiquettées dans une image comme disent, convexes, concaves ou occludés ou des choses de ce genre. C'était donc l'un des efforts de Huffman et Clowes au début des années 70. (7:35) Et en 1973 est venu une approche importante appelée les structures picturales de Fischer et Elschlager qui a été réinventée au début des années 2000, j'en parlerai un peu plus tard. Mais ce qu'ils ont dit, c'est qu'ils voulaient que, compte tenu de la description d'un objet visuel, quelqu'un puisse trouver l'objet dans une photographie. Donc, la partie de la solution était de définir un objet comme une combinaison de composants individuels et les connexions entre ces composants. Et ils ont proposé une solution qui, premièrement, est une spécialisation d'un schéma descriptif d'un objet comme je l'ai dit en termes de parties individuelles et de connexions entre les parties. Mais ils ont également défini une mesure sur laquelle on pourrait fonder la décision de bonté de mise en correspondance ou de détection fondée sur un tel schéma descriptif. Il s'agit d'un développement important à ce moment-là et de nombreux modèles développés dans les années 2000 ont hérité de cette approche du problème. (8:39) Entre 1971 et 1978, beaucoup d'efforts ont été tenté par les chercheurs et cette période est aussi connue sous le nom de "Winter of AI". Mais à cette époque, beaucoup d'efforts sur la reconnaissance des objets à l'aide de la compréhension de la forme, en quelque sorte à essayer d'envisager des objets comme la sommation des parties. Les parties pouvaient être des cylindres, les parties pouvaient être des types différents de squelette ou le squelette était un effort important en ce temps. Ainsi, les cylindres généralisés, les squelettes en cylindres étaient tous des efforts à ce moment précis. Et surtout, il y avait aussi le premier cours de vision de machine du monde offert par le laboratoire d'IA du MIT à cette époque dans les années 1970. Donc, je parlerai des applications plus tard, mais dans les années 70, un des premiers produits de la vision par ordinateur a été développé qui était la reconnaissance optique des caractères qui a été développée par Ray Kurzweil qui a considéré un visionnaire pour le domaine de l'IA et c'était encore dans les années 70. (9:42) Puis entre 1979 et 1982 fut à nouveau un point de repère pour la vision de l'ordinateur. David Marr qui est chercheur est suivi jusqu'à ce jour, jusqu'à aujourd'hui. Et en fait, la conférence ICCV, la Conférence internationale sur la vision de l'ordinateur donne en fait un prix nommé d'après David Marr pour des réalisations remarquables dans la vision informatique. David Marr a donc proposé un cadre assez important dans son livre intitulé "Vision computational investigation into the human representation and processing of visual information". Tout d'abord, il a établi que la vision est hiérarchique et qu'il a également introduit un cadre qui était des algorithmes de bas niveau qui détectaient les arêtes, les courbes, les coins sont ensuite utilisés pour alimenter une compréhension de haut niveau des données visuelles. En particulier, son cadre de représentation a d'abord eu une esquisse d'une image où vous avez des bords, des barres, des limites, etc. Ensuite, vous avez une représentation de l'esquisse D 2 et demi où les surfaces fournissent des informations sur la profondeur, les discontinuités sont toutes pioties ensemble. Et enfin un modèle 3D qui est hiérarchiquement organisé en termes de primitives de surface et de volumétrie. Donc, pour certains, vous pourriez dire que cela ressemble aussi à la façon dont un cerveau humain perçoit l'information, mais nous en parlerons un peu plus tard. Mais c'est le cadre de représentation de Marr qui a conduit à beaucoup de recherches dans les années et les décennies suivantes. (11:19) Dans la même période autour des 80-81, il y a eu aussi un développement significatif de Kunihiko Fukushima appelé le Neocognitron qui est en fait le précurseur des réseaux neuronaux convolutionnaires le jour que nous voyons aujourd'hui. Je pense que c'était un développement significatif pour le temps et Fukushima a introduit un réseau artificiel auto-organisé de cellules simples et complexes pour reconnaître les modèles, En fait, vous pouvez appeler cela le ConvNet original. Il a également parlé des couches coniques avec des vecteurs de poids qui sont aussi appelés filtres aujourd'hui. C'était l'une des premières versions des réseaux neuronaux convolutionnaires qui sont utilisés jusqu'à ce jour. (12:00) Donc, A été les premières années et maintenant nous allons parler de quelques développements dans la compréhension de bas niveau des images qui se produisent dans une large mesure dans les années 80. Il se peut donc que nous ne couvrons pas toutes les méthodes, mais au moins quelques-unes des méthodes importantes au fur et à mesure que nous avanons. (12:17) Donc, en 1981, il y avait une méthode très populaire appelée Optical Flow qui a été développée par Horn et Schunck et l'idée de cette méthode était de comprendre et d'estimer la direction et la vitesse est un objet mobile sur deux images capturées dans un calendrier. Donc, pour l'objet déplacé de la position A à la position B, alors quelle était la vitesse de cet objet entre les deux images. Ainsi, le flux a été formulé comme une fonctionnelle d'énergie globale qui a été minimisée et la solution trouvée solution a été obtenue. Et c'est la méthode qui a été largement utilisée pendant de nombreuses décennies surtout pour la compréhension vidéo. Et je pense qu'il est encore utilisé dans certaines applications telles que la compression, la compression vidéo ou d'autres applications de compréhension vidéo. (13:12) En 1986 est venu le détecteur Canny Edge qui a été un développement significatif pour Edge Detection. John Canny a proposé un opérateur de détection de bord à plusieurs étapes qui est aussi connu sous le nom de théorie computationnelle de la détection d'arête. Il utilise le calcul d'une variation pour trouver la fonction qui optimise un fonctionnel donné. C'était une méthode de principe très bien définie, simple à mettre en œuvre et devenue très populaire pour la détection d'arête. Ainsi, il a été largement utilisé pendant de nombreuses années pour détecter les bords probablement jusqu'à ce jour dans certaines industries. (13:47) En 1987, il y avait aussi la reconnaissance par la théorie des composants proposée par Biederman qui était un processus de fond pour expliquer la reconnaissance des objets où l'objet était constitué en termes de pièces qui étaient étiquettées comme des donjons, les donjons ont simplement signifié trois dimensions de base tridimensionnelles telles que des cylindres, des cônes et ainsi de suite comme vous pouvez le voir dans certaines de ces images ici qui ont été assemblées pour former un objet. Encore une fois, il s'agissait d'une théorie de la reconnaissance visuelle pour voir si nous pouvions reconnaître des objets en termes de leurs parties. (14:26) En 1988, on a assisté à ce qui est connu sous le nom de Snakes ou des modèles de contour actif qui ont aidé à délimiter un contour d'objet à partir d'une image 2D potentiellement bruyante. Il a été largement utilisé dans des applications telles que le suivi, la reconnaissance des formes, la segmentation, la détection de bord, ainsi de suite. (14:48) En 1989, a été la première version de la propagation arrière pour les réseaux neuronaux convolutionnaires. Donc, ce n'est pas forcément une compréhension visuelle de bas niveau, mais je pense que c'est arrivé dans les années 80 et c'est pourquoi je parle de ça ici et il a été appliqué pour la reconnaissance écrite à la main comme nous le parlerons très bientôt. (15:08) Autres choses qui se sont produites dans les années 80 où le développement de la représentation des pyramides d'images de l'image et des échelles multiples, le traitement de l'espace-échelle, le traitement d'une image à différentes échelles, ondelettes qui est un développement historique à ce moment-là. Forme à partir de X qui est en forme de ombrage, forme à partir de la forme, forme de la silhouette, en gros essayer de se former à partir de divers aspects de la formation d'images. Les méthodes d'optimisation variationnelle, la zone de Markov Random, toutes ces méthodes ont été développées dans les années 1980. (15:41) Puis est venu les années 1990 où la communauté s'est transformée en un niveau plus élevé de compréhension au-delà des artefacts de bas niveau tels que des bords ou des coins ou ainsi de suite. (15:53) Il a commencé avec Eigenfaces pour la reconnaissance faciale qui a utilisé une variante de la décomposition d'Eigen pour faire la reconnaissance faciale. Cela s'est produit en 1991, ce qui a été une réussite pour la reconnaissance faciaux au moins dans les cadres de contraintes. Il y a aussi des théories computationnelles de la détection d'objets par Edelman qui a été proposée en 1997. Puis est venu le regroupement Perceptual et les coupes normalisées qui ont été une étape décisive pour les méthodes de segmentation par image qui sont venues en 1997. Filtres de particules et déplacement moyen en 1998, Transform Feature Transform. Nous parlerons de certaines de ces méthodes en détail, ce qui a été une importante méthode de détection et de représentation des points clés de l'image qui a été développée à la fin des années 90. Puis Viola-Jones face à la détection, encore qui est arrivée au début des années 2000. Zones aléatoires conditionnelles qui constituent une amélioration par rapport aux champs de Markov aléatoires. Ensuite, les structures picturales, la méthode proposée en 1973 a été revisitée en 2005 pour se développer, elles sont venues avec une approche statistique améliorée pour pouvoir estimer les parties individuelles et leurs connexions entre les parties qui étaient appelées structures picturales à ce moment-là et elles ont en fait montré que cela pouvait fonctionner dans la pratique et donner de bonnes performances pour l'appariement d'images. PASCAL VOC qui est un ensemble de données qui est populaire à ce jour a commencé en 2005 et autour de cette époque entre 2005 et 2007, beaucoup de méthodes pour la reconnaissance des scènes, la reconnaissance de panorama, la reconnaissance de localisation a également augmenté à ce moment-là. Les modèles de Constellation qui étaient des modèles de générateurs probabilistes basés sur une partie ont également augmenté à ce moment pour être en mesure de reconnaître à nouveau des objets en termes de pièces et comment les pièces ont été mises ensemble dans l'ensemble. Et des modèles de pièces déformables, une approche très populaire, je pense que l'un des développements majeurs de la première décennie de 2000 du XXIe siècle est venu en 2009. (18:10) Et depuis, bien sûr, les grands développements ont été Deep Learning. Alors, nous les révisons brièvement. (18:17) En 2010, le jeu de données ImageNet a été développé et l'objectif de l'ensemble de données était que, jusqu'à ce que beaucoup de développements dans la vision informatique se fondait sur des ensembles de données d'échelle de laboratoire, le jeu de données sur les COV PASCAL a changé dans une certaine mesure en 2005 et 2006. Mais beaucoup d'autres développements se sont appuyés sur des ensembles de données à l'échelle des laboratoires qui ont été développés dans divers laboratoires à travers le monde et il n'a pas donné de méthode standard pour comparer les méthodes et les comparer sur une plateforme unifiée, à travers le jeu de données unifié. Et c'est le but d'ImageNet pour atteindre ce moment particulier. Donc, 2010 a été quand ImageNet est arrivé et 2012 a été un tournant pour l'apprentissage profond, comme beaucoup d'entre vous le savent, AlexNet a gagné le défi ImageNet jusqu'à ce que tous les modèles qui ont gagné ImageNet jusqu'en 2012 étaient ce que je veux dire est peu profond. Ainsi, vous avez extrait certaines fonctionnalités des images, puis vous avez utilisé des modèles d'apprentissage automatique tels que des machines vectorielles de support pour être en mesure de faire reconnaître les objets. Ainsi, en 2012, AlexNet est entré dans l'image et c'est le premier réseau neuronal de la révolution qui a gagné le défi ImageNet et c'est une réalisation significative parce qu'il a pris la précision dans le challenge ImageNet d'un montant significatif au-delà des années précédentes les meilleurs artistes. Nous parlerons des chiffres et de tous ces détails lorsque nous aurons cette question dans le cours. (19:51) Puis en 2013 est venu une variante d'un réseau neuronal convolutionnaire appelé ZFNet pour Zeiler et Fergus, il a gagné le défi ImageNet. Ensuite, des CNN ou des RCNN ont été développés pour la première fois en 2013 pour la tâche de détection des objets et les gens ont également commencé à investir des efforts pour essayer de comprendre comment les CNN fonctionnent. (20:17) En 2014, les modèles InceptionNet et VGG sont arrivés. Les estimations de la pose humaine ont été développées, alors CNN a commencé à être utilisé pour d'autres tâches au-delà de la simple reconnaissance des objets, des modèles génératifs profonds tels que les GANs des réseaux d'adversation générative et les VAE de Variational Auto Encoders ont également été développés en 2014. En 2015, les réseaux résiduels ou les ResNets sont arrivés et les CNN correspondaient aux performances humaines sur ImageNet. Il s'agit là encore d'une réalisation historique. (20:53) 2015 a également vu des réseaux de segmentation qui sont entrés dans l'image. Les réseaux entièrement conévolutionnaires SegNet et U-Net ont tous été développés en 2015 pour la tâche de segmentation sémantique ou d'étiquetage chaque pixel d'une image avec un label de classe particulier. Le jeu de données COCO a également commencé à apparaître à ce moment et le premier ensemble de données de réponse à la question visuelle de l'ensemble de données VQA a été développé en 2015. En 2016, au-delà des CNN basées sur la région pour la détection des objets, des méthodes à un seul stade telles que You Only Look Once et Single Short Detector, YOLO et SSD ont été développées. Le jeu de données de Cityscapes est arrivé, le jeu de données du génome visuel est arrivé et 2017 a été le début d'un niveau d'abstraction plus élevé dans la compréhension des images qui est la génération de graphe de scène. Étant donné une image, comment comprvez-vous ce qu'est le graphique de la scène? Une personne assise sur un cheval ou un homme qui se trouve sur une moto, ainsi de suite. Et en 2018 et 19, des niveaux d'abstraction plus élevés tels que le jeu de données de raisonnement de bon sens visuel où nous essayons de voir si nous ne donnons pas seulement une réponse à une question sur une image mais peuvent aussi donner une justification à cette réponse et une tâche telle que la Segmentation Panoptique ont été développées. Donc, comme vous pouvez le voir, ce voyage est axé sur le passage d'une vision d'image de bas niveau à des abstractions plus élevées et plus élevées du monde que nous voyons autour de nous à partir d'images. (22:34) D'un point de vue d'application, nous n'allons pas parcourir toutes les applications, mais à un haut niveau, dans les années 70 comme je l'ai déjà mentionné, l'un des premiers produits qui a été développé était la reconnaissance optique des caractères par Kurzweil Technologies par Ray Kurzweil. C'était l'un des premiers succès de la vision informatique que vous pouvez dire. Dans les années 1980, la plupart des développements de l'industrie ont été dans la vision artificielle qui a installé des caméras dans diverses configurations industrielles ou industrielles. On trouve probablement des défauts dans le traitement des puces par exemple, ou même dans des caméras intelligentes, où certains de ces algorithmes tels que la détection de bord et ainsi de suite ont été intégrés dans la fabrication de caméras qui, je pense, sont connues sous le nom de caméras intelligentes, ce qui, je pense, est un domaine important encore aujourd'hui. Dans les années 1990, lentement les applications de la vision ont commencé à croître, la vision artificielle dans les environnements de fabrication a continué à croître, la biométrie ou la reconnaissance de personnes à partir d'images pourrait être de la démarche, pourrait être du visage, pourrait être de l'iris, peut être des gestes, tous ont commencé à croître. L'imagerie médicale a commencé à devenir importante. Les appareils d'enregistrement, la vidéosurveillance, tous ont commencé à croître dans les années 90. Dans les années 2000, une plus grande partie de ces technologies, l'imagerie médicale, l'objet et la détection faciaux, la navigation autonome a commencé au milieu des années 2000, Google Goggles, la vision sur Les médias sociaux, tout cela a commencé dans les années 2000. Et en 2010s, je ne vais même pas essayer d'énumérer les applications, je pense qu'il est cultivé à un point où les applications de la vision se trouvent dans différents domaines tout autour de nous. (24:25) J'espère que cela vous a donné une brève perspective de l'histoire de la vision informatique au cours des dernières décennies. Je vous recommande de lire Szeliskis chapitre 1 à ce moment et de lire aussi certains de ces liens qui ont été partagés dans le cadre de ces diapositives, chaque diapositive a une note de bas de page où l'information a été tirée. Donc, passez par certaines de ces diapositives, augmentez les liens, vous serez en mesure de comprendre comment certains de ces sujets ont grandi dans des domaines spécifiques sur ces liens. Nous allons nous arrêter là pour le moment et continuer avec le sujet suivant très bientôt. Voici quelques références si vous voulez jeter un oeil.