Loading

Alison's New App is now available on iOS and Android! Download Now

Study Reminders
Support
Text Version

Set your study reminders

We will email you at these times to remind you to study.
  • Monday

    -

    7am

    +

    Tuesday

    -

    7am

    +

    Wednesday

    -

    7am

    +

    Thursday

    -

    7am

    +

    Friday

    -

    7am

    +

    Saturday

    -

    7am

    +

    Sunday

    -

    7am

    +

Dans cette conférence, nous parlerons de la formation d'images. Avant d'y aller, avez-vous eu la chance de vérifier la réponse pour la question trivia que nous avions la dernière classe? Pourquoi Lawrence Roberts est-il connu? En plus de sa contribution à la vision informatique, il est plus connu pour être l'un des fondateurs de l'Internet. En fait, il a été le chef de projet du projet ARPANET qui a été le précurseur d'Internet à l'organisation de défense américaine DARPA. Passons au sujet de cette conférence. Comme la plupart d'entre vous savez peut-être que des images sont formées lorsqu'une source lumineuse nous frappe, la surface d'un objet et de la lumière est réfléchie et une partie de cette lumière est réfléchie sur un plan d'image qui est ensuite capturé par l'optique sur un plan de capteur. Donc, c'est l'information générale et les facteurs qui affectent la formation de l'image sont la force et la direction de la source de lumière, la géométrie de la surface, le matériau de la surface comme sa texture ainsi que d'autres surfaces voisines qui, dont la lumière pourrait se refléter sur la surface, les propriétés de capture du capteur, nous parlerons plus de ce que nous allons et de la représentation de l'image et de l'espace de couleur lui-même. Nous parlerons de certains d'entre eux au fur et à mesure. (01:54) Donc, pour étudier tous ces éléments, il faudrait probablement étudier cela à partir de la perspective géométrique, où vous étudiez les transformations 2D, les transformations 3D, l'étalonnage des caméras, la distorsion. D'un potentiel photométrique où vous étudiez l'éclairage, la réflectance, l'ombrage, l'optique, ainsi de plus. Du point de vue de la couleur, vous étudiez la physique de la couleur, de la couleur humaine, de la représentation des couleurs et du point de vue des capteurs, en s'y regardant des perceptions humaines, de la conception de la caméra, de l'échantillonnage et de l'Aliasing, de la compression ainsi, etc. Nous ne couvrons donc pas toutes ces questions, mais nous couvrons quelques sujets pertinents de ces conférences. Si vous êtes intéressé par une couverture plus détaillée de ces sujets, veuillez lire les chapitres 1 à 5 du livre par Forsyth et Ponce. (02:48) En commençant par la façon dont la lumière se reflète sur une surface, les mœurs les plus typiques de la réflexion indiquent que lorsque la lumière frappe une surface il y a 3 réactions simples possibles, il y a plus de 3 réactions simples à commencer avec. Premièrement, une certaine lumière est absorbée et cela dépend d'un facteur appelé albédo (ρ) et généralement lorsque vous avez une surface avec un faible albédo plus la lumière est absorbée. C'est pourquoi vous dites que c'est le facteur 1-ρ pour l'absorption. Une certaine lumière se reflète diffusivement. Il se disperse dans plusieurs directions, ce qui se produit indépendamment de l'angle de vision. Exemple de surfaces où les lumières se dispersant diffusivement est la brique, le tissu, le bois brut ou tout autre matériau de texture et dans ce scénario, la loi cosinus de Lambert stipule que la quantité de lumière réfléchie est proportionnelle au cosinus de l'angle à partir duquel vous affichez la réflexion. Et troisièmement, une certaine lumière se reflète aussi spéculièrement lorsque la lumière réfléchie dépend de la direction de l'observation. Ainsi, un exemple de surface où cela se produit est un miroir où nous savons tous que la lumière réfléchie suit le même angle que la lumière incidait. (04:15) En général, dans le monde réel, la plupart des surfaces ont des composants spéculaires et diffus et l'intensité que vous recevez à la sortie dépend aussi de l'angle d'éclairement, car lorsque vous avez un angle oblique, la lumière est moindre. Et en plus de l'absorption, de la réflexion diffuse et de la réflexion spéculaire, il y a d'autres actions possibles comme la transparence, où la lumière pourrait traverser la surface, il y a une réfraction telle qu'un prisme où la lumière pourrait être réfractée il y a aussi la diffusion de sous-surface, où plusieurs couches de la surface pourraient se traduire par certains niveaux de diffusion. Enfin, il y a aussi des phénomènes tels que la fluorescence, où la longueur d'onde de sortie peut être différente de la longueur d'onde d'entrée ou d'autres phénomènes tels que la phosphorescence. Un concept important qui est aussi étudié ici est appelé la fonction de distribution de réflectance Bidirectionnelle qui est un modèle de réflexion locale qui nous dit à quel point une surface apparaît d'une direction lorsque la lumière tombe sur elle d'une autre direction, une autre direction prédéfinie. Et il y a des modèles pour évaluer la luminosité de la surface. (05:46) Ainsi, d'un point de vue de couleur lui-même, nous savons tous que la lumière visible est une partie du vaste spectre électromagnétique, donc la lumière visible est une petite partie du vaste spectre électromagnétique, donc nous savons que l'infrarouge tombe d'un côté, les rayons ultraviolets de l'autre côté et il y a beaucoup d'autres formes de lumière à travers le spectre électromagnétique. Ainsi, la lumière colorée qui arrive à un capteur implique généralement deux facteurs, la couleur de la source de lumière et la couleur de la surface elle-même. (06:26) Ainsi, un important développement de la détection de la couleur dans les caméras est ce que l'on appelle la Grille Bayer ou le Filtre Bayer. La Grille de Bayer parle de l'arrangement des filtres de couleur dans un capteur de caméra. Donc, tous les éléments de détection d'une caméra ne capte pas les trois composantes de la lumière, vous savez peut-être qu'en général nous représentons la lumière comme RGB au moins colorée comme RGB, Red Green et Blue. Nous parlerons un peu plus d'autres façons de représenter la lumière colorée un peu plus tard, mais c'est la façon typique de représenter la lumière colorée et non chaque élément de détection sur la caméra capture les trois couleurs au lieu d'une personne appelée Bayer a proposé cette méthode dans une grille où vous avez 50% de capteurs verts, 25 pour cent de capteurs rouges et 25% de capteurs bleus qui sont inspirés par les récepteurs visuels humains. Et c'est ainsi que ces capteurs sont en contrôle, donc dans un appareil photo réel, vous avez une batterie de capteurs et il y a un ensemble de capteurs qui capture seulement la lumière rouge, il ya un ensemble de capteurs qui capture le feu vert, il ya un ensemble de capteurs qui capture la lumière bleue et pour obtenir les algorithmes de déosaure d'image en couleur sont utilisés là où les pixels environnants sont utilisés pour contribuer à la valeur de la couleur exacte à un pixel donné. Ainsi, cet élément de détection particulier aura sa propre couleur que vous utiliserez également les éléments environnants pour déterminer s'il y a une couleur à cet élément de détection particulier. Ces algorithmes sont connus sous le nom d'algorithmes de dématérialisation. Ce n'est pas le seul type de filtre couleur. Bayer Filter est un filtre qui est plus populaire en particulier dans les caméras à capteurs simples, mais il y a eu d'autres types de filtres, d'autres types de mécanismes de classement des couleurs qui ont été développés au cours des années aussi. Donc, vous pouvez aussi en lire un peu plus sur les entrées Wikipedia de Bayer Filter qui parle aussi d'autres types de mécanismes qui sont utilisés. (08:41) Alors, posons-nous une question à penser, si le spectre des lumières visibles est VIBGYOR ou Violet, Indigo, Bleu, Vert, Jaune, Orange, Rouge, pourquoi utilisons-nous une onde RGB représentant la couleur? Il y a quelque chose pour que vous penchez, nous vous réponterons dans la prochaine classe au moins essayer de trouver ça vous-même si vous le pouvez. (09:01) Donc, le pipeline de détection d'image dans une caméra suit un diagramme de flux tel que celui-ci, où vous avez l'optique telle que la lentille. La lumière de l'Ofbien s'en trouve. Vous avez des paramètres d'ouverture et d'obturation que vous pouvez spécifier ou ajuster et de là, la lumière tombe sur le capteur. Capteur peut être CCD ou CMOS, nous parlerons de ces variantes très bientôt. Ensuite, il y a un facteur de gain, nous en parlerons aussi bientôt. Puis l'image est obtenue dans une forme analogique ou numérique qui représente l'image brute que vous obtenez, les caméras en général ne s'arrêtent pas là, vous utilisez des algorithmes de déosaure dont nous venons de parler, nous pourrions, vous pourriez aiguiser l'image si vous voulez ou tout autre algorithme important de traitement d'image. Un certain équilibre blanc, d'autres méthodes de traitement du signal numérique pour améliorer la qualité de l'image et finalement vous compressez l'image dans un format approprié pour stocker l'image. Donc, c'est le pipeline général de la capture d'images. (10:12) Alors, essayons de revisiter, visitez certains de ces composants au cours des prochaines minutes. Donc, la première chose est le capteur de caméra lui-même, donc vous devez tous avoir entendu parler du CCD et du CMOS. C'est souvent une décision commune à prendre lorsque vous achetez une caméra ces jours-là une question moins importante, mais plus tôt, elle était encore plus. Quelle est la différence? Donc, la principale différence entre CCD et CMOS est que dans le CCD il se tient pour Charged Coupled Device. Vous générez généralement une charge à chaque élément de détection, puis vous déplacez cette charge photogénérée, de sorte que la charge générée par un photons saisiant les éléments de détection de pixel à pixel et que vous la convertisez en une tension à un noeud de sortie sur cette colonne particulière. Ensuite, typiquement un ADC ou un analogue au convertisseur numérique convertit la valeur de chaque pixel en valeur numérique. C'est ainsi que fonctionnent les capteurs CCD. (11:15) En revanche, les capteurs CMOS, les semi-conducteurs d'oxydes métalliques complémentaires, fonctionnent en convertissant la charge en tension à l'intérieur de chaque élément. Donc, le CCD s'accumule là, CMOS convertit à chaque élément qu'il utilise des transistors à chaque pixel pour amplifier et déplacer la charge en utilisant des fils plus traditionnels. Ainsi, le signal CMOS est numérique de sorte qu'il n'a pas besoin d'ADC à un moment ultérieur. Donc, aujourd'hui CMOS, les technologies CMOS à l'origine avaient des limites, mais aujourd'hui les technologies CMOS sont assez bien développées et la plupart des caméras que nous utilisons aujourd'hui sont en fait des appareils CMOS ou CMOS. (11:59) Donc, les nombreuses propriétés que vous pouvez voir quand vous regardez, quand vous prenez une photo sur une caméra. Vitesse de fermeture qui contrôle la quantité de lumière atteignant un capteur ou aussi le temps d'exposition. Le pas d'échantillonnage, qui définit un espacement entre les cellules du capteur sur la puce d'imagerie. Facteur de remplissage ou aussi connu sous le nom de zone de détection active, désolé, qui est le rapport de la taille de la zone de détection active par rapport à la zone de détection théoriquement disponible sur l'élément sensible. Taille de la puce qui correspond à la taille entière de la zone de la puce. Gain analog qui est l'amplification du signal de sens à l'aide de la logique de contrôle de gain automatique que nous ne sommes pasUne fois de plus, si vous êtes intéressé, vous pouvez lire les références fournies à la fin de cette conférence pour obtenir plus de détails sur chacun d'entre eux. En général, le gain analogique est ce que vous contrôez en utilisant votre réglage ISO sur votre appareil photo, vous pouvez aussi avoir du bruit de capteur provenant de différentes sources dans le processus de détection. Votre résolution vous indique combien de bits est spécifié pour chaque pixel qui est également décidé par un module de conversion analogique au numérique dans le CCD ou dans le cas de CMOS dans la détection, dans les éléments de détection. Donc, ce qui signifie que si vous utilisez 8 bits pour représenter chaque pixel, vous pourriez obtenir une valeur allant de 0 à 255 pour chaque pixel qui vous donne la résolution de détection pour ce pixel particulier, et enfin il ya aussi des éléments de post-traitement comme nous l'avons déjà mentionné brièvement comme les méthodes d'amélioration d'image numérique utilisées avant la compression et le stockage de l'image capturant. (13:48) Donc, une question populaire qui peut souvent être posée ici est, ces jours-là les smartphones semblent être si bons, vous avez des caméras très haute résolution dans les smartphones, vous avez vraiment besoin de ce que l'on appelle des caméras DSLR. Alors, qu'est-ce que les caméras DSLR? L'appareil photo reflex numérique de l'appareil photo numérique Single Lens Reflex et la principale différence entre une caméra DSLR ou tout autre appareil photo ou appareil photo numérique ou cellulaire est l'utilisation de miroirs. La caméra DSLR utilise un mécanisme miroir pour refléter la lumière dans un viseur de vue ou peut également éteindre le miroir, déplaçant le miroir hors de la façon de refléter la lumière sur le capteur d'image. Donc, affectivement, la comparaison ici se fait entre les caméras en miroir et les caméras sans mirage. Donc, les caméras sans mirage comme ce que vous voyez dans vos smartphones sont plus accessibles, portables, peu coûteuses, alors que quand vous avez un miroir, la qualité de l'image a tendance à être meilleure, vous avez plus de fonctionnalités possibles, encore une fois nous n'allons pas entrer dans plus de détails ici mais s'il vous plaît, veuillez lire les sources des liens donnés sous chaque diapositive si vous voulez en savoir plus. Les caméras en miroir telles que DSLR vous donnent également une longueur focale variable sur le mécanisme d'obturation et l'ouverture ainsi de suite. C'est la raison pour laquelle il y a de la valeur pour les caméras DSLR malgré l'avancement des smartphones. (15:22) Donc, les autres facteurs dont vous avez besoin pour comprendre quand vous parlez de la formation d'images est le concept d'échantillonnage et d'Aliasing, nous en parlerons plus tard, mais un bref examen maintenant est Shannon Échantillonnage Le théorème indique que si la fréquence maximale de vos données sur votre image est de f_max, vous devriez au moins échantillonner à deux fois cette fréquence. Pourquoi donc, nous verrons un peu plus tard mais pour le moment cette fréquence que vous avez capturée est aussi appelée fréquence Nyquist et si vous avez des fréquences sur la fréquence Nyquist dans votre image, alors le phénomène appelé Aliasing se produit. Alors, pourquoi ce mal et quel impact peut-il avoir sur la formation d'images? Cela peut souvent créer des problèmes lorsque vous échantillonner ou descendre un échantillon d'une image. Si vous capez une image à une résolution particulière, disons 256 croix 256. Si vous choisissez d'utiliser un exemple ou un exemple d'alias en bas, Aliasing peut être mauvais dans ces paramètres, nous le verrons plus en détail un peu plus tard lors d'une conférence qui se fera à un moment donné. (16:37) Aussi, en ce qui concerne la représentation de l'image elle-même, il y a plusieurs espaces de couleurs possibles, tandis que RGB est le plus courant, les gens utilisent aujourd'hui divers autres types d'espaces de couleur pas nécessairement dans une caméra, mais dans d'autres types de dispositifs nous allons voir ça. Je le mentionnerai brièvement maintenant. Les espaces de couleurs populaires sont RGB et CMYK, CMYK signifie cyan, magenta, jaune et noir, c'est ce que vous voyez ici. Donc, ils sont supposés être ; les couleurs additives sont donc RGB, R, G et B ; les couleurs subtractives sont C, M et Y une application particulière où CMYK est utilisé dans la pratique est dans les imprimantes. Donc, il se trouve qu'il est beaucoup plus facile de contrôler les couleurs à l'aide de CMJN dans les imprimantes, vous pouvez en savoir plus sur ces liens sur ces liens fournis ci-dessous. Les autres espaces de couleur utilisés dans la pratique sont XYZ, YUV, Lab, YCbCr, HSV ainsi de suite. Il y a en fait une organisation qui appelle la CIE, qui établit des normes pour les espaces de couleur parce que c'est important, c'est en fait important pour l'industrie de l'impression et de l'analyse, je pense que ce sont des personnes extrêmement importantes qui travaillent dans cet espace. Donc, c'est la raison pour laquelle il y a des normes établies pour ces types d'espaces, nous n'allons pas entrer plus de détails ici une fois encore si vous êtes intéressés, veuillez passer par ces liens ci-dessous pour en savoir plus sur les espaces de couleur ce que vous voulez dire par additif, subtractive, ainsi de suite, s'il vous plaît regardez ces liens. (18:19) Enfin, la dernière étape de la formation d'image est la compression d'image, parce que vous devez stocker l'image que vous avez capturée, alors typiquement vous convertissez le signal en un formulaire appelé YCbCr où Y est luminance CbCr parle de chrome ce que l'on appelle le facteur de couleur ou la chrominance, et la raison en est que vous essayez généralement de compresser la luminance avec une fidélité plus élevée que la chrominance. En raison de la façon dont les humains ou le système visuel humain perçoivent la lumière, la luminance est un peu plus importante que la chrominance, de sorte que vous vous assuriez que la luminance est en fait comprimée avec une fidélité plus élevée, ce qui signifie que votre reconstruction est meilleure pour la luminance que pour la chrominance, donc c'est une des raisons pour lesquelles YCbCr est utilisé comme un espace de couleur populaire avant le stockage, encore une fois si vous ne comprenez pas YCbCr, revenez à la diapositive précédente regarder tous ces liens pour comprendre YCbCr est l'une des représentations de l'espace de couleur qui sont disponibles dans la pratique. Et comme je viens de le mentionner, la technique de compression la plus courante qui a utilisé pour stocker une image est appelée la transformation Cosine Discreate qui est populairement utilisée dans des standards comme MPEG et JPEG Discreate Cosine Transform est en fait une variante de la transformée de Fourier discrète et c'est une approximation raisonnable d'une décomposition d'un éigen de patchs d'image. Donc, nous ne devrions pas entrer dans le temps maintenant, les vidéos c'est comment les images sont compressées à l'aide de l'appel de méthode DCT, les vidéos utilisent aussi ce que l'on appelle la compensation de mouvement de niveau bloc, donc vous divisez aussi les images en cadres et ensemble de cadres en blocs, puis vous stockez certains cadres basés sur des concepts de compensation de mouvement, ceci est typiquement utilisé dans la norme MPEG qui utilise, qui divise tous les cadres en éléments connus sous le nom de "i frames, p frames et b frames", puis utilise des stratégies pour décider de la façon dont chaque cadre doit être codé, c'est ainsi que les vidéos sont compressées. Et la qualité de compression est finalement mesurée à travers une métrique appelée PSNR, les excuses pour la typo, elle sera corrigée avant que les diapositives soient téléchargées, ce qui signifie Peak Signal to Noise Ratio, désolé pour ces typos. PSNR est défini comme 10log10 I max 2 MSE, où i_max est l'intensité maximale et MSE est simplement des discussions sur l'erreur quadratique moyenne entre l'image d'origine et l'image compressée, combien est la moyenne quadratique d'erreur de pixel entre ces deux images. Et le numérateur parle de l'intensité maximale que vous pouvez avoir dans une image, donc ceci est typiquement appelé comme PSNR qui est utilisé pour mesurer la qualité de la compression d'image, il y a d'autres types de matrice qui sont basés sur la perception humaine, mais c'est l'indicateur statistique le plus populaire qui est utilisé. C'est à propos de cette conférence sur la formation d'images pour que si vous avez besoin de lire plus s'il vous plaît lire le chapitre 2 du livre de Szeliski, veuillez également lire les liens fournis sur certaines des diapositives spécialement l'un de ces sujets vous intéresser ou vous êtes laissé avec quelques questions s'il vous plaît lire ces liens. Si vous voulez savoir de façon plus détaillée comment les images sont capturées, y compris les aspects géométriques de celui-ci et l'aspect photométrique de celui-ci, veuillez lire les chapitres 1 à 5 de Forsyth et Ponce.