Loading
Study Reminders
Support
Text Version

Set your study reminders

We will email you at these times to remind you to study.
  • Monday

    -

    7am

    +

    Tuesday

    -

    7am

    +

    Wednesday

    -

    7am

    +

    Thursday

    -

    7am

    +

    Friday

    -

    7am

    +

    Saturday

    -

    7am

    +

    Sunday

    -

    7am

    +

Au cours de la conférence jusqu'à présent, nous avons parlé de méthodes de base pour traiter les images. Nous avons parlé d'opérations telles que la corrélation de convolution. Puis nous avons parlé de la façon dont nous pouvons utiliser de telles opérations pour détecter les bords dans les images, les coins et les images, différents types de partenaires, des méthodes différentes pour extraire ces coins, ainsi que comment décrivez-vous ces coins de manière à pouvoir les utiliser pour d'autres tâches? Nous avons aussi parlé de la façon dont ce processus pourrait être similaire à la façon dont le système visuel humain perçoit le monde que nous voyons autour de nous. L'un des aspects que nous avons mentionnés, c'est que si vous avez deux images différentes et que vous voulez dire que vous voulez assembler ces deux images, ou plus de deux, nous détectons idéalement des points d'intérêt dans ces deux images. Obtenez des descripteurs de chacun de ces points dans ces deux images. Et puis nous allumons des points à travers ces images. Comment faire le match est ce que nous allons entrer dans le prochain? Ou les deux prochaines conférences? Nous parlons de quelques méthodes différentes pour faire correspondre les points clés entre les images. Pas seulement des points clés entre les images. Nous allons essayer d'utiliser ces méthodes pour effectuer d'autres types de tâches, comme trouver différents types de formes et d'images telles que des cercles, ou quelque forme que ce soit, ainsi que des descripteurs encore plus nombreux, de ce que nous avons vu jusqu'à présent. La plupart des conférences de cette semaine sont basées sur les excellentes conférences de. Professeur Yanis à l'université de location, Andrea en France. Si vous vous souvenez, nous avons donné cet exemple plus tôt de deux images prises de la même scène, peut-être à partir de points de vue différents, peut-être une partie différente de la journée, ou peut-être, mais simplement des nations humaines différentes ou un Canada différent. Baléomètres. Et si vous voulez étouffer ces deux images, le processus standard est de trouver des points clés et de les allumez. Nous savons donc trouver des points individuels dans ces deux images. Nous savons aussi comment décrire chacun de ces points clés comme un vecteur. Nous avons vu l'ISP, nous avons vu du porc, nous avons vu le LBP, nous avons vu quelques méthodes différentes aujourd'hui pour le faire. La question qui reste est de savoir si vous avez maintenant les points clés et les descripteurs de deux images différentes, comment les faire correspondre et être en mesure de les aligner? C'est ce que nous allons faire ensuite. Nous allons commencer par une méthode très simple appelée logisticien dense pour le flux optique, une méthode assez ancienne, qui se rapporte à un cadre. Où vous avez un très petit changement entre les différentes images. Donc si vous prenez à nouveau l'exemple de votre téléphone portable, si vous allez déplacer progressivement votre téléphone portable ou avec une scène, et ensuite vous voulez que nous soyons au Japon sur une carte, les différences entre les images successives vont être très peu. Donc, si vous l'avez essayé vous-même, vous remarquerez que dans certains cas, si vous déplacez votre main très rapidement, vous obtiendrez un message d'erreur répété et déplacez votre main très lentement pour vous lever et sortir de l'application sur vos téléphones cellulaires. Donc dans ce genre de cas, le déplacement de la scène entre les images statistiques est très peu dans ces paramètres. Vous pouvez utiliser ce type de méthode ou une législation dense pour le flux optique. Voici un exemple visuel d'une scène où un livre traverse l'eau. Vous pouvez voir que la scène est plus ou moins la même, mais quelques changements dans les positions de la boîte. Notre objectif est ici pour chaque emplacement de l'image, disons un point clé de l'image. Nous voulons trouver un déplacement par rapport à une autre image de référence. Une fois que vous avez un déplacement, vous pouvez simplement placer une image sur l'autre image et être en mesure de les aligner. Donc ce genre de méthode d'utilisation d'un enregistrement dense est généralement utile pour les petits déplacements, tels que le stéréopsis ou la pente optique, pour comprendre comment faire ça. Prenons d'abord un cas unidimensionnel. Travaillons sur la carte et ensuite nous allons dans un cas à deux dimensions. Alors, considérons le cas unidimensionnel. Considérons une fonction F de X, qui est donnée par cette coupe verte. Et réfléchissons à cette fonction GFX, qui est simplement une version déplacée de la scène F de X, mais d'autres mathématiquement parlant, je peux voir que G de X. Is F de X plus B, c'est juste une version déplacée de F de X. Et nous supposons aussi que T est petit. Nous ne regardons que de petits changements entre ces images. Nous savons par définition, par les premiers principes, la définition du délibération, vous pouvez voir que DF par DX est donné par F de l'explicité moins F affecte le monde mordant. Limitée et à zéro, ce qui serait la première définition. Mais nous savons maintenant que F de X plus le, ce G de X. Donc, ce qui veut dire que nous pouvons écrire BFID X à G G affecte moins F de X par D. Où allons-nous d'ici? Maintenant, nous définissons l'erreur entre ces deux. Signaux dans ce cas particulier parce que nous envisageons une dimension égale. Et maintenant, ça va être une combinaison pondérée. Supposons que ceci soit très similaire à la corrélation auto pondérée dont nous avons parlé pour le détecteur Connor le plus dur. Dans ce cas, nous avons parlé de corrélation automatique. Ici nous regardons les différences entre deux signaux, F N G. Donc vous avez F de X plus T et G de X. Ça va être la différence. Et vous faites une combinaison pondérée de ces deux pour être en mesure de trouver le déplacement réel. Donc vous avez WX dans le F de X plus T moins GX au carré. Maintenant, cette seconde, c'est la première fois que vous utilisez un premier départ tous les jours. Voir cette extension. Peut nous écrire F de X plus T transposer, Delta F de X. Les dômes restants sont les mêmes pour ces deux équations. La première étape est simplement développée comme une première expansion de la série quotidienne de démarrage. Et vous obtenez le côté droit de cette équation. Où allons-nous d'ici? Nous savons que l'erreur est minimisée lorsque le gradient disparaît. Donc nous prenons l'E par Doherty. Ce que vous allez juste prendre un dérivé simple de cette main droite, dont la plupart vont être la somme X de X, w de X. Cette partie reste la même qu'ici. Et le terme qui dépend de D est ce terme particulier. Donc si vous prenez le gradient de ça, vous allez devoir dans le terme entier, à l'intérieur des crochets, dans le tem, dans la livraison de la langue, qui est affecté par T. Ce qui est celui de X. Donc vous allez devoir plonger X dans le dôme entier à l'intérieur des crochets. Nous voulons voir un grand zéro, puis le résoudre pour ce que vous cherchez. Donc maintenant, il suffit d'élargir l'équation. Vous pouvez simplement prendre des Tums sur les deux côtés et monter dans cet espace de dés va ignorer la sommation et les arguments, juste pour la simplicité du, d'expliquer cela. Si nous ne les ignorons pas, vous auriez entré Delta F dans la transposition Delta F. Ces tiges sont ramifiées ici. De même w dans Delta F en G moins F. Si vous prenez l'autre côté aussi, n'a pas d'importance parce qu'ils sont quelque chose d'égal à zéro. J'essaie de le savoir, en essayant de résoudre ce problème. Donc, non en faisant cela, vous pouvez résoudre pour le Delta F et être en mesure de comprendre le déplacement entre ces deux signaux. Quel est l'équivalent en deux dimensions? C'est exactement le même ensemble d'équations. Juste qu'au lieu d'un, le signal que vous allez maintenant avoir un correctif d'image qui est défini par une fenêtre w et nous essayons ensuite de trouver ce qui est l'erreur entre le lot décalé par T dans l'image de référence F. Et l'origine de l'acte de patch dans le déplacement du veggie. Si vous déplacez F à une certaine date dans l'image d'origine, est-ce que vous obtenez G est la question que nous voulons poser? Nous voulons trouver que D qui minimise ce changement, parce que cela vous donne le déplacement entre F et G. En résolvant pour cela, vous pouvez obtenir la valeur de, trouver le déplacement et maintenant être capable de faire correspondre ou aligner ces deux paiements. La solution médicale. L'un des problèmes de cette approche est la même approche du problème que nous avons traitée. Quand nous sommes passés des images au plus dur sur un détective. N'oubliez pas que l'approche du problème signifie simplement que vous ne pouvez que le faire. Résolvez ce problème pour un quartier très local. Pourquoi? Alors? Parce que la définition entière ou la façon dont nous réglons le problème, un zoom, un quartier local. Si vous regardez le premier développement de CD de départ, cette approximation n'est que pour le voisinage local, ce qui signifie tout ce type de trous de formulation seulement si le déplacement est un aperçu de très petit voisinage. Et c'est la raison pour laquelle nous disons que cette méthode fonctionne et il n'y a que de très petits changements avec moi, comme si nous pourrions juste, alors que faire s'il y a plus qu'une différence mineure entre ces deux images? Par exemple, il y a quelques diapositives, nous avons vu ces images de ces chaînes de montagnes. Il ne ressemblait pas à ces deux images qui ont été déplacées d'une très petite quantité. On a considéré qu'il y avait une rotation importante ou une différence de perspective significative. Comment ces photos ont été prises, comment résoudre ce genre de choses? Et pour cela dans ce qui est connu sous le nom de base blanche, magie spéciale en ligne de base blanche, correspondant spécial, uh, il y a une différence par rapport à la densité des stations. Juste pour répéter, dans une station plus dense, nous avons commencé à partir d'un processus de mise en correspondance de modèle très local. Et nous avons trouvé une solution efficace basée sur une approximation de Taylor, à la fois du sens, de la charge des petits déplacements, des espèces de base blanches correspondant à la vigueur, car vous savez que chaque partie d'une image est apparue dans n'importe quelle partie de la seconde image. Ce n'est plus le placement Smartlist. Vous pourriez avoir un contrepoint qui se trouvait dans la partie supérieure gauche d'une image et le bas, à droite de l'autre image. Et nous voulons toujours être en mesure de faire correspondre ces points à travers ces images. Comment allons-nous à ce sujet? Comme chaque perfusion va être le début par appariement par pairwise des descripteurs locaux. Donc vous avez un tas de points clés et une image un et un tas de points clés dans l'image deux pour chacun de ces points clés, vous avez un descripteur. Vous pouvez maintenant faire correspondre ces descripteurs avec les descripteurs de tous les points clés de la seconde image. Où que vous avez la meilleure correspondance de descripteurs. Vous allez dire que ce point de l'image est susceptible de correspondre à ce point particulier, un certain point de l'image deux, et ces points pourraient être des positions de coordonnées complètement différentes dans la première image et la seconde image. Nous commençons donc par appariement par pairwise de descripteurs locaux, mais pas d'autre ordre dans les postes. Et puis nous essayons d'appliquer une certaine cohérence de géométrie, selon un modèle de mouvement rigide. Nous savons donc que dans le monde réel, vous pouvez peut-être faire tourner une image, traduire ou déplacer votre appareil photo ou votre caméra. Vous pouvez probablement zoomer et zoomer. Il y a quelques transformations différentes. C'est généralement possible. Tous sont ce que nous entendons par "modèle de mouvement rigide" ou "cohérence de la géométrie". Donc nous allons zoomer un modèle particulier qui aurait pu avoir lieu. Et en utilisant ces appariages de descripteurs locaux, vous allez essayer de résoudre ce qui serait les paramètres de la transformation entre les deux images. Cela va être l'idée clé, mais nous parlons maintenant de comment allons-nous réellement, donc encore une fois, dans la base de la baie blanche, une correspondance spéciale, vous pourriez avoir deux images comme celle-ci, où une région dans une image peut apparaître n'importe où dans l'autre. Il pourrait y avoir un zoom avant. Ça pourrait être différent. Angle, ou peut être traduit par quelqu'un. N'importe lequel de ces choses pourrait arriver quand nous aimons faire ce genre de magie. Comme nous l'avons déjà dit, nous avons d'abord détecté de façon indépendante les caractéristiques de ces deux images. Donc chacun d'entre eux est une fonction différente que vous voyez à travers ces images. Ensuite, nous avons essayé de faire une correspondance de descripteur pairwise pour chaque fonction du détecteur. Nous pouvons trouver un descripteur tel que Instagram de gradients orientés, ou les schémas binaires locaux ou la variante de l'histogramme des utilisateurs. Donc, sur et ainsi de suite, votre titeur fait une correspondance par pairwise des descripteurs entre les points clés de ces deux images. Il est clair qu'il y a beaucoup de changement entre deux images. Il n'est pas nécessaire que chaque point clé corresponde. Un point clé de l'autre, dans ce cas particulier, vous pouvez voir que la voiture ne le fait même pas exister dans une seconde image. Donc tous les points sur la voiture n'auraient pas une image égale et identique, ce qui est parfaitement bien avec nous. Il ne s'agit donc que d'un sous-ensemble de fonctions qui ont été détectées lors de la première étape. Ce qui conduit à des correspondances dans les deux cas, dans ces deux cas, le, dans la première image, seul un sous-ensemble de fonctionnalités va correspondre à la seconde image, même parmi toutes les fonctionnalités détectées sur la seconde image. Un jour, un sous-ensemble de fonctions de la deuxième dimension correspond aux caractéristiques de la première dimension. Comment tu fais match? Une fois que vous obtenez les descripteurs en termes de vecteurs, vous pouvez simplement prendre la distance de correspondance. Vous pouvez également utiliser d'autres types de distances, mais vous pouvez simplement utiliser la distance euclidienne entre les descripteurs des fonctions et ce que ces images peuvent faire correspondre. Donc une fois que vous avez ces offres, nous essayons d'un certain modèle géométrique. Par exemple, nous pouvons dire que nous savons que dans notre domaine particulier, seule une traduction est possible. Seule une translation et une rotation sont possibles car dans mon appareil photo, il n'y a pas de zoom avant ou zoom arrière. Ça pourrait arriver. Donc, si vous saviez quelles étaient les conditions dans lesquelles une capture particulière a été prise? Donc, vous savez, ce qui pourrait être la transformation qui aurait pu avoir lieu entre la première image et le second match pour un zoom, une certaine transformation de l'énergie, et vous trouvez parmi ces correspondances de fairways, cette correspondance est que nous avons vu sur la diapositive précédente, qui d'entre eux. Quelle horreur est due à ce genre de transformation de rejet que je suppose que nous venons un peu plus tard dans cette conférence sur la façon dont la transformation digitale est représentée et comment nous trouvons les points qui sont dans la vie. Nous y revivenons dans quelques diapositives sur ce point, mais c'est l'idée générale. Donc, parmi toutes ces correspondances, vous vous étriez, ne faites pas quelques, qui répondent à votre hypothèse de ce qui se serait passé. Et après vous, une fois que vous obtenez ce sous-ensemble d'entrée, vous pouvez simplement faire correspondre et trouver la transformation et aligner une image sur l'autre. Parlons donc de ceux qui sont plus détaillés ou les deux prochaines diapositives. Nous avons donc d'abord extrait les descripteurs des points clés de chaque image. Donc pour chaque fonctionnalité détectée, vous pouvez faire quelque chose comme construire, un histogramme local de gradient et d'orientations. Vous pourriez aussi faire d'autres choses. Ce n'est qu'un exemple. Vous trouvez une ou plusieurs orientations dominantes correspondant au pixel, l'histogramme, le membre de l'ISP, nous avons parlé de trouver. Quelle est l'orientation de chacun des points clés? C'est ce que vous parlez bien, à ce moment-là, vous pouvez vouloir, échantillonner la touche locale à une échelle de localisation ou une orientation donnée en fonction du détecteur de fonction que vous avez utilisé? Vous pourriez avoir une échelle pour ce point clé particulier. Vous pourriez donc avoir un emplacement pour ce point clé. Tu pourrais avoir une échelle. Vous pouvez également avoir une orientation, de sorte que vous pouvez rééchantillonner le lot local. Quand ils disent l'échantillon. Si c'est un lot de rotation, vous pouvez l'échantillonner en faisant une interpolation, ainsi de suite. Comme vous pouvez. L'échantillon, le lot local, et ensuite vous trouvez un descripteur pour chaque orientation dominante qui vous donne vos descripteurs à retenir à nouveau, comme comment il a parlé pour un vol. Vous pouvez prendre plusieurs descripteurs pour chaque objectif. Point clé, s'il y a différentes orientations dominantes, nous en avons parlé. Ok. Maintenant à la fin de la, cette étape. Nous avons un tas de descripteurs en image, un, un tas de descripteurs en image à part, alors que nous allons de l'avant pour chaque descripteur dans une image, nous trouvons que c'est deux voisins les plus proches dans l'image suivante. Pourquoi ce n'est qu'une méthode que vous pouvez, vous pouvez aussi prendre d'autres types de voisins les plus proches. Si vous voulez. Si vous, dans ce cas, nous prenons deux voisins les plus proches et nous évaluons ensuite le rapport de la distance de la première à la distance de la seconde. Donc vous avez une distance entre le descripteur et la première image, le premier match dans la seconde image et la distance du descripteur de la première image, le même distributeur, le second match le plus proche. Le rapport entre les deux est un, ce qui signifie que les deux sont de bons matches. Si dans un cas la distance est très faible, mais dans le second cas, les étudiants sont très élevés. Vous savez peut-être maintenant lequel d'entre eux est sensiblement plus proche. Vous pouvez les faire pression pour savoir lesquels d'entre eux sont des matches forts. Donc, chaque fois qu'il y a un problème, vous savez, que vous avez trouvé un match très fort parce que la deuxième année est loin est très loin. C'est un problème qui pourrait être mesuré. Donc, chaque fois que vous avez un grand lot, vous allez considérer cette correspondance. Et vous, après avoir fait tous ces matchings, vous avez une liste de correspondances entre l'image une image deux. Qu'entendons-nous par correspondances? Vous dites simplement ce descripteur. L'image, on correspond à l'image, deux, quelque chose comme ça. Vous pouvez concevoir sur la table des correspondances entre ces deux, entre les descripteurs de ces deux images. Ok. Voici votre dernière station de la question de la meilleure. Donc vous pouvez voir ici que pour des correspondances correctes, vous pouvez voir que le rapport des distances forme ce genre de distribution il est beaucoup plus petit, mais ce qui est incorrect correspond au rapport continue vers le haut et plus loin vers ce que signifient les correspondances correctes. Le ratio sera proche d'un, ce qui signifie le premier. Match est aussi bon que le deuxième match, alors vous n'êtes pas sûr que le match soit assez fort et que la première distance de match soit beaucoup moins grande que la seconde distance. Tu sais que tu fais du bon boulot. Vous ne pouvez pas dire, par exemple, étendre cela à des voisins plus proches et élargir la notion de problème. Si vous voulez obtenir plus, uh, pour obtenir une meilleure idée de robustesse de ce match. Une fois que vous avez identifié ces bonnes correspondances, plus, et ensuite essayé d'estimer lesquelles sont en couches avec le zoom de transformation rigide. Avant d'y aller, essayons de savoir pourquoi c'est un processus difficile par lui-même? Ok. Nous avons déjà parlé de quelques pas. Premièrement, nous devons choisir des points clés ou de tels types de correspondances, ce qui permet un brouillage avec transformation qui peut ne pas être trivial dans plusieurs images, ajuster le modèle ou la transformation de la géométrie aux correspondances que nous avons trouvées pourrait être sensible aux valeurs aberrantes. C'est possible seulement par hasard que votre correspondance aurait pu être erronée parce que dans la nouvelle image, peut-être qu'il y avait un nouvel artefact qui est entré. Ce qui n'a pas été fait dans la première dimension, qui a fini par correspondre au point clé et à la première dimension dans ce cas particulier, il pourrait tout simplement être une correspondance aberrantes, ce qui pourrait rendre votre modèle de géométrie un peu plus difficile à trouver dans les couches à une transformation. Vous devez tout d'abord trouver une transformation à ce jour. Je vous ai dit que vous pouvez assumer une transformation, mais en supposant qu'une transformation n'est pas triviale. Vous avez besoin de connaissances de domaine. Vous devrez peut-être faire quelque chose de plus pour être en mesure de découvrir ce qui devrait être la transformation en premier lieu avant d'adapter ces correspondances à une transformation dans certains cas, comme les valeurs aberrantes peuvent aussi avoir un ennemi croisé. Il est probable que dans certains cas, les correspondances peuvent conduire à des erreurs. Il est possible que Hitachi n'ait pas été le bon descripteur pour obtenir des correspondances pour certaines fonctionnalités. Vous pourriez donc avoir des erreurs dans ce genre de cas. Et même les couches sont souvent inférieures à 50% de vos correspondances totales, généralement moins, mais sont généralement inférieures à 50%. Donc, ce qui signifie que le nombre de couches que vous voulez rester à la fin est très peu que vous pouvez vraiment jouer avec. Donc pour la prochaine partie, pour être en mesure de comprendre comment faire correspondre ces correspondances au modèle de transformation logit? Parlons en fait de ce que nous entendons par les transformations de géométrie ici. Qu'entendons-nous par les transformations ici? Puis nous reviendrons, puis nous essayerons d'aligner les correspondances sur une transformation particulière. Compte tenu de deux images que je prime. Mais égal aux points de données X et expliquez, nous savons que j'ai X est égal. Est-ce que je prime? Je vous explique ceci simplement dit que dans ces deux images, vous pouvez mapper le point X au point arrivé à expiration dans la seconde image, ou vous pouvez écrire ce que nous X prime est une transformation de X. Nous avons obtenu le point expliqué par peut-être la rotation de la première image ou en traduisant la première image ou en zooming dans la première dimension ils vont à Netflix à tous ces types de transformations. Il s'agit d'une échelle de translation de rotation comme matrice de vision danseuse. Et qu'est-ce qu'il fait? Une opération qui vous emmène d'un vecteur sur notre place et vous donne un autre vecteur dans notre script. Le moment, tout événement, n'importe quelle matrice peut être considéré comme une transformation dans cette perspective. Alors donné un point, un endroit de coordonnées, X Y à l'image une, la mission danseuse peut prendre de la vitesse, vous emmène à un autre point. Expliquez pourquoi votre deuxième image est fière. Et cette transformation va l'être par injection. Ce qui veut dire qu'il s'agit d'un match un à un entre l'image une image deux tous les points de l'image, un match à un seul point de l'image deux et chaque point de l'image trop est à un seul point de l'image un, ça va être un budget. Faisons l'étude. Il semble que ces transformations soient envoyées. C'est une matrice. Donc, pour un certain ensemble de transformations communes, ces transformations assez bien définies, surtout dans les transformations corporelles mortes. Et cela a été largement étudié, en particulier dans la vision graphique métier dont nous avons parlé lors de la première conférence. Nous en parlerons brièvement. Maintenant, vous comprenez comment le rapprochement est fait. Supposons que vous avez ce triangle vert dans la première dimension. Et vous le traduez plutôt, vous le déplacez légèrement le long de l'axe des x, l'axe des y le long du bateau, mais ces axes, il se déplace vers un endroit légèrement différent. Dans la deuxième image. Dans ce cas particulier, vous devez définir la transformation à donner par une matrice trois croix trois, qui nous a donné un zéro zéro, qui est le top deux, les deux plus deux croix deux de cette matrice. Ensuite, vous avez qui correspond à la translation le long de l'axe des x. Et la traduction le long de l'axe des y. Si vous y travaillez et chaque fois que vous appliquez cette transformation sur X, Y et un, on est simplement utilisé comme coordonnée normalisée pour représenter cette transformation, nous obtenons un résultat qui est exact pourquoi? Pourquoi? Alors, analysons ça un peu attentivement. Il s'agit simplement d'une transformation vectorielle matricielle. Si vous avez simplement fait une traduction vectorielle matricielle, vous verrez qu'il s'agit simplement d'une autre façon d'écrire un système d'équations. Et le système d'équations dit que X plus PX est égal à expliquer. De même, vous avez Y plus B Y est égal à Dwight vide. La troisième n'a pas d'importance. Vous allez juste en avoir un est égal à un. Peu importe, mais c'est exactement ce que vous cherchez. Ce n'est qu'une autre façon. C'est juste un système d'équations. Je veux dire simplement écrire le système d'équations en termes de spectre de maintenance, transformation de la transformation de la matrice sur un vecteur pour vous donner un autre vecteur. C'est la traduction. Voyons un autre. Si vous avez pris une rotation, ce triangle vert est maintenant tourné. Il n'y a pas de traduction. Il n'y a qu'une rotation. Vous pouvez voir le est, euh, le port ici pour la traduction, ce qui veut dire qu'il n'y a pas de traduction, mais il y a une rotation. Ouais. Et dans ce cas, c'est donné par le coût de la recherche moins les scientifiques, les scientifiques, les données de coûts dans la partie supérieure pour traverser deux des trois mesures coûteuses. Je vous laisse examiner plus attentivement. C'est une expansion simple. Encore une fois, vous avez un X coût moins Y signe DDA est égal à expliquer et excité. Les données de coût Y sont égales à Y à droite? C'est simplement cela qui présente une nouvelle coordonnée basée sur votre angle de rotation. Donc vous pouvez voir ici que si vous êtes retourné à la diapositive précédente en traduction, il y a deux degrés de liberté PX et B blanc. En rotation, un seul degré de liberté, qui est donné par les données de la transformation, s'appelle la transformation de la similarité, qui a quatre degrés de liberté, qui combine ou addition doit être deux degrés de liberté pour faire la traduction. Mais vous avez aussi un aspect d'échelle ici, qui est donné par l'art, qui peut changer la taille de l'objet. Et la deuxième image, laissez-moi voir la taille ou l'échelle. Rappelez-vous qu'il va correspondre au zoom avant ou zoom arrière en termes de caméra par mètre. Donc maintenant vous avez OD le canard DX et D Y quatre degrés de liberté dans cette géométrie. Parlez-moi, attendez. C'est un autre exemple de transformation de similarité où vous pouvez voir le zoom, le zoom arrière en action, où l'art a une valeur différente de zéro ou une valeur autre qu'une valeur pour être capable de montrer une transformation de similarité où l'art est ouvert, j'ai regardé la sommation est connu comme la pure transformation. Vous pouvez voir ici comment le triangle se transforme dans l'image. Une image deux, c'est connu sous le nom de cisaillement où vous appliquez la pression dans l'un des. Sur l'un des côtés du triangle et étendu et garder les autres sites, peut-être contrainte. Donc c'est même en changeant seulement ces quantités, B X, B Y dans votre, uh, dans votre transformation et le reste reste un. Donc c'est pour la pure, vous pouvez éclairer les questions de pur X plus B X, Y est égal à ne pas exciter. B par X. Enfin, pourquoi est-il crédible Whitehead? Il s'agit simplement d'un système linéaire d'équations permettant d'écrire la transformation pour le centre commercial. Une transformation populaire connue sous le nom de transformation affine est donnée par six degrés de liberté, où vous pouvez avoir des valeurs pour n'importe lequel de ces six sports dans votre matrice de transformation dont nous avons parlé. Ok, vous allez vous en tenir à ces ensembles de transformations corporelles. A ce stade, il y a beaucoup de missions qui utilisent également ces valeurs en bas, qui vont protéger vos transformations de perspective de transformations. Nous n'allons pas y entrer dans le temps. Nous voulons nous en tenir à de belles observations. Donc dans tous ces cas, comme vous pouvez le voir. En utilisant ces correspondances provisoires que nous obtenons entre les correspondances. Nous pouvons trouver les correspondances express avec X et Y dans votre image. Un, expliquez pourquoi dans l'image deux pourrait être en correspondance avec X Y à l'image une. Nous avons donc déjà une liste de correspondances basée sur ces appariements de distributeurs. Notre travail est de découvrir quels sont les paramètres de cette transformation? C'est ce que nous voulons chercher. Il s'agit clairement de résoudre un système d'équations linéaires. Nous voulons donc résoudre un système linéaire. X est égal à B où X et B sont les coordonnées des correspondances du point de savoir des images, INI prime, et il contient nos paramètres de modèle que nous voulons savoir. Idéalement parlant. Si nous avions les degrés de liberté dans une donnée dans une, dans une transformation donnée, vous avez idéalement besoin du plafond de Beibei deux correspondances, par exemple, pour la traduction, deux degrés de liberté, ce qui signifie que vous avez besoin d'une nouvelle correspondance. Si vous avez un point dans une image, et un autre point dans la deuxième image, vous pouvez trouver le X et le Y parce que vous saurez combien vous déplacez le suivant et combien vous bourez. Donc, si vous avez des degrés de liberté D, vous avez besoin de D Baidu au plafond comme le nombre de correspondances de votre, uh, de l'utilisation de vos distributeurs. Ok. Maintenant, comment tu peux résoudre ça? D'accord. Donc nous savons maintenant que juste pour rappeler, répéter ce dont nous avons parlé jusqu'à présent, nous avons trouvé des points clés dans chacune des images que nous avons trouvé des descripteurs, puis nous avons mis en correspondance les descripteurs entre ces deux images. Et ensuite, sur la base de l'approche du voisin le plus proche, nous élaguons ces concordances à quelques ensembles de correspondances descriptives, qui sont fortes. Et parmi ces B veulent maintenant savoir lequel d'entre eux va convenir à mon modèle de Dick que je suppose pour ma transformation entre les deux images. Donc, si je suppose, et une transformation fine maintenant, en utilisant ces ensembles de correspondances que j'ai, je n'ai pas eu à résoudre pour. Ces six valeurs. C'est ma transformation. Et une fois que j'ai résolu ces valeurs, je sais quelle était la transformation entre ces deux images? Donc je peux simplement placer une sur une image sur l'autre, en utilisant à nouveau la transformation, et être capable de les mélanger et de créer un Panorama. Nous avons donc laissé à une seule tâche la façon dont vous évaluez ces paramètres. Compte tenu de ces correspondances, commençons par l'approche la plus simple à tous. Si vous avez deux points pour la ligne, c'est l'approche la plus simple que nous connaissons tous le modèle le plus simple que nous puissions imaginer. Disons que les bouchons les plus gros à utiliser, mais disons pour décrire cela plus loin, donc vous pouvez au moins approcher pour ajuster les correspondances. C'est ce que vous feriez. Si vous avez un tas de correspondances ici, il s'agit de données propres, pas beaucoup de valeurs aberrantes. L'ajustement des moindres carrés vous donnerait une assez bonne équation pour les linemen. Ouais. Nous ne parlons que de la transformation et du psychisme, mais nous reviendrons sur la façon dont vous évaluez les paramètres de l'estimation du temps. Et si vos correspondances sont claires, alors les champs les moins parfaits et vous donnent une réponse très différente par rapport à ce qui aurait dû être. D'accord. Alors que faisons-nous ici? Voici quelques illustrations visuelles de la façon dont le sac à dos fonctionne pour différents types de transformations. Voici un exemple de rotation. C'est le livre original. Rotation dans une certaine mesure et vous pouvez voir ça, uh, pas un livre. Désolé. Je pense que c'est une boîte. Et c'est la boîte à pieds placée dans un endroit différent dans la seconde image et ransack trouve assez bonnes transformations entre ces deux réglages. Il fonctionne également bien à l'estimation. Ce que l'on appelle une matrice de transformation ou un menu de matrice fondamentale se rapporte à deux vues de la même image. Si vous avez deux vues différentes, rappelez-vous que vous construiez un modèle 3d d'une scène donnée. Et si vous voulez construire un modèle 3d de dire la statue, vous devez idéalement prendre plusieurs images en déplaçant lentement autour de cet objet 3d particulier, et vous obtiendrez un modèle 3d. Et dans chacun de ces cas, entre chaque lit d'images que vous avez capturé, vous avez l'estimation, cette matrice de transformation, qui est aussi connue comme la matrice fondamentale dans ce cas particulier.