Loading
Study Reminders
Support
Text Version

Set your study reminders

We will email you at these times to remind you to study.
  • Monday

    -

    7am

    +

    Tuesday

    -

    7am

    +

    Wednesday

    -

    7am

    +

    Thursday

    -

    7am

    +

    Friday

    -

    7am

    +

    Saturday

    -

    7am

    +

    Sunday

    -

    7am

    +

Nous allons maintenant passer de noyaux correspondants à des grains correspondants pour les pyramides d'images. Par exemple, avoir une pyramide à plusieurs résolutions d'images et être en mesure d'utiliser cette idée pour développer des noyaux correspondants. Les diapositives ont une fois de plus emprunté les conférences du professeur Avrithis à Inria Rennes. La correspondance des descripteurs, comme nous venons de le voir dans la conférence précédente, peut être donnée par, vous avez Xc et un Yc similaire pour les fonctionnalités qui appartiennent à un mot visuel particulier dans les images X et l'image Y. Alors un noyau correspondant pour quelque chose comme un sac de mots pourrait être donné par sommation sur les mêmes centroïdes de grappe juste en comptant le nombre de fonctionnalités qui lui appartiennent. Vous pourriez aussi inclure un facteur de pondération pour chacune de ces sommations si nécessaire. Et une forme plus générale que nous avons vu la dernière fois est ce que vous voyez ci-dessous, qui est K (X, Y) = γ (X) γ (Y) ∑ M (X,) Cteaux C Wc c Y c Wc is a weight that we are introduction, which we can choose to use or not and M of Xc Yc, where M is the matching function. (01:45) Maintenant, nous parlerons d'aller au-delà de la mise en correspondance et de l'appariement au niveau des pyramides et nous décrirons un travail séminal dans ce contexte connu sous le nom de "pyramides jumelles". Ainsi, la mise en correspondance pyramidale est une méthode efficace qui mappe les jeux de fonctions non commandés, c'est-à-dire ce que chaque image est, chaque image est un ensemble non ordonné de fonctions. Nous allons convertir cela en histogrammes à résolution multiple et ensuite faire des correspondances en utilisant des histogrammes multirésolution pondérés. Nous pouvons donc idéalement commencer par la cellule d'histogramme de résolution la plus fine où une paire appariée apparaît pour la première fois, et ensuite nous conservons les histogrammes à mesure que nous allons monter la pyramide dans ce contexte particulier. Et le travail a une très belle interprétation où il peut être montré qu'il se rapproche d'une similarité dans un paramètre de correspondance partielle, où si vous n'aviez qu'un ensemble partiel de fonctionnalités dans une image, correspondant à un fil, ensemble de fonctionnalités dans une autre image, le noyau de correspondance pyramidale se rapproche de cette correspondance partielle optimale entre ces deux images. Pour plus de détails, je vous recommande également de lire cet article appelé "kernel match". Il est écrit très bien et explique en détail certaines de ces idées si vous êtes intéressé à en savoir plus. Commençons par définir l'intersection des histogrammes, car nous allons définir des histogrammes dans les deux images. Il va de soi que nous allons les définir à plusieurs niveaux, mais parlons-nous de la manière de faire correspondre les histogrammes dans ce contexte. Donc si vous aviez deux histogrammes x et y de b bacs chacun, alors disons que c'est x, et c'est y, les deux sont des histogrammes avec b bins chacun. Nous définissons l'intersection des histogrammes au minimum de xi, yi, un élément de l'histogramme dans ces deux images et additionnons ces éléments sur tous les b bins. Donc vous prenez le premier bac d'histogramme, le premier bac de la seconde, prenez la valeur minimale, prenez la valeur minimale du prochain bac dans l'histogramme et ajoutez-les tous. C'est ce que nous définissons comme l'intersection de l'histoire. Fait intéressant, vous pouvez montrer que cette notion d'intersection d'histogramme, que nous définissons sous le nom de Kappa sub-HI, a une relation avec la distance L1. Nous n'allons pas le prouver ici, mais le laisser probablement comme un exercice pour vous. Vous pouvez voir que la distance L1 entre deux vecteurs, x et y peut être donnée par | |x − y | | |x | | |y | | κ (x,) 1 = | 1 + | 2 − 2 HI y Essayez par vous-même. Prenez quelques sorties, prenez quelques exemples de x et y, vous verrez que c'était en pratique. Essayez de prouver cela aussi si vous le pouvez. C'est un exercice intéressant pour vous de travailler, mais vous pouvez montrer que cette distance d'histogramme est liée à la distance L1. Rappelez-vous que la distance L1 est la somme des valeurs absoluelles de ce vecteur. (05:16) Revenons au noyau de la pyramide maintenant. Nous avons donc dit que le noyau de correspondance pyramidale fait une somme pondérée d'intersections d'histogramme à différents niveaux de deux images, et qu'il se rapproche de la correspondance optimale par pairsage. Nous en parlons donc d'abord, puis nous donnerons un exemple concret et nous allons voir comment cela se fait. Donc si vous aviez ces deux images du même objet de poses différentes, des angles de vue différents, vous pourriez avoir, une fois de plus, vous avez extrait des points clés et ces points clés pourraient être ces points de pose en puissance de R d. Vous disposez d'un ensemble similaire de fonctions reposant sur la puissance de R pour la seconde image. Alors maintenant, vous avez tout l'espace de fonctionnalité que vous divisez en grille par exemple. Et maintenant vous allez compter combien de fonctionnalités dans une image se produisent dans chacune de cette grille de l'espace de fonctionnalité qui va définir un histogramme. Vous devez faire correspondre l'histogramme à ce niveau. Ensuite, réduez la grille et fusionnez les régions de votre grille en R puissance d dans votre vecteur D dimensionnel en supposant que cette taille du descripteur correspond à la fonction, à votre correspondance à ce niveau, ainsi de suite. Et une intuition ici est que vous voulez donner un poids plus élevé aux matches à un niveau final et un poids plus bas pour les allumettes à un niveau plus élevé où les bacs d'histogramme peuvent être fusionnés. Nous donnerons un exemple concret et nous marcherons sur cette idée. (06:50) Considérons maintenant que vous avez un ensemble de fonctionnalités, un ensemble non ordonné de fonctionnalités dans l'image X, qui est donné par ces points bleus, un ensemble de fonctionnalités similaires non ordonnées à l'image Y, même par les points rouges. Souvenez-vous, ce sont des points, ce sont des descripteurs de ces fonctionnalités qui se trouvent dans la puissance de R d et vous allez les bin dans un très beau bac de fonctionnalités dans cet espace. Donc il est possible que ce point bleu soit couché dans cette poubelle, ce point bleu était couché dans cette poubelle et ainsi de suite. Vous venez de faire passer l'ensemble de la région de puissance R dans différents bacs et vous placez chaque point clé dans chaque image dans l'un de ces bacs en fonction des valeurs du descripteur. Maintenant, vous avez un point 1-D, c'est X, Y sur la grille de la taille 1. Nous allons l'appeler taille 1. C'est la meilleure résolution. (07:51) Donc maintenant nous définissons des histogrammes. Ainsi, vos histogrammes de niveau zéro vont être ce bac particulier dans votre grille de puissance de R comme un seul composant. Cette poubelle en R de puissance d in X possède une caractéristique. Cette poubelle en R puissance d a une fonctionnalité dans l'image X et une fonction à l'image Y, ainsi de suite. Vous pouvez donc construire votre histogramme. Évidemment, il est possible que vous puissiez avoir une autre fonctionnalité ici de Y dans le même casier, mais au premier niveau, nous créons ces bacs de telle façon ou vous pouvez toujours définir des bacs à un niveau très fin. C'est à dire que vous créez ces bacs de manière à ce qu'il n'y ait qu'une seule caractéristique dans chacun des bacs. Il va de soi que nous les fusionnerons au fur et à mesure que nous serons en mesure de les combiner de manière plus efficace. Donc, sur la base de ces histogrammes, quand vous essayez de les allumez, n'oubliez pas que notre intersection d'histogrammes va être la moyenne de chaque élément. Donc vous allez être laissé avec l'intersection, qui est simplement une valeur ici pour ce casier et une valeur ici pour ce bac, tous les autres bacs ont un des éléments dans X ou Y à zéro, ce qui signifie qu'ils seront enlevés. (09:09) Donc vous avez deux allumettes maintenant entre les images X et Y et vous allez les pondérez par une valeur 1. Donc votre score total de similarité va maintenant être de 2 dans 1, ce qui est 2. (09:24) Maintenant, nous allons fusionner vos bacs d'histogramme. A l'origine, si vous aviez dit environ 20 bacs d'histogramme, vous devez fusionner tous les consécutifs, tous les deux contigus et les faire passer dans 10 bacs. Et maintenant vous voyez qu'il est possible qu'il y ait deux fonctionnalités dans l'image X qui appartiennent au même casier et ainsi de suite. Nous construisons maintenant ce qui est connu sous le nom d'histogrammes de niveau 1 où nous comptons le nombre de fonctionnalités dans chacun de ces bacs fusionnés dans l'image X et l'image Y. Vous voyez qu'il y a deux occurrences de fonctionnalités dans ce casier. De même, il y a deux occurrences de fonctionnalités dans ce casier à l'image X, mais l'image Y n'a qu'une seule fonction dans chaque bac. Sur la base de cela, nous construisons l'histogramme pour l'image X, construisons l'histogramme pour l'image Y. Et maintenant vous calculez l'intersection de ces deux histogrammes et vous trouvez qu'il y a quatre correspondances. Mais vous ne comptez pas toutes les quatre allumettes, vous comptez combien de nouvelles allumettes sont ajoutées. Donc nous allons seulement regarder combien de nouveaux matches sont ajoutés en appariant ces histogrammes, ce qui va être que nous avons eu deux matches plus tôt, nous avons quatre matches maintenant, les nouveaux matches seraient deux. Donc maintenant vous considérez ces nouveaux allumettes, vous les pondérez de moitié. Pourquoi la moitié, rappelez-vous un match à un niveau plus proche, on donne moins de poids qu'un match à un niveau plus fin, parce que le meilleur niveau correspond à un match plus proche. Donc vous prenez ces deux nouvelles allumettes les pondérées de moitié et maintenant votre score de similarité devient 2 en 1 à partir de la diapositive précédente plus 2 en 1/2, ce qui va totalement être 3. (11:19) Maintenant, nous continuons ce processus, vous faites maintenant vos bacs d'histogramme juste cinq en nombre, ce qui signifie que le nombre de fonctionnalités que vous allez avoir dans chaque bac va augmenter. Vous pouvez maintenant avoir trois fonctions dans cette poubelle à l'image X, ainsi de suite. Une fois de plus, vous pouvez obtenir l'histogramme pour X, l'histogramme pour Y, vous calculez l'intersection, qui va maintenant vous donner le nombre de correspondances à 1 plus 2 plus 2, ce qui va être 5, mais vous avez déjà eu quatre allumettes au niveau précédent. Donc, le nombre de nouveaux matches ne sera qu'un, donc le nouveau match ne sera qu'un. Donc le score de similarité va maintenant être donné par 2x1 + 2x1/2 + 1x1/4, parce que vous réduis encore plus le poids quand vous allez à un niveau encore plus élevé. Votre score total de similarité est donc de 2 plus 2 en 1/2 plus 1 en 1/4, ce qui va être de 3,25. (12:29) Essons donc de le faire ensemble. Donc donné comme le jeu X qui est constitué de n différentes caractéristiques chacune appartenant à la puissance de R d. Supposons que les distances de ces éléments varient entre 1 et D. Cela nous aide à construire vos bacs pour construire l'histogramme. Une fois que vous connaissez la distance maximale entre les éléments, vous pouvez jouer avec vos bacs d'histogramme pour les définir en conséquence. Ainsi, nous allons définir Xi comme un histogramme de X en puissance de R sur une grille régulière de 2 puissance de longueur latérale i. Donc nous commençons par histogramme au niveau 1, histogramme au niveau zéro, niveau 2, ainsi de suite. Techniquement parlant, nous allons commencer i à moins 1, mais à moins 1, il n'y a pas de correspondance. C'est uniquement pour des raisons de commodité mathématique, comme nous le verrons dans un instant. Ensuite, nous conservons le nombre de niveaux d'histogramme jusqu'à ce que le log D où se souvienne D utilise les distances maximales entre les éléments. Alors maintenant deux images avec les descripteurs X et Y, nous allons définir l'ancienne correspondance de la pyramide comme K (X,) γ (X) γ (Y) (κ (X,) (X,)) Δ Y = ∑ l i= 0 1 2 i HI i Y i − κHI i− 1 Y i− 1 Et à chaque niveau, vous allez compter le nombre de nouveaux allumettes. Le premier terme compte le nombre de correspondances à ce niveau, le second terme compte les correspondances au niveau précédent et vous allez continuer à le construire. Donc à chaque point, cela va faire référence au nombre de nouvelles paires appariée. Donc cette différence peut aussi être écrite, la sommation des différences plutôt peut aussi être écrite. Si vous développez ceci, vous obtiendrez une somme de télescopage parce que vous avez un i est égal à 0, vous avez 1 par 2 puissance 0 en κH (X,) (X,) I 0 Y 0 − κHI − 1 Y − 1 que vous ignorez, ce terme est quelque chose que vous ignorez. Ensuite, vous aurez plus 1 par 2 dans kappa de X1 par 1 moins kappa X0, Y0. Donc les termes X0, Y0 seront communs entre ces deux éléments qui garderont le télescope. Donc si vous les mettez tous ensemble, vous constateriez que la somme de télescopage peut être écrite comme 1 par 2 puissance L dans κ (X,) , qui sera au plus haut niveau plus tous les autres termes L Y L aura, donc, par exemple, prenons un exemple particulier. Si vous prenez i est égal à 1 et i est égal à 2. At i est égal à 1, vous allez avoir 1/2 pour la simplicité nous allons juste le lire comme κ (X,) (X Y). Et à i est égal à 2, vous allez avoir 1 Y 1 − κ 0, 0 κ (X,) (X Y). 4 1 2 O 2 − κ 1, 1 So this κ (X,), κ (X,) Sera soustrait et vous serez laissé avec 1/4 en 2 1 1 Y 1 4 1 1 Y 1 kappa X1, Y1 et c'est ce que vous écrivez ici. Donc, ce qui signifie X1, Y1 n'aurait qu'un quart de gauche parce que l'un d'entre eux sera annulé. Donc vous serez laissé avec 1 par 2 power i plus 1 kappa de Xi, Yi. Dans le cas présent, il s'agit simplement d'une simplification de la somme de télescopage que nous voyons dans l'équation ci-dessus. Donc c'est juste une représentation mathématique de l'exemple que nous venons de voir au cours des dernières diapositives. (16:32) Maintenant, on peut montrer que cette fonction delta K que nous venons de définir est vraiment un noyau positif. Rappelez-vous encore, si vous vous souvenez de votre discussion sur les noyaux dans les machines vectorielles de support et l'apprentissage automatique, vous vous souvirez qu'un noyau positif positif a des avantages parce qu'il satisfait le théorème des muscles et que l'efficacité de calcul augmente, si votre noyau satisfait à cette propriété. Voyons comment cela se tient ici. Rappelez-vous maintenant que le delta K est écrit comme une somme pondérée de termes kappa HI avec des coefficients non négatifs. Quels sont ces coefficients non négatifs, 1 par 2 puissance i. Qui sont des coefficients non négatifs. Et puis vous avez une somme pondérée de différents termes kappa HI. Voilà les termes auxquels nous faisons référence. C'est ce que K est. Ou si vous regardez Δ soit de ces équations, il s'agit simplement d'une somme pondérée de kappa HIs. Et nous savons aussi que chacun de ces κH qui est votre histogramme intersections est simplement une min de valeurs I' Dans chaque casier. Il s'agit donc d'une somme de termes min. Maintenant, nous savons que le min peut être écrit comme un produit point. Comment, si vous aviez un nombre 3, et si vous aviez un nombre 5, je peux écrire 3 comme j'ai mis 1, 1, 1 pour les trois premières valeurs, puis zéro, zéro, zéro en supposant que je peux aller jusqu'à la valeur 8. De même, pour cinq, j'ai 1 dans les cinq premiers indices suivis de trois zéros. Maintenant, la min de ces deux valeurs, qui est trois, est simplement un produit dot entre ces deux vecteurs binaires, ce qui veut dire que je peux écrire min comme un point de produit et que le reste d'elle maintenant tombe bien parce qu'une somme de points que vous avez min pour être un produit point, la somme des termes min peut aussi être écrit de cette façon et une somme pondérée de ces termes kappa HI avec des coefficients non négatifs peut aussi être écrit de cette façon, ce qui signifie que vous pouvez écrire votre K delta entier comme un noyau bien défini positif. Dans le cas où il y a des parties qui ne sont pas claires pour vous, s'il vous plaît aller de l'avant et lire la pyramide du papier du noyau pour être en mesure d'obtenir un meilleur sens de ça. Donc, une question ici est que nous avons juste dit ici que le min peut être écrit comme un produit dot en écrivant chacun des nombres que vous avez là dans ce formulaire. Si vous avez écrit chacun de ces nombres dans cette forme particulière, alors min devient un produit point. Donc vous pourriez me poser la question. Vous avez simplement extrapolé le produit point à une somme de termes min et ensuite la somme des termes min à une somme de termes kappa HI avec des coefficients non négatifs et a continué cela comme positif défini. Alors, quelle serait la représentation des éléments sur lesquels K delta est un noyau positif, ce qui serait que l'incorporation. Pendant le min, l'enchâtage l'a écrit de cette manière, en écrivant à chaque numéro simplement comme en énumérative, d'une manière énumérative. Ce qui serait l'incorporation correspondante sur laquelle K delta devient un noyau positif. Savoir ce que l'enchâtage, c'est essayer d'analyser cela un peu plus attentivement. (19:57) Si vous aviez deux images X et Y pour des raisons de commodité, supposons que X possède un nombre de fonctions inférieur à celui de l'image Y. Rappelez-vous que ces deux images ne sont pas des ensembles ordonnés de fonctions. Cela pourrait aussi être l'inverse. C'est sans perte de généralité. Dans ce cas, il serait simplement retourné. Mais sinon vous pouvez supposer que l'un est moins que l'autre en termes de cardinalité des fonctionnalités. Et c'est de définir une fonction pi qui nous emmène de l'image X à l'image Y de telle façon que pi est un-à-un, ce qui signifie pour chaque fonctionnalité de l'image X, vous trouvez la fonction la plus proche de l'image Y. Dans ce cas, la correspondance optimale par pairsage est donnée par, vous prenez une fonction de l'image X, vous trouvez la caractéristique la plus proche dans l'image Y, vous prenez la distance L1 entre ces deux fonctionnalités et vous allez trouver le pi de la fonction qui vous emmène de l'image X à l'image Y qui vous donne le moins qui, désolé, qui maximise la réciproque de cette distance. Rappelez-vous, la réciproque de cette distance va vous donner un sens de la similarité à cause de la réciproque que vous voulez trouver la fonction pi qui vous donne la distance maximale de cette distance. Pour ceux d'entre vous qui sont un peu plus familiers avec les métriques de distance, vous constateriez qu'une telle représentation est similaire à ce que l'on appelle la distance de la Terre, qui est donnée par min |x (x) | |. Rappelez-vous qu'il s'agit d'une mesure de distance, alors que cette représentation π ∑ xnavigabilité X | − π 1 d'une correspondance optimale par pairsage est une mesure de similarité, ce qui explique pourquoi vous avez max ici et que vous avez une minute ici. N'oubliez pas que la distance et la similitude sont des idées complémentaires. Si l'un est élevé, l'autre doit être faible, ainsi de suite. Donc il se trouve que la définition de X comme nous l'avons fait, où nous l'avons définie en termes de points de grille et d'histogrammes, etc., et ainsi de suite et en prenant une norme entre ces intersections, nous donne en fait l'enchâtage. Pour plus de détails, ceci pourrait être un peu mathématiquement impliqué, mais pour les détails de ceci, veuillez voir ce document particulier appelé extraction rapide d'image via incorporation. Mais l'idée centrale que vous voulez enlever d'ici est que le noyau de la pyramide de correspondance définit un noyau positif qui le rend efficace parce que nous savons qu'un noyau bien défini positif qui satisfait le théorème de Mercer a un certain avantage dans les calculs utilisant le tour du noyau et aussi que l'incorporation qui correspond au noyau vient d'a, peut être lié à la distance L1 entre ces valeurs X et ce document particulier le décrit plus en détail. Et rappelez-vous qu'une fois de plus, le noyau pyramidal est une mesure de similarité comme n'importe quelle autre fonction du noyau et il ne pénalise pas les bavardages sauf pour la normalisation. Ce que nous voulons dire c'est qu'il est possible que de nombreuses fonctionnalités puissent être assemblées dans une certaine section de votre espace de puissance de R et que vous n'allez pas le pénaliser car cela augmenterait simplement le nombre d'intersections d'histogramme dans une corbeille donnée, etc. Il n'y a pas de pénalisation pour cela. La seule pénalisation que vous pourriez avoir est le facteur de normalisation que vous pouvez avoir ici dans votre définition de noyau. (23:51) On pourrait l'étendre au lieu de diviser la puissance de R en une grille uniforme où vous comptez combien de caractéristiques se trouvent dans chacune de ces lignes de puissance de R. Vous pouvez également regrouper toutes vos fonctions et maintenant le faire à partir d'un dictionnaire. Donc vous pouvez construire votre histogramme entier sur la base, jusqu'à présent dans la méthode dont nous avons discuté, les histogrammes n'ont pas besoin d'être basés sur un vocabulaire, ils auraient pu simplement diviser votre puissance R entière d d dans plusieurs bacs et compter le nombre de fonctionnalités qui se sont produites dans chacune de ces grilles. Mais vous pouvez également envisager de les regrouper, de regrouper vos points clés dans le vocabulaire, puis de construire vos bacs en fonction de ces centres de clusters. Ce serait simplement une extension de la méthode que nous avons jusqu'à présent, où nous remplacerions le réseau régulier par des cellules de vocabulaire hiérarchiques ou non hiérarchiques. Et comparé à l'arbre de vocabulaire plus tôt au début de la dernière conférence, nous avons parlé de la façon dont les moyens hiérarchiques K peuvent être utilisés dans le sac de mots. Et nous avons dit que l'une des préoccupations est qu'il n'y a pas de moyen de donner des poids à chaque niveau dans l'arbre. Maintenant, dans le noyau de la pyramide, nous avons en fait une méthode de principe qui a donné par 1 par 2 puissance i. Même ici, la qualité d'approximation peut souffrir à des dimensions élevées simplement à cause de la malédiction de la dimensionnalité et de la façon dont la distance est déformée dans les dimensions supérieures. (25:25) On pourrait étendre cette idée du noyau de correspondance pyramidale pour faire une approche de correspondance spéciale pure. Jusqu'à présent, nous avons parlé de la division. Vous prenez toutes les fonctions à partir d'images différentes et vous divisez l'ensemble de la puissance R d, qui est les descripteurs D dimensionnels pour les fonctions en grilles, puis générez vos histogrammes. Mais vous pouvez aussi construire ces histogrammes sur votre espace image. Dans ce contexte, ce que vous ferez est, disons que vous avez une image comme celle-ci, il y a une personne qui exécute une certaine action. Vous pouvez diviser l'image en quatre parties, en 16 parties et ainsi de suite. Et vous avez deux images différentes. Vous pouvez maintenant effectuer une correspondance en fonction des histogrammes. Combien de points appartiennent à ce casier, combien de points appartiennent à la corbeille droite, ainsi de suite. De toute évidence, dans cette approche, vous n'envisagez que les coordonnées des emplacements des fonctions. Vous n'avez pas pris en compte le descripteur ou l'apparence de cette fonction. Mais cette approche pourrait être utilisée pour tenter de faire correspondre la position d'une personne ou celle de la position d'une personne à l'égard d'une position antérieure, et ainsi de suite. Donc ceci peut être utilisé, mais a ses propres limites, parce que dans ce cas, vous comptez simplement combien les histogrammes se tournent pour être dans l'espace d'image spatiale, divisant l'image en parties plutôt que de prendre le descripteur du point clé et de faire l'histogramme dans l'espace de descripteur. Vous n'envisagez donc que les coordonnées ici ou la géométrie des points de l'image plutôt que la façon dont chacun de ces points apparaît. (27:14) Vous pouvez également combiner ces idées pour réaliser ce que l'on appelle la mise en correspondance de la pyramide spatiale. C'était une extension du noyau de la pyramide. Dans ce contexte, ce que vous pouvez faire, c'est que vous avez à nouveau un niveau zéro, très similaire aux noyaux de correspondance pyramidale, où vous prenez un ensemble de vocabulaire, vous groupez toutes vos fonctionnalités dans un vocabulaire et ensuite vous comptez combien de points appartiennent à chacun de ces centres de clusters et vous obtiendrez, disons, des bacs d'histogramme, comme ceux-ci. Maintenant, vous avez divisé votre image en quatre parties. Et maintenant, obtenez un bac d'histogramme pour chacun de ces mots visuels pour chacun de ces segments. Pour le segment supérieur gauche, vous obtiendrez une fois de plus un histogramme de trois bacs. Pour le segment inférieur droit, vous obtenez un histogramme de trois bacs, ainsi de suite. Donc les trois bacs proviennent du noyau de la pyramide guidée du vocabulaire, où au lieu de diviser votre espace de descripteur en bacs uniformes, vous construise des centres de clusters semblables à un sac de mots, puis vous comptez le nombre de fonctionnalités appartenant à chacun de ces mots visuels. Vous pouvez encore une fois diviser l'image encore plus loin. Maintenant, vous allez obtenir un nombre encore plus élevé de bacs d'histogramme correspondant à chacun de ces emplacements. Donc dans ce cas, votre noyau va être, vous avez votre amande pyramidal, mais vous allez maintenant le faire pour chaque partie de l'image et les ajouter toutes. Ainsi, les noyaux de correspondance pyramidale existent toujours pour chaque partie de l'image et vous continuez à le faire sur différentes parties de l'image. (28:51) Donc, on pourrait considérer ça comme un histogramme de géométrie d'apparence commune. Le noyau de la pyramide était donc un histogramme d'apparence pure parce que vous aviez construit les histogrammes dans l'espace du descripteur. Nous avons vu un exemple de la façon dont les amandes de correspondances pyramidales peuvent être apportées à une correspondance spéciale, ce qui était un histogramme de géométrie pure et la correspondance de la pyramide spatiale amène ces deux ensemble à créer ce que l'on appelle des histogrammes de géométrie d'apparence. Ils sont donc robustes à la déformation, pas complètement invariants aux transformations, mais assez robustes à la déformation par le simple processus que vous définissez, où vous envisagez l'aspect ainsi que l'endroit où chacune de ces caractéristiques s'est produite dans une image donnée, qui n'était pas là dans le noyau de match pyramidal du tout. Ainsi, ceci peut être utilisé pour la classification de scènes globales où une organisation différente d'objets ne doit pas déformer votre résultat final. (29:55) Une dernière méthode dont nous parlerons dans cette conférence, c'est l'appariement des pyramides, ce qui est clairement une extension du vote si vous vous souvenez. Donc, dans cette méthode, l'idée est, rappelez-vous que dans la correspondance pyramidale typique, vous préderiez un ensemble de fonctionnalités et les apparaisseraient à des fonctionnalités d'une autre image et vous pourriez le faire de manière rapide en utilisant des pyramides d'images si vous vous souvenez des discussions dans des conférences précédentes, où vous faites la première correspondance à un niveau de cours, puis à la correspondance finale à un niveau plus profond de la pyramide et ainsi de suite. (30:35) Donc vous pourriez avoir un tas de correspondances que vous obtenez de la correspondance au niveau des points clés. Et ce que nous allons faire maintenant, c'est de travailler avec ces correspondances au lieu de deux ensembles de fonctionnalités non ordonnées. Donc vous avez un ensemble de correspondances que vous obtenez déjà en faisant une pyramide rapide correspondant. Et souvenez-vous de l'idée centrale du vote de la charrue est chacun de vos correspondances votes pour une transformation particulière ou vous avez une hypothèse de transformation basée sur l'angle de rotation, l'échelle ou la traduction et chacune de ces correspondances vote pour une hypothèse particulière et nous allons maintenant construire des histogrammes dans cet espace de transformation. (31:21) Voyons un exemple ici. Vous pouvez supposer qu'une fonction locale P dans l'image P a une certaine échelle, une certaine orientation et une certaine traduction, position à lui dans ce cas particulier, qui est donnée par cette matrice de transformation. Rappelez-vous que cette matrice de transformation n'est qu'une façon différente d'écrire ce que nous avons vu plus tôt, où nous avons vu que vous avez rcos θ rsin θ -rsin θ rcos θ tx, ty, zéro, zéro, 1, quels constituants dans une transformation fine où r est une échelle, theta est l'orientation et tx et ty sont des positions. Ce n'est donc qu'une façon concise d'écrire une telle matrice. Donc, ces deux zéros correspondent à ce zéro vecteur ici. On est là pour la simplicité mathématique et ensuite ce s (p), R (p) correspond à l'échelle et l'orientation de ce point P, qui peut être écrit comme une matrice de deux cos et ce vecteur t de p correspond à la position de ce point particulier dans l'image. (32:41) En supposant que c'est comme ça qu'une caractéristique locale nous est donnée. Puis une correspondance entre une paire de caractéristiques p ∈ P et q ∈ Q peut être donnée par, F (c) = F (q) F (p), souvenez-vous que Fp est un − 1 point de représentation, de même, Fq sera la représentation du point q dans l'image Q et la correspondance entre ces deux points est donnée par [ [ s (c) r (c) tc ], [ 0 1 ] ]. Encore une fois, cela revient à votre rotation et à votre matrice d'échelle à venir ici, votre traduction tx, ty arriver ici, et votre zéro, zéro, 1. Maintenant, tx, ty ne sont pas que les coordonnées, ils sont autant que vous avez déplacé de l'image coordonnée X ou point P à la coordonnée q dans l'image Q. De même, l'échelle et la rotation vous dit, quelle est la transformation, combien vous avez fait tourner pour passer de l'image P à l'image Q, et combien vous avez zoomé ou zoomez pour passer de l'image P à l'image Q. Donc, si nous n'allons pas aller plus loin dans ce but, mais juste pour terminer cette discussion, ce tc peut être écrit en tant que tq, qui est l'emplacement de coordonnées de Q Moins sc tp. Pourquoi? Tq is the position in of q in image Q, tp is the position of point p in image P and sc, Rc says, how did you rotation p and how did you zoom p to get to a point in image Q and the difference between those two locations is going to be the actual translation tc. De même, vous pouvez définir le zoom relatif en ou zoom arrière pour être l'échelle en q divisé par l'échelle en p et la rotation, de façon similaire, à donner comme Rq dans Rp inverse ou l'angle est donné par l'orientation et l'image du point q dans l'image Q moins theta de p l'orientation de p in P. C'est ainsi que la correspondance est donnée. (34:52) Donc, revenons maintenant à l'appariement des pyramides. Ainsi, la transformation peut être donnée par un vecteur 4-D t (c) qui est tx et ty, s (c), le facteur d'échelle, et θ (c), qui est l'orientation de la différence de rotation. Donc vous allez définir une chose de plus avant d'entrer dans la pyramide de la pyramide, où si vous aviez deux correspondances p, q, et p', q', nous disons que ces deux correspondances sont contradictoires si soit p est égal à p'ou q est égal à q'ou plutôt si deux points de l'image P correspondent au même point de l'image Q ou un point de l'image P correspond à deux points de l'image Q, vous appelez cette correspondance pour être en conflit. Vous allez voir comment utiliser cette méthode lorsque nous allons à la diapositive suivante. (35:43) Alors, voyons comment fonctionne la pyramide des hough. Donc vous avez un ensemble de correspondances maintenant, qui sont posées dans votre espace 4-D, souvenez-vous de chaque correspondance comme tx, tx, s et θ. Donc, dans cet espace 4-D, vous allez avoir chacune de ces correspondances mise en place. Maintenant vous devriez être capable de dessiner des similarités avec le noyau de la pyramide, parce que maintenant vous allez faire toute votre pyramide de correspondance dans cet espace de transformation 4-D et c'est pourquoi nous l'appelons hough pyramide correspondant. Ainsi, chaque correspondance c est pondérée par quelques w (c) sur la base d'un mot visuel. Vous pouvez choisir d'utiliser ceci ou vous pouvez donner un, vous pouvez avoir un poids uniforme si vous le choisissez. (36:28) Ensuite au niveau zéro, qui est le premier niveau de correspondance, rappelez-vous où vous avez des bacs très granulaires. S'il y a des correspondances contradictoires dans le même bac, vous allez les effacer. Par exemple, vous voyez que c7 et c8 ont deux points différents de l'image P correspondant au même point de l'image Q. Donc vous allez supprimer l'un d'eux. Donc c7 est supprimé dans ce cas et vous ne conservez que c8. (36:56) Maintenant, dans chacun de ces bacs de cette pyramide, n'oubliez pas que ce regroupement est à nouveau dans l'espace de transformation comme cet espace 4-D de translation, d'échelle et de rotation. Donc, dans chacun de ces bacs b avec les correspondances de nb. Donc, par exemple, ce casier vous avez deux correspondances, ce casier vous avez trois correspondances. Donc chaque groupe de correspondance avec deux autres. Dans ce cas, il y en a trois. Donc, chaque groupe de correspondance avec trois autres et votre poids au niveau zéro va être 1 très similaire à la façon dont nous l'avons fait pour le noyau de correspondance pyramidale. Donc, maintenant, si vous voyez ici, vous voyez que vous avez les scores de similarité maintenant, qui est donné par, vous avez pour c1 qui est ici, vous avez deux nouveaux points sur deux nouvelles correspondances.