Loading
Study Reminders
Support
Text Version

Set your study reminders

We will email you at these times to remind you to study.
  • Monday

    -

    7am

    +

    Tuesday

    -

    7am

    +

    Wednesday

    -

    7am

    +

    Thursday

    -

    7am

    +

    Friday

    -

    7am

    +

    Saturday

    -

    7am

    +

    Sunday

    -

    7am

    +

La dernière conférence nous a parlé de décrire des images en utilisant l'approche du dos des garçons ou de la Villa. Nous allons maintenant aller de l'avant et montrer comment ces descripteurs peuvent être utilisés pour faire correspondre les images. Avant d'y aller, une fois de plus, une reconnaissance que ces diapositives sont tirées des excellentes conférences de professeur de ce sujet à Andrea Ren. Nous avons également laissé une question de la dernière fois, à savoir. Puisque le sac de mots est intrinsèquement dépendant des jeux pour définir ses centres de clusters. Pouvons-nous envisager des extensions de jeux pour s'améliorer? Comment se produit le sac de mots? Donc un exemple spécifique pourrait être des jeux hiérarchiques, qui est une extension du regroupement des jeux, un Gundam où les centres de clusters sont organisés de manière hiérarchique. A partir d'une note racine, tout le chemin vers quelques noeuds terminaux. Il se trouve que cela a été oui, exploré d'un sac de mots à l'aide d'une méthode connue sous le nom d'arbre de vocabulaire en 2006. Et ce qui compte, c'est de prendre les moyens hiérarchiques et de construire un arbre de partition final. Et maintenant, vos descripteurs d'images. Descente de chacun, de la racine à l'une des feuilles à chaque niveau de l'arbre. Donc vous avez, euh, un tas de centres en plastique que vous avez mis ensemble à partir de tous les mots visuels que vous avez de différentes images. Nous l'avons appelée. Et en arrière des mots, lorsque vous construrez vos centres de clusters, vous tirez toutes les images de vos données ensemble, vous prenez toutes les fonctionnalités, les descripteurs qui possèdent les fonctionnalités. En plus d'utiliser une méthode. Et puis vous prenez ces clusters comme, comme votre, ce que l'on appelle les bons centres de livres auxquels chaque point clé est attribué. Votre image est familière. La présentation a X, qui est l'un des éléments de votre image, dans le descripteur de votre correspondance. Est donné par w I N w I est le taux de ce nœud particulier dans l'arbre. Et allumer est le nombre de points clés affectés à ce particulier plus le centre, plus le centroïde dans l'arbre. Il est donc évident qu'il est difficile de savoir comment on donne une valeur à la Première Guerre mondiale. On pourrait soutenir que peut-être quatre niveaux dans l'arbre, vous devez avoir un poids plus élevé parce qu'il s'agit d'une meilleure correspondance. On pourrait également faire valoir le contraire, en fonction d'un paramètre particulier à un niveau élevé de correspondance, peut-être plus d'une correspondance, cela dépend de l'application. Dépend de ce qui est important dans un contexte particulier. Donc, ce qui est une contrainte de cette méthode qu'il n'y a pas de méthode de principe pour définir la Première Guerre mondiale. Bien que vous pourriez venir avec des heuristiques en haut de la métrique, le jeu de données est à nouveau, fouillé en utilisant le dépôt émergent et fondamentalement il y a un problème ici, ce qui est que la distorsion est souvent minimisée localement. Par exemple, je ne connais pas la chose particulière plus la chose centroïde. Ainsi, tout éditeur que vous faites ou les différences entre les images sont uniquement locaux par rapport à ce cluster particulier, la même distorsion de point n'est pas mesurée au sens global. C'est tout par rapport à chaque cluster, centroïde à travers l'occurrence de chaque cluster, centroïde dans chaque image sur deux images qui font de la magie. C'est ainsi que les moyens k peuvent être étendus. Pour un sac de mots. On pourrait donc envisager d'autres extensions de gamings et être en mesure de les utiliser dans de telles méthodes pour pouvoir décrire des images. Parlons maintenant de la façon dont vous voulez dire beaucoup de descripteurs à partir de deux images différentes dans un autre principe avant d'y aller, essayons d'évaluer ce que nous savons jusqu'à présent? L'une des méthodes les plus simples que nous avons explorons jusqu'à présent est. La correspondance de voisin le plus proche où vous avez une image, qui est l'ensemble de points de fonctionnalité, une autre dimension, qui est un ensemble d'autres points de fonctionnalité. À l'heure qu'il est, nous ne parlons pas d'un sac de mots d'agrégation. Il s'agit simplement d'un ensemble de fonctionnalités dans une image, une image et un ensemble de fonctionnalités. Dans l'autre image, nous utilisons chaque élément dans une seconde et il a un descripteur sportif. Pour un index indépendant dans une fonction du second frère, nous faisons simplement un voisin le plus proche en fonction de la description de la fonction dans chacune de ces images. Pouvez-vous penser à ce qui pourrait être une limitation d'une telle approche? Une limitation inhérente à cette approche est que vous pourriez ignorer des informations utiles de collègues. Il est donc possible qu'il y ait une seule image où il pourrait y avoir plusieurs instances de la même fonction. Pensez à dire des taches dans un léopard, des rayures et un zèbre, etc. Et vous pouvez mapper une seule fonction dans une image à plusieurs fonctionnalités différentes dans l'autre image, parce qu'elles sont toutes similaires. Par exemple, une zone sur un léopard ou une image peut être mappée à plusieurs points. Sur un léopard dans une seconde image, vous ne voudriez pas, idéalement, que cela se produise. Vous voulez que chaque sport se trouve sur le léopard pour que Mack soit un endroit sur le léopard dans l'autre image et dans le sport, encore une fois, pas dans le sport et ainsi de suite. Mais l'exemple que vous voyez sur la diapositive ici, qui est un bhanda géant, qui a de nouveau certaines fonctionnalités, qui se répètent dans sa structure, qui pourrait être mappé à la même instance dans la seconde image. C'est ce que vous voyez illustrativement ici. Il s'agit du paramètre idéal dans lequel chaque fonction est mappée de la même manière à une fonction indépendante dans la seconde image. Il peut s'agir d'un autre scénario où deux instances différentes de la même fonction sont mappées à la même fonction sur la seconde image, ce qui n'est pas souhaitable. Cela peut entraîner des problèmes lorsque vous utilisez l'approche de rapprochement des voisins les plus proches. Les gens ont aussi vu le sac de bois correspondant à la hausse jusqu'à présent, toute limitation flagrante que vous voyez de la discipline et de la limitation quotidienne, c'est que l'approche en arrière est limitée à une correspondance d'image complète, pas une magie partielle, parce que vous allez regarder l'histogramme de. Les occurrences d'un plâtre Android dans l'image un par rapport à un tel histogramme pour l'image deux, vous voyez deux images ne correspondent que les Instagrammes complets sont assez proches l'un de l'autre. Donc vous n'êtes qu'une partie de la seconde image correspond à la première dimension. Ces histogrammes ne correspondent pas et vous n'obtiendrez pas de bons lots dans le schéma d'une ville. Donc en d'autres termes, vous pourriez dire le sac de mots, n'est-ce pas, toute la magie? Mais je veux vraiment un sens de la magie d'une partie de l'image correspondant à une autre partie. Donc, ça commence, quand même certaines images, qui pourraient être partiellement proches l'une de l'autre. Idéalement, l'appariement des voisins les plus proches était une approche univoque, mais il a ses propres limites. Maintenant, essayons de généraliser la façon dont vous pouvez faire cette correspondance de descripteur à l'aide d'une méthode que vous avez vue dans l'apprentissage automatique, ce qui est en cours. Vous avez peut-être entendu parler de perdre dans les machines vectorielles de support. Donc, au-delà d'utiliser une idée similaire ici, pour être en mesure de généraliser la correspondance entre les descripteurs, nous appelons cela même dans les machines vectorielles de support ou pour cette matière, tout autre algorithme d'apprentissage automatique que les panneaux peuvent être utilisés, uh, le sens de la similarité de l'artiste artilleur entre deux points de données. C'est le même principe qui est utilisé ici aussi pour être en mesure de le faire, définisons les, ceux, ceux, le cadre jusqu'à présent. Donc vous n'avez pas rencontré, décrit par les descripteurs de fin. Disons que si X est dans une correspondance donnée par X un étudiant X exempté, mais chacun d'entre eux est désactivé est un vecteur de dimension D, mais cela pourrait être le centroïde de la grappe ou il pourrait être des caractéristiques individuelles et regarder le sac de mots, par exemple, ces descripteurs sont généralement quantifiés à l'aide de la mise en cluster du jeu ou pour cette matière, toute autre méthode de classification qu'ils sont quantifiés, ce qui signifie que vous ne prenez simplement pas toutes les fonctionnalités dans une image. Vous avez essayé de voir quel centre de clusters ils appartiennent. Je n'ai qu'un cliché dans cet exemple de cluster particulier en tant que représentation de cette fonction particulière. Pour ce centre de clusters particulier. Cette fonction de la PlayStation est donnée par Q, qui nous amène de notre puissance B à un sous-ensemble de C de notre corps, qui est appelé, est un bon livre. Ce qui est donné par C un à Seagate. Donc cela a donné des clusters et des prix possibles, ce qui comme je viens de le mentionner, vous obtenez en faisant un k-signifie la mise en cluster sur les fonctionnalités de toutes les images et en une seule dimension, vous êtes essayé de voir, Oh, vous utilisez un quantize, une fonction, qui vous emmène de toutes les fonctionnalités à l'un de ces centroïdes de clusters, qui est le plus proche de lui. C'est le cadre. Maintenant, allons plus tard trouver le colon. Donc le Connell maintenant est donné par deux images, X. Et blanc, le noyau correspondant K de X s'éloigne est donné par gamma de X en vient de blanc, riche, comme nous le verrons bientôt, nos fonctions de normalisation. Nous verrons pourquoi nous en avons besoin dans un moment dans un problème ou dans tous les centres de clusters que vous avez N de X, C Y, C.

D'accord. Et MSI avec une fonction de correspondance. Donc c'est le M qui correspond à la fonction Cardinal dont vous parlez. Et cela se produit pour chaque occurrence de chaque cluster, brodée en une image et les occurrences de ce centroïde de cluster et une seconde image. Il nous reste donc à définir ce que Mme We verra quelques exemples de cela à mesure que nous avançons. Donc le Gamow de X et Gummo de blanc. Est requis ici parce que vous ne voulez pas être biaisé par la présence de nombre de fonctions dans une image donnée. Par exemple, il est possible que vous déteciez un millier de fonctionnalités dans une image et que vous ne faites que cent dans l'autre. Si vous avez simplement fait une sommation, vous serez toujours biaisé par une image qui a beaucoup de caractéristiques parce que le nombre va monter et qui peut ne pas être vraiment un match parfait. Ok. Donc le gamma de X et la démo de blanc sont des fonctions de normalisation que vous pouvez diviser par le nombre total de fonctionnalités dans l'image de sorte que la correspondance n'est pas biaisée par le simple nombre de fonctionnalités dans un pouce. Essayons de voir quelques exemples de ce que M pourrait voir dans des exemples que vous avez vus jusqu'à présent. Donc, si vous faites le sac de mots, en faisant le rapprochement, l'appariement est. Innovate a co-sign similitude entre les centres de clusters et les deux images vous pouvez définir que ce que nous avons vu en similarité jusqu'à présent peut être défini par un code de correspondance, qui est donné par vous dépasser, qui est l'un de vos bons éléments de livre ou vos centroïdes de clusters et vous comptez le nombre d'apparitions de cela. Y a-t-il une image X. Combien d'occurrences est une image blanche. Et vous les ajoutez simplement à un seul livre de cour et à un PC trois, si vous aviez été des caractéristiques de l'image X qui correspondaient à C3 et trois de ces caractéristiques en blanc d'image, parce que l'émerveillon à en voir trois, le courant correspondant correspondant est tout simplement. Et en deux, trois ans, qui devient une étude, est simplement retourné pour une double somme. Donc c'est tout simplement un sac de mots, modèle à respecter, mais souvenez-vous de la fonction de mise en candidature, comme je l'ai dit, nous allons prendre soin de la normalisation par le nombre total de fonctionnalités dans le, dans l'image elle-même. Mais c'est ce que M est défini comme. Vous pouvez étendre cette approche à une autre approche connue sous le nom d'intégration pour la mise en correspondance, où si vous supposez que chaque description peut être finalisée d'une manière ou d'une autre, par exemple, vous pouvez choisir un descripteur et simplement dire que tout ce qui est supérieur à un seuil est égal à un et tout ce qui est inférieur à un seuil est égal à zéro. Vous pouvez acheter, analyser n'importe quel descripteur pour cette affaire. Ensuite, vous calculez votre Connell en tant que. C'est à nouveau, semblable à votre dos de ce qui se passe. La seule différence maintenant est que vous n'allez compter que le nombre d'instances où la distance de marteau entre BX et B blanc va être inférieure à un seuil. C'est simplement votre intégration. Donc ils ont la couverture est la distance entre les deux vecteurs binaires. Le doute est un seuil que vous devez spécifier pour être en mesure d'obtenir une correspondance avec ce paramètre particulier. Vous pouvez également définir la correspondance de Vilade dans le même cadre, mais rappelez-vous, que Vielight est similaire à un sac de mots. La seule différence est que vous ne comptez pas combien de fonctions appartiennent à un élément de carnet de codes ou à un centre de clusters. Tu préférerais. Obtenez toutes les fonctions qui appartiennent à un bon élément de livre. Oh, ça a perdu la même heure. Vecteurs résiduels. Rappelez-vous à nouveau, en raison de la lumière, vous avez un centre de clusters. Par exemple, vous pouvez avoir deux étoiles, deux centres de cluster. Vous disposez d'un ensemble de fonctions les plus proches de ce centre de cluster particulier. Vous disposez d'un autre ensemble de fonctions, qui sont les plus proches de ce centre de cluster particulier. Donc vous prenez. La différence entre eux, qui va être un vecteur résiduel. Et vous ajoutez tous les vecteurs résiduels qui appartiennent à un centre de cluster particulier. Et cela devient la représentation de ce centre de clusters. De même, vous le ferez pour d'autres centres de clusters. Maintenant, si c'était la représentation, comment faire la couleur correspondante? Donc le Colonel correspondant est donné par toute la présentation de l'image. X va être. A sec ou, uh, un vecteur entier représenté par ce qui va être, um, les représentations correspondant à chacun de vos éléments de travail que je fais le noyau correspondant est maintenant donné par V off dépasser les transports V de YC, qui est un produit intérieur entre la représentation pour le. Entrée de code secret dans X, ajoutez l'entrée de code du siège en blanc. Mais il s'agit simplement de prendre de l'expansion parce que nous avons dépassé est une somme, ce que tous les Xs qui appartiennent à cette entrée de code particulier et les résidus correspondants. Donc, vous développez, nous avons plus que d'utiliser une soumission similaire, ou B de YC en utilisant la sommation. Et vous avez maintenant le nouveau point-virgule correspondant comme sommation ou tous les éléments ou les, toutes les fonctionnalités qui appartiennent à ce livre de code et l'image de rêve X et la somme sur blanc pour la même chose, pour la même entrée de livre de code et à l'intérieur, vous allez avoir à l'extérieur de X dans un produit, une partie de ce que les résidus. Comment ils sont alignés les uns avec les autres. Donc si vous jouez pour comprendre l'intuition ici, vous jouez pour dire que si vous avez un centre de cluster, disons trois dans l'image X, les mêmes centres de clusters, C3 en image blanche, disons que vous avez trois fonctionnalités dans l'image X appartenant à ce centre de clusters. De même, trois fonctions appartenant à ce centre de clusters dans l'image. Y. Vous allez prendre un de ces réservoirs et voir comment les autres correspondances résiduelles avec cette recette. Vous devez le faire comme il le fait. Vous allez obtenir un score de correspondance élevé, mais d'autres si vous avez même l'espoir que les fonctionnalités ont été configurées autour du centre de clusters match entre les deux langues. C'est un meilleur match, une façon plus générale de combiner toutes ces idées. Ce qui est connu sous le nom de gouvernance sélective agrégée ou NK, qui combine quelques idées que vous avez vues jusqu'à présent. Il combine la fonction sélective non-linéaire que nous avons vue avec la reproduction. Nous le verrons dans un instant. Et il combine aussi des idées de Villa. Donc, la façon dont cette méthode fonctionne est que vous prenez la lumière, ce qui est ce que vous voyez comme un aperçu de l'argument. Et vous normalisent les vecteurs de Vilade, ce que vous définissez sous forme de V hype. Donc nous avons eu, si vous voyez au bas de la diapositive est donné par V d'exi divisé par la normale. Nous avons dépassé le fait que nous essayons de faire du BILAG le vecteur, qui est la somme de tous les outils dans un vecteur unitaire. Et vous prenez maintenant un produit intérieur entre le très similaire à ce que nous avons vu dans la lumière précédente. Parce qu'il s'agit d'une sortie de produit intérieur de ce qui va être un scaler. Maintenant vous utilisez une fonction sélective non linéaire, Sigma alpha de ce scaler pour obtenir votre fonction finale de correspondance. Qu'est-ce que la Sigma alpha? Le Sigma alpha est défini comme pour toute entrée que vous Sigma alpha est défini comme signe de la vue dans la valeur absolue de la vue poète alpha. Si vous avez une valeur supérieure à un court, le produit intérieur est une mesure de similarité plus élevée, la valeur, meilleure pour vous. Donc si vous avez dépassé le seuil, vous pouvez vouloir peser un peu plus, mais vous pouvez contrôler l'utilisation de l'alpha. Et si vous utilisez moins qu'un seuil, il est très similaire à la distance. Nous disons que la distance était inférieure à un court. Nous avons compté plus. Si ce n'est pas le cas, nous ne le comptons pas. C'est une idée très similaire. Bien que nous utilisions des vecteurs utilisés pour atteindre le même but. Donc vous pouvez voir ici que si Alpha est un, c'est juste vous même sans FYS. Un signe de vous dans la valeur observée de vous sera. Voyons quelques illustrations de cette idée pour en faire un piano. Voici quelques illustrations de différents choix de valeurs alpha et Tal. Donc, en haut à gauche, vous voyez l'alpha est égal à un, ce qui comme on vient de le dire, qui est toi même, vous n'êtes pas vraiment. C'est simplement le, pas le doctorat ou la normalisation que nous avons laminé et doute dans ce cas. C'est zéro. Donc, rien de plus que zéro. Vous allez considérer que comme vous même avec le, à la note à être, vous direz, donc vous pouvez voir ici dans ce cas, jaune correspond à dire que la similarité zéro et le rouge correspond à la similarité maximale, mais l'image mieux. Il y a donc quelques caractéristiques qui ne correspondent pas du tout. Et il y a quelques choses qui correspondent très bien et toutes sont affichées dans l'image de gauche supérieure. Si vous voyez que le haut, à droite, vous pouvez voir ici encore, alpha est égal à un. Mais le doute est égal à 0,25. Vous pouvez voir maintenant qu'un grand nombre de jaunes sont descendu, vous savez, en disant que ce score, vous devez être au moins 0,25 pour que nous considérez cela comme un match. Et vous voyez maintenant que beaucoup de ces faux matches ont disparu parce que n'importe quoi, n'importe quel score bas est maintenant ignoré. La ligne du bas montre un exemple où alpha est égal à trois. Quand vous voyez de nouveau, quand l'alpha est égal à trois et n'oubliez pas que parce que vous normalisez vos vecteurs de rechute, alpha étant la hauteur va réduire la valeur parce que vous allez être une valeur Lang entre zéro et un, parce que vous avez des directeurs normalisés, il est probable qu'il s'agit d'évaluer zéro et une sorte d'alpha, qui est un exposant de la vue est la hauteur, les valeurs verticales, encore plus petites. Et c'est ce que vous voyez ici à gauche. Où voyez-vous cela? Certaines de ces lignes ont disparu? Parce qu'ils sont allés plus près de zéro et à droite, vous voyez une chose similaire où alpha est égal à trois, et qui était égal à 0,2, 5. Encore une fois, vous obtenez un peu plus de jaunes, ce qui pourrait être de plus petites valeurs à ce moment-là, parce que vous vous expliquez, uh, l'exposant alpha, qui est trois ici peut avoir réduit les valeurs parce que vous aimez entre zéro et un. Vous pouvez voir ici cette plus grande sélectivité. Ne faites pas de fausses correspondances, ce qui est ce que nous voyons ici, mais qui était égal à 0,2, cinq sur, sur les deux images à droite et toute cette approche remplace le battage du cœur que nous avons pour avoir enchâssement et donne une autre façon de se rendre, euh, une approche similaire. Voici une autre illustration de, uh, les résultats après l'application de la méthode ASM K. Où voyez-vous ici ça. Chacune de ces couleurs dans ces différentes images correspond au même mot visuel, comme c'est le vert ou le jaune, le bleu est le même mot visuel apparaissant dans différentes images. Donc vous pouvez voir ici que si vous en prenez un, un exemple particulier, par exemple, si vous prenez, disons le rose ou le rouge, vous verrez le rose ou le travailleur visuel rouge répond à certains Gardner ou un coin pointé dans chacune de ces images. Toutes ces filles peuvent être généralisées à des filles de correspondance efficaces, où vous pourriez définir cela comme une fonction continue, cuppa de X, créa, blanc, et une large utilisation de tout code de livres pour cette matière, rappel. Les bons livres peuvent être à forte intensité de calcul et calculer, puis calculer les résidus et ainsi de suite. Vous pourriez certainement imposer une fonction de cantonnoir entre les caractéristiques individuelles d'une image et les caractéristiques individuelles de l'autre image. Encore une fois, très similaire à la façon dont les fonctions charnales sont utilisées dans une machine à vecteurs de support ou d'autres algorithmes d'apprentissage automatique, qui sont des composants externes. Idéalement, vous voudriez que cette tasse d'esquimau puisse être décomposée en un produit intérieur de Firefox transposer, le feu de blanc, où la lutte est la représentation de chaque fonctionnalité dans un espace différent. Alors vous aurez, vous trouverez un tapis pour être une normalisation de X dans la soumission de toutes vos représentations de X pour chacune de ces, uh, pour toutes vos fonctionnalités, transposer.