Loading
Study Reminders
Support
Text Version

Set your study reminders

We will email you at these times to remind you to study.
  • Monday

    -

    7am

    +

    Tuesday

    -

    7am

    +

    Wednesday

    -

    7am

    +

    Thursday

    -

    7am

    +

    Friday

    -

    7am

    +

    Saturday

    -

    7am

    +

    Sunday

    -

    7am

    +

Pour terminer la conférence de cette semaine, mais vous résumerez quelques-unes des choses que vous avez vues jusqu'à présent, car nous allons passer à l'apprentissage profond dès la semaine prochaine. Ce que nous avons vu jusqu'à présent. C'est un brin, quelqu'un de travail dans une vision informatique qui a pris deux ou trois décennies. Nous avons donc couvert quelques sujets, mais nous avons couvert. Nous n'avons pas couvert plusieurs autres, uh, un sujet important que nous avons probablement manqué est une approche basée sur une partie. Donc, sur et ainsi de suite. Espérons que nous serons en mesure de couvrir ça dans un avenir, bien sûr, mais nous avons essayé de résumer les apprentissages que nous avons eu jusqu'à présent, ce qui nous aidera peut-être. Et la transition vers un apprentissage profond pour la vision par ordinateur. Donc l'une des choses que nous avons appris jusqu'à présent est que la convolution est une opération très unique. Le déplacement linéaire Marion a des propriétés utiles, telles que la compétitivité associée à la distribution ou à l'ajout, etc. C'est donc très unique dans son traitement des signaux. Il constitue la base des opérations d'image. Il forme également la base des réseaux neuronaux, qui sont ceux qui sont utilisés dans la vision par ordinateur. Les réseaux neuronaux les plus connus sous le nom de réseaux neuronaux. Donc, la communication reste encore utilisée aujourd'hui, même dans le cadre de la plomberie. Nous avons également constaté que le pipeline commun dans les tâches traditionnelles de vision est donné par. Nous extrayons généralement certains points clés, mais les points d'intérêt dans les images pourraient être des bords ou des points clés qui ont un changement important dans plus d'une direction. Nous extravons ensuite les descripteurs de ces points clés. C'était un thème commun. Si vous avez vu au cours de la dernière semaine de conférences, au moins. Ce serait aussi grand. Donc une idée d'essayer d'utiliser des banques de filtres, tels que des filtres stérables, ou de renoncer à nous libérer pour être en mesure d'obtenir des réponses multiples à partir d'une seule image, puis les concaténer pour être en mesure de faire toute autre tâche ou traitement. Nous avons également constaté que ces descripteurs sont utiles pour des tâches telles que la mise en correspondance avant la facturation ou la classification. Si vous aviez à faire obstacle à la compréhension que nous avions jusqu'à présent, il s'agit du fait que chacune de ces méthodes dont nous avons parlé, nous sommes passés d'une image de bas niveau, d'une compréhension à l'agrégation de descripteurs à un niveau plus élevé. Nous utilisons donc des banques de filtres. Capturer les réponses à différentes échelles et orientations sans paraben-libre donne votre dose ainsi de suite, mais ils ont été des histogrammes, ce qui pourrait être considéré comme faisant une forme de codage parce que vous essayez de quantifier, uh, différents points clés dans une échelle similaire, ou même de faire une sorte de regroupement de fonctionnalités à un centroïde de cluster commun ou un élément de livre central commun. On peut donc voir qu'il y a des similitudes ici. Entre la façon dont ce traitement est arrivé à la façon dont le traitement se produit dans le système visuel humain. Nous en avons au moins parlé brièvement, à propos des différents niveaux du système visuel humain, qui présentent également une similarité d'essayer d'obtenir différents types de réponses selon des orientations et des encadrements différents de l'entrée, du visuel, et ensuite d'essayer. Assimiler et les regrouper à différents niveaux dans le système visuel humain. Il y a là une similitude, bien que ce n'était pas par la conception, peut-être qu'il s'agissait de résoudre des tâches pour la vision par ordinateur, mais il y a une similarité à essayer d'obtenir des fonctionnalités de bas niveau, probablement des caractéristiques de différents types avec des compétences et des orientations différentes car le choix d'une seule fonction peut être limité pour certaines applications. Donc vous voulez utiliser. Une banque de réponses différentes, puis les combiner et être en mesure de les assimiler pour de plus amples informations. Une autre chose importante que nous avons aussi apprise au cours des dernières semaines, c'est qu'il y a des applications pour lesquelles les caractéristiques locales sont plus importantes. L'image entière peut ne pas être importante. Il peut être important pour certaines tâches, telles que le rapprochement des niveaux d'image. Peut-être, uh, une recherche de niveau image sur l'un de vos moteurs de recherche ou il pourrait y avoir des tâches pour lesquelles seules les fonctionnalités locales sont importantes. Par exemple, un certain point clé. Ou vous voulez trouver la correspondance entre des images partiellement concordont, ainsi de suite. Cela dépend donc de la tâche. Stereopsis est sur la détection de la profondeur et des images. Si vous voulez que nous passions à l'émotion, ou si vous voulez reconnaître une instance d'un objet, plutôt que de simplement reconnaître une classe dans une image, cela dépend de l'importance d'une région locale ou de l'image complète. Nous avons aussi vu que l'utilisation de méthodes, telles que le sac de mots, peut faire votre image, les spots de présentation, par exemple, il est possible que si vous aviez dit 10 centres de cluster dans votre, uh, k-signifie pour le sac de mots, il est possible qu'une de vos images dans votre jeu de données ait eu seulement des fonctionnalités appartenant à trois de ces centres de clusters. Les sept autres centres de clusters n'ont pas eu d'occurrence dans cette image particulière. Ce qui signifie que votre image aurait un histogramme où pour trois de ces bacs, vous aurez une certaine fréquence, mais le reste des sept bacs aura une comp nulle qui conduit à une présentation du sponsor, où il y a beaucoup de zéros pour cette image particulière. Le codage peut donc donner lieu à ce genre de représentation pour une image. Et un important décollage ici est qu'un grand nombre d'opérateurs qui détectant des caractéristiques locales ou même des représentations globales d'images pour cette matière peuvent être considérés comme jouant de la convolution contre une estimation des caractéristiques parce que les points clés du détecteur que vous avez besoin de convolution est l'opération clé sur laquelle vous vous basez. Et puis c'est suivi d'une sorte de compétition. Et donc, par exemple, que ce soit. Euh, les centres de clusters. Donc chacun des clusters qui essaie de gagner des votes de différentes fonctionnalités qui correspondent à ce centre de clusters, et l'un d'entre eux gagne. Il semble donc y avoir une sorte de compétition ou de mise en commun, du résultat de l'opération de communication, qui conduit à l'étape suivante ou à une compréhension ou une description de l'image de niveau supérieur. Donc nous le trouvons aussi. Jusqu'à présent, l'objectif a été d'apprendre les descripteurs et les représentations qui nous permettent de trouver facilement des correspondances. Vous ne voulez pas passer trop de temps à faire correspondre le cours, à regarder des renseignements et à venir avec des condos correspondants, etc. Mais l'idée clé est de pouvoir décrire des points clés, décrire des images de telle manière qu'un simple médecin ou un simple préservatif de correspondance peut être utilisé pour être en mesure de faire correspondre des images ou des parties d'images ou de régions en images. Ces types de descripteurs sont, ont certains ingrédients des transformations géométriques, une certaine échelle, une certaine rotation, certaines traductions, mais dans certains cas qui sont conçus dans l'algorithme. Dans certains autres cas, il peut être nécessaire d'en apprendre d'autres. Voici un bref résumé, un grand nombre des sujets que vous avez vus jusqu'à présent de façon abstracomplète, présentés de façon concise et succincte. Mais ce que nous allons conclure ici, c'est montrer que nous allons passer à l'apprentissage profond. Comme je viens de le mentionner, même si ce n'est pas par la conception, l'apprentissage profond semble s'appuyer sur certains de ces principes. Certaines d'entre elles vont devenir plus claires lorsque nous commenterons à discuter de ces approches d'apprentissage profond. Mais nous voyons que l'idée d'essayer de détecter les réponses de bas niveau. Images à différents types de Fritos, puis les agréger et construire des obstructions de haut niveau. Et ensuite aller à un point de, uh, une tâche où la dernière représentation devient très simple pour une tâche semble être très simple, très similaire à une idée que les réseaux neuronaux profonds semblent aussi utiliser pour résoudre des tâches de vision. Bien que cela puisse ne pas avoir été par la conception. Il semble être similaire dans la structure globale, mais la différence clé entre toutes ces méthodes que nous avons vues jusqu'à présent et ce que nous faisons pour voir l'apprentissage profond au cours des prochaines semaines de ce cours est que dans l'apprentissage profond, tout cela se fait de manière apprenable, plutôt que nous devons concevoir. Quels points clés devrais-je utiliser ou devrais-je utiliser des descripteurs approuvés? Dois-je utiliser la brillance de l'audit ou devrais-je utiliser la tête de DLO? Dois-je utiliser local par n'importe quel motif? Toutes ces décisions deviennent parfois difficiles parce qu'elles dépendent de la tâche. C'est-à-dire qu'il n'y avait pas de connaissances complètes sur le type de descripteur qui pourrait être utilisé pour quelle sorte de tâche. Par exemple, pour la reconnaissance faciaux, les modèles binaires locaux seraient toujours le choix d'une fonctionnalité ou de mettre quelque chose d'autre. Nous avons utilisé ce genre de compréhension complète de la méthode à utiliser pour laquelle la tâche n'était pas très connue et les réseaux neuronaux profonds. En ayant un sens, changez le jeu en faisant, en simulant un pipeline similaire, mais tout le pipeline est purement appris pour une tâche donnée.