Loading
Apuntes
Study Reminders
Support
Text Version

Coincidencia de pirámide

Set your study reminders

We will email you at these times to remind you to study.
  • Monday

    -

    7am

    +

    Tuesday

    -

    7am

    +

    Wednesday

    -

    7am

    +

    Thursday

    -

    7am

    +

    Friday

    -

    7am

    +

    Saturday

    -

    7am

    +

    Sunday

    -

    7am

    +

Ahora pasaremos de núcleos coincidentes a núcleos coincidentes para las pirámides de imágenes. Por ejemplo, tener una pirámide de imágenes de múltiples resoluciones y poder utilizar esa idea para desarrollar núcleos coincidentes. Las diapositivas han vuelto a tomar prestado de las conferencias del profesor Avrithis en Inria Rennes. La coincidencia de descriptores, como acabamos de ver en la conferencia anterior puede ser dada por, usted tiene Xc y Yc similar para las características que pertenecen a una palabra visual en particular en las imágenes X e imagen Y. A continuación, un kernel coincidente para algo como bolsa de palabras podría ser dado por la suma sobre los mismos centroides del clúster sólo contando el número de características que pertenecen a él. También podría incluir algún factor de ponderación para cada una de estas sumas si es necesario. Y una forma más general que vimos la última vez fue lo que ves aquí abajo, que es K (X, Y) = γ (X) γ (Y) ∑ M (X,) cquest C Wc c Y c Wc es un peso que estamos introduciendo, que podemos elegir usar o no y M de Xc Yc, donde M es la función de juego. (01:45) Ahora, hablaremos acerca de ir más allá de la coincidencia de un solo nivel y la coincidencia en el nivel de las pirámides y describiremos un trabajo seminal en este contexto conocido como kernels de coincidencia piramidal. Por lo que la coincidencia de pirámide es un método eficiente que correlaciona conjuntos de características no ordenados, que es lo que es cada imagen, cada imagen es un conjunto de características no ordenado. Vamos a convertir eso en histogramas de múltiples resoluciones y luego hacer coincidir utilizando histogramas de múltiples resoluciones ponderadas. Así que idealmente podemos empezar con la celda de histograma de resolución más fina donde aparece un par emparejado por primera vez, y luego seguimos fusionando histogramas a medida que subimos la pirámide en este contexto en particular. Y el trabajo tiene una interpretación muy agradable donde se puede demostrar que se aproxima a una similitud en un ajuste de coincidencia parcial, donde si usted tenía sólo un conjunto parcial de características en una imagen, coincidir con un feed, conjunto de características en otra imagen, el kernel de la coincidencia de la pirámide se aproxima a esa coincidencia parcial óptima entre esas dos imágenes. Para más detalles, también le recomendaría que lea este artículo llamado kernel piramidal match. Está escrito muy bien y explica en detalle algunas de estas ideas si estás interesado en saber más. Empecemos por definir la intersección de histogramas, porque vamos a definir histogramas en ambas imágenes. Obviamente, vamos a definirlos a múltiples niveles, pero solo hablemos de cómo emparejar los histogramas en este contexto. Así que si tuvieras dos histogramas x y y de b bins cada uno, así que digamos que esto es x, y esto es y, ambos son histogramas con bins cada uno. Definimos la intersección de histograma como mínimo de xi, yi, un elemento del histograma en ambas imágenes y resumimos en todas las bins. Así que tomas la primera papelera de histograma, la primera papelera de la segunda, toma el valor mínimo, toma el valor mínimo de la siguiente papelera en el histograma y añádalas todas. Eso es lo que definimos como la intersección de la historia. Curiosamente, se puede mostrar que esta noción de intersección de histograma, que definimos como Kappa sub-HI tiene una relación con la distancia L1. No lo vamos a demostrar aquí, pero probablemente lo deje como un ejercicio para que usted mire. Puede ver que la distancia L1 entre dos vectores, x e y puede ser dada por | |x − y | | |x | | |y | | κ (x,) 1 = | 1 + | 2 − 2 HI y Pruébelo por ti mismo. Tome algunas salidas, tome un par de ejemplos de x e y, usted realmente verá que fue en la práctica. Por favor, trate de probar esto también si usted puede. Este es un ejercicio interesante para que trabajes, pero puedes demostrar que esta distancia de histograma está relacionada con la distancia L1. Recuerde que la distancia L1 es la suma de los valores absolutos de ese vector. (05:16) Volvamos al núcleo de la pirámide ahora. Por lo tanto, dijimos que el kernel de la pirámide del match hace una suma ponderada de intersecciones de histograma en diferentes niveles de dos imágenes, y se aproxima a la coincidencia óptima de pairwise. Así que primero conceptualmente hablamos de ello y luego daremos un ejemplo concreto y vamos a cómo se hace. Así que si tuvieras estas dos imágenes del mismo objeto de diferentes poses, diferentes ángulos de vista, podrías tener, una vez más, que te hayas extraído puntos clave y esos puntos clave podrían ser estos sentando en R power d. Tiene un conjunto similar de características que se encuentran en la potencia R d para la segunda imagen. Así que ahora, tiene todo el espacio de características que divide en una cuadrícula, por ejemplo. Y ahora va a contar cuántas de las características de una imagen se producen en cada una de esa cuadrícula del espacio de características que va a definir un histograma. Coincide con el histograma a ese nivel. Luego colapsa las regiones de rejilla y fusión en tu rejilla en R power d en tu vector de dimensión D asumiendo este tamaño del descriptor correspondiente a la función, tu partido en ese nivel, así sucesivamente y así sucesivamente. Y una intuición aquí es que quiere dar un mayor peso a los partidos a un nivel final y un peso más bajo a los partidos en un nivel más alto donde los intervalos de histograma tal vez se fusionen. Daremos un ejemplo concreto y pasaremos por esta idea. (06:50) Consideremos ahora que tiene un conjunto de características, un conjunto no ordenado de características en la imagen X, que se da por estos puntos azules, un conjunto similar no ordenado de características en la imagen Y, incluso por los puntos rojos. Así que recuerda, estos son puntos, estos son descriptores de esas características tiradas en R power d y se los va a ir a bin en un estante muy fino de características en ese espacio. Así que es posible que este punto azul estuviera mintiendo en este estante, este punto azul estaba tirado en este cubo y así sucesivamente y así sucesivamente. Simplemente está despecando toda la región de la potencia R en diferentes intervalos y coloca cada punto clave que se produce en cada imagen en una de esas bandejas basándose en los valores del descriptor. Ahora, usted tiene el punto 1-D es X, Y en la rejilla del tamaño 1. Lo vamos a llamar tamaño 1. Esta es la resolución más fina. (07:51) Así que ahora definimos los histogramas. Así que su nivel cero histogramas va a ser este estante en particular en su red de energía R d como una característica. Este estante en particular en R power d en X tiene una característica. Este estante en particular en R power d tiene una característica en la imagen X y una característica en la imagen Y, así sucesivamente. Por lo tanto, puede construir su histograma. Obviamente, es posible que puedas tener una función más aquí de Y en la misma papelera, pero en el primer nivel, creamos estas papeleras de tal manera o siempre puedes definir papeleras a un nivel muy fino. Es decir, crea estas bandejas de tal forma que sólo hay una característica en cada una de las bandejas. Obviamente, las fusionaremos a medida que vayamos a poder combinarlas de una manera más eficaz. Así que en base a estos histogramas, cuando trates de emparejarlos, recuerda que nuestra intersección de histogramas va a ser la media de cada elemento. Así que se va a dejar con la intersección, que es simplemente un valor aquí para este estante y un valor aquí para esta bandeja, todos los otros contenedores tienen uno de los elementos en X o Y para ser cero, lo que significa que se eliminarán. (09:09) Así que tienes dos partidos ahora entre las imágenes X e Y y las vas a ponderar por un valor 1. Así que su puntuación total de similitud ahora va a ser 2 en 1, que es 2. (09:24) Ahora vamos a fusionar sus bandejas de histograma. Originalmente, si tenías que decir unas 20 papeleras de histograma, necesitas fusionarte cada año consecutivo, cada uno de los contiguos y hacerlos en 10 papeleras. Y ahora ves que es posible que haya dos características en la imagen X que pertenecen a la misma bandeja y así sucesivamente y así sucesivamente. Así que ahora construimos lo que se conoce como histogramas de nivel 1 donde contamos el número de características en cada una de estas bandejas fusionadas en la imagen X y la imagen Y. Usted ve que hay dos apariciones de características en este estante. Del mismo modo, hay dos apariciones de características en esta bandeja en la imagen X, pero la imagen Y tiene una característica todavía en cada bandeja. Así que en base a eso, construimos el histograma para la imagen X, construimos el histograma para la imagen Y. Y ahora usted calcula la intersección de estos dos histogramas y usted encuentra que hay cuatro partidos. Pero no se cuentan todos los cuatro partidos, se cuenta cuántos partidos nuevos se suman. Así que solo vamos a ver cuántos partidos nuevos se suman al igualar estos histogramas, que va a ser que tuvimos dos partidos antes, tenemos cuatro partidos ahora, los nuevos partidos serían dos. Así que ahora consideras esos nuevos partidos, los pesa a la mitad. Por qué la mitad, recordar un partido a un nivel más cercano se le da menor peso que un partido a un nivel más fino, porque el partido de nivel más fino significa un partido más cercano. Así que usted toma estos dos nuevos partidos los ponderó a la mitad y ahora su puntuación de similitud se convierte en 2 en 1 de la diapositiva anterior más 2 en 1/2, que es totalmente va a ser 3. (11:19) Ahora, continuamos este proceso, ahora usted hace su histograma bins sólo cinco en número, lo que significa que el número de características que va a tener en cada bandeja va a aumentar. Ahora puede tener tres características en esta bandeja en la imagen X, así sucesivamente. Una vez más, puedes conseguir el histograma para X, el histograma para Y, computas la intersección, que ahora te va a dar el número de partidos para ser 1 más 2 más 2, que va a ser 5, pero ya tenías cuatro partidos en el nivel anterior. Por lo tanto, el número de nuevos partidos va a ser solo uno, por lo que el nuevo partido aquí va a ser solo uno. Así que la puntuación de similitud ahora va a ser dada por 2x1 + 2x1/2 + 1x1/4, porque usted está reduciendo el peso aún más cuando usted va a un nivel de curso aún más alto. Así que su puntuación total de similitud es 2 más 2 en 1/2 más 1 en 1/4 que va a ser 3.25. (12:29) Así que tratemos de poner esto juntos. Así que dado como el conjunto X que consta de n diferentes características de cada uno de los componentes de la energía R d. Supongamos que las distancias de esos elementos oscilan entre 1 y D. Esto nos ayuda a construir sus papeleras para construir el histograma. Una vez que conozca la distancia máxima entre los elementos, puede jugar con sus bandejas de histograma para definirlas como corresponde. Por lo tanto, vamos a definir a Xi como un histograma de X en R power d en una rejilla regular de la longitud lateral 2 power i. Así que empezamos con el histograma en el nivel 1, el histograma en el nivel cero, nivel 2, así sucesivamente. Técnicamente hablando, vamos a empezar i en menos 1, pero en menos 1, no hay partidos. Es puramente para la conveniencia matemática como veremos en un momento. Y luego seguimos construyendo el número de niveles de histograma hasta el log D donde recuerde D utilizar las distancias máximas entre los elementos. Así que ahora dadas dos imágenes con los descriptores X e Y vamos a definir antes el partido de la pirámide como K (X,) γ (X) γ (Y) (κ (X,) (X,)) Δ Y = ∑ l i= 0 1 2 i HI i Y i − κHI i− 1 Y i− 1 Y en cada nivel se va a contar el número de nuevos partidos. El primer término cuenta el número de partidos a este nivel, el segundo término cuenta los partidos en el nivel anterior y se va a seguir construyendo eso. Así que en cada punto, esto se va a referir al número de nuevos pares emparejados. Así que esta diferencia también puede ser escrita, la suma de las diferencias más bien también puede ser escrita. Sería, si expandes esto, conseguiría una suma telescópica porque tendría un i es igual a 0, tendría 1 por 2 potencia 0 en κH (X,) (X,) I 0 Y 0 − κHI − 1 Y − 1 que ignoras, ese término es algo que ignoras. Entonces usted tendría más 1 por 2 en kappa de X1 por 1 menos kappa X0, Y0. Así que el X0, términos Y0 será común entre estos dos elementos que seguirán obteniendo telescopio. Así que si los pone todos juntos, usted encontraría que la suma telescópica puede ser escrita como 1 por 2 de poder L en κ (X,) , que estarán al más alto nivel más todos los demás términos de L Y L se obtendrán, por lo que, por ejemplo, vamos a tomar un ejemplo en particular. Si usted toma i es igual a 1 y yo es igual a 2. En i is equal to 1, you are going to have 1/2 for simpleza we just going to read it as κ (X,) (X Y). Y en i es igual a 2, usted va a tener 1 Y 1 − κ 0, 0 κ (X,) (X Y). 4 1 2 Y 2 − κ 1, 1 Así que este κ (X,), κ (X,) se restará y se quedará con 1/4 en 2 1 1 Y 1 4 1 1 Y 1 kappa X1, Y1 y eso es lo que usted escribe aquí. Así que lo que significa X1, Y1 tendría solo un cuarto de partido porque uno de ellos se cancelará. Así que te quedarás con 1 por 2 power i más 1 kappa de Xi, Yi. En caso de que esto sea sólo una simplificación de la suma telescópica que vemos en la ecuación anterior. Así que esto es sólo una representación matemática del ejemplo que acabamos de ver en las últimas diapositivas. (16:32) Ahora, se puede demostrar que esta función de K delta que acabamos de definir realmente pasa a ser un kernel definido positivo. Recuerde de nuevo, si usted recuerda su discusión de los kernels en las máquinas vectoriales de apoyo y el aprendizaje automático, usted recordará que un núcleo definido positivo tiene beneficios porque satisface los músculos teorema y la eficiencia computacional aumenta, si su núcleo satisface esta propiedad. Veamos cómo se mantiene eso aquí. Recuerde ahora que K delta se escribe como una suma ponderada de términos de kappa HI con coeficientes no negativos. ¿Cuáles son esos coeficientes no negativos, 1 por 2 poder i. Estos son coeficientes no negativos. Y luego tienes una suma ponderada de diferentes términos de kappa HI. Estos son los términos a los que nos estamos refiriendo. Eso es lo que K es. O si usted mira Δ cualquiera de estas ecuaciones es simplemente una suma ponderada de las His de kappa. Y también sabemos que cada uno de estos κH s que es su histograma intersecciones es simplemente un min de valores I ' en cada bandeja. Por lo tanto, es una suma de términos mínimos. Ahora sabemos que el min puede ser escrito como un producto de punto. Cómo, si tuvieras un número 3, y si tuvieras un número 5, puedo escribir 3 como pongo 1, 1, 1 para los tres primeros valores y luego cero, cero, cero asumiendo que puedo subir al valor 8. Del mismo modo, para cinco, tengo 1 en los primeros cinco índices seguido de tres ceros. Ahora, el min de estos dos valores, que es tres, es simplemente un producto de punto entre estos dos vectores binarios, lo que significa que puedo escribir min como un producto de punto y el resto de él ahora caería muy bien porque una suma de punto que tendría min para ser un producto de punto, la suma de términos mínimos también se puede escribir de esa manera y una suma ponderada de términos de kappa HI con coeficientes no negativos también se puede escribir de esta manera, lo que significa que usted puede escribir todo su delta K como un núcleo definido positivo. En caso de que haya partes que no están claras para usted, por favor, siga adelante y lea el papel del núcleo de la pirámide para ser capaz de tener un mejor sentido de esto. Por lo tanto, una pregunta aquí es que acabamos de decir aquí que el min puede ser escrito como un producto de punto al escribir cada uno de los números que usted tiene allí en este formulario. Si usted escribió cada uno de esos números en esta forma particular, entonces min se convierte en un producto de punto. Así que usted podría hacerme la pregunta. Usted simplemente extrapoló el producto punto a una suma de términos mínimos y luego suma de los términos mínimos a una suma de términos de kappa HI con coeficientes no negativos y continuó eso como definitivo positivo. Entonces, cuál sería la representación de los elementos en los que K delta es un núcleo positivo, lo que sería esa incrustación. Por min, la incrustación lo estaba escribiendo de esta manera, escribiendo cada número simplemente como en enumerativo, de manera enumerativa. ¿Cuál sería la correspondiente incrustación sobre la cual K delta se convierte en un núcleo definido positivo. Para saber qué es la incrustación Vamos a tratar de analizar esto un poco más cuidadosamente. (19:57) Así que si tuvieras dos imágenes X e Y por conveniencia, supongamos que X tiene un número menor de características que la imagen Y. Recuerde que ambos son un conjunto no ordenado de características. Podría ser el otro camino también. Esto es sin pérdida de generalidad. En ese caso, simplemente sería volteado. Pero de lo contrario se puede suponer que uno es menos que el otro en términos de cardinalidad de características. Y eso es definir una función pi que nos lleva de la imagen X a la imagen Y de tal manera que pi es de uno a uno, lo que significa para cada característica en la imagen X, se encuentra la característica más cercana en la imagen Y. En ese caso, la coincidencia óptima de pairwise sería dada por, usted toma una característica de la imagen X, usted encuentra la característica más cercana correspondiente en la imagen Y, usted toma la distancia L1 entre estas dos características y usted va a encontrar el pi de la función que le lleva de la imagen X a la imagen Y que le da lo menos que, lo siento, lo que maximiza la reciprocidad de esta distancia. Recuerda, recíproco de esta distancia te va a dar un sentido de similitud por lo recíproco que quieres encontrar la función pi que te da la máxima distancia de este tipo. Para aquellos de ustedes que están un poco más familiarizados con las métricas de distancia, encontrarían que tal representación es similar a lo que se conoce como la distancia del transportador de la tierra, que es dada por min |x (x) | |. Recuerda que se trata de una métrica a distancia, mientras que este π ∑ xplayer X | − π 1 representación de emparejamiento óptimo de pairwise es una medida de similitud, que es por lo que tienes max aquí y tienes un min aquí. Recuerde que la distancia y la similitud son ideas complementarias. Si uno es alto, el otro debe ser bajo, así sucesivamente. Así que sucede que definir X de la manera en que lo hicimos, donde lo definimos en términos de ubicaciones de rejilla e histogramas y así sucesivamente y así sucesivamente y tomando una norma entre esas intersecciones, en realidad nos da la incrustación. Para más detalles de esto, esto podría ser un poco matemáticamente involucrado, pero para los detalles de esto, por favor ver este documento en particular llamado rápida recuperación de imagen a través de embeddings. Pero la idea central que quieres quitar de aquí es que el kernel de la pirámide de match define un kernel definido positivo que lo hace eficiente porque sabemos que un kernel definido positivo que satisface el teorema del Mercer tiene un cierto beneficio en los cálculos usando el truco del kernel y también que la incrustación que corresponde al núcleo proviene de un, puede estar relacionado con la distancia L1 entre estos valores X y este documento en particular describe esto con más detalle. Y recuerde que una vez más el kernel de coincidencia de pirámide es una medida de similitud como cualquier otra función del núcleo y no penaliza la dispersión excepto para la normalización. Por eso lo que queremos decir es que es posible que muchas características se puedan congregar en una cierta sección de todo su espacio de energía R d y usted no va a penalizarlo porque eso simplemente aumentaría el recuento de la intersección de histograma en un estante particular o así sucesivamente y así sucesivamente. No hay una penalización por eso. La única penalización que usted podría tener es el factor de normalización que usted puede estar teniendo aquí en su definición del núcleo. (23:51) Uno podría extender esto en lugar de dividir R power d en una rejilla uniforme donde se cuente cuántas características están mintiendo en cada una de esa red de energía R. También podría agrupar todas sus características y ahora hacerlo en base a un vocabulario. Así que podría construir todo su histograma basado en, hasta ahora en el método que hemos discutido, los histogramas no necesitan haberse basado en un vocabulario, podrían haber estado dividiendo toda su potencia R d d en varias bandejas y contando cuántas características se han producido en cada una de esas cuadrículas. Pero también podría considerar la agrupación en clúster, agrupar sus puntos clave en el vocabulario y, a continuación, crear sus bandejas basándose en esos centros de clúster. Esto sería simplemente una extensión del método que tenemos hasta ahora, donde reemplazaríamos la grilla regular por decir células de vocabulario jerárquicos o no jerárquicos. Y en comparación con el árbol de vocabulario anterior al comienzo de la última conferencia, hablamos de cómo los medios K jerárquicos se pueden utilizar en bolsa de palabras. Y dijimos que una de las preocupaciones que hay, no hay forma de principio de dar pesos a cada nivel en el árbol. Ahora, en el kernel de coincidencia piramidal realmente tenemos una manera de principio que ha dado por 1 por 2 poder i. Incluso aquí, la calidad de la aproximación puede sufrir a altas dimensiones simplemente por la maldición de la dimensionalidad y cómo la distancia se distorsiona en dimensiones superiores. (25:25) Uno podría extender esta idea de kernel de coincidencia de pirámide para hacer un enfoque de coincidencia especial puro. Hasta ahora, hablamos de dividir. Usted toma todas las características de diferentes imágenes y divide toda la potencia R d que son los descriptores dimensionales D para las características en cuadrículas y luego construir sus histogramas. Pero también podría crear estos histogramas en el espacio de la imagen. En este contexto, lo que harás es, digamos que tienes una imagen como esta, ahí una persona está realizando una determinada acción. Usted podría dividir la imagen en cuatro partes, en 16 partes y así sucesivamente. Y tienes dos imágenes diferentes. Ahora puede hacer la comparación basada en histogramas. Cuántos puntos pertenecen a este estante, cuántos puntos pertenecen a la bandeja superior derecha, así sucesivamente. Claramente en este enfoque, usted sólo está considerando las ubicaciones de coordenadas de las características. Usted no está considerando el descriptor o la apariencia de cómo esa característica se ve en absoluto. Pero este enfoque podría ser usado en tratar de igualar la posición de una persona o cuán diferente era la posición de una persona con respecto a una posición anterior así sucesivamente. Así que esto se puede utilizar, pero tiene sus propias limitaciones, porque en este caso, simplemente está contando cuántos histogramas resultan ser en el espacio de la imagen espacial, dividiendo la imagen en partes en lugar de tomar el descriptor del punto clave y hacer el histograma en el espacio del descriptor. Así que sólo está considerando las coordenadas aquí o la geometría de los puntos en la imagen en lugar de cómo aparece cada uno de esos puntos clave. (27:14) También podría combinar estas ideas para realizar lo que se conoce como coincidencia de pirámide espacial. Esta era una extensión del kernel de coincidencia de pirámide. En este contexto, lo que puedes hacer es que tengas un nivel cero otra vez, muy similar a los kernels de coincidencia piramidal, donde tomas un conjunto de vocabulario, se agrupan todas tus características en un vocabulario y luego se cuenta cuántos puntos pertenecen a cada uno de estos centros de clúster y se conseguiría, digamos, papeleras de histograma, como estas. Ahora, dividiste tu imagen en cuatro partes. Y ahora de manera similar, obtener una bandeja de histograma para cada una de estas palabras visuales para cada uno de estos segmentos. Para el segmento superior izquierdo, una vez más se obtiene un histograma de tres intervalos. Para el segmento inferior derecho, se obtiene un histograma de tres bandejas, así sucesivamente y así sucesivamente. Por lo tanto, las tres bandejas vienen del núcleo de coincidencia de la pirámide guiada de vocabulario, donde en lugar de dividir el espacio del descriptor en intervalos uniformes, se construyen centros de clústeres similares a los de la bolsa de palabras y luego se cuenta el número de características que pertenecen a cada una de esas palabras visuales. Una vez más se puede dividir la imagen aún más. Ahora, va a obtener un número aún mayor de intervalos de histograma correspondientes a cada una de estas ubicaciones. Así que en este caso, tu kernel va a ser, tienes tu kernel de coincidencia de pirámide, pero ahora vas a hacer eso por cada parte de la imagen y agregarlos a todos. Por lo tanto, los núcleos de coincidencia piramidal todavía existen para cada parte de la imagen y luego sigues haciendo esto en diferentes partes de la imagen. (28:51) Así que, uno podría mirarlo como un histograma de geometría de apariencia conjunta. Por lo tanto, el kernel de coincidencia piramidal era un histograma de apariencia pura porque había construido los histogramas en el espacio del descriptor. Vimos un ejemplo de cómo los kernels de coincidencia piramidal pueden ser llevados a una coincidencia especial, que era un histograma de geometría pura y la coincidencia de pirámide espacial trae estos dos juntos para crear lo que se conoce como histogramas de geometría de apariencia. Así que estas son robustas a la deformación, no completamente invariantes a las transformaciones, pero bastante robustas a la deformación por el simple proceso que usted está definiendo, donde usted está considerando la apariencia, así como donde cada una de estas características ocurrió en una imagen dada, que no estaba allí en el núcleo del partido de la pirámide en absoluto. Así que esto se puede utilizar para la clasificación global de la escena donde una organización diferente de objetos no debe distorsionar su resultado final. (29:55) Un último método del que hablaremos en esta conferencia es la comparación de la pirámide de los hados, que es claramente una extensión a la votación por tos si se recuerda. Por lo tanto, en este método, la idea es, recuerde que en la comparación típica de la pirámide, usted tomaría un conjunto de características y las emparejaría a las características de otra imagen y usted podría hacer esto de una manera rápida usando pirámides de imagen si usted recuerda discusiones en conferencias anteriores, donde primero hacer la comparación a un nivel del curso, luego a la coincidencia final en un nivel más profundo de la pirámide y así sucesivamente y así sucesivamente. (30:35) Así que podrías tener un montón de correspondencias que obtienes de emparejar a nivel de puntos clave. Y lo que vamos a hacer ahora es trabajar con estas correspondencias en lugar de dos conjuntos de características no ordenadas. Así que tienes un conjunto de correspondencias que ya obtienes haciendo juego de pirámide rápida. Y recuerda la idea central del voto duro es cada una de tus correspondencias votaciones para una transformación en particular o tienes una hipótesis de transformación basada en decir el ángulo o escala de rotación o la traducción y cada una de estas correspondencias vota por una hipótesis en particular y ahora vamos a construir histogramas en ese espacio de transformación. (31:21) Veamos un ejemplo aquí. Usted podría suponer que una característica local P en la imagen P tiene una cierta escala, orientación y traducción a ella, posición a ella en este caso en particular, de modo que es dada por esta matriz de transformación. Recuerde que esta matriz de transformación es sólo una manera diferente de escribir lo que vimos anteriormente, donde vimos que usted tiene rcos θ rsin θ -rsin θ rcos θ tx, ty, cero, cero, 1, que los constituyentes en una transformación fina donde r es una escala, theta es la orientación y tx y ty son posiciones. Así que esto es sólo una manera concisa de escribir tal matriz. Por lo tanto, estos dos ceros corresponden a este vector cero aquí. Uno está ahí para la simplicidad matemática y luego esta s (p), R (p) corresponde a la escala y orientación de ese punto P, que puede ser escrito como dos cos dos matriz y este vector t de p corresponde a la posición de ese punto en particular en la imagen. (32:41) Asumiendo esto es como se nos da una característica local. A continuación, una correspondencia entre un par de características p y q. P y Q puede ser dada por, F (c) = F (q) F (p), recordar Fp es una − 1 punto de representación de p, de manera similar, Fq sería la representación del punto q en la imagen Q y la correspondiente, la correspondencia entre estos dos puntos se da por [[s (c) r (c) tc], [0 1]]. Una vez más esto se reduce a su rotación y matriz de escala que viene aquí, su tx de la traducción, que viene aquí, y su cero, cero, 1. Ahora, tx, ty no son sólo las coordenadas, son lo mucho que se trasladó de la imagen coordinada X o punto P a la coordenada q en la imagen Q. Del mismo modo, la escala y la rotación le dice, qué es la transformación, cuánto rotó para ir de la imagen P a la imagen Q, y cuánto se hizo zoom o zoom para ir de la imagen P a la imagen Q. Así que tc, por lo que no vamos a profundizar en esto, sino sólo para completar esta discusión, este tc puede ser escrito como tq, que es la ubicación de coordenadas de Q menos sc Rc tp. ¿Por qué es así? tq es la posición en de q en la imagen Q, tp es la posición del punto p en la imagen P y sc, Rc dice, ¿cómo rotaste p y cómo hizo zoom p para llegar a un punto en la imagen Q y la diferencia entre esas dos ubicaciones va a ser la traducción real tc. Del mismo modo, se puede definir el zoom relativo en o zoom para ser la escala en q dividida por la escala en p y la rotación, de forma similar, para ser dada como Rq en Rp inversa o el ángulo se da por la orientación e imagen del punto q en la imagen Q menos theta de p la orientación de p en P. Así es como se da la correspondencia. (34:52) Así que, ahora volvamos a la coincidencia de la pirámide de hough. Lo que significa que la transformación puede ser dada por un vector de 4-D t (c) que como tx y ty, s (c), el factor de escalamiento, y θ (c), que es la orientación de la diferencia de rotación. Así que usted va a definir una cosa más antes de entrar en la comparación de la pirámide de hough, donde si usted tenía dos correspondencias p, q, y p ', q', decimos que estas dos correspondencias son conflictivas si p es igual a p' o q es igual a q ' o más bien si dos puntos de la imagen P coinciden con el mismo punto en la imagen Q o un punto de la imagen P coincide con dos puntos en la imagen Q, usted llama a dicha correspondencia para ser conflictiva. Vas a ver cómo usar esto cuando vayamos a la siguiente diapositiva. (35:43) Así que veamos cómo funciona la pirámide de hough en realidad. Así que tienes un conjunto de correspondencias ahora, que están dispuestas en tu espacio de 4-D, recuerda cada correspondencia como tx, tx, s y θ. Así que en este espacio de 4-D, ustedes van a tener cada una de estas correspondencias establecidas. Ahora usted debe ser capaz de dibujar la similitud con el kernel de la pirámide, porque ahora usted va a estar haciendo toda su pirámide de juego en este espacio de la transformación 4-D y es por eso que lo llamamos hough piramidal a juego. Por lo que cada correspondencia c es ponderada por alguna w (c) basada en alguna palabra visual. Puedes elegir usar esto o puedes dar un, puedes tener un peso uniforme si eliges. (36:28) Entonces en el nivel cero, que es el primer nivel de coincidencia, recuerde donde usted tiene papeleras muy granulares. Si hay correspondencias conflictivas en la misma papelera, las va a borrar. Por ejemplo, verá que c7 y c8 tienen dos puntos diferentes de la imagen P que coinciden con el mismo punto de la imagen Q. Así que va a eliminar uno de ellos. Por lo tanto, c7 se elimina en este caso y sólo se conserva c8. (36:56) Ahora, en cada uno de estos contenedores en esta pirámide, recuerde que esta entrada ahora está en el espacio de transformación de nuevo como ese espacio 4-D de traducción, escala y rotación. Así, en cada uno de estos bin b con palabras nb correspondencias. Así, por ejemplo, este estante tienes dos correspondencias, esta papelera tienes tres correspondencias. Así que cada grupo de correspondencia con otros dos. En este caso, hay tres. Así que cada grupo de correspondencia con otros tres y su peso en el nivel cero va a ser 1 muy similar a como lo hicimos para el kernel de la pirámide. Entonces, ahora, si usted ve aquí, usted ve que usted tiene las puntuaciones de similitud ahora, que es dado por, usted tiene para el c1 que está aquí, usted tiene dos nuevos puntos en dos nuevas correspondencias.