Loading
Apuntes
Study Reminders
Support
Text Version

Coincidencia de descriptor de imagen

Set your study reminders

We will email you at these times to remind you to study.
  • Monday

    -

    7am

    +

    Tuesday

    -

    7am

    +

    Wednesday

    -

    7am

    +

    Thursday

    -

    7am

    +

    Friday

    -

    7am

    +

    Saturday

    -

    7am

    +

    Sunday

    -

    7am

    +

Última conferencia hablamos sobre la descripción de imágenes utilizando el enfoque de atrás de los chicos o el enfoque de Villa. Ahora vamos a sacar esto adelante y mostrar cómo se pueden usar estos descriptores para emparejar entre imágenes. Antes de que vayamos allí, una vez más, un reconocimiento de que estas diapositivas se toman de las excelentes conferencias de profesor de este en Andrea Ren. También dejamos atrás una pregunta de la última vez, que es. Puesto que la bolsa de palabras es inherentemente dependiente de los juegos para definir sus centros de clúster. ¿Podemos considerar las extensiones de las apuestas para mejorar? ¿Cómo funciona la bolsa de palabras? Por lo tanto, un ejemplo específico podría ser los juegos jerárquicos, que es una extensión de la agrupación en clúster de juegos, un Gundam donde los centros de clúster se organizan de una manera jerárquica. A partir de una nota de raíz, todo el camino a un par de nodos de hoja. Así que sucede que esto ha sido sí, explorado de una bolsa de palabras para usar un método conocido como árbol de vocabulario en un camino de regreso en 2006. Y lo que sí importa es tomar k-means jerárquicos y construir un árbol de partición final. Y ahora sus descriptores de imagen. Descenso de cada uno, de la raíz a una de las hojas en cada nivel del árbol. Así que tienes, uh, un montón de centros de plástico que juntes de todas las palabras visuales que tienes de diferentes imágenes. Nosotros lo llamamos. Y detrás de las palabras, cuando se construyen los centros de clúster, se sacan todas las imágenes de los datos juntos, se toman todas las características, los descriptores que poseen las características. Además de ellos usando un método. Y luego tomas esos clusters como, como tu, lo que se conoce como buenos centros de libros a los que se le asigna cada punto clave. Su imagen es familiar. La presentación tiene X, que es uno de los elementos de tu imagen, en el descriptor de tu partido. Se da por w I N w I es la tasa de ese nodo en particular en el árbol. Y encendido es el número de puntos clave asignados a ese particular más el centro, más el centroide en el árbol. Así que una cosa evidente aquí es que es difícil saber cómo se le da un valor a la WWI. Uno podría argumentar que tal vez cuatro niveles abajo en el árbol, usted debe tener un peso más alto porque son un mejor partido. También se podría argumentar de otra manera, dependiendo de un ajuste particular en un nivel alto de partidos, tal vez más de una coincidencia, depende de la aplicación. Depende de lo que es importante en un contexto particular. Por lo tanto, que es una restricción de este método que no hay forma de principio de definir la WWI. Aunque se podría llegar con algunas heurísticas en la parte superior de la métrica, el conjunto de datos es de nuevo, se busca utilizando la presentación emergente y fundamentalmente hay un hay un problema aquí, que es que la distorsión se minimiza a menudo sólo localmente. Por ejemplo, no sé el particular más la cosa del centroide. Por lo tanto, cualquier editor que realice o cualquier diferencia entre las imágenes sólo es local con respecto a ese clúster en particular, la distorsión del mismo punto no se mide en un sentido global. Todo es con respecto a cada clúster, centroide a través de la aparición de cada clúster, centroide en cada imagen a través de dos imágenes que hacen magia. Así es como k-means se puede extender. Para una bolsa de palabras. Así que uno también podría considerar otras extensiones de los juegos y ser capaz de usarlos en tales métodos para poder describir las imágenes. Hablemos ahora de cómo se quiere decir mucho descriptores de dos imágenes diferentes en un principio más antes de ir allí, vamos a tratar de evaluar qué sabemos hasta ahora? Uno de los métodos más simples que hemos explorado hasta ahora es. Vecino más cercano que coincida donde tiene una imagen, que es el conjunto de puntos de característica, otra dimensión, que es un conjunto de otros puntos de característica. En este momento, no estamos hablando de ninguna bolsa de palabras de agregación. Es simplemente un conjunto de características en una imagen, una imagen y un conjunto de características. En la otra imagen, usamos cada característica en una sec y tiene un descriptor deportivo. Para indexar de forma independiente en una característica del segundo hermano, simplemente hacemos una comparación de vecinos más cercana basada en la descripción de la característica en cada una de estas imágenes. ¿Puede usted pensar en lo que podría ser una limitación de tal enfoque? Una limitación inherente de este enfoque es que usted podría estar ignorando la información útil de los compañeros de trabajo. Así que es posible que pueda haber una imagen donde podría haber varias instancias de la misma característica. Piensa en decir manchas en un leopardo o rayas y una cebra o así sucesivamente y así sucesivamente. Y es posible que esté correlacionando una sola característica en una imagen con varias características diferentes en la otra imagen, porque todas se parecen similares. Por ejemplo, un punto en un leopardo o una imagen podría correlacionarse con varios puntos. En un leopardo en una segunda imagen, lo ideal sería no querer tener, quiere que esto suceda. Usted quiere que cada lugar de deporte en el leopardo para conseguir que Mack sea un lugar en el leopardo en la otra imagen y bajo el deporte, de nuevo, no bajo el deporte y así sucesivamente y así sucesivamente. Pero el ejemplo que se ve en la diapositiva aquí, que es una bhanda gigante, que de nuevo tiene algunas características, que repiten en su estructura, que podría ser mapeado a la misma instancia en la segunda imagen. Que es lo que se ve ilustrativamente aquí. Este sería el ajuste ideal donde cada característica se correlaciona igual a una característica independiente en la segunda imagen. Y esto podría ser otro escenario en el que dos instancias diferentes de la misma característica se correlacionen con la misma característica en la segunda imagen, lo que no es deseable. Esto podría provocar algunos problemas al utilizar el enfoque de coincidencia de vecino más cercano. La gente también vio la bolsa de maderas que coinciden al alza hasta ahora, cualquier limitación evidente que se ve de la disciplina y la limitación de todos los días es que el enfoque hacia atrás se limita a una imagen completa a juego, no una magia parcial, porque usted va a estar mirando el histograma de. Las ocurrencias de un Android de yeso en la imagen uno frente a tal histograma para la imagen dos, usted vería dos imágenes coinciden sólo incluso los Instagramas completos están bastante cerca uno del otro. Así que sólo eres parte de la segunda imagen coincide con la primera dimensión. Estos histogramas no coincidirán y no obtendrás un buen lote en el esquema de una ciudad. Así que en otras palabras, se podría decir la bolsa de palabras, ¿es todo, toda magia? Pero realmente quiero un poco de sentido de una magia de uno a uno de una parte de la imagen que coincide con otra parte. Así que ese comienzo, todavía coinciden con algunas imágenes, que podrían ser parcialmente cercanas entre sí. Idealmente hablando, la coincidencia de vecino más cercana era un enfoque de coincidencia de uno a uno, pero tiene sus propias limitaciones. Ahora vamos a tratar de generalizar cómo usted puede hacer este descriptor de comparación utilizando un método que usted habría visto en el aprendizaje de la máquina, que va a esto. Es posible que haya oído hablar de ir a perder en máquinas vectoriales de apoyo. Así que más allá de ir a utilizar una idea similar aquí, para ser capaz de generalizar la comparación entre los descriptores, llamamos que incluso en las máquinas de vectores de apoyo o para que la materia, cualquier otro algoritmo de aprendizaje de la máquina que los paneles pueden ser utilizados, uh, el sentido del artista de artillero de similitud entre dos puntos de datos. Es el mismo principio que se está usando aquí también para poder hacer eso, vamos a definir los, esos, esos, el escenario hasta ahora. Así que no has conocido, descrito por los descriptores finales. Digamos que X está en un partido dado por X un estudiante X exento, pero cada uno de estos está apagado es un vector D dimensional, pero esto podría ser sólo el centroide del clúster o podría ser características individuales y mirando la bolsa de palabras, ejemplo, estos descriptores son típicamente cuantificados usando el agrupamiento de juegos o para ese asunto, cualquier otro método de agrupación que están cuantificados, lo que significa que simplemente no toma todas las características en una imagen. Ha intentado ver a qué centro de clúster pertenecen. Sólo tengo una Gump en esa muestra de clúster en particular como una representación de esa característica en particular. Para ese centro de clúster en particular. Esta función de PlayStation es dada por Q, que nos lleva de nuestro poder B a un subconjunto de C de nuestro cuerpo, que se llama, es un buen libro. Que se da por C uno a Seagate. Así que eso dio posibles clusters y precios, que como acabo de mencionar, usted consigue haciendo una k-significa clustering en las características de todas las imágenes y en una sola dimensión, usted es tratado de ver, Oh, usted utiliza un quantize, una función, que le lleva de cada característica a uno de estos centroides del clúster, que es más cercano a él. Este es el valor. Ahora vamos más tarde a encontrar el colon. Así que ahora el Connell está dado por dos imágenes, X. Y de color blanco, el núcleo K de X que se hace a juego viene dado por gamma de X en el blanco, rico, como veremos pronto, nuestras funciones de normalización. Veremos por qué necesitamos esto en un momento en algún tema o todos los centros de clúster que tienes N de X, C Y, C.

Derecho. Y MSI con su función a juego. Así que es la M es la función de Cardenal coincidente de la que estás hablando. Y eso sucede para cada una de las ocurrencias de cada clusters, bordadas en una imagen y las ocurrencias de ese centroide de cluster y una segunda imagen. Así que todavía tenemos que definir qué Sra. Vamos a ver algunos ejemplos de eso a medida que vamos hacia adelante. Así que el Gamow de X y Gummo de blanco. Se requiere aquí porque usted no quiere ser sesgado por la presencia de número de características en una imagen dada. Por ejemplo, es posible que puedas detectar un millar de características en una imagen y solo hacer cientos en la otra. Si simplemente hiciste una sumatoria, siempre serías sesgado por una imagen que tiene un montón de características porque el conteo subiría y que puede que realmente no sea un partido perfecto. Bueno. Así que la gama de X y demo de blanco son funciones de normalización que se puede dividir por el número total de características en la imagen de modo que la coincidencia no está sesgada por el simplemente el número de características en una pulgada. Ahora vamos a tratar de ver algunos ejemplos de cómo M vería en ejemplos que has visto hasta ahora. Así que si estás haciendo la bolsa de palabras, a juego de ida y vuelta, a juego es. Innovar una similitud de co-signo entre los centros de clúster y las dos imágenes que podría definir que lo que hayamos visto en similitud hasta ahora puede ser definido por un código de coincidencia, que es dado por usted tomar más allá, que es uno de sus buenos elementos de libro o sus centroides de clúster y usted cuenta cuántas apariencias de eso. ¿Hay una imagen X. Cuántas ocurrencias es esa imagen blanca? Y simplemente se los añade en lugar de un libro de la corte en particular y PC tres, si usted hubiera sido tal de las características en la imagen X que correspondía a C3 y tres de tales características en la imagen de blanco, porque es de extrañar ver tres, la correspondiente corriente de coincidencia es simplemente. Y en dos, tres años, que se convierte en estudio es simplemente volver para una doble suma. Así que eso es simplemente una bolsa de palabras, modelo va a respetar, pero recuerda la función de nominalización, como dije, nos encargaremos de normalizar por el número total de características en el, en la propia imagen. Pero esto es lo que M se define como. Puede ampliar esto a otro enfoque conocido como la incorporación para la coincidencia, donde si asume que cada descriptivo puede ser finalizado de alguna manera, por ejemplo, podría elegir un descriptor y simplemente decir que cualquier cosa mayor que un umbral es uno y cualquier cosa menos que un umbral es cero. Podrías comprar, analizar cualquier descriptor para ese asunto. Entonces usted computa su Connell coincidente como. Es de nuevo, similar a la espalda de lo que está pasando. La única diferencia ahora es que sólo vas a contar el número de instancias donde la distancia de martillos entre BX y B blanco va a ser menor que un umbral. Esto es simplemente su haber incrustado. Así que están teniendo cobertura es el tener distancia entre los dos vectores binarios. Y la duda es un umbral que debe especificar para poder obtener una coincidencia de este valor en concreto. También puedes definir la coincidencia de Vilade en el mismo marco, pero recuerda de nuevo, que Vielight es similar a la bolsa de palabras. La única diferencia es que no cuenta cuántas características pertenecen a un elemento de libro de códigos o a un centro de clúster. Preferirías. Obtenga todas las características que pertenecen a un buen elemento de libro. Oh, perdió el mismo tiempo. vectores residuales. Volver a recordar, en ser la luz, usted tiene un centro de cluster. Por ejemplo, podría tener dos estrellas, dos centros de clúster. Tiene un conjunto de características que están más cerca de este centro de clúster en particular. Tiene otro conjunto de características, que están más cerca de este centro de clúster en particular. Así que tomas. La diferencia entre ellos, que va a ser un vector residual. Y añade todos los vectores residuales que pertenecen a un centro de clúster determinado. Y eso se convierte en la representación de este centro de clúster. Y de forma similar, lo hará para otros centros de clúster. Ahora, si esta era la representación, ¿cómo se hace el color a juego? Así que el coronel que se corresponde es dado por toda la presentación de la imagen. X va a ser. A sec o, uh, todo un vector representado por lo que va a ser, um, las representaciones correspondientes a cada uno de sus elementos de trabajo que hago a juego de kernel ahora se da por V de fuera de los transportes V de YC, que es un producto interior entre la representación para el. Entrada de libro de código secreto en X, añada la entrada de libro de código de asiento en blanco. Pero esto es simplemente para expandir porque hemos superado es una suma, lo que todos los Xs que pertenecen a esa entrada de código en particular y los correspondientes residuos. Así que expandes, hemos superado usando un envío de manera similar, o B de YC usando sumatoria. Y ahora tienes el nuevo colon a juego como una suma o todos los elementos o el, todas las características que pertenecen a ese libro de código y la imagen de sueño X y la suma sobre blanco para el mismo, para la misma entrada de libro de código y en el interior, vas a tener fuera de X en un producto, parte de lo que los residuos. Cómo están alineados entre sí. Así que si juegas para entender la intuición aquí, estás jugando para decir que si tienes un centro de clústeres, digamos tres en la imagen X, los mismos centros de clúster, C3 en la imagen blanca, digamos que tienes tres características en la imagen X perteneciente a este centro de clúster. De forma similar, tres características que pertenecen a este centro de clúster en la imagen. Y. Usted va a tomar uno de estos reservorios y ver cómo los otros partidos residuales con esta receta. Hay que hacerlo como hace partido. Va a obtener una puntuación de coincidencia alta, pero otra si incluso espera que las características se hayan configurado alrededor del partido del centro de clúster entre los dos idiomas. Es un mejor partido, una forma más general de combinar todas estas ideas. Lo que se conoce como el gobierno de coincidencia selectiva agregada o es NK, que combina unas cuantas ideas que has visto hasta ahora. Combina la función selectiva no lineal que vimos con tener en crianza. Lo veremos en un momento. Y también combina ideas de Villa. Así que la forma en que funciona este método es que tomas la luz, que es lo que ves como la visión del argumento. Y se normalizan los vectores de Vilade, que es lo que se define como V bombo. Así que tuvimos, si ves en el fondo de la diapositiva se da por V de exi dividido por lo normal. Hemos superado el hecho de que estamos tratando de hacer el vector BILAG, que es la suma de todas las herramientas en un vector de unidad. Y ahora tomas un producto interior entre lo muy similar a lo que vimos en la luz anterior. Porque esto es una salida de producto interior de esto va a ser un escalador. Ahora utiliza una función selectiva no lineal, Sigma Alpha de este escalador para obtener su función de coincidencia final. ¿Qué hace el Sigma alfa? El Sigma alfa se define como para cualquier entrada que Sigma alfa se define como signo de visión en el valor absoluto de ver poeta alfa. Si usted es mayor que un corto, el producto interior es una medida de similitud más alta, el valor, el mejor para usted. Así que si usted es mayor que el umbral, es posible que desee pesar las cosas un poco más, pero usted puede controlar el uso de alfa. Y si usas menos que un umbral, es muy similar estar teniendo distancia. Decimos que tener distancia era menos que un corto. Contamos más. Si no, no lo contaremos. Esta es una idea muy similar. Aunque utilizamos vectores invocados para lograr el mismo objetivo. Así que puedes ver aquí que si alfa es uno, esto es sólo tú mismo sin FYS. Un signo de ti en el valor observado de ti será. Veamos algunas ilustraciones de esta idea para hacer de este un piano. Así que este es un par de ilustraciones de diferentes opciones de valores de alfa y Tal. Así que en la parte superior izquierda aquí, usted ve a alfa es igual a uno, que como acabamos de decir, que es usted mismo, usted realmente no. Es simplemente el, no el doctorado o lo normalizado que lamamos y duda en este caso. Es cero. Así que cualquier cosa mayor que cero. Vas a considerar que como tú mismo con el, en el marcador para ser, dirías, así que puedes ver aquí en este caso, el amarillo corresponde a decir cero similitud y rojo corresponde a la máxima similitud, pero imagen mejor. Así que hay algunas características que no coinciden en absoluto. Y hay unas cuantas cosas que coincidían muy bien y todas ellas se muestran en la imagen superior izquierda. Si ves que la parte superior, derecha, puedes ver aquí de nuevo, alfa es igual a una. Pero la duda es igual a 0,25. Puedes ver ahora que han bajado muchos de los amarillos, ya sabes, diciendo que esa puntuación, debes ser al menos de 0,25 para que consideremos que eso es un partido. Y ves ahora que muchos de estos partidos falsos desaparecieron porque cualquier cosa, cualquier puntuación baja ahora es ignorada. La fila inferior muestra un ejemplo donde alfa es igual a tres. Cuando veas de nuevo, cuando alfa es igual a tres y recuerda que porque estás normalizando tus vectores de recaída, el ser de altura alfa va a reducir el valor porque vas a ser un valor Lang entre cero y uno, porque tienes directores normalizados, es probable que esté evaluando cero y una especie de alfa, que es un exponente de vista es altura, los valores verticales, incluso más pequeños. Y eso es lo que ves aquí a la izquierda. ¿Dónde ves eso? Algunas de estas líneas han desaparecido? Causa que han ido más cerca de cero y a la derecha, se ve una cosa similar donde cuando alfa es igual a tres, y eso era igual a 0.2, cinco. De nuevo, obtienes unos cuantos más amarillos, que podrían ser valores más pequeños en este momento, porque te explicas, uh, exponente alfa, que es tres aquí puede haber reducido los valores porque te gusta entre cero y uno. Así que puedes ver aquí esa mayor selectividad. No hagas falsas correspondencias, que es lo que vemos aquí, pero eso fue igual a 0.2, cinco en, tanto en las imágenes de la derecha como en todo este enfoque sustituye a la trilla del corazón que tenemos en tener incrustaciones y da una forma diferente de ir, uh, un enfoque similar. Aquí hay otra ilustración de, uh, los resultados después de aplicar el método ASM K. ¿Dónde se ve aquí esto? Cada uno de estos colores en estas diferentes imágenes corresponden a la misma palabra visual, como es el verde o el amarillo, el azul es la misma palabra visual que ocurre en diferentes imágenes. Así puedes ver aquí que si tomas uno, cualquier ejemplo en particular, por ejemplo, si tomas, dices el rosa o el rojo, verías el rosa o el trabajador visual rojo responde a algún Gardner o algún rincón apuntado en cada una de estas imágenes. Todas estas chicas se pueden generalizar en chicas de partido eficientes, donde se podría definir esto como alguna función continua, cuppa de X, crema, blanco, y un amplio uso de cualquier libro de código para ese asunto, recordemos. Causar buenos libros puede ser computacionalmente intensivo y calcular y luego calcular los residuos y así sucesivamente y así sucesivamente. Definitivamente podría imponer una función gunnel entre las características individuales en una imagen y las características individuales en la otra imagen. Una vez más, muy similar a cómo funcionan las funciones carnales cuando se utilizan en máquinas vectoriales de soporte u otros algoritmos de aprendizaje automático, que son componentes externos a la misma. Lo ideal sería que esta taza de Eskimo se pueda descomponer en un producto interior de Firefox transponer, fuego de blanco, donde la lucha es la representación de cada característica en un espacio diferente. Entonces usted tendría, usted encontrará una alfombra para ser una cierta normalización de X en la presentación de todas sus representaciones de X para cada uno de estos, uh, para todas sus características, transponer.