Loading
Apuntes
Study Reminders
Support
Text Version

Coincidencia de características

Set your study reminders

We will email you at these times to remind you to study.
  • Monday

    -

    7am

    +

    Tuesday

    -

    7am

    +

    Wednesday

    -

    7am

    +

    Thursday

    -

    7am

    +

    Friday

    -

    7am

    +

    Saturday

    -

    7am

    +

    Sunday

    -

    7am

    +

Sobre la conferencia hasta ahora, hemos hablado de métodos básicos para procesar imágenes. Hablamos de operaciones como la correlación de convolución. Y luego hablamos de cómo podemos usar tales operaciones para detectar bordes en imágenes, esquinas e imágenes, diferentes tipos de socios, diferentes métodos para extraer esas esquinas, así como cómo describes estas esquinas en formas en las que podrían ser usadas para tareas adicionales? También hablamos de cómo este proceso podría ser similar a cómo el sistema visual humano también percibe el mundo que vemos a nuestro alrededor. Uno de los aspectos que mencionamos es si tienes dos imágenes diferentes y digamos que quieres puntar y otra sobre que consiste en estas dos imágenes, o más de dos, idealmente detectamos puntos de interés en ambas de estas imágenes. Obtenga los descriptores de cada uno de estos puntos de viñeta en ambas imágenes. Y luego emparejamos puntos a través de estas imágenes. ¿Cómo emparejar es en lo que nos vamos a meter a continuación? ¿O las dos próximas conferencias? Hablamos de unos cuantos métodos diferentes para emparejar puntos clave entre imágenes. No sólo los puntos clave entre las imágenes. Trataremos de usar estos métodos para hacer otro tipo de tareas, como encontrar diferentes tipos de formas e imágenes como líneas de círculos, o cualquier forma que te guste, así como incluso más descriptores de, de lo que hemos visto hasta ahora. La mayoría de las conferencias de esta semana se basan en las excelentes conferencias de. El profesor Yanis en la universidad de alquiler, Andrea en Francia. Si ustedes recuerdan, dimos este ejemplo antes de dos imágenes tomadas de la misma escena, quizás desde diferentes puntos de vista, tal vez una parte diferente del día, o tal vez, pero sólo diferentes naciones humanas o diferentes Canadá. Balómetros. Y si quieres unir una parte de estas dos imágenes, el proceso estándar es encontrar puntos clave y emparejarlos. Así que sabemos encontrar personas puntos en ambas imágenes individualmente. También sabemos cómo describir cada uno de esos puntos clave como vector. Hemos visto a SIF, hemos visto cerdo, hemos visto a LBP, hemos visto algunos métodos diferentes hoy para hacer esto. La pregunta que queda es si ahora tienes los puntos clave y los descriptores de dos imágenes diferentes, ¿cómo realmente las matas y puedes alinear? Eso es lo que vamos a hacer después. Comenzaremos con un método muy simple llamado denso logistician al flujo óptico, un método bastante antiguo, que pertenece a un ajuste. Donde tienes un cambio muy pequeño entre diferentes imágenes. Así que si usted, de nuevo, tomando el ejemplo de su teléfono celular, si va a mover gradualmente su teléfono celular o con una escena, y entonces usted quiere que Japón en un mapa, las diferencias entre las imágenes sucesivas va a ser muy poco. Así que si has probado esto tú mismo, notarás que en ciertos casos, si mueves la mano muy rápido, obtendrás un mensaje de error repetido y moverá tu mano muy lentamente para levantarte y salir de la aplicación en tus celulares. Así que en este tipo de casos, el desplazamiento de la escena entre imágenes estadísticas es muy poco en estos ajustes. Puede utilizar este tipo de método o una legislación densa para el flujo óptico. Aquí hay un ejemplo visual de una escena en la que un libro está atravesando el agua. Se puede ver que la escena es más o menos la misma, pero unos pocos cambios en las posiciones de la caja. Nuestro objetivo aquí es para cada ubicación en la imagen, digamos un punto clave en la imagen. Queremos encontrar un desplazamiento con respecto a otra imagen de referencia. Una vez que usted tiene un desplazamiento, usted puede simplemente colocar una imagen encima de la otra imagen y ser capaz de alinearlos. Así que este tipo de método de usar el registro denso es generalmente útil para pequeños desplazamientos, como la estereopsis o la pendiente óptica, para entender cómo hacer esto. Primero tomemos un caso unidimensional. Vamos a elaborar el mapa y luego vamos a ir a un caso bidimensional. Así que consideremos el caso unidimensional. Consideremos una función F de X, que es dada por esta copa verde. Y consideremos esta función GFX, que es simplemente una versión desplazada de la escena F de X, pero otros matemáticamente hablando, puedo ver que G de X. Es F de X más B, es sólo una versión desplazada de F de X. Y también asumimos que T es pequeño. Solo estamos viendo pequeños cambios entre tales como las imágenes. Sabemos por definición, por primeros principios, definición de deliberativa, se puede ver que DF por DX se da por F de explicity menos F afecta a la morder mundo. Limitada y en cero, que sería la definición anterior. Pero sabemos ahora que F de X más el, este G de X. Entonces, lo que significa que podemos escribir BFID X para ser G G afecta menos F de X por D. ¿Dónde vamos de aquí? Ahora definimos el error entre estos dos. Señales en este caso en particular porque estamos considerando un igual de una dimensión. Y ahora mismo va a ser alguna combinación ponderada. Supongamos que esto es muy similar a la correlación de auto ponderada de la que hablamos para el detector de Connor más duro. Sólo que en ese caso, hablamos de correlación automática. Aquí estamos viendo las diferencias entre dos señales, F N G. Así que tienes F de X más T y G de X. Esa va a ser la diferencia. Y usted hace una combinación ponderada de estos dos para ser capaz de encontrar el desplazamiento real. Así que tienes WX en la F de X más T menos GX al cuadrado. Ahora este segundo, esto, esta primera vez que estás usando un primer inicio diario. Vea esta expansión. Puede escribirse F de X más T transponer, Delta F de X. Las cúpulas restantes son las mismas a través de estas dos ecuaciones. El primer paso simplemente se expande como una primera expansión de la serie diaria de inicio. Y usted consigue el lado derecho de esta ecuación. ¿De dónde vamos desde aquí? Sabemos que el error se minimiza cuando el gradiente se desvanece. Así que tomamos la E por Doherty. Que usted sólo va a tomar un simple derivado de esta mano derecha la mayoría de los cuales va a ser w de X suma de X, w de X. Esa parte permanece igual que aquí. Y el término que depende de D es este término en particular. Así que si tomas el degradado de eso, vas a tener que entrar en todo el término, dentro de los corchetes, en el tem, en la entrega de la lengua, eso es afectado por T. Que es el de X. Así que vas a tener que profundizar X en toda la cúpula dentro de los brackets. Queremos ver genial en cero y luego solucionarlo por lo que estás buscando. Así que ahora simplemente ampliando la ecuación. Usted puede simplemente tomar Tums en ambos lados y montar este espacio de dados fuera va a ignorar la suma y los argumentos, sólo por la simplicidad del, de explicar esto. Si ignoramos esos, tendrías que ver con Delta F en Delta F transponer. Estos tallos se ramifican aquí. Similarmente w en Delta F en G menos F. Si lo tomas el otro lado también, no importa porque son cualquier cosa igual a cero. Estoy tratando de averiguar, tratando de resolver para esto. Por lo tanto, no haciendo esto, usted puede resolver para el Delta F y ser capaz de averiguar el desplazamiento entre estas dos señales. ¿Cuál es el equivalente de dos dimensiones? Es exactamente el mismo conjunto de ecuaciones. Sólo que en lugar de uno, la señal que ahora tendrá un parche de imagen que se define por una ventana w y luego tratamos de encontrar cuál es el error entre el lote desplazado por T en la imagen de referencia F. Y el origen del acto de parche en desplazado el veggie. Si usted se mueve F por una fecha determinada en la imagen original, ¿recibe G es la pregunta que queremos preguntar? Queremos encontrar que D que minimice este cambio, porque eso le daría el desplazamiento entre F y G. Por resolver para esto, se puede obtener el valor de la, encontrar el desplazamiento y ahora ser capaz de igualar o alinear estos dos pagos. La solución del medicamento. Uno de los problemas de este enfoque es el mismo enfoque del problema que tratamos. Cuando pasamos de las imágenes a lo más duro de un detective. Recuerde que el enfoque del problema simplemente significa que usted sólo puede. Resolver este problema para un barrio muy local. ¿Porqué? ¿Así? Porque toda la definición o la forma en que solucionamos el problema, un zoom, un barrio local. Si nos fijamos en la primera expansión de CDs de inicio diario, esa aproximación putas solo para el barrio local, lo que significa que todo este proceso sólo tiene agujeros si el desplazamiento es una visión de un barrio muy pequeño. Y esa es la razón por la que decimos que este método funciona y sólo hay cambios muy pequeños conmigo, como si pudiéramos, entonces, ¿qué hacemos si hay más que una diferencia menor entre estas dos imágenes? Por ejemplo, hace unas diapositivas, vimos esas imágenes de esas cordilleras. No pareció que esas dos imágenes fueran desplazadas por una cantidad muy pequeña. Parecía que había una rotación significativa o una diferencia de perspectiva significativa. En cómo se tomaron esas fotos, ¿cómo, cómo resolver ese tipo de cosas? Y para eso en lo que se conoce como línea base blanca, magia especial en línea base blanca, coincidencia especial, uh, hay una diferencia de la densidad de estaciones. Sólo para volver a repetir, en la estación más densa, empezamos desde un proceso de coincidencia de plantilla muy local. Y encontramos una solución eficiente basada en una aproximación de Taylor, ambos tienen sentido, pequeños desplazamientos carga, especie de línea base blanca que coincide con vigor, como usted sabe que cada parte de una imagen apareció en cualquier parte de la segunda imagen. Ya no es la colocación de Smartlist. Podrías tener un contrapunto que estaba tirado en la parte superior izquierda de una imagen y la parte inferior, a la derecha de la otra imagen. Y todavía queremos ser capaces de igualar estos puntos a través de estas imágenes. ¿Cómo vamos al respecto? Al igual que cada infusión va a ser el comienzo por emparejamiento por pares de descriptores locales. Así que tienes un montón de puntos clave e imagen uno y un montón de puntos clave en la imagen dos para cada uno de estos puntos clave, tienes un descriptor. Ahora coincide con los descriptores con los descriptores de todos los puntos clave de la segunda imagen. Donde quiera que tenga la mejor coincidencia de descriptores. Vas a decir que este punto en la imagen es probable que coincida con este punto en particular, un punto determinado en la imagen dos, y estos puntos podrían ser una coordenadas completamente diferentes posiciones en la primera imagen y la segunda imagen. Así que empezamos por emparejamiento por pares de descriptores locales, pero ningún otro orden en los puestos. Y luego tratamos de hacer cumplir algún tipo de consistencia de geometría, de acuerdo a un modelo de movimiento rígido. Así que sabemos que en el mundo real, tal vez puedas rotar una imagen, traducir o mover tu cámara o sartén tu cámara. Es probable que puedas acercar y alejar el zoom. Hay algunas transformaciones diferentes. Eso es generalmente posible. Todos ellos es lo que queremos decir como un modelo de movimiento rígido o consistencia de geometría. Así que vamos a acercar un modelo en particular que podría haber tenido lugar. Y usando estos emparejados emparejados de descriptores locales, usted va a tratar de resolver lo que serían los parámetros de la transformación entre las dos imágenes. Esto va a ser la idea clave, pero ahora hablamos de cómo realmente vamos, por lo que una vez más, en la línea base de la bahía blanca, coincidencia especial, usted podría tener dos imágenes como esta, donde una región en una imagen puede aparecer en cualquier lugar en el otro. Podría haber un zoom en zoom hacia fuera. Podría ser diferente. Ángulo, o podría ser traducido por alguien. Cualquiera de esas cosas podría suceder cuando nos gusta hacer este tipo de magia. Así que como ya dijimos, primero detectamos de forma independiente características en ambas imágenes. Así que cada uno de ellos son diferentes características que se ven a través de estas imágenes. Entonces tratamos de hacer un descriptor de emparejamiento emparejado para cada característica de detector. Podemos llegar con un descriptor como Instagram de gradientes orientados, o patrones binarios locales o la variante de histograma de los usuarios. Así que en y así sucesivamente, su titer hace un emparejamiento por pares de los descriptores entre los puntos clave en estas dos imágenes. Claramente cuando hay mucho cambio entre dos imágenes. No es necesario que cada punto clave lo iguale. Algún punto clave en el otro, en este caso particular, se puede ver que el coche ni siquiera lo hace existe en una segunda imagen. Así que cualquiera de los puntos en el coche no tendría una segunda imagen igual y de coincidencia, que está perfectamente bien con nosotros. Por lo tanto, sólo un subconjunto de características que se han detectado en el primer paso. Lo que realmente lleva a los partidos en ambos casos, en ambos casos, el, en la primera imagen, sólo un subconjunto de características coincidirá con la segunda imagen, incluso entre todas las características detectadas en la segunda imagen. Un día, un subconjunto de características de la segunda dimensión coincidiría con las características de la primera dimensión. ¿Cómo se corresponde? Una vez que usted consigue los descriptores en términos de vectores, usted puede simplemente tomar la distancia a partido. También puede utilizar otros tipos de distancias, pero simplemente puede utilizar la distancia euclidiana entre los descriptores de las características y lo que estas imágenes pueden coincidir. Así que una vez que usted consigue estas licitaciones, tratamos de un cierto modelo geométrico. Por ejemplo, podemos decir que sabemos que en nuestro dominio particular, sólo una traducción como sea posible. Sólo es posible una traducción y una rotación porque en mi cámara no hay zoom ni zoom. Podría suceder. Entonces, si supieras cuáles eran las condiciones bajo las cuales se tomó una particular captura? Así que, ya sabes, lo que podría ser la transformación que podría haber tenido lugar entre la primera imagen y el segundo partido para un zoom, una cierta transformación de energía, y encuentras entre esos fairways correspondencia, esta correspondencia es la que vimos en la diapositiva anterior, que de ellos. Qué horror se debe a este tipo de transformación de rechazo que asumo que venimos un poco más tarde en esta conferencia en cuanto a cómo se representa la transformación digital y cómo encontramos puntos que están en la vida. Volvemos a esto en unas pocas diapositivas al respecto, pero esta es la idea general. Así que entre todas esas correspondencias, te estrechas, no hagas unos cuantos, que satisfagan tu hipótesis de lo que hubiera pasado. Y entonces usted que una vez que obtiene ese subconjunto de entrada, simplemente puede coincidir y encontrar la transformación y alinear una imagen en la parte superior de la otra. Así que hablemos de aquellos con más detalle o de las siguientes dos diapositivas. Así que primero extraemos descriptores de los puntos clave en cada imagen. Así que para cada característica detectada, usted podría hacer algo como la construcción, un histograma local de gradiente y orientaciones. También podrías hacer otro tipo de cosas. Esto es sólo un ejemplo. Encuentras una o más orientaciones dominantes correspondientes al píxel, el histograma, el miembro en SIF, hablamos de encontrar. ¿Cuál es la orientación de cada punto clave? Eso es lo que estás hablando bien, en ese momento, tal vez quieras, ¿probamos el toque local en una escala o orientación de ubicación dada en función de qué detector de características utilizaste? Usted podría tener una escala para ese punto clave en particular. Así que podría tener una ubicación para ese punto clave. Usted podría tener una escala. También podría tener orientación, por lo que podría volver a muestrear el lote local. Cuando dicen la muestra. Si es un lote rotado, es posible que desee volver a muestrearlo haciendo alguna interpolación, así sucesivamente. Como usted puede. La muestra, el lote local, y luego usted encuentra un descriptor para cada orientación dominante que le da sus descriptores para recordar de nuevo, al igual que cómo él habló para un crito. Puede tomar varios descriptores para cada objetivo. Punto clave, si hay diferentes orientaciones que son dominantes, hablamos de esto. Bueno. Ahora al final del, ese paso. Tenemos un montón de descriptores en la imagen, uno, un montón de descriptores en la imagen a parte, a medida que vamos hacia adelante para cada descriptor en una imagen, encontramos que son dos vecinos más cercanos en la siguiente imagen. Por qué es solo un método que puedes, también puedes tomar otro tipo de vecinos más cercanos. Si te gusta. Si usted, en este asunto, tomamos dos vecinos más cercanos y luego evaluamos la relación de la distancia del primero a la distancia del segundo. Así que tienes una distancia entre el descriptor y la primera imagen, el primer partido en la segunda imagen y la distancia del descriptor de la primera imagen, el mismo distribuidor, el segundo partido más cercano. Tú la relación entre los dos es uno, lo que significa que ambos son buenos partidos. Si en un caso la distancia es muy baja, pero en el segundo caso, los alumnos son muy altos. Quizás ahora sepa cuál de ellos está significativamente más cerca. Puedes presionarlos para que averigüen cuál de ellos son partidos fuertes. Así que siempre que hay un tema es pequeño, ya sabes, que encontraste un partido muy fuerte porque el segundo año es la distancia está muy lejos. Ese es un tema que mediría. Así que siempre que tengas un lote fuerte, vas a considerar que una correspondencia. Y luego, después de hacer todos estos emparejamientos por pares, tienes una lista de correspondencias entre la imagen una imagen dos. ¿Qué queremos decir con correspondencias? Usted simplemente dice que el descriptor. La una imagen, una corresponde a la imagen, dos, algo así. Se puede diseñar sobre la tabla de correspondencias entre estos, entre los descriptores de estas dos imágenes. Bueno. Aquí está su última estación de la cuestión de lo mejor. Así que puedes ver aquí que para los partidos correctos, puedes ver que la proporción de distancias forma este tipo de una distribución es mucho más pequeña, pero eso es que los partidos incorrectos la proporción sigue subiendo y más hacia lo que significan, los partidos correctos. El ratio va a estar cerca de uno, lo que significa el primero. Partido es tan bueno como el segundo partido, entonces no estás muy seguro de si el partido es lo suficientemente fuerte y la primera distancia de partido es mucho menor que la segunda distancia de los partidos. Sabes que estás haciendo un buen trabajo. No se puede decir, decir también expandir esto a vecinos más cercanos y ampliar el concepto de tema. Si te gusta conseguir un más, uh, para conseguir una mejor idea de robustez de este partido. Una vez que haya identificado estos buenos partidos, más, y luego trató de estimar cuál de ellos están en capas con el zoom de transformación rígido. Antes de ir allí, vamos, vamos a tratar de averiguar por qué es este un proceso difícil por sí mismo? Bueno. Hasta ahora hemos hablado de unos cuantos pasos. En primer lugar, tenemos que elegir puntos clave o este tipo de correspondencias, que permitan una jammer con transformación que puede no ser trivial en varias imágenes, encajar el modelo o la transformación de la geometría a las correspondencias que hemos encontrado podrían ser sensibles a los atípicos. Es posible sólo por casualidad que su correspondencia podría haberse equivocado porque en la nueva imagen, tal vez había un artefacto más nuevo que entró. Lo que no se hizo en la primera dimensión, que terminó igualando el punto clave y la primera dimensión en ese caso en particular, simplemente podría ser un partido más atípico, lo que podría hacer que el ajuste de su modelo de geometría sea un poco más difícil de encontrar en capas a una transformación. En primer lugar, es necesario encontrar una transformación hasta ahora. Te seguí diciendo que puedes asumir una transformación, pero asumir una transformación no es trivial. Necesita conocimientos de dominio. Tal vez sea necesario hacer algo más para poder averiguar cuál debe ser la transformación en primer lugar antes de ajustar estas correspondencias a una transformación en ciertos casos, tales como las correspondencias atípicos también pueden tener un enemigo cruzado. Es probable que en ciertos casos, las correspondencias puedan conducir a errores. Es posible que Hitachi no haya sido el descriptor adecuado para obtener correspondencias para ciertas características. Así que podrías tener errores en este tipo de casos. E incluso las capas son a menudo menos del 50% de sus correspondencias totales, generalmente incluso menores, pero son típicamente menos del 50%. Por lo tanto, lo que significa que el número de capas en las que quieres quedar al final es muy pocas con las que realmente puedes jugar. Así que para la siguiente parte, para ser capaz de entender cómo emparejar estas correspondencias con el modelo de transformación logit? Hablemos realmente de lo que queremos decir con las transformaciones de la geometría aquí. ¿Qué queremos decir con las transformaciones aquí? Y entonces volveremos y luego trataremos de alinear las correspondencias a una transformación en particular. Dadas dos imágenes que prime. Pero igual a los puntos de datos X y explicar, sabemos que tengo X es igual. ¿I prime? Explico esto simplemente dice que a través de estas dos imágenes, se podría mapear el punto X al punto caducado en la segunda imagen, o se puede escribir este nosotros X prime es alguna transformación de X. Tenemos el punto explicado por tal vez rotando la primera imagen o traduciendo la primera imagen o haciendo zoom en la primera dimensión que van a Netflix a todos esos tipos de transformaciones. Es el escalado de la traducción de rotación como una matriz de visión de bailarín. ¿Y qué hace él? Una operación que te lleva de un vector en nuestra plaza y te da otro vector en nuestro guion. El momento, cualquier evento, cualquier matriz puede ser considerado como una transformación en esta perspectiva. Así que dado un punto, una ubicación de coordenadas, X Y en la imagen uno, la misión de bailarín puede tomar velocidad, le lleva a otro punto. Explique por qué el orgullo en su segunda imagen. Y esta transformación va a ser por inyección. Lo que significa que es un partido uno a uno entre la imagen una imagen dos cada punto en la imagen, uno coincide con sólo un punto en la imagen dos y cada punto en la imagen demasiado es sólo un punto en la imagen uno, va a ser un presupuesto. Vamos a jugar el estudio. Lo que parece son que se envíen estas transformaciones. Es una matriz. Así que para un cierto conjunto de transformaciones comunes, estas bastante bien definidas, especialmente en las transformaciones del cuerpo muerto. Y esto ha sido ampliamente estudiado, especialmente en la visión de negocios gráficos de la que hablamos en la primera conferencia. Así que hablaremos brevemente de esto. Ahora usted entiende cómo se hace la coincidencia. Así que supongamos que tienes este triángulo verde en la primera dimensión. Y usted traduce esto más bien, simplemente lo mueve ligeramente a lo largo del eje x, el eje y a lo largo del barco, pero este eje, se mueve a una ubicación ligeramente diferente. En la segunda imagen. En este caso en particular, usted definiría la transformación a ser dada por una matriz tres cruz tres, que nos ha dado uno cero cero uno, que es el top dos, los dos primeros dos cruzan dos de esta matriz. Luego tienes lo que corresponde a la traducción a lo largo del eje x. Y la traducción a lo largo del eje y. Si usted trabaja esto fuera y siempre que aplica esta transformación en X, Y, y uno, uno es simplemente usado como una coordenada normalizada para representar esta transformación, obtenemos un resultado que es exacto ¿por qué? ¿Por qué? Así que vamos a analizar esto un poco cuidadosamente. Es simplemente una transformación de vector de matriz. Si usted simplemente hizo una traducción del vector de la matriz, usted realmente verá que esto es sólo otra manera de escribir un sistema de ecuaciones. Y el sistema de ecuaciones dice X más PX es igual a explicar. De forma similar, tiene Y más B Y es igual a Dwight en blanco. El tercero no importa. Solo vas a tener uno es igual a uno. No importa, pero esto es exactamente lo que estás buscando. Esto es sólo otra manera. Eso es sólo un sistema de ecuaciones. Quiero decir simplemente escribir el sistema de ecuaciones en términos de un espectro de mantenimiento, transformación de la transformación de la matriz en un vector para darle otro vector. Esto es traducción. Vamos a ver uno más. Si usted tomó una rotación, este triángulo verde es ahora simplemente girado. No hay traducción. Solo se gira. Usted puede ver el es, uh, puerto aquí para la traducción, lo que significa que hay una traducción cero, pero hay rotación. Sí. Y en este caso, se da por costo teado menos científicos, científicos, datos de costos en la parte superior para cruzar dos de las tres métricas costosas. Les dejo ver esto con más cuidado. Es una simple expansión. Una vez más, usted tendría X costo menos Y firmar DDA es igual a explicar y emocionado. Además, los datos de coste Y son iguales a Y ¿correcto? Eso es simplemente que presenta una nueva coordenadas basada en su ángulo de rotación. Así que puedes ver aquí que si volviste a la diapositiva anterior en la traducción, hay dos grados de libertad PX y B blanco. En rotación, solo un grado de libertad, que es dado por los datos fuera de la transformación se llama la transformación de similitud, que tiene cuatro grados de libertad, que combina o suma tiene que ser dos grados de libertad para hacer la traducción. Pero también tienes un aspecto de escalado aquí, que es dado por el arte, que puede cambiar el tamaño del objeto. Y la segunda imagen, déjame ver tamaño o escala. Recuerde que corresponderá a zoom o zoom en términos de la cámara por metros. Así que ahora usted tiene OD el DX de pato y D Y cuatro grados de libertad en esta geometría. Háblame, espera hacia adelante. Este es otro ejemplo de una transformación de similitud donde se puede ver el zoom, el zoom en acción, donde el arte tiene un valor no cero o un valor que no es un valor para poder mostrar una transformación de similitud donde el arte está abierto miré hacia abajo la suma es conocida como la pura transformación. Puedes ver aquí cómo el triángulo se transforma en la imagen. Una imagen dos, esto se conoce como cizallamiento donde se aplica presión en uno de los. En uno de los lados del triángulo y extendido y mantener los otros sitios, tal vez restricción. Así que esto es incluso cambiando sólo estas cantidades, B X, B Y en su, uh, en su transformación y el resto de ellos quedarse uno. Así que entonces es por pura, usted puede iluminar las preguntas de pura como X más B X, Y es igual a no excite. B por X. Por último, ¿por qué es creíble Whitehead? Este es simplemente un sistema lineal de la ecuación manera de escribir la transformación para el centro comercial. Una transformación popular conocida como la transformación affinada se da por seis grados de libertad, donde se pueden tener valores para cualquiera de esos seis deportes en su matriz de transformación de la que hablamos. De acuerdo, vas a apegarte a este conjunto de transformaciones del cuerpo. En este momento, hay muchas misiones que también utilizan estos valores en la parte inferior, que van a proteger las transformaciones de las perspectivas de las transformaciones. No vamos a entrar en ella en este momento concreto en el tiempo. Queremos ceñirnos a unas buenas observaciones. Así que en todos estos casos, como se puede ver. Usando esas correspondencias tentativas que nos ponemos entre hacer partidos. Podemos averiguar qué partidos expresan con X e Y en su imagen. Uno, explicar por qué en la imagen dos podrían estar igualando con X Y en la imagen uno. Por lo tanto, ya tenemos una lista de correspondencias basadas en la correspondencia de los distribuidores. Nuestro trabajo es averiguar cuáles son los parámetros de esta transformación? Eso es lo que queremos buscar. Claramente, esto se trata de resolver un sistema lineal de ecuaciones. Así que queremos resolver un sistema lineal. X es igual a B donde X y B son las coordenadas del punto de conocimiento correspondencias de las imágenes, INI prime, y contiene nuestros parámetros de modelo que queremos saber. Idealmente hablando. Si tuviésemos los grados de libertad en un dado en a, en una transformación dada, lo ideal es que necesitéis el techo de las dos correspondencias de Beibei, por ejemplo, para la traducción, dos grados de libertad, lo que significa que necesitas una nueva correspondencia. Si tienes un punto en una imagen, Y otro punto en la segunda imagen, puedes encontrar tanto la X como la Y porque sabrás cuánto movas la siguiente y cuánto te mueves. Por lo tanto, uh, dado D grados de libertad, usted necesita de D Baidu techo como el número de correspondencias de su, uh, desde el uso de sus distribuidores. Bueno. Ahora bien, ¿cómo se resuelve para esto? Derecho. Así que ahora sabemos que sólo para recordar, repetir de lo que hemos hablado hasta ahora, encontramos puntos clave en cada una de las imágenes que encontramos descriptores, y luego coincidimos con los descriptores entre estas dos imágenes. Y luego basado en el enfoque de vecino más cercano, se prune esos partidos de descriptor a unos pocos conjuntos de, uh, partidos descriptivos, que son fuertes. Y entre esos B ahora quieren averiguar cuál de ellos se adaptará a mi modelo de cuerpo de Dick que asumiría para mi transformación entre las dos imágenes. Así que si asumo, y una fina transformación ahora, usando esos conjuntos de correspondencias que tengo, no tuve que resolver para. Estos seis valores. Es mi transformación. Y una vez que he resuelto por estos valores, sé cuál fue la transformación entre estas dos imágenes? Así que simplemente puedo colocar uno en una imagen encima del otro, usando la transformación de nuevo, y ser capaz de mezclarlos y crear un Panorama. Así que nos fuimos en una tarea en cuanto a cómo usted realmente estima esos parámetros? Dadas esas correspondencias, empecemos por el enfoque más sencillo de ser todos. No. Si tienes dos puntos para la línea, ese es el enfoque más sencillo que todos conocemos el modelo más sencillo que podemos imaginar. Digamos que los tapones los más grandes a usar, pero digamos para describir esto más allá, así que usted puede al menos acercarse a la correspondencia de correspondencias. Esto es lo que usted tendría. Si usted tiene un montón de correspondencias aquí, esto es datos limpios, no muchos valores atípicos. El ajuste de mínimos cuadrados le daría una ecuación bastante buena para los linemen. Sí. Sólo estamos hablando de la transformación y la psique una obstrucciones ahora, pero volveremos y dejar claro cómo usted realmente estima los parámetros de la estimación del tiempo. Qué tal si hay claro en tus partidos, luego los campos menos perfectos y da una respuesta muy diferente en comparación con lo que debería haber sido. Derecho. Entonces, ¿qué hacemos aquí? aquí hay algunas ilustraciones visuales de lo bien que funciona el rescate para diferentes tipos de transformaciones. He aquí un ejemplo de rotación. Este es el libro original. Girado en cierto grado y se puede ver eso, uh, no un libro. Lo sentimos. Creo que es una caja de pies. Y esta es la caja de pie colocada en un lugar diferente en la segunda imagen y ransack encuentra bastante buenas transformaciones entre estos dos ajustes. También funciona bien en la estimación. Lo que se conoce como una matriz de transformación o un menú de matriz fundamental se relacionan con dos vistas de la misma imagen. Si tiene dos vistas diferentes, recuerde que esta es la forma en que construiría un modelo 3d de una escena determinada. Y si usted quería construir un modelo 3d de decir la estatua, lo ideal sería tomar múltiples imágenes moviéndose lentamente alrededor de este objeto 3d en particular, y usted conseguiría un modelo 3d. Y en cada uno de esos casos, entre cada cama de imágenes que has capturado, tienes la estimación, esta matriz de transformación, que también es conocida como la matriz fundamental en este caso en particular.