Loading
Apuntes
Study Reminders
Support
Text Version

Visión tradicional del aprendizaje profundo

Set your study reminders

We will email you at these times to remind you to study.
  • Monday

    -

    7am

    +

    Tuesday

    -

    7am

    +

    Wednesday

    -

    7am

    +

    Thursday

    -

    7am

    +

    Friday

    -

    7am

    +

    Saturday

    -

    7am

    +

    Sunday

    -

    7am

    +

para completar la conferencia de esta semana, pero usted acaba de resumir algunas de las cosas que usted ha visto en lo que va a pasar a un aprendizaje profundo a partir de la próxima semana. Lo que hemos visto hasta ahora. Es un breezy, alguien de trabajo en la visión de la computadora que tomó de dos a tres décadas. Así que hemos cubierto algunos temas, pero hemos cubierto. No hemos cubierto varios más, uh, un tema importante que probablemente hemos perdido es la parte basada en los enfoques. Así que en y así sucesivamente. Esperemos poder cubrir eso en un futuro, por supuesto, pero hemos tratado de resumir los aprendizajes que hemos tenido hasta ahora, que quizás nos ayudarán. Y la transición a ir a un aprendizaje profundo para la visión de la computadora. Así que una de las cosas que aprendimos hasta ahora es que la convolución es una operación muy singular. Es el cambio lineal Marion tiene propiedades útiles, tales como la competitividad asociada con estar en los repartos o adiciones y así sucesivamente. Así que es muy único en su procesamiento de señales. Forma la base de las operaciones de imagen. También forma la base de las redes neuronales, que son las que se utilizan en la visión de la computadora. Las más comúnmente conocidas como redes neuronales convolucionales. Así que la comunicación sigue siendo utilizada hasta el día de hoy, incluso como parte de la fontanería. También hemos visto que el conducto común en las tareas de visión tradicionales es dado por. Normalmente extraemos algunos puntos clave, pero los puntos de interés en las imágenes podrían ser bordes o podrían ser puntos clave que tengan un cambio significativo en más de una dirección. Y luego extraemos descriptores de estos puntos clave. Este era un tema común. Si usted vio durante la última semana de conferencias, por lo menos. Eso sería alto también. Así que una idea de tratar de usar bancos de filtros, como filtros dirigibles, o ceder nos libera para poder obtener múltiples respuestas de una sola imagen, y luego concatenarlas para poder hacer cualquier tarea o procesamiento adicional. También vimos que estos descriptores son útiles para tareas como la comparación o clasificación previa a la factura. Si tuvieras que obstruir el entendimiento que teníamos hasta ahora, se trata del hecho de que cada uno de estos métodos de los que hablamos, pasamos de una imagen de bajo nivel, entendiendo a la agregación de descriptores en un nivel superior. Así que utilizamos bancos de filtros. Las respuestas de captura a diferentes escalas y orientaciones paraben-free da su dosis así sucesivamente y así sucesivamente, pero eran histogramas, lo que podría ser considerado como hacer alguna forma de codificación porque estás tratando de cuantificar, uh, diferentes puntos clave en una escala similar, o incluso hacer algún tipo de agrupación de características a un centroide de clúster común o un elemento de libro de núcleo común. Así que uno podría ver que hay algunas similitudes aquí. Entre cómo estaba sucediendo este proceso a cómo se produce el proceso en el sistema visual humano. Al menos hablamos brevemente de ello, sobre los diversos niveles del sistema visual humano, que también tiene una similitud de tratar de obtener diferentes tipos de respuestas en diferentes orientaciones y skins de la entrada, visual, y luego tratando de hacerlo. Asimilarlas y agregarlas en diferentes niveles en el sistema visual humano. Así que aquí hay una similitud, aunque no fue por diseño, tal vez se trataba de resolver tareas para la visión de la computadora, pero hay una similitud acerca de tratar de obtener algunas características de bajo nivel, probablemente características de diferentes tipos con diferentes habilidades y orientaciones porque elegir sólo una característica puede ser limitante para ciertas aplicaciones. Así que usted quiere usar. Un banco de diferentes respuestas y luego combinarlas y poder asimilarlas para mayor información. Otra cosa importante que también aprendimos a lo largo de las últimas semanas es que hay aplicaciones para las que las características locales son más importantes. Puede que toda la imagen no sea importante. Puede ser importante para ciertas tareas, como la coincidencia de nivel de imagen. Tal vez, uh, una búsqueda de nivel de imagen en uno de sus motores de búsqueda o podría haber tareas para las que sólo las características locales son importantes. Por ejemplo, un punto clave determinado. O desea encontrar la correspondencia entre imágenes parcialmente coincidentes, así sucesivamente. Así que depende de la tarea. La estereopsis consiste en detectar la profundidad y las imágenes. Si quieres que emociones, o si quieres reconocer una instancia de un objeto, en lugar de sólo reconocer una clase en una imagen, depende de si una región local importa o la imagen completa importa. También vimos que incluyendo el uso de métodos, como la bolsa de palabras, puede hacer su imagen, los puntos de presentación, por ejemplo, es posible que si usted ha dicho 10 centros de clúster en su, uh, k-significa para bolsa de palabras, es posible que una de sus imágenes en su conjunto de datos puede haber tenido sólo características pertenecientes a tres de esos centros de clúster. Los restantes siete centros de cluster no tuvieron ocurrencia en esa imagen en particular. Lo que significa que su imagen tendría un histograma donde para tres de esas papeleras, usted tendría alguna frecuencia viene, pero el resto de las siete papeleras tendrá un comp cero que conduce a una presentación del patrocinador, donde hay un montón de ceros para esa imagen en particular. Por lo tanto, la codificación puede resultar en ese tipo de representación para una imagen. Y una importante conclusión aquí es que una gran cantidad de operadores que detectan características locales o incluso representaciones globales de imágenes para ese asunto se puede ver como la realización de la convolución contra alguna estimación de características porque los puntos clave del detector que necesita la convolución es la operación clave en la que usted está confiando. Y luego eso es seguido por algún tipo de competencia. Y así, por ejemplo, sea. Uh, los centros de clúster. Así que cada uno de los clústeres que lo hace está tratando de ganar votos de diferentes características que corresponden a ese centro de clúster, y uno de ellos gana. Así que parece que hay algún tipo de competencia o puesta en común de, del resultado de la operación de comunicación, que conduce al siguiente paso o a un nivel superior de comprensión o descripción de la imagen. Así que también lo encontramos. El objetivo hasta ahora ha sido aprender descriptores y representaciones que nos hagan fácil el partido. Usted no quiere gastar demasiado tiempo en emparejar por supuesto, ver algo de inteligencia y venir con condominios coincidentes y así sucesivamente y así sucesivamente. Pero la idea clave es poder describir puntos clave, describir imágenes de tal manera que se pueda usar un simple médico o condones simples a juego para poder emparejar imágenes o partes de imágenes o regiones en imágenes. Este tipo de descriptores son, tienen algunos ingredientes para transformaciones geométricas, una cierta escala, una cierta rotación, cierta traducción, pero en ciertos casos que está diseñado en el algoritmo. En otros casos, es posible que tengan que ser aprendidos a otros. Este es un breve resumen, muchos de los temas que ustedes han visto hasta ahora de manera abstracta, puestos en una forma concisa y concisa. Pero lo que vamos a concluir con aquí es mostrar que vamos a pasar al aprendizaje profundo. Como acabo de mencionar, aunque no por diseño, el aprendizaje profundo parece estar basado en algunos de estos principios. Algunos de ellos van a ser más claros cuando empecemos a discutir estos enfoques de aprendizaje profundo. Pero vemos que la idea de tratar de detectar respuestas de bajo nivel en off. Imágenes a diferentes tipos de Fritos y luego agregándolos y construyendo obstrucciones de alto nivel. Y luego yendo a un punto de, uh, una tarea donde la última representación se vuelve muy simple para una tarea parece ser muy simple, muy similar a una idea que las redes neuronales profundas también parecen usar para resolver tareas de visión. Aunque esto puede no haber sido por diseño. Parece ser similar en la estructura general, pero la diferencia clave entre todos estos métodos que hemos visto hasta ahora y lo que estamos haciendo para ver el aprendizaje profundo durante las próximas semanas restantes de este curso es que en el aprendizaje profundo, todo esto se hace de una manera learable, en lugar de tener que diseñar. ¿Qué puntos clave debo utilizar o debo utilizar descriptores vetados? ¿Debo usar la brillantez de auditoría o debo usar la cabeza de DLO? ¿Debo usar local por cualquier patrón? Todas ellas se convierten en decisiones de diseño que a veces se hacen difíciles porque pueden depender de la tarea. Y es decir, no había un conocimiento completo sobre qué tipo de descriptor podría ser utilizado para qué clase de una tarea. Por ejemplo, para el reconocimiento de la cara, los patrones binarios locales siempre serán la elección de una característica o poner otra cosa. Usamos este tipo de una comprensión completa de qué método utilizar para qué tarea no era muy bien conocida y redes neuronales profundas. Tener algún sentido, cambiar el juego allí haciendo, mediante la simulación de una tubería similar, pero todo el oleoducto es puramente aprendido para una tarea dada.