Loading

Alison's New App is now available on iOS and Android! Download Now

Study Reminders
Support
Text Version

Set your study reminders

We will email you at these times to remind you to study.
  • Monday

    -

    7am

    +

    Tuesday

    -

    7am

    +

    Wednesday

    -

    7am

    +

    Thursday

    -

    7am

    +

    Friday

    -

    7am

    +

    Saturday

    -

    7am

    +

    Sunday

    -

    7am

    +

Per l'ultima lezione di questa settimana, analizzeremo qualunque cosa abbiamo visto da una prospettiva molto diversa del sistema visivo umano. Così, abbiamo visto che le immagini di elaborazione possono essere fatte per ottenere diverse attività, come ad esempio gli spigoli di estrazione, gli estratti di blobi, gli angoli, i punti chiave, le rappresentazioni di estrazione intorno ai punti chiave, le immagini del segmento, così via. Per molti decenni, questi sono stati utilizzati diffusamente nelle applicazioni di visione del computer. In particolare, uno degli argomenti che abbiamo coperto nelle lezioni, che era una banca di filtri utilizzando una banca del filtro Gabor o filtri steerabili era l'utilizzo di più filtri diversi in diversi orientamenti e scale per estrarre contenuti fuori dalle immagini. In qualche misura vedremo ora come questo approccio sia simile a come il sistema visivo umano elabora le immagini. Non è esattamente un'imitazione, ma ci sono analogie in come questi metodi sono stati utilizzati per elaborare immagini contro come accadono le cose nel sistema visivo visivo umano. Per completarlo, analizziamo una visione leggermente dettagliata del sistema visivo umano. Per iniziare con un riconoscimento, la maggior parte di queste slide di lezione sono prese dalle slide del professor Rajesh Rao all'Università di Washington, quindi a meno che non si dichiarino esplicitamente gli imagesources sono anche gli stessi. (2.03) Così il sistema visivo umano può essere sintetizzato in questo diagramma. C'è molto più dettaglio di quello che vedete in questo diagramma qui, ma quello che vedete qui è l'occhio e la retina, e la scena intorno a voi è qui intorno all'umano e il campo visivo sinistro e il giusto campo visivo cadono su entrambi gli occhi e poi potete vedere che l'occhio destro va alla parte sinistra del cervello, che è disegnata nel colore blu qui e similmente, l'input all'occhio sinistro va alla parte giusta del cervello disegnata nei colori rossi. La corteccia visiva primaria si trova alle spalle e ci sono altri componenti che il sistema visivo umano attraversa, come il nucleo polmonare, la LGN o il nucleo genicolare laterale, la radiazione colliculus superiore, così via e così via. Quindi se osservi attentamente qui, tra tutti gli input che arrivano attraverso la retina, la maggior parte va alla corteccia visiva, ma c'è una leggera deviazione di qualche contenuto qui, che entra nel colliculo superiore e il colliculo superiore è ciò che è responsabile del feedback per muovere l'occhio. Quindi il colliculo superiore è ciò che ti dice di muovere i tuoi bulbi oculari per vedere qualcosa per capire meglio, così via e così via, mentre la corteccia visiva è ciò che ci dà comprensione e percezione della scena intorno a noi stessa. Vediamo questo in un po' più di dettaglio. (3.48) Per ripartire ancora una volta, ne abbiamo parlato in una lezione precedente troppo che la luce visibile all'occhio umano è limitata a una parte dello spettro elettromagnetico, che va da qualche parte tra diciamo un po' meno di 400 nanometri a poco più di 700 nanometri che vanno dal violetto al rosso. Ovviamente le radiazioni che si hanno a sinistra di violetto sono chiamate ultra violette e le radiazioni che si hanno a destra del rosso chiamato infrarossi. Così, questo è noto a noi. (4.24) Quindi, se ci chiedi, perché il nostro occhio riceve solo questo spettro di luce il più, sembra che come ci siamo evoluti la nostra visione appare ottimizzata per ricevere la più abbondante radiazione spettrale della nostra stella, il sole. Così, in questo grafico in alto si vede l'energia dei vari componenti nello spettro elettromagnetico, si può vedere che i picchi di energia del sole nello spettro visibile e poi scende oltre il resto della radiazione elettromagnetica. E quindi questo è potenzialmente un motivo per cui i nostri occhi sembrano essersi abituati a quello spettro come lo spettro più utile da una prospettiva di visione. (5.18) Così la retina stessa, che è il sensore del nostro percorso visivo umano, è costituita da fotorecettori, e fa anche un sacco di filtraggio delle immagini, prima che passi sulle informazioni alla fase successiva del percorso visivo umano. Quindi se questa è stata la nostra retina e la luce sono caduti da sinistra a destra qui, quindi la parte posteriore della retina è saltata sul lato destro, quindi si vede che un po' più vicino. Così all'estremo, è composto da cellule epiteliali, e poco prima delle cellule epiteliali, la retina è costituita da quelle che si conoscono come le barre e i coni, di cui avrete forse sentito parlare. Ma prima che i fotoni cadano sulle barre e i coni ci sono anche molte altre cellule, come quelle che si conoscono come ganglio, cellule bipolari, così via e così via, che l'informazione passa prima di raggiungere le barre e i coni. Quindi, ognuna delle barre e dei coni hanno proprietà specifiche. (6.26) Le barre sono sensibili all'intensità, ma non a colori e perché sono chiamate barre e consensi che hanno la forma che potete vedere qui, le barre sono a forma di questo, e i coni sono plasmato conicamente. Quindi, le barre sono sensibili all'intensità, ma non sono sensibili al colore, quindi in un certo senso ottengono un'immagine sfocata di ciò che accade intorno a noi. E i coni sono sensibili al colore formano immagini affilate e richiedono molti più fotoni per assorbire le informazioni. I coni formano tipicamente tre tipi diversi negli esseri umani ognuno di questi coni sono sensibili a lunghezze d'onda specifiche. (7.16) E quali sono queste lunghezze d'onda? Quindi si ha una serie di coni che rispondono molto bene al colore blu, una serie di coni che rispondono molto bene al colore verde, una serie di coni che rispondono molto bene al colore rosso. Chiaramente le barre sono da qualche parte tra dove non sono sensibili al colore, ma sono solo sensibili all'intensità dei fotoni che cadono sulla retina. Dovrei anche spiegare l'aspetto RGB di colore che scegliamo perché questo sembra essere dove i nostri coni stanno pezzando nello spettro VIBGYOR. Così questo spiega anche perché una persona potrebbe essere colorata. Così ad esempio, se una persona non ha coni verdi la persona potrebbe non essere in grado di vedere il colore verde nel mondo che ci circonda. (8.06) Così, prima che l'immagine i fotoni raggiungano le barre e i coni, ci sono quelle che si conoscono come cellule ganglion o altre cellule della retina, che tipicamente operano in quello che è noto come modo excitatorio o in modo inibitorio. Così, in questo diagramma che si vede sullo scivolo, più denota una reazione eccitatoria e meno denota una reazione inibitoria. Così, le cellule sono organizzate in questo modo, dove c'è una cellula centrale, che è, che si emoziona quando ci cade un fotone, e ci sono un insieme di cellule intorno che vengono soppresse quando il fotone cade su di esso. Quindi cosa succede? Ricordate, a fine giornata, lo vedremo mentre passiamo a questa lezione che anche i filtri dell'immagine di accesso agli occhi e che è il motivo per cui ne stiamo parlando ora, avendo discusso filtri immagine, spigoli, caratteristiche, così via e così via, è forse un momento giusto per poter correlare ciò che abbiamo discusso finora, a come le cose accadono nel sistema visivo visivo umano. Una differenza fondamentale tra qualunque cosa abbiamo studiato finora a quello di cui parleremo nel sistema visivo umano è che il sistema visivo umano fa filtraggio spatiotemporale. Non si tratta solo di filtri spaziali, che è in gran parte quello che abbiamo visto finora in questo corso, ma anche filtrare nel tempo. Ne parleremo un po' più nel dettaglio nelle prossime slide. Prima di andare lì, come dicevamo, sistemazioni di cellule nella retina hanno componenti di elementi eccitanti e inibitori a loro. Quindi potrebbe esserci una cellula escitatoria affiancata da cellule inibitorie su entrambi i lati, così quando uno spot di luce splende su quel fotone o lo spot della luce risplende sulla cellula centrale, così quando la luce è accesa, potete vedere qui queste sono solo una serie di impulsi, ricordate che alla fine, il cervello umano o queste cellule rilasciano sostanze chimiche di picco di elettricità, come potete vedere, che sono note come potenzialità d'azione. Quindi, ognuno di questo è un picco e quando la luce è accesa, sembra che ci sia una reazione eccitatoria, perché la luce è alla parte eccitatoria quei fotoni seguono la parte eccitatoria della cellula. D'altra parte, se la luce è accesa, e quella parte cade sulla parte inibitoria delle cellule, si vede effettivamente che non c'è risposta o spiedini dalle cellule perché quelle cellule che sono inibitrici, anche quando i fotoni cadono su di esse in realtà soppresse e non lanciano alcun potenziale. Questa idea di inibizione di un excitatorio è estremamente fondamentale per come funziona il nostro sistema visivo umano. (11.06) Così ci sono due tipi. Il tipo precedente è dove abbiamo visto l'esordiente stare in mezzo, così si chiama cell off - surround cell. Hai anche il converso, dove hai un offcenter e una cella a surround, in tal caso hai una cellula inibitoria in mezzo e poi un eccitatorio intorno a esso affiancato su entrambi i lati. In questo caso quando il fotone o la luce è accesa e il fotone cade sulla cella di mezzo, le vostre potenzialità d'azione o le vostre spiagge si fermano per qualche tempo questo, così questa particolare serie di spiedini sono delle spiagge che si ottengono nel tempo. Così la luce era accesa per quella durata che vedete lì in modo che il grafico sia un grafico nel tempo che va da sinistra a destra. Così, quando la luce era accesa, si può vedere che non c'è un picco che esce da quel determinato cellule. Mentre, quando in questo caso quando la luce è nella regione al di fuori della cellula inibitoria quelle sono le cellule esecutive e si può effettivamente vedere che lanciano un branco di spuntini diversi. Quindi questa idea di off-center e on-center dove ci sono cellule che inibisce e cellule che eccelle sono componenti importanti di come funziona il nostro sistema visivo. (12.30) Come ho appena accennato, il sistema visivo umano è un filtro spatiotemporale. C'è quindi un filtro sul sito spaziale, che assomiglia in larga parte a un rilevatore di blob o un Laplaciano di Gaussiano per gran parte. Quindi potrebbe essere in ogni caso. Così si potrebbe avere un Laplaciano di Gaussiano ricordare l'altro modo, che può picco nell'altra direzione. Così si potrebbe guardare per gran parte, sembrano assemblare il Laplaciano dei Gaussiani. Ma come ho appena accennato, c'è anche il filtro temporale, che agisce come questo grafico qui. Cosa significa questo grafico? When la luce è più alta, si ottiene la risposta più alta. Dopo di che, si ottiene davvero una risposta negativa prima di stabilizzarsi, il che significa ricordare, ancora, che in un sistema visivo umano si tratta di un filtro temporale spaziale. Così quando hai un fotone che risplende, o hai un bordo che cade su di te, stai per prima di rilevare il bordo, poi per qualche piccolo millisecondi, la reazione sarà il contrario in termini di tempo, e poi si ritorna a uno stato stabile. Ecco allora cosa fa il filtro temporale. Dove puoi vederlo prendere effetto? Perché pensi che questo accada? Ecco un esempio per questo. (13.51) Se avete visto questa illusione ottica, che è comune, cosa pensate di vedere al centro, i puntini neri sono le intersezioni, i puntini neri o i doti bianchi. Questo dovrebbe spiegarvi cosa sta succedendo nell'occhio. Quindi se vedi un puntino bianco, quando muovi l'occhio da quello, ricordati che la risposta nel tempo è quella di tornare dall'altra parte e farlo sembrare un puntino nero prima di recuperare e scoprirlo è un puntino bianco, e questo è il motivo per cui una tale illusione avviene è per via di come funziona il filtro temporale nel sistema visivo umano. (14.30) Un altro effetto che si può avere visto popolarmente è quello che è noto come elaborazione dei colori - avversari. Quindi, in questo caso particolare, se si vedono tanti di questi esempi, si tratta anche di illusioni visive, illusioni ottiche ma si può, si può avere visto che questo ha molte altre impostazioni. Quando ci si concentra su alcuni colori molto forti, si ha tipicamente un negativo dopo l'immagine. Quindi ti concentri sul giallo e ti muovi velocemente intorno potrai scoprire che per essere un colore blu e si ottiene un afterimage negativo, che corrisponde ancora al filtro temporale di cui stiamo parlando, dove si ottiene una risposta opposta nel tempo prima di stabilizzarsi a un equilibrio. (15.16) Come abbiamo accennato, nel pathway del sistema visivo umano, si ha anche un componente chiamato LGN, che si trova da qualche parte tra. LGN ha anche un centro molto simile - circondando una struttura onoff alle cellule di quella determinata regione, il che significa che ci sono un insieme di cellule mentre una cellula potrebbe essere inibita può essere circondata da cellule eccitanti e viceversa in quella stessa regione. Quindi si hanno combinazioni di entrambi i tipi di cellule, che insieme portano alla percezione il modo in cui vediamo le cose. Originariamente, la LGN o il nucleo genicolare laterale era considerato più un sistema di relais che prende l'input dalla retina e lo passa alla corteccia visiva, ma ora si capisce di ricevere un sacco di feedback da varie parti del cervello, che tornano anche nella LGN per farne ottenere un quadro più olistico della scena. Ci sono quindi altri feedback che arrivano per far sì che ottenga la percezione che effettivamente vede. (16.23) Così la corteccia visiva o la corteccia V1 si trova all'estremo e parliamo del percorso visivo un po' più di dettaglio nelle prossime slide. (16.35) Nella corteccia visiva la corteccia V1, torniamo indietro e richiamiamo la storia della visione informatica di cui abbiamo parlato la scorsa settimana, dove abbiamo detto che ci sono due ricercatori Hubel e Wiesel, che sono stati i primi a caratterizzare i campi V1 e recettivi registrando da un gatto visualizzando stimoli da uno schermo. Abbiamo parlato anche di loro di ricevere il premio Nobel nel 1981 per questo lavoro. (17.02) E uno dei loro maggiori contributi è stato quello di mostrare che la corteccia V1 ha due tipi di cellule, semplici cellule che rilevano semplicemente barre e spigoli orientati. Ad esempio, si può vedere un rilevatore di bar, un bar è semplicemente una regione bianca affiancata da due regioni nere o altrimenti, e un rilevatore di bordo è il rilevatore di bordo che già conosciamo quelle sono semplici cellule. Mentre le cellule complesse possono essere invarianti alla posizione, ma sono sensibili all'orientamento. Quindi se avete certi orientamenti di spigoli le cellule complesse sono ciò che raccolgono quei tipi di orientamenti nella loro struttura. (17.46) Le celle corticali in realtà finiscono per il calcolo dei derivati. Ricorda, ancora, che il derivato spaziale è sensibile all'orientamento quindi si ottiene a seconda di come si posizionano il filtro, si rilevano diversi orientamenti di spigoli nell'immagine. Quindi, se avessi un tale spigolo nel tuo, nella scena che è caduta sugli occhi, il campo del recettore spaziale sembrerebbe una cosa del genere, che è un derivato nello spazio e il derivato nel tempo, come abbiamo già detto, avrebbe raggiunto il picco e poi cadere all'altro estremo e poi gradualmente andare oltre. In qualche misura il derivato spaziale e questo derivato temporale sembrano simili, ma il derivato del tempo o il derivato temporale porta illusioni in base al tempo in cui si guarda ad un'immagine. (18.45) Così anche alcune di queste cellule corticali hanno la selettività di direzione come abbiamo detto, le cellule complesse rispondono a orientazioni specifiche, e il derivato orientato può effettivamente trovarsi in uno spazio XT piuttosto che solo nello spazio X. Così ad esempio, con tutti i rivelatori di bordo che abbiamo visto finora, abbiamo visto che si poteva avere un rilevatore di bordo che rileva un bordo verticale, un rilevatore di bordo che rileva un bordo orizzontale, o un rilevatore di bordo che rileva un bordo con un certo orientamento. Ma perché il cervello sta elaborando informazioni in tre dimensioni, X, Y e T, si potrebbe anche avere un bordo che si muove. Ad esempio, si potrebbe avere un bordo verticale che in realtà si muove che è quello che vedete qui. Quindi si ha un bordo in movimento di destra, ma mentre si continua a muovere il bordo da sinistra a destra, ora si ha un cuboide di spazio X e Y e tempo T. E si noterebbe che perché nel tempo, i bordi che si muovono da sinistra a destra. Ricordate ancora, che a differenza dei semplici casi che abbiamo visto, finora con filtri e maschere, il sistema visivo umano risponde agli stimoli che cambiano nel tempo. Non è un'immagine ancora, ma un'immagine che cambia, quindi l'occhio umano deve adattarsi a quei cambiamenti anche nell'immagine. Così poi sembra che su T si stia per avere un bordo in una direzione diversa, perché il bordo in realtà si muove da una parte dell'immagine all'altra parte dell'immagine. Così in X, dimensione T, questa particolare cella corticale finirà per avere un bordo lungo questa direzione. Così dove T proviene dal movimento in una direzione, un X edge è il bordo che in realtà è, ricordate che c'è un bordo verticale così da avere un cambio lungo la direzione X, e sarete cambiati lungo la direzione T perché è anche in movimento. Quindi un derivato orientato ora non deve essere solo uno spazio XY che è quello che abbiamo visto finora, ma può essere nello spazio XT space YT, così via e così via. Quindi, ricordate che il concetto di rivelatore di bordo orientato è molto diverso nel sistema visivo umano, a causa del concetto di tempo. (21.13) Perché i filtri orientati sono importanti? Quindi anche dalla prospettiva del sistema visivo umano, le persone hanno dimostrato che, date le immagini naturali, e diciamo che abbiamo dovuto imparare filtri indipendenti, la cui combinazione lineare rappresenterebbe al meglio le immagini naturali, si può dimostrare che l'insieme ottimale di tali filtri sono effettivamente dei filtri orientati e sono localizzati in diverse regioni dell'immagine. Un altro modo per dire che si tratta di un'immagine naturale diventa semplicemente una risposta positiva a una banca del filtro con diversi orientamenti, e ognuno di questi filtri collocato in diverse regioni dell'immagine. Questo dovrebbe forse, collegarti alla discussione che abbiamo avuto con le banche di filtro e le lunghezze d'onda Gabor e Gabor e filtri sterzanti, così via e via dicendo. Quindi anche in quel momento abbiamo accennato che i filtri Gabor sono noti per essere poco simili a come il sistema visivo, il sistema visivo umano esegue e questo dovrebbe forse essere il contesto del perché abbiamo fatto quella dichiarazione. (22.20) Inoltre, presso la corteccia visiva, la lavorazione finale ha anche due percorsi chiamati percorsi dorati e ventrali nella corteccia visiva. Quindi il pathway dorsale è responsabile di dove le informazioni, per cui parte della scena di fronte a te stai vedendo quello che stai vedendo e il pathway ventrale corrisponde a quali informazioni o quale oggetto stai vedendo davanti a te. Così ognuna di queste parti conduce a diversi aspetti di percezione che vediamo nella scena che ci circonda. (23.02) Così il percorso, così è quello che vedete qui. Il pathway passa dalla corteccia V1 alla corteccia V2 alla corteccia V4 a un paio di regioni chiamate TEO e TE, non ci arriveremo oggi, ci saranno riferimenti alla fine di questa lezione se vorreste saperne di più su questo, ma quelle sono parti diverse del cervello come potete vedere qui, che finalmente portano a capire qual è l'oggetto. E mentre si va da ciascuna di queste regioni, mentre si passa dalla corteccia V1 alla corteccia V2 alla corteccia V4 a TEO e TE, ogni regione cattura astrazioni più elevate delle informazioni che ci circonda. Ricordate ancora, che se le barre e i coni e le altre elaborazioni precoci nel sistema visivo umano rispondono solo ai bordi e alle texture ci devono essere successivamente strati nel sistema visivo umano che ci fanno capire la scena che ci circonda. Magari un tavolo, una scrivania, un muro, una bottiglietta d'acqua così via e così via. Così il V4 ottiene livelli più alti di astrazione il TEO ottiene un'astrazione di livello ancora superiore. E questo viene messo insieme mentre si va sempre più in profondità. (24:25) D'altra parte, il percorso Where, si passa da V1 a V2 due regioni chiamate MST, MT e quella che è conosciuta come la corteccia parietale posteriore. Quindi, queste cellule rispondono a forme sempre più complesse di moto e relazioni spaziali ed è qui che entra nella foto il percorso Where, mentre il percorso che prende le caratteristiche diverse e li mette a livelli più alti di astrazione, la risposta Where pathway a forme di movimento e relazioni spaziali più complesse. Così, infatti, viene dimostrato che se ci sono danni alla corteccia parietale destra, potrebbe portare a una condizione chiamata hemi - trascuratezza spaziale dove un paziente considerato una disabilità dove un paziente non riesce a vedere un lato di sé tutto il tempo. Quindi, ancora una volta che si riferisce al percorso Where. Quindi se una parte della corteccia parietale è danneggiata, non possono davvero vedere un lato della scena intorno a loro, e il paziente si comporta come se quel campo di sinistra non esistesse affatto. Così ci sono stati alcuni esperimenti che sono stati condotti, dove le persone hanno chiesto, quindi si tratta di movimenti oculari che hanno, che sono stati rintracciati sullo schermo e si può vedere che il paziente si sta concentrando solo sulla parte destra dello schermo o in un altro caso in cui a un paziente viene chiesto di disegnare un orologio, il paziente finisce per disegnare solo il lato destro dell'orologio e non disegna un lato sinistro dell'orologio. Si tratta di modi in cui questa condizione viene diagnosticata e la condizione è conosciuta come trascuratezza spaziale o trascuratezza spaziale. (26:02) Quindi per riepilogare la gerarchia di elaborazione visiva, quindi si passa dalla retina alla LGN alla corteccia V1, e dalla corteccia V1, ci sono due percorsi il percorso Where e il pathway, dove il, quale percorso passa da V1 a V2 a V4 dove V1 ti dà una certa serie di attributi nell'immagine, attributi di basso livello nella tua immagine. V2 mette le cose insieme e ottiene cose come i bordi, i confini, i colori e così via. V4 ottiene angoli, curvature, contorni cinetici, movimento e così via e così via e TEO ottiene forme semplici e TE ottiene le parti del corpo complesse o percepisce il mondo intorno a noi come la vediamo noi. Il percorso Where, si passa da V1 a V2 a MT che rileva cose come la frequenza spaziale, la frequenza temporale, il movimento locale e globale così via e così via. MST ottiene livelli di astrazione ancora più elevati in termini di movimento come contrazioni, rotazioni, traslazione, flusso ottico così via e così via. E infine, si ha un'integrazione multimodale e una migliore comprensione del percorso Dove e delle regioni parietali. (27:15) Questo set era principalmente, destinato a darvi un parallelo tra quello che abbiamo discusso finora e il modo in cui il sistema visivo umano percepisce. Se siete ulteriormente interessati vi è un bel riassunto di qualunque cosa abbiamo discusso finora nelle note di lezione del dottor Aditi Majumder a UCI su Visual Perception. E se siete più interessati, ci sono molti più link sulla slide, che potete leggere per capire di più e le lezioni del dottor Rajesh Rao da cui queste slide sono state prese in prestito, c'è anche come uno di questi link se volete leggere di più. Ecco alcuni riferimenti per leggere.