Loading

Alison's New App is now available on iOS and Android! Download Now

Study Reminders
Support
Text Version

Set your study reminders

We will email you at these times to remind you to study.
  • Monday

    -

    7am

    +

    Tuesday

    -

    7am

    +

    Wednesday

    -

    7am

    +

    Thursday

    -

    7am

    +

    Friday

    -

    7am

    +

    Saturday

    -

    7am

    +

    Sunday

    -

    7am

    +

In questa lezione parleremo della formazione di immagini. Prima di andare lì, hai avuto modo di verificare la risposta per la domanda trivia che abbiamo avuto l'ultima classe? Per cosa era noto Lawrence Roberts? Oltre al suo contributo alla visione informatica è più noto per essere uno dei fondatori di internet. Infatto è stato il leader del progetto ARPANET che è stato il precursore di internet all'organizzazione di difesa statunitense - DARPA. Passiamo al tema di questa lezione. Come la maggior parte di voi potrebbe conoscere le immagini si formano quando una sorgente luminosa ci colpisce la superficie di un oggetto e la luce si riflette e alcune di quella luce si riflettono su un piano di immagine che viene poi catturato attraverso l'ottica su un piano di sensori. Ecco, cioè le informazioni complessive e i fattori che influenzano la formazione dell'immagine sono la forza e la direzione della sorgente luminosa, la geometria della superficie, il materiale della superficie come la sua consistenza così come altre superfici vicine che, la cui luce potrebbe arrivare riflessa sulla superficie, le proprietà di cattura del sensore ne parleremo di più in quanto andiamo e la rappresentazione dell'immagine e dello spazio colore stesso. Ne parleremo di alcune di queste come andiamo. (01.54) Quindi, per studiare tutti questi uno probabilmente bisognerebbe studiare questo da prospettiva geometrica, dove si studia le trasformazioni 2D, le trasformazioni 3D, la calibrazione della fotocamera, la distorsione. Da una prospettiva fotometrica dove si studiano illuminazione, riflettanza, ombreggiatura, ottica, così via. Da una prospettiva di colore dove si studiano la fisica del colore, il colore umano, la rappresentazione del colore e da una prospettiva di sensore che lo guarda dalle percezioni umane, dal design della fotocamera, dal campionamento e dall'Aliasing, dalla compressione così via e così via. Quindi, non copriremmo tutti questi ma copriamo alcuni argomenti rilevanti da questi in questa particolare lezione. Se siete interessati ad una copertura più dettagliata di questi argomenti si prega di leggere i capitoli da 1 a 5 del libro di Forsyth e Ponce. (02.48) A partire da come la luce si rifletta su una superficie più tipica dei più tipici valori morali dello stato di riflessione che quando la luce colpisce una superficie ci sono 3 semplici reazioni possibili, ci sono più di 3 ma 3 semplici reazioni da avviare. In primo luogo, qualche luce viene assorbita e che dipende da un fattore chiamato albedo (ρ) e tipicamente quando si ha una superficie con basso albedo più leggero viene assorbito. Ecco perché si dice che è il fattore 1 - ρ per l'assorbimento. Qualche luce si riflette diffusamente. Si scatena in più direzioni, quindi questo accade indipendentemente dall'angolo di visualizzazione. Esempio di superfici in cui le luci si scagliano diffusivamente sono mattoni, tessuti, legno grezzo o qualsiasi altro materiale di tessitura e in questo scenario la legge cosina di Lambert afferma che la quantità di luce riflessa è proporzionale alla cosina di angolo da cui si sta visualizzando la riflessione. E infine qualche luce si riflette anche specularmente dove la luce riflessa dipende dalla direzione di visualizzazione. Quindi, un esempio di superficie dove questo accade è uno specchio dove tutti sappiamo che la luce riflessa segue lo stesso angolo della luce incidente. (04.15) Generalmente, nel mondo reale la maggior parte delle superfici hanno componenti sia speculari che diffusori e l'intensità che si riceve all'uscita dipende anche dall'angolo di illuminazione perché quando si ha angolo obliquo, arriva la luce minore. E oltre all'assorbimento, alla riflessione diffusa e alla riflessione speculare, ci sono altre azioni possibili come c'è la trasparenza, dove la luce potrebbe passare attraverso la superficie, c'è la rifrazione come un prisma dove la luce potrebbe rifrangere c'è anche scattering sub superficiale, dove più strati della superficie potrebbero provocare alcuni livelli di dispersione. E infine ci sono anche fenomeni come la fluorescenza, dove l'onda di uscita potrebbe essere diversa dalla lunghezza d'onda in ingresso o da altri fenomeni come la fosforescenza. Un concetto importante che viene studiato anche qui si chiama BRDF o il Bidirezionale Reflectance Distribution Function che è un modello di riflessione locale che ci racconta quanto una superficie luminosa appaia da una direzione quando la luce cade su di essa da un'altra direzione, un'altra direzione prespecificata. E ci sono modelli per valutare quanto appare brillante la superficie. (05.46) Così da un punto di vista del colore stesso sappiamo tutti che la luce visibile è di 1 porzione del vasto spettro elettromagnetico, quindi la luce visibile è una piccola porzione del vasto spettro elettromagnetico, quindi sappiamo che gli infrarossi cadono da un lato, l'ultravioletto cade dall'altra parte e ci sono molte altre forme di luce attraverso lo spettro elettromagnetico. Quindi, la luce colorata che arriva ad un sensore comporta tipicamente due fattori, colore della sorgente luminosa e colore della superficie stessa. (06.26) Così, un importante sviluppo in sensing del colore nelle fotocamere è quello che è noto come Bayer Grid o il Bayer Filter. Il Bayer Grid parla della disposizione dei filtri a colori in un sensore fotocamera. Quindi, non ogni elemento di sensing in una telecamera cattura tutte e tre le componenti della luce potreste essere consapevoli che tipicamente rappresentiamo la luce come RGB almeno colorata come RGB; Rosso Verde e Blu. Parleremo un po' più di altri modi di rappresentare la luce colorata un po' più tardi, ma questo è il modo tipico di rappresentare la luce colorata e non ogni elemento di sensing sulla fotocamera cattura tutti e tre i colori invece una persona chiamata Bayer ha proposto questo metodo in modo griglia dove si hanno 50% sensori verdi, 25% sensori rossi e 25% sensori blu che si ispira ai recettori visivi umani. Ed è così che questi sensori vengono controllati, quindi in un vero e proprio dispositivo fotocamera si avrebbe una matrice di sensori e c'è una serie di sensori che cattura solo la luce rossa, c'è una serie di sensori che catturano la luce verde, c'è una serie di sensori che catturano la luce blu e per ottenere gli algoritmi di demosaicing dell'immagine a colori sono utilizzati dove i pixel circostanti sono utilizzati per contribuire al valore del colore esatto a un dato pixel. Quindi, quel particolare elemento di sensing avrà il suo colore che usate anche gli elementi circostanti per scoprire per assegnare un colore a quel particolare elemento di sensing. Questi sono noti come algoritmi demosaicanti. Questo non è l'unico tipo di filtro a colori. Bayer Filter è un filtro più diffuso soprattutto nelle fotocamere dei sensori unici, ma ci sono stati altri tipi di filtri, altro tipo di meccanismo di classificazione dei colori che sono stati sviluppati anche nel corso degli anni. Quindi, potete anche leggere un po' di più su questo sulle voci di Wikipedia di Bayer Filter che parla anche di altri tipi di meccanismi che vengono utilizzati. (08.41) Quindi, facciamo una domanda a voi per pensare, se lo spettro delle luci visibili è VIBGYOR o Violet, Indigo, Blu, Verde, Giallo, Orange, Red, perché usiamo un'onda RGB che rappresenta il colore? C'è qualcosa per cui pensare, lo risponderemo nella classe successiva almeno prova a scoprirlo da solo se puoi. (09.01) Dunque, il pipeline di rilevamento dell'immagine in una fotocamera segue un diagramma di flusso come questo, dove si ha l'ottica come la lente. La luce del chiaro cade in tutto ciò. Si dispone di un aperture e dei parametri di otturazione che è possibile specificare o regolare e da lì la luce cade sul sensore. Il sensore può essere CCD o CMOS, parleremo molto presto di queste varianti. Poi c'è un fattore di guadagno, ne parleremo presto anche. Poi l'immagine si ottiene in un modulo analogico o digitale che rappresenta l'immagine grezza che si ottiene, le telecamere tipicamente non si fermano lì, si utilizzano poi algoritmi demosaicanti di cui abbiamo appena parlato, potremmo, potresti affilare l'immagine se ti piace o qualsiasi altro importante algoritmi di elaborazione delle immagini. Qualche bilanciamento del bianco, alcuni altri metodi di elaborazione del segnale digitale per migliorare la qualità dell'immagine e infine si comprime l'immagine in un formato adatto per memorizzare l'immagine. Ecco, questo è il gasdotto generale della cattura delle immagini. (10.12) Così, cerchiamo di rivisitare, visitare alcuni di questi componenti nei prossimi minuti. Quindi, prima cosa è il sensore della fotocamera stessa quindi tutti devono aver sentito parlare di CCD e CMOS. Questa è spesso una decisione comune da prendere quando si compra una macchina fotografica in questi giorni una questione minore ma che prima era ancora di più. Qual è la differenza? Quindi, la differenza principale tra CCD e CMOS è che in CCD sta per Charge Accoppiata Device. Tipicamente si genera una carica ad ogni elemento di sensing e poi si sposta quella carica fotogenerata, quindi la carica generata da un fotone che colpisce quell' elemento di rilevamento da pixel a pixel e la converte in una tensione ad un nodo di output su quella determinata colonna. Poi tipicamente un ADC o un convertitore analogico al digitale converte ogni valore di ogni pixel in un valore digitale. Ecco come funzionano i sensori CCD. (11.15) D'altra parte i sensori CMOS, semiconduttori di ossido di metallo complementare, funzionano convertendo la carica in tensione all'interno di ogni elemento. Quindi, il CCD si accumula lì è che CMOS converte ad ogni elemento che utilizza transistor ad ogni pixel per amplificare e spostare la carica utilizzando fili più tradizionali. Quindi, il segnale CMOS è digitale quindi non ha bisogno di ADC in un secondo momento. Così, oggi CMOS, originariamente le tecnologie CMOS avevano alcune limitazioni ma oggi le tecnologie CMOS sono abbastanza sviluppate e la maggior parte delle fotocamere che usiamo oggi sono in realtà i dispositivi CMOS o CMOS. (11.59) Così, le tante proprietà che si possono vedere effettivamente quando si guarda, quando si fa una foto su una fotocamera. Velocità di scatto che controlla la quantità di luce che raggiunge un sensore o si chiama anche tempo di esposizione. Pitch pitch, che definisce una spaziatura tra le celle del sensore sul chip di imaging. Fattore di riempimento o anche noto come dimensione dell'area di sensing attiva, spiacente, che è il rapporto della dimensione dell'area di sensing attiva rispetto alla superficie di rilevamento teoricamente disponibile sull'elemento sensing. Dimensione del chip che è l'intera dimensione dell'area del chip stesso. Guadagno analogico che è l'amplificazione del segnale di senso usando la logica di controllo dell'acquisizione automatica che non saremmo andatiing ai dettagli di ognuno di questo ancora una volta se siete interessati potete leggere i riferimenti forniti alla fine di questa lezione per avere maggiori dettagli su tutti. Di solito, il guadagno analogico è ciò che si controlla utilizzando l'impostazione ISO sulla propria fotocamera, si può anche avere un rumore di sensore che proviene da varie fonti nel processo di rilevamento. La tua risoluzione ti dice quanti bit vengono specificati per ogni pixel che viene deciso anche da un modulo analogico a conversione digitale in CCD o in caso di CMOS in sensing, negli elementi sensing. Quindi, il che significa che se si usano 8 per rappresentare ogni pixel, quindi si potrebbe ottenere un valore che va da 0 a 255 per ogni pixel che ti dà la risoluzione sensoriale per quel determinato pixel, e infine ci sono anche elementi di post elaborazione come già brevemente accennati come i metodi di potenziamento dell'immagine digitale utilizzati prima della compressione e dello stoccaggio dell'immagine catturata. (13.48) Quindi, una domanda popolare che spesso si può chiedere qui è, questi giorni gli smartphone sembrano essere così buoni, avete telecamere ad alta risoluzione negli smartphone, avete davvero bisogno di quelle che sono chiamate fotocamere DSLR. Quindi, cosa sono le telecamere DSLR? Lo stand della fotocamera DSLR per la fotocamera Digital Single Lens Reflex e la differenza principale tra una fotocamera DSLR o qualsiasi altro punto e sparare fotocamera o una fotocamera del cellulare è l'uso di specchi. La fotocamera DSLR utilizza un meccanismo a specchio per riflettere la luce ad un finder vista o può anche spegnere lo specchio, spostando lo specchio in modo da riflettere effettivamente la luce sul sensore di immagine. Quindi, in modo efficace il confronto qui diventa tra fotocamere specchiate e fotocamere mirrorless. Quindi, le fotocamere mirrorless come quello che vedete nei vostri smartphone sono più accessibili, portatili, a basso costo, mentre quando si ha uno specchio, la qualità del quadro tende a essere migliore, si ha più funzionalità possibili, ancora qui non vi faremo più dettagli ma vi preghiamo di leggere le fonti dei link indicati sotto ogni slide se volete saperne di più. Le fotocamere specchiate come la DSLR ti danno anche un meccanismo di shutter meccanismo variabile focale e apertura così su e così via. Questo è il motivo per cui c'è valore per le fotocamere DSLR nonostante l'avanzamento nelle fotocamere degli smartphone. (15.22) Quindi, gli altri fattori che devi capire quando si parla di formazione di immagini è il concetto di campionamento e Aliasing, ne parleremo in più dettagli un po' più tardi ma una breve recensione ora è Shannon Sampling Teorema afferma che se la frequenza massima dei tuoi dati sulla tua immagine è f_max devi almeno campionare almeno due volte quella frequenza. Perché così, vedremo un po' più tardi ma per il momento che la frequenza che hai catturato è chiamata anche la frequenza di Nyquist e se hai frequenze sulla frequenza di Nyquist nella tua immagine poi accade il fenomeno chiamato Aliasing. Allora, perché questo è cattivo e quale impatto può avere sulla formazione delle immagini? Questo può spesso creare problemi quando si svela il campione o il campione in basso un'immagine. Se si catturano un'immagine ad una determinata risoluzione diciamo 256 croce 256. Se si sceglie di alzare il campione o il campione Aliasing può essere cattivo in quelle impostazioni, lo vedremo più in dettaglio un po' più tardi in una lezione che arriverà qualche volta. (16.37) Inoltre, in termini di rappresentare l'immagine stessa ci sono più spazi di colori possibili, mentre la RGB è la più comune, le persone oggi utilizzano vari altri tipi di spazi di colore non necessariamente in una fotocamera ma in altri tipi di dispositivi lo vedremo. Lo citerò brevemente ora. Gli spazi dei colori popolari sono RGB e CMYK, CMYK spicca per ciano, magenta, giallo e nero che è quello che vedete qui. Quindi, dovrebbero essere; quindi i colori additivi sono RGB, R, G e B; i colori subtrattivi sono C, M e Y particolare applicazione in cui CMYK viene utilizzato in pratica è nelle stampanti. Quindi, capita che sia molto più facile controllare i colori utilizzando CMYK nelle stampanti, è possibile leggere di più su questi link su questi link forniti di seguito. Altri spazi di colore che vengono utilizzati in pratica sono XYZ, YUV, Lab, YCbCr, HSV così via e così via. C'è in realtà un'organizzazione che chiama il CIE che stabilisce gli standard per gli spazi di colore perché questo è un importante, questo è in realtà importante per l'industria della stampa e della scansione, penso che questo sia gente estremamente importante che lavora in quello spazio. Quindi, questo è il motivo per cui ci sono degli standard che stabiliscono per questi tipi di spazi, non ci metteremmo più in dettagli qui ancora una volta se siete interessati a passare questi link qui sotto per saperne di più su spazi di colore che cosa si intende per additivo, sottratto, ecc. date un'occhiata a questi link. (18.19) Infine, l'ultima tappa nella formazione delle immagini è la compressione dell'immagine, perché si deve memorizzare l'immagine che hai catturato, quindi di solito convertire il segnale in una forma chiamata YCbCr dove Y è luminanza CbCr parla di chrome ciò che è noto come fattore di colore o la crominanza e il motivo è che tipicamente si cerca di comprimere la luminanza con una fedeltà superiore alla crominanza. A causa del modo in cui gli esseri umani o il sistema visivo umano percepisce la luce, la luminanza è un po' più importante della crominanza, quindi si garantisce che la luminanza sia effettivamente compressa con una fedeltà superiore che significa la sua ricostruzione è migliore per la luminanza che per la crominanza, quindi questo è un motivo per cui YCbCr è usato come spazio di colore popolare prima dello stoccaggio, ancora una volta se non si capisce YCbCr, tornare al precedente slide guardare tutti questi link per capire YCbCr è una delle rappresentazioni spaziali a colori disponibili nella pratica. E come ho appena accennato quindi la tecnica di compressione più comune che ha usato per memorizzare un'immagine si chiama Discreate Cosine Transform che viene popolarmente utilizzata in standard come MPEG e JPEG Discreate Cosine Transform è in realtà una variante di Discrete Fourier Transform ed è un tu puoi definirlo come una ragionevole approssimazione di una decomposizione estiva delle patch di immagini. Quindi, non ci troveremmo dentro per ora, i video qui sono come le immagini sono compresse ad uso della chiamata al metodo DCT, i video utilizzano anche quello che è noto come compensazione del movimento di livello di blocco, quindi si dividono anche immagini in frame e set di frame in base ai concetti dalla compensazione del movimento, questo viene tipicamente utilizzato nello standard MPEG che divide tutti i frame in quelli che sono conosciuti come i frame, p frames e b frame e poi utilizza delle strategie per decidere come ogni frame dovrebbe essere codificato, ecco come vengono compressi i video. E la qualità di compressione finalmente si misura attraverso una metrica chiamata PSNR, le scuse per il typo, sarà fissata prima che le diaposate vengano caricate, che spicca per Peak Signal to Noise Ratio, dispiaciuta per questi typos. PSNR è definito come 10log10 I max 2 MSE, dove i_max è l'intensità massima e MSE parla semplicemente dell'errore quadrante medio tra l'immagine originale e l'immagine compressa, quanto è l'errore medio quadrato pixel tra queste due immagini. E il numeratore parla dell'intensità massima che si può avere in un'immagine, quindi questo è tipicamente chiamato PSNR che viene utilizzato per misurare la qualità della compressione delle immagini, ci sono altri tipi di matrice che si basano sulla percezione umana ma questa è la metrica statistica più utilizzata. Vale a dire questa lezione sulla formazione delle immagini per cui se avete bisogno di leggere di più leggere il capitolo 2 del libro di Szeliski, vi preghiamo di leggere anche i link forniti su alcune slide appositamente di quegli argomenti che vi interessano o vi rimanete con alcune domande leggete quei link. Se volete sapere in un modulo più dettagliato su come le immagini vengono catturate compresi gli aspetti geometrici di esso e l'aspetto fotometrico di esso si prega di leggere i capitoli da 1 a 5 di Forsyth e Ponce.