23.2 Aparatele foto și ochii

Structura și funcționarea ochiului este foarte asemănătoare cu cea a unei camere foto electronice și este normal să le discutăm împreună. Ambele se bazează pe două componente importante: un ansamblu de lentile și un senzor de imagine. Ansamblul de lentile captează o parte a luminii emanate de un obiect și o focalizează pe senzorul de imagine. Senzorul de imagine transformă modelul de lumină într-un semnal video, electronic sau neural.

Figura 23-2 prezintă funcționarea obiectivului. În acest exemplu, imaginea unui patinator este concentrată pe un ecran. Termenul focalizare înseamnă că există o potrivire unu-la-unu pentru fiecare punct de pe patinator cu un punct corespunzător pe ecran. De exemplu, considerați o regiune de 1 mm x 1 mm pe vârful piciorului. În lumină puternică, există aproximativ 100 de miliarde de fotoni de lumină care izbucnesc din această arie de un milimetru pătrat în fiecare secundă. În funcție de caracteristicile suprafeței, între 1 și 99% dintre fotonii cu lumină incidentă vor fi reflectați în direcții aleatorii. Numai o mică parte a acestor fotoni reflectați va trece prin lentilă. De exemplu, numai aproximativ o milionime din lumina reflectată va trece printr-o lentilă cu diametrul de un centimetru situat la 3 metri de obiect.

Figura 23-2 Focalizarea cu o lentilă.

O lentilă culege lumina emisă de o sursă punctuală și o forțează să revină la un punct din altă locație. Aceasta permite unei lentile să proiecteze o imagine pe o suprafață.

Refracția în lentilă schimbă direcția fotonilor individuali, în funcție de locația și de unghiul unde au lovit interfața de sticlă/aer. Aceste schimbări de direcție determină o lumină care se extinde dintr-un singur punct să revină la un singur punct de pe ecranul de proiecție. Toți fotonii care se reflectă de la vârful piciorului și trec prin lentilă sunt adunați împreună la "vârful" din imaginea proiectată. În mod similar, o porțiune a luminii provenind de la orice punct al obiectului va trece prin lentilă și va fi focalizată la un punct corespunzător în imaginea proiectată.

Figurile 23-3 și 23-4 ilustrează structurile majore ale camerei foto electronice și, respectiv, ochiul uman. Ambele sunt incinte unde nu pătrunde lumina cu un obiectiv montat la un capăt și un senzor de imagine la celălalt capăt. Camera este umplută cu aer, în timp ce ochiul este umplut cu un lichid transparent. Fiecare sistem de lentile are doi parametri reglabili: focalizarea și diametrul irisului.

Dacă obiectivul nu este focalizat corespunzător, fiecare punct de pe obiect se va proiecta într-o regiune circulară a senzorului de imagine, determinând imaginea să fie neclară. În camera de fotografiat, focalizarea este realizată prin mișcarea fizică a obiectivului spre sau departe de senzorul de imagine. În comparație, ochiul conține două lentile, o proeminență pe partea din față a globului ocular numită cornee și o lentilă reglabilă în interiorul ochiului. Corneea produce cea mai mare parte a refracției luminii, dar este fixă în formă și locație. Ajustarea focalizării este realizată de lentila interioară, o structură flexibilă care poate fi deformată de acțiunea mușchilor ciliari. Pe măsură ce acești mușchi se contractă, obiectivul se aplatizează pentru a aduce obiectul într-o focalizare accentuată.

În ambele sisteme, irisul este utilizat pentru a controla cât de mult din lentilă este expusă la lumină și, prin urmare, luminozitatea imaginii proiectată pe senzorul de imagine. Irisul ochiului este format din țesut muscular opac care poate fi contractat pentru a face ca pupila (deschiderea luminii) să fie mai mare. Irisul dintr-o cameră este un ansamblu mecanic care îndeplinește aceeași funcție.

Parametrii din sistemele optice interacționează în multe moduri neașteptate. De exemplu, luați în considerare modul în care cantitatea de lumină disponibilă și sensibilitatea senzorului de lumină afectează claritatea imaginii achiziționate. Acest lucru se datorează faptului că diametrul irisului și timpul de expunere sunt ajustate pentru a transfera cantitatea corespunzătoare de lumină din scena vizibilă la senzorul de imagine. Dacă este disponibilă mai multă lumină decât suficientă, diametrul irisului poate fi redus, rezultând o adâncime-a-câmpului mai mare (gama de distanță de la camera unde un obiect rămâne în focalizare). O mai mare adâncime-a-câmpului oferă o imagine mai clară atunci când obiectele sunt la diferite distanțe. În plus, o abundență de lumină permite reducerea timpului de expunere, ducând la o mai mică estompare de la mișcarea camerei și mișcarea obiectului. Sistemele optice sunt pline de astfel de compromisuri.

Un iris reglabil este necesar atât în cameră cât și în ochi, deoarece gama de intensități ale luminii din mediul înconjurător este mult mai mare decât poate fi manipulată direct de senzorii de lumină. De exemplu, diferența în intensitatea luminii dintre lumina soarelui și lună este de aproximativ un milion. Adăugând la aceasta că reflectanța poate varia între 1% și 99%, rezultă o gamă de intensitate a luminii de aproape o sută de milioane.

Gama dinamică a unei camere foto electronice este de obicei 300 până la 1000, definită ca fiind cel mai mare semnal care poate fi măsurat, împărțit la zgomotul inerent al dispozitivului. Spus altfel, semnalul maxim produs este de 1 volt, iar zgomotul rms în întuneric este de aproximativ 1 milivolt. Obiectivele tipice ale camerelor au un iris care schimbă suprafața deschiderii luminii cu un factor de aproximativ 300. Aceasta are ca rezultat o cameră tipică electronică cu o gamă dinamică de câteva sute de mii. În mod evident, același ansamblu de cameră și lentilă utilizat în lumina puternică a soarelui va fi inutil într-o noapte întunecoasă.

În comparație, ochiul funcționează într-o gamă dinamică care acoperă aproape toate variațiile de mediu mari. În mod surprinzător, irisul nu este principalul mod în care se realizează acest domeniu dinamic extraordinar. De la întuneric la lumină, aria pupileii se modifică numai cu un factor de aproximativ 20. Celulele nervoase care detectează lumina își ajustează treptat sensibilitatea pentru a face față gamei dinamice rămase. De exemplu, este nevoie de câteva minute ca ochii să se adapteze la lumina scăzută după ce au intrat într-un cinematograf întunecat.

O modalitate prin care DSP poate îmbunătăți imaginile este prin reducerea gamei dinamice pe care trebuie să o vadă un observator. Adică, nu vrem să fie zone foarte luminoase și foarte întunecate în aceeași imagine. O imagine de reflexie este formată din două semnale de imagine: modelul bidimensional al modului în care scena este iluminată, înmulțită cu modelul bidimensional al reflectanței în scenă. Modelul reflectanței are o gamă dinamică mai mică de 100, deoarece toate materialele obișnuite reflectă între 1% și 99% din lumina incidentă. Aici se află cea mai mare parte a informației despre imagine, cum ar fi unde sunt localizate obiectele în scenă și care sunt caracteristicile lor de suprafață. În comparație, semnalul de iluminare depinde de sursele de lumină din jurul obiectelor, dar nu de obiectele în sine. Semnalul de iluminare poate avea o gamă dinamică de milioane, deși între 10 și 100 este mai tipic într-o singură imagine. Semnalul de iluminare conține puțină informație interesantă, dar poate degrada imaginea finală prin creșterea gamei sale dinamice. DSP poate îmbunătăți această situație prin suprimarea semnalului de iluminare, permițând semnalului de reflexie să domine imaginea. Următorul capitol prezintă o abordare pentru implementarea acestui algoritm.

Figura 23-3 Diagrama unui aparat foto electronic.

Focalizarea este realizată prin mișcarea lentilei înainte sau înapoi de la senzorul de imagine. Cantitatea de lumină ce atinge senzorul este controlată de iris, un dispozitiv mecanic care modifică diametrul efectiv al lentilei. Cel mai comun senzor de imagine din aparatele foto curente este CDD-ul, o matrice bi-dimensională de elemente sensibile la lumină.

Figura 23-4 Diagrama ochiului uman.

Ochiul este o sferă umplută cu lichid de aproximativ 3 cm în diametru, inclusă într-o membrană exterioară numită sclera (albul ochiului). Focalizarea este în principal realizată de cornee, o lentilă fixată pe partea frontală a ochiului. Focalizarea este reglată prin contractarea mușchilor atașați la o lentilă flexibilă din interiorul ochiului.

Cantitatea de lumină ce intră în ochi este controlată de iris, format din țesut muscular opac ce acoperă o porțiune a lentilei. Emisfera posterioară a ochiului conține retina, un strat de celule nervoase sensibile la lumină care convertesc imaginea în semnal neural în nervul optic.

Suprafața sensibilă la lumină care acoperă partea din spate a ochiului se numește retină. După cum se arată în figura 23-5, retina poate fi împărțită în trei straturi principale de celule nervoase specializate: unul pentru transformarea luminii în semnale neuronale, unul pentru prelucrarea imaginii și unul pentru transferul de informații către nervul optic care duce la creier. În aproape toate animalele, aceste straturi sunt se pare pe spate. Adică celulele sensibile la lumină sunt în ultimul strat, necesitând lumină pentru a trece prin celelalte straturi înainte de a fi detectate.

Există două tipuri de celule care detectează lumina: bastonașe și conuri, numite pentru aspectul lor fizic sub microscop. Bastonașele sunt specializate în operarea cu lumină foarte mică, cum ar fi sub cerul pe timp de noapte. Vederea pare foarte zgomotoasă în apropierea întunericului, adică imaginea pare să fie umplută cu un model granular în continuă schimbare. Acest lucru rezultă din semnalul imaginii foarte slab și nu este o limitare a ochiului. La o lumină atât de mică ce intră în ochi, se poate observa detectarea aleatorie a fotonilor individuali. Aceasta se numește zgomot statistic, și este întâlnit în toate imaginile cu lumină scăzută, cum ar fi sistemele militare de vedere de noapte. Capitolul 25 va revizui acest subiect. Deoarece bastronașele nu pot detecta culoarea, vederea la lumină slabă este alb-negru.

Receptorii conuri sunt specializați în distingerea culorii, dar pot funcționa numai atunci când există o cantitate rezonabilă de lumină. Există trei tipuri de conuri în ochi: sensibil la roșu, sensibil la verde și sensibil la albastru. Acest lucru rezultă din conținutul lor diferit de fotopigmenți, substanțe chimice care absorb diferite lungimi de undă (culori) de lumină. Figura 23-6 prezintă lungimile de undă ale luminii care declanșează fiecare dintre acești trei receptori. Aceasta se numește codificare RGB și este modul în care informațiile de culoare părăsesc ochiul prin nervul optic. Percepția umană asupra culorii este complicată de procesarea neurală în nivelele inferioare ale creierului. Codificarea RGB este transformată într-o altă schemă de codare, în care culorile sunt clasificate ca: roșu sau verde, albastru sau galben, și lumină sau întuneric.

Codarea RGB reprezintă o limitare importantă a vederii umane; lungimile de undă care există în mediul înconjurător sunt concentrate doar în trei categorii largi. În comparație, camerele specializate pot separa spectrul optic în sute sau mii de culori individuale. De exemplu, acestea pot fi folosite pentru a clasifica celulele ca fiind canceroase sau sănătoase, pentru a înțelege fizica unei stele îndepărtate sau pentru a vedea soldații camuflați care se ascund într-o pădure. De ce ochiul este atât de limitat în detectarea culorii? Se pare că toți oamenii care au nevoie de supraviețuire trebuie să găsească un măr roșu, printre frunzele verzi, siluete pe cerul albastru.

Bastonașele și conurile au o lățime aproximativă de 3 μm și sunt strâns împachetate pe întreaga suprafață a retinei de 3 cm până la 3 cm. Acest lucru determină retina să fie compusă dintr-o serie de aproximativ 10.000 x 10.000 = 100 milioane de receptori. În comparație, nervul optic are numai aproximativ un milion de fibre nervoase care se conectează la aceste celule. În medie, fiecare fibră de nerv optic este conectată la aproximativ 100 de receptori de lumină prin stratul de conectare. Pe lângă consolidarea informațiilor, stratul de conectare îmbunătățește imaginea prin ascuțirea marginilor și suprimarea componentei de iluminare a scenei. Această procesare biologică a imaginii va fi discutată în capitolul următor.

Direct în centrul retinei se află o mică regiune numită fovea (în latină - groapă), care este utilizată pentru vedere de înaltă rezoluție (vezi figura 23-4). Fovea este diferită de restul retinei în mai multe privințe. În primul rând, nervul optic și straturile interconectate sunt împinse în lateralul foveei, permițând receptorilor să fie mai expuși direct la lumina care intră. Acest lucru are ca rezultat foveea care apare ca o mică depresiune în retină. În al doilea rând, numai conurile sunt situate în fovea și sunt mai strâns împachetate decât în ​​restul retinei. Această absență de bastonașe în fovea explică de ce vederea de noapte este adesea mai bună atunci când privim spre laterala unui obiect, mai degrabă decât direct la el. În al treilea rând, fiecare fibră de nerv optic este influențată de doar câteva conuri, dovedind o bună capacitate de localizare. Foveea este surprinzător de mică. La distanța normală de citire, fovea vede doar o zonă cu diametrul de 1 mm, mai mică decât dimensiunea unei singure litere! Rezoluția este echivalentă cu aproximativ o grilă de 20 x 20 pixeli din această regiune.

Figura 23-5 Retina umană.

Retina conține trei straturi principale: (1) receptorii de lumină bastonașe și conuri, (2) un strat intermediar pentru reducerea datelor și procesarea imaginii și (3) fibrele nervului optic care conduc la creier. Structura acestor straturi este aparent inversă, necesitând luminii să treacă prin alte straturi înainte de a atinge receptorii de lumină.

Vederea umană depășește mărimea mică a foveei prin mișcări de ochi ciudate numite saccade (sacadate). Aceste mișcări abrupte permit foveei de înaltă rezoluție să scaneze rapid câmpul vizual pentru informații pertinente. În plus, saccadele prezintă bastonașele și conurile cu un model de lumină în continuă schimbare. Acest lucru este important din cauza capacității naturale a retinei de a se adapta la nivelele în schimbare ale intensității luminii. De fapt, dacă ochiul este forțat să rămână fix pe aceeași scenă, detaliile și culoarea încep să se estompeze în câteva secunde.

Figura 23-6 Răspunsul spectral al ochiului.

Cele trei tipuri de conuri din ochiul uman răspund la diferite secțiuni din spectrul optic, în linii mari corespunzând la roșu, verde și albastru. Combinațiile acestor trei formează toate culorile pe care oamenii le pot percepe. Conurile nu au suficientă sensibilitate pentru a fi utilizate în medii slab-luminate, unde bastonașele sunt utilizate pentru a detecta imaginea. Din cauza asta, culorile sunt dificil de perceput noaptea.

Cel mai obișnuit senzor de imagine utilizat în camerele electronice este dispozitivul cuplat la sarcină (CCD). CCD-ul este un circuit integrat care a înlocuit majoritatea aparatelor cu tuburi de vid în anii 1980, la fel cum tranzistorii au înlocuit amplificatoarele cu tuburi vidate cu douăzeci de ani în urmă. Inima CCD este o placă subțire de siliciu, de obicei aproximativ 1 cm pătrat. Așa cum se arată în secțiunea transversală din figura 23-7, partea din spate este acoperită cu un strat subțire de metal conectat la potențialul masei. Suprafața este acoperită cu un izolator electric subțire și un model repetitiv de electrozi. Cel mai comun tip de CCD este cititorul în trei faze, unde fiecare al treilea electrod este conectat împreună. Siliconul folosit este numit tip-p, adică are un exces de purtători de sarcină pozitivă numiți goluri. Pentru această discuție, un gol poate fi considerat ca o particulă încărcată pozitiv, care este liberă să se deplaseze în siliciu. Golurile sunt reprezentate în această figură prin simbolul "+".

În (a), +10 volți se aplică în una din cele trei faze, în timp ce celelalte două sunt menținute la 0 volți. Acest lucru face ca golurile să se îndepărteze de la fiecare al treilea electrod, deoarece sarcinile pozitive sunt respinse de o tensiune pozitivă. Aceasta formează o regiune sub acești electrozi numită well (cavitate), o versiune prescurtată a termenului de fizică: groapă de potențial.

Fiecare cavitate din CCD este un senzor de lumină foarte eficient. După cum se arată în (b), un singur foton de lumină care lovește siliciul își transformă energia în formarea a două particule încărcate, un electron și un golă. Golul se îndepărtează, lăsând electronul blocat în cavitate, ținut de tensiunea pozitivă pe electrod. Electronii din această ilustrație sunt reprezentați de simbolul "-". În timpul perioadei de integrare, modelul de lumină care lovește CCD este transferat într-un model de sarcini în cavitățile CCD. Sursele de lumină mai întunecate necesită perioade de integrare mai mari. De exemplu, perioada de integrare pentru televiziunea standard este de 1/60 dintr-o secundă, în timp ce astrofotografia poate acumula lumină pentru mai multe ore.

Citirea imaginii electronice este destul de inteligentă; electronii acumulați în fiecare well sunt împinși la amplificatorul de ieșire. Așa cum se arată în (c), o tensiune pozitivă este plasată pe două dintre liniile de fază. Aceasta determină fiecare well să se extindă spre dreapta. Așa cum se arată în (d), următorul pas este eliminarea tensiunii de la prima fază, cauzând prăbușirea cavităților originale. Acest lucru lasă electronii acumulați într-o cavitate să plece spre dreapta de unde au pornit. Prin repetarea acestei secvențe de pulsare în rândul celor trei linii de fază, electronii acumulați sunt împinși spre dreapta până când ajung la un amplificator sensibil la sarcină. Acesta este un nume fantezist pentru un condensator urmat de un buffer cu câștig unitate. Pe măsură ce electronii sunt împinși din ultima cavitate, ei curg pe condensator unde produc o tensiune. Pentru a atinge o sensibilitate ridicată, condensatoarele sunt făcute extrem de mici, de obicei mai puțin de 1 ρF. Acest condensator și amplificator fac parte integrantă din CCD și sunt realizate pe aceeași piesă de siliciu. Semnalul care iese din CCD este o secvență de nivele de tensiune proporționale cu cantitatea de lumină care a căzut pe cavitățile (well) succesive.

Figura 23-8 arată cum se citește imaginea bidimensională din CCD. După perioada de integrare, sarcina acumulată în fiecare well se deplasează în sus pe coloană, câte un rând la un moment dat. De exemplu, toate wel-urile din rândul 15 sunt mai întâi mutate în rândul 14, apoi rândul 13, apoi rândul 12 etc. De fiecare dată când rândurile sunt deplasate în sus, toate wel-urile din rândul numărul 1 sunt transferate în registrul orizontal. Acesta este un grup de wel CCD specializate care deplasează rapid sarcina într-o direcție orizontală la amplificatorul sensibil la sarcină.

Figura 23-7 Funcționarea dispozitivului cuplat în sarcină (CCD).

După cum se arată în vederea transversală, un strat subțire de siliciu tip-p este acoperit cu un strat izolator și o matrice de electrozi. Electrozii sunt conectați în grupuri de trei, permițând aplicarea a trei tensiuni separate: φ1, φ2 și φ3. Când o tensiune pozitivă este aplicată la un electrod, golurile (adică, transportatorii de sarcină pozitivă indicată prin "+") sunt împinse departe. Aceasta conduce la o arie sărăcită de goluri, numită groapă (well). Sosirea luminii generează goluri și electroni, rezultând o acumulare de electroni limitată la fiecare groapă (indicată cu "-"). Prin manevrarea celor trei tensiuni de electrod, electronii din fiecare groapă pot fi mișcați la marginea siliciului unde un amplificator sensibil la sarcină convertește sarcina în tensiune.

Figura 23-8 Arhitectura CCD.

Gropile imagistice ale CCD sunt aranjate în coloane. Pe durata citirii, sarcina din fiecare groapă este mutată în sus într-un registru orizontal. Registrul orizontal este apoi citit într-un preamplificator sensibil la sarcină.

Observați că această arhitectură convertește o matrice bidimensională într-un flux de date seriale într-o anumită secvență. Primul pixel care trebuie citit este în colțul din stânga sus al imaginii. Citirea apoi merge de la stânga la dreapta pe prima linie, apoi continuă de la stânga la dreapta pe liniile următoare. Aceasta se numește ordinea majoră a rândului și este aproape întotdeauna urmată atunci când o matrice bidimensională (imagine) este convertită în date secvențiale.

Secțiunea următoare: Semnale video de televiziune