26.1 Detectarea țintei

Oamenii de știință și inginerii trebuie adesea să știe dacă există un anumit obiect sau condiție. De exemplu, geofizicienii explorează pământul pentru petrol, medicii examinează pacienții pentru boală, astronomii cercetează universul pentru inteligență extraterestră etc. Aceste probleme implică, de obicei, compararea datelor achiziționate cu un prag. Dacă pragul este depășit, ținta (obiectul sau condiția căutată) este considerată prezentă.

De exemplu, să presupunem că inventați un dispozitiv pentru detectarea cancerului la om. Aparatul este deplasat deasupra unui pacient, iar un număr între 0 și 30 apare pe ecranul video. Numerele mici corespund subiecților sănătoși, în timp ce numerele mari indică prezența țesutului canceros. Afli că dispozitivul funcționează destul de bine, dar nu este perfect și uneori face o eroare. Întrebarea este: cum folosiți acest sistem în beneficiul pacientului examinat?

Figura 26-1 ilustrează o metodă sistematică de analiză a acestei situații. Să presupunem că dispozitivul este testat pe două grupe: câteva sute de voluntari cunoscuți ca fiind sănătoși (non-țintă) și câteva sute de voluntari cunoscuți ca având cancer (țintă). Figurile (a) și (b) prezintă aceste rezultate ale testului afișate ca histograme. Subiecții sănătoși generează, în general, un număr mai mic decât cei care au cancer (bun), dar există o suprapunere între cele două distribuții (rău).

Așa cum s-a discutat în capitolul 2, histograma poate fi utilizată ca o estimare a funcției de distribuție a probabilității (pdf), cum se arată în (c). De exemplu, imaginați-vă că dispozitivul este utilizat pe un subiect sănătos aleator ales. Din (c), există aproximativ 8% șansă ca rezultatul testului să fie 3, aproximativ 1% șansă ca acesta să fie 18, etc. (Acest exemplu nu specifică dacă rezultatul este un număr real, necesitând o pdf, sau un număr întreg, care necesită o pmf. Nu vă faceți griji aici, nu este important).

Acum, gândiți-vă la ce se întâmplă atunci când dispozitivul este utilizat pentru un pacient cu o stare de sănătate necunoscută. De exemplu, dacă o persoană pe care nu am mai văzut-o vreodată, primește o valoare de 15, ce putem spune? Are cancer sau nu? Știm că probabilitatea unei persoane sănătoase de a genera un 15 este de 2,1%. De asemenea, există o șansă de 0,7% ca o persoană cu cancer să producă un 15. Dacă nu există alte informații disponibile, am putea concluziona că subiectul este de trei ori mai probabil să nu aibă cancer, decât să aibă cancer. Adică, rezultatul testului de 15 presupune o probabilitate de 25% ca subiectul să fie din grupul țintă. Această metodă poate fi generalizată pentru a forma curba din (d), probabilitatea ca subiectul având cancer să se bazeze numai pe numărul produs de dispozitiv [matematic, pdft/(pdft + pdfnt)].

Dacă am opri analiza în acest moment, vom face una dintre cele mai frecvente (și grave) erori în detectarea țintei. O altă sursă de informație trebuie de obicei luată în considerare pentru a face curba în (d) semnificativă. Acesta este numărul relativ de ținte față de non-ținte din populația care urmează să fie testată. De exemplu, putem constata că doar unul din o mie de persoane are cancerul pe care încercăm să-l detectăm. Pentru a include acest lucru în analiză, amplitudinea pdf-ului non-țintă în (c) este ajustată astfel încât suprafața sub curbă să fie 0,999. De asemenea, amplitudinea pdf țintă este ajustată pentru a face suprafața sub curbă să fie 0,001. Figura (d) este apoi calculată ca mai înainte pentru a da probabilitatea ca un pacient să aibă cancer.

Neglijarea acestei informații este o eroare gravă deoarece afectează foarte mult modul în care rezultatele testului sunt interpretate. Cu alte cuvinte, curba din figura (d) este modificată drastic când este inclusă informația despre prevalență. De exemplu, dacă fracțiunea din populația care suferă de cancer este de 0,001, rezultatul testului de 15 corespunde unei probabilități de numai 0,025% ca acest pacient să aibă cancer. Acest lucru este foarte diferit de probabilitatea de 25% găsită bazându-se doar pe rezultatul mașinii.

Această metodă de conversie a valorii de ieșire într-o probabilitate poate fi utilă pentru înțelegerea problemei, dar nu este principala modalitate în care se realizează detectarea țintei. Cele mai multe aplicații necesită o decizie da/nu de prezență a unei ținte, deoarece da va avea ca rezultat o acțiune și nu va rezulta în alta. Acest lucru se realizează prin compararea valorii de ieșire a testului cu un prag. Dacă ieșirea este peste prag, se spune că testul este pozitiv, indicând faptul că ținta este prezentă. Dacă ieșirea este sub prag, se spune că testul este negativ, care indică faptul că ținta nu este prezentă. În exemplul nostru de cancer, un rezultat negativ al testului înseamnă că pacientului i se spune că este sănătos și trimis acasă. Când rezultatul testului este pozitiv, se vor efectua teste suplimentare, cum ar fi obținerea unui eșantion de țesut prin introducerea unui ac de biopsie.

Figura 26-1 Probabilitatea de detectare a țintei.

Figurile (a) și (b) arată histogramele grupurilor țintă și fără țintă raportate la o valoare de parametru. Din aceste histograme, pot fi estimate funcțiile de distribuție a probabilității celor două grupuri, cum se arată în (c). Utilizând numai această informație, poate fi calculată curba din (d), dând probabilitatea cu care o țintă a fost atinsă, bazată pe o valoare specifică a parametrului.

Deoarece distribuțiile țintă și cele non-țintă se suprapun, unele rezultate ale testelor nu vor fi corecte. Adică, unii pacienți trimiși acasă vor avea de fapt cancer, iar unii pacienți trimiși pentru teste suplimentare vor fi sănătoși. În jargonul detectării țintei, o clasificare corectă este numită adevărată, în timp ce o clasificare incorectă se numește falsă. De exemplu, dacă un pacient are cancer, iar testul detectează corect starea, se spune că este un adevărat-pozitiv. De asemenea, dacă un pacient nu are cancer, iar testul indică faptul că nu este prezent, se spune că este un adevărat-negativ. Un fals-pozitiv apare atunci când pacientul nu are cancer, dar testul indică în mod eronat că are. Acest lucru are ca rezultat îngrijorarea inutilă și durerea și cheltuiala de teste suplimentare. Un scenariu chiar mai rău apare cu falsul-negativ, unde cancerul este prezent, dar testul indică faptul că pacientul este sănătos. După cum știm cu toții, cancerul netratat poate provoca multe probleme de sănătate, inclusiv moartea prematură.

Suferința umană care rezultă din aceste două tipuri de erori face ca selectarea pragului să fie un act delicat de echilibrare. Câte fals-pozitive pot fi tolerate pentru a reduce numărul de fals-negative? Figura 26-2 prezintă o modalitate grafică de evaluare a acestei probleme, curba ROC (scurtare pentru Receiver Operating Characteristic). Curba ROC descrie procentul de semnale țintă raportate ca pozitive (mai mare este mai bine), în raport cu procentul de semnale non-țintă raportate eronat ca pozitive (mai mic este mai bun), pentru diferite valori ale pragului. Cu alte cuvinte, fiecare punct al curbei ROC reprezintă un posibil compromis de performanțe adevărat-pozitive și fals-pozitive.

Figurile (a) până la (d) arată patru setări ale pragului din exemplul nostru de detectare a cancerului. De exemplu, uitați-vă la (b) unde pragul este setat la 17. Rețineți că fiecare test care produce o valoare de ieșire mai mare decât pragul este raportat ca rezultat pozitiv. Aproximativ 13% din suprafața distribuției non-țintă este mai mare decât pragul (adică, în dreapta pragului). Dintre toți pacienții care nu au cancer, 87% vor fi raportați ca negativ (adică un adevărat-negativ), în timp ce 13% vor fi raportate ca pozitive (adică, fals-pozitiv). În comparație, aproximativ 80% din suprafața distribuției țintă este mai mare decât pragul. Aceasta înseamnă că 80% dintre cei care au cancer vor genera un rezultat pozitiv al testului (adică un adevărat-pozitiv). Celelalte 20% care au cancer vor fi raportate incorect ca fiind negative (adică, un fals-negativ). După cum se arată în curba ROC din (b), acest prag rezultă într-un punct pe curbă la: % nontargets positive = 13%, și % targets positive = 80%.

Cu cât este mai eficient procesul de detectare, cu atât curba ROC va fi mai îndoită spre colțul din stânga sus al graficului. Presupunerea pură are drept rezultat o linie dreaptă la o diagonală de 45°. Stabilirea pragului relativ scăzut, așa cum se arată în (a), are ca rezultat detectarea aproape a tuturor semnalelor țintă. Acest lucru vine la prețul multor alarme false (fals-pozitive). Așa cum este ilustrat în (d), stabilirea pragului relativ ridicat asigură situația inversă: mai puține alarme false, dar multe ținte ratate.

Aceste tehnici de analiză sunt utile în înțelegerea consecințelor selectării pragului, însă decizia finală se bazează pe ceea ce unii oameni acceptă. Să presupunem că ați stabilit inițial pragul aparatului de detectare a cancerului la o anumită valoare pe care o considerați potrivită. După ce mulți pacienți au fost examinați cu sistemul, vorbiți cu o duzină de pacienți care au fost supuși unor fals-pozitive. Audierea modului în care sistemul dvs. a întrerupt în mod inutil viața acestor oameni vă afectează profund, motivându-vă să măriți pragul. În cele din urmă întâlniți a situație care te face să te simți și mai rău: vorbești cu un pacient care este bolnav terminal cu un cancer pe care sistemul tău nu l-a detectat. Răspundeți la această experiență dificilă, scăzând foarte mult pragul. Odată cu trecerea timpului și aceste evenimente se repetă de mai multe ori, pragul trece treptat la o valoare de echilibru. Adică, rata fals-pozitivă înmulțită cu un factor de semnificație (scăderea pragului) este echilibrată de rata fals-negativă înmulțită cu un alt factor de semnificație (creșterea pragului).

Figura 26-2 Relația între curbe ROC și pdf-uri.

Figura 26-3 Exemplu a unui spațiu bi-parametric.

Grupurile țintă și fără țintă sunt complet separate în două dimensiuni; totuși ele se suprapun în fiecare parametru individual. Această suprapunere este arătată prin pdf-uri uni-dimensionale de-a lungul fiecărei axe de parametru.

Această analiză poate fi extinsă la dispozitive care oferă mai mult de o ieșire. De exemplu, să presupunem că un sistem de detectare a cancerului operează prin luarea unei imagini cu raze X a subiectului, urmată de algoritmi de analiză automată a imaginii pentru identificarea tumorilor. Algoritmii identifică regiunile suspecte și apoi măsoară caracteristicile cheie pentru a ajuta la evaluare. De exemplu, să presupunem că măsurăm diametrul zonei suspecte (parametrul 1) și luminozitatea ei în imagine (parametrul 2). Să presupunem în continuare că cercetările noastre arată că tumorile sunt în general mai mari și mai luminoase decât țesuturile normale. Ca o primă încercare, am putea trece prin analiza ROC prezentată anterior pentru fiecare parametru și găsim un prag acceptabil pentru fiecare. Am putea apoi clasifica un test ca pozitiv numai dacă îndeplinește ambele criterii: parametrul 1 mai mare decât un anumit prag și parametrul 2 mai mare decât un alt prag.

Această tehnică de prăguire a parametrilor separat și apoi invocarea funcțiilor logice (AND, OR, etc.) este foarte comună. Dar2, este foarte ineficientă și sunt disponibile metode mult mai bune. Figura 26-3 arată de ce este cazul. În această figură, fiecare triunghi reprezintă o singură apariție a unei ținte (un pacient cu cancer), trasată la o locație care corespunde valorii celor doi parametri. De asemenea, fiecare pătrat reprezintă o singură apariție a unei non-țintă (un pacient fără cancer). Așa cum se arată în graficul pdf pe partea laterală a fiecărei axe, ambii parametri au o suprapunere mare între distribuțiile țintă și cele non-țintă. Cu alte cuvinte, fiecare parametru, luat individual, este un indicator slab al cancerului. Combinarea celor doi parametri cu funcții logice simple ar oferi doar o mică îmbunătățire. Acest lucru este deosebit de interesant, deoarece cei doi parametri conțin informații pentru a separa perfect ținte de non-ținte. Acest lucru se face prin desenarea unei linii diagonale între cele două grupuri, așa cum se arată în figură.

Figura 26-4 Exemplu de spațiu cu trei parametri.

Doar cu un spațiu cu doi parametri se formează o suprafață plană, un spațiu cu trei parametri poate fi reprezentat grafic utilizând axele convenționale x, y și z. Separarea unui spațiu cu trei parametri în regiuni necesită un plan de împărțire sau o suprafață curbată.

În jargonul domeniului, acest tip de sistem de coordonate se numește spațiu de parametri. De exemplu, planul bi-dimensional din acest exemplu ar putea fi numit spațiu diametru-luminozitate. Ideea este că țintele vor ocupa o regiune a spațiului de parametri, în timp ce non-țintele vor ocupa o altă zonă. Separarea dintre cele două regiuni poate fi la fel de simplă ca o linie dreaptă sau la fel de complicată ca regiuni închise cu granițe neregulate. Figura 26-4 prezintă următorul nivel de complexitate, un spațiu cu trei parametri fiind reprezentat pe axele x, y și z. De exemplu, acest lucru ar putea corespunde unui sistem de detectare a cancerului care măsoară diametrul, luminozitatea și un al treilea parametru, de exemplu, ascuțimea muchiei. La fel ca în cazul bi-dimensional, ideea importantă este că membrii grupurilor țintă și non-țintă vor (sperăm) ocupa diferite regiuni ale spațiului, permițând celor două să fie separate. În trei dimensiuni, regiunile sunt separate de planuri și suprafețe curbe. Termenul hiperspațiu (deasupra, deasupra sau dincolo de spațiul normal) este adesea folosit pentru a descrie spații de parametrii cu mai mult de trei dimensiuni. Din punct de vedere matematic, hiperspațiile nu diferă de spațiile uni-, bi- și tri-dimensionale; totuși, ele au problema practică de a nu putea fi afișate într-o formă grafică în universul nostru tri-dimensional.

Pragul selectat pentru o problemă cu un singur parametru nu poate fi (de obicei) clasificat drept corect sau greșit. Acest lucru se datorează faptului că fiecare valoare de prag rezultă într-o combinație unică de fals-pozitive și fals-negative, adică un anumit punct de-a lungul curbei ROC. Aceasta tranzacționează un obiectiv pentru altul și nu are un răspuns absolut corect. Pe de altă parte, spațiile de parametri cu doi sau mai mulți parametri pot avea cu siguranță diviziuni greșite între regiuni. De exemplu, imaginați creșterea numărului de puncte de date din Fig. 26-3, care dezvăluie o mică suprapunere între grupurile țintă și cele non-țintă. Ar fi posibil să se mute linia de prag între grupuri pentru a negocia numărul de fals-pozitive față de numărul de fals-negative. Adică, linia diagonală va fi deplasată spre dreapta-sus sau spre stânga-jos. Dar, ar fi greșit să rotiți linia, deoarece ar putea crește ambele tipuri de erori.

După cum se sugerează în aceste exemple, abordarea convențională a detectării țintei (uneori numită recunoaștere a modelului) este un proces în două etape. Primul pas este numit extracție de caracteristici. Acesta utilizează algoritmi pentru a reduce datele brute la câțiva parametri, cum ar fi diametrul, luminozitatea, ascuțimea muchiilor etc. Acești parametri sunt adesea numiți caracteristici sau clasificatori. Extragerea caracteristicilor este necesară pentru a reduce cantitatea de date. De ex., o imagine medicală cu raze X poate conține mai mult de un milion de pixeli. Scopul extragerii de caracteristici este distilarea informațiilor într-o formă mai concentrată și mai ușor de gestionat. Acest tip de dezvoltare a algoritmului este mai degrabă o artă decât o știință. Este nevoie de o mare experiență și de îndemânare să se uite la o problemă și să spui: "Aceștia sunt clasificatorii care captează cel mai bine informațiile." Trial-and-error joacă un rol semnificativ.

În a doua etapă, se face o evaluare a clasificatorilor pentru a determina dacă țintă este prezentă sau nu. Cu alte cuvinte, se folosește o metodă pentru a împărți spațiul parametrilor într-o regiune care corespunde țintelor și o regiune care corespunde non-țintelor. Acest lucru este destul de simplu pentru spațiile cu unul și doi parametri; punctele de date cunoscute sunt trasate pe un grafic (cum ar fi Fig. 26-3), iar regiunile separate de ochi. Diviziunea este apoi scrisă într-un program de calculator ca o ecuație sau alt mod de definire a unei regiuni de alta. În principiu, aceeași tehnică poate fi aplicată unui spațiu parametric tri-dimensional. Problema este că graficele tri-dimensionale sunt foarte dificile pentru oameni să le înțeleagă și să le vizualizeze (cum ar fi Fig. 26-4). Atenție: nu încercați acest lucru în hiperspațiu; creierul vă va exploda!

Pe scurt, avem nevoie de o mașină care să poată efectua o diviziune spațială multiparametrică, în conformitate cu exemple de semnale țintă și non-țintă. Acest sistem ideal de detectare a țintei este remarcabil de aproape de subiectul principal al acestui capitol, rețeaua neurală.

Secțiunea următoare: Arhitectura rețelei neuronale