Relativne značilnosti

Dobitnik nagrade Marr (Najboljši znanstveni prispevek), ICCV 2011

Izvirno besedilo : https://www.cc.gatech.edu/~parikh/relative.html

"Kdo lahko zariše linijo v mavrici, kjer se vijolični odtenek konča in prične oranžni odtenek? Jasno vidimo različne barve, vendar kje natančno se prva prične mešati z drugo? Tako je tudi s razumom in norostjo. "

-- Herman Melville, Billy Budd

[papir] [podatki] [koda] [demo] [diapozitivi] [pogovor(video)] [plakat] [prevodi]

Povzetek

Človeške vizualne "značilnosti" lahko koristijo različnim nalogam prepoznavanja. Vendar obstoječe tehnike omejujejo te lastnosti na kategorične oznake (na primer, oseba je 'nasmejana' ali ni, prizor je 'suh' ali ni) in tako ne uspe zajeti splošnejših semantičnih odnosov. Zato bomo modelirali relativne značilnosti.

S podanimi vadbenimi podatki, ki prikazujejo kako se kategorije projektov/prizorov nanašajo na različne značilnosti, se naučimo funkcijo razvrščanja na značilnost. Naučene funkcije razvrščanja napovedujejo relativno moč vsake lastnosti v novih slikah. Potem izdelamo generativni model nad skupnim prostorom rezultatov razvrščanja značilnosti ter predlagamo novo obliko učenja z ničlo, v kateri nadzornik poveže kategorijo nevidnih predmetov s prej videnimi predmeti preko značilnosti (na primer, 'medvedi imajo več kožuha od žiraf'). V nadaljevanju prikažemo, kako predlagane relativne značilnosti omogočajo bogatejše besedilne opise za nove slike, ki so v praksi natančnejše za človeško interpretacijo. Demonstriramo pristop nabora podatkov o obrazih in naravnih prizorih ter predstavimo njegovo jasno prednost pred tradicionalnimi napovedmi binarnih značilnostih za te nove naloge.

Motivacija

Binarne značilnosti so omejujoče in so lahko nenaravne. V zgornjih primerih lahko sliko v zgornjem levem in zgornjem desnem kotu označite kot naravno in umetno, kako bi pa opisali sliko zgoraj na sredini? Edini smiseln način, kako jo opisati, je v primerjavi z drugimi slikami: manj naraven kot slika na levi, vendar bolj kot slika na desni.

Predlog

V tem delu predlagamo modeliranje relativnih značilnosti. V nasprotju s napovedovanjem prisotnosti značilnosti, relativni atribut označuje moč značilnosti v sliki glede na druge slike. Poleg bolj naravnih lastnosti, relativne značilnosti ponujajo bogatejši način komunikacije, s čimer omogočajo dostop do podrobnejšega nadzora človeka (in tako potencialno večjo natančnost prepoznavanja), pa tudi možnost ustvarjanja bolj informativnih opisov novih podob.

Oblikujemo pristop, ki se nauči funkcijo razvrščanja za vsako značilnost, glede na sorazmerne omejitve podobnosti za par primerov (ali bolj splošno delno urejanje na nekaterih primerih). Naučena funkcija razvrščanja lahko oceni resnično ovrednoteno mesto za slike, kar kaže na relativno moč prisotnosti značilnosti v njih.

Uvajamo nove oblike učenja z ničlo in opis slike, ki prikazujejo relativne napovedi značilnosti.

Pristop

Učenje relativnih značilnosti: Vsaka relativna značilnost se nauči s formulacijo učenja za razvrščanje s primerjalnim nadzorom, kot je prikazano spodaj:

Razlika med učenjem funkcije razvrščanja s širokim robom (desno), ki uveljavlja želeno razvrščanje na vadbenih točkah (1-6), in dvostranskim binarnim razvrščevalcem s širokim robom (levo), ki ločuje le dva razreda (+ in -), in ni nujno, da ohrani želeni vrstni red na točkah, je prikazano spodaj:

Novo učenje z ničlo: Preučujemo naslednjo ureditev

N skupnih kategorij: S vidne kategorije (povezane slike so na voljo) + U nevidne kategorije (za to kategorijo ni na voljo nobenih slik)
S vidne kategorije so opisane relativno med značilnostmi (vsi pari kategorij ne rabijo biti povezani za vse značilnosti)
U nevidne kategorije so opisane glede na (podmnožico) vidnih kategorij v smislu (podmnožic) značilnosti.

Najprej izučimo niz relativnih značilnosti z uporabo nadzora, ki je na voljo za vidne kategorije. Te značilnosti je mogoče predhodno izučiti tudi iz zunanjih podatkov. Nato za vsako vidno kategorijo izdelamo generativni model (Gaussov) z uporabo odzivov relativnih značilnosti na slike iz vidnih kategorij. Nato ugotovimo parametre generativnih modelov nevidnih kategorij z uporabo njihovih relativnih opisov glede na vidne kategorije. Vizualizacija enostavnega pristopa, ki ga uporabljamo za to, je prikazana spodaj:

Preskusna slika je dodeljena kategoriji z največjo verjetnostjo.

Samodejno generiranje relativnih besedilnih opisov slik: Glede na sliko I, ki jo je potrebno opisati, ocenimo vse naučene funkcije razvrščanja na I. Za vsako značilnost določimo dve referenčni sliki, ki ležita na obeh straneh slike I in nista predaleč ali preblizu nje. Slika I je nato opisana glede na ti dve referenčni sliki, kot je prikazano spodaj:

Kot je razvidno zgoraj, lahko poleg opisovanja slike glede na druge slike opisujemo tudi sliko v primerjavi z drugimi kategorijami, kjer dobimo čisto besedilni opis. Jasno je, da so relativni opisi natančnejši in informativnejši od običajnih binarnih opisov.

Poskusi in rezultati

Izvajamo poskuse na podlagi dveh naborov podatkov:

(1) Prepoznavanje zunanjih prostorov (OSR), ki vsebuje 2688 slik iz 8 kategorij: obala C, gozd F, avtocesta H, znotraj mesta I, gora M, odprta država O, ulica S and visoka zgradba T. Za predstavitev slik uporabljamo bistvene značilnosti.

(2) Podnabor obrazov javnih oseb (PubFig), ki vsebuje 772 slik iz 8 kategorij: Alex Rodriguez A, Clive Owen C, Hugh Laurie H, Jared Leto J, Miley Cyrus M, Scarlett Johansson S, Viggo Mortensen V and Zac Efron Z. Za predstavitev slik uporabljamo bistvene lastnosti in barve.

Spodaj je prikazan seznam značilnosti, uporabljenih za vsak nabor podatkov, skupaj z binarnimi in relativnimi pripisi:

Učenje z ničlo:

Naš predlagani pristop primerjamo z dvema osnovama. Prvi je na rezultatih temelječe značilnosti (SRA). Ta osnova je enaka našemu pristopu, le da uporablja rezultate binarnega klasifikatorja (binarne značilnosti) namesto rezultatov funkcije razvrščanja. Ta osnova pomaga oceniti potrebo funkcije razvrščanja po najboljšem modeliranju značilnosti. Naša druga osnova je model Direktnega predvidevanja značilnosti oziroma Direct Attribute Prediction (DAP), ki sta ga uvedla Lampert in sod. v CVPR 2009. Le-ta pomaga oceniti prednosti relativne obravnave lastnostih v nasprotju s kategoričnimi. Te pristope ocenjujemo za različno število nevidnih kategorij, različnih količin podatkov, ki se uporabljajo za usposabljanje značilnosti, različno število značilnosti, ki se uporabljajo za opisovanje nevidnih kategorij in različne stopnje 'ohlapnosti' pri opisovanju nevidnih kategorij. Podrobnosti o poskusni postavitvi najdete v našem prispevku. Rezultati so prikazani spodaj.

Samodejno ustvarjeni opisi slik:

Da bi ocenili kakovost naših relativnih opisov slik binarnim ekvivalentom, smo izvedli študijo na ljudeh. Z uporabo našega pristopa smo ustvarili opis slike in tudi izhodiščne binarne značilnosti. Osebam smo predstavili ta opis, skupaj s tremi slikami. Ena od treh podob je bila opisana slika. Naloga osebe je bila, da razvrsti tri slike, glede na to katera je najbolj podobna opisu. Bolj kot je opis natančnejši, večje so možnosti, da oseba ugotovi pravilno sliko. Spodaj je prikazana naloga, ki so jo morali rešiti:

Rezultati študije so prikazani spodaj. Vidimo, da lahko subjekti natančneje prepoznajo pravilno sliko z našimi predlaganimi relativnimi značilnostmi v primerjavi z binarnimi značilnostmi.

Spodaj so prikazani primeri binarnih opisov slik in opisov glede na kategorije:

Slika

Binarni opis

Relativni opis

ni naravno

ni odprto

perspektiva

bolj naravno kot visoka zgradba, manj naravno kot gozd

bolj odprto kot visoka stavba, manj odprto kot obala

bolj perspektivno kot visoka zgradba

ni naravno

ni odprto

perspektiva

bolj naravno kot znotraj mesta, manj naravno kot avtocesta

bolj odprto kot ulica, manj odprto kot obala

bolj perspektivno kot avtocesta, manj perspektivno kot znotraj mesta

naravno

odprto

perspektiva

bolj naravno kot visoka zgradba, manj naravno kot gora

bolj odprto kot gora

manj perspektivno od polja

Bela

ne nasmejana

Vidno čelo

bolj bela kot Alex Rodriguez

bolj nasmejana kot Jared Leto, manj nasmejana kot Zac Efron

bolj vidno čelo kot pri Jared Letu, manj vidno čelo kot pri Miley Cyrus

Bel

ne nasmejan

brez vidnega čela

bolj bel kot Alex Rodriguez, manj bel kot Miley Cyrus

manj nasmejan kot Hugh Laurie

bolj vidno čelo kot pri Zac Efronu, manj vidno čelo kot pri Miley Cyrus

Ni mlad

goste obrvi

okrogel obraz

Mlajši od Clive Owena, starejši od Scarlett Johansson

Gostejše obrvi od Zaca Efrona, manj goste obrvi od Alexa Rodrigueza

Bolj okrogel obraz od Clive Owena, manj okrogel obraz od Zaca Efrona

Podatki

Navajamo relativne značilnosti in njihove napovedi za dve skupini podatkov, ki se uporabljata v našem prispevku: prepoznavanje zunanjih prizorov (OSR) in podnabor podatkovne baze javnih oseb (PubFig).

PREBERITE

Prenesi (v2)

Nabor podatkov o relativnih značilnosti obraza. Vsebuje pripombe za 29 relativnih značilnosti za 60 kategorij iz baze podatkov obrazov javnih oseb. (PubFig).

Koda

Spremenili smo Olivier Caheppelle's Rank SVM implementacijo za usposabljanje relativnih značilnostih s podobnimi omejitvami. Našo spremenjeno kodo najdete tukaj.

Če uporabljate našo kodo, navedite naslednji prispevek.

D. Parikh and K. Grauman

Relative Attributes

International Conference on Computer Vision (ICCV), 2011.