Relativne značilnosti
Dobitnik nagrade Marr (Najboljši znanstveni prispevek), ICCV 2011
Izvirno besedilo : https://www.cc.gatech.edu/~parikh/relative.html
"Kdo lahko zariše linijo v mavrici, kjer se vijolični odtenek konča in prične oranžni odtenek? Jasno vidimo različne barve, vendar kje natančno se prva prične mešati z drugo? Tako je tudi s razumom in norostjo. "
-- Herman Melville, Billy Budd
Povzetek
Človeške vizualne "značilnosti" lahko koristijo različnim nalogam prepoznavanja. Vendar obstoječe tehnike omejujejo te lastnosti na kategorične oznake (na primer, oseba je 'nasmejana' ali ni, prizor je 'suh' ali ni) in tako ne uspe zajeti splošnejših semantičnih odnosov. Zato bomo modelirali relativne značilnosti.
S podanimi vadbenimi podatki, ki prikazujejo kako se kategorije projektov/prizorov nanašajo na različne značilnosti, se naučimo funkcijo razvrščanja na značilnost. Naučene funkcije razvrščanja napovedujejo relativno moč vsake lastnosti v novih slikah. Potem izdelamo generativni model nad skupnim prostorom rezultatov razvrščanja značilnosti ter predlagamo novo obliko učenja z ničlo, v kateri nadzornik poveže kategorijo nevidnih predmetov s prej videnimi predmeti preko značilnosti (na primer, 'medvedi imajo več kožuha od žiraf'). V nadaljevanju prikažemo, kako predlagane relativne značilnosti omogočajo bogatejše besedilne opise za nove slike, ki so v praksi natančnejše za človeško interpretacijo. Demonstriramo pristop nabora podatkov o obrazih in naravnih prizorih ter predstavimo njegovo jasno prednost pred tradicionalnimi napovedmi binarnih značilnostih za te nove naloge.
Motivacija
Binarne značilnosti so omejujoče in so lahko nenaravne. V zgornjih primerih lahko sliko v zgornjem levem in zgornjem desnem kotu označite kot naravno in umetno, kako bi pa opisali sliko zgoraj na sredini? Edini smiseln način, kako jo opisati, je v primerjavi z drugimi slikami: manj naraven kot slika na levi, vendar bolj kot slika na desni.
Predlog
V tem delu predlagamo modeliranje relativnih značilnosti. V nasprotju s napovedovanjem prisotnosti značilnosti, relativni atribut označuje moč značilnosti v sliki glede na druge slike. Poleg bolj naravnih lastnosti, relativne značilnosti ponujajo bogatejši način komunikacije, s čimer omogočajo dostop do podrobnejšega nadzora človeka (in tako potencialno večjo natančnost prepoznavanja), pa tudi možnost ustvarjanja bolj informativnih opisov novih podob.
Oblikujemo pristop, ki se nauči funkcijo razvrščanja za vsako značilnost, glede na sorazmerne omejitve podobnosti za par primerov (ali bolj splošno delno urejanje na nekaterih primerih). Naučena funkcija razvrščanja lahko oceni resnično ovrednoteno mesto za slike, kar kaže na relativno moč prisotnosti značilnosti v njih.
Uvajamo nove oblike učenja z ničlo in opis slike, ki prikazujejo relativne napovedi značilnosti.
Pristop
Učenje relativnih značilnosti: Vsaka relativna značilnost se nauči s formulacijo učenja za razvrščanje s primerjalnim nadzorom, kot je prikazano spodaj:
Razlika med učenjem funkcije razvrščanja s širokim robom (desno), ki uveljavlja želeno razvrščanje na vadbenih točkah (1-6), in dvostranskim binarnim razvrščevalcem s širokim robom (levo), ki ločuje le dva razreda (+ in -), in ni nujno, da ohrani želeni vrstni red na točkah, je prikazano spodaj:
Novo učenje z ničlo: Preučujemo naslednjo ureditev
N skupnih kategorij: S vidne kategorije (povezane slike so na voljo) + U nevidne kategorije (za to kategorijo ni na voljo nobenih slik)
S vidne kategorije so opisane relativno med značilnostmi (vsi pari kategorij ne rabijo biti povezani za vse značilnosti)
U nevidne kategorije so opisane glede na (podmnožico) vidnih kategorij v smislu (podmnožic) značilnosti.
Najprej izučimo niz relativnih značilnosti z uporabo nadzora, ki je na voljo za vidne kategorije. Te značilnosti je mogoče predhodno izučiti tudi iz zunanjih podatkov. Nato za vsako vidno kategorijo izdelamo generativni model (Gaussov) z uporabo odzivov relativnih značilnosti na slike iz vidnih kategorij. Nato ugotovimo parametre generativnih modelov nevidnih kategorij z uporabo njihovih relativnih opisov glede na vidne kategorije. Vizualizacija enostavnega pristopa, ki ga uporabljamo za to, je prikazana spodaj:
Preskusna slika je dodeljena kategoriji z največjo verjetnostjo.
Samodejno generiranje relativnih besedilnih opisov slik: Glede na sliko I, ki jo je potrebno opisati, ocenimo vse naučene funkcije razvrščanja na I. Za vsako značilnost določimo dve referenčni sliki, ki ležita na obeh straneh slike I in nista predaleč ali preblizu nje. Slika I je nato opisana glede na ti dve referenčni sliki, kot je prikazano spodaj:
Kot je razvidno zgoraj, lahko poleg opisovanja slike glede na druge slike opisujemo tudi sliko v primerjavi z drugimi kategorijami, kjer dobimo čisto besedilni opis. Jasno je, da so relativni opisi natančnejši in informativnejši od običajnih binarnih opisov.
Poskusi in rezultati
Izvajamo poskuse na podlagi dveh naborov podatkov:
(1) Prepoznavanje zunanjih prostorov (OSR), ki vsebuje 2688 slik iz 8 kategorij: obala C, gozd F, avtocesta H, znotraj mesta I, gora M, odprta država O, ulica S and visoka zgradba T. Za predstavitev slik uporabljamo bistvene značilnosti.
(2) Podnabor obrazov javnih oseb (PubFig), ki vsebuje 772 slik iz 8 kategorij: Alex Rodriguez A, Clive Owen C, Hugh Laurie H, Jared Leto J, Miley Cyrus M, Scarlett Johansson S, Viggo Mortensen V and Zac Efron Z. Za predstavitev slik uporabljamo bistvene lastnosti in barve.
Spodaj je prikazan seznam značilnosti, uporabljenih za vsak nabor podatkov, skupaj z binarnimi in relativnimi pripisi:
Učenje z ničlo:
Naš predlagani pristop primerjamo z dvema osnovama. Prvi je na rezultatih temelječe značilnosti (SRA). Ta osnova je enaka našemu pristopu, le da uporablja rezultate binarnega klasifikatorja (binarne značilnosti) namesto rezultatov funkcije razvrščanja. Ta osnova pomaga oceniti potrebo funkcije razvrščanja po najboljšem modeliranju značilnosti. Naša druga osnova je model Direktnega predvidevanja značilnosti oziroma Direct Attribute Prediction (DAP), ki sta ga uvedla Lampert in sod. v CVPR 2009. Le-ta pomaga oceniti prednosti relativne obravnave lastnostih v nasprotju s kategoričnimi. Te pristope ocenjujemo za različno število nevidnih kategorij, različnih količin podatkov, ki se uporabljajo za usposabljanje značilnosti, različno število značilnosti, ki se uporabljajo za opisovanje nevidnih kategorij in različne stopnje 'ohlapnosti' pri opisovanju nevidnih kategorij. Podrobnosti o poskusni postavitvi najdete v našem prispevku. Rezultati so prikazani spodaj.
Samodejno ustvarjeni opisi slik:
Da bi ocenili kakovost naših relativnih opisov slik binarnim ekvivalentom, smo izvedli študijo na ljudeh. Z uporabo našega pristopa smo ustvarili opis slike in tudi izhodiščne binarne značilnosti. Osebam smo predstavili ta opis, skupaj s tremi slikami. Ena od treh podob je bila opisana slika. Naloga osebe je bila, da razvrsti tri slike, glede na to katera je najbolj podobna opisu. Bolj kot je opis natančnejši, večje so možnosti, da oseba ugotovi pravilno sliko. Spodaj je prikazana naloga, ki so jo morali rešiti:
Rezultati študije so prikazani spodaj. Vidimo, da lahko subjekti natančneje prepoznajo pravilno sliko z našimi predlaganimi relativnimi značilnostmi v primerjavi z binarnimi značilnostmi.
Spodaj so prikazani primeri binarnih opisov slik in opisov glede na kategorije:
Slika
Binarni opis
Relativni opis
ni naravno
ni odprto
perspektiva
bolj naravno kot visoka zgradba, manj naravno kot gozd
bolj odprto kot visoka stavba, manj odprto kot obala
bolj perspektivno kot visoka zgradba
ni naravno
ni odprto
perspektiva
bolj naravno kot znotraj mesta, manj naravno kot avtocesta
bolj odprto kot ulica, manj odprto kot obala
bolj perspektivno kot avtocesta, manj perspektivno kot znotraj mesta
naravno
odprto
perspektiva
bolj naravno kot visoka zgradba, manj naravno kot gora
bolj odprto kot gora
manj perspektivno od polja
Bela
ne nasmejana
Vidno čelo
bolj bela kot Alex Rodriguez
bolj nasmejana kot Jared Leto, manj nasmejana kot Zac Efron
bolj vidno čelo kot pri Jared Letu, manj vidno čelo kot pri Miley Cyrus
Bel
ne nasmejan
brez vidnega čela
bolj bel kot Alex Rodriguez, manj bel kot Miley Cyrus
manj nasmejan kot Hugh Laurie
bolj vidno čelo kot pri Zac Efronu, manj vidno čelo kot pri Miley Cyrus
Ni mlad
goste obrvi
okrogel obraz
Mlajši od Clive Owena, starejši od Scarlett Johansson
Gostejše obrvi od Zaca Efrona, manj goste obrvi od Alexa Rodrigueza
Bolj okrogel obraz od Clive Owena, manj okrogel obraz od Zaca Efrona
Podatki
Navajamo relativne značilnosti in njihove napovedi za dve skupini podatkov, ki se uporabljata v našem prispevku: prepoznavanje zunanjih prizorov (OSR) in podnabor podatkovne baze javnih oseb (PubFig).
PREBERITE
Nabor podatkov o relativnih značilnosti obraza. Vsebuje pripombe za 29 relativnih značilnosti za 60 kategorij iz baze podatkov obrazov javnih oseb. (PubFig).
Koda
Spremenili smo Olivier Caheppelle's Rank SVM implementacijo za usposabljanje relativnih značilnostih s podobnimi omejitvami. Našo spremenjeno kodo najdete tukaj.
Če uporabljate našo kodo, navedite naslednji prispevek.
D. Parikh and K. Grauman
Relative Attributes
International Conference on Computer Vision (ICCV), 2011.
Predstavitev
Predstavitve različnih aplikacij relativnih značilnosti najdete tukaj. Opis teh vlog najdete v prispevkih tukaj.
Publikacije
D. Parikh and K. Grauman
International Conference on Computer Vision (ICCV), 2011. (Oral)
Marr Prize (Best Paper Award) Winner
[slides] [talk (video)] [poster] [relative descriptions demo]
Naslednji so naši drugi viri, ki uporabljajo relativne značilnosti:
A. Biswas and D. Parikh
Simultaneous Active Learning of Classifiers & Attributes via Relative Feedback
IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2013
[project page and data] [poster] [demo]
Attributes for Classifier Feedback
European Conference on Computer Vision (ECCV), 2012 (Oral)
[slides] [talk (video)] [project page and data] [demo]
A. Kovashka, D. Parikh and K. Grauman
WhittleSearch: Image Search with Relative Attribute Feedback
IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2012
[project page] [poster] [demo]
D. Parikh, A. Kovashka, A. Parkash and K. Grauman
Relative Attributes for Enhanced Human-Machine Communication (Invited paper)
AAAI Conference on Artificial Intelligence (AAAI), 2012 (Oral)
Prevedel sportnestave.net