Арыгінал артыкула.

Пераможца прэміі Марра (Намінацыя «Лепшае даследаванне»), ICTV 2011

Дэйві Парыкх і Крыстэн Гауман

(Даступныя некалькі перакладаў гэтай старонкі. Змест згенераваны незалежнымі крыніцамі і не праходзіў нашу праверку. Вы самі прымаеце рашэнне.Romanian by azoftSlovakian by Sciologness TeamRussian by Alexander Nikiforov. Indonesian by ChameleonJohn.comPolish by Weronika Pawlak. Czech by Barbora Lebedova. Ukranian by Translator Group. Portuguese by Artur Weber. Estonian by Johanne Teerink. French by Avice Robitaille. Hindi by DealsdaddySlovenian by Jurij Rodionov. German by Philip Egger. Dutch by Arno Hazecamp. Hungarian by Marie Walton.)

«Хто можа намаляваць на вясёлцы лінію, дзе заканчваецца фіялетавае адценне і пачынаецца аранжавае? Мы можам бачыць выразна адрозненне колераў, але дзе дакладна адзін колер, змешваючыся, ўваходзіць у іншы? Тое ж самае з разважнасьцю і вар’яцтвам».
 
— Херман Мельвіль, Біллі Бадд

Анатацыя

Бачныя і названыя чалавекам «атрыбуты», могуць прынесці карысць розным апазнавальным задачам. Аднак, існуючыя тэхнікі звялі гэтыя характарыстыкі да катэгарычных ярлыкоў (напрыклад, чалавек «усміхаецца» або не, пейзаж «сухі» або не) і, такім чынам, не змаглі ахапіць больш агульныя семантычныя сувязі. Мы прапануем змадэляваць параўнальныя атрыбуты. Атрымаўшы дадзеныя рэжыму навучання, фармуліруюшчыя, як катэгорыі аб’екта/пейзажу звязаны, у адпаведнасці з рознымі якасцямі, мы даведаемся функцыю ранжыравання атрыбуту. Вывучаныя функцыі ранжыравання прадбачаць параўнальную сілу кожнай характарыстыкі на новых малюнках. Затым мы выбудоўваем спараджала мадэль над злучанай прасторай ранжыраваных вынікаў і прапануем новую форму навучання «не гледзячы», у якім назіральнік параўноўвае катэгорыю нябачнага прадмета з катэгорыяй бачнага прадмета праз атрыбуты (напрыклад, «мядзведзі больш пухнатыя, чым жырафы»). Далей мы паказваем, як прапанаваныя параўнальныя атрыбуты надаюць багатыя тэкставыя апісання новым малюнкам, якія, на практыцы, больш дакладныя ў чалавечым тлумачэнні. Мы дэманструем падыход на аснове серыі дадзеных, асоб і прыродных пейзажаў, і паказваем яго выразныя перавагі над традыцыйным бінарным прадугадваннем атрыбутаў для гэтых новых задач.
 

Матывацыя

Бінарныя атрыбуты абмежаваныя і могуць быць ненатуральнымі. У прыкладах вышэй, можна ахарактарызаваць выявы уверсе злева і уверсе справа, як натуральнае і створанае рукамі чалавека адпаведна, як бы вы апісалі малюнак зверху па цэнтру? Адзіны, які мае сэнс, спосаб ахарактарызаваць яго адносна іншых малюнкаў: яно менш натуральнае, чым малюнак злева, але больш, чым малюнак справа. 

Прапанова

У гэтай працы мы прапануем змадэляваць параўнальныя атрыбуты. Замест таго, каб прадбачыць прысутнасць атрыбуту, параўнальныя атрыбуты выяўляюць сілу атрыбуту ў малюнку адносна іншых малюнкаў. У дадатак да натуральнасці, параўнальныя атрыбуты прапануюць больш багатую функцыю камунікацыі, такім чынам, даючы доступ да больш дэталізаванага чалавечага назірання (і таму патэнцыйна высокаму вызначэнню дакладнасці), а таксама магчымасці генераваць больш інфарматыўныя апісанні новых малюнкаў. 

Мы вынайшлі падыход, які вывучае функцыю ранжыраванасці для кожнага атрыбуту, атрымаўшы параўнальна падобныя звязанасці на парах прыкладаў (або, у агульным, частковае парадкаванне на некаторых прыкладах). Вывучаная функцыя ранжыравання можа ацэньваць сапраўдны разрад для малюнкаў, вызначаючы параўнальную сілу атрыбуту, які прысутнічае ў іх.

Мы прадстаўляем новыя формы навучання «не гледзячы» і апісання малюнкаў, якія выкарыстоўваюць прадугадывання параўнальнага атрыбуту. 

Падыход

Вывучэнне параўнальных атрыбутаў: Кожны параўнальны атрыбут вывучаецца праз навучанне да фармулёўкі разраду, атрыманага параўнальнага назірання, як паказана ніжэй: 

Адрозненне паміж вывучэннем шыракапалосай рэйтынгавай функцыяй (справа), якая ўзмацняе жаданую ўпарадкаванасць на прыступках навучання (1-6), і шыракапалосым бінарным класіфікатарам (злева), які падзяляе толькі два класа (+ і -), і не абавязкова захоўвае жаданую ўпарадкаванасць на этапах, як паказана ніжэй: 

 

Новае навучанне «не гледзячы»: Мы вывучаем наступную сістэму: 

  • N поўныя катэгорыі: S бачныя катэгорыі (асацыяваныя малюнкі даступны) + U нябачныя катэгорыі (няма даступных малюнкаў для гэтых катэгорый)
  • S бачныя катэгорыі апісваюцца параўнальна адзін аднаму праз атрыбуты (не ўсі пары катэгорый трэба параўноўваць з усімі атрыбутамі)

 

  • U нябачныя катэгорыі апісваюцца параўнальна (частка) бачных катэгорый ва ўмовах (часткі) атрыбутаў.

 

Спачатку мы вывучаем серыю параўнальных атрыбутаў, выкарыстоўваючы назіранне, прадастаўленае на бачных катэгорыях. Гэтыя атрыбуты могуць быць паўторна вывучаны з знешніх дадзеных. Затым мы выбудоўваем спараджала мадэль (Гаўса) для кожнай бачнай катэгорыі, выкарыстоўваючы вынікі параўнальных атрыбутаў да малюнкаў з нябачных катэгорый. Затым мы выводзім параметры спараджаючых мадэляў нябачных катэгорый, уцелязуючы іх параўнальныя апісанні адносна бачных катэгорый. Візуалізацыя простага падыходу, якую мы выкарыстоўваем, паказана ніжэй:

 

Пробны малюнак ўжыты да катэгорыі з высокай верагоднасцю.   

Аўтаматычна згенераваныя параўнальныя тэкставыя апісанні малюнкаў: Атрымаўшы малюнак I, які неабходна апісаць, мы ацэньваем функцыі ранжыравання на I. Для кожнага атрыбуту мы вызначаем два малюнка, якія б спасылаліся на яго, якія знаходзяцца з абодвух бакоў I, і яны не занадта далёка або занадта блізка. Затым малюнак I апісваюць параўнальна з гэтымі двума малюнкамі, якія спасылаюцца ,як паказана ніжэй:

  

Як відаць вышэй, у дадатак да апісання малюнка параўнальна іншых малюнкаў, наш падыход таксама можа апісваць малюнак параўнальна іншых катэгорый, у выніку маючы чыста тэкставае апісанне. Ясна, што параўнальныя апісанні дакладней і інфарматыўней, чым традыцыйнае бінарнае апісанне.

Эксперыменты і вынікі

Мы праводзім эксперыменты на двух серыях дадзеных:

(1) Пейзажы (OSR) якія змяшчаюць 2688 малюнкаў з 8 катэгорый: ўзбярэжжа C, лес F, траса H, цэнтр горада I, гара M, адкрытая мясцовасць O, вуліцы S і хмарачосы T. Мы выкарыстоўваем асноўныя рысы, каб паказаць малюнак.

(2) Падсерыя дадзеных лікаў публічных асоб (PubFig) якая змяшчае 772 выявы з 8 катэгорый: Алекс Радрыгез A, Клівія Оўэн C, Х’ю Лоры H, Джарэд Лета J, Майлі Сайрус M, Скарлет Ёхансан S, Віга Мартенсен V і Зак Эфран Z. Мы выкарыстоўваем звязаную аснову і каляровыя рысы, каб паказаць малюнкі.

 Спіс атрыбутаў, выкарыстаных для кожнай серыі дадзеных нароўні з бінарнымі і параўнальнымі атрыбутыўнымі каментарамі, прыведзены ніжэй: 

 

Навучанне «не гледзячы»:

Мы параўноўваем наш прапанаваны падыход з двума асноўнымі дадзенымі. Першы – гэта параўнальныя атрыбуты бальнай формы (SRA). Гэтыя асноўныя дадзеныя падобныя на наш падыход акрамя таго, што яны выкарыстоўваюць балы бінарнага класіфікатара (бінарныя атрыбуты) замест балаў функцыі ранжыравання. Гэтыя асноўныя дадзеныя дапамагаюць ацаніць неабходнасць функцыі ранжыравання палепшыць мадэль параўнальных атрыбутаў. Нашы другія асноўныя дадзеныя — гэта мадэль прамога прадугадвання атрыбуту (LDAP), прадстаўленая Lambert et al. на CVPR2009. Гэтыя асноўныя дадзеныя дапамагаюць ацаніць карысць параўнальнага паляпшэння атрыбутаў замест катэгарычных. Мы ацэньваем гэтыя падыходы для рознай колькасці нябачных катэгорый, рознай колькасці дадзеных, выкарыстаных для выпрабавання атрыбутаў, рознай колькасці атрыбутаў, выкарыстаных для апісання нябачных катэгорый, і рознага ўзроўню «недакладнасцяў» у апісанні нябачных катэгорый. Дэталі эксперыментальнай сістэмы можна знайсці ў нашай працы. Вынікі паказаны ніжэй:

Аўтаматычна згенераванае апісанне малюнка:

Для таго, каб ацаніць якасці нашага параўнальнага апісання малюнка, мы правялі чалавечае даследаванне. Мы згенеравалі апісанне выявы, выкарыстоўваючы наш падыход, а таксама бінарныя атрыбуты асноўных дадзеных. Мы далі суб’ектам апісанне, а таксама тры выявы. Адно з трох малюнкаў было апісаным выявай. Задача суб’ектаў была размеркаваць тры выявы грунтуючыся на тым, як яны думаюць, якое з іх было апісана. Чым дакладней апісанне, тым лепш шанцы, каб суб’екты вызначылі правільны малюнак. Ілюстрацыя задання, прадастаўленага суб’ектам, паказана ніжэй: 

Вынікі даследавання паказаны ніжэй. Мы бачым, што суб’екты могуць вызначыць правільны малюнак дакладней, выкарыстоўваючы нашы прапанаваныя параўнальныя атрыбуты, у параўнанні з бінарнымі атрыбутамі.