Чаму распазнаванне малюнкаў важна?

Каля 80% матэрыялаў у сетцы з'яўляюцца візуальнымі. Вы ўжо маглі б пачаць разбірацца, чаму маркіроўка малюнкаў можа займаць сваё месца ў якасці ўладара табліцы рэчываў. Незалежна ад таго, людзі гэта ці арганізацыі, распазнаванне малюнкаў штучным інтэлектам дазволіла адрозніць візуальныя элементы ў інтэрнэце ад нязначных аб'ектаў. Штогод старанна размяшчаецца каля 657 мільярдаў фотаздымкаў, большая частка якіх з'яўляецца праз інтэрнэт-СМІ. Прыстойная частка гэтых малюнкаў - людзі, якія прасоўваюць прадметы, незалежна ад таго, ці робяць яны гэта выпадкова. Кантэнт, выраблены кліентам (UGC), у сваёй самай дасканалай структуры з'яўляецца бліскучым пашырэннем магчымасцей для брэндаў, паколькі забяспечвае найбольш ідэальны выгляд прасоўвання.

Існуюць рэкламныя прыстасаванні, якія сігналізуюць арганізацыям, калі ёсць апавяшчэнне пакупніка праз інтэрнэт-СМІ, аднак ці не варта сказаць нешта пра тое, калі прасоўванне брэндаў адбываецца без таго, каб хто-небудзь пазначыў сваё імя ў сацыяльных сетках? Гэта месца, дзе распазнаванне малюнкаў AI дэманструе сваю вартасць. Пры выпадку, калі тэхналогія паклапацілася аб правільных наборах даных, штучны інтэлект можа адрозніць малюнак без відавочнай спасылкі на цэтлік. Вынікі важныя для брэндаў, каб адсочваць іх сацыяльныя паведамленні.

Як працуе распазнаванне малюнкаў?

Як мы, напэўна, ведаем, штучны інтэлект можа праглядаць этапы вэб-медыя, шукаючы фатаграфіі і супастаўляючы іх з шырокімі калекцыямі інфармацыі. У гэты момант ён выбірае адпаведнае малюнак, якое супадае з хуткасцю нашмат хутчэй, чым людзі ў стане зрабіць. Брэнды выкарыстоўваюць пацвярджэнне малюнкаў, каб выяўляць змесціва, падобнае да іх, праз вэб-медыя. Гэта прадугледжвае вылучэнне лагатыпа брэнда або ўспрыманне натуральнага размяшчэння тавару сярод інтэрнэт-кліентаў СМІ. Запытваць, каб людзі вывуджвалі такую ​​колькасць дадзеных, становіцца стомным. Мадэляваны інтэлект не напружваецца з-за чалавечай памылкі і вяртае дакладныя вынікі на неперасягненым узроўні. Пацвярджэнне выявы штучнага інтэлекту адсочвае тое, што людзі кажуць пра брэнд, без неабходнасці тэксту. Брэнды, гатовыя сачыць за іх сацыяльнымі абвесткамі без кліентаў, якія чакаюць уводу назвы арганізацыі, апынуцца ў неацэнным становішчы. Магчымасць скарыстацца сваім уласным уключэннем у Інтэрнэт выключна праз ідэнтыфікатары, якія ўспрымаюцца штучным інтэлектам, велізарная і прапануе непераўзыдзенае ўключэнне.

Вось некаторыя звычайныя даручэнні распазнавання малюнкаў: -

З самага пачатку нам трэба вырашыць, ці змяшчае інфармацыя аб малюнку нейкі канкрэтны артыкул, яркі момант або рух. Чалавек звычайна можа выконваць гэтае заданне шчыра і без асаблівых высілкаў, але яно яшчэ недастаткова разглядаецца ў камп'ютэрным бачанні ў цэлым: самасцвярджэнне артыкулаў у дыскрэцыйных абставінах. Сучасныя метады вырашэння гэтай праблемы лепш за ўсё падыходзяць толькі для непрыстойных артыкулаў, напрыклад, асноўныя матэматычныя прадметы (напрыклад, мнагаграннікі), чалавечыя твары, надрукаваныя або транскрыбаваныя знакі або транспартныя сродкі, а таксама ў непрыстойных абставінах звычайна адлюстроўваюцца, наколькі ўсё вакол характэрнага асвятлення, падмурка і становішча прадмета ў параўнанні з камерай. Розныя асартыменты пытання аб прызнанні адлюстраваны ў пісьмовым выглядзе:

• Распазнаванне аб'ектаў

Могуць быць успрыняты адзін або некалькі загадзя вызначаных або вывучаных артыкулаў або класаў прадметаў, звычайна разам з іх 2D сітуацыямі на малюнку або 3D пазіцыямі ў сцэне.

• Ідэнтыфікацыя

Успрымаецца асобны выпадак артыкула. Мадэлі з'яўляюцца адметным доказам твару канкрэтнай асобы, унікальнага знака або ідэнтыфікатара канкрэтнага транспартнага сродку.

• Выяўленне

Інфармацыя пра малюнак правяраецца для пэўнага стану. Мадэлі - гэта выяўленне мажлівых дзіўных клетак або тканак на клінічных малюнках або распазнаванне транспартнага сродку ў рамках запраграмаваных вулічных выдаткаў. Адкрыццё, якое залежыць ад умерана простых і хуткіх вылічэнняў, тут і там выкарыстоўваецца для пошуку больш сціплых раёнаў інтрыгуючай інфармацыі пра выявы, якія могуць быць дадаткова разбіты больш патрабавальнымі да вылічэнняў стратэгіямі для стварэння правільнага перакладу.

Ёсць некалькі канкрэтных абавязацельстваў, якія залежаць ад прызнання, напрыклад,

• Аднаўленне выявы на аснове кантэнту

Тут адкрываюцца ўсе малюнкі ў большай кампазіцыі малюнкаў, якія маюць пэўную сутнасць. Сутнасць можа быць вызначана нечаканым спосабам, напрыклад, наколькі падабенства адносна аб'ектыўнай карціны (дайце мне ўсе выявы, як малюнак X), або наколькі значны ўзровень стандартаў пагоні, прадстаўлены ў выглядзе ўводу тэксту (дайце мне ўсе выявы, якія змяшчаюць мноства дамы, забраныя зімой і ў іх няма транспартных сродкаў).

• Ацэнка паставы

нам трэба ацаніць становішча або кірунак канкрэтнага артыкула ў параўнанні з камерай. Мадэль прымянення гэтай стратэгіі дапаможа робату здабываць прадметы з транспартнай лініі ў механічнай вытворчай сістэме.

• Аптычнае пацверджанне сімвалаў

OCR, які адрознівае сімвалы на малюнках друкаванага ці ўручную напісанага змесціва, па большай частцы з канчатковай мэтай большага кадзіравання змесціва ў арганізацыі і дае магчымасць змяняць або ўпарадкоўваць Дэпартамент інфарматыкі і тэхнікі Універсітэта штата Мічыган. Стратэгіі ствараюцца для выяўлення аб'ектаў, вызначэння таго, якія з іх асноўных момантаў адрозніваюць іх ад іншых, і планавання вылічэнняў, якія могуць быць выкарыстаны машынай для характарыстыкі. Важныя прыкладанні ўключаюць у сябе распазнаванне твару, пацверджанне распазнавання адбіткаў пальцаў, даследаванне запісу выявы, распрацоўку 3D-мадэлі артыкула, маршрут робата і прадстаўленне/даследаванне 3D-аб'ёмнай інфармацыі. Праблемы даследавання прыліваў і адліваў ўключаюць біяметрычнае пацверджанне, запраграмаванае назіранне і наступнае, HCI без рук, адлюстраванне твараў, камп'ютэрызаваныя вадзяныя знакі і вывучэнне дызайну анлайн-архіваў. Апошнія выпускнікі лабараторыі мелі справу з пацвярджэннем пісьменства, праверкай подпісаў, візуальным навучаннем і аднаўленнем малюнкаў».

мадэль:

Група, якую кіравалі спецыялісты Масачусецкага тэхналагічнага інстытута, выявіла, што для таго, каб распазнаць аб'ект здымка, патрабуецца некалькі пікселяў дадзеных. Адкрыцьцё магло падштурхнуць надзвычайны прагрэс у мэханізаваным распазнавальным доказе онлайн-малюнкаў і, нарэшце, даць памяшканьне для ПК, каб бачыць, як людзі. Выснову аб асабліва кароткім адлюстраванні было б значным прагрэсам у напрамку таго, каб зрабіць магчымым інвентарызацыю мільярдаў фатаграфій у Інтэрнэце, адпаведна. На дадзены момант адзінкавыя падыходы да пошуку малюнкаў залежаць ад надпісаў змесціва, якія людзі ўвялі ўручную для кожнага малюнка, і многія малюнкі патрабуюць такіх даных. Запраграмаваны ідэнтыфікатар таксама дасць магчымасць загружаць файлы фатаграфій, якія людзі загружаюць з камп'ютэрызаваных камер на свае ПК, без прагляду і субтытраў да кожнага ўручную. Таксама, нарэшце, гэта магло б выклікаць сапраўднае машыннае зрок, якое часам магло б дазволіць робатам сартаваць інфармацыю, якая паступае з іх камер, і сартаваць, дзе яны знаходзяцца. Так што, калі два здымкі маюць параўнальную групоўку [лічбаў], яны, як мяркуецца, параўнальныя зроблены з у цэлым падобнага артыкула, у агульным падобным размяшчэнні». Калі адзін малюнак быў звязаны з надпісам або загалоўкам, у гэты момант розныя малюнкі, якія каардынуюць яго матэматычны код, верагодна, будуць паказваць падобны прадмет (напрыклад, транспартны сродак, дрэва або чалавек), такім чынам, імя, звязанае з адным малюнкам, можа быць перайшоў да астатніх. Такім чынам, «пры вельмі вялікай колькасці малюнкаў нават звычайныя простыя вылічэнні могуць працаваць сапраўды добра» пры распазнаванні малюнкаў.

⦁ распазнаванне асоб

мы разумеем, што сістэмы пацверджання твару пастаянна становяцца вядомымі як метады выдалення біяметрычных даных. Распазнаванне твару мае асноўную ролю ў біяметрычных структурах і прывабна для розных прыкладанняў, уключаючы візуальную разведку і бяспеку. У святле агульнага пацверджання насельніцтвам фотаздымкаў твараў у розных справаздачах, распазнаванне твараў мае неверагодны патэнцыял ператварыцца ў найноўшую біяметрычную інавацыю прыняцця рашэнняў.

Сістэмы распазнавання малюнкаў

⦁ экспертыза руху

Некалькі заданняў атаясамліваюць з ацэнкай руху, дзе паслядоўнасць малюнкаў падрыхтавана для стварэння датчыка хуткасці альбо ў кожным фокусе на малюнку, альбо ў 3D-сцэне, альбо нават камеры, якая робіць здымкі. Прыклады такіх прызначэнняў:

⦁ рух эга

Вызначэнне 3D-нягнуткага руху (павароту і інтэрпрэтацыі) камеры з паслядоўнасці малюнкаў, створаных камерай.

⦁ Адсочванне

Далей будзе адсочвацца развіццё (у цэлым) больш сціплага размяшчэння фокусаў інтарэсаў або пратэстаў (напрыклад, транспартных сродкаў або людзей) у паслядоўнасці карцін.

⦁ Аптычны паток

Гэта неабходна для таго, каб вырашыць, як гэтая кропка рухаецца ў параўнанні з плоскасцю малюнка, г.зн. яе відавочны рух. Гэты рух з'яўляецца вынікам таго, як кропка параўнання 3D рухаецца ў сцэне і як рухаецца камера ў параўнанні са сцэнай.

⦁ Пераробка сцэны

Улічваючы адну або (звычайна) некалькі фатаграфій сцэны або відэа, рэпрадукцыя сцэны рэгіструе 3D-мадэль сцэны. У самым простым выпадку мадэль можа ўяўляць сабой набор трохмерных фокусаў. Больш дасканалыя стратэгіі ствараюць поўную трохмерную мадэль паверхні

⦁ Аднаўленне выявы

Сэнс перабудовы карцінкі - гэта выдаленне мітусні (шум датчыка, незразумелы рух і г.д.) з карцінкі. Найменш складаная метадалогія выгнання мітусні - гэта розныя віды каналаў, напрыклад, каналы нізкіх частот або сярэднія каналы. Больш сучасныя стратэгіі чакаюць мадэлі таго, як нагадваюць карцінныя структуры суседства, мадэлі, якая распазнае іх па мітусні. Даследуючы спачатку інфармацыю аб малюнку ў даволі працяглым часе бліжэйшых структур малюнка, напрыклад, ліній або краёў, а затым кантралюючы аддзяленне, якое залежыць ад наваколля дадзеных ад этапу абследавання, вышэйшая ступень эвакуацыі мітусні, як правіла, кантрастуе з меншай складаныя методыкі. Узорам у гэтай галіне з'яўляецца іх жывапіс. Некалькі фрэймворкаў з'яўляюцца незалежнымі прылажэннямі, якія вырашаюць пэўную праблему ацэнкі або распазнання, у той час як іншыя складаюць субструктуры большага плана, які, напрыклад, таксама змяшчае субфреймворкі для кіравання механічнымі прывадамі, арганізацыі, інфармацыйнымі базамі даных, чалавекам. машынныя інтэрфейсы і г.д. Канкрэтнае выкананне структуры бачання ПК таксама залежыць ад таго, калі яе карыснасць загадзя вызначана або калі нейкая яе частка вельмі добра можа быць вывучана або скарэкціравана падчас дзейнасці. Ёсць, як бы там ні было, звычайныя ёмістасці, якія сустракаюцца ў шматлікіх ПК