Кіраўніцтва па распазнаванні малюнкаў AI

Чаму распазнаванне малюнкаў важна?

Каля 80 працэнтаў кантэнту ў Інтэрнэце з'яўляецца візуальным. Вы ўжо можаце пачаць разбірацца, чаму тэгі малюнкаў могуць заняць сваё месца ў якасці караля табліцы кантэнту. Няхай гэта будзе прыватныя асобы або кампаніі, распазнаванне малюнкаў штучным інтэлектам дазволіла ідэнтыфікаваць візуальныя элементы ў Інтэрнэце з мінімальнымі клопатамі. Штогод у лічбавым выглядзе публікуецца каля 657 мільярдаў фатаграфій, большасць з якіх з'яўляюцца ў сацыяльных сетках. Значная частка гэтых малюнкаў - гэта людзі, якія рэкламуюць прадукты, нават калі яны робяць гэта міжволі. Змесціва, створанае карыстальнікамі (UGC), у яго чыстым выглядзе з'яўляецца выдатным спрыяльным сродкам для брэндаў, паколькі забяспечвае найлепшы від прасоўвання.
Існуюць маркетынгавыя інструменты, каб папярэджваць кампаніі, калі спажыўцы згадваюць у сацыяльных сетках, але што рабіць, калі прасоўванне брэндаў адбываецца без таго, каб ніхто не пазначаў іх імя ў сацыяльных сетках? Вось дзе распазнаванне малюнкаў AI даказвае сваю каштоўнасць. Калі тэхналогію перадаюць правільныя наборы даных, штучны інтэлект можа ідэнтыфікаваць выяву без згадвання канкрэтных тэгаў. Вынікі неацэнныя для брэндаў, каб адсочваць іх згадкі ў сацыяльных сетках.

Як працуе распазнаванне малюнкаў?

Як мы ведаем, штучны інтэлект можа шукаць фатаграфіі на платформах сацыяльных сетак і параўноўваць іх з шырокімі наборамі даных. Затым ён вызначае рэлевантную выяву, якая супадае з хуткасцю значна хутчэйшай, чым здольныя людзі. Брэнды выкарыстоўваюць распазнаванне малюнкаў, каб знаходзіць у сацыяльных сетках кантэнт, падобны на іх уласны. Гэта азначае ідэнтыфікацыю лагатыпа брэнда або распазнаванне арганічнага размяшчэння прадукту сярод карыстальнікаў сацыяльных сетак. Прасіць людзей траліць так шмат інфармацыі лёгка становіцца стомным. ШІ не клапоціцца пра чалавечую памылку і дае дакладныя вынікі на беспрэцэдэнтным узроўні. Распазнаванне малюнкаў са штучным інтэлектам адсочвае тое, што людзі кажуць пра брэнд, без неабходнасці тэксту. Брэнды, здольныя адсочваць свае згадкі ў сацыяльных сетках без неабходнасці ўводу назвы кампаніі, апынуцца ў выгадным становішчы. Патэнцыял атрымаць доступ да ўласнага онлайн-пакрыцця выключна праз ідэнтыфікатары, прызнаныя штучным інтэлектам, велізарны і прапануе беспрэцэдэнтны ахоп.

Вось некаторыя тыповыя задачы распазнавання малюнкаў: -

Спачатку мы павінны вызначыць, ці ўтрымліваюць дадзеныя выявы нейкі пэўны аб'ект, асаблівасць або дзейнасць. Звычайна гэтая задача можа быць вырашана надзейна і без намаганняў чалавекам, але ўсё яшчэ не вырашаецца здавальняюча ў камп'ютэрным зроку для агульнага выпадку: адвольныя аб'екты ў адвольных сітуацыях. Існуючыя метады вырашэння гэтай праблемы могуць быць найлепшым чынам вырашаны толькі для канкрэтных аб'ектаў, такіх як простыя геаметрычныя аб'екты (напрыклад, шматграннікі), чалавечыя твары, друкаваныя або рукапісныя сімвалы або транспартныя сродкі, а таксама ў канкрэтных сітуацыях, якія звычайна апісваюцца тэрмінамі дакладнай асветленасці, фону і становішча аб'екта адносна камеры. У літаратуры апісаны розныя разнавіднасці праблемы распазнання:

• Распазнаванне аб'ектаў

Можна распазнаць адзін або некалькі загадзя вызначаных або вывучаных аб'ектаў або класаў аб'ектаў, звычайна разам з іх 2D-пазіцыямі на малюнку або 3D-пазіцыямі ў сцэне.

• Ідэнтыфікацыя
Распазнаецца асобны асобнік аб'екта. Прыкладамі з'яўляюцца ідэнтыфікацыя твару або адбітка пальца канкрэтнага чалавека або ідэнтыфікацыя канкрэтнага транспартнага сродку.

• Выяўленне
Даныя выявы скануюцца для пэўнага стану. Прыкладамі з'яўляюцца выяўленне магчымых анамальных клетак або тканак на медыцынскіх здымках або выяўленне транспартнага сродку ў аўтаматычнай сістэме аплаты дарог. Выяўленне, заснаванае на адносна простых і хуткіх вылічэннях, часам выкарыстоўваецца для пошуку меншых абласцей цікавых даных выявы, якія можна дадаткова прааналізаваць з дапамогай больш патрабавальных да вылічэнняў метадаў для атрымання правільнай інтэрпрэтацыі.

Існуе некалькі спецыялізаваных задач, заснаваных на распазнаванні, напрыклад:

• Пошук малюнкаў на аснове кантэнту
Тут можна знайсці ўсе выявы ў большым наборы малюнкаў, якія маюць пэўны змест. Змесціва можа быць вызначана рознымі спосабамі, напрыклад, з пункту гледжання падабенства адносна мэтавай выявы (дайце мне ўсе выявы, падобныя на выяву X), або з пункту гледжання крытэрыяў высокага ўзроўню пошуку, якія задаюцца ў выглядзе ўводу тэксту (дайце мне ўсе выявы, якія змяшчаюць шмат дамоў, забраны на зіму, і ў іх няма машын).

• Ацэнка паставы
мы павінны ацаніць становішча або арыентацыю канкрэтнага аб'екта адносна камеры. Прыкладам прымянення гэтай тэхнікі можа быць дапамога робату ў здабыванні аб'ектаў з канвеернай стужкі на канвееры.

• Аптычнае распазнаванне сімвалаў
OCR які ідэнтыфікуе сімвалы на выявах друкаванага ці рукапіснага тэксту, як правіла, з мэтай кадавання тэксту ў фармаце больш і дазваляе рэдагаваць або індэксаваць Дэпартамент інфарматыкі і тэхнікі, Універсітэт штата Мічыган. «Выкладчыкі і студэнты Лабараторыі распазнавання вобразаў і апрацоўкі малюнкаў (PRIP) даследуюць выкарыстанне машын для распазнавання ўзораў або аб'ектаў. Метады распрацаваны, каб адчуваць аб'екты, выяўляць, якія іх асаблівасці адрозніваюць іх ад іншых, і распрацоўваць алгарытмы, якія можа выкарыстоўваць машына для класіфікацыі. Важныя прыкладанні ўключаюць распазнаванне твараў, ідэнтыфікацыю па адбітках пальцаў, аналіз малюнкаў дакументаў, пабудову 3D-мадэлі аб'ектаў, навігацыю робатаў і візуалізацыю/даследаванне 3D-аб'ёмных даных. Бягучыя даследчыя праблемы ўключаюць біяметрычную аўтэнтыфікацыю, аўтаматычнае назіранне і сачэнне, HCI без рук, мадэляванне твару, лічбавыя вадзяныя знакі і аналіз структуры анлайн-дакументаў. Нядаўнія выпускнікі лабараторыі працавалі над распазнаваннем почырку, праверкай подпісаў, візуальным навучаннем і пошукам малюнкаў».

⦁ распазнаванне асоб
мы ведаем, што сістэмы распазнання твараў паступова становяцца папулярнымі як сродкі здабывання біяметрычнай інфармацыі. Распазнаванне твараў мае вырашальную ролю ў біяметрычных сістэмах і з'яўляецца прывабным для шматлікіх прыкладанняў, уключаючы візуальнае назіранне і бяспеку. Дзякуючы шырокаму прызнанню грамадскасцю выяваў твараў на розных дакументах, распазнаванне твараў мае вялікі патэнцыял, каб стаць біяметрычнай тэхналогіяй наступнага пакалення.

Сістэмы распазнавання малюнкаў

⦁ аналіз руху
Некалькі задач звязаны з ацэнкай руху, калі паслядоўнасць відарысаў апрацоўваецца для атрымання ацэнкі хуткасці ў кожнай кропцы відарыса або ў 3D-сцэне, або нават камеры, якая стварае выявы. Прыклады такіх задач:

⦁ Рух эга
Вызначэнне цвёрдага трохмернага руху (паварот і перамяшчэнне) камеры па паслядоўнасці відарысаў, створаных камерай.

⦁ Адсочванне
Адсочванне - гэта адсочванне руху (звычайна) меншага набору цікавых кропак або аб'ектаў (напрыклад, транспартных сродкаў або людзей) у паслядоўнасці малюнкаў.

⦁ Аптычны паток
Гэта робіцца для таго, каб вызначыць, як гэтая кропка рухаецца адносна плоскасці выявы, г.зн. яе бачны рух. Гэты рух з'яўляецца вынікам як таго, як адпаведная 3D-кропка рухаецца ў сцэне, так і таго, як рухаецца камера адносна сцэны.

⦁ Рэканструкцыя сцэны
Улічваючы адну або (звычайна) некалькі выяваў сцэны або відэа, рэканструкцыя сцэны накіравана на вылічэнне 3D-мадэлі сцэны. У самым простым выпадку мадэль можа быць наборам трохмерных кропак. Больш дасканалыя метады ствараюць поўную трохмерную мадэль паверхні

⦁ Аднаўленне выявы
Мэтай аднаўлення выявы з'яўляецца выдаленне шуму (шум датчыка, размытасць руху і г.д.) з выявы. Самы просты падыход для выдалення шуму - гэта розныя тыпы фільтраў, напрыклад фільтры нізкіх частот або сярэднія фільтры. Больш дасканалыя метады мяркуюць мадэль таго, як выглядаюць лакальныя структуры выявы, мадэль, якая адрознівае іх ад шуму. Калі спачатку аналізаваць даныя выявы з пункту гледжання лакальных структур выявы, такіх як лініі або краю, а потым кантраляваць фільтрацыю на аснове лакальнай інфармацыі на этапе аналізу, звычайна атрымліваецца лепшы ўзровень выдалення шуму ў параўнанні з больш простымі падыходамі. Прыклад у гэтай галіне - іх жывапіс. Некаторыя сістэмы з'яўляюцца аўтаномнымі прылажэннямі, якія вырашаюць канкрэтныя задачы вымярэння або выяўлення, у той час як іншыя ўтвараюць падсістэму больш шырокай канструкцыі, якая, напрыклад, таксама змяшчае падсістэмы для кіравання механічнымі прывадамі, планавання, інфармацыйных баз даных, чалавека- машынныя інтэрфейсы і г. д. Канкрэтная рэалізацыя сістэмы камп'ютэрнага зроку таксама залежыць ад таго, ці папярэдне зададзены яе функцыянальныя магчымасці, ці можа нейкая частка яе быць вывучана або зменена падчас працы. Ёсць, аднак, тыповыя функцыі, якія ёсць у многіх сістэмах камп'ютэрнага зроку.

Больш глыбокае навучанне з распазнаваннем малюнкаў

Распазнаванне вобразаў існавала яшчэ да штучнага інтэлекту. Тым не менш, фактар машыннага навучання рэвалюцыянізуе метады ідэнтыфікацыі прадмета або твару чалавека. Аднак машыннае навучанне эфектыўна толькі тады, калі ёсць дадзеныя для яго падачы. Пры ўсёй аўтаматызацыі штучнага інтэлекту даручэнне ідэнтыфікацыі малюнкаў не з'яўляецца простым запытам. Наша разуменне візуальных эфектаў - другая натура; гэта тое, на што мы запраграмаваны з ранняга ўзросту. Запытаць тое ж самае ў машыны - працэс няпросты. Па гэтай прычыне адной з найбольш папулярных формаў распазнавання ІІ з'яўляюцца згорткавыя нейронавыя сеткі (CNN). CNN - гэта метад, які факусуюць на пікселях, размешчаных побач адзін з адным. Блізка размешчаныя выявы, хутчэй за ўсё, будуць звязаныя, што азначае, што аб'ект або твар супадае з выявай з большай празрыстасцю.
У той час як брэнды, якія жадаюць манетызаваць сацыяльныя сеткі, хоць распазнаванне выяваў штучным інтэлектам прыносяць відавочныя перавагі, варыянты іх выкарыстання значна глыбейшыя. Самастойныя аўтамабілі хутка стануць наступнай вялікай рэччу ў аўтамабільным свеце, і тэхналогія распазнавання выяваў са штучным інтэлектам дапамагае ім працаваць. Аўтамабільны аўтамабіль, які можа выяўляць прадметы і людзей на дарозе, каб не ўрэзацца ў іх, не ствараецца аўтаматычна. Ён павінен распазнаваць выявы, каб прымаць абгрунтаваныя рашэнні. Кожны беспілотны аўтамабіль абсталяваны некалькімі датчыкамі, каб ён мог ідэнтыфікаваць іншыя транспартныя сродкі, якія рухаюцца, веласіпедыстаў, людзей - практычна ўсё, што можа прадстаўляць небяспеку. Аўтаматызаваны аўтамабіль павінен апрацоўваць небяспекі на дарозе гэтак жа, як гэта робіць вопытны кіроўца. Ёсць яшчэ некалькі аспектаў, якія трэба згладзіць, перш чым беспілотныя аўтамабілі выйдуць на дарогі ў 2020 годзе. Але калі аўтаматызацыя аўтамабіляў пачне працаваць, распазнаванне малюнкаў штучным інтэлектам стане адным з асноўных фактараў іх бяспечнай працы.
⦁ Атрыманне выявы
Лічбавая выява ствараецца з дапамогай аднаго або некалькіх датчыкаў выявы, якія, акрамя розных тыпаў святлоадчувальных камер, уключаюць датчыкі далёкасці, тамаграфічныя прыборы, радары, ультрагукавыя камеры і г. д. У залежнасці ад тыпу датчыка, выніковыя даныя выявы гэта звычайная 2D-малюнак, 3D-аб'ём або паслядоўнасць відарысаў. Значэнні пікселяў звычайна адпавядаюць інтэнсіўнасці святла ў адной або некалькіх спектральных палосах (шэрыя выявы або каляровыя выявы), але таксама могуць быць звязаны з рознымі фізічнымі паказчыкамі, такімі як глыбіня, паглынанне або адлюстраванне гукавых або электрамагнітных хваль або ядзерны магнітны рэзананс.
⦁ Папярэдняя апрацоўка:
Перад тым, як метад камп'ютэрнага зроку можна будзе прымяніць да дадзеных выявы, каб атрымаць нейкую пэўную частку інфармацыі, звычайна неабходна апрацаваць дадзеныя, каб пераканацца, што яны задавальняюць пэўным дапушчэнням, якія прадугледжваюцца метадам. Прыклады ёсць
1. Паўторная выбарка, каб пераканацца, што сістэма каардынат выявы правільная.
2. Зніжэнне ўзроўню шуму, каб пераканацца, што шум датчыка не дае ілжывай інфармацыі.
3. Узмацненне кантрасту для забеспячэння выяўлення адпаведнай інфармацыі.
4. Маштабна-прасторавае прадстаўленне для паляпшэння структуры выявы ў лакальна адпаведных маштабах.
⦁ Выманне функцый:
Характарыстыкі выявы розных узроўняў складанасці здабываюцца з даных выявы. Тыповымі прыкладамі такіх функцый з'яўляюцца лініі, краю і грабяні
Лакалізаваныя пункты цікавасці, такія як куты, кроплі або кропкі. Больш складаныя функцыі могуць быць звязаныя з тэкстурай, формай або рухам.
⦁ Выяўленне/сегментацыя:
У нейкі момант апрацоўкі прымаецца рашэнне аб тым, якія кропкі або вобласці выявы падыходзяць для далейшай апрацоўкі. Прыклады ёсць
1. Выбар пэўнага набору цікавостак
2. Сегментацыя адной або некалькіх абласцей выявы, якія ўтрымліваюць пэўны цікавы аб'ект.
⦁ Апрацоўка высокага ўзроўню:
На гэтым этапе звычайна ўводзіцца невялікі набор даных, напрыклад, набор кропак або вобласць анімацыі, якая, як мяркуецца, змяшчае пэўны аб'ект. Астатняя апрацоўка тычыцца, напрыклад:
1. Праверка таго, што дадзеныя адпавядаюць дапушчэнням, заснаваным на мадэлі і спецыфічным дадаткам.
2. Ацэнка спецыфічных параметраў прымянення, такіх як становішча або памер аб'екта.
3. Класіфікацыя выяўленага аб'екта па розных катэгорыях. Такім чынам, апрацоўка выявы дапамагае штучнаму інтэлекту ідэнтыфікаваць выяву і рэагаваць у адпаведнасці з ідэнтыфікацыяй выявы.

Бездакорная будучыня вобразаў

Па меры ўдасканалення тэхналогіі распазнаванне малюнкаў дасць яшчэ лепшыя вынікі. Кіраўнік аддзела машыннага навучання Lobster Уладзімір Паўлаў кажа: «Матэматычная аснова для распазнавання аб'ектаў існуе даўно, але тэхналагічныя магчымасці выкарыстання алгарытмаў камп'ютэрнага гледжання з'явіліся зусім нядаўна. Ужо цяпер нейронавыя сеткі дазваляюць ствараць ідэальныя дэтэктары, якія працуюць лепш, чым людзі. Вялікі рывок стрымлівае наяўнасць пазначаных набораў малюнкаў для навучання, але ў бліжэйшы час гэта не будзе праблемай. Інжынеры па камп'ютэрным зроку актыўна працуюць над алгарытмамі саманавучання». У сувязі з тым, што на будучыню так моцна ўплывае візуальная камунікацыя, распазнаванне малюнкаў стане ключавым фактарам многіх малюнкаў, якія мы бачым. Як у рэальным жыцці, так і ў інтэрнэце.