Водич за препознавање слика со вештачка интелигенција

Зошто е важно препознавањето на сликите?

Околу 80 отсто од содржината на интернет е визуелна. Веќе можете да почнете да размислувате зошто означувањето на слики може да го задржи своето место како крал на табелата со содржини. Без разлика дали се работи за поединци или компании, препознавањето на слики со вештачка интелигенција овозможи да се идентификуваат визуелните слики онлајн со минимална врева. Околу 657 милијарди фотографии се објавуваат секоја година дигитално, а повеќето се појавуваат на социјалните мрежи. Добар дел од тие слики се луѓе кои промовираат производи, дури и ако тоа го прават несвесно. Содржината генерирана од корисници (UGC) во својата најчиста форма е одличен овозможувач за брендовите бидејќи обезбедува најдобар вид на промоција.
Постојат маркетиншки алатки за предупредување на компаниите кога има спомнување од потрошувачите на социјалните медиуми, но што е со кога промоцијата на брендовите се одвива без никој да го означи нивното име во социјалната објава? Ова е местото каде што препознавањето на слики со вештачка интелигенција ја докажува својата вредност. Ако технологијата се храни со точните збирки на податоци, вештачката интелигенција може да идентификува слика без специфични спомнувања на ознаки. Резултатите се непроценливи за брендовите да ги следат и да ги следат нивните социјални споменувања.

Како функционира препознавањето слики?

Како што знаеме, вештачката интелигенција може да пребарува на платформите на социјалните медиуми барајќи фотографии и да ги споредува со обемни збирки податоци. Потоа одлучува за релевантната слика што се совпаѓа со брзина многу побрзо отколку што се способни за луѓето. Брендовите користат препознавање слики за да најдат содржина слична на нивната на социјалните мрежи. Тоа значи да се идентификува логото на брендот или да се препознае органски поставената поставеност на производите меѓу корисниците на социјалните мрежи. Барањето од луѓето да минат низ толку многу информации станува заморно. ВИ не се грижи за човечката грешка и враќа прецизни резултати на неспоредливо ниво. Препознавањето слики со вештачка интелигенција го следи она што луѓето го кажуваат за брендот без потреба од текст. Брендовите кои можат да ги следат нивните социјални спомнувања без корисниците да треба да го напишат името на компанијата ќе се најдат во поволна позиција. Потенцијалот да се искористи сопственото онлајн покривање исклучиво преку идентификаторите со вештачка интелигенција е огромен и нуди неспоредлива покриеност.

Еве неколку типични задачи за препознавање слики:

Најпрво треба да утврдиме дали податоците за сликата содржат одреден објект, карактеристика или активност. Оваа задача вообичаено може да се реши цврсто и без напор од страна на човекот, но сепак не е задоволително решена во компјутерската визија за општиот случај: произволни предмети во произволни ситуации. Постојните методи за справување со овој проблем најдобро може да се решат само за специфични предмети, како што се едноставни геометриски објекти (на пример, полиедри), човечки лица, печатени или рачно напишани знаци или возила, и во специфични ситуации, обично опишани во термини на добро дефинирано осветлување, позадина и поза на објектот во однос на камерата. Во литературата се опишани различни видови на проблемот со препознавање:

• Препознавање на објекти

Може да се препознаат еден или неколку однапред одредени или научени предмети или класи на објекти, обично заедно со нивните 2D позиции на сликата или 3D пози во сцената.

• Идентификација
Се препознава индивидуален примерок на објект. Примерите се идентификација на лицето или отпечатокот од прст на одредена личност или идентификација на одредено возило.

• Откривање
Податоците за сликата се скенираат за одредена состојба. Примерите се откривање на можни абнормални клетки или ткива на медицински слики или откривање на возило во автоматски систем за патарина. Откривањето засновано на релативно едноставни и брзи пресметки понекогаш се користи за пронаоѓање на помали региони на интересни податоци за слики кои може дополнително да се анализираат со повеќе пресметковни техники за да се добие правилна интерпретација.

Постојат неколку специјализирани задачи засновани на препознавање, како што се:

• Враќање слики врз основа на содржина
Тука се наоѓаат сите слики во поголем сет на слики кои имаат специфична содржина. Содржината може да се специфицира на различни начини, на пример во однос на сличноста во однос на целната слика (дајте ми ги сите слики слични на сликата X), или во однос на критериумите за пребарување на високо ниво дадени како внесување текст (дајте ми ги сите слики што ги содржат многу куќи, се земаат во зима и немаат автомобили во нив).

• Проценка на позата
треба да ја процениме положбата или ориентацијата на одреден објект во однос на камерата. Примерна апликација за оваа техника би била да му се помогне на робот кој вади предмети од подвижна лента во ситуација на склопување.

• Оптичко препознавање знаци
OCR што е идентификација на знаци во слики од печатен или рачно напишан текст, обично со цел текстот да се кодира повеќе во формат и да се овозможи уредување или индексирање на Одделот за компјутерски науки и инженерство, Државниот универзитет во Мичиген. „Лабораторијата за препознавање шаблони и обработка на слики (PRIP) и студентите ја истражуваат употребата на машини за препознавање шеми или предмети. Развиени се методи за да се насетат предметите, да се открие која од нивните карактеристики ги разликува од другите и да се дизајнираат алгоритми кои машината може да ги користи за да ја изврши класификацијата. Важните апликации вклучуваат препознавање на лица, идентификација на отпечатоци од прст, анализа на слики од документи, конструкција на модел на 3D објект, навигација со роботи и визуелизација/истражување на 3D волуметриски податоци. Тековните истражувачки проблеми вклучуваат биометриска автентикација, автоматски надзор и следење, HCI без раце, моделирање на лица, дигитално водени жигови и анализа на структурата на онлајн документите. Неодамнешните дипломирани студенти на лабораторијата работеа на препознавање на ракопис, верификација на потпис, визуелно учење и пронаоѓање слики“.

⦁ Препознавање на лице
знаеме дека системите за препознавање лица постепено стануваат популарни како средства за извлекување биометриски информации. Препознавањето лице има клучна улога во биометриските системи и е привлечно за бројни апликации, вклучувајќи визуелен надзор и безбедност. Поради општото прифаќање на слики од лица на различни документи од страна на јавноста, препознавањето лице има голем потенцијал да стане биометриска технологија на избор од следната генерација.

Системи за препознавање слики

⦁ Анализа на движење
Неколку задачи се однесуваат на проценка на движењето каде што секвенцата на слики се обработува за да се добие проценка на брзината или во секоја точка на сликата или во 3D сцената, па дури и на камерата што ги произведува сликите. Примери за такви задачи се:

⦁ Движење на егото
Одредување на 3D крутото движење (ротација и превод) на фотоапаратот од секвенца на слика произведена од камерата.

⦁ Следење
Следењето е следење на движењата на (обично) помал сет на интересни точки или предмети (на пр. возила или луѓе) во низата на слики.

⦁ Оптички проток
Ова е за да се утврди, за секоја точка на сликата, како таа точка се движи во однос на рамнината на сликата, т.е. нејзиното привидно движење. Ова движење е резултат и на тоа како се движи соодветната 3Д точка во сцената и како се движи камерата во однос на сцената.

⦁ Реконструкција на сцената
Со оглед на една или (обично) повеќе слики од сцена или видео, реконструкцијата на сцената има за цел да пресмета 3Д модел на сцената. Во наједноставниот случај моделот може да биде збир од 3D точки. Пософистицираните методи создаваат комплетен 3D модел на површина

⦁ Враќање на сликата
Целта на обновувањето на сликата е отстранување на шумот (шум од сензор, заматување на движење, итн.) од сликите. Наједноставниот можен пристап за отстранување на бучавата е разни видови филтри како што се нископропусни филтри или средни филтри. Пософистицираните методи претпоставуваат модел за тоа како изгледаат локалните структури на сликата, модел кој ги разликува од бучавата. Со прво анализа на податоците за сликата во однос на локалните структури на сликата, како што се линиите или рабовите, а потоа контролирајќи го филтрирањето врз основа на локалните информации од чекорот на анализата, обично се добива подобро ниво на отстранување на шумот во споредба со поедноставните пристапи. Пример во оваа област е нивното сликарство. Некои системи се самостојни апликации кои решаваат специфичен проблем со мерење или детекција, додека други претставуваат потсистем од поголем дизајн кој, на пример, содржи и подсистеми за контрола на механички актуатори, планирање, информациски бази на податоци, човечки машински интерфејси итн. Специфичната имплементација на системот за компјутерска визија, исто така, зависи од тоа дали неговата функционалност е претходно одредена или дали некој дел од него може да се научи или измени за време на работата. Меѓутоа, постојат типични функции кои се наоѓаат во многу системи за компјутерска визија.

Подлабоко учење со препознавање слики

Препознавањето на слики беше околу пред вештачката интелигенција. Сепак, факторот за машинско учење ги револуционизира методите за идентификување на објект или лице на лице. Меѓутоа, машинското учење е ефективно само кога има податоци што ќе го нахранат. За сета автоматизација на вештачката интелигенција, давање задача да идентификува слики не е едноставно барање. Нашето разбирање на визуелните елементи е втора природа; тоа е нешто што сме програмирани да го правиме уште од мали нозе. Да се побара истото од машина не е јасен процес. Од таа причина, една од најпопуларните форми на препознавање на вештачката интелигенција се конволутивните невронски мрежи (CNN). CNN е метод кој се фокусира на пиксели лоцирани еден до друг. Поверојатно е дека сликите лоцирани блиску се поврзани, што значи дека објектот или лицето се совпаѓаат со слика со поголема транспарентност.
Додека брендовите кои сакаат да ги заработат социјалните медиуми преку препознавање на слики со вештачка интелигенција носат јасни придобивки, случаите на неговата употреба се многу подлабоки. Самоуправувачките автомобили ќе бидат следната голема работа во автомобилскиот свет, а технологијата за препознавање слики со вештачка интелигенција помага да се напојуваат. Самоуправувачки автомобил кој може да детектира предмети и луѓе на патот за да не удри во нив, не се случува автоматски. Треба да ги препознае сликите за да донесе информирани одлуки. Секој самоуправувачки автомобил е опремен со неколку сензори за да може да идентификува други возила во движење, велосипедисти, луѓе - во основа сè што може да претставува опасност. Автоматизираниот автомобил треба да ги обработува опасностите на патот на ист начин како што тоа го прави искусен возач. Сè уште има неколку аспекти што треба да се испеглаат пред да излезат автомобилите со самоуправување на патиштата во 2020 година. Но, кога автоматизацијата на возилата ќе започне, препознавањето на слики со вештачка интелигенција ќе биде еден од главните двигатели зад нив кои ќе работат безбедно.
⦁ Стекнување слика
Дигитална слика се произведува од еден или повеќе сензори за слика, кои, покрај различните типови камери чувствителни на светлина, вклучуваат сензори за опсег, уреди за томографија, радар, ултразвучни камери итн. Во зависност од видот на сензорот, добиените податоци за сликата е обична 2D слика, 3D волумен или низа на слики. Вредностите на пикселите обично одговараат на интензитетот на светлината во една или неколку спектрални појаси (сиви слики или слики во боја), но исто така може да бидат поврзани со различни физички мерки, како што се длабочина, апсорпција или рефлексија на звучни или електромагнетни бранови или нуклеарна магнетна резонанца.
⦁ Претходна обработка:
Пред да може да се примени методот на компјутерска визија на податоците од сликата со цел да се извлече одреден дел од информацијата, обично е неопходно да се обработат податоците за да се увери дека задоволува одредени претпоставки наведени со методот. Примери се
1. Повторно земање примероци за да се увери дека координатниот систем на сликата е точен.
2. Намалување на шумот со цел да се увери дека бучавата од сензорот не внесува лажни информации.
3. Подобрување на контрастот за да се увери дека може да се откријат релевантни информации.
4. Претставување на скала-простор за подобрување на структурите на сликата на локално соодветни размери.
⦁ Екстракција на карактеристики:
Карактеристиките на сликата на различни нивоа на сложеност се извлекуваат од податоците на сликата. Типични примери за такви карактеристики се линиите, рабовите и гребените
Локализирани интересни точки како што се агли, капки или точки. Покомплексните карактеристики може да се поврзани со текстура, форма или движење.
⦁ Откривање/сегментација:
Во одреден момент во обработката се донесува одлука за тоа кои точки на сликата или региони на сликата се релевантни за понатамошна обработка. Примери се
1. Избор на одреден сет на интересни точки
2. Сегментација на еден или повеќе региони на слики кои содржат специфичен предмет на интерес.
⦁ Обработка на високо ниво:
Во овој чекор, влезот е типично мал сет на податоци, на пример збир на точки или регион на слика за кој се претпоставува дека содржи одреден објект. Преостанатата обработка се занимава со, на пример:
1. Потврда дека податоците ги задоволуваат претпоставките засновани на модел и апликација.
2. Проценка на специфичните параметри на апликацијата, како што се поза или големина на објектот.
3. Класификација на откриен објект во различни категории. Така, обработката на слики помага на вештачката интелигенција да ја идентификува сликата и да реагира според идентификацијата на сликата.

Беспрекорна иднина на слики

Како што се подобрува технологијата, препознавањето на слики ќе врати уште поголеми резултати. Раководителот за машинско учење во Lobster, Владимир Павлов вели: „Математичката основа за препознавање на објекти постои долго време, но технолошките можности за користење на алгоритми за компјутерска визија се појавија неодамна. Веќе невронските мрежи овозможуваат правење совршени детектори кои се способни да работат подобро од луѓето. Голем кретен го спречува присуството на означени збирки на податоци за слики за обука, но во блиска иднина тоа нема да биде проблем. Инженерите за компјутерска визија активно работат на алгоритми за самостојно учење. И во реалниот живот и на интернет.