De ce este importantă recunoașterea imaginii?

Aproximativ 80% din conținutul de pe internet este vizual. Puteți începe deja să înțelegeți de ce etichetarea imaginilor ar putea să-și ocupe locul ca regele tabelului de conținut. Fie că este vorba de persoane fizice sau de companii, recunoașterea imaginii AI a făcut posibilă identificarea imaginilor online cu o agitație minimă. Există aproximativ 657 de miliarde de fotografii postate în fiecare an digital, majoritatea aparând pe rețelele de socializare. O bună parte din aceste imagini sunt oameni care promovează produse, chiar dacă o fac fără să vrea. Conținutul generat de utilizatori (UGC) în forma sa cea mai pură este un factor excelent pentru mărci, deoarece oferă cel mai bun tip de promovare.
Există instrumente de marketing pentru a alerta companiile atunci când există o mențiune a consumatorilor pe rețelele de socializare, dar cum rămâne cu când promovarea mărcilor are loc fără ca cineva să-și eticheteze numele în postarea socială? Aici recunoașterea imaginii AI își dovedește valoarea. Dacă tehnica este alimentată cu seturile de date corecte, AI poate identifica o imagine fără mențiuni specifice de etichetă. Rezultatele sunt de neprețuit pentru mărci pentru a urmări și a urmări mențiunile lor sociale.

Cum funcționează recunoașterea imaginii?

După cum știm, AI poate căuta pe platformele de rețele sociale în căutarea fotografiilor și le poate compara cu seturi extinse de date. Apoi decide asupra imaginii relevante care se potrivesc într-un ritm mult mai rapid decât sunt capabili oamenii. Mărcile folosesc recunoașterea imaginii pentru a găsi conținut similar cu al lor pe rețelele sociale. Aceasta înseamnă identificarea siglei unei mărci sau recunoașterea plasării produselor plasate organic printre utilizatorii rețelelor sociale. A cere oamenilor să caute atât de multe informații devine ușor obositor. AI nu își face griji cu privire la eroarea umană și returnează rezultate precise la niveluri de neegalat. Recunoașterea imaginii AI monitorizează ceea ce spun oamenii despre o marcă fără a fi nevoie de text. Mărcile capabile să își urmărească mențiunile sociale fără ca utilizatorii să fie nevoie să introducă numele companiei se vor găsi într-o poziție avantajoasă. Potențialul de a accesa propria acoperire online numai prin identificatori recunoscuți prin inteligență artificială este uriaș și oferă o acoperire de neegalat.

Iată câteva sarcini tipice de recunoaștere a imaginii: -

La început trebuie să stabilim dacă datele imaginii conțin sau nu un anumit obiect, caracteristică sau activitate. Această sarcină poate fi în mod normal rezolvată robust și fără efort de către un om, dar încă nu este rezolvată satisfăcător în viziunea computerizată pentru cazul general: obiecte arbitrare în situații arbitrare. Metodele existente pentru rezolvarea acestei probleme pot fi rezolvate cel mai bine numai pentru obiecte specifice, cum ar fi obiecte geometrice simple (de exemplu, poliedre), chipuri umane, caractere tipărite sau scrise de mână sau vehicule și în situații specifice, descrise de obicei în termeni. de iluminare, fundal și poziția bine definite ale obiectului în raport cu camera. Diferite varietăți ale problemei recunoașterii sunt descrise în literatură:

• Recunoașterea obiectelor

Pot fi recunoscute unul sau mai multe obiecte sau clase de obiecte prespecificate sau învățate, de obicei împreună cu pozițiile lor 2D în imagine sau cu pozițiile 3D din scenă.

• Identificare
O instanță individuală a unui obiect este recunoscută. Exemple sunt identificarea feței sau a amprentei unei anumite persoane sau identificarea unui anumit vehicul.

• Detectare
Datele imaginii sunt scanate pentru o anumită condiție. Exemple sunt detectarea posibilelor celule sau țesuturi anormale în imaginile medicale sau detectarea unui vehicul într-un sistem automat de taxare rutieră. Detectarea bazată pe calcule relativ simple și rapide este uneori folosită pentru a găsi regiuni mai mici de date interesante de imagine care pot fi analizate în continuare prin tehnici mai solicitante din punct de vedere computațional pentru a produce o interpretare corectă.

Există mai multe sarcini specializate bazate pe recunoaștere, cum ar fi:

• Recuperarea imaginilor bazată pe conținut
Aici găsim toate imaginile într-un set mai mare de imagini care au un anumit conținut. Conținutul poate fi specificat în diferite moduri, de exemplu în termeni de similitudine față de o imagine țintă (dați-mi toate imaginile similare cu imaginea X), sau în termeni de criterii de căutare de nivel înalt date ca introducere de text (dați-mi toate imaginile care conține multe case, sunt luate iarna și nu au mașini în ele).

• Estimarea pozitiei
trebuie să estimăm poziția sau orientarea unui anumit obiect în raport cu camera. Un exemplu de aplicație pentru această tehnică ar fi asistența unui robot care recuperează obiecte de pe o bandă transportoare într-o situație de linie de asamblare.

• Recunoaștere optică a caracterelor
OCR care este identificarea caracterelor din imaginile de text tipărit sau scris de mână, de obicei în scopul de a codifica textul într-un format mai mare și de a permite editarea sau indexarea Departamentului de Științe și Inginerie Calculatoare, Universitatea de Stat din Michigan. „Facultatea de laborator de recunoaștere și procesare a imaginilor (PRIP) și studenții investighează utilizarea mașinilor pentru a recunoaște modele sau obiecte. Sunt dezvoltate metode pentru a detecta obiectele, pentru a descoperi care dintre caracteristicile lor le deosebesc de altele și pentru a proiecta algoritmi care pot fi utilizați de o mașină pentru a face clasificarea. Aplicațiile importante includ recunoașterea feței, identificarea amprentelor digitale, analiza imaginilor documentelor, construcția modelului de obiecte 3D, navigarea robotului și vizualizarea/explorarea datelor volumetrice 3D. Problemele actuale de cercetare includ autentificarea biometrică, supravegherea și urmărirea automată, HCI fără mânere, modelarea feței, marcarea digitală a filigranului și analiza structurii documentelor online. Absolvenții recenti ai laboratorului au lucrat la recunoașterea scrisului de mână, verificarea semnăturii, învățarea vizuală și recuperarea imaginilor.”

⦁ Recunoașterea facială
știm că sistemele de recunoaștere a feței devin progresiv populare ca mijloace de extragere a informațiilor biometrice. Recunoașterea feței are un rol critic în sistemele biometrice și este atractivă pentru numeroase aplicații, inclusiv supravegherea vizuală și securitate. Datorită acceptării de către publicul larg a imaginilor feței pe diferite documente, recunoașterea feței are un potențial mare de a deveni următoarea generație de tehnologie biometrică de alegere.

Sisteme de recunoaștere a imaginilor

⦁ Analiza mișcării
Mai multe sarcini se referă la estimarea mișcării în care o secvență de imagini este procesată pentru a produce o estimare a vitezei fie în fiecare punct din imagine, fie în scena 3D, sau chiar a camerei care produce imaginile. Exemple de astfel de sarcini sunt:

⦁  Mișcarea Eului
Determinarea mișcării rigide 3D (rotație și translație) a camerei dintr-o secvență de imagini produsă de cameră.

⦁ Urmărire
Urmărirea urmărește mișcările unui set (de obicei) mai mic de puncte de interes sau obiecte (de exemplu, vehicule sau oameni) în secvența imaginii.

⦁ Flux optic
Aceasta este pentru a determina, pentru fiecare punct din imagine, modul în care acel punct se mișcă în raport cu planul imaginii, adică mișcarea sa aparentă. Această mișcare este rezultatul atât al modului în care punctul 3D corespunzător se mișcă în scenă, cât și al modului în care camera se mișcă în raport cu scena.

⦁ Reconstituirea scenei
Având în vedere una sau (de obicei) mai multe imagini ale unei scene sau ale unui videoclip, reconstrucția scenei urmărește să calculeze un model 3D al scenei. În cel mai simplu caz, modelul poate fi un set de puncte 3D. Metode mai sofisticate produc un model de suprafață 3D complet

⦁ Restaurarea imaginii
Scopul restabilirii imaginii este eliminarea zgomotului (zgomotul senzorului, neclaritatea mișcării etc.) din imagini. Cea mai simplă abordare posibilă pentru eliminarea zgomotului este diferitele tipuri de filtre, cum ar fi filtrele trece-jos sau filtrele mediane. Metodele mai sofisticate presupun un model al modului în care arată structurile locale de imagine, un model care le distinge de zgomot. Analizând mai întâi datele imaginii în ceea ce privește structurile locale de imagine, cum ar fi linii sau margini, și apoi controlând filtrarea pe baza informațiilor locale din etapa de analiză, se obține de obicei un nivel mai bun de eliminare a zgomotului în comparație cu abordările mai simple. Un exemplu în acest domeniu este pictura lor. Unele sisteme sunt aplicații de sine stătătoare care rezolvă o problemă specifică de măsurare sau detecție, în timp ce altele constituie un subsistem cu un design mai mare care, de exemplu, conține și subsisteme de control al actuatoarelor mecanice, planificare, baze de date de informații, interfețe mașină, etc. Implementarea specifică a unui sistem de viziune computerizată depinde și de dacă funcționalitatea acestuia este prespecificată sau dacă o parte a acestuia poate fi învățată sau modificată în timpul funcționării. Există, totuși, funcții tipice care se găsesc în multe sisteme de viziune computerizată.

 

Învățare mai profundă cu recunoașterea imaginilor

Recunoașterea imaginilor exista înainte de AI. Cu toate acestea, factorul de învățare automată revoluționează metodele de identificare a feței unui obiect sau a unei persoane. Învățarea automată este eficientă numai atunci când există date pentru a o alimenta. Pentru toate automatizările AI, sarcina acestuia să identifice imagini nu este o solicitare simplă. Înțelegerea noastră asupra imaginilor este a doua natură; este ceva pentru care suntem programați să facem încă de la o vârstă fragedă. A cere același lucru de la o mașină nu este un proces simplu. Din acest motiv, una dintre cele mai populare forme de recunoaștere AI sunt rețelele neuronale convoluționale (CNN). CNN este o metodă care se concentrează pe pixeli aflați unul lângă celălalt. Imaginile apropiate sunt mai probabil să fie înrudite, ceea ce înseamnă că un obiect sau o față se potrivește cu o imagine cu mai multă transparență.
În timp ce mărcile care doresc să monetizeze rețelele sociale prin recunoașterea imaginii AI oferă beneficii clare, cazurile de utilizare ale acestora sunt mult mai profunde. Mașinile cu conducere autonomă sunt pe cale să fie următorul lucru important în lumea automobilelor, iar tehnologia de recunoaștere a imaginii AI le ajută să le alimenteze. O mașină cu conducere autonomă care poate detecta obiecte și oameni de pe drum, astfel încât să nu se ciocnească de ele, nu se întâmplă automat. Trebuie să recunoască imaginile pentru a lua decizii informate. Fiecare mașină cu conducere autonomă este echipată cu mai mulți senzori, astfel încât să poată identifica alte vehicule în mișcare, bicicliști, oameni - practic orice ar putea reprezenta un pericol. O mașină automatizată trebuie să proceseze pericolele drumului în același mod în care o face un șofer experimentat. Mai sunt câteva aspecte de rezolvat înainte ca mașinile cu conducere autonomă să iasă pe șosea în 2020. Dar când automatizarea vehiculelor va începe, recunoașterea imaginii AI va fi unul dintre principalii factori din spatele lor care lucrează în siguranță.
⦁ Acoperirea imaginii
O imagine digitală este produsă de unul sau mai mulți senzori de imagine, care, pe lângă diverse tipuri de camere sensibile la lumină, includ senzori de distanță, dispozitive de tomografie, radare, camere cu ultrasunete etc. În funcție de tipul de senzor, datele de imagine rezultate este o imagine 2D obișnuită, un volum 3D sau o secvență de imagini. Valorile pixelilor corespund de obicei intensității luminii într-una sau mai multe benzi spectrale (imagini gri sau imagini color), dar pot fi, de asemenea, legate de diferite măsuri fizice, cum ar fi adâncimea, absorbția sau reflectanța undelor sonice sau electromagnetice sau rezonanța magnetică nucleară.
⦁ Preprocesare:
Înainte ca o metodă de vizualizare computerizată să poată fi aplicată datelor de imagine pentru a extrage o anumită informație, este de obicei necesar să se prelucreze datele pentru a se asigura că acestea îndeplinesc anumite ipoteze implicate de metodă. Exemplele sunt
1. Reeșantionare pentru a se asigura că sistemul de coordonate a imaginii este corect.
2. Reducerea zgomotului pentru a se asigura că zgomotul senzorului nu introduce informații false.
3. Îmbunătățirea contrastului pentru a se asigura că informațiile relevante pot fi detectate.
4. Reprezentarea scară-spațială pentru a îmbunătăți structurile imaginii la scale adecvate local.
⦁ Extragerea caracteristicilor:
Caracteristicile imaginii la diferite niveluri de complexitate sunt extrase din datele imaginii. Exemple tipice de astfel de caracteristici sunt liniile, marginile și crestele
Puncte de interes localizate, cum ar fi colțuri, paturi sau puncte. Caracteristicile mai complexe pot fi legate de textură, formă sau mișcare.
⦁ Detectare/segmentare:
La un moment dat în procesare, se ia o decizie cu privire la care puncte de imagine sau regiuni ale imaginii sunt relevante pentru procesarea ulterioară. Exemplele sunt
1. Selectarea unui set specific de puncte de interes
2. Segmentarea uneia sau a mai multor regiuni de imagine care conțin un anumit obiect de interes.
⦁ Procesare la nivel înalt:
La acest pas, intrarea este de obicei un set mic de date, de exemplu un set de puncte sau o regiune de imagine care se presupune că conține un anumit obiect. Procesarea rămasă se ocupă, de exemplu, de:
1. Verificarea faptului că datele îndeplinesc ipotezele bazate pe model și specificațiile aplicației.
2. Estimarea parametrilor specifici aplicației, cum ar fi poziția obiectului sau dimensiunea obiectului.
3. Clasificarea unui obiect detectat în diferite categorii. Deci, procesarea imaginii ajută AI să identifice imaginea și să răspundă în funcție de identificarea imaginii.

Un viitor perfect al imaginilor

Pe măsură ce tehnologia se îmbunătățește, recunoașterea imaginii va aduce rezultate și mai mari. Şeful Machine Learning la Lobster, Vladimir Pavlov spune: „Baza matematică pentru recunoaşterea obiectelor există de mult timp, dar posibilităţile tehnologice de utilizare a algoritmilor de viziune computerizată au apărut recent. Deja, rețelele neuronale permit realizarea de detectoare perfecte care sunt capabile să funcționeze mai bine decât oamenii. O mare smucitură împiedică prezența seturilor de date de imagine marcate pentru antrenament, dar în viitorul apropiat, aceasta nu va fi o problemă. Inginerii de viziune computerizată lucrează activ la algoritmi de auto-învățare”. Cu un viitor atât de puternic influențat de comunicarea vizuală, recunoașterea imaginilor va fi factorul cheie din spatele multor imagini pe care le vedem. Atât în ​​viața reală, cât și online.