Vodnik za prepoznavanje slik z umetno inteligenco

Zakaj je prepoznavanje slik pomembno?

Približno 80 odstotkov vsebine na internetu je vizualnih. Lahko že začnete ugotavljati, zakaj bi lahko označevanje slik obdržalo svoje mesto kot kralj vsebinske tabele. Ne glede na to, ali gre za posameznike ali podjetja, je prepoznavanje slik z umetno inteligenco omogočilo prepoznavanje vizualnih elementov na spletu z minimalnimi napori. Tam se vsako leto digitalno objavi okoli 657 milijard fotografij, večina pa se pojavi na družbenih omrežjih. Velik del teh slik so ljudje, ki promovirajo izdelke, čeprav to počnejo nehote. Uporabniško ustvarjena vsebina (UGC) v svoji najčistejši obliki je odličen pripomoček za blagovne znamke, saj zagotavlja najboljšo vrsto promocije.
Obstajajo marketinška orodja, ki podjetja opozorijo na omembo potrošnikov na družbenih omrežjih, kaj pa, ko poteka promocija blagovnih znamk, ne da bi kdorkoli označil njihovo ime v objavi na družbenih omrežjih? Tukaj prepoznavanje slik z umetno inteligenco dokazuje svojo vrednost. Če tehnologija dobi pravilne nabore podatkov, lahko AI identificira sliko brez posebnih omemb oznak. Rezultati so neprecenljivi za blagovne znamke pri sledenju in sledenju njihovim družbenim omembam.

Kako deluje prepoznavanje slik?

Kot vemo, lahko AI išče po platformah družbenih medijev in išče fotografije ter jih primerja z obsežnimi nabori podatkov. Nato se odloči za ustrezno sliko, ki se ujema s hitrostjo veliko hitreje, kot so zmožni ljudje. Blagovne znamke uporabljajo prepoznavanje slik, da na družbenih omrežjih najdejo vsebino, podobno svoji. To pomeni prepoznavanje logotipa blagovne znamke ali prepoznavanje organsko umeščenega umeščanja izdelkov med uporabnike družbenih medijev. Prositi ljudi, da prebrskajo toliko informacij, zlahka postane utrujajoče. AI ne skrbi zaradi človeških napak in vrača natančne rezultate na neprimerljivih ravneh. Prepoznavanje slik z umetno inteligenco spremlja, kaj ljudje govorijo o blagovni znamki, brez potrebe po besedilu. Blagovne znamke, ki lahko sledijo svojim družabnim omembam, ne da bi morali uporabniki vnesti ime podjetja, se bodo znašle v ugodnejšem položaju. Potencial, da izkoristijo lastno spletno pokritost izključno prek identifikatorjev, ki jih prepozna umetna inteligenca, je ogromen in ponuja neprimerljivo pokritost.

Tukaj je nekaj tipičnih nalog prepoznavanja slik: -

Najprej moramo ugotoviti, ali slikovni podatki vsebujejo določen predmet, funkcijo ali dejavnost. To nalogo lahko človek običajno reši robustno in brez napora, vendar še vedno ni zadovoljivo rešena v računalniškem vidu za splošni primer: poljubni predmeti v poljubnih situacijah. Obstoječe metode za reševanje tega problema je mogoče najbolje rešiti samo za posebne predmete, kot so preprosti geometrijski predmeti (npr. poliedri), človeški obrazi, natisnjeni ali ročno napisani znaki ali vozila, in v posebnih situacijah, ki so običajno opisane z izrazi dobro definirane osvetlitve, ozadja in položaja predmeta glede na kamero. V literaturi so opisane različne različice problema prepoznavanja:

• Prepoznavanje predmetov

Prepoznati je mogoče enega ali več vnaprej določenih ali naučenih objektov ali razredov objektov, običajno skupaj z njihovimi 2D položaji na sliki ali 3D položaji v sceni.

• Identifikacija
Posamezen primerek predmeta je prepoznan. Primeri so identifikacija obraza ali prstnega odtisa določene osebe ali identifikacija določenega vozila.

• Odkrivanje
Slikovni podatki se skenirajo za določeno stanje. Primeri so odkrivanje morebitnih nenormalnih celic ali tkiv na medicinskih slikah ali odkrivanje vozila v sistemu samodejnega cestninjenja. Zaznavanje, ki temelji na sorazmerno enostavnih in hitrih izračunih, se včasih uporablja za iskanje manjših območij zanimivih slikovnih podatkov, ki jih je mogoče nadalje analizirati z računsko zahtevnejšimi tehnikami za pravilno interpretacijo.

Obstaja več specializiranih nalog, ki temeljijo na prepoznavanju, kot so:

• Pridobivanje slik na podlagi vsebine
Tukaj najdete vse slike v večjem nizu slik, ki imajo določeno vsebino. Vsebino je mogoče določiti na različne načine, na primer v smislu podobnosti glede na ciljno sliko (daj mi vse slike, podobne sliki X) ali v smislu kriterijev iskanja na visoki ravni, podanih kot vnos besedila (daj mi vse slike, ki vsebujejo veliko hiš, pozimi zasedenih in v njih ni avtomobilov).

• Ocena položaja
oceniti moramo položaj ali orientacijo določenega predmeta glede na kamero. Primer uporabe te tehnike bi bila pomoč robotu pri pridobivanju predmetov s tekočega traku na tekočem traku.

• Optično prepoznavanje znakov
OCR ki je prepoznavanje znakov na slikah natisnjenega ali ročno napisanega besedila, običajno z namenom kodiranja besedila v bolj formatu in omogočanja urejanja ali indeksiranja Oddelek za računalništvo in tehniko, Michigan State University. »Profesorji in študenti Laboratorija za prepoznavanje vzorcev in obdelavo slik (PRIP) raziskujejo uporabo strojev za prepoznavanje vzorcev ali predmetov. Metode so razvite za zaznavanje predmetov, za odkrivanje, katere njihove lastnosti jih razlikujejo od drugih, in za oblikovanje algoritmov, ki jih lahko stroj uporabi za klasifikacijo. Pomembne aplikacije vključujejo prepoznavanje obrazov, identifikacijo prstnih odtisov, analizo slik dokumentov, konstrukcijo 3D modelov objektov, robotsko navigacijo in vizualizacijo/raziskovanje 3D volumetričnih podatkov. Trenutni raziskovalni problemi vključujejo biometrično avtentikacijo, samodejni nadzor in sledenje, brezročni HCI, modeliranje obraza, digitalni vodni žig in analiziranje strukture spletnih dokumentov. Nedavno diplomanti laboratorija so se ukvarjali s prepoznavanjem rokopisa, preverjanjem podpisa, vizualnim učenjem in iskanjem slik.«

⦁ Prepoznavanje obraza
vemo, da sistemi za prepoznavanje obrazov postopoma postajajo priljubljeni kot sredstva za pridobivanje biometričnih informacij. Prepoznavanje obrazov ima ključno vlogo v biometričnih sistemih in je privlačno za številne aplikacije, vključno z vizualnim nadzorom in varnostjo. Zaradi splošnega sprejemanja podob obrazov na različnih dokumentih v javnosti ima prepoznavanje obrazov velik potencial, da postane izbrana biometrična tehnologija naslednje generacije.

Sistemi za prepoznavanje slik

⦁ Analiza gibanja
Več nalog je povezanih z oceno gibanja, pri kateri se zaporedje slik obdela za oceno hitrosti na vsaki točki na sliki ali v 3D-prizoru ali celo kamere, ki ustvarja slike. Primeri takih nalog so:

⦁ Gibanje ega
Določanje 3D togega gibanja (rotacije in translacije) kamere iz zaporedja slik, ki jih ustvari kamera.

⦁ Sledenje
Sledenje je sledenje gibanju (običajno) manjšega niza zanimivih točk ali predmetov (npr. vozil ali ljudi) v zaporedju slik.

⦁ Optični pretok
S tem se za vsako točko na sliki določi, kako se ta točka giblje glede na slikovno ravnino, tj. njeno navidezno gibanje. To gibanje je rezultat premikanja ustrezne 3D točke v prizoru in premikanja kamere glede na prizor.

⦁ Rekonstrukcija scene
Glede na eno ali (običajno) več slik scene ali videoposnetka je namen rekonstrukcije scene izračunati 3D model scene. V najpreprostejšem primeru je lahko model niz 3D točk. Bolj sofisticirane metode ustvarijo popoln 3D model površine

⦁ Obnova slike
Cilj restavriranja slike je odstranitev šuma (šum senzorja, zamegljenost gibanja itd.) s slik. Najenostavnejši možni pristop za odstranjevanje šuma so različne vrste filtrov, kot so nizkoprepustni filtri ali srednji filtri. Bolj sofisticirane metode predvidevajo model, kako izgledajo lokalne slikovne strukture, model, ki jih razlikuje od hrupa. S prvo analizo slikovnih podatkov v smislu lokalnih slikovnih struktur, kot so črte ali robovi, in nato nadzorom filtriranja na podlagi lokalnih informacij iz koraka analize, se običajno doseže boljša raven odstranjevanja šuma v primerjavi s preprostejšimi pristopi. Primer na tem področju je njihovo slikarstvo. Nekateri sistemi so samostojne aplikacije, ki rešujejo specifičen problem merjenja ali zaznavanja, medtem ko drugi tvorijo podsistem večje zasnove, ki na primer vsebuje tudi podsisteme za krmiljenje mehanskih aktuatorjev, načrtovanje, podatkovne baze podatkov, osebje. strojni vmesniki itd. Specifična izvedba sistema računalniškega vida je odvisna tudi od tega, ali je njegova funkcionalnost vnaprej določena ali pa se lahko nekatere njene dele med delovanjem naučimo ali spremenimo. Obstajajo pa tipične funkcije, ki jih najdemo v številnih sistemih računalniškega vida.

Globlje učenje s prepoznavanjem slik

Prepoznavanje slik je obstajalo pred umetno inteligenco. Kljub temu dejavnik strojnega učenja revolucionarno spreminja metode za prepoznavanje predmeta ali obraza osebe. Strojno učenje pa je učinkovito le, če obstajajo podatki, ki ga hranijo. Pri vsej avtomatizaciji umetne inteligence naloga, da identificira slike, ni preprosta zahteva. Naše razumevanje vizualnega je druga narava; to je nekaj, za kar smo programirani že od malih nog. Zahtevati isto od stroja ni preprost postopek. Zaradi tega so ena izmed bolj priljubljenih oblik prepoznavanja AI konvolucijske nevronske mreže (CNN). CNN je metoda, ki se osredotoča na piksle, ki se nahajajo drug poleg drugega. Težje locirane slike so bolj verjetno povezane, kar pomeni, da se predmet ali obraz ujema s sliko z večjo preglednostjo.
Medtem ko imajo blagovne znamke, ki želijo monetizirati družbene medije s prepoznavanjem slik z umetno inteligenco, jasne prednosti, so primeri njihove uporabe veliko globlji. Samovozeči avtomobili bodo kmalu naslednja velika stvar v avtomobilskem svetu, tehnologija za prepoznavanje slik z umetno inteligenco pa jim pomaga poganjati. Samovozeči avtomobil, ki lahko zazna predmete in ljudi na cesti, da se vanje ne zaleti, ne nastane samodejno. Za sprejemanje premišljenih odločitev mora prepoznati slike. Vsak samovozeči avtomobil je opremljen z več senzorji, tako da lahko prepozna druga premikajoča se vozila, kolesarje, ljudi – pravzaprav vse, kar bi lahko predstavljalo nevarnost. Avtomatiziran avtomobil mora obravnavati nevarnosti na cesti enako kot izkušen voznik. Še vedno je nekaj vidikov, ki jih je treba odpraviti, preden bodo leta 2020 na ceste zapeljali samovozeči avtomobili. Toda ko bo avtomatizacija vozil začela delovati, bo prepoznavanje slik z umetno inteligenco eden glavnih dejavnikov njihovega varnega delovanja.
⦁ Pridobivanje slik
Digitalno sliko ustvari en ali več slikovnih senzorjev, ki poleg različnih vrst svetlobno občutljivih kamer vključujejo senzorje dometa, tomografske naprave, radar, ultrazvočne kamere itd. je navadna 2D slika, 3D volumen ali zaporedje slik. Vrednosti slikovnih pik običajno ustrezajo jakosti svetlobe v enem ali več spektralnih pasovih (sive slike ali barvne slike), lahko pa so povezane tudi z različnimi fizikalnimi merami, kot so globina, absorpcija ali odboj zvočnih ali elektromagnetnih valov ali jedrska magnetna resonanca.
⦁ Predhodna obdelava:
Preden lahko metodo računalniškega vida uporabimo za slikovne podatke, da bi izluščili določeno informacijo, je običajno treba obdelati podatke, da zagotovimo, da izpolnjujejo določene predpostavke, ki jih nakazuje metoda. Primeri so
1. Ponovno vzorčenje, da se zagotovi pravilen koordinatni sistem slike.
2. Zmanjšanje hrupa za zagotovitev, da hrup senzorja ne vnese lažnih informacij.
3. Povečanje kontrasta za zagotovitev, da je mogoče zaznati ustrezne informacije.
4. Predstavitev merilnega prostora za izboljšanje slikovnih struktur v lokalno ustreznih merilih.
⦁ Ekstrakcija funkcij:
Funkcije slike na različnih stopnjah kompleksnosti so izvlečene iz slikovnih podatkov. Tipični primeri takšnih značilnosti so črte, robovi in grebeni
Lokalizirane interesne točke, kot so vogali, madeži ali točke. Bolj zapletene lastnosti so lahko povezane s teksturo, obliko ali gibanjem.
⦁ Zaznavanje/segmentacija:
Na neki točki obdelave je sprejeta odločitev o tem, katere točke ali področja slike so pomembne za nadaljnjo obdelavo. Primeri so
1. Izbira določenega nabora interesnih točk
2. Segmentacija ene ali več področij slike, ki vsebujejo določen predmet zanimanja.
⦁ Obdelava na visoki ravni:
V tem koraku je vhod običajno majhen nabor podatkov, na primer nabor točk ali območja animacije, za katerega se predvideva, da vsebuje določen predmet. Preostala obdelava obravnava na primer:
1. Preverjanje, ali podatki ustrezajo predpostavkam, ki temeljijo na modelu in specifičnih aplikacijah.
2. Ocena parametrov, specifičnih za aplikacijo, kot sta položaj ali velikost objekta.
3. Razvrščanje zaznanega predmeta v različne kategorije. Torej obdelava slike pomaga AI prepoznati sliko in se odzvati glede na identifikacijo slike.

Brezhibna prihodnost podob

Ko se bo tehnologija izboljševala, bo prepoznavanje slik dalo še boljše rezultate. Vladimir Pavlov, vodja strojnega učenja pri Lobsterju, pravi: »Matematična osnova za prepoznavanje objektov obstaja že dolgo, vendar so se tehnološke možnosti uporabe algoritmov računalniškega vida pojavile pred kratkim. Nevronske mreže že omogočajo izdelavo popolnih detektorjev, ki so sposobni delovati bolje kot ljudje. Velik kreten zadržuje prisotnost označenih slikovnih podatkovnih nizov za usposabljanje, vendar v bližnji prihodnosti to ne bo problem. Inženirji računalniškega vida aktivno delajo na samoučečih se algoritmih.« S prihodnostjo, na katero tako močno vpliva vizualna komunikacija, bo prepoznavanje slik ključni dejavnik za mnoge slike, ki jih vidimo. Tako v resničnem življenju kot na spletu.