Kodėl svarbu atpažinti vaizdą?

Apie 80 procentų interneto turinio yra vaizdinis. Jau galite pradėti aiškintis, kodėl vaizdo žymėjimas gali užimti savo vietą kaip turinio lentelės karalius. Nesvarbu, ar tai būtų asmenys, ar įmonės, dirbtinio intelekto vaizdų atpažinimas leido atpažinti vaizdus internete su minimaliu rūpesčiu. Kiekvienais metais skaitmeniniu būdu paskelbiama apie 657 milijardai nuotraukų, kurių dauguma pasirodo socialinėje žiniasklaidoje. Didelė dalis tų vaizdų yra žmonės, reklamuojantys produktus, net jei jie tai daro nesąmoningai. Naudotojų sukurtas turinys (UGC) gryniausia forma yra puiki priemonė prekių ženklams, nes tai yra geriausia reklama.
Yra rinkodaros priemonių, skirtų įspėti įmones, kai vartotojas užsimena apie tai socialinėje žiniasklaidoje, bet kaip tada, kai prekės ženklo reklama vyksta niekam nepažymint jų vardo socialiniame įraše? Čia AI vaizdo atpažinimas įrodo savo vertę. Jei technologijai pateikiami teisingi duomenų rinkiniai, AI gali identifikuoti vaizdą be konkrečių žymų. Rezultatai yra neįkainojami prekių ženklams stebėti ir atsekti savo socialinius paminėjimus.

Kaip veikia vaizdo atpažinimas?

Kaip žinome, dirbtinis intelektas gali ieškoti nuotraukų socialinės žiniasklaidos platformose ir palyginti jas su dideliais duomenų rinkiniais. Tada jis nusprendžia dėl atitinkamo vaizdo, kuris sutampa daug greičiau, nei sugeba žmonės. Prekės ženklai naudoja vaizdo atpažinimą, kad socialinėje žiniasklaidoje rastų panašų į jų turinį. Tai reiškia, kad reikia identifikuoti prekės ženklo logotipą arba atpažinti ekologiškai išdėstytą produkto rodymą tarp socialinės žiniasklaidos vartotojų. Prašyti žmonių perskaityti tiek daug informacijos tampa nuobodu. AI nesijaudina dėl žmogiškųjų klaidų ir pateikia tikslius rezultatus neprilygstamu lygiu. AI vaizdo atpažinimas be teksto stebi, ką žmonės sako apie prekės ženklą. Prekės ženklai, galintys sekti savo paminėjimus socialiniuose tinkluose, vartotojams nereikalaujant įvesti įmonės pavadinimo, atsidurs palankioje padėtyje. Galimybė pasinaudoti savo internetine aprėptis vien naudojant AI pripažintus identifikatorius yra didžiulė ir siūlo neprilygstamą aprėptį.

Štai keletas tipiškų vaizdų atpažinimo užduočių:

Pirmiausia turime nustatyti, ar vaizdo duomenyse yra koks nors konkretus objektas, funkcija ar veikla. Šią užduotį žmogus paprastai gali išspręsti tvirtai ir be pastangų, tačiau vis tiek nėra patenkinamai išspręstas kompiuterinėje vizijoje bendru atveju: savavališki objektai savavališkose situacijose. Esami šios problemos sprendimo būdai gali būti geriausiai išspręsti tik konkretiems objektams, tokiems kaip paprasti geometriniai objektai (pvz., daugiakampiai), žmonių veidai, atspausdinti ar ranka rašyti simboliai arba transporto priemonės, ir konkrečiose situacijose, paprastai apibūdinamose terminais. aiškiai apibrėžtas apšvietimas, fonas ir objekto poza fotoaparato atžvilgiu. Literatūroje aprašytos įvairios atpažinimo problemos atmainos:

• Objekto atpažinimas

Galima atpažinti vieną ar kelis iš anksto nustatytus ar išmoktus objektus arba objektų klases, dažniausiai kartu su jų 2D padėtimis vaizde arba 3D pozomis scenoje.

• Identifikacija
Atpažįstamas atskiras objekto atvejis. Pavyzdžiai yra konkretaus asmens veido ar pirštų atspaudų identifikavimas arba konkrečios transporto priemonės identifikavimas.

• Aptikimas
Vaizdo duomenys nuskaitomi atsižvelgiant į konkrečią būklę. Pavyzdžiai yra galimų nenormalių ląstelių ar audinių aptikimas medicininėse nuotraukose arba transporto priemonės aptikimas automatinėje kelių mokesčių sistemoje. Aptikimas, pagrįstas gana paprastais ir greitais skaičiavimais, kartais naudojamas ieškant mažesnių įdomių vaizdo duomenų, kuriuos galima toliau analizuoti naudojant sudėtingesnius skaičiavimo metodus, kad būtų gauta teisinga interpretacija.

Yra keletas specializuotų užduočių, pagrįstų atpažinimu, pavyzdžiui:

• Turiniu pagrįstas vaizdų gavimas
Čia rasite visus vaizdus didesniame vaizdų rinkinyje, turinčiame konkretų turinį. Turinys gali būti nurodytas įvairiais būdais, pavyzdžiui, pagal panašumą su tiksliniu vaizdu (duokite man visus vaizdus, ​​panašius į X vaizdą), arba pagal aukšto lygio paieškos kriterijus, pateiktus kaip teksto įvestis (duokite man visus vaizdus, ​​kuriuose yra daug namų, yra paimti žiemą ir juose nėra automobilių).

• pozos įvertinimas
turime įvertinti konkretaus objekto padėtį arba orientaciją kameros atžvilgiu. Šios technikos taikymo pavyzdys galėtų būti pagalba robotui surinkimo linijos situacijoje paimti objektus iš konvejerio juostos.

• Optinis simbolių atpažinimas
OCR kuri identifikuoja simbolius spausdinto arba ranka parašyto teksto vaizduose, paprastai siekiant geriau užkoduoti tekstą tokiu formatu ir redaguoti arba indeksuoti Mičigano valstijos universiteto Kompiuterių mokslo ir inžinerijos katedrą. „Raštų atpažinimo ir vaizdo apdorojimo (PRIP) laboratorijos dėstytojai ir studentai tiria mašinų naudojimą modeliams ar objektams atpažinti. Sukurti metodai, kaip pajusti objektus, išsiaiškinti, kurios jų savybės išskiria juos iš kitų, ir sukurti algoritmus, kuriuos mašina gali naudoti klasifikuojant. Svarbios programos apima veido atpažinimą, pirštų atspaudų atpažinimą, dokumentų vaizdų analizę, 3D objekto modelio konstravimą, roboto navigaciją ir 3D tūrinių duomenų vizualizavimą / tyrinėjimą. Dabartinės mokslinių tyrimų problemos apima biometrinį autentifikavimą, automatinį stebėjimą ir sekimą, berankį HCI, veido modeliavimą, skaitmeninį vandenženklį ir internetinių dokumentų struktūros analizę. Neseniai baigę laboratoriją dirbo rašysenos atpažinimo, parašo tikrinimo, vizualinio mokymosi ir vaizdo gavimo srityse.

⦁ Veido atpažinimas
žinome, kad veido atpažinimo sistemos vis populiarėja kaip biometrinės informacijos gavimo priemonė. Veido atpažinimas atlieka svarbų vaidmenį biometrinėse sistemose ir yra patrauklus daugeliui programų, įskaitant vizualinį stebėjimą ir saugumą. Kadangi plačiai visuomenė pripažįsta veido atvaizdus įvairiuose dokumentuose, veidų atpažinimas turi didelį potencialą tapti pasirinkta naujos kartos biometrine technologija.

Vaizdo atpažinimo sistemos

⦁ Judėjimo analizė
Keletas užduočių yra susijusios su judesio įvertinimu, kai apdorojama vaizdų seka, kad būtų apskaičiuotas greitis kiekviename vaizdo taške arba 3D scenoje arba net fotoaparato, kuris vaizdus sukuria . Tokių užduočių pavyzdžiai:

⦁  Ego judesys
Kameros 3D standaus judesio (sukimosi ir transliacijos) nustatymas pagal fotoaparato sukurtą vaizdų seką.

⦁ Stebėjimas
Stebėjimas – tai (paprastai) mažesnio dominančių taškų ar objektų (pvz., transporto priemonių ar žmonių) judėjimo stebėjimas vaizdų sekoje.

⦁ Optinis srautas
Taip kiekvienam vaizdo taškui nustatoma, kaip tas taškas juda vaizdo plokštumos atžvilgiu, ty jo tariamasis judėjimas. Šis judesys priklauso nuo to, kaip atitinkamas 3D taškas juda scenoje, ir kaip kamera juda scenos atžvilgiu.

⦁ Scenos rekonstrukcija
Atsižvelgiant į vieną ar (paprastai) kelis scenos vaizdus arba vaizdo įrašą, scenos rekonstrukcijos tikslas yra apskaičiuoti 3D scenos modelį. Paprasčiausiu atveju modelis gali būti 3D taškų rinkinys. Sudėtingesni metodai sukuria pilną 3D paviršiaus modelį

⦁ Vaizdo atkūrimas
Vaizdo atkūrimo tikslas – pašalinti iš vaizdų triukšmą (jutiklio triukšmą, judesio neryškumą ir kt.). Paprasčiausias būdas pašalinti triukšmą yra įvairių tipų filtrai, tokie kaip žemų dažnių filtrai arba vidutiniai filtrai. Sudėtingesni metodai apima modelį, kaip atrodo vietinės vaizdo struktūros, modelį, kuris skiria jas nuo triukšmo. Pirmiausia išanalizavus vaizdo duomenis pagal vietines vaizdo struktūras, pvz., linijas ar briaunas, o tada valdant filtravimą pagal vietos informaciją iš analizės žingsnio, paprastai gaunamas geresnis triukšmo pašalinimo lygis, palyginti su paprastesniais metodais. Pavyzdys šioje srityje yra jų tapyba. Kai kurios sistemos yra atskiros programos, kurios išsprendžia konkrečią matavimo ar aptikimo problemą, o kitos sudaro didesnės konstrukcijos posistemę, kurioje, pavyzdžiui, taip pat yra mechaninių pavarų valdymo, planavimo, informacijos duomenų bazių, žmonių valdymo posistemių. mašinų sąsajos ir tt Konkretus kompiuterinės matymo sistemos įgyvendinimas taip pat priklauso nuo to, ar jos funkcionalumas yra iš anksto nurodytas, ar kai kurias jos dalis galima išmokti ar modifikuoti eksploatacijos metu. Tačiau yra tipiškų funkcijų, kurios yra daugelyje kompiuterinio regėjimo sistemų.

 

Gilesnis mokymasis naudojant vaizdo atpažinimą

Vaizdo atpažinimas buvo maždaug prieš AI. Tačiau mašininio mokymosi veiksnys keičia objekto ar asmens veido identifikavimo metodus. Tačiau mašininis mokymasis yra veiksmingas tik tada, kai yra duomenų, kuriuos reikia pateikti. Kalbant apie visą AI automatizavimą, užduotis identifikuoti vaizdus nėra paprastas reikalavimas. Mūsų supratimas apie vaizdus yra antras dalykas; tai kažkas, ką mes esame užprogramuoti daryti nuo mažens. To paties paklausti mašinos nėra paprastas procesas. Dėl šios priežasties viena iš populiariausių AI atpažinimo formų yra konvoliuciniai neuroniniai tinklai (CNN). CNN yra metodas, kuris sutelkia dėmesį į pikselius, esančius šalia vienas kito. Greičiau esantys vaizdai yra labiau susiję, o tai reiškia, kad objektas arba veidas yra suderinamas su skaidresne nuotrauka.
Nors prekės ženklai, norintys užsidirbti pinigų iš socialinės žiniasklaidos naudojant AI vaizdo atpažinimą, turi aiškių pranašumų, jos naudojimo atvejai yra daug gilesni. Savarankiškai važiuojantys automobiliai netrukus bus kitas didelis dalykas automobilių pasaulyje, o dirbtinio intelekto vaizdo atpažinimo technologija padeda juos sustiprinti. Savaeigis automobilis, galintis aptikti kelyje esančius objektus ir žmones, kad į juos neatsitrenktų, neįvyksta automatiškai. Ji turi atpažinti vaizdus, ​​​​kad galėtų priimti pagrįstus sprendimus. Kiekviename savarankiškai važiuojančiame automobilyje yra sumontuoti keli jutikliai, todėl gali atpažinti kitas judančias transporto priemones, dviratininkus, žmones – iš esmės viską, kas gali kelti pavojų. Automatizuotas automobilis turi įveikti kelio pavojus taip pat, kaip tai daro patyręs vairuotojas. Vis dar reikia išsiaiškinti keletą aspektų, kol 2020 m. savaime važiuojantys automobiliai išvažiuos į kelią. Tačiau kai transporto priemonių automatizavimas įsijungs, AI vaizdo atpažinimas bus vienas iš pagrindinių saugiai veikiančių veiksnių.
⦁ Vaizdo gavimas
Skaitmeninis vaizdas sukuriamas vienu ar keliais vaizdo jutikliais, kurie, be įvairių tipų šviesai jautrių kamerų, apima nuotolio jutiklius, tomografijos įrenginius, radarą, ultragarsines kameras ir kt. Priklausomai nuo jutiklio tipo, gaunami vaizdo duomenys. yra įprastas 2D vaizdas, 3D tūris arba vaizdų seka. Pikselių reikšmės paprastai atitinka šviesos intensyvumą vienoje ar keliose spektrinėse juostose (pilkose arba spalvotuose vaizduose), bet taip pat gali būti susijusios su įvairiomis fizinėmis priemonėmis, tokiomis kaip garso ar elektromagnetinių bangų gylis, sugertis ar atspindys arba branduolinis magnetinis rezonansas.
⦁ Išankstinis apdorojimas:
Prieš taikant kompiuterinio matymo metodą vaizdo duomenims, siekiant išgauti tam tikrą informaciją, paprastai reikia apdoroti duomenis, siekiant užtikrinti, kad jie atitinka tam tikras metodo prielaidas. Pavyzdžiai yra
1. Pakartotinis mėginių ėmimas siekiant užtikrinti, kad vaizdo koordinačių sistema yra teisinga.
2. Triukšmo mažinimas, siekiant užtikrinti, kad jutiklio triukšmas nepateiktų klaidingos informacijos.
3. Kontrasto didinimas, siekiant užtikrinti, kad būtų galima aptikti svarbią informaciją.
4. Mastelio erdvės vaizdavimas, siekiant pagerinti vaizdo struktūras vietiniu mastu.
⦁ Funkcijų ištraukimas:
Iš vaizdo duomenų išgaunamos įvairaus sudėtingumo vaizdo funkcijos. Tipiški tokių savybių pavyzdžiai yra linijos, briaunos ir briaunos
Lokalizuoti interesų taškai, pvz., kampai, dėmės ar taškai. Sudėtingesnės savybės gali būti susijusios su tekstūra, forma ar judesiu.
⦁ Aptikimas / segmentavimas:
Tam tikru apdorojimo momentu priimamas sprendimas, kurie vaizdo taškai ar sritys yra svarbūs tolesniam apdorojimui. Pavyzdžiai yra
1. Konkrečios dominančių taškų rinkinio parinkimas
2. Vieno ar kelių vaizdo sričių, kuriose yra konkretus dominantis objektas, segmentavimas.
⦁ Aukšto lygio apdorojimas:
Šiame žingsnyje įvestis paprastai yra nedidelis duomenų rinkinys, pavyzdžiui, taškų rinkinys arba animacijos sritis, kurioje, kaip manoma, yra konkretus objektas. Likęs apdorojimas susijęs su, pavyzdžiui:
1. Patikrinimas, ar duomenys atitinka modeliais pagrįstas ir taikomosios programos specifikacijas.
2. Programai būdingų parametrų, tokių kaip objekto padėtis arba objekto dydis, įvertinimas.
3. Aptikto objekto klasifikavimas į skirtingas kategorijas. Taigi vaizdo apdorojimas padeda dirbtiniam intelektui identifikuoti vaizdą ir reaguoti pagal vaizdo identifikavimą.

Sklandi vaizdų ateitis

Tobulėjant technologijoms, vaizdo atpažinimas suteiks dar geresnių rezultatų. „Lobster“ mašininio mokymosi vadovas Vladimiras Pavlovas sako: „Matematinis objektų atpažinimo pagrindas egzistavo jau seniai, tačiau neseniai atsirado technologinės galimybės panaudoti kompiuterinio matymo algoritmus. Jau dabar neuroniniai tinklai leidžia sukurti tobulus detektorius, kurie gali veikti geriau nei žmonės. Didelis trūkčiojimas sulaiko pažymėtus vaizdų duomenų rinkinius mokymui, tačiau artimiausiu metu tai nesukels problemų. Kompiuterinės vizijos inžinieriai aktyviai dirba su savaiminio mokymosi algoritmais. Kadangi ateičiai taip stipriai įtakoja vaizdinė komunikacija, vaizdų atpažinimas bus pagrindinis veiksnys, lemiantis daugelį mūsų matomų vaizdų. Tiek realiame gyvenime, tiek internete.