Miks pildituvastus on oluline?

Umbes 80 protsenti Internetis leiduvast sisust on visuaalne. Saate juba hakata välja mõtlema, miks piltide märgistamine võib sisutabeli kuningana oma koha hoida. Olgu tegemist eraisikute või ettevõtetega, tehisintellekti pildituvastus on võimaldanud visuaale võrgus minimaalse vaevaga tuvastada. Igal aastal postitatakse digitaalselt umbes 657 miljardit fotot, millest enamik ilmub sotsiaalmeedias. Suur osa neist piltidest on inimesed, kes reklaamivad tooteid, isegi kui nad teevad seda tahtmatult. Kasutaja loodud sisu (UGC) oma puhtaimal kujul on brändide jaoks suurepärane vahend, kuna see pakub parimat tüüpi reklaami.
On olemas turundustööriistu, mis hoiatavad ettevõtteid, kui tarbijad sotsiaalmeedias mainivad, kuid mis saab siis, kui brändide reklaamimine toimub ilma, et keegi nende nime sotsiaalmeedias märgiks? Siin tõestab AI pildituvastus oma väärtust. Kui tehnoloogiale antakse õiged andmekogumid, suudab AI tuvastada pildi ilma konkreetsete sildi mainimata. Tulemused on hindamatu väärtusega, et kaubamärgid saaksid jälgida ja jälgida oma sotsiaalseid mainimisi.

Kuidas pildituvastus töötab?

Nagu me teame, saab AI otsida sotsiaalmeedia platvormidelt fotosid otsides ja võrrelda neid ulatuslike andmekogudega. Seejärel otsustab see asjakohase pildi, mis ühtib palju kiiremini, kui inimesed suudavad. Brändid kasutavad pildituvastust, et leida sotsiaalmeedias nende omaga sarnast sisu. See tähendab kaubamärgi logo tuvastamist või orgaaniliselt paigutatud tootepaigutuse äratundmist sotsiaalmeedia kasutajate seas. Kui paluda inimestel nii palju teavet läbi otsida, muutub see kergesti väsitavaks. AI ei muretse inimlike vigade pärast ja annab täpseid tulemusi enneolematul tasemel. AI pildituvastus jälgib, mida inimesed brändi kohta ütlevad, ilma et oleks vaja teksti. Brändid, mis suudavad jälgida oma sotsiaalseid mainimisi ilma, et kasutajad peaksid ettevõtte nime sisestama, on soodsas olukorras. Võimalus kasutada oma veebilevi ainult tehisintellektiga tunnustatud identifikaatorite kaudu on tohutu ja pakub võrratut katvust.

Siin on mõned tüüpilised pildituvastuse ülesanded:

Kõigepealt peame kindlaks tegema, kas pildiandmed sisaldavad mõnda konkreetset objekti, funktsiooni või tegevust või mitte. Seda ülesannet saab inimene tavaliselt jõuliselt ja ilma pingutusteta lahendada, kuid arvutinägemises ei lahenda see siiski rahuldavalt üldiselt: suvalised objektid suvalistes olukordades. Olemasolevaid meetodeid selle probleemi lahendamiseks saab kõige paremini lahendada ainult konkreetsete objektide puhul, nagu lihtsad geomeetrilised objektid (nt hulktahukad), inimnäod, trükitud või käsitsi kirjutatud tegelased või sõidukid, ning konkreetsetes olukordades, mida tavaliselt kirjeldatakse terminitena. hästi määratletud valgustus, taust ja objekti asend kaamera suhtes. Kirjanduses on kirjeldatud äratundmisprobleemi erinevaid variante:

• Objekti tuvastamine

Tuvastada saab ühte või mitut eelnevalt määratletud või õpitud objekti või objektiklassi, tavaliselt koos nende 2D-positsioonidega pildil või 3D-poosidega stseenis.

• Identifitseerimine
Tuvastatakse objekti üksikjuhtum. Näideteks on konkreetse isiku näo või sõrmejälje tuvastamine või konkreetse sõiduki tuvastamine.

• Märkamine
Kujutise andmeid skannitakse konkreetse seisundi jaoks. Näiteks on võimalike ebanormaalsete rakkude või kudede tuvastamine meditsiinilistel piltidel või sõiduki tuvastamine automaatses teemaksusüsteemis. Mõnikord kasutatakse suhteliselt lihtsatel ja kiiretel arvutustel põhinevat tuvastamist huvitavate pildiandmete väiksemate piirkondade leidmiseks, mida saab täpse tõlgenduse saamiseks täiendavalt analüüsida arvutuslikult nõudlikumate tehnikatega.

On mitmeid tunnustamisel põhinevaid eriülesandeid, näiteks:

• Sisupõhine pildiotsing
Siit leiate kõik pildid suuremas pildikomplektis, millel on konkreetne sisu. Sisu saab määrata erineval viisil, näiteks sihtkujutise sarnasuse järgi (anna mulle kõik pildiga X sarnased pildid) või tekstisisestusena antud kõrgetasemeliste otsingukriteeriumide järgi (andke mulle kõik pildid, mis sisaldavad paljud majad, on võetud talvel ja neis pole autosid).

• Poosi hindamine
peame hindama konkreetse objekti asukohta või orientatsiooni kaamera suhtes. Selle tehnika näide on abistamine robotil konveierilindilt esemete väljatoomisel konveieril.

• Optiline märgituvastus
OCR mis tuvastab trükitud või käsitsi kirjutatud teksti kujutistel olevaid tähemärke, tavaliselt eesmärgiga kodeerida teksti rohkem formaadis ja võimaldada redigeerimist või indekseerimist Michigani osariigi ülikooli arvutiteaduse ja -tehnika osakonda. "Mustrituvastuse ja pilditöötluse labori (PRIP) õppejõud ja üliõpilased uurivad masinate kasutamist mustrite või objektide tuvastamiseks. Töötatakse välja meetodid objektide tajumiseks, nende omaduste tuvastamiseks, mis neid teistest eristavad, ja algoritmide väljatöötamiseks, mida masin saab klassifitseerimiseks kasutada. Oluliste rakenduste hulka kuuluvad näotuvastus, sõrmejälgede tuvastamine, dokumendikujutise analüüs, 3D-objektimudeli koostamine, roboti navigeerimine ja 3D-mahuandmete visualiseerimine/uurimine. Praegused uurimisprobleemid hõlmavad biomeetrilist autentimist, automaatset jälgimist ja jälgimist, käepidemeta HCI-d, näo modelleerimist, digitaalset vesimärki ja veebidokumentide struktuuri analüüsimist. Hiljutised labori lõpetanud on töötanud käsitsikirjatuvastuse, allkirjade kontrollimise, visuaalse õppimise ja kujutiste otsimise kallal.

⦁ Näotuvastus
me teame, et näotuvastussüsteemid muutuvad üha populaarsemaks biomeetrilise teabe hankimise vahenditena. Näotuvastusel on biomeetrilistes süsteemides kriitiline roll ja see on atraktiivne paljude rakenduste jaoks, sealhulgas visuaalne jälgimine ja turvalisus. Kuna üldsus aktsepteerib mitmesugustel dokumentidel olevaid näokujutisi, on näotuvastusel suur potentsiaal saada järgmise põlvkonna valitud biomeetriliseks tehnoloogiaks.

Pildituvastussüsteemid

⦁ Liikumise analüüs
Liikumise hindamisega on seotud mitmed ülesanded, mille puhul töödeldakse kujutise jada kiiruse hinnangu saamiseks kas pildi või 3D-stseeni igas punktis või isegi pilte tootva kaamera kiiruse kohta. Selliste ülesannete näited on järgmised:

⦁  Ego liikumine
Kaamera 3D jäiga liikumise (pööramine ja translatsioon) määramine kaamera loodud pildijada põhjal.

⦁ Jälgimine
Jälgimine on (tavaliselt) väiksema huvipunktide või objektide (nt sõidukite või inimeste) liikumise jälgimine pildijadas.

⦁ Optiline vool
Selle eesmärk on määrata iga pildi punkti jaoks, kuidas see punkt liigub kujutise tasapinna suhtes, st selle näiv liikumine. See liikumine tuleneb nii sellest, kuidas vastav 3D-punkt stseenis liigub, kui ka sellest, kuidas kaamera stseeni suhtes liigub.

⦁ Stseeni rekonstrueerimine
Stseeni ühe või (tavaliselt) mitme kujutise või video korral on stseeni rekonstrueerimise eesmärk stseeni 3D-mudeli arvutamine. Lihtsamal juhul võib mudeliks olla 3D-punktide komplekt. Keerukamad meetodid annavad tervikliku 3D pinnamudeli

⦁ Pildi taastamine
Pildi taastamise eesmärk on piltidelt müra (sensori müra, liikumishägu jne) eemaldamine. Lihtsaim võimalik viis müra eemaldamiseks on erinevat tüüpi filtrid, nagu madalpääsfiltrid või mediaanfiltrid. Keerukamad meetodid eeldavad mudelit selle kohta, kuidas kohalikud pildistruktuurid välja näevad, mudelit, mis eristab neid mürast. Analüüsides esmalt pildiandmeid kohalike kujutise struktuuride, nagu jooned või servad, järgi ja seejärel kontrollides analüüsietapist pärineva kohaliku teabe põhjal filtreerimist, saavutatakse tavaliselt lihtsamate lähenemisviisidega võrreldes parem müra eemaldamise tase. Selle valdkonna näide on nende maalimine. Mõned süsteemid on eraldiseisvad rakendused, mis lahendavad konkreetse mõõtmis- või tuvastamisprobleemi, samas kui teised moodustavad suurema konstruktsiooniga alamsüsteemi, mis sisaldab näiteks alamsüsteeme mehaaniliste täiturmehhanismide juhtimiseks, planeerimiseks, teabeandmebaaside ja inimeste juhtimiseks. masinaliidesed jne. Arvutinägemissüsteemi konkreetne teostus oleneb ka sellest, kas selle funktsionaalsus on eelnevalt ette antud või kas mõnda selle osa on töö käigus võimalik õppida või muuta. Siiski on tüüpilisi funktsioone, mida leidub paljudes arvutinägemissüsteemides.

 

Sügavam õppimine pildituvastusega

Pildituvastus oli umbes enne AI-d. Kuid masinõppetegur muudab objekti või inimese näo tuvastamise meetodid revolutsiooniliseks. Masinõpe on aga tõhus ainult siis, kui selle söötmiseks on andmeid. Kogu tehisintellekti automatiseerimise puhul pole piltide tuvastamise ülesandeks andmine lihtne taotlus. Meie arusaam visuaalidest on teine ​​olemus; see on midagi, mida oleme noorest peale programmeeritud tegema. Masinalt sama küsimine ei ole lihtne protsess. Sel põhjusel on üks populaarsemaid tehisintellekti tuvastamise vorme konvolutsioonilised närvivõrgud (CNN). CNN on meetod, mis keskendub üksteise kõrval asuvatele pikslitele. Lähedal asuvad pildid on tõenäolisemalt seotud, mis tähendab, et objekt või nägu sobitatakse pildiga läbipaistvamalt.
Kuigi brändidel, kes soovivad AI-kujutise tuvastamise kaudu sotsiaalmeediat raha teenida, on selgeid eeliseid, on selle kasutusjuhtumid palju sügavamad. Isesõitvatest autodest on saamas järgmine suur asi automaailmas ja tehisintellekti pildituvastustehnoloogia aitab neid toita. Isejuhtiv auto, mis suudab tuvastada teel olevaid esemeid ja inimesi, et mitte neile otsa sõita, ei toimu automaatselt. Teadlike otsuste tegemiseks peab ta pilte ära tundma. Igal isejuhtival autol on mitu andurit, et see suudab tuvastada teisi liikuvaid sõidukeid, jalgrattureid, inimesi – põhimõtteliselt kõike, mis võib ohtu kujutada. Automatiseeritud auto peab käsitlema teel tekkivaid ohte samamoodi nagu kogenud juht. Enne kui isejuhtivad autod 2020. aastal teele jõuavad, tuleb veel mõned aspektid lahendada. Kui aga sõidukite automatiseerimine hakkab tööle, on tehisintellekti pildituvastus üks peamisi tõukejõude nende ohutu töö taga.
⦁ Pildi hankimine
Digitaalset kujutist toodavad üks või mitu pildiandurit, mille hulka kuuluvad peale erinevat tüüpi valgustundlike kaamerate ka kaugussensorid, tomograafiaseadmed, radar, ultrahelikaamerad jne. Sõltuvalt anduri tüübist on saadud pildiandmed. on tavaline 2D-kujutis, 3D-maht või pildijada. Pikslite väärtused vastavad tavaliselt valguse intensiivsusele ühes või mitmes spektriribas (hallid kujutised või värvilised kujutised), kuid võivad olla seotud ka erinevate füüsiliste mõõtmetega, nagu sügavus, heli- või elektromagnetlainete neeldumine või peegeldus või tuumamagnetresonants.
⦁ Eeltöötlus:
Enne arvutinägemise meetodi rakendamist pildiandmetele, et eraldada mingi konkreetne teave, on tavaliselt vaja andmeid töödelda, tagamaks, et need vastavad meetodi teatud eeldustele. Näited on
1. Uuesti proovivõtt, et veenduda kujutise koordinaatsüsteemi õigsuses.
2. Müra vähendamine tagamaks, et anduri müra ei tekita valeinfot.
3. Kontrastsuse suurendamine, et tagada asjakohase teabe tuvastamine.
4. Skaalaruumi esitus, et täiustada pildistruktuure lokaalselt sobivates mõõtkavades.
⦁ Funktsioonide ekstraheerimine:
Pildiandmetest eraldatakse erineva keerukusega pildifunktsioonid. Selliste tunnuste tüüpilised näited on jooned, servad ja ribid
Lokaliseeritud huvipunktid, nagu nurgad, plekid või punktid. Keerulisemad omadused võivad olla seotud tekstuuri, kuju või liikumisega.
⦁ Tuvastamine/segmenteerimine:
Töötlemise mingil hetkel tehakse otsus selle kohta, millised kujutise punktid või piirkonnad on edasise töötlemise jaoks olulised. Näited on
1. Konkreetse huvipunktide komplekti valimine
2. Konkreetset huvipakkuvat objekti sisaldava ühe või mitme pildipiirkonna segmenteerimine.
⦁ Kõrgetasemeline töötlemine:
Selles etapis on sisendiks tavaliselt väike andmekogum, näiteks punktide kogum või animatsioonipiirkond, mis eeldatakse sisaldavat konkreetset objekti. Ülejäänud töötlemine hõlmab näiteks:
1. Kontrollige, kas andmed vastavad mudelipõhistele ja rakendusespetsiifilistele eeldustele.
2. Rakendusespetsiifiliste parameetrite, nagu objekti poos või objekti suurus, hindamine.
3. Tuvastatud objekti klassifitseerimine erinevatesse kategooriatesse. Seega aitab pilditöötlus tehisintellektil pilti tuvastada ja sellele vastavalt pildi tuvastamisele reageerida.

Sujuv piltide tulevik

Tehnika paranedes annab pildituvastus veelgi paremaid tulemusi. Lobsteri masinõppe juht Vladimir Pavlov ütleb: „Objektide tuvastamise matemaatiline alus on eksisteerinud pikka aega, kuid arvutinägemise algoritmide kasutamise tehnoloogilised võimalused tekkisid hiljuti. Juba praegu võimaldavad närvivõrgud teha täiuslikke detektoreid, mis on võimelised töötama paremini kui inimesed. Suur jõnks hoiab ära märgistatud pildiandmekogumite olemasolu koolituse jaoks, kuid lähitulevikus pole see probleem. Arvutinägemise insenerid töötavad aktiivselt iseõppivate algoritmide kallal. Tulevikus, mida visuaalne kommunikatsioon nii tugevasti mõjutab, on pildituvastus paljude meie nähtud piltide võtmetegur. Nii päriselus kui ka internetis.