Rokasgrāmata AI attēlu atpazīšanai

Kāpēc attēla atpazīšana ir svarīga?

Apmēram 80 procenti no interneta satura ir vizuāli. Jūs jau varat sākt domāt, kāpēc attēlu marķēšana varētu ieņemt savu vietu kā satura tabulas karalis. Neatkarīgi no tā, vai tās ir privātpersonas vai uzņēmumi, AI attēlu atpazīšana ir ļāvusi identificēt vizuālos materiālus tiešsaistē ar minimālu satraukumu. Katru gadu digitāli tiek publicēti aptuveni 657 miljardi fotoattēlu, un lielākā daļa tiek rādīti sociālajos medijos. Liela daļa no šiem attēliem ir cilvēki, kas reklamē produktus, pat ja viņi to dara neapzināti. Lietotāju radīts saturs (UGC) tā tīrākajā veidā ir lielisks zīmols, jo tas nodrošina vislabāko reklāmas veidu.
Ir mārketinga rīki, lai brīdinātu uzņēmumus par patērētāju pieminēšanu sociālajos medijos, bet kā tad, ja zīmolu reklamēšana notiek, nevienam neatzīmējot viņu vārdu sociālajā ierakstā? Šeit AI attēlu atpazīšana pierāda savu vērtību. Ja tehnoloģijai tiek ievadītas pareizās datu kopas, AI var identificēt attēlu bez īpašas atzīmes pieminēšanas. Rezultāti ir nenovērtējami, lai zīmoli varētu izsekot un izsekot saviem sociālajiem pieminējumiem.

Kā darbojas attēlu atpazīšana?

Kā mēs zinām, AI var meklēt sociālo mediju platformās, meklējot fotoattēlus, un salīdzināt tos ar plašām datu kopām. Pēc tam tas izlemj par atbilstošu attēlu, kas atbilst daudz ātrāk nekā cilvēki spēj. Zīmoli izmanto attēlu atpazīšanu, lai sociālajos medijos atrastu viņiem līdzīgu saturu. Tas nozīmē zīmola logotipa identificēšanu vai organiski izvietota produktu izvietošanas atpazīšanu sociālo mediju lietotāju vidū. Lūgt cilvēkiem izpētīt tik daudz informācijas kļūst nogurdinoši. AI neuztraucas par cilvēka kļūdām un nodrošina precīzus rezultātus nepārspējamā līmenī. AI attēlu atpazīšana uzrauga, ko cilvēki saka par zīmolu, neizmantojot tekstu. Zīmoli, kas varēs izsekot saviem sociālajiem pieminējumiem, lietotājiem neievadot uzņēmuma nosaukumu, atradīsies izdevīgā stāvoklī. Iespēja izmantot savu tiešsaistes pārklājumu, tikai izmantojot AI atpazītus identifikatorus, ir milzīga un piedāvā nepārspējamu pārklājumu.

Šeit ir daži tipiski attēlu atpazīšanas uzdevumi: -

Vispirms mums ir jānosaka, vai attēla dati satur kādu konkrētu objektu, līdzekli vai darbību. Šo uzdevumu parasti var atrisināt stabili un bez piepūles cilvēks, taču tas joprojām nav apmierinoši atrisināts datorredzē vispārīgā gadījumā: patvaļīgi objekti patvaļīgās situācijās. Esošās metodes šīs problēmas risināšanai vislabāk var atrisināt tikai attiecībā uz konkrētiem objektiem, piemēram, vienkāršiem ģeometriskiem objektiem (piemēram, daudzskaldni), cilvēku sejām, drukātām vai ar roku rakstītām rakstzīmēm vai transportlīdzekļiem, un īpašās situācijās, kas parasti aprakstītas ar vārdiem labi definēts apgaismojums, fons un objekta pozīcija attiecībā pret kameru. Literatūrā ir aprakstīti dažādi atpazīšanas problēmas varianti:

• Objektu atpazīšana

Var atpazīt vienu vai vairākus iepriekš noteiktus vai apgūtus objektus vai objektu klases, parasti kopā ar to 2D pozīcijām attēlā vai 3D pozām ainā.

• Identifikācija
Tiek atpazīts atsevišķs objekta gadījums. Piemēri ir konkrētas personas sejas vai pirkstu nospiedumu identifikācija vai konkrēta transportlīdzekļa identifikācija.

• Atklāšana
Attēla dati tiek skenēti konkrētam stāvoklim. Piemēri ir iespējamu patoloģisku šūnu vai audu noteikšana medicīniskajos attēlos vai transportlīdzekļa noteikšana automātiskā ceļa nodevu sistēmā. Noteikšanu, kas balstīta uz salīdzinoši vienkāršiem un ātriem aprēķiniem, dažreiz izmanto, lai atrastu mazākus interesantu attēlu datu reģionus, kurus var tālāk analizēt, izmantojot skaitļošanas ziņā prasīgākas metodes, lai iegūtu pareizu interpretāciju.

Pastāv vairāki specializēti uzdevumi, kuru pamatā ir atpazīšana, piemēram:

• Uz saturu balstīta attēlu izguve
Šeit tiek atrasti visi attēli lielākā attēlu kopā ar noteiktu saturu. Saturu var norādīt dažādos veidos, piemēram, pēc līdzības attiecībā pret mērķa attēlu (dodiet man visus attēlus, kas ir līdzīgi attēlam X), vai augsta līmeņa meklēšanas kritēriju izteiksmē, kas norādīti kā teksta ievade (sniedziet man visus attēlus, kas satur daudzas mājas, tiek aizņemtas ziemā, un tajās nav automašīnu).

• Pozas novērtējums
mums ir jānovērtē konkrēta objekta pozīcija vai orientācija attiecībā pret kameru. Šīs tehnikas pielietojuma piemērs varētu būt palīdzība robotam, kas konveijera situācijā izņem objektus no konveijera lentes.

• Optiskā rakstzīmju atpazīšana
OCR kas identificē rakstzīmes drukāta vai ar roku rakstīta teksta attēlos, parasti ar mērķi vairāk kodēt tekstu tādā formātā un ļaut rediģēt vai indeksēt Mičiganas štata universitātes Datorzinātnes un inženierzinātņu katedru. “Rakstu atpazīšanas un attēlu apstrādes (PRIP) laboratorijas mācībspēki un studenti pēta mašīnu izmantošanu, lai atpazītu modeļus vai objektus. Tiek izstrādātas metodes, lai uztvertu objektus, atklātu, kuras to pazīmes tos atšķir no citām, un izstrādātu algoritmus, kurus mašīna var izmantot klasifikācijas veikšanai. Svarīgas lietojumprogrammas ietver seju atpazīšanu, pirkstu nospiedumu identifikāciju, dokumentu attēlu analīzi, 3D objektu modeļa konstruēšanu, robotu navigāciju un 3D tilpuma datu vizualizāciju/izpēti. Pašreizējās pētniecības problēmas ietver biometrisko autentifikāciju, automātisko uzraudzību un izsekošanu, bezroku HCI, sejas modelēšanu, digitālo ūdenszīmēm un tiešsaistes dokumentu struktūras analīzi. Nesenie laboratorijas absolventi ir strādājuši pie rokraksta atpazīšanas, paraksta pārbaudes, vizuālās mācīšanās un attēlu izguves.

⦁ Sejas atpazīšana
mēs zinām, ka sejas atpazīšanas sistēmas pakāpeniski kļūst populāras kā biometriskās informācijas iegūšanas līdzeklis. Sejas atpazīšanai ir izšķiroša nozīme biometriskajās sistēmās, un tā ir pievilcīga daudzām lietojumprogrammām, tostarp vizuālai uzraudzībai un drošībai. Tā kā sabiedrība plaši pieņem sejas attēlus dažādos dokumentos, sejas atpazīšanai ir liels potenciāls kļūt par nākamās paaudzes biometrisko tehnoloģiju.

Attēlu atpazīšanas sistēmas

⦁ Kustību analīze
Vairāki uzdevumi ir saistīti ar kustības aprēķinu, kurā tiek apstrādāta attēlu secība, lai aprēķinātu ātrumu katrā attēla punktā vai 3D ainas vai pat kamerai, kas veido attēlus . Šādu uzdevumu piemēri ir:

⦁ Ego kustība
Kameras 3D stingrās kustības (rotācijas un translācijas) noteikšana no kameras izveidotās attēlu secības.

⦁ Izsekošana
Izsekošana ir sekošana (parasti) mazākas interešu punktu vai objektu kopas (piemēram, transportlīdzekļu vai cilvēku) kustībām attēlu secībā.

⦁ Optiskā plūsma
Tas ir paredzēts, lai katram attēla punktam noteiktu, kā šis punkts pārvietojas attiecībā pret attēla plakni, ti, tā šķietamo kustību. Šī kustība ir rezultāts gan tam, kā attiecīgais 3D punkts kustas ainā, gan kameras kustībai attiecībā pret ainu.

⦁ Ainas rekonstrukcija
Ņemot vērā vienu vai (parasti) vairākus ainas attēlus vai video, ainas rekonstrukcijas mērķis ir aprēķināt ainas 3D modeli. Vienkāršākajā gadījumā modelis var būt 3D punktu kopa. Sarežģītākas metodes rada pilnīgu 3D virsmas modeli

⦁ Attēlu atjaunošana
Attēlu atjaunošanas mērķis ir trokšņu (sensora trokšņu, kustības izplūšanas utt.) noņemšana no attēliem. Vienkāršākā iespējamā trokšņu noņemšanas metode ir dažāda veida filtri, piemēram, zemas caurlaidības filtri vai vidējie filtri. Sarežģītākas metodes paredz modeli, kā izskatās vietējās attēla struktūras, modeli, kas tās atšķir no trokšņa. Vispirms analizējot attēla datus, ņemot vērā lokālās attēla struktūras, piemēram, līnijas vai malas, un pēc tam kontrolējot filtrēšanu, pamatojoties uz vietējo informāciju no analīzes soļa, parasti tiek iegūts labāks trokšņu noņemšanas līmenis, salīdzinot ar vienkāršākām pieejām. Piemērs šajā jomā ir viņu gleznošana. Dažas sistēmas ir atsevišķas lietojumprogrammas, kas atrisina konkrētu mērījumu vai noteikšanas problēmu, savukārt citas veido lielākas konstrukcijas apakšsistēmu, kas, piemēram, satur arī apakšsistēmas mehānisko izpildmehānismu, plānošanas, informācijas datu bāzu, cilvēku vadības kontrolei. mašīnu saskarnes utt. Datorredzes sistēmas konkrētā realizācija ir atkarīga arī no tā, vai tās funkcionalitāte ir iepriekš noteikta, vai kādu tās daļu var apgūt vai pārveidot darbības laikā. Tomēr ir tipiskas funkcijas, kas atrodamas daudzās datorredzes sistēmās.

Dziļāka mācīšanās ar attēlu atpazīšanu

Attēlu atpazīšana bija aptuveni pirms AI. Tomēr mašīnmācīšanās faktors maina objekta vai personas sejas identificēšanas metodes. Tomēr mašīnmācīšanās ir efektīva tikai tad, ja ir pieejami dati, lai to ievadītu. Attiecībā uz visu mākslīgā intelekta automatizāciju, uzdot tai identificēt attēlus, nav vienkāršs pieprasījums. Mūsu izpratne par vizuālajiem materiāliem ir otrs raksturs; tas ir kaut kas, ko mēs esam ieprogrammēti darīt jau no mazotnes. To pašu jautāt mašīnai nav vienkāršs process. Šī iemesla dēļ viens no populārākajiem AI atpazīšanas veidiem ir konvolucionālie neironu tīkli (CNN). CNN ir metode, kas koncentrējas uz pikseļiem, kas atrodas blakus viens otram. Cieši izvietoti attēli, visticamāk, ir saistīti, kas nozīmē, ka objekts vai seja tiek saskaņota ar attēlu ar lielāku caurspīdīgumu.
Lai gan zīmoliem, kas vēlas gūt peļņu no sociālajiem medijiem, izmantojot AI attēlu atpazīšanu, ir skaidras priekšrocības, to izmantošanas gadījumi ir daudz dziļāki. Pašpiedziņas automašīnas kļūs par nākamo lielo lietu automobiļu pasaulē, un mākslīgā intelekta attēlu atpazīšanas tehnoloģija palīdz tām darboties. Automātiski nenotiek pašbraucoša automašīna, kas spēj noteikt objektus un cilvēkus uz ceļa, lai tiem neietriektos. Tai ir jāatpazīst attēli, lai pieņemtu apzinātus lēmumus. Katra pašbraucošā automašīna ir aprīkota ar vairākiem sensoriem, lai tā varētu identificēt citus braucošus transportlīdzekļus, velosipēdistus, cilvēkus – būtībā jebko, kas var radīt briesmas. Automatizētai automašīnai ir jāapstrādā ceļa apdraudējumi tāpat kā pieredzējušam vadītājam. Joprojām ir jāatrisina daži aspekti, pirms 2020. gadā pašbraucošās automašīnas sāks darboties. Taču, kad transportlīdzekļu automatizācija iedarbosies, mākslīgā intelekta attēlu atpazīšana būs viens no galvenajiem faktoriem, kas nodrošinās to drošu darbību.
⦁ Attēlu iegūšana
Digitālo attēlu veido viens vai vairāki attēla sensori, kas bez dažāda veida gaismjutīgām kamerām ietver diapazona sensorus, tomogrāfijas ierīces, radaru, ultraskaņas kameras utt. Atkarībā no sensora veida tiek iegūti attēla dati. ir parasts 2D attēls, 3D apjoms vai attēlu secība. Pikseļu vērtības parasti atbilst gaismas intensitātei vienā vai vairākās spektrālajās joslās (pelēki attēli vai krāsu attēli), bet var būt saistīti arī ar dažādiem fiziskiem rādītājiem, piemēram, dziļumu, skaņas vai elektromagnētisko viļņu absorbciju vai atstarošanos vai kodolmagnētisko rezonansi.
⦁ Iepriekšēja apstrāde:
Pirms datorredzes metodi var izmantot attēla datiem, lai iegūtu kādu konkrētu informācijas daļu, parasti dati ir jāapstrādā, lai nodrošinātu, ka tie atbilst noteiktiem metodes pieņēmumiem. Piemēri ir
1. Atkārtota paraugu ņemšana, lai pārliecinātos, ka attēla koordinātu sistēma ir pareiza.
2. Trokšņa samazināšana, lai nodrošinātu, ka sensora troksnis nerada nepatiesu informāciju.
3. Kontrasta uzlabošana, lai nodrošinātu, ka ir iespējams noteikt atbilstošo informāciju.
4. Mēroga telpas attēlojums, lai uzlabotu attēla struktūras lokāli atbilstošos mērogos.
⦁ Funkciju izvilkšana:
No attēla datiem tiek iegūti dažādu sarežģītības līmeņu attēla līdzekļi. Tipiski šādu pazīmju piemēri ir līnijas, malas un izciļņi
Lokalizēti interešu punkti, piemēram, stūri, plankumi vai punkti. Sarežģītākas funkcijas var būt saistītas ar tekstūru, formu vai kustību.
⦁ Atklāšana/segmentēšana:
Kādā brīdī apstrādes laikā tiek pieņemts lēmums par to, kuri attēla punkti vai reģioni ir svarīgi tālākai apstrādei. Piemēri ir
1. Konkrēta interešu punktu komplekta izvēle
2. Viena vai vairāku attēla apgabalu segmentēšana, kas satur konkrētu interesējošo objektu.
⦁ Augsta līmeņa apstrāde:
Šajā solī ievade parasti ir neliela datu kopa, piemēram, punktu kopa vai animācijas apgabals, kurā tiek pieņemts, ka tajā ir konkrēts objekts. Pārējā apstrāde attiecas, piemēram, ar:
1. Pārbaude, vai dati atbilst uz modeli balstītiem un lietojumprogrammu specifikas pieņēmumiem.
2. Lietojumprogrammas specifisko parametru, piemēram, objekta pozas vai objekta izmēra, novērtējums.
3. Atklātā objekta klasificēšana dažādās kategorijās. Tātad attēlu apstrāde palīdz AI identificēt attēlu un reaģēt atbilstoši attēla identifikācijai.

Nevainojama attēlu nākotne

Tā kā tehnoloģija uzlabojas, attēlu atpazīšana dos vēl labākus rezultātus. Lobster mašīnmācības vadītājs Vladimirs Pavlovs stāsta: “Objektu atpazīšanas matemātiskā bāze pastāv jau ilgu laiku, taču nesen parādījās tehnoloģiskās iespējas izmantot datorredzes algoritmus. Jau tagad neironu tīkli ļauj izveidot perfektus detektorus, kas spēj darboties labāk nekā cilvēki. Liels rāviens kavē iezīmētu attēlu datu kopu klātbūtni apmācībai, taču tuvākajā nākotnē tā nebūs problēma. Datorredzes inženieri aktīvi strādā pie pašmācības algoritmiem. Tā kā nākotni tik ļoti ietekmē vizuālā komunikācija, attēlu atpazīšana būs galvenais faktors, kas veido daudzus mūsu redzamos attēlus. Gan reālajā dzīvē, gan tiešsaistē.