Hvorfor bildegjenkjenning viktig?

Omtrent 80 prosent av innholdet på internett er visuelt. Du kan allerede begynne å finne ut hvorfor bildemerking kan holde sin plass som kongen av innholdstabellen. Enten det er enkeltpersoner eller bedrifter, har AI-bildegjenkjenning gjort det mulig å identifisere visuelle elementer på nettet med minimalt oppstyr. Der legges rundt 657 milliarder bilder ut hvert år digitalt, hvor de fleste vises på sosiale medier. En god del av disse bildene er folk som markedsfører produkter, selv om de gjør det uforvarende. Brukergenerert innhold (UGC) i sin reneste form er en utmerket muliggjører for merkevarer ettersom det gir den beste typen markedsføring.
Det finnes markedsføringsverktøy for å varsle bedrifter når det er en forbrukeromtale på sosiale medier, men hva med når merkevarepromotering finner sted uten at noen merker navnet deres i det sosiale innlegget? Det er her AI-bildegjenkjenning beviser sin verdi. Hvis teknologien mates med de riktige datasettene, kan AI identifisere et bilde uten spesifikke tag-omtaler. Resultatene er uvurderlige for merker å spore og spore deres sosiale omtaler.

Hvordan fungerer bildegjenkjenning?

Som vi vet kan AI søke på sosiale medieplattformer på jakt etter bilder og sammenligne dem med omfattende datasett. Deretter bestemmer den seg for relevant bilde som samsvarer med en hastighet som er mye raskere enn mennesker er i stand til. Merkevarer bruker bildegjenkjenning for å finne innhold som ligner deres eget på sosiale medier. Det betyr å identifisere en merkevares logo eller gjenkjenne organisk plassert produktplassering blant brukere av sosiale medier. Å be mennesker om å tråle gjennom så mye informasjon blir lett slitsomt. AI bekymrer seg ikke for den menneskelige feilen, og gir presise resultater på uovertruffen nivåer. AI-bildegjenkjenning overvåker hva folk sier om et merke uten behov for tekst. Merker som kan spore sosiale omtaler uten at brukerne trenger å skrive inn firmanavnet, vil finne seg selv i en fordelaktig posisjon. Potensialet for å utnytte sin egen nettdekning utelukkende gjennom AI-kjente identifikatorer er enormt og tilbyr enestående dekning.

Her er noen typiske oppgaver for bildegjenkjenning:

Først må vi bestemme om bildedataene inneholder et bestemt objekt, funksjon eller aktivitet eller ikke. Denne oppgaven kan normalt løses robust og uten anstrengelse av et menneske, men løses likevel ikke tilfredsstillende i datasyn for det generelle tilfellet: vilkårlige objekter i vilkårlige situasjoner. De eksisterende metodene for å håndtere dette problemet kan best løses bare for spesifikke objekter, slik som enkle geometriske objekter (f.eks. polyedre), menneskelige ansikter, trykte eller håndskrevne tegn, eller kjøretøy, og i spesifikke situasjoner, vanligvis beskrevet i termer av veldefinert belysning, bakgrunn og positur av objektet i forhold til kameraet. Ulike varianter av gjenkjenningsproblemet er beskrevet i litteraturen:

• Objektgjenkjenning

En eller flere forhåndsspesifiserte eller innlærte objekter eller objektklasser kan gjenkjennes, vanligvis sammen med deres 2D-posisjoner i bildet eller 3D-posisjoner i scenen.

• Identifikasjon
En individuell forekomst av et objekt gjenkjennes. Eksempler er identifikasjon av en bestemt persons ansikt eller fingeravtrykk, eller identifikasjon av et spesifikt kjøretøy.

• Gjenkjenning
Bildedataene skannes for en bestemt tilstand. Eksempler er påvisning av mulige unormale celler eller vev i medisinske bilder eller påvisning av et kjøretøy i et automatisk bompengesystem. Deteksjon basert på relativt enkle og raske beregninger brukes noen ganger for å finne mindre områder med interessante bildedata som kan analyseres videre ved hjelp av mer beregningskrevende teknikker for å produsere en korrekt tolkning.

Det finnes flere spesialiserte oppgaver basert på anerkjennelse, for eksempel:

• Innholdsbasert bildehenting
Her finner du alle bilder i et større sett med bilder som har et spesifikt innhold. Innholdet kan spesifiseres på forskjellige måter, for eksempel når det gjelder likhet i forhold til et målbilde (gi meg alle bilder som ligner på bilde X), eller når det gjelder søkekriterier på høyt nivå gitt som tekstinndata (gi meg alle bilder som inneholder mange hus, er tatt om vinteren, og har ingen biler i dem).

• Pose-estimering
vi må estimere posisjonen eller orienteringen til et spesifikt objekt i forhold til kameraet. Et eksempel på denne teknikken vil være å hjelpe en robot med å hente gjenstander fra et transportbånd i en samlebåndssituasjon.

• Optisk karaktergjenkjennelse
OCR som identifiserer tegn i bilder av trykt eller håndskrevet tekst, vanligvis med sikte på å kode teksten i et format mer og muliggjøre redigering eller indeksering Department of Computer Science and Engineering, Michigan State University. "Mønstergjenkjenning og bildebehandling (PRIP) Lab-fakultetet og studenter undersøker bruken av maskiner for å gjenkjenne mønstre eller objekter. Metoder er utviklet for å sanse objekter, for å oppdage hvilke av egenskapene deres som skiller dem fra andre, og for å designe algoritmer som kan brukes av en maskin for å gjøre klassifiseringen. Viktige applikasjoner inkluderer ansiktsgjenkjenning, fingeravtrykkidentifikasjon, dokumentbildeanalyse, konstruksjon av 3D-objektmodeller, robotnavigasjon og visualisering/utforskning av 3D volumetriske data. Aktuelle forskningsproblemer inkluderer biometrisk autentisering, automatisk overvåking og sporing, håndterlig HCI, ansiktsmodellering, digital vannmerking og analyse av strukturen til elektroniske dokumenter. Nyutdannede fra laboratoriet har jobbet med håndskriftgjenkjenning, signaturverifisering, visuell læring og bildehenting.»

⦁ Ansiktsgjenkjenning
vi vet at ansiktsgjenkjenningssystemer gradvis blir populære som midler for å trekke ut biometrisk informasjon. Ansiktsgjenkjenning har en kritisk rolle i biometriske systemer og er attraktiv for en rekke bruksområder, inkludert visuell overvåking og sikkerhet. På grunn av allmennhetens aksept av ansiktsbilder på ulike dokumenter, har ansiktsgjenkjenning et stort potensial til å bli neste generasjons biometrisk teknologi.

Bildegjenkjenningssystemer

⦁ Bevegelsesanalyse
Flere oppgaver er knyttet til bevegelsesestimering der en bildesekvens behandles for å produsere et estimat av hastigheten enten ved hvert punkt i bildet eller i 3D-scenen, eller til og med av kameraet som produserer bildene. Eksempler på slike oppgaver er:

⦁  Ego bevegelse
Bestemme den stive 3D-bevegelsen (rotasjon og translasjon) av kameraet fra en bildesekvens produsert av kameraet.

⦁ Sporing
Sporing er å følge bevegelsene til et (vanligvis) mindre sett med interessepunkter eller objekter (f.eks. kjøretøy eller mennesker) i bildesekvensen.

⦁ Optisk flyt
Dette er for å bestemme, for hvert punkt i bildet, hvordan det punktet beveger seg i forhold til bildeplanet, dvs. dets tilsynelatende bevegelse. Denne bevegelsen er et resultat både av hvordan det tilsvarende 3D-punktet beveger seg i scenen og hvordan kameraet beveger seg i forhold til scenen.

⦁ Scene rekonstruksjon
Gitt ett eller (vanligvis) flere bilder av en scene, eller en video, tar scenerekonstruksjon sikte på å beregne en 3D-modell av scenen. I det enkleste tilfellet kan modellen være et sett med 3D-punkter. Mer sofistikerte metoder produserer en komplett 3D overflatemodell

⦁ Bildegjenoppretting
Målet med bildegjenoppretting er å fjerne støy (sensorstøy, bevegelsesuskarphet, etc.) fra bilder. Den enkleste mulige tilnærmingen for støyfjerning er ulike typer filtre som lavpassfiltre eller medianfiltre. Mer sofistikerte metoder forutsetter en modell av hvordan de lokale bildestrukturene ser ut, en modell som skiller dem fra støyen. Ved først å analysere bildedataene med tanke på de lokale bildestrukturene, som linjer eller kanter, og deretter kontrollere filtreringen basert på lokal informasjon fra analysetrinnet, oppnås vanligvis et bedre nivå av støyfjerning sammenlignet med de enklere tilnærmingene. Et eksempel på dette feltet er maleriet deres. Noen systemer er frittstående applikasjoner som løser et spesifikt måle- eller deteksjonsproblem, mens andre utgjør et delsystem av større design som for eksempel også inneholder delsystemer for styring av mekaniske aktuatorer, planlegging, informasjonsdatabaser, menneske- maskingrensesnitt osv. Den spesifikke implementeringen av et datasynssystem avhenger også av om funksjonaliteten er forhåndsspesifisert eller om en del av det kan læres eller modifiseres under drift. Det er imidlertid typiske funksjoner som finnes i mange datasynssystemer.

 

Dypere læring med bildegjenkjenning

Bildegjenkjenning var rundt før AI. Men maskinlæringsfaktoren revolusjonerer metoder for å identifisere et objekt eller en persons ansikt. Maskinlæring er imidlertid bare effektiv når det er data å mate den. For all automatisering av AI er det ikke en enkel forespørsel å gi den i oppgave å identifisere bilder. Vår forståelse av det visuelle er en annen natur; det er noe vi er programmert til å gjøre fra en ung alder. Å spørre det samme om en maskin er ikke en enkel prosess. Av den grunn er en av de mer populære formene for AI-gjenkjenning konvolusjonelle nevrale nettverk (CNN). CNN er en metode som fokuserer på piksler som ligger ved siden av hverandre. Nært plasserte bilder er mer sannsynlig å være relatert, noe som betyr at et objekt eller ansikt er matchet med et bilde med mer gjennomsiktighet.
Mens merker som ønsker å tjene penger på sosiale medier gjennom AI-bildegjenkjenning har klare fordeler, stikker brukssakene langt dypere. Selvkjørende biler er i ferd med å bli den neste store tingen i bilverdenen, og AI-bildegjenkjenningsteknologi er med på å drive dem. En selvkjørende bil som kan oppdage gjenstander og personer på veien slik at den ikke kolliderer med dem, skjer ikke automatisk. Den må gjenkjenne bildene for å ta informerte beslutninger. Hver selvkjørende bil er utstyrt med flere sensorer slik at den kan identifisere andre kjøretøyer i bevegelse, syklister, mennesker – i utgangspunktet alt som kan utgjøre en fare. En automatisert bil må behandle farene ved veien på samme måte som en erfaren sjåfør. Det er fortsatt noen få aspekter å stryke før selvkjørende biler kommer ut på veien i 2020. Men når kjøretøyautomatisering starter, vil AI-bildegjenkjenning være en av de viktigste driverne bak dem som jobber trygt.
⦁ Bildeanskaffelse
Et digitalt bilde produseres av en eller flere bildesensorer, som i tillegg til ulike typer lysfølsomme kameraer inkluderer rekkeviddesensorer, tomografienheter, radar, ultralydkameraer osv. Avhengig av type sensor vil de resulterende bildedataene er et vanlig 2D-bilde, et 3D-volum eller en bildesekvens. Pikselverdiene tilsvarer typisk lysintensiteten i ett eller flere spektralbånd (gråbilder eller fargebilder), men kan også relateres til ulike fysiske mål, som dybde, absorpsjon eller reflektans av soniske eller elektromagnetiske bølger, eller kjernemagnetisk resonans.
⦁ Forbehandling:
Før en datasynsmetode kan brukes på bildedata for å trekke ut noen spesifikk informasjon, er det vanligvis nødvendig å behandle dataene for å sikre at de tilfredsstiller visse forutsetninger implisert av metoden. Eksempler er
1. Re-sampling for å sikre at bildekoordinatsystemet er korrekt.
2. Støyreduksjon for å sikre at sensorstøy ikke introduserer falsk informasjon.
3. Kontrastforbedring for å sikre at relevant informasjon kan oppdages.
4. Skala-rom-representasjon for å forbedre bildestrukturer i lokalt passende skalaer.
⦁ Funksjonsutvinning:
Bildefunksjoner på ulike nivåer av kompleksitet trekkes ut fra bildedataene. Typiske eksempler på slike trekk er linjer, kanter og rygger
Lokaliserte interessepunkter som hjørner, klatter eller punkter. Mer komplekse funksjoner kan være relatert til tekstur, form eller bevegelse.
⦁ Deteksjon/segmentering:
På et tidspunkt i behandlingen tas det en beslutning om hvilke bildepunkter eller områder av bildet som er relevante for videre behandling. Eksempler er
1. Valg av et spesifikt sett med interessepunkter
2. Segmentering av ett eller flere bildeområder som inneholder et spesifikt objekt av interesse.
⦁ Høynivåbehandling:
På dette trinnet er inngangen typisk et lite sett med data, for eksempel et sett med punkter eller et bildeområde som antas å inneholde et spesifikt objekt. Den gjenværende behandlingen omhandler for eksempel:
1. Verifikasjon av at dataene tilfredsstiller modellbaserte og applikasjonsspesifikke forutsetninger.
2. Estimering av applikasjonsspesifikke parametere, for eksempel objektposisjon eller objektstørrelse.
3. Klassifisering av et oppdaget objekt i forskjellige kategorier. Så, bildebehandling hjelper AI med å identifisere bildet og svare i henhold til bildeidentifikasjonen.

En sømløs fremtid med bilder

Etter hvert som teknologien forbedres, vil bildegjenkjenning gi enda bedre resultater. Leder for maskinlæring ved Lobster, Vladimir Pavlov, sier: "Det matematiske grunnlaget for gjenkjenning av objekter har eksistert i lang tid, men teknologiske muligheter for bruk av datasynsalgoritmer dukket opp nylig. Allerede tillater nevrale nettverk å lage perfekte detektorer som er i stand til å fungere bedre enn mennesker. Et stort rykk holder tilbake tilstedeværelsen av merkede bildedatasett for trening, men i nær fremtid vil ikke dette være et problem. Datasynsingeniører jobber aktivt med selvlærende algoritmer. Med en fremtid som er så sterkt påvirket av visuell kommunikasjon, kommer bildegjenkjenning til å være nøkkelfaktoren bak mange av bildene vi ser. Både i det virkelige liv og på nett.