Hvorfor er billedgenkendelse vigtig?

Omkring 80 procent af indholdet på internettet er visuelt. Du kan allerede begynde at finde ud af, hvorfor billedtagging kan holde sin plads som konge af indholdstabellen. Uanset om det er enkeltpersoner eller virksomheder, har AI-billedgenkendelse gjort det muligt at identificere visuals online med minimalt besvær. Der bliver omkring 657 milliarder billeder lagt ud hvert år digitalt, hvor størstedelen vises på sociale medier. En god del af disse billeder er folk, der promoverer produkter, selvom de gør det ubevidst. Brugergenereret indhold (UGC) i sin reneste form er en fremragende muliggører for brands, da det giver den bedste form for promovering.
Der er marketingværktøjer til at advare virksomheder, når der er en forbrugeromtale på sociale medier, men hvad med, når brands-promovering finder sted, uden at nogen tagger deres navn i det sociale opslag? Det er her AI billedgenkendelse beviser sin værdi. Hvis teknologien får de korrekte datasæt, kan AI identificere et billede uden specifikke tag-omtaler. Resultaterne er uvurderlige for brands til at spore og spore deres sociale omtaler.

Hvordan fungerer billedgenkendelse?

Som vi ved, kan AI søge på sociale medieplatforme på udkig efter fotos og sammenligne dem med omfattende datasæt. Den beslutter sig derefter for et relevant billede, der matcher med en hastighed, der er meget hurtigere, end mennesker er i stand til. Brands bruger billedgenkendelse til at finde indhold, der ligner deres eget, på sociale medier. Det betyder at identificere et brands logo eller genkende organisk placeret produktplacering blandt brugere af sociale medier. At bede mennesker om at gennemtrawle så meget information bliver nemt trættende. AI bekymrer sig ikke om den menneskelige fejl og returnerer præcise resultater på uovertrufne niveauer. AI billedgenkendelse overvåger, hvad folk siger om et brand uden behov for tekst. Mærker, der kan spore deres sociale omtaler, uden at brugerne behøver at indtaste firmanavnet, vil finde sig selv i en fordelagtig position. Potentialet for at udnytte deres egen onlinedækning udelukkende gennem AI-anerkendte identifikatorer er enormt og tilbyder enestående dækning.

Her er nogle typiske opgaver inden for billedgenkendelse:

Først skal vi afgøre, om billeddataene indeholder et bestemt objekt, træk eller aktivitet. Denne opgave kan normalt løses robust og uden anstrengelse af et menneske, men løses stadig ikke tilfredsstillende i computervision for det generelle tilfælde: vilkårlige objekter i vilkårlige situationer. De eksisterende metoder til at håndtere dette problem kan bedst løses kun for specifikke objekter, såsom simple geometriske objekter (f.eks. polyedre), menneskelige ansigter, trykte eller håndskrevne tegn eller køretøjer, og i specifikke situationer, typisk beskrevet i termer af veldefineret belysning, baggrund og positur af objektet i forhold til kameraet. Forskellige varianter af genkendelsesproblemet er beskrevet i litteraturen:

• Objektgenkendelse

En eller flere forudspecificerede eller indlærte objekter eller objektklasser kan genkendes, normalt sammen med deres 2D-positioner i billedet eller 3D-positurer i scenen.

• Identifikation
En individuel forekomst af et objekt genkendes. Eksempler er identifikation af en bestemt persons ansigt eller fingeraftryk eller identifikation af et specifikt køretøj.

• Detektion
Billeddataene scannes for en bestemt tilstand. Eksempler er påvisning af mulige unormale celler eller væv i medicinske billeder eller påvisning af et køretøj i et automatisk vejafgiftssystem. Detektion baseret på relativt enkle og hurtige beregninger bruges nogle gange til at finde mindre områder af interessante billeddata, som kan analyseres yderligere ved hjælp af mere beregningskrævende teknikker for at producere en korrekt fortolkning.

Der findes flere specialiserede opgaver baseret på anerkendelse, såsom:

• Indholdsbaseret billedhentning
Her finder du alle billeder i et større sæt billeder, som har et bestemt indhold. Indholdet kan specificeres på forskellige måder, for eksempel med hensyn til lighed i forhold til et målbillede (giv mig alle billeder svarende til billede X), eller i form af søgekriterier på højt niveau givet som tekstinput (giv mig alle billeder, der indeholder mange huse, er taget om vinteren og har ingen biler i dem).

• Positionsvurdering
vi skal estimere positionen eller orienteringen af ​​et bestemt objekt i forhold til kameraet. Et eksempel på anvendelse af denne teknik ville være at hjælpe en robot med at hente genstande fra et transportbånd i en samlebåndssituation.

• Optisk tegngenkendelse
OCR som identificerer tegn i billeder af trykt eller håndskrevet tekst, normalt med henblik på at indkode teksten i et format mere og gøre det muligt at redigere eller indeksere Department of Computer Science and Engineering, Michigan State University. “Mønstergenkendelse og billedbehandling (PRIP) Lab-fakultetet og studerende undersøger brugen af ​​maskiner til at genkende mønstre eller objekter. Metoder er udviklet til at fornemme objekter, til at opdage hvilke af deres egenskaber, der adskiller dem fra andre, og til at designe algoritmer, som kan bruges af en maskine til at udføre klassificeringen. Vigtige applikationer omfatter ansigtsgenkendelse, fingeraftryksidentifikation, dokumentbilledanalyse, 3D-objektmodelkonstruktion, robotnavigation og visualisering/udforskning af 3D volumetriske data. Aktuelle forskningsproblemer omfatter biometrisk autentificering, automatisk overvågning og sporing, håndtagsfri HCI, ansigtsmodellering, digital vandmærkning og analyse af strukturen af ​​online dokumenter. Nylige kandidater fra laboratoriet har arbejdet med håndskriftsgenkendelse, signaturbekræftelse, visuel læring og billedhentning."

⦁ Ansigtsgenkendelse
vi ved, at ansigtsgenkendelsessystemer gradvist bliver populære som midler til at udtrække biometrisk information. Ansigtsgenkendelse spiller en afgørende rolle i biometriske systemer og er attraktiv for adskillige applikationer, herunder visuel overvågning og sikkerhed. På grund af offentlighedens accept af ansigtsbilleder på forskellige dokumenter, har ansigtsgenkendelse et stort potentiale til at blive næste generations foretrukne biometriske teknologi.

Billedgenkendelsessystemer

⦁ Bevægelsesanalyse
Adskillige opgaver relaterer sig til bevægelsesestimering, hvor en billedsekvens behandles for at producere et estimat af hastigheden enten ved hvert punkt i billedet eller i 3D-scenen, eller endda af kameraet, der producerer billederne. Eksempler på sådanne opgaver er:

⦁  Ego bevægelse
Bestemmelse af den stive 3D-bevægelse (rotation og translation) af kameraet ud fra en billedsekvens produceret af kameraet.

⦁ Sporing
Sporing er at følge bevægelserne af et (normalt) mindre sæt interessepunkter eller objekter (f.eks. køretøjer eller mennesker) i billedsekvensen.

⦁ Optisk flow
Dette er for at bestemme, for hvert punkt i billedet, hvordan dette punkt bevæger sig i forhold til billedplanet, dvs. dets tilsyneladende bevægelse. Denne bevægelse er et resultat både af, hvordan det tilsvarende 3D-punkt bevæger sig i scenen, og hvordan kameraet bevæger sig i forhold til scenen.

⦁ Scene rekonstruktion
Givet et eller (typisk) flere billeder af en scene eller en video, sigter scenerekonstruktion på at beregne en 3D-model af scenen. I det enkleste tilfælde kan modellen være et sæt 3D-punkter. Mere sofistikerede metoder producerer en komplet 3D overflademodel

⦁ Billedgendannelse
Målet med billedgendannelse er at fjerne støj (sensorstøj, bevægelsessløring osv.) fra billeder. Den enklest mulige tilgang til fjernelse af støj er forskellige typer filtre såsom lavpasfiltre eller medianfiltre. Mere sofistikerede metoder antager en model for, hvordan de lokale billedstrukturer ser ud, en model, der adskiller dem fra støjen. Ved først at analysere billeddataene i forhold til de lokale billedstrukturer, såsom linjer eller kanter, og derefter kontrollere filtreringen baseret på lokal information fra analysetrinnet, opnås normalt et bedre niveau af støjfjernelse sammenlignet med de mere simple tilgange. Et eksempel på dette felt er deres maleri. Nogle systemer er selvstændige applikationer, som løser et specifikt måle- eller detektionsproblem, mens andre udgør et delsystem af større design, som fx også indeholder delsystemer til styring af mekaniske aktuatorer, planlægning, informationsdatabaser, menneske- maskingrænseflader osv. Den specifikke implementering af et computervisionssystem afhænger også af, om dets funktionalitet er forudspecificeret, eller om en del af det kan læres eller ændres under drift. Der er dog typiske funktioner, som findes i mange computervisionssystemer.

 

Dybere læring med billedgenkendelse

Billedgenkendelse var omkring før AI. Alligevel revolutionerer maskinlæringsfaktoren metoder til at identificere et objekt eller en persons ansigt. Maskinlæring er dog kun effektiv, når der er data til at fodre den. For al AI's automatisering er det ikke en simpel anmodning at opdrage den til at identificere billeder. Vores forståelse af visuals er anden natur; det er noget, vi er programmeret til at gøre fra en ung alder. At bede om det samme af en maskine er ikke en ligetil proces. Af den grund er en af ​​de mere populære former for AI-genkendelse konvolutionelle neurale netværk (CNN). CNN er en metode, der fokuserer på pixels placeret ved siden af ​​hinanden. Tæt placerede billeder er mere tilbøjelige til at være relaterede, hvilket betyder, at et objekt eller ansigt matches til et billede med mere gennemsigtighed.
Mens mærker, der ønsker at tjene penge på sociale medier, selv om AI-billedgenkendelse har klare fordele, stikker dets use cases langt dybere. Selvkørende biler er ved at blive den næste store ting i bilverdenen, og AI-billedgenkendelsesteknologi hjælper med at drive dem. En selvkørende bil, der kan registrere genstande og personer på vejen, så den ikke støder ind i dem, sker ikke automatisk. Den skal genkende billederne for at træffe informerede beslutninger. Hver selvkørende bil er udstyret med flere sensorer, så den kan identificere andre kørende køretøjer, cyklister, mennesker - stort set alt, der kan udgøre en fare. En automatiseret bil skal behandle farerne på vejen på samme måde som en erfaren chauffør gør. Der er stadig et par aspekter, der skal udredes, før selvkørende biler kommer på vejen i 2020. Men når køretøjsautomatisering starter, vil AI-billedgenkendelse være en af ​​de største drivere bag dem, der arbejder sikkert.
⦁ Billedoptagelse
Et digitalt billede er produceret af en eller flere billedsensorer, som udover forskellige typer lysfølsomme kameraer omfatter afstandssensorer, tomografiapparater, radar, ultralydskameraer osv. Afhængigt af sensortype vil de resulterende billeddata er et almindeligt 2D-billede, et 3D-volumen eller en billedsekvens. Pixelværdierne svarer typisk til lysintensiteten i et eller flere spektralbånd (gråbilleder eller farvebilleder), men kan også relateres til forskellige fysiske mål, såsom dybde, absorption eller reflektans af lyd- eller elektromagnetiske bølger eller kernemagnetisk resonans.
⦁ Forbehandling:
Før en computervisionsmetode kan anvendes på billeddata for at udtrække nogle specifikke oplysninger, er det sædvanligvis nødvendigt at behandle dataene for at sikre, at de opfylder visse antagelser, som metoden implicerer. Eksempler er
1. Gensampling for at sikre, at billedkoordinatsystemet er korrekt.
2. Støjreduktion for at sikre, at sensorstøj ikke introducerer falsk information.
3. Kontrastforbedring for at sikre, at relevant information kan detekteres.
4. Skala-rum-repræsentation for at forbedre billedstrukturer i lokalt passende skalaer.
⦁ Funktionsudvinding:
Billedfunktioner på forskellige kompleksitetsniveauer udvindes fra billeddataene. Typiske eksempler på sådanne træk er linjer, kanter og kamme
Lokaliserede interessepunkter såsom hjørner, klatter eller punkter. Mere komplekse funktioner kan være relateret til tekstur, form eller bevægelse.
⦁ Detektion/segmentering:
På et tidspunkt i behandlingen tages der en beslutning om, hvilke billedpunkter eller områder af billedet, der er relevante for videre bearbejdning. Eksempler er
1. Valg af et specifikt sæt interessepunkter
2. Segmentering af et eller flere billedområder, som indeholder et specifikt objekt af interesse.
⦁ Bearbejdning på højt niveau:
På dette trin er input typisk et lille sæt data, for eksempel et sæt punkter eller et billedområde, som antages at indeholde et specifikt objekt. Den resterende behandling omhandler f.eks.:
1. Verifikation af, at dataene opfylder modelbaserede og applikationsspecifikke antagelser.
2. Estimering af applikationsspecifikke parametre, såsom objektposition eller objektstørrelse.
3. Klassificering af et detekteret objekt i forskellige kategorier. Så billedbehandling hjælper AI med at identificere billedet og reagere i henhold til billedidentifikationen.

En problemfri fremtid for billedsprog

Efterhånden som teknologien forbedres, vil billedgenkendelse give endnu større resultater. Chef for Machine Learning hos Lobster, Vladimir Pavlov, siger: "Det matematiske grundlag for genkendelse af objekter har eksisteret i lang tid, men teknologiske muligheder for at bruge computervisionsalgoritmer dukkede op for nylig. Allerede nu muliggør neurale netværk at lave perfekte detektorer, der er i stand til at fungere bedre end mennesker. Et stort ryk holder tilstedeværelsen af ​​markerede billeddatasæt til træning tilbage, men i den nærmeste fremtid vil dette ikke være et problem. Computervisionsingeniører arbejder aktivt på selvlærende algoritmer.” Med en fremtid, der er så stærkt påvirket af visuel kommunikation, vil billedgenkendelse være nøglefaktoren bag mange af de billeder, vi ser. Både i det virkelige liv og online.