Varför är bildigenkänning viktigt?

Cirka 80 procent av innehållet på internet är visuellt. Du kan redan börja räkna ut varför bildtaggning kan hålla sin plats som kungen av innehållstabellen. Oavsett om det är privatpersoner eller företag har AI-bildigenkänning gjort det möjligt att identifiera bilder online med minimalt krångel. Där publiceras cirka 657 miljarder bilder varje år digitalt, varav majoriteten visas på sociala medier. En stor del av dessa bilder är människor som marknadsför produkter, även om de gör det omedvetet. Användargenererat innehåll (UGC) i sin renaste form är en utmärkt möjliggörare för varumärken eftersom det ger den bästa typen av marknadsföring.
Det finns marknadsföringsverktyg för att varna företag när det finns ett konsumentomnämnande på sociala medier, men hur är det när varumärkesreklam sker utan att någon taggar deras namn i det sociala inlägget? Det är här AI-bildigenkänning bevisar sitt värde. Om tekniken matas med rätt datauppsättningar, kan AI identifiera en bild utan specifika tagg-omnämnanden. Resultaten är ovärderliga för varumärken att spåra och spåra deras sociala omnämnanden.

Hur fungerar bildigenkänning?

Som vi vet kan AI söka på sociala medieplattformar och leta efter foton och jämföra dem med omfattande datamängder. Det bestämmer sig sedan för relevant bild som matchar i en hastighet som är mycket snabbare än vad människor är kapabla till. Varumärken använder bildigenkänning för att hitta innehåll som liknar deras eget på sociala medier. Det innebär att identifiera ett varumärkes logotyp eller känna igen organiskt placerad produktplacering bland användare av sociala medier. Att be människor att tråla igenom så mycket information blir lätt tröttsamt. AI oroar sig inte för det mänskliga felet och ger exakta resultat på oöverträffade nivåer. AI-bildigenkänning övervakar vad folk säger om ett varumärke utan behov av text. Varumärken som kan spåra sina sociala omnämnanden utan att användarna behöver skriva in företagsnamnet kommer att hamna i en fördelaktig position. Potentialen att utnyttja sin egen onlinetäckning enbart genom AI-erkända identifierare är enorm och erbjuder oöverträffad täckning.

Här är några typiska uppgifter för bildigenkänning:-

Först måste vi avgöra om bilddata innehåller något specifikt objekt, funktion eller aktivitet. Denna uppgift kan normalt lösas robust och utan ansträngning av en människa, men löses fortfarande inte tillfredsställande i datorseende för det allmänna fallet: godtyckliga objekt i godtyckliga situationer. De befintliga metoderna för att hantera detta problem kan bäst lösas endast för specifika objekt, såsom enkla geometriska objekt (t.ex. polyedrar), mänskliga ansikten, tryckta eller handskrivna tecken, eller fordon, och i specifika situationer, vanligtvis beskrivna i termer av väldefinierad belysning, bakgrund och ställning av objektet i förhållande till kameran. Olika varianter av igenkänningsproblemet beskrivs i litteraturen:

• Objektigenkänning

Ett eller flera förspecificerade eller inlärda objekt eller objektklasser kan kännas igen, vanligtvis tillsammans med deras 2D-positioner i bilden eller 3D-positioner i scenen.

• Identifiering
En enskild instans av ett objekt känns igen. Exempel är identifiering av en specifik persons ansikte eller fingeravtryck, eller identifiering av ett specifikt fordon.

• Detektering
Bilddata skannas för ett specifikt tillstånd. Exempel är upptäckt av möjliga onormala celler eller vävnader i medicinska bilder eller upptäckt av ett fordon i ett automatiskt vägtullsystem. Detektion baserad på relativt enkla och snabba beräkningar används ibland för att hitta mindre områden av intressanta bilddata som kan analyseras ytterligare med mer beräkningskrävande tekniker för att producera en korrekt tolkning.

Det finns flera specialiserade uppgifter baserade på erkännande, såsom:

• Innehållsbaserad bildhämtning
Här hittar du alla bilder i en större uppsättning bilder som har ett specifikt innehåll. Innehållet kan specificeras på olika sätt, till exempel när det gäller likhet i förhållande till en målbild (ge mig alla bilder som liknar bild X), eller i termer av sökkriterier på hög nivå som ges som textinmatning (ge mig alla bilder som innehåller många hus, tas under vintern och har inga bilar i dem).

• Poseuppskattning
vi måste uppskatta positionen eller orienteringen av ett specifikt objekt i förhållande till kameran. Ett exempel på applikation för denna teknik skulle vara att hjälpa en robot att hämta föremål från ett transportband i en löpande bandssituation.

• Optisk teckenigenkänning
OCR som identifierar tecken i bilder av tryckt eller handskriven text, vanligtvis i syfte att koda texten i ett format mer och möjliggör redigering eller indexering Department of Computer Science and Engineering, Michigan State University. “Mönsterigenkänning och bildbehandling (PRIP) Lab-fakulteten och studenter undersöker användningen av maskiner för att känna igen mönster eller föremål. Metoder utvecklas för att känna av objekt, för att upptäcka vilka av deras egenskaper som skiljer dem från andra, och för att designa algoritmer som kan användas av en maskin för att göra klassificeringen. Viktiga applikationer inkluderar ansiktsigenkänning, fingeravtrycksidentifiering, dokumentbildanalys, konstruktion av 3D-objektmodeller, robotnavigering och visualisering/utforskning av 3D-volymetrisk data. Aktuella forskningsproblem inkluderar biometrisk autentisering, automatisk övervakning och spårning, handtagslös HCI, ansiktsmodellering, digital vattenmärkning och analys av onlinedokuments struktur. Nyutexaminerade från labbet har arbetat med handskriftsigenkänning, signaturverifiering, visuell inlärning och bildhämtning.”

⦁ Ansiktsigenkänning
vi vet att ansiktsigenkänningssystem successivt blir populära som medel för att extrahera biometrisk information. Ansiktsigenkänning har en avgörande roll i biometriska system och är attraktiv för många applikationer inklusive visuell övervakning och säkerhet. På grund av allmänhetens acceptans av ansiktsbilder på olika dokument, har ansiktsigenkänning en stor potential att bli nästa generations biometriska teknik.

Bildigenkänningssystem

⦁ Rörelseanalys
Flera uppgifter hänför sig till rörelseuppskattning där en bildsekvens bearbetas för att producera en uppskattning av hastigheten antingen vid varje punkt i bilden eller i 3D-scenen, eller till och med av kameran som producerar bilderna. Exempel på sådana uppgifter är:

⦁  Egorörelse
Fastställande av den stela 3D-rörelsen (rotation och translation) av kameran från en bildsekvens som produceras av kameran.

⦁ Spårning
Spårning är att följa rörelser av en (vanligtvis) mindre uppsättning intressepunkter eller objekt (t.ex. fordon eller människor) i bildsekvensen.

⦁ Optiskt flöde
Detta för att bestämma, för varje punkt i bilden, hur den punkten rör sig i förhållande till bildplanet, dvs dess skenbara rörelse. Denna rörelse är ett resultat både av hur motsvarande 3D-punkt rör sig i scenen och hur kameran rör sig i förhållande till scenen.

⦁ Scenrekonstruktion
Givet en eller (vanligtvis) flera bilder av en scen, eller en video, syftar scenrekonstruktion till att beräkna en 3D-modell av scenen. I det enklaste fallet kan modellen vara en uppsättning 3D-punkter. Mer sofistikerade metoder ger en komplett 3D ytmodell

⦁ Bildåterställning
Syftet med bildåterställning är att ta bort brus (sensorbrus, rörelseoskärpa, etc.) från bilder. Det enklaste möjliga tillvägagångssättet för brusborttagning är olika typer av filter såsom lågpassfilter eller medianfilter. Mer sofistikerade metoder utgår från en modell av hur de lokala bildstrukturerna ser ut, en modell som skiljer dem från bruset. Genom att först analysera bilddatan i termer av de lokala bildstrukturerna, såsom linjer eller kanter, och sedan styra filtreringen baserat på lokal information från analyssteget, erhålls vanligtvis en bättre nivå av brusreducering jämfört med de enklare tillvägagångssätten. Ett exempel på detta område är deras målning. Vissa system är fristående applikationer som löser ett specifikt mät- eller detekteringsproblem, medan andra utgör ett delsystem av större design som till exempel även innehåller delsystem för styrning av mekaniska ställdon, planering, informationsdatabaser, man- maskingränssnitt etc. Den specifika implementeringen av ett datorvisionssystem beror också på om dess funktionalitet är fördefinierad eller om någon del av det kan läras in eller modifieras under drift. Det finns dock typiska funktioner som finns i många datorseendesystem.

 

Djupare lärande med bildigenkänning

Bildigenkänning fanns före AI. Ändå revolutionerar maskininlärningsfaktorn metoder för att identifiera ett objekt eller en persons ansikte. Maskininlärning är dock bara effektivt när det finns data att mata den med. För all automatisering av AI är det inte en enkel begäran att den ska identifiera bilder. Vår förståelse av visuellt är en andra natur; det är något vi är programmerade att göra från en ung ålder. Att fråga samma sak om en maskin är inte en enkel process. Av den anledningen är en av de mer populära formerna av AI-igenkänning konvolutionella neurala nätverk (CNN). CNN är en metod som fokuserar på pixlar som ligger bredvid varandra. Närliggande bilder är mer benägna att vara relaterade, vilket innebär att ett föremål eller ansikte matchas till en bild med mer genomskinlighet.
Medan varumärken som vill tjäna pengar på sociala medier genom AI-bildigenkänning har tydliga fördelar, går dess användningsfall mycket djupare. Självkörande bilar är på väg att bli nästa stora sak i bilvärlden, och AI-bildigenkänningsteknik hjälper till att driva dem. En självkörande bil som kan upptäcka föremål och människor på vägen så att den inte krockar in i dem sker inte automatiskt. Den måste känna igen bilderna för att fatta välgrundade beslut. Varje självkörande bil är utrustad med flera sensorer så att den kan identifiera andra rörliga fordon, cyklister, människor – i princip allt som kan utgöra en fara. En automatiserad bil måste hantera farorna på vägen på samma sätt som en erfaren förare gör. Det finns fortfarande några aspekter som måste lösas innan självkörande bilar kommer ut på vägen 2020. Men när fordonsautomatisering börjar kommer AI-bildigenkänning att vara en av de största drivkrafterna bakom dem som arbetar säkert.
⦁ Bildförvärv
En digital bild produceras av en eller flera bildsensorer, som förutom olika typer av ljuskänsliga kameror inkluderar räckviddssensorer, tomografiapparater, radar, ultraljudskameror etc. Beroende på typ av sensor, resulterande bilddata är en vanlig 2D-bild, en 3D-volym eller en bildsekvens. Pixelvärdena motsvarar typiskt ljusintensiteten i ett eller flera spektralband (gråbilder eller färgbilder), men kan också relateras till olika fysiska mått, såsom djup, absorption eller reflektans av ljud- eller elektromagnetiska vågor, eller kärnmagnetisk resonans.
⦁ Förbearbetning:
Innan en datorseendemetod kan tillämpas på bilddata för att extrahera någon specifik information, är det vanligtvis nödvändigt att bearbeta data för att säkerställa att den uppfyller vissa antaganden som metoden implicerar. Exempel är
1. Omsampling för att säkerställa att bildkoordinatsystemet är korrekt.
2. Brusreducering för att säkerställa att sensorbrus inte introducerar falsk information.
3. Kontrastförbättring för att säkerställa att relevant information kan upptäckas.
4. Skalrumsrepresentation för att förbättra bildstrukturer i lokalt lämpliga skalor.
⦁ Funktionsextraktion:
Bildfunktioner på olika komplexitetsnivåer extraheras från bilddata. Typiska exempel på sådana egenskaper är linjer, kanter och åsar
Lokaliserade intressepunkter som hörn, blobbar eller punkter. Mer komplexa egenskaper kan vara relaterade till struktur, form eller rörelse.
⦁ Detektering/segmentering:
Vid något tillfälle under bearbetningen fattas ett beslut om vilka bildpunkter eller områden av bilden som är relevanta för vidare bearbetning. Exempel är
1. Val av en specifik uppsättning intressepunkter
2. Segmentering av en eller flera bildregioner som innehåller ett specifikt objekt av intresse.
⦁ Bearbetning på hög nivå:
Vid detta steg är inmatningen typiskt en liten uppsättning data, till exempel en uppsättning punkter eller en bildregion som antas innehålla ett specifikt objekt. Den återstående bearbetningen handlar till exempel om:
1. Verifiering av att data uppfyller modellbaserade och applikationsspecifika antaganden.
2. Uppskattning av applikationsspecifika parametrar, såsom objektposition eller objektstorlek.
3. Klassificering av ett upptäckt objekt i olika kategorier. Så bildbehandling hjälper AI att identifiera bilden och svara enligt bildidentifieringen.

En sömlös framtid av bildspråk

När tekniken förbättras kommer bildigenkänning att ge ännu bättre resultat. Chef för maskininlärning på Lobster, Vladimir Pavlov, säger: "Den matematiska grunden för objektigenkänning har funnits länge, men tekniska möjligheter att använda datorseendealgoritmer dök upp nyligen. Redan nu tillåter neurala nätverk att göra perfekta detektorer som kan fungera bättre än människor. Ett stort ryck håller tillbaka förekomsten av markerade bilddatauppsättningar för träning, men inom en snar framtid kommer detta inte att vara ett problem. Dataseendeingenjörer arbetar aktivt med självlärande algoritmer. Med en framtid som är så starkt påverkad av visuell kommunikation kommer bildigenkänning att vara nyckelfaktorn bakom många av de bilder vi ser. Både i verkligheten och online.