Një udhëzues për njohjen e imazhit të AI

Pse është i rëndësishëm njohja e imazhit?

Rreth 80 për qind e përmbajtjes në internet është vizuale. Tashmë mund të filloni të kuptoni pse etiketimi i imazheve mund të mbajë vendin e tij si mbreti i tabelës së përmbajtjes. Qofshin individë apo kompani, njohja e imazhit të AI ka bërë të mundur identifikimin e pamjeve vizuale në internet me bujë minimale. Rreth 657 miliardë foto postohen çdo vit në mënyrë dixhitale, ku shumica shfaqen në mediat sociale. Një pjesë e mirë e atyre imazheve janë njerëz që promovojnë produkte, edhe nëse e bëjnë këtë pa dashje. Përmbajtja e krijuar nga përdoruesit (UGC) në formën e saj më të pastër është një mundësi e shkëlqyer për markat pasi ofron llojin më të mirë të promovimit.
Ka mjete marketingu për të paralajmëruar kompanitë kur përmendet një konsumator në mediat sociale, por çfarë ndodh kur promovimi i markave bëhet pa etiketuar emrin e tyre në postimin social? Kjo është ajo ku njohja e imazhit të AI dëshmon vlerën e saj. Nëse teknologjia ushqehet me grupet e sakta të të dhënave, AI mund të identifikojë një imazh pa përmendje specifike të etiketave. Rezultatet janë të paçmueshme për markat që të gjurmojnë dhe gjurmojnë përmendjet e tyre sociale.

Si funksionon njohja e imazhit?

Siç e dimë, AI mund të kërkojë në platformat e mediave sociale duke kërkuar foto dhe t'i krahasojë ato me grupe të gjera të dhënash. Më pas vendos për imazhin përkatës që përputhet me një ritëm shumë më të shpejtë se sa njerëzit janë të aftë. Markat përdorin njohjen e imazhit për të gjetur përmbajtje të ngjashme me ato të tyre në mediat sociale. Kjo do të thotë të identifikosh logon e një marke ose të njohësh vendosjen e produktit të vendosur në mënyrë organike midis përdoruesve të mediave sociale. T'u kërkosh njerëzve të kalojnë nëpër kaq shumë informacione bëhet lehtësisht e lodhshme. AI nuk shqetësohet për gabimin njerëzor dhe kthen rezultate të sakta në nivele të pashembullta. Njohja e imazhit të AI monitoron atë që njerëzit thonë për një markë pa pasur nevojë për tekst. Markat në gjendje të gjurmojnë përmendjet e tyre sociale pa përdoruesit të kenë nevojë të shkruajnë emrin e kompanisë do ta gjejnë veten në një pozicion të favorshëm. Potenciali për të shfrytëzuar mbulimin e tyre në internet vetëm përmes identifikuesve të njohur nga AI është i madh dhe ofron mbulim të pashembullt.

Këtu janë disa detyra tipike të njohjes së imazhit:-

Në fillim duhet të përcaktojmë nëse të dhënat e imazhit përmbajnë ose jo ndonjë objekt, veçori ose aktivitet specifik. Kjo detyrë normalisht mund të zgjidhet fuqishëm dhe pa përpjekje nga një njeri, por ende nuk zgjidhet në mënyrë të kënaqshme në vizionin kompjuterik për rastin e përgjithshëm: objekte arbitrare në situata arbitrare. Metodat ekzistuese për trajtimin e këtij problemi mund të zgjidhen më mirë vetëm për objekte specifike, të tilla si objekte të thjeshta gjeometrike (p.sh., poliedra), fytyra njerëzore, personazhe të shtypura ose të shkruara me dorë, ose automjete, dhe në situata specifike, të përshkruara zakonisht në terma. i ndriçimit, sfondit dhe pozës së mirëpërcaktuar të objektit në lidhje me kamerën. Varietetet e ndryshme të problemit të njohjes janë përshkruar në literaturë:

• Njohja e objekteve

Një ose disa objekte ose klasa objektesh të paracaktuara ose të mësuara mund të njihen, zakonisht së bashku me pozicionet e tyre 2D në imazh ose pozat 3D në skenë.

• Identifikimi
Njihet një shembull individual i një objekti. Shembujt janë identifikimi i fytyrës ose gjurmës së gishtit të një personi të caktuar, ose identifikimi i një automjeti specifik.

• Zbulim
Të dhënat e imazhit skanohen për një gjendje specifike. Shembujt janë zbulimi i qelizave ose indeve të mundshme anormale në imazhet mjekësore ose zbulimi i një automjeti në një sistem automatik të tarifave rrugore. Zbulimi i bazuar në llogaritje relativisht të thjeshta dhe të shpejta përdoret ndonjëherë për gjetjen e zonave më të vogla të të dhënave interesante të imazhit, të cilat mund të analizohen më tej nga teknika më të kërkuara nga ana llogaritëse për të prodhuar një interpretim të saktë.

Ekzistojnë disa detyra të specializuara të bazuara në njohje, të tilla si:

• Rikthimi i imazhit të bazuar në përmbajtje
Këtu gjenden të gjitha imazhet në një grup më të madh imazhesh që kanë një përmbajtje specifike. Përmbajtja mund të specifikohet në mënyra të ndryshme, për shembull për sa i përket ngjashmërisë në lidhje me një imazh të synuar (më jep të gjitha imazhet të ngjashme me imazhin X), ose në kushtet e kritereve të kërkimit të nivelit të lartë të dhëna si futje teksti (më jep të gjitha imazhet që përmbajnë shumë shtëpi, janë marrë gjatë dimrit, dhe nuk kanë makina në to).

• Vlerësimi i pozës
ne duhet të vlerësojmë pozicionin ose orientimin e një objekti specifik në lidhje me kamerën. Një aplikim shembull për këtë teknikë do të ishte të ndihmonte një robot që merr objekte nga një rrip transportieri në një situatë linja montimi.

• Njohja optike e karaktereve
OCR i cili është identifikimi i karaktereve në imazhet e tekstit të shtypur ose të shkruar me dorë, zakonisht me synimin për të koduar tekstin në një format më shumë dhe për të mundësuar redaktimin ose indeksimin e Departamentit të Shkencave Kompjuterike dhe Inxhinierisë, Universiteti Shtetëror i Miçiganit. Fakulteti dhe studentët e laboratorit të Njohjes së Modeleve dhe Përpunimit të Imazhit (PRIP) hetojnë përdorimin e makinave për të njohur modele ose objekte. Janë zhvilluar metoda për të ndjerë objektet, për të zbuluar se cilat nga veçoritë e tyre i dallojnë ato nga të tjerët dhe për të hartuar algoritme që mund të përdoren nga një makinë për të bërë klasifikimin. Aplikacionet e rëndësishme përfshijnë njohjen e fytyrës, identifikimin e gjurmëve të gishtërinjve, analizën e imazhit të dokumentit, ndërtimin e modelit të objektit 3D, navigimin e robotëve dhe vizualizimin/eksplorimin e të dhënave vëllimore 3D. Problemet aktuale të kërkimit përfshijnë vërtetimin biometrik, mbikëqyrjen dhe gjurmimin automatik, HCI pa duar, modelimin e fytyrës, filigranin dixhital dhe strukturën e analizës së dokumenteve në internet. Të diplomuarit e fundit të laboratorit kanë punuar në njohjen e shkrimit të dorës, verifikimin e nënshkrimit, mësimin vizual dhe rikthimin e imazheve.

⦁ Njohja e fytyrës
ne e dimë se sistemet e njohjes së fytyrës po bëhen gjithnjë e më të njohura si mjete për nxjerrjen e informacionit biometrik. Njohja e fytyrës ka një rol kritik në sistemet biometrike dhe është tërheqëse për shumë aplikacione, duke përfshirë mbikëqyrjen vizuale dhe sigurinë. Për shkak të pranimit të gjerë publik të imazheve të fytyrës në dokumente të ndryshme, njohja e fytyrës ka një potencial të madh për t'u bërë teknologjia biometrike e gjeneratës së ardhshme të zgjedhur.

Sistemet e njohjes së imazhit

⦁ Analiza e lëvizjes
Disa detyra kanë të bëjnë me vlerësimin e lëvizjes, ku një sekuencë imazhi përpunohet për të prodhuar një vlerësim të shpejtësisë ose në secilën pikë të imazhit ose në skenën 3D, ose edhe të kamerës që prodhon imazhet. Shembuj të detyrave të tilla janë:

⦁ Lëvizja e egos
Përcaktimi i lëvizjes së ngurtë 3D (rotacioni dhe përkthimi) i kamerës nga një sekuencë imazhi e prodhuar nga kamera.

⦁ Ndjekja
Gjurmimi është ndjekja e lëvizjeve të një grupi (zakonisht) më të vogël pikash ose objektesh interesi (p.sh. automjete ose njerëz) në sekuencën e imazhit.

⦁ Rrjedha optike
Kjo është për të përcaktuar, për çdo pikë në imazh, se si ajo pikë po lëviz në lidhje me planin e imazhit, dmth, lëvizjen e saj të dukshme. Kjo lëvizje është rezultat i mënyrës se si lëviz pika përkatëse 3D në skenë dhe se si lëviz kamera në lidhje me skenën.

⦁ Rikonstruksioni i skenës
Duke pasur parasysh një ose (zakonisht) më shumë imazhe të një skene ose një videoje, rindërtimi i skenës synon të llogaritë një model 3D të skenës. Në rastin më të thjeshtë, modeli mund të jetë një grup pikash 3D. Metodat më të sofistikuara prodhojnë një model të plotë të sipërfaqes 3D

⦁ Rivendosja e imazhit
Qëllimi i restaurimit të imazhit është heqja e zhurmës (zhurma e sensorit, turbullimi i lëvizjes, etj.) nga imazhet. Qasja më e thjeshtë e mundshme për heqjen e zhurmës është llojet e ndryshme të filtrave si filtra me kalim të ulët ose filtra mesatarë. Metodat më të sofistikuara supozojnë një model se si duken strukturat e imazhit lokal, një model që i dallon ato nga zhurma. Duke analizuar fillimisht të dhënat e imazhit në terma të strukturave lokale të imazhit, si vijat ose skajet, dhe më pas duke kontrolluar filtrimin bazuar në informacionin lokal nga hapi i analizës, zakonisht arrihet një nivel më i mirë i heqjes së zhurmës në krahasim me qasjet më të thjeshta. Një shembull në këtë fushë është piktura e tyre. Disa sisteme janë aplikacione të pavarura që zgjidhin një problem specifik matjeje ose zbulimi, ndërsa të tjerët përbëjnë një nën-sistem të një dizajni më të madh i cili, për shembull, përmban gjithashtu nën-sisteme për kontrollin e aktivizuesve mekanikë, planifikimin, bazat e të dhënave të informacionit, ndërfaqet e makinerive, etj. Zbatimi specifik i një sistemi vizioni kompjuterik varet gjithashtu nga fakti nëse funksionaliteti i tij është i paracaktuar ose nëse një pjesë e tij mund të mësohet ose modifikohet gjatë funksionimit. Megjithatë, ka funksione tipike që gjenden në shumë sisteme kompjuterike të vizionit.

Mësimi më i thellë me njohjen e imazhit

Njohja e imazhit ishte rreth para AI. Megjithatë, faktori i mësimit të makinës po revolucionarizon metodat për identifikimin e një objekti ose fytyrës së një personi. Sidoqoftë, mësimi i makinerisë është efektiv vetëm kur ka të dhëna për ta ushqyer atë. Për të gjithë automatizimin e AI, detyra që ajo të identifikojë imazhet nuk është një kërkesë e thjeshtë. Kuptimi ynë i pamjeve është natyra e dytë; është diçka që ne jemi të programuar ta bëjmë që në moshë të re. Të kërkosh të njëjtën gjë për një makinë nuk është një proces i drejtpërdrejtë. Për këtë arsye, një nga format më të njohura të njohjes së AI janë rrjetet nervore konvolucionale (CNN). CNN është një metodë që fokusohet në pikselët e vendosur pranë njëri-tjetrit. Imazhet e vendosura afër kanë më shumë gjasa të lidhen, që do të thotë se një objekt ose fytyrë përputhet me një foto me më shumë transparencë.
Ndërsa markat që kërkojnë të fitojnë para nga mediat sociale përmes njohjes së imazhit të AI sjellin përfitime të qarta, rastet e përdorimit të saj shkojnë shumë më thellë. Makinat që drejtojnë vetë do të jenë gjëja tjetër e madhe në botën e automobilave dhe teknologjia e njohjes së imazhit të AI po ndihmon në fuqizimin e tyre. Një makinë vetë-drejtuese që mund të zbulojë objekte dhe njerëz në rrugë në mënyrë që të mos përplaset me to, nuk ndodh automatikisht. Duhet të njohë imazhet për të marrë vendime të informuara. Çdo makinë vetëdrejtuese është e pajisur me disa sensorë në mënyrë që të mund të identifikojë automjete të tjera në lëvizje, çiklistët, njerëzit - në thelb çdo gjë që mund të përbëjë rrezik. Një makinë e automatizuar duhet të përpunojë rreziqet e rrugës në të njëjtën mënyrë si një shofer me përvojë. Ka ende disa aspekte për t'u hekurosur përpara se makinat vetë-drejtuese të dalin në rrugë në vitin 2020. Por kur automatizimi i automjeteve të fillojë, njohja e imazhit të AI do të jetë një nga drejtuesit kryesorë pas tyre duke punuar në mënyrë të sigurt.
⦁ Përvetësimi i imazhit
Një imazh dixhital prodhohet nga një ose disa sensorë imazhi, të cilët, përveç llojeve të ndryshme të kamerave të ndjeshme ndaj dritës, përfshijnë sensorë të rrezes, pajisje tomografike, radar, kamera ultrasonike, etj. Në varësi të llojit të sensorit, të dhënat e imazhit që rezultojnë është një imazh i zakonshëm 2D, një vëllim 3D ose një sekuencë imazhi. Vlerat e pikselit zakonisht korrespondojnë me intensitetin e dritës në një ose disa breza spektrale (imazhe gri ose imazhe me ngjyra), por gjithashtu mund të lidhen me masa të ndryshme fizike, si thellësia, thithja ose reflektimi i valëve zanore ose elektromagnetike ose rezonanca magnetike bërthamore.
⦁ Përpunimi paraprak:
Përpara se një metodë e vizionit kompjuterik të mund të aplikohet në të dhënat e imazhit për të nxjerrë një pjesë specifike të informacionit, zakonisht është e nevojshme të përpunohen të dhënat në mënyrë që të sigurohet që ato përmbushin disa supozime të nënkuptuara nga metoda. Shembujt janë
1. Ri-kampionimi për të siguruar që sistemi i koordinatave të imazhit është i saktë.
2. Zvogëlimi i zhurmës për të siguruar që zhurma e sensorit nuk sjell informacion të rremë.
3. Rritja e kontrastit për të siguruar që informacioni përkatës mund të zbulohet.
4. Paraqitja në shkallë-hapësirë për të përmirësuar strukturat e imazhit në shkallë të përshtatshme lokale.
⦁ Nxjerrja e veçorive:
Karakteristikat e imazhit në nivele të ndryshme kompleksiteti nxirren nga të dhënat e imazhit. Shembuj tipikë të tipareve të tilla janë linjat, skajet dhe kreshtat
Pikat e lokalizuara të interesit të tilla si qoshet, pikat ose pikat. Karakteristikat më komplekse mund të lidhen me strukturën, formën ose lëvizjen.
⦁ Zbulimi/segmentimi:
Në një moment të përpunimit merret një vendim se cilat pika imazhi ose rajone të imazhit janë të rëndësishme për përpunim të mëtejshëm. Shembujt janë
1. Përzgjedhja e një grupi specifik pikash interesi
2. Segmentimi i një ose disa rajoneve të imazhit që përmbajnë një objekt specifik me interes.
⦁ Përpunimi i nivelit të lartë:
Në këtë hap, hyrja është zakonisht një grup i vogël të dhënash, për shembull një grup pikash ose rajoni i imazhit që supozohet se përmban një objekt specifik. Përpunimi i mbetur ka të bëjë, për shembull:
1. Verifikimi që të dhënat plotësojnë supozimet e bazuara në model dhe specifikat e aplikacionit.
2. Vlerësimi i parametrave specifikë të aplikacionit, të tilla si pozicioni ose madhësia e objektit.
3. Klasifikimi i një objekti të zbuluar në kategori të ndryshme. Pra, përpunimi i imazhit ndihmon AI të identifikojë imazhin dhe të përgjigjet sipas identifikimit të imazhit.

Një e ardhme e qetë e imazheve

Ndërsa teknologjia përmirësohet, njohja e imazhit do të sjellë rezultate edhe më të mëdha. Shefi i Machine Learning në Lobster, Vladimir Pavlov thotë, “Baza matematikore për njohjen e objekteve ka ekzistuar për një kohë të gjatë, por mundësitë teknologjike të përdorimit të algoritmeve të vizionit kompjuterik u shfaqën kohët e fundit. Tashmë, rrjetet nervore lejojnë krijimin e detektorëve të përsosur që janë të aftë të punojnë më mirë se njerëzit. Një hov i madh pengon praninë e grupeve të të dhënave të imazheve të shënuara për trajnim, por në të ardhmen e afërt, kjo nuk do të jetë problem. Inxhinierët e vizionit kompjuterik po punojnë në mënyrë aktive në algoritme të vetë-mësimit”. Me një të ardhme kaq të ndikuar nga komunikimi vizual, njohja e imazhit do të jetë faktori kryesor pas shumë prej fotove që shohim. Si në jetën reale ashtu edhe në internet.