Gwida għar-Rikonoxximent tal-Immaġni AI

Għaliex ir-rikonoxximent tal-immaġni importanti?

Madwar 80 fil-mija tal-kontenut fuq l-internet huwa viżwali. Diġà tista' tibda taħdem għala l-immarkar tal-immaġni jista' jżomm postu bħala s-sultan tat-tabella tal-kontenut. Kemm jekk huma individwi jew kumpaniji, ir-rikonoxximent tal-immaġini AI għamilha possibbli li jiġu identifikati viżwali onlajn b'mod minimu. Hemm madwar 657 biljun ritratt jitpoġġew kull sena b’mod diġitali, bil-maġġoranza jidhru fuq il-midja soċjali. Parti tajba minn dawk l-immaġini huma nies li jippromwovu l-prodotti, anke jekk qed jagħmlu dan bla ma jridu. Il-kontenut iġġenerat mill-utent (UGC) fil-forma l-aktar pura tiegħu huwa faċilitatur eċċellenti għall-marki peress li jipprovdi l-aħjar tip ta 'promozzjoni.
Hemm għodod ta’ kummerċjalizzazzjoni biex javżaw lill-kumpaniji meta jkun hemm isem tal-konsumatur fuq il-midja soċjali, imma xi ngħidu dwar meta ssir il-promozzjoni tad-ditti mingħajr ma ħadd ma jimmarka isimhom fil-post soċjali? Dan huwa fejn ir-rikonoxximent tal-immaġni AI juri l-valur tiegħu. Jekk it-teknoloġija tiġi mitmugħa s-settijiet tad-dejta korretti, l-AI tista 'tidentifika immaġni mingħajr ssemmi tikketta speċifiċi. Ir-riżultati huma imprezzabbli għall-marki biex isegwu u jittraċċaw is-semma soċjali tagħhom.

Kif jaħdem ir-rikonoxximent tal-immaġni?

Kif nafu l-AI tista’ tfittex pjattaformi tal-midja soċjali tfittex ritratti u tqabbelhom ma’ settijiet ta’ dejta estensivi. Imbagħad jiddeċiedi dwar immaġini rilevanti li taqbel b'rata ħafna aktar mgħaġġla milli kapaċi l-bnedmin. Il-marki jużaw ir-rikonoxximent tal-immaġni biex isibu kontenut simili għal tagħhom fuq il-midja soċjali. Dan ifisser li tidentifika l-logo ta' marka jew tirrikonoxxi t-tqegħid ta' prodotti mqiegħda b'mod organiku fost l-utenti tal-midja soċjali. Li titlob lill-bnedmin biex itellgħu tant informazzjoni faċilment isir għeja. L-AI ma tinkwietax dwar l-iżball uman, u tagħti riżultati preċiżi f'livelli mingħajr paragun. Ir-rikonoxximent tal-immaġni AI jimmonitorja dak li qed jgħidu n-nies dwar marka mingħajr il-ħtieġa ta 'test. Marki li jistgħu jsegwu l-aċċenn soċjali tagħhom mingħajr ma l-utenti jkollhom bżonn ittajpja l-isem tal-kumpanija se jsibu ruħhom f’pożizzjoni vantaġġuża. Il-potenzjal li jisfruttaw il-kopertura onlajn tagħhom stess biss permezz ta' identifikaturi rikonoxxuti mill-AI huwa enormi u joffri kopertura mingħajr paragun.

Hawn huma xi ħidmiet tipiċi tar-rikonoxximent tal-immaġni:-

Għall-ewwel irridu niddeterminaw jekk id-dejta tal-immaġini fiha jew le xi oġġett speċifiku, karatteristika, jew attività. Dan il-kompitu normalment jista 'jiġi solvut b'mod robust u mingħajr sforz minn bniedem, iżda għadu mhux solvut b'mod sodisfaċenti fil-viżjoni tal-kompjuter għall-każ ġenerali: oġġetti arbitrarji f'sitwazzjonijiet arbitrarji. Il-metodi eżistenti biex tittratta din il-problema jistgħu jiġu solvuti bl-aħjar mod biss għal oġġetti speċifiċi, bħal oġġetti ġeometriċi sempliċi (eż., polyhedra), uċuħ umani, karattri stampati jew miktuba bl-idejn, jew vetturi, u f'sitwazzjonijiet speċifiċi, tipikament deskritti f'termini ta 'illuminazzjoni definiti sew, sfond, u poża ta' l-oġġett relattiv għall-kamera. Varjetajiet differenti tal-problema tar-rikonoxximent huma deskritti fil-letteratura:

• Rikonoxximent tal-oġġett

Jistgħu jiġu rikonoxxuti oġġett jew klassi ta' oġġetti wieħed jew aktar speċifikati minn qabel jew mitgħallma, ġeneralment flimkien mal-pożizzjonijiet 2D tagħhom fl-immaġni jew pożizzjonijiet 3D fix-xena.

• Identifikazzjoni
Istanza individwali ta' oġġett hija rikonoxxuta. Eżempji huma identifikazzjoni ta' wiċċ jew marki tas-swaba' ta' persuna speċifika, jew identifikazzjoni ta' vettura speċifika.

• Sejbien
Id-dejta tal-immaġni hija skennjata għal kundizzjoni speċifika. Eżempji huma skoperta ta' ċelluli jew tessuti anormali possibbli f'immaġini mediċi jew skoperta ta' vettura f'sistema awtomatika ta' ħlas tat-toroq. L-iskoperta bbażata fuq komputazzjonijiet relattivament sempliċi u veloċi kultant tintuża biex jinstabu reġjuni iżgħar ta 'dejta ta' immaġini interessanti li tista 'tiġi analizzata aktar b'tekniki aktar eżiġenti b'komputazzjoni biex tiġi prodotta interpretazzjoni korretta.

Jeżistu diversi kompiti speċjalizzati bbażati fuq ir-rikonoxximent, bħal:

• Irkupru tal-immaġni bbażat fuq il-kontenut
Hawnhekk issib l-immaġini kollha f'sett akbar ta 'immaġini li għandhom kontenut speċifiku. Il-kontenut jista’ jiġi speċifikat b’modi differenti, pereżempju f’termini ta’ xebh relattiv ta’ immaġini fil-mira (agħtini l-immaġini kollha simili għall-immaġni X), jew f’termini ta’ kriterji ta’ tfittxija ta’ livell għoli mogħtija bħala input tat-test (agħtini l-immaġini kollha li fihom ħafna djar, jittieħdu matul ix-xitwa, u ma jkollhomx karozzi fihom).

• Stima tal-pożizzjoni
irridu nistmaw il-pożizzjoni jew l-orjentazzjoni ta 'oġġett speċifiku relattiv għall-kamera. Eżempju ta 'applikazzjoni għal din it-teknika tkun tassisti robot li jirkupra oġġetti minn conveyor belt f'sitwazzjoni ta' linja ta 'assemblaġġ.

• Rikonoxximent ottiku tal-karattri
OCR li hija tidentifika karattri f'immaġini ta 'test stampat jew miktub bl-idejn, ġeneralment bil-ħsieb li tikkodifika t-test f'format aktar u tippermetti li editjar jew indiċjar Dipartiment tax-Xjenza tal-Kompjuter u l-Inġinerija, Michigan State University. “Il-fakultà u l-istudenti tal-Lab tar-Rikonoxximent u l-Ipproċessar tal-Immaġni (PRIP) jinvestigaw l-użu tal-magni biex jagħrfu mudelli jew oġġetti. Huma żviluppati metodi biex iħossu l-oġġetti, biex jiskopru liema mill-karatteristiċi tagħhom jiddistingwuhom minn oħrajn, u biex jiddisinjaw algoritmi li jistgħu jintużaw minn magna biex tagħmel il-klassifikazzjoni. Applikazzjonijiet importanti jinkludu rikonoxximent tal-wiċċ, identifikazzjoni tal-marki tas-swaba ', analiżi tal-immaġni tad-dokument, kostruzzjoni ta' mudell ta 'oġġett 3D, navigazzjoni tar-robot, u viżwalizzazzjoni/esplorazzjoni ta' data volumetrika 3D. Il-problemi attwali tar-riċerka jinkludu awtentikazzjoni bijometrika, sorveljanza u traċċar awtomatiku, HCI mingħajr manki, immudellar tal-wiċċ, watermarking diġitali u analiżi tal-istruttura tad-dokumenti onlajn. Gradwati riċenti tal-laboratorju ħadmu fuq ir-rikonoxximent tal-kitba tal-idejn, il-verifika tal-firma, it-tagħlim viżwali, u l-irkupru tal-immaġni.”

⦁ Rikonoxximent tal-wiċċ
nafu li s-sistemi ta 'rikonoxximent tal-wiċċ qed isiru progressivament popolari bħala mezzi ta' estrazzjoni ta 'informazzjoni bijometrika. Ir-rikonoxximent tal-wiċċ għandu rwol kritiku fis-sistemi bijometriċi u huwa attraenti għal bosta applikazzjonijiet inklużi s-sorveljanza viżwali u s-sigurtà. Minħabba l-aċċettazzjoni tal-pubbliku ġenerali tal-immaġni tal-wiċċ fuq diversi dokumenti, ir-rikonoxximent tal-wiċċ għandu potenzjal kbir li jsir it-teknoloġija bijometrika tal-ġenerazzjoni li jmiss tal-għażla.

Sistemi ta' Rikonoxximent tal-Immaġni

⦁ Analiżi tal-moviment
Diversi kompiti għandhom x'jaqsmu mal-istima tal-moviment fejn sekwenza tal-immaġini tiġi pproċessata biex tipproduċi stima tal-veloċità jew f'kull punt tal-immaġni jew fix-xena 3D, jew saħansitra tal-kamera li tipproduċi l-immaġini. Eżempji ta’ kompiti bħal dawn huma:

⦁ Mozzjoni tal-ego
Id-determinazzjoni tal-moviment riġidu 3D (rotazzjoni u traduzzjoni) tal-kamera minn sekwenza ta 'immaġni prodotta mill-kamera.

⦁ Traċċar
It-traċċar qed isegwi l-movimenti ta' sett (ġeneralment) iżgħar ta' punti ta' interess jew oġġetti (eż. vetturi jew bnedmin) fis-sekwenza ta' l-immaġini.

⦁ Fluss ottiku
Dan biex jiġi ddeterminat, għal kull punt fl-immaġini, kif dak il-punt qed jiċċaqlaq relattiv għall-pjan tal-immaġni, jiġifieri, il-moviment apparenti tiegħu. Din il-mozzjoni hija riżultat kemm ta 'kif il-punt 3D korrispondenti qed jiċċaqlaq fix-xena u kif il-kamera qed tiċċaqlaq relattiva għax-xena.

⦁ Rikostruzzjoni tax-xena
Meta tingħata immaġini waħda jew (tipikament) aktar ta' xena, jew vidjo, ir-rikostruzzjoni tax-xena għandha l-għan li tikkomputa mudell 3D tax-xena. Fl-aktar każ sempliċi l-mudell jista 'jkun sett ta' punti 3D. Metodi aktar sofistikati jipproduċu mudell komplet tal-wiċċ 3D

⦁ Restawr tal-immaġni
L-għan tar-restawr tal-immaġini huwa t-tneħħija tal-istorbju (ħoss tas-sensuri, ċċajpar tal-moviment, eċċ.) mill-immaġini. L-aktar approċċ sempliċi possibbli għat-tneħħija tal-istorbju huwa tipi varji ta 'filtri bħal filtri low-pass jew filtri medjan. Metodi aktar sofistikati jassumu mudell ta' kif jidhru l-istrutturi tal-immaġni lokali, mudell li jiddistingwihom mill-istorbju. Billi l-ewwel tiġi analizzata d-dejta tal-immaġni f'termini tal-istrutturi tal-immaġni lokali, bħal linji jew truf, u mbagħad tikkontrolla l-iffiltrar ibbażat fuq informazzjoni lokali mill-pass tal-analiżi, ġeneralment jinkiseb livell aħjar ta 'tneħħija tal-istorbju meta mqabbel mal-approċċi aktar sempliċi. Eżempju f’dan il-qasam huwa l-pittura tagħhom. Xi sistemi huma applikazzjonijiet waħedhom li jsolvu problema speċifika ta’ kejl jew skoperta, filwaqt li oħrajn jikkostitwixxu sottosistema ta’ disinn ikbar li, pereżempju, fiha wkoll sottosistemi għall-kontroll ta’ attwaturi mekkaniċi, ippjanar, databases ta’ informazzjoni, man- interfaces tal-magni, eċċ. L-implimentazzjoni speċifika ta 'sistema ta' viżjoni bil-kompjuter tiddependi wkoll fuq jekk il-funzjonalità tagħha hijiex speċifikata minn qabel jew jekk xi parti minnha tistax titgħallem jew tiġi modifikata waqt it-tħaddim. Hemm, madankollu, funzjonijiet tipiċi li jinstabu f'ħafna sistemi ta 'viżjoni bil-kompjuter.

Tagħlim aktar profond b'rikonoxximent tal-immaġni

Ir-rikonoxximent tal-immaġni kien hemm qabel l-AI. Madankollu l-fattur tat-tagħlim tal-magni qed jirrevoluzzjona l-metodi għall-identifikazzjoni ta 'oġġett jew wiċċ ta' persuna. Madankollu, it-tagħlim bil-magni huwa effettiv biss meta jkun hemm dejta biex titmagħha. Għall-awtomazzjoni kollha tal-AI, il-kompitu tagħha biex tidentifika l-immaġini mhijiex talba sempliċi. Il-fehim tagħna tal-viżwali huwa t-tieni natura; hija xi ħaġa li aħna pprogrammati li nagħmlu minn età żgħira. Li tistaqsi l-istess ta 'magna mhuwiex proċess sempliċi. Għal dik ir-raġuni, waħda mill-aktar forom popolari ta 'rikonoxximent tal-AI hija n-netwerks newrali konvoluzzjonali (CNN). CNN huwa metodu li jiffoka fuq pixels li jinsabu ħdejn xulxin. Immaġini li jinsabu mill-qrib huma aktar probabbli li jkunu relatati, li jfisser li oġġett jew wiċċ jitqabbel ma 'stampa b'aktar trasparenza.
Filwaqt li l-marki li qed ifittxu li monetize l-midja soċjali għalkemm ir-rikonoxximent tal-immaġni tal-AI jġorru benefiċċji ċari, il-każijiet tal-użu tagħha huma ferm aktar profondi. Karozzi li jsuqu waħedhom waslu biex ikunu l-ħaġa kbira li jmiss fid-dinja tal-karozzi, u t-teknoloġija tar-rikonoxximent tal-immaġni tal-AI qed tgħin biex isaħħuhom. Karozza li ssuq waħedha li tista’ tiskopri oġġetti u nies fit-triq biex ma taħbatx fihom ma tiġrix awtomatikament. Jeħtieġ li tagħraf l-immaġini biex tieħu deċiżjonijiet infurmati. Kull karozza li ssuq waħedha hija mgħammra b'diversi sensors sabiex tkun tista' tidentifika vetturi oħra li jiċċaqalqu, ċiklisti, nies - bażikament kull ħaġa li tista' toħloq periklu. Karozza awtomatizzata teħtieġ tipproċessa l-perikli tat-triq bl-istess mod li jagħmel sewwieq imħawwar. Għad hemm ftit aspetti li jridu jiġu eliminati qabel ma l-karozzi li jsuqu waħedhom jolqtu t-triq fl-2020. Iżda meta l-awtomazzjoni tal-vetturi tibda taħdem, ir-rikonoxximent tal-immaġni AI se jkun wieħed mis-sewwieqa ewlenin warajhom li jaħdmu b'mod sikur.
⦁ Image-acqucition
Immaġini diġitali hija prodotta minn sensers tal-immaġni wieħed jew diversi, li, minbarra diversi tipi ta 'kameras sensittivi għad-dawl, jinkludu sensuri tal-firxa, apparati tat-tomografija, radar, kameras ultrasoniċi, eċċ. Skont it-tip ta' sensur, id-dejta tal-immaġni li tirriżulta hija immaġni 2D ordinarja, volum 3D, jew sekwenza ta 'immaġni. Il-valuri tal-pixel tipikament jikkorrispondu għall-intensità tad-dawl f'meded spettrali waħda jew diversi (immaġini griżi jew immaġini bil-kulur), iżda jistgħu wkoll ikunu relatati ma 'diversi miżuri fiżiċi, bħal fond, assorbiment jew riflessjoni ta' mewġ soniku jew elettromanjetiku, jew reżonanza manjetika nukleari.
⦁ Ipproċessar minn qabel:
Qabel ma metodu ta 'viżjoni bil-kompjuter jista' jiġi applikat għal data ta 'l-immaġini sabiex tiġi estratta xi biċċa speċifika ta' informazzjoni, ġeneralment ikun meħtieġ li tiġi pproċessata d-data sabiex jiġi żgurat li tissodisfa ċerti suppożizzjonijiet implikati mill-metodu. Eżempji huma
1. Teħid mill-ġdid tal-kampjuni sabiex jiġi żgurat li s-sistema tal-koordinati tal-immaġni hija korretta.
2. Tnaqqis tal-ħoss sabiex jiġi żgurat li l-istorbju tas-sensorju ma jintroduċix informazzjoni falza.
3. Titjib tal-kuntrast biex jiġi żgurat li l-informazzjoni rilevanti tkun tista' tiġi skoperta.
4. Rappreżentazzjoni ta' skala-spazju biex ittejjeb l-istrutturi tal-immaġini fi skali xierqa lokalment.
⦁ Estrazzjoni tal-karatteristiċi:
Il-karatteristiċi tal-immaġni f'diversi livelli ta 'kumplessità huma estratti mid-dejta tal-immaġni. Eżempji tipiċi ta 'karatteristiċi bħal dawn huma linji, truf u xfar
Punti ta' interess lokalizzati bħal kantunieri, bċejjeċ jew punti. Karatteristiċi aktar kumplessi jistgħu jkunu relatati man-nisġa, il-forma jew il-moviment.
⦁ Sejbien/segmentazzjoni:
F'xi punt fl-ipproċessar tittieħed deċiżjoni dwar liema punti jew reġjuni tal-immaġni huma rilevanti għal aktar ipproċessar. Eżempji huma
1. Għażla ta' sett speċifiku ta' punti ta' interess
2. Segmentazzjoni ta' reġjun ta' immaġini wieħed jew multipli li jkun fihom oġġett speċifiku ta' interess.
⦁ Ipproċessar ta 'livell għoli:
F'dan il-pass l-input huwa tipikament sett żgħir ta 'data, pereżempju sett ta' punti jew reġjun ta 'immaġni li huwa preżunt li jkun fih oġġett speċifiku. L-ipproċessar li jifdal jittratta, pereżempju:
1. Verifika li d-dejta tissodisfa suppożizzjonijiet ibbażati fuq mudell u speċifikazzjonijiet tal-applikazzjoni.
2. Stima ta 'parametri speċifiċi ta' applikazzjoni, bħall-pożi tal-oġġett jew id-daqs tal-oġġett.
3. Il-klassifikazzjoni ta 'oġġett misjub f'kategoriji differenti. Allura, l-ipproċessar tal-immaġni jgħin lill-AI biex tidentifika l-immaġni u tirrispondi skont l-identifikazzjoni tal-immaġni.

Futur bla xkiel ta' xbihat

Hekk kif it-teknoloġija titjieb, ir-rikonoxximent tal-immaġni se jagħti riżultati saħansitra akbar. Kap tat-Tagħlim tal-Magni f'Lobster, Vladimir Pavlov jgħid, "Il-bażi matematika għar-rikonoxximent tal-oġġetti ilha teżisti għal żmien twil, iżda l-possibbiltajiet teknoloġiċi tal-użu tal-algoritmi tal-viżjoni bil-kompjuter dehru reċentement. Diġà, in-netwerks newrali jippermettu li jsiru ditekters perfetti li huma kapaċi jaħdmu aħjar mill-bnedmin. A big jerk iżżomm lura l-preżenza ta 'settijiet ta' dejta ta 'immaġni mmarkati għat-taħriġ, iżda fil-futur qarib, dan mhux se jkun problema. L-inġiniera tal-viżjoni tal-kompjuter qed jaħdmu b'mod attiv fuq algoritmi ta' tagħlim għal rashom”.B'futur influwenzat tant mill-komunikazzjoni viżiva, ir-rikonoxximent tal-immaġni se jkun il-fattur ewlieni wara ħafna mill-istampi li naraw. Kemm fil-ħajja reali kif ukoll online.