Mwongozo wa Utambuzi wa Picha wa AI

Kwa nini utambuzi wa picha ni muhimu?

Takriban asilimia 80 ya maudhui kwenye mtandao yanaonekana. Tayari unaweza kuanza kufahamu ni kwa nini uwekaji tagi unaweza kushikilia nafasi yake kama mfalme wa jedwali la maudhui. Iwe ni watu binafsi au makampuni, utambuzi wa picha wa AI umewezesha kutambua picha zinazoonekana mtandaoni kwa fujo ndogo. Kuna takriban picha bilioni 657 zinazotumwa kila mwaka kwa njia ya kidijitali, nyingi zikionekana kwenye mitandao ya kijamii. Sehemu nzuri ya picha hizo ni watu wanaotangaza bidhaa, hata kama wanafanya hivyo bila kujua. Maudhui yanayotokana na mtumiaji (UGC) katika umbo lake safi ni kiwezeshaji bora kwa chapa kwani hutoa aina bora ya utangazaji.
Kuna zana za utangazaji za kutahadharisha makampuni kunapokuwa na kutajwa kwa watumiaji kwenye mitandao ya kijamii, lakini vipi kuhusu wakati ukuzaji wa chapa unafanyika bila mtu yeyote kuweka jina lao kwenye chapisho la kijamii? Hapa ndipo utambuzi wa picha wa AI unathibitisha thamani yake. Ikiwa teknolojia inalishwa hifadhidata sahihi, AI inaweza kutambua picha bila kutajwa kwa lebo maalum. Matokeo ni ya thamani sana kwa chapa kufuatilia na kufuatilia mitajo yao ya kijamii.

Utambuzi wa picha hufanyaje kazi?

Kama tunavyojua AI inaweza kutafuta majukwaa ya mitandao ya kijamii ikitafuta picha na kuzilinganisha na seti nyingi za data. Kisha huamua juu ya picha inayofaa ambayo inalingana kwa kasi zaidi kuliko uwezo wa wanadamu. Biashara hutumia utambuzi wa picha kupata maudhui sawa na yao kwenye mitandao ya kijamii. Hiyo inamaanisha kutambua nembo ya chapa au kutambua uwekaji wa bidhaa uliowekwa kikaboni miongoni mwa watumiaji wa mitandao ya kijamii. Kuuliza wanadamu kupitia habari nyingi kunachosha kwa urahisi. AI haina wasiwasi juu ya makosa ya kibinadamu, na inarudisha matokeo sahihi katika viwango visivyo na kifani. Utambuzi wa picha wa AI hufuatilia kile ambacho watu wanasema kuhusu chapa bila hitaji la maandishi. Biashara zinazoweza kufuatilia mitajo yao ya kijamii bila watumiaji kuhitaji kuandika jina la kampuni zitajikuta katika nafasi nzuri. Uwezo wa kugusa huduma zao za mtandaoni pekee kupitia vitambulishi vinavyotambuliwa na AI ni mkubwa na unatoa chanjo isiyo na kifani.

Hapa kuna kazi za kawaida za utambuzi wa picha: -

Kwanza tunapaswa kuamua ikiwa data ya picha ina kitu fulani, kipengele au shughuli fulani. Kazi hii inaweza kawaida kutatuliwa kwa nguvu na bila jitihada na mwanadamu, lakini bado haijatatuliwa kwa kuridhisha katika maono ya kompyuta kwa kesi ya jumla: vitu vya kiholela katika hali ya kiholela. Mbinu zilizopo za kushughulikia tatizo hili zinaweza kusuluhishwa vyema kwa vitu maalum tu, kama vile vitu rahisi vya kijiometri (kwa mfano, polihedra), nyuso za binadamu, herufi zilizochapishwa au kuandikwa kwa mkono, au magari, na katika hali mahususi, kwa kawaida hufafanuliwa kwa maneno. ya mwanga uliobainishwa vyema, usuli, na mkao wa kitu kinachohusiana na kamera. Aina tofauti za shida ya utambuzi zimeelezewa katika fasihi:

• Utambuzi wa kitu

Kipengee kimoja au kadhaa kilichobainishwa awali au kujifunza au darasa la kitu kinaweza kutambuliwa, kwa kawaida pamoja na nafasi zao za P2 kwenye picha au misimamo ya 3D kwenye eneo.

• Utambulisho
Mfano wa mtu binafsi wa kitu unatambuliwa. Mifano ni kitambulisho cha uso au alama ya vidole ya mtu mahususi, au kitambulisho cha gari mahususi.

• Ugunduzi
Data ya picha inachanganuliwa kwa hali maalum. Mifano ni ugunduzi wa seli au tishu zisizo za kawaida zinazowezekana katika picha za matibabu au kugundua gari katika mfumo wa utozaji wa barabara otomatiki. Ugunduzi unaotegemea ukokotoaji rahisi na wa haraka wakati mwingine hutumiwa kutafuta maeneo madogo ya data ya picha ya kuvutia ambayo inaweza kuchanganuliwa zaidi kwa mbinu zinazohitaji kukokotoa zaidi ili kutoa tafsiri sahihi.

Kuna kazi kadhaa maalum kulingana na utambuzi, kama vile:

• Urejeshaji wa picha unaotegemea maudhui
Hapa kupata picha zote katika seti kubwa ya picha ambazo zina maudhui maalum. Maudhui yanaweza kubainishwa kwa njia tofauti, kwa mfano katika suala la kufanana kulingana na picha inayolengwa (nipe picha zote zinazofanana na picha X), au kulingana na vigezo vya utafutaji vya juu vilivyotolewa kama uingizaji maandishi (nipe picha zote zilizo na nyumba nyingi, huchukuliwa wakati wa baridi, na hawana magari ndani yao).

• Weka makadirio
tunapaswa kukadiria nafasi au mwelekeo wa kitu maalum kinachohusiana na kamera. Mfano wa utumizi wa mbinu hii itakuwa kusaidia roboti kupata vitu kutoka kwa ukanda wa kupitisha katika hali ya kuunganisha.

• Utambuzi wa herufi macho
OCR ambayo ni kutambua herufi katika picha za maandishi yaliyochapishwa au yaliyoandikwa kwa mkono, kwa kawaida kwa nia ya kusimba maandishi katika umbizo zaidi na kuwezesha kuhariri au kuorodhesha Idara ya Sayansi ya Kompyuta na Uhandisi, Chuo Kikuu cha Jimbo la Michigan. "Kitivo cha Maabara ya Utambuzi na Uchakataji Picha (PRIP) na wanafunzi wanachunguza utumiaji wa mashine kutambua muundo au vitu. Mbinu hutengenezwa ili kuhisi vitu, kugundua ni kipengele gani kati ya vipengele vyake vinavyotofautisha na vingine, na kubuni kanuni za algoriti ambazo zinaweza kutumiwa na mashine kufanya uainishaji. Programu muhimu ni pamoja na utambuzi wa uso, kitambulisho cha vidole, uchanganuzi wa picha ya hati, ujenzi wa kielelezo cha 3D, usogezaji wa roboti, na taswira/uchunguzi wa data ya ujazo wa 3D. Matatizo ya sasa ya utafiti ni pamoja na uthibitishaji wa kibayometriki, ufuatiliaji na ufuatiliaji otomatiki, HCI isiyo na mikono, uundaji wa sura ya uso, uwekaji alama za kidijitali na uchanganuzi wa muundo wa hati za mtandaoni. Wahitimu wa hivi majuzi wa maabara wamefanya kazi ya utambuzi wa mwandiko, uthibitishaji wa saini, ujifunzaji wa kuona, na kurejesha picha.

⦁ Utambuzi wa Uso
tunajua kuwa mifumo ya utambuzi wa nyuso inazidi kuwa maarufu kama njia ya kutoa maelezo ya kibayometriki. Utambuzi wa uso una jukumu muhimu katika mifumo ya kibayometriki na inavutia kwa matumizi mengi ikiwa ni pamoja na ufuatiliaji wa kuona na usalama. Kwa sababu ya kukubalika kwa umma kwa picha za uso kwenye hati mbalimbali, utambuzi wa uso una uwezo mkubwa wa kuwa teknolojia ya kibayometriki ya kizazi kijacho ya chaguo.

Mifumo ya Utambuzi wa Picha

⦁ Uchambuzi wa mwendo
Majukumu kadhaa yanahusiana na ukadiriaji wa mwendo ambapo mfuatano wa picha huchakatwa ili kutoa makadirio ya kasi katika kila sehemu kwenye picha au katika eneo la 3D, au hata ya kamera inayotoa picha hizo. Mifano ya kazi hizo ni:

⦁ Mwendo wa ego
Kubainisha mwendo thabiti wa 3D (mzunguko na tafsiri) wa kamera kutoka kwa mlolongo wa picha unaotolewa na kamera.

⦁ Ufuatiliaji
Kufuatilia ni kufuata miondoko ya (kawaida) seti ndogo ya vitu au vitu vinavyovutia (km, magari au wanadamu) katika mfuatano wa picha.

⦁ Mtiririko wa macho
Hii ni kuamua, kwa kila nukta kwenye picha, jinsi hatua hiyo inavyosonga kuhusiana na ndege ya picha, yaani, mwendo wake unaoonekana. Mwendo huu ni matokeo ya jinsi sehemu ya 3D inayolingana inavyosonga katika eneo na jinsi kamera inavyosonga ikilinganishwa na eneo.

⦁ Ujenzi upya wa eneo
Kwa kuzingatia picha moja au (kawaida) zaidi ya tukio, au video, ujenzi upya wa eneo unalenga kuweka muundo wa 3D wa tukio. Katika kesi rahisi zaidi mfano unaweza kuwa seti ya pointi 3D. Njia za kisasa zaidi hutoa mfano kamili wa uso wa 3D

⦁ Marejesho ya picha
Kusudi la kurejesha picha ni kuondoa kelele (kelele ya sensorer, ukungu wa mwendo, n.k.) kutoka kwa picha. Njia rahisi zaidi ya kuondoa kelele ni aina mbalimbali za vichujio kama vile vichujio vya pasi ya chini au vichujio vya wastani. Mbinu za kisasa zaidi huchukua mfano wa jinsi miundo ya picha ya ndani inaonekana kama, mfano unaowatofautisha na kelele. Kwa kuchanganua kwanza data ya picha kulingana na miundo ya picha ya ndani, kama vile mistari au kingo, na kisha kudhibiti uchujaji kulingana na maelezo ya ndani kutoka kwa hatua ya uchambuzi, kiwango bora cha uondoaji wa kelele hupatikana ikilinganishwa na mbinu rahisi. Mfano katika uwanja huu ni uchoraji wao. Mifumo mingine ni programu za kujitegemea ambazo hutatua tatizo la kipimo au ugunduzi mahususi, huku mingine ikijumuisha mfumo mdogo wa muundo mkubwa zaidi ambao, kwa mfano, pia una mifumo midogo ya udhibiti wa vianzishaji mitambo, upangaji, hifadhidata za habari, mtu- violesura vya mashine, n.k. Utekelezaji mahususi wa mfumo wa kuona wa kompyuta pia unategemea ikiwa utendakazi wake umebainishwa mapema au ikiwa sehemu yake inaweza kujifunza au kurekebishwa wakati wa operesheni. Kuna, hata hivyo, kazi za kawaida ambazo zinapatikana katika mifumo mingi ya maono ya kompyuta.

Kujifunza kwa kina na utambuzi wa picha

Utambuzi wa picha ulikuwa karibu kabla ya AI. Bado kipengele cha kujifunza kwa mashine kinaleta mageuzi katika mbinu za kutambua kitu au uso wa mtu. Kujifunza kwa mashine kunafaa tu wakati kuna data ya kuilisha, hata hivyo. Kwa otomatiki zote za AI, kuikabidhi kazi ya kutambua picha sio ombi rahisi. Uelewa wetu wa vielelezo ni asili ya pili; ni kitu ambacho tumepangwa kufanya kutoka kwa umri mdogo. Kuuliza sawa kwa mashine sio mchakato wa moja kwa moja. Kwa sababu hiyo, mojawapo ya aina maarufu zaidi za utambuzi wa AI ni mitandao ya neural ya uongofu (CNN). CNN ni njia inayozingatia saizi zilizo karibu na kila mmoja. Picha zilizo karibu zina uwezekano mkubwa wa kuhusishwa, ambayo inamaanisha kuwa kitu au uso unalingana na picha yenye uwazi zaidi.
Ingawa chapa zinazotazamia kuchuma mapato kwa mitandao ya kijamii ingawa utambuzi wa picha za AI hubeba manufaa wazi, kesi zake za utumiaji zinaenda kwa undani zaidi. Magari yanayojiendesha yanakaribia kuwa jambo kubwa linalofuata katika ulimwengu wa magari, na teknolojia ya utambuzi wa picha ya AI inasaidia kuyawezesha. Gari linalojiendesha ambalo linaweza kutambua vitu na watu barabarani ili lisiwagonge halitokei kiotomatiki. Inahitaji kutambua picha ili kufanya maamuzi sahihi. Kila gari linalojiendesha lina vihisi kadhaa ili liweze kutambua magari mengine yanayosonga, waendesha baiskeli, watu - kimsingi chochote ambacho kinaweza kusababisha hatari. Gari la kiotomatiki linahitaji kushughulikia hatari za barabara kama vile dereva mwenye uzoefu anavyofanya. Bado kuna vipengele vichache vya kurekebisha kabla ya magari yanayojiendesha yenyewe kuingia barabarani mwaka wa 2020. Lakini uwekaji otomatiki utakapoanza, utambuzi wa picha wa AI utakuwa mojawapo ya vichochezi kuu nyuma yao kufanya kazi kwa usalama.
⦁ Upataji wa picha
Picha ya dijiti inatolewa na sensorer moja au kadhaa za picha, ambazo, pamoja na aina mbalimbali za kamera nyeti, zinajumuisha sensorer mbalimbali, vifaa vya tomografia, rada, kamera za ultra-sonic, nk. Kulingana na aina ya sensor, data ya picha inayotokana. ni picha ya kawaida ya 2D, sauti ya 3D, au mlolongo wa picha. Thamani za pikseli kwa kawaida hulingana na ukubwa wa mwanga katika bendi moja au kadhaa za spectral (picha za kijivu au picha za rangi), lakini pia zinaweza kuhusishwa na hatua mbalimbali za kimaumbile, kama vile kina, ufyonzaji au uakisi wa mawimbi ya sonic au sumakuumeme, au mwako wa sumaku ya nyuklia.
⦁ Usindikaji wa awali:
Kabla ya mbinu ya maono ya kompyuta kutumika kwa data ya picha ili kutoa baadhi ya taarifa mahususi, kwa kawaida ni muhimu kuchakata data ili kuhakikisha kwamba inakidhi mawazo fulani yanayodokezwa na mbinu hiyo. Mifano ni
1. Kuchukua tena sampuli ili kuhakikisha kuwa mfumo wa kuratibu picha ni sahihi.
2. Kupunguza kelele ili kuhakikisha kuwa kelele ya kihisia haileti taarifa za uwongo.
3. Uboreshaji wa utofautishaji ili kuhakikisha kwamba taarifa muhimu inaweza kugunduliwa.
4. Uwakilishi wa nafasi ya mizani ili kuboresha miundo ya picha katika mizani inayofaa ndani.
⦁ Uchimbaji wa kipengele:
Vipengele vya picha katika viwango mbalimbali vya utata vinatolewa kutoka kwa data ya picha. Mifano ya kawaida ya vipengele vile ni mistari, kingo na matuta
Vivutio vilivyojanibishwa kama vile pembe, matone au pointi. Vipengele ngumu zaidi vinaweza kuhusiana na umbile, umbo au mwendo.
⦁ Ugunduzi/mgawanyiko:
Wakati fulani katika usindikaji uamuzi unafanywa kuhusu ni sehemu gani za picha au maeneo ya picha yanafaa kwa usindikaji zaidi. Mifano ni
1. Uchaguzi wa seti maalum ya pointi za maslahi
2. Mgawanyiko wa sehemu moja au nyingi za picha ambazo zina kitu mahususi cha riba.
⦁ Usindikaji wa kiwango cha juu:
Katika hatua hii ingizo kwa kawaida huwa ni seti ndogo ya data, kwa mfano seti ya pointi au eneo la uhuishaji ambalo linadhaniwa kuwa na kitu mahususi. Usindikaji uliobaki unashughulika na, kwa mfano:
1. Uthibitishaji kwamba data inakidhi matakwa ya msingi wa modeli na matumizi.
2. Ukadiriaji wa vigezo mahususi vya programu, kama vile mkao wa kitu au ukubwa wa kitu.
3. Kuainisha kitu kilichogunduliwa katika makundi mbalimbali.Kwa hiyo, usindikaji wa picha husaidia AI kutambua picha na kujibu kulingana na kitambulisho cha picha.

Mustakabali usio na mshono wa taswira

Kadiri teknolojia inavyoboresha, utambuzi wa picha utaleta matokeo makubwa zaidi. Mkuu wa Kujifunza kwa Mashine huko Lobster, Vladimir Pavlov anasema, "Msingi wa hisabati wa utambuzi wa kitu umekuwepo kwa muda mrefu, lakini uwezekano wa kiteknolojia wa kutumia algoriti za maono ya kompyuta ulionekana hivi karibuni. Tayari, mitandao ya neural inaruhusu kutengeneza vigunduzi kamili ambavyo vinaweza kufanya kazi vizuri zaidi kuliko wanadamu. Jerk kubwa inazuia uwepo wa hifadhidata za picha zilizowekwa alama kwa mafunzo, lakini katika siku za usoni, hii haitakuwa shida. Wahandisi wa maono ya kompyuta wanafanya kazi kwa bidii katika kanuni za kujifunzia”. Kwa siku zijazo kuathiriwa sana na mawasiliano ya kuona, utambuzi wa picha utakuwa jambo kuu nyuma ya picha nyingi tunazoziona. Katika maisha halisi na mtandaoni.