Kwa nini utambuzi wa picha ni muhimu?

Takriban 80% ya dutu kwenye wavuti inaonekana. Tayari utaweza kuanza kufahamu ni kwa nini uwekaji lebo kwenye picha unaweza kushikilia nafasi yake kama bwana wa jedwali la dutu. Bila kujali kama ni watu au mashirika, utambuzi wa picha wa AI umefanya iwezekane kutofautisha picha zinazoonekana mtandaoni na kitu kisicho na umuhimu. Kuna takriban picha bilioni 657 zinazotumwa kila mwaka kwa uangalifu, huku sehemu kubwa ikionyeshwa kupitia vyombo vya habari vya mtandaoni. Sehemu nzuri ya picha hizo ni watu wanaoendeleza vitu, bila kujali kama wanafanya hivyo kwa bahati mbaya. Maudhui yanayozalishwa na mteja (UGC) katika muundo wake bora zaidi ni ushawishi mzuri wa kuwezesha chapa kwani inatoa aina bora zaidi ya maendeleo.

Kuna vifaa vya utangazaji kwa mashirika ya kuonya kunapokuwa na arifa ya mnunuzi kupitia mitandao ya mtandaoni, hata hivyo, je, haipaswi kusemwa kitu kuhusu wakati maendeleo ya chapa yanapofanyika bila mtu yeyote kuandika jina lake kwenye chapisho la kijamii? Hapa ndipo mahali ambapo utambuzi wa picha ya AI unaonyesha thamani yake. Iwapo teknolojia inatunzwa kwa hifadhidata sahihi, AI inaweza kutofautisha picha bila lebo ya lugha chafu inayorejelea. Matokeo ni muhimu kwa chapa kufuatilia na kufuata arifa zao za kijamii.

Utambuzi wa picha hufanyaje kazi?

Kama tunavyojua AI inaweza kuangalia kupitia hatua za media za wavuti kutafuta picha na kuzitofautisha na mkusanyiko mpana wa habari. Wakati huo huchagua picha inayofaa inayolingana kwa kasi ya haraka zaidi kuliko watu wanavyoweza kufanya. Biashara hutumia uthibitisho wa picha kugundua maudhui kama yao kupitia midia inayotegemea wavuti. Hiyo ina maana ya kutofautisha nembo ya chapa au kutambua hali ya kipengee kilichowekwa kwa kawaida kati ya wateja wa media wanaotegemea wavuti. Kuomba watu kuvua kupitia data nyingi hivyo kunachosha. Ujuzi ulioigizwa haukazii makosa ya mwanadamu, na huleta matokeo kamili katika viwango visivyolingana. Picha ya ufahamu Bandia huonyesha kile ambacho watu binafsi wanasema kuhusu chapa bila hitaji la maandishi. Biashara zilizo tayari kufuata arifa zao za kijamii bila wateja wanaotarajia kuandika jina la shirika zitaishia katika nafasi nzuri sana. Uwezekano wa kuchukua fursa ya kujumuishwa kwao mtandaoni pekee kupitia vitambulishi vinavyotambuliwa na AI ni mkubwa na unatoa ujumuishaji usio na kifani.

Hapa kuna safari za kawaida za utambuzi wa picha: -

Tangu mwanzo tunahitaji kuamua ikiwa maelezo ya picha yana makala fulani, kuangazia, au harakati fulani. Jukumu hili kwa kawaida linaweza kushughulikiwa kwa moyo wote na bila kujitahidi na mwanadamu, lakini bado halijashughulikiwa vya kutosha katika maono ya Kompyuta kwa kesi ya jumla: makala za uthubutu katika hali za hiari. Mbinu za sasa za kudhibiti suala hili zinaweza kushughulikiwa vyema kwa ajili ya makala wazi, kwa mfano, vipengele vya msingi vya hisabati (km, polyhedral), nyuso za binadamu, herufi zilizochapishwa au zilizonakiliwa, au magari, na katika hali dhahiri, zinazoonyeshwa kwa kawaida hadi wote. kung'aa, msingi na mkao wa kipengee ukilinganisha na kamera. Aina mbalimbali za suala la kukiri zimeonyeshwa katika maandishi:

• Utambuzi wa kitu

Makala moja au machache yaliyoamuliwa mapema au yaliyojifunza au darasa la vipengee vinaweza kutambuliwa, kwa kawaida pamoja na hali zao za P2 kwenye picha au mikao ya 3D katika eneo.

• Utambulisho

Kesi ya mtu binafsi ya makala inachukuliwa. Miundo ni uthibitisho bainifu wa uso wa mtu fulani au alama ya kipekee, au kitambulisho cha gari fulani.

• Ugunduzi

Habari ya picha inachunguzwa kwa hali fulani. Miundo ni ugunduzi wa seli au tishu ngeni zinazoweza kudhaniwa katika picha za kimatibabu au utambuzi wa gari katika mfumo wa gharama ya mtaani uliopangwa. Ugunduzi unaotegemea hesabu za moja kwa moja na za haraka hutumika hapa na pale kwa ajili ya kutafuta wilaya za kawaida zaidi za maelezo ya picha ya kuvutia ambayo yanaweza kutatuliwa kwa kuomba mikakati ya kimahesabu ili kuunda tafsiri sahihi.

Ahadi chache maalum zinazotegemea kukiri zipo, kwa mfano,

• Urejeshaji wa picha kulingana na maudhui

Hapa kugundua picha zote katika mpangilio mkubwa wa picha ambazo zina dutu fulani. Dutu hii inaweza kuamuliwa kwa njia isiyotarajiwa, kwa mfano kuhusiana na ufananisho wa picha inayokusudiwa (nipe picha zote kama picha X), au kwa kadiri ya viwango muhimu vya kufuata vilivyotolewa kama uingizaji wa maandishi (nipe picha zote ambazo zina nyingi). nyumba, huchukuliwa wakati wa baridi, na hawana magari ndani yao).

• Weka tathmini

tunahitaji kupima nafasi au mwelekeo wa makala fulani kwa kulinganisha na kamera. Utumizi wa muundo wa mkakati huu ungesaidia roboti kurejesha bidhaa kutoka kwa njia ya usafiri katika hali ya mfumo wa uzalishaji wa kimitambo.

• Kukubali tabia ya macho

OCR ambayo inatofautisha herufi katika picha za maudhui yaliyochapishwa au yaliyoandikwa kwa mikono, kwa sehemu kubwa lengo likiwa ni kusimba maudhui katika shirika zaidi na kuwawezesha kubadilisha au kuagiza Idara ya Sayansi ya Kompyuta na Uhandisi, Chuo Kikuu cha Jimbo la Michigan. Mikakati huundwa ili kugundua vitu, kupata ni vipi kati ya vivutio vyake vinavyotambua kutoka kwa wengine, na kupanga hesabu ambazo zinaweza kutumiwa na mashine kufanya uainishaji. Programu muhimu hujumuisha utambuzi wa uso, uthibitisho unaotambulika wa taswira ya kidole, uchunguzi wa picha ya rekodi, uundaji wa kielelezo cha makala ya 3D, njia ya roboti, na uwakilishi/uchunguzi wa maelezo ya sauti ya 3D. Masuala ya utafiti wa Ebb na mtiririko yanajumuisha uthibitishaji wa kibayometriki, uchunguzi ulioratibiwa na kufuata, HCI isiyo na mikono, uonyeshaji wa nyuso, uwekaji alama za maji kwa kompyuta na uchunguzi wa muundo wa kumbukumbu za mtandaoni. Wahitimu wa marehemu wa maabara wameshughulikia uthibitisho wa uandishi, ukaguzi wa saini, ujifunzaji wa kuona, na urejeshaji wa picha.

mfano:

Tunapaswa kuona kwamba inachukua saizi kadhaa za data kwa kushangaza kuwa na chaguo la kutambua mada ya picha, kikundi kinachoendeshwa na mtaalamu wa MIT kimepata. Ufunuo huo unaweza kuchochea maendeleo ya ajabu katika uthibitisho unaotambulika wa mitambo wa picha za mtandaoni na, hatimaye, kutoa msingi kwa Kompyuta kuona kama watu wanavyofanya. Kuonyesha taswira fupi hasa itakuwa hatua kubwa kuelekea kuifanya iwezekane kuorodhesha mabilioni ya picha kwenye Mtandao. Kufikia sasa, mbinu pekee za kutafuta picha zinategemea maandishi ya maudhui ambayo watu binafsi wameingiza kwa mkono kwa kila picha, na picha nyingi zinahitaji data kama hiyo. Kitambulisho kilichopangwa pia kinaweza kutoa mbinu ya kupakua picha za faili kutoka kwa kamera za kompyuta hadi kwenye Kompyuta zao, bila kutumia na kuandika kila moja kwa mkono. Pia, hatimaye inaweza kuhimiza kuona kwa mashine halisi, ambayo wakati fulani inaweza kuruhusu roboti kutatua taarifa zinazotoka kwenye kamera zao na kutatua zilipo. imetengenezwa kutokana na makala inayofanana kwa ujumla, kwa ujumla katika mpangilio sawa.” Ikiwa picha moja imehusishwa na maandishi au kichwa, wakati huo picha tofauti zinazoratibu msimbo wake wa hisabati huenda zingeonyesha kitu sawa, (kwa mfano, gari, mti, au mtu binafsi) kwa hivyo jina linalohusiana na picha moja linaweza kuwa. ilihamia kwa wengine. "Pamoja na picha nyingi sana, hata hesabu za moja kwa moja zinaweza kufanya vyema" katika kutambua picha kwa njia hiyo.

⦁ Utambuzi wa Uso

tunatambua kuwa mifumo ya kutambua uso inazidi kupata umaarufu kama mbinu za kuondoa data ya kibayometriki. Kukubali uso kuna sehemu ya msingi katika mifumo ya kibayometriki na kunavutia kwa matumizi mbalimbali ikiwa ni pamoja na upelelezi unaoonekana na usalama. Kwa kuzingatia idadi ya jumla ya idadi ya watu inayokubali picha za uso kwenye ripoti tofauti, kukiri uso kuna uwezo wa ajabu wa kugeuka kuwa uvumbuzi wa hali ya juu wa uamuzi wa kibayometriki.

Mifumo ya Utambuzi wa Picha

⦁ Uchunguzi wa mwendo

Majukumu machache yanaainishwa na tathmini ya mwendo ambapo mfululizo wa picha hutayarishwa ili kuunda kipimo cha kasi ama katika kila mwelekeo kwenye picha au katika eneo la 3D, au hata ya kamera inayowasilisha picha. Mifano ya kazi kama hizi ni:

⦁ Ego harakati

Kuamua mwendo wa 3D usionyumbulika (pivot na tafsiri) ya kamera kutoka kwa mfululizo wa picha iliyoundwa na kamera.

⦁ Ufuatiliaji

Ifuatayo itakuwa kufuatia maendeleo ya (kwa ujumla) mpangilio wa kawaida zaidi wa maslahi au maandamano (km, magari au watu) katika mfululizo wa picha.

⦁ Mtiririko wa macho

Hii ni kuamua, kwa kila nukta kwenye picha, jinsi hatua hiyo inavyosonga kwa kulinganisha na ndege ya picha, yaani, harakati zake dhahiri. Mwendo huu ni matokeo ya jinsi sehemu ya 3D inayolinganisha inavyosonga katika eneo na jinsi kamera inavyosonga ikilinganishwa na tukio.

⦁ Urekebishaji wa mandhari

Kwa kuzingatia picha moja au (kawaida) zaidi ya tukio, au video, uzazi wa eneo unalenga kusajili muundo wa 3D wa tukio. Katika hali rahisi mfano unaweza kuwa rundo la 3D inalenga. Mikakati iliyoboreshwa zaidi hutoa muundo wa jumla wa uso wa 3D

⦁ Uundaji upya wa picha

Hatua ya uundaji upya wa picha ni uondoaji wa machafuko (kelele ya sensorer, kuficha harakati, na kadhalika) kutoka kwa picha. Mbinu changamani inayoweza kuwakilishwa ya kufukuza ghasia ni aina tofauti za njia, kwa mfano, njia za pasi za chini au chaneli za kati. Mikakati ya kisasa zaidi inatarajia kielelezo cha jinsi miundo ya picha za ujirani inavyofanana, kielelezo kinachowatambua kutokana na ghasia. Kwa kuchunguza kwanza maelezo ya picha kwa muda mrefu sana ya miundo ya picha iliyo karibu, kwa mfano, mistari au kingo, na baadaye kudhibiti kitegemezi kinachotenganisha na data ya ujirani kutoka kwa hatua ya uchunguzi, kiwango cha juu zaidi cha uhamishaji wa ghasia kwa ujumla hupatikana kutofautishwa na kidogo. mbinu tata. Mfano katika uwanja huu ni uchoraji wao. Mifumo michache ni maombi huru ambayo hushughulikia suala fulani la ukadiriaji au utambuzi, huku mingine ikijumuisha upangaji mdogo wa mpango mkubwa zaidi ambao, kwa mfano, vile vile una mifumo ndogo ya udhibiti wa vianzishaji mitambo, kupanga, misingi ya taarifa za data, mtu- violesura vya mashine, na kadhalika Utekelezaji mahususi wa mfumo wa maono wa Kompyuta vile vile hutegemea ikiwa manufaa yake yameamuliwa mapema au ikiwa kipande chake kinaweza kujifunza vizuri au kurekebishwa wakati wa shughuli. Kuna, iwe hivyo, uwezo wa kawaida ambao hupatikana katika maono mengi ya PC