AI Şəkil Tanınması üçün Bələdçi

Şəklin tanınması niyə vacibdir?

İnternetdəki məzmunun təxminən 80 faizi vizualdır. Şəkil etiketləməsinin məzmun cədvəlinin kralı kimi nə üçün yerini tuta biləcəyini artıq öyrənməyə başlaya bilərsiniz. İstər fərdlər, istərsə də şirkətlər olsun, süni intellektlə təsvirin tanınması minimal təlaşla onlayn vizualları müəyyən etməyə imkan verib. Hər il təxminən 657 milyard fotoşəkil rəqəmsal olaraq yerləşdirilir, əksəriyyəti sosial mediada görünür. Bu şəkillərin yaxşı bir hissəsi, hətta bilmədən belə etsələr də, məhsulları təbliğ edən insanlardır. İstifadəçi tərəfindən yaradılan məzmun (UGC) ən təmiz formada brendlər üçün əla imkandır, çünki o, ən yaxşı təşviqi təmin edir.
Sosial mediada bir istehlakçı qeyd olunduqda şirkətləri xəbərdar etmək üçün marketinq alətləri var, bəs brendlərin tanıtımı sosial postda heç kimin adını etiketləmədən baş verdikdə necə olacaq? Burada AI təsvirin tanınması öz dəyərini sübut edir. Texnika düzgün məlumat dəstləri ilə qidalanırsa, AI xüsusi etiket qeyd etmədən şəkli müəyyən edə bilər. Nəticələr brendlərin sosial qeydlərini izləmək və izləmək üçün əvəzolunmazdır.

Təsvirin tanınması necə işləyir?

Bildiyimiz kimi, AI fotolar axtaran sosial media platformalarında axtarış edə və onları geniş məlumat dəstləri ilə müqayisə edə bilər. Daha sonra o, insanların bacardığından daha sürətli uyğun gələn müvafiq görüntüyə qərar verir. Brendlər sosial mediada özlərinə oxşar məzmun tapmaq üçün təsvirin tanınmasından istifadə edirlər. Bu, bir markanın loqotipini müəyyən etmək və ya sosial media istifadəçiləri arasında üzvi şəkildə yerləşdirilmiş məhsul yerləşdirməsini tanımaq deməkdir. İnsanlardan bu qədər çox məlumatı trol etmələrini istəmək asanlıqla yorucu olur. AI insan səhvindən narahat deyil və misilsiz səviyyələrdə dəqiq nəticələr verir. Süni intellektlə təsvirin tanınması mətnə ehtiyac olmadan insanların brend haqqında dediklərini izləyir. İstifadəçilərin şirkət adını yazmağa ehtiyacı olmadan sosial qeydlərini izləyə bilən brendlər özlərini əlverişli mövqedə tapacaqlar. Yalnız AI tərəfindən tanınan identifikatorlar vasitəsilə öz onlayn əhatə dairəsinə daxil olmaq potensialı böyükdür və misilsiz əhatə dairəsi təklif edir.

Şəkil tanınmasının bəzi tipik tapşırıqları bunlardır: -

Əvvəlcə şəkil məlumatlarında hansısa xüsusi obyekt, xüsusiyyət və ya fəaliyyət olub-olmadığını müəyyən etməliyik. Bu vəzifə, bir qayda olaraq, bir insan tərəfindən möhkəm və səy göstərmədən həll edilə bilər, lakin ümumi vəziyyət üçün kompüter görməsində hələ də qənaətbəxş şəkildə həll edilmir: ixtiyari vəziyyətlərdə ixtiyari obyektlər. Bu problemi həll etmək üçün mövcud üsullar yalnız sadə həndəsi obyektlər (məsələn, çoxüzlülər), insan simaları, çap edilmiş və ya əl ilə yazılmış simvollar və ya nəqliyyat vasitələri kimi xüsusi obyektlər üçün və adətən terminlərlə təsvir olunan xüsusi vəziyyətlərdə ən yaxşı şəkildə həll edilə bilər. yaxşı müəyyən edilmiş işıqlandırma, fon və obyektin kameraya nisbətən pozası. Ədəbiyyatda tanınma probleminin müxtəlif növləri təsvir edilmişdir:

• Obyektin tanınması

Bir və ya bir neçə əvvəlcədən müəyyən edilmiş və ya öyrənilmiş obyektlər və ya obyekt sinifləri, adətən, onların təsvirdəki 2D mövqeləri və ya səhnədəki 3D pozaları ilə birlikdə tanınır.

• Eyniləşdirmə
Obyektin fərdi nümunəsi tanınır. Nümunələr konkret şəxsin üzünün və ya barmaq izinin identifikasiyası və ya xüsusi nəqliyyat vasitəsinin eyniləşdirilməsidir.

• Aşkarlama
Şəkil məlumatları müəyyən bir vəziyyət üçün skan edilir. Nümunələr tibbi şəkillərdə mümkün anormal hüceyrələrin və ya toxumaların aşkarlanması və ya avtomatik yol ödəniş sistemində nəqliyyat vasitəsinin aşkarlanmasıdır. Nisbətən sadə və sürətli hesablamalara əsaslanan aşkarlama bəzən düzgün şərh yaratmaq üçün daha çox hesablama tələb edən üsullarla təhlil edilə bilən maraqlı təsvir məlumatlarının daha kiçik hissələrini tapmaq üçün istifadə olunur.

Tanınmaya əsaslanan bir neçə ixtisaslaşdırılmış tapşırıq mövcuddur, məsələn:

• Məzmuna əsaslanan təsvirin axtarışı
Burada xüsusi məzmunu olan daha böyük şəkillər toplusunda bütün şəkilləri tapmaq olar. Məzmun müxtəlif yollarla müəyyən edilə bilər, məsələn, hədəf təsvirə nisbətən oxşarlıq baxımından (mənə X şəklinə bənzər bütün şəkilləri verin) və ya mətn daxiletməsi kimi verilmiş yüksək səviyyəli axtarış meyarları baxımından (tərkibində olan bütün şəkilləri mənə verin) çoxlu evlər, qışda alınır və içərisində maşın yoxdur).

• Pozun qiymətləndirilməsi
kameraya nisbətən konkret obyektin mövqeyini və ya istiqamətini təxmin etməliyik. Bu texnikanın nümunə tətbiqi, montaj xəttində konveyer kəmərindən obyektləri götürən robota kömək etməkdir.

• Optik xarakter tanınması
OCR adətən mətni daha çox formatda kodlaşdırmaq və redaktə etmək və ya indeksləşdirmək üçün Miçiqan Dövlət Universitetinin Kompüter Elmləri və Mühəndisliyi Departamenti üçün çap edilmiş və ya əl ilə yazılmış mətnin şəkillərindəki simvolları müəyyən edir. “Nümunələrin Tanınması və Şəkillərin Emalı (PRIP) Laboratoriyasının müəllim və tələbələri naxışları və ya obyektləri tanımaq üçün maşınların istifadəsini araşdırırlar. Obyektləri hiss etmək, onların hansı xüsusiyyətlərini digərlərindən fərqləndirdiyini aşkar etmək və təsnifat aparmaq üçün maşın tərəfindən istifadə oluna bilən alqoritmlər hazırlamaq üçün metodlar işlənib hazırlanır. Vacib tətbiqlərə sifətin tanınması, barmaq izinin identifikasiyası, sənəd təsvirinin təhlili, 3D obyekt modelinin qurulması, robot naviqasiyası və 3D həcmli məlumatların vizuallaşdırılması/kəşfiyyatı daxildir. Cari tədqiqat problemlərinə biometrik autentifikasiya, avtomatik nəzarət və izləmə, əlsiz HCI, üz modelləşdirmə, rəqəmsal su nişanı və onlayn sənədlərin strukturunun təhlili daxildir. Laboratoriyanın son məzunları əl yazısının tanınması, imzanın yoxlanılması, vizual öyrənmə və təsvirin axtarışı üzərində işləmişlər.”

⦁ Üz tanıma
biz bilirik ki, üz tanıma sistemləri biometrik məlumatların çıxarılması vasitəsi kimi getdikcə populyarlaşır. Üzün tanınması biometrik sistemlərdə mühüm rola malikdir və vizual nəzarət və təhlükəsizlik daxil olmaqla çoxsaylı tətbiqlər üçün cəlbedicidir. Müxtəlif sənədlərdə üz təsvirlərinin ümumi ictimaiyyət tərəfindən qəbul edilməsi səbəbindən üzün tanınması yeni nəsil biometrik texnologiyaya çevrilmək üçün böyük potensiala malikdir.

Şəkil Tanıma Sistemləri

⦁ Hərəkət təhlili
Bir sıra tapşırıqlar hərəkətin qiymətləndirilməsi ilə əlaqədardır, burada şəkil ardıcıllığı ya şəklin hər bir nöqtəsində, ya da 3D səhnəsində, hətta şəkilləri yaradan kamerada sürətin təxminini yaratmaq üçün işlənir. Belə tapşırıqların nümunələri:

⦁ Eqo hərəkəti
Kameranın yaratdığı görüntü ardıcıllığından kameranın 3D sərt hərəkətinin (fırlanma və tərcümə) müəyyən edilməsi.

⦁ İzləmə
İzləmə şəkil ardıcıllığında (adətən) daha kiçik maraq nöqtələrinin və ya obyektlərin (məsələn, nəqliyyat vasitələri və ya insanlar) hərəkətlərini izləyir.

⦁ Optik axın
Bu, təsvirin hər bir nöqtəsi üçün həmin nöqtənin təsvir müstəvisinə nisbətən necə hərəkət etdiyini, yəni onun görünən hərəkətini müəyyən etməkdir. Bu hərəkət həm müvafiq 3D nöqtəsinin səhnədə necə hərəkət etməsinin, həm də kameranın səhnəyə nisbətən necə hərəkət etməsinin nəticəsidir.

⦁ Səhnənin yenidən qurulması
Səhnənin və ya videonun bir və ya (adətən) daha çox şəklini nəzərə alaraq, səhnənin yenidən qurulması səhnənin 3D modelini hesablamaq məqsədi daşıyır. Ən sadə halda model 3D nöqtələr dəsti ola bilər. Daha mürəkkəb üsullar tam 3D səth modelini yaradır

⦁ Şəklin bərpası
Təsvirin bərpasının məqsədi şəkillərdən səs-küyün (sensor səs-küyü, hərəkət bulanıqlığı və s.) aradan qaldırılmasıdır. Səs-küyün aradan qaldırılması üçün mümkün olan ən sadə yanaşma aşağı ötürücü filtrlər və ya median filtrlər kimi müxtəlif növ filtrlərdir. Daha mürəkkəb metodlar yerli görüntü strukturlarının necə görünməsi modelini, onları səs-küydən fərqləndirən bir modeli nəzərdə tutur. Şəkil məlumatlarını əvvəlcə xətlər və ya kənarlar kimi yerli təsvir strukturları baxımından təhlil edərək və sonra analiz addımından yerli məlumat əsasında filtrasiyaya nəzarət etməklə, adətən daha sadə yanaşmalarla müqayisədə səs-küyün aradan qaldırılmasının daha yaxşı səviyyəsi əldə edilir. Bu sahədə misal olaraq onların rəsm əsərlərini göstərmək olar. Bəzi sistemlər xüsusi ölçmə və ya aşkarlama problemini həll edən müstəqil proqramlardır, digərləri isə, məsələn, mexaniki aktuatorların idarə edilməsi, planlaşdırma, məlumat bazaları, insan idarəetməsi üçün alt sistemləri ehtiva edən daha böyük dizaynın alt sistemini təşkil edir. maşın interfeysləri və s. Kompüter görmə sisteminin spesifik tətbiqi həm də onun funksionallığının əvvəlcədən müəyyən edilib-edilməməsindən və ya əməliyyat zamanı onun bəzi hissəsinin öyrənilə və ya dəyişdirilə biləcəyindən asılıdır. Bununla belə, bir çox kompüter görmə sistemlərində tapılan tipik funksiyalar var.

Təsvirin tanınması ilə daha dərindən öyrənmə

Şəklin tanınması süni intellektdən əvvəl mövcud idi. Bununla belə, maşın öyrənmə faktoru bir obyektin və ya şəxsin üzünün müəyyən edilməsi üçün üsulları dəyişdirir. Maşın öyrənməsi yalnız onu qidalandırmaq üçün məlumat olduqda təsirli olur. Süni intellektin bütün avtomatlaşdırılması üçün ona şəkilləri müəyyən etmək tapşırığı vermək sadə tələb deyil. Vizual anlayışımız ikinci təbiətdir; bu, gənc yaşlarımızdan etmək üçün proqramlaşdırılmış bir şeydir. Bir maşından eyni şeyi soruşmaq sadə bir proses deyil. Bu səbəbdən süni intellektin tanınmasının daha məşhur formalarından biri konvolyusiya neyron şəbəkələridir (CNN). CNN, bir-birinin yanında yerləşən piksellərə fokuslanan bir üsuldur. Yaxın yerləşdirilmiş şəkillərin əlaqəli olma ehtimalı daha yüksəkdir, yəni obyekt və ya üz daha şəffaf olan şəkilə uyğunlaşdırılır.
Sosial mediadan pul qazanmaq istəyən brendlər süni intellekt təsvirinin tanınması açıq üstünlüklərə malik olsalar da, ondan istifadə halları daha dərindir. Özünü idarə edən avtomobillər avtomobil dünyasında növbəti böyük şey olmaq üzrədir və AI təsvirin tanınması texnologiyası onları gücləndirməyə kömək edir. Yolda olan cisimləri və insanları aşkarlaya bilən, onlara çırpılmaması üçün özü idarə olunan avtomobil avtomatik olaraq baş vermir. Məlumatlı qərarlar qəbul etmək üçün şəkilləri tanımalıdır. Özünü idarə edən hər bir avtomobil bir neçə sensorla təchiz edilmişdir ki, o, digər hərəkət edən nəqliyyat vasitələrini, velosipedçiləri, insanları - əsasən təhlükə yarada biləcək hər şeyi müəyyən edə bilər. Avtomatlaşdırılmış avtomobil yolun təhlükələrini təcrübəli sürücünün etdiyi kimi emal etməlidir. 2020-ci ildə özünü idarə edən avtomobillər yola çıxmazdan əvvəl həll edilməli olan bir neçə aspekt hələ də var. Lakin avtomobilin avtomatlaşdırılması işə düşdükdə, süni intellekt təsvirinin tanınması onların təhlükəsiz işləməsinin əsas səbəblərindən biri olacaq.
⦁ Şəkil əldə etmək
Rəqəmsal təsvir müxtəlif növ işığa həssas kameralardan başqa, diapazon sensorları, tomoqrafiya cihazları, radar, ultrasəs kameraları və s. daxil olan bir və ya bir neçə təsvir sensoru tərəfindən istehsal olunur. adi 2D təsvir, 3D həcm və ya şəkil ardıcıllığıdır. Piksel dəyərləri adətən bir və ya bir neçə spektral zolaqda (boz şəkillər və ya rəngli şəkillər) işıq intensivliyinə uyğun gəlir, lakin eyni zamanda dərinlik, səs və ya elektromaqnit dalğalarının udulması və ya əks etdirilməsi və ya nüvə maqnit rezonansı kimi müxtəlif fiziki ölçülərlə əlaqəli ola bilər.
⦁ İlkin emal:
Bəzi xüsusi məlumat parçasını çıxarmaq üçün təsvir məlumatlarına kompüterlə görmə metodu tətbiq edilməzdən əvvəl, metodun nəzərdə tutduğu müəyyən fərziyyələrə cavab verdiyinə əmin olmaq üçün adətən verilənləri emal etmək lazımdır. Nümunələrdir
1. Şəkil koordinat sisteminin düzgün olduğundan əmin olmaq üçün təkrar nümunə götürmə.
2. Sensor səs-küyünün yalan məlumat verməməsini təmin etmək üçün səs-küyün azaldılması.
3. Müvafiq məlumatın aşkar edilməsini təmin etmək üçün kontrastın gücləndirilməsi.
4. Yerli uyğun miqyaslarda təsvir strukturlarını təkmilləşdirmək üçün miqyas-məkan təmsili.
⦁ Xüsusiyyətlərin çıxarılması:
Şəkil məlumatlarından müxtəlif mürəkkəblik səviyyələrində olan təsvir xüsusiyyətləri çıxarılır. Belə xüsusiyyətlərin tipik nümunələri xətlər, kənarlar və silsilələrdir
Künclər, ləkələr və ya nöqtələr kimi yerli maraq nöqtələri. Daha mürəkkəb xüsusiyyətlər faktura, forma və ya hərəkətlə bağlı ola bilər.
⦁ Aşkarlama/seqmentləşdirmə:
Emalın müəyyən bir nöqtəsində sonrakı emal üçün təsvirin hansı nöqtələrinin və ya bölgələrinin uyğun olduğuna dair qərar verilir. Nümunələrdir
1. Maraq nöqtələrinin xüsusi dəstinin seçilməsi
2. Xüsusi maraq obyektini ehtiva edən bir və ya bir neçə şəkil bölgəsinin seqmentasiyası.
⦁ Yüksək səviyyəli emal:
Bu mərhələdə giriş adətən kiçik bir verilənlər toplusudur, məsələn, müəyyən bir obyekti ehtiva etdiyi güman edilən nöqtələr dəsti və ya animage regionu. Qalan emal, məsələn:
1. Verilənlərin model əsaslı və tətbiq spesifikasiyalarına cavab verdiyinin yoxlanılması.
2. Obyekt pozası və ya obyekt ölçüsü kimi tətbiqə aid xüsusi parametrlərin qiymətləndirilməsi.
3. Aşkar edilmiş obyektin müxtəlif kateqoriyalara təsnif edilməsi. Beləliklə, təsvirin işlənməsi AI-yə təsviri müəyyən etməyə və təsvirin eyniləşdirilməsinə uyğun olaraq cavab verməyə kömək edir.

Görüntülərin qüsursuz gələcəyi

Texnologiya təkmilləşdikcə, təsvirin tanınması daha da böyük nəticələr verəcək. Lobsterdə Maşın Öyrənmə şöbəsinin rəhbəri Vladimir Pavlov deyir: “Obyektin tanınması üçün riyazi əsaslar çoxdan mövcuddur, lakin kompüter görmə alqoritmlərindən istifadənin texnoloji imkanları bu yaxınlarda ortaya çıxdı. Artıq neyron şəbəkələri insanlardan daha yaxşı işləməyə qadir olan mükəmməl detektorlar yaratmağa imkan verir. Böyük bir əyilmə təlim üçün qeyd edilmiş görüntü məlumat dəstlərinin mövcudluğunu saxlayır, lakin yaxın gələcəkdə bu problem olmayacaq. Kompüter görmə mühəndisləri öz-özünə öyrənmə alqoritmləri üzərində fəal şəkildə işləyirlər”. Vizual ünsiyyətdən çox təsirlənən gələcəklə, görüntünün tanınması gördüyümüz bir çox şəkillərin arxasında əsas amil olacaq. Həm real həyatda, həm də onlayn.