რატომ არის მნიშვნელოვანი გამოსახულების ამოცნობა?

ინტერნეტში არსებული შინაარსის დაახლოებით 80 პროცენტი ვიზუალურია. თქვენ უკვე შეგიძლიათ დაიწყოთ იმის გარკვევა, თუ რატომ შეიძლება დაიკავოს სურათის თეგირება, როგორც შინაარსის ცხრილის მეფე. იქნება ეს ინდივიდები თუ კომპანიები, AI გამოსახულების ამოცნობამ შესაძლებელი გახადა ვიზუალის იდენტიფიცირება ონლაინ მინიმალური აურზაურით. ყოველწლიურად ციფრულად ქვეყნდება დაახლოებით 657 მილიარდი ფოტო, რომელთა უმრავლესობა სოციალურ მედიაში ჩნდება. ამ სურათების დიდი ნაწილი არის ადამიანები, რომლებიც ავრცელებენ პროდუქტებს, მაშინაც კი, თუ ისინი ამას უნებლიედ აკეთებენ. მომხმარებლის მიერ გენერირებული კონტენტი (UGC) მისი სუფთა სახით არის შესანიშნავი საშუალება ბრენდებისთვის, რადგან ის უზრუნველყოფს საუკეთესო სახის პოპულარიზაციას.
არსებობს მარკეტინგული ინსტრუმენტები, რათა გააფრთხილონ კომპანიები, როდესაც არის მომხმარებელთა მოხსენიება სოციალურ მედიაში, მაგრამ რა შეიძლება ითქვას, როდესაც ბრენდების პოპულარიზაცია ხდება ისე, რომ ვინმემ არ დაასახელოს მათი სახელი სოციალურ პოსტში? ეს არის ის, სადაც AI გამოსახულების ამოცნობა ადასტურებს მის მნიშვნელობას. თუ ტექნოლოგია იკვებება მონაცემთა სწორი ნაკრებით, AI-ს შეუძლია გამოსახულების იდენტიფიცირება კონკრეტული ტეგების მითითების გარეშე. შედეგები ფასდაუდებელია იმისთვის, რომ ბრენდებმა თვალყური ადევნონ თავიანთ სოციალურ ხსენებებს.

როგორ მუშაობს გამოსახულების ამოცნობა?

როგორც ვიცით AI-ს შეუძლია მოძებნოს სოციალური მედიის პლატფორმები, ეძებს ფოტოებს და შეადაროს ისინი მონაცემთა ვრცელ ნაკრებებს. შემდეგ ის წყვეტს შესაბამის სურათს, რომელიც ემთხვევა ბევრად უფრო სწრაფად, ვიდრე ადამიანს შეუძლია. ბრენდები იყენებენ გამოსახულების ამოცნობას, რათა იპოვონ თავიანთი მსგავსი შინაარსი სოციალურ მედიაში. ეს ნიშნავს ბრენდის ლოგოს იდენტიფიცირებას ან სოციალური მედიის მომხმარებლებში ორგანულად განთავსებული პროდუქტის განთავსებას. ადამიანთაგან ამდენი ინფორმაციის გატარების თხოვნა ადვილად დამღლელი ხდება. ხელოვნური ინტელექტი არ აწუხებს ადამიანურ შეცდომებს და აბრუნებს ზუსტ შედეგებს შეუდარებელ დონეზე. AI გამოსახულების ამოცნობა აკონტროლებს რას ამბობენ ადამიანები ბრენდზე ტექსტის საჭიროების გარეშე. ბრენდები, რომლებსაც შეუძლიათ თვალყური ადევნონ თავიანთ სოციალურ ხსენებებს, მომხმარებლებმა კომპანიის სახელის დაწერის საჭიროების გარეშე აღმოჩნდებიან ხელსაყრელ მდგომარეობაში. პოტენციალი გამოიყენონ საკუთარი ონლაინ გაშუქება მხოლოდ ხელოვნური ინტელექტის აღიარებული იდენტიფიკატორების საშუალებით, უზარმაზარია და გთავაზობთ შეუდარებელ გაშუქებას.

აქ მოცემულია სურათების ამოცნობის რამდენიმე ტიპიური ამოცანა:

თავდაპირველად ჩვენ უნდა განვსაზღვროთ, შეიცავს თუ არა სურათის მონაცემები რაიმე კონკრეტულ ობიექტს, ფუნქციას ან აქტივობას. ამ ამოცანის გადაჭრა ჩვეულებრივ შეიძლება მტკიცედ და ძალისხმევის გარეშე ადამიანის მიერ, მაგრამ მაინც არ არის დამაკმაყოფილებლად გადაწყვეტილი კომპიუტერულ ხედვაში ზოგადი შემთხვევისთვის: თვითნებური ობიექტები თვითნებურ სიტუაციებში. ამ პრობლემის გადასაჭრელად არსებული მეთოდები საუკეთესოდ შეიძლება გადაწყდეს მხოლოდ კონკრეტული ობიექტებისთვის, როგორიცაა მარტივი გეომეტრიული ობიექტები (მაგ., პოლიედრები), ადამიანის სახეები, დაბეჭდილი ან ხელით დაწერილი სიმბოლოები, ან მანქანები და კონკრეტულ სიტუაციებში, რომლებიც ჩვეულებრივ აღწერილია ტერმინებით. კარგად გამოხატული განათება, ფონი და ობიექტის პოზა კამერასთან შედარებით. ლიტერატურაში აღწერილია ამოცნობის პრობლემის სხვადასხვა სახეობა:

• ობიექტების ამოცნობა

შესაძლებელია ერთი ან რამდენიმე წინასწარ განსაზღვრული ან ნასწავლი ობიექტის ან ობიექტების კლასის ამოცნობა, როგორც წესი, მათ 2D პოზიციებთან ერთად გამოსახულებაში ან 3D პოზებთან ერთად სცენაზე.

• იდენტიფიკაცია
ობიექტის ინდივიდუალური მაგალითი აღიარებულია. მაგალითებია კონკრეტული ადამიანის სახის ან თითის ანაბეჭდის იდენტიფიკაცია, ან კონკრეტული მანქანის იდენტიფიკაცია.

• გამოვლენა
სურათის მონაცემები სკანირებულია კონკრეტული მდგომარეობისთვის. მაგალითებია სამედიცინო სურათებში შესაძლო არანორმალური უჯრედების ან ქსოვილების აღმოჩენა ან სატრანსპორტო საშუალების აღმოჩენა ავტომატურ საგზაო გადასახადის სისტემაში. შედარებით მარტივ და სწრაფ გამოთვლებზე დაფუძნებული გამოვლენა ზოგჯერ გამოიყენება საინტერესო გამოსახულების მონაცემების უფრო მცირე უბნების მოსაძებნად, რაც შეიძლება შემდგომ გაანალიზდეს გამოთვლით უფრო მომთხოვნი ტექნიკით სწორი ინტერპრეტაციის შესაქმნელად.

აღიარებაზე დაფუძნებული რამდენიმე სპეციალიზებული დავალება არსებობს, როგორიცაა:

• კონტენტზე დაფუძნებული გამოსახულების მოძიება
აქ ნახავთ ყველა სურათს სურათების უფრო დიდ ნაკრებში, რომლებსაც აქვთ კონკრეტული შინაარსი. კონტენტი შეიძლება განისაზღვროს სხვადასხვა გზით, მაგალითად, მსგავსების თვალსაზრისით სამიზნე სურათთან (მომეცი X სურათის მსგავსი ყველა სურათი), ან ტექსტის შეყვანის სახით მოცემული მაღალი დონის ძიების კრიტერიუმების მიხედვით (მომეცი ყველა სურათი, რომელიც შეიცავს ბევრი სახლი, ზამთარშია აღებული და მანქანა არ არის).

• პოზის შეფასება
ჩვენ უნდა შევაფასოთ კონკრეტული ობიექტის პოზიცია ან ორიენტაცია კამერასთან მიმართებაში. ამ ტექნიკის გამოყენების მაგალითი იქნება რობოტის დახმარება, რომელიც აგროვებს ობიექტებს კონვეიერის სარტყელიდან შეკრების ხაზის სიტუაციაში.

• სიმბოლოების ოპტიკური ამოცნობა
OCR რომელიც წარმოადგენს დაბეჭდილი ან ხელით დაწერილი ტექსტის სურათებში სიმბოლოების იდენტიფიკაციას, როგორც წესი, ტექსტის უფრო ფორმატში დაშიფვრის მიზნით და მიჩიგანის სახელმწიფო უნივერსიტეტის კომპიუტერული მეცნიერებისა და ინჟინერიის დეპარტამენტის რედაქტირების ან ინდექსირების საშუალებას. „ნიმუშების ამოცნობისა და გამოსახულების დამუშავების (PRIP) ლაბორატორიის ფაკულტეტი და სტუდენტები იკვლევენ მანქანების გამოყენებას ნიმუშების ან ობიექტების ამოსაცნობად. მეთოდები შემუშავებულია ობიექტების შესაგრძნობად, აღმოაჩენს, თუ რომელი მახასიათებელი განასხვავებს მათ სხვებისგან და შეიმუშავებს ალგორითმებს, რომლებიც შეიძლება გამოიყენოს მანქანამ კლასიფიკაციის გასაკეთებლად. მნიშვნელოვანი აპლიკაციებია სახის ამოცნობა, თითის ანაბეჭდის იდენტიფიკაცია, დოკუმენტის გამოსახულების ანალიზი, 3D ობიექტის მოდელის მშენებლობა, რობოტის ნავიგაცია და 3D მოცულობითი მონაცემების ვიზუალიზაცია/შესწავლა. ამჟამინდელი კვლევის პრობლემები მოიცავს ბიომეტრიულ ავთენტიფიკაციას, ავტომატურ მეთვალყურეობას და თვალყურის დევნებას, უსახელო HCI, სახის მოდელირებას, ციფრულ წყალმომარაგებას და ონლაინ დოკუმენტების სტრუქტურის ანალიზს. ლაბორატორიის ბოლო კურსდამთავრებულები მუშაობდნენ ხელნაწერის ამოცნობაზე, ხელმოწერის გადამოწმებაზე, ვიზუალურ სწავლასა და გამოსახულების მიღებაზე.

⦁ სახის ამოცნობა
ჩვენ ვიცით, რომ სახის ამოცნობის სისტემები თანდათან პოპულარული ხდება, როგორც ბიომეტრიული ინფორმაციის მოპოვების საშუალება. სახის ამოცნობას გადამწყვეტი როლი აქვს ბიომეტრიულ სისტემებში და მიმზიდველია მრავალი აპლიკაციისთვის, მათ შორის ვიზუალური მეთვალყურეობისა და უსაფრთხოებისთვის. სხვადასხვა დოკუმენტებზე სახის გამოსახულების ფართო საზოგადოების მიღების გამო, სახის ამოცნობას აქვს დიდი პოტენციალი, გახდეს შემდეგი თაობის არჩევის ბიომეტრიული ტექნოლოგია.

გამოსახულების ამოცნობის სისტემები

⦁ მოძრაობის ანალიზი
რამდენიმე დავალება ეხება მოძრაობის შეფასებას, სადაც გამოსახულების თანმიმდევრობა მუშავდება სიჩქარის შესაფასებლად გამოსახულების თითოეულ წერტილში ან 3D სცენაზე, ან თუნდაც კამერის, რომელიც აწარმოებს სურათებს. ასეთი დავალებების მაგალითებია:

⦁  ეგოს მოძრაობა
კამერის 3D ხისტი მოძრაობის (როტაცია და ტრანსლაცია) განსაზღვრა კამერის მიერ წარმოებული გამოსახულების თანმიმდევრობიდან.

⦁ თვალთვალი
თვალყურის დევნება არის (ჩვეულებრივ) ინტერესის წერტილების ან ობიექტების (მაგ., მანქანების ან ადამიანების) უფრო მცირე ნაკრების მოძრაობა სურათის თანმიმდევრობით.

⦁ ოპტიკური ნაკადი
ეს არის გამოსახულების თითოეული წერტილისთვის იმის დასადგენად, თუ როგორ მოძრაობს ეს წერტილი გამოსახულების სიბრტყესთან მიმართებაში, ანუ მისი მოჩვენებითი მოძრაობა. ეს მოძრაობა არის იმის შედეგი, თუ როგორ მოძრაობს შესაბამისი 3D წერტილი სცენაზე და როგორ მოძრაობს კამერა სცენასთან შედარებით.

⦁ სცენის რეკონსტრუქცია
სცენის ან ვიდეოს ერთი ან (ჩვეულებრივ) მეტი სურათის გათვალისწინებით, სცენის რეკონსტრუქცია მიზნად ისახავს სცენის 3D მოდელის გამოთვლას. უმარტივეს შემთხვევაში მოდელი შეიძლება იყოს 3D წერტილების ნაკრები. უფრო დახვეწილი მეთოდები ქმნის სრულ 3D ზედაპირის მოდელს

⦁ გამოსახულების აღდგენა
გამოსახულების აღდგენის მიზანია სურათებიდან ხმაურის (სენსორული ხმაური, მოძრაობის დაბინდვა და ა.შ.) ამოღება. ხმაურის მოცილების უმარტივესი მიდგომა არის სხვადასხვა ტიპის ფილტრები, როგორიცაა დაბალი გამტარი ფილტრები ან მედიანური ფილტრები. უფრო დახვეწილი მეთოდები ითვალისწინებს მოდელს, თუ როგორ გამოიყურება ადგილობრივი გამოსახულების სტრუქტურები, მოდელი, რომელიც განასხვავებს მათ ხმაურისგან. პირველად სურათის მონაცემების გაანალიზებით ადგილობრივი გამოსახულების სტრუქტურების, როგორიცაა ხაზები ან კიდეები, და შემდეგ ფილტრაციის კონტროლი ანალიზის საფეხურიდან ადგილობრივ ინფორმაციაზე დაყრდნობით, ჩვეულებრივ მიიღწევა ხმაურის მოცილების უკეთესი დონე უფრო მარტივ მიდგომებთან შედარებით. მაგალითი ამ სფეროში არის მათი მხატვრობა. ზოგიერთი სისტემა არის დამოუკიდებელი პროგრამა, რომელიც წყვეტს კონკრეტულ გაზომვის ან გამოვლენის პრობლემას, ზოგი კი წარმოადგენს უფრო დიდი დიზაინის ქვესისტემას, რომელიც, მაგალითად, ასევე შეიცავს ქვესისტემებს მექანიკური ამძრავების კონტროლისთვის, დაგეგმვა, საინფორმაციო ბაზები, ადამიანის მანქანების ინტერფეისები და ა.შ. კომპიუტერული ხედვის სისტემის სპეციფიკური დანერგვა ასევე დამოკიდებულია იმაზე, არის თუ არა წინასწარ განსაზღვრული მისი ფუნქციონირება ან შესაძლებელია თუ არა მისი ზოგიერთი ნაწილის შესწავლა ან შეცვლა ოპერაციის დროს. თუმცა, არსებობს ტიპიური ფუნქციები, რომლებიც გვხვდება მრავალ კომპიუტერული ხედვის სისტემაში.

 

ღრმა სწავლა გამოსახულების ამოცნობით

გამოსახულების ამოცნობა AI-მდე იყო. მიუხედავად ამისა, მანქანათმცოდნეობის ფაქტორი ახდენს რევოლუციას საგნის ან პირის სახის იდენტიფიკაციის მეთოდებში. თუმცა, მანქანური სწავლება ეფექტურია მხოლოდ მაშინ, როდესაც არსებობს მონაცემები მის შესანახად. ხელოვნური ინტელექტის მთელი ავტომატიზაციისთვის, სურათების იდენტიფიცირების დავალება არ არის მარტივი მოთხოვნა. ვიზუალის ჩვენი გაგება მეორე ბუნებაა; ეს არის ის, რისთვისაც დაპროგრამებული ვართ პატარა ასაკიდან. იგივეს თხოვნა მანქანაზე არ არის მარტივი პროცესი. ამ მიზეზით, ხელოვნური ინტელექტის ამოცნობის ერთ-ერთი ყველაზე პოპულარული ფორმა არის კონვოლუციური ნერვული ქსელები (CNN). CNN არის მეთოდი, რომელიც ფოკუსირებულია ერთმანეთის გვერდით მდებარე პიქსელებზე. ახლომდებარე სურათები უფრო მეტად დაკავშირებულია, რაც იმას ნიშნავს, რომ ობიექტი ან სახე მეტი გამჭვირვალობით ემთხვევა სურათს.
მიუხედავად იმისა, რომ ბრენდები, რომლებიც ცდილობენ სოციალური მედიის მონეტიზაციას, თუმცა ხელოვნური ინტელექტის გამოსახულების ამოცნობას აქვს აშკარა სარგებელი, მისი გამოყენების შემთხვევები გაცილებით ღრმაა. თვითმართვადი მანქანები იქნება შემდეგი მნიშვნელოვანი რამ საავტომობილო სამყაროში და AI გამოსახულების ამოცნობის ტექნოლოგია მათ ძალაში ეხმარება. თვითმართვადი მანქანა, რომელსაც შეუძლია აღმოაჩინოს ობიექტები და ადამიანები გზაზე, რათა არ დაეჯახოს მათ, ავტომატურად არ ხდება. მას სჭირდება სურათების ამოცნობა ინფორმირებული გადაწყვეტილებების მისაღებად. თითოეული თვითმართვადი მანქანა აღჭურვილია რამდენიმე სენსორით, რათა მას შეუძლია სხვა მოძრავი მანქანების, ველოსიპედისტების, ადამიანების იდენტიფიცირება - ძირითადად ყველაფერი, რაც შეიძლება საფრთხეს შეუქმნას. ავტომატიზებულ მანქანას სჭირდება გზის საფრთხის დამუშავება ისე, როგორც ამას გამოცდილი მძღოლი აკეთებს. ჯერ კიდევ რამდენიმე ასპექტია გასათვალისწინებელი, სანამ თვითმართველი მანქანები 2020 წელს გამოვა გზაზე. მაგრამ როდესაც ავტომობილის ავტომატიზაცია დაიწყება, AI გამოსახულების ამოცნობა იქნება ერთ-ერთი მთავარი დრაივერი მათ უკან, რომელიც უსაფრთხოდ მუშაობს.
⦁ გამოსახულების მიღება
ციფრული გამოსახულება იწარმოება ერთი ან რამდენიმე გამოსახულების სენსორით, რომლებიც, გარდა სხვადასხვა ტიპის სინათლისადმი მგრძნობიარე კამერებისა, მოიცავს დიაპაზონის სენსორებს, ტომოგრაფიის მოწყობილობებს, რადარს, ულტრაბგერითი კამერებს და ა.შ. სენსორის ტიპის მიხედვით, მიღებული სურათის მონაცემები. არის ჩვეულებრივი 2D გამოსახულება, 3D მოცულობა ან გამოსახულების თანმიმდევრობა. პიქსელის მნიშვნელობები, როგორც წესი, შეესაბამება სინათლის ინტენსივობას ერთ ან რამდენიმე სპექტრულ ზოლში (ნაცრისფერი გამოსახულებები ან ფერადი გამოსახულებები), მაგრამ ასევე შეიძლება დაკავშირებული იყოს სხვადასხვა ფიზიკურ ზომებთან, როგორიცაა ბგერის ან ელექტრომაგნიტური ტალღების სიღრმე, შთანთქმა ან არეკვლა, ან ბირთვული მაგნიტური რეზონანსი.
⦁ წინასწარი დამუშავება:
სანამ კომპიუტერული ხედვის მეთოდის გამოყენება შესაძლებელი იქნება გამოსახულების მონაცემებზე ინფორმაციის გარკვეული ნაწილის ამოსაღებად, ჩვეულებრივ საჭიროა მონაცემების დამუშავება, რათა დავრწმუნდეთ, რომ იგი აკმაყოფილებს მეთოდით ნაგულისხმევ გარკვეულ დაშვებებს. მაგალითებია
1. ხელახალი ნიმუშის აღება, რათა დავრწმუნდეთ, რომ გამოსახულების კოორდინატთა სისტემა სწორია.
2. ხმაურის შემცირება, რათა დავრწმუნდეთ, რომ სენსორის ხმაური არ შემოაქვს ცრუ ინფორმაციას.
3. კონტრასტის გაძლიერება, რათა უზრუნველყოს შესაბამისი ინფორმაციის აღმოჩენა.
4. მასშტაბი-სივრცის წარმოდგენა გამოსახულების სტრუქტურების გასაუმჯობესებლად ადგილობრივად შესაბამისი მასშტაბებით.
⦁ მახასიათებლების მოპოვება:
გამოსახულების მახასიათებლები სხვადასხვა დონის სირთულის არის ამოღებული გამოსახულების მონაცემებიდან. ასეთი მახასიათებლების ტიპიური მაგალითებია ხაზები, კიდეები და ქედები
ლოკალიზებული ინტერესის პუნქტები, როგორიცაა კუთხეები, ბურთები ან წერტილები. უფრო რთული მახასიათებლები შეიძლება დაკავშირებული იყოს ტექსტურასთან, ფორმასთან ან მოძრაობასთან.
⦁ გამოვლენა/სეგმენტაცია:
დამუშავების გარკვეულ მომენტში მიიღება გადაწყვეტილება იმის შესახებ, თუ რომელი გამოსახულების წერტილები ან რაიონებია შესაბამისი შემდგომი დამუშავებისთვის. მაგალითებია
1. ინტერესის პუნქტების კონკრეტული ნაკრების შერჩევა
2. ერთი ან რამდენიმე გამოსახულების რეგიონის სეგმენტაცია, რომელიც შეიცავს ინტერესის კონკრეტულ ობიექტს.
⦁ მაღალი დონის დამუშავება:
ამ საფეხურზე შეყვანა, როგორც წესი, არის მონაცემთა მცირე ნაკრები, მაგალითად, წერტილების ან სურათის რეგიონის ნაკრები, რომელიც, სავარაუდოდ, შეიცავს კონკრეტულ ობიექტს. დანარჩენი დამუშავება ეხება, მაგალითად:
1. შემოწმება, რომ მონაცემები აკმაყოფილებს მოდელზე დაფუძნებულ და აპლიკაციის სპეციფიკას დაშვებებს.
2. აპლიკაციის სპეციფიკური პარამეტრების შეფასება, როგორიცაა ობიექტის პოზა ან ზომა.
3. აღმოჩენილი ობიექტის კლასიფიკაცია სხვადასხვა კატეგორიებად. ასე რომ, გამოსახულების დამუშავება ეხმარება AI-ს გამოავლინოს გამოსახულება და უპასუხოს გამოსახულების იდენტიფიკაციის მიხედვით.

გამოსახულების უწყვეტი მომავალი

ტექნოლოგიის გაუმჯობესებასთან ერთად, გამოსახულების ამოცნობა კიდევ უფრო დიდ შედეგს დააბრუნებს. Lobster-ის მანქანათმცოდნეობის ხელმძღვანელი ვლადიმერ პავლოვი ამბობს: „ობიექტების ამოცნობის მათემატიკური საფუძველი დიდი ხანია არსებობს, მაგრამ ახლახან გამოჩნდა კომპიუტერული ხედვის ალგორითმების გამოყენების ტექნოლოგიური შესაძლებლობები. უკვე ნერვული ქსელები საშუალებას იძლევა შექმნან სრულყოფილი დეტექტორები, რომლებსაც შეუძლიათ ადამიანებზე უკეთ იმუშაონ. დიდი უხერხულობა ხელს უშლის მონიშნული სურათების მონაცემთა ნაკრების არსებობას ვარჯიშისთვის, მაგრამ უახლოეს მომავალში ეს პრობლემა არ იქნება. კომპიუტერული ხედვის ინჟინრები აქტიურად მუშაობენ თვითსწავლის ალგორითმებზე. ”ვიზუალური კომუნიკაციის დიდი გავლენის ქვეშ მომავლის პირობებში, გამოსახულების ამოცნობა იქნება მთავარი ფაქტორი მრავალი სურათის უკან, რომელსაც ჩვენ ვხედავთ. როგორც რეალურ ცხოვრებაში, ასევე ონლაინში.