ការណែនាំអំពីការទទួលស្គាល់រូបភាព AI

ហេតុអ្វីបានជាការទទួលស្គាល់រូបភាពសំខាន់?

ប្រហែល 80 ភាគរយនៃមាតិកានៅលើអ៊ីនធឺណិតគឺមើលឃើញ។ អ្នកអាចចាប់ផ្តើមស្វែងយល់អំពីមូលហេតុដែលការដាក់ស្លាករូបភាពអាចរក្សាកន្លែងរបស់វាជាស្តេចតារាងមាតិកា។ មិនថាជាបុគ្គល ឬក្រុមហ៊ុននោះទេ ការទទួលស្គាល់រូបភាព AI បានធ្វើឱ្យវាអាចកំណត់អត្តសញ្ញាណរូបភាពតាមអ៊ីនធឺណិតបានដោយមានភាពច្របូកច្របល់តិចតួចបំផុត។ មានរូបថតប្រហែល 657 ពាន់លានសន្លឹកដែលបានបង្ហោះជារៀងរាល់ឆ្នាំជាឌីជីថល ដោយភាគច្រើនបានលេចឡើងនៅលើប្រព័ន្ធផ្សព្វផ្សាយសង្គម។ ផ្នែកដ៏ល្អនៃរូបភាពទាំងនោះគឺជាមនុស្សផ្សព្វផ្សាយផលិតផល ទោះបីជាពួកគេកំពុងធ្វើដូច្នេះដោយមិនដឹងខ្លួនក៏ដោយ។ មាតិកាដែលបង្កើតដោយអ្នកប្រើប្រាស់ (UGC) នៅក្នុងទម្រង់ដ៏បរិសុទ្ធបំផុតរបស់វា គឺជាអ្នកផ្តល់លទ្ធភាពដ៏ល្អសម្រាប់ម៉ាកនានា ព្រោះវាផ្តល់នូវប្រភេទនៃការផ្សព្វផ្សាយដ៏ល្អបំផុត។
មានឧបករណ៍ទីផ្សារដើម្បីជូនដំណឹងដល់ក្រុមហ៊ុននៅពេលដែលមានការលើកឡើងពីអ្នកប្រើប្រាស់នៅលើប្រព័ន្ធផ្សព្វផ្សាយសង្គម ប៉ុន្តែចុះយ៉ាងណាចំពោះពេលដែលការផ្សព្វផ្សាយម៉ាកយីហោកើតឡើងដោយមិនមាននរណាម្នាក់ដាក់ស្លាកឈ្មោះរបស់ពួកគេនៅក្នុងប្រកាសសង្គម? នេះគឺជាកន្លែងដែលការទទួលស្គាល់រូបភាព AI បញ្ជាក់ពីតម្លៃរបស់វា។ ប្រសិនបើបច្ចេកវិទ្យាត្រូវបានបញ្ចូលនូវសំណុំទិន្នន័យត្រឹមត្រូវ AI អាចកំណត់អត្តសញ្ញាណរូបភាពដោយមិនមានការលើកឡើងពីស្លាកជាក់លាក់។ លទ្ធផលគឺមានតម្លៃសម្រាប់ម៉ាកយីហោដើម្បីតាមដាន និងតាមដានការលើកឡើងពីសង្គមរបស់ពួកគេ។

តើការទទួលស្គាល់រូបភាពដំណើរការយ៉ាងដូចម្តេច?

ដូចដែលយើងដឹងហើយថា AI អាចស្វែងរកវេទិកាប្រព័ន្ធផ្សព្វផ្សាយសង្គមដែលកំពុងស្វែងរករូបថត និងប្រៀបធៀបពួកវាទៅនឹងសំណុំទិន្នន័យទូលំទូលាយ។ បន្ទាប់មកវាសម្រេចចិត្តលើរូបភាពដែលពាក់ព័ន្ធដែលត្រូវគ្នាក្នុងអត្រាមួយលឿនជាងមនុស្សមានសមត្ថភាព។ ម៉ាកប្រើប្រាស់ការទទួលស្គាល់រូបភាពដើម្បីស្វែងរកខ្លឹមសារស្រដៀងនឹងរបស់ពួកគេនៅលើប្រព័ន្ធផ្សព្វផ្សាយសង្គម។ នោះមានន័យថាកំណត់អត្តសញ្ញាណស្លាកសញ្ញារបស់ម៉ាក ឬទទួលស្គាល់ការដាក់ផលិតផលសរីរាង្គក្នុងចំណោមអ្នកប្រើប្រាស់ប្រព័ន្ធផ្សព្វផ្សាយសង្គម។ ការសុំមនុស្សឱ្យលូនតាមព័ត៌មានច្រើនយ៉ាងងាយនឹងក្លាយជាការនឿយហត់។ AI មិនបារម្ភអំពីកំហុសរបស់មនុស្សទេ ហើយផ្តល់លទ្ធផលច្បាស់លាស់ក្នុងកម្រិតដែលគ្មានគូប្រៀប។ ការទទួលស្គាល់រូបភាព AI តាមដាននូវអ្វីដែលមនុស្សកំពុងនិយាយអំពីម៉ាកដោយមិនចាំបាច់មានអត្ថបទ។ ម៉ាកដែលអាចតាមដានការលើកឡើងពីសង្គមរបស់ពួកគេដោយមិនចាំបាច់អ្នកប្រើប្រាស់វាយបញ្ចូលឈ្មោះក្រុមហ៊ុននឹងរកឃើញថាពួកគេស្ថិតក្នុងទីតាំងដែលមានអត្ថប្រយោជន៍។ សក្ដានុពលក្នុងការទាញយកការគ្របដណ្តប់លើអ៊ីនធឺណិតផ្ទាល់របស់ពួកគេតាមរយៈឧបករណ៍កំណត់អត្តសញ្ញាណដែលទទួលស្គាល់ដោយ AI គឺមានទំហំធំ ហើយផ្តល់នូវការគ្របដណ្តប់ដែលមិនអាចប្រៀបផ្ទឹមបាន។

នេះគឺជាការងារធម្មតាមួយចំនួននៃការទទួលស្គាល់រូបភាព៖ -

ដំបូងយើងត្រូវកំណត់ថាតើទិន្នន័យរូបភាពមានវត្ថុ លក្ខណៈពិសេស ឬសកម្មភាពជាក់លាក់មួយចំនួនឬអត់។ កិច្ចការនេះជាធម្មតាអាចត្រូវបានដោះស្រាយយ៉ាងរឹងមាំ និងដោយគ្មានការប្រឹងប្រែងដោយមនុស្ស ប៉ុន្តែនៅតែមិនត្រូវបានដោះស្រាយយ៉ាងគាប់ចិត្តក្នុងចក្ខុវិស័យកុំព្យូទ័រសម្រាប់ករណីទូទៅ៖ វត្ថុបំពានក្នុងស្ថានភាពបំពាន។ វិធីសាស្រ្តដែលមានស្រាប់សម្រាប់ការដោះស្រាយបញ្ហានេះអាចដោះស្រាយបានល្អបំផុតសម្រាប់តែវត្ថុជាក់លាក់ ដូចជាវត្ថុធរណីមាត្រសាមញ្ញ (ឧ. ប៉ូលីហេដ្រា) មុខមនុស្ស តួអក្សរដែលបានបោះពុម្ព ឬសរសេរដោយដៃ ឬយានជំនិះ និងក្នុងស្ថានភាពជាក់លាក់ ដែលជាធម្មតាត្រូវបានពិពណ៌នាជាពាក្យ។ នៃការបំភ្លឺដែលបានកំណត់យ៉ាងល្អ ផ្ទៃខាងក្រោយ និងទីតាំងនៃវត្ថុដែលទាក់ទងទៅនឹងកាមេរ៉ា។ ភាពខុសគ្នានៃបញ្ហានៃការទទួលស្គាល់ត្រូវបានពិពណ៌នានៅក្នុងអក្សរសិល្ប៍៖

• ការទទួលស្គាល់វត្ថុ

វត្ថុ ឬថ្នាក់វត្ថុដែលបានសិក្សាជាក់លាក់មួយ ឬជាច្រើនអាចត្រូវបានទទួលស្គាល់ ជាធម្មតារួមជាមួយនឹងទីតាំង 2D របស់ពួកគេនៅក្នុងរូបភាព ឬការថត 3D នៅក្នុងកន្លែងកើតហេតុ។

• ការកំណត់អត្តសញ្ញាណ
ឧទាហរណ៍បុគ្គលនៃវត្ថុមួយត្រូវបានទទួលស្គាល់។ ឧទាហរណ៍គឺការកំណត់អត្តសញ្ញាណមុខ ឬស្នាមម្រាមដៃរបស់មនុស្សជាក់លាក់ ឬការកំណត់អត្តសញ្ញាណយានយន្តជាក់លាក់មួយ។

• ការរកឃើញ
ទិន្នន័យរូបភាពត្រូវបានស្កេនសម្រាប់លក្ខខណ្ឌជាក់លាក់មួយ។ ឧទាហរណ៍គឺការរកឃើញកោសិកា ឬជាលិកាមិនប្រក្រតីក្នុងរូបភាពវេជ្ជសាស្ត្រ ឬការរកឃើញរថយន្តក្នុងប្រព័ន្ធគិតថ្លៃផ្លូវស្វ័យប្រវត្តិ។ ការរកឃើញដោយផ្អែកលើការគណនាសាមញ្ញ និងរហ័ស ជួនកាលត្រូវបានប្រើសម្រាប់ការស្វែងរកតំបន់តូចៗនៃទិន្នន័យរូបភាពគួរឱ្យចាប់អារម្មណ៍ ដែលអាចត្រូវបានវិភាគបន្ថែមដោយបច្ចេកទេសទាមទារការគណនាបន្ថែមទៀតដើម្បីបង្កើតការបកស្រាយត្រឹមត្រូវ។

ការងារឯកទេសជាច្រើនផ្អែកលើការទទួលស្គាល់មានដូចជា៖

• ការទាញយករូបភាពផ្អែកលើខ្លឹមសារ
នៅទីនេះការស្វែងរករូបភាពទាំងអស់នៅក្នុងសំណុំរូបភាពធំជាងដែលមានខ្លឹមសារជាក់លាក់។ ខ្លឹមសារអាចត្រូវបានបញ្ជាក់តាមវិធីផ្សេងៗគ្នា ឧទាហរណ៍ក្នុងលក្ខខណ្ឌនៃភាពស្រដៀងគ្នាដែលទាក់ទងនឹងរូបភាពគោលដៅ (ផ្តល់ឱ្យខ្ញុំនូវរូបភាពទាំងអស់ដែលស្រដៀងទៅនឹងរូបភាព X) ឬក្នុងលក្ខខណ្ឌនៃលក្ខណៈវិនិច្ឆ័យស្វែងរកកម្រិតខ្ពស់ដែលបានផ្តល់ជាការបញ្ចូលអត្ថបទ (ផ្តល់ឱ្យខ្ញុំនូវរូបភាពទាំងអស់ដែលមាន ផ្ទះជាច្រើនត្រូវបានគេយកក្នុងរដូវរងារ ហើយមិនមានឡាននៅក្នុងពួកគេ)។

• ដាក់ការប៉ាន់ស្មាន
យើងត្រូវប៉ាន់ប្រមាណទីតាំង ឬការតំរង់ទិសនៃវត្ថុជាក់លាក់មួយទាក់ទងទៅនឹងកាមេរ៉ា។ កម្មវិធីឧទាហរណ៍សម្រាប់បច្ចេកទេសនេះនឹងជួយមនុស្សយន្តទាញយកវត្ថុពីខ្សែក្រវាត់ conveyor នៅក្នុងស្ថានភាពបន្ទាត់ដំឡើង។

• ការស្គាល់តួអក្សរអុបទិក
OCR ដែលកំណត់អត្តសញ្ញាណតួអក្សរនៅក្នុងរូបភាពនៃអត្ថបទដែលបានបោះពុម្ព ឬសរសេរដោយដៃ ជាធម្មតាក្នុងគោលបំណងដើម្បីបំប្លែងអត្ថបទក្នុងទម្រង់មួយបន្ថែមទៀត និងអនុញ្ញាតឱ្យកែសម្រួល ឬធ្វើលិបិក្រមនាយកដ្ឋានវិទ្យាសាស្ត្រកុំព្យូទ័រ និងវិស្វកម្ម សាកលវិទ្យាល័យ Michigan State ។ “ការទទួលស្គាល់លំនាំ និងដំណើរការរូបភាព (PRIP) មហាវិទ្យាល័យ និងនិស្សិតធ្វើការស៊ើបអង្កេតលើការប្រើប្រាស់ម៉ាស៊ីនដើម្បីទទួលស្គាល់គំរូ ឬវត្ថុ។ វិធីសាស្រ្តត្រូវបានបង្កើតឡើងដើម្បីយល់អំពីវត្ថុ រកមើលលក្ខណៈណាមួយរបស់វាដែលបែងចែកពួកវាពីអ្នកដទៃ និងដើម្បីរចនាក្បួនដោះស្រាយដែលអាចប្រើដោយម៉ាស៊ីនដើម្បីធ្វើចំណាត់ថ្នាក់។ កម្មវិធីសំខាន់ៗរួមមានការសម្គាល់មុខ ការកំណត់អត្តសញ្ញាណស្នាមម្រាមដៃ ការវិភាគរូបភាពឯកសារ ការសាងសង់គំរូវត្ថុ 3D ការរុករកមនុស្សយន្ត និងការមើលឃើញ/ការរុករកទិន្នន័យបរិមាណ 3D ។ បញ្ហាស្រាវជ្រាវបច្ចុប្បន្នរួមមានការផ្ទៀងផ្ទាត់ជីវមាត្រ ការឃ្លាំមើល និងការតាមដានដោយស្វ័យប្រវត្តិ HCI ដោយគ្មានដៃ គំរូមុខ ការសម្គាល់ទឹកឌីជីថល និងរចនាសម្ព័ន្ធវិភាគនៃឯកសារអនឡាញ។ និស្សិតបញ្ចប់ការសិក្សាថ្មីៗនៃមន្ទីរពិសោធន៍បានធ្វើការលើការទទួលស្គាល់ការសរសេរដោយដៃ ការផ្ទៀងផ្ទាត់ហត្ថលេខា ការរៀនដែលមើលឃើញ និងការទាញយករូបភាព។

⦁ ការទទួលស្គាល់មុខ
យើងដឹងថាប្រព័ន្ធសម្គាល់មុខកំពុងក្លាយជាការពេញនិយមជាលំដាប់ ជាមធ្យោបាយទាញយកព័ត៌មានជីវមាត្រ។ ការសម្គាល់មុខមានតួនាទីយ៉ាងសំខាន់នៅក្នុងប្រព័ន្ធជីវមាត្រ និងមានភាពទាក់ទាញសម្រាប់កម្មវិធីជាច្រើន រួមទាំងការឃ្លាំមើលដោយមើលឃើញ និងសុវត្ថិភាពផងដែរ។ ដោយសារតែសាធារណៈជនទូទៅទទួលយករូបភាពមុខនៅលើឯកសារផ្សេងៗ ការសម្គាល់មុខមានសក្តានុពលដ៏អស្ចារ្យដើម្បីក្លាយជាបច្ចេកវិទ្យាជីវមាត្រជំនាន់ក្រោយនៃជម្រើស។

ប្រព័ន្ធទទួលស្គាល់រូបភាព

⦁ការវិភាគចលនា
កិច្ចការជាច្រើនទាក់ទងនឹងការប៉ាន់ស្មានចលនាដែលលំដាប់រូបភាពត្រូវបានដំណើរការដើម្បីបង្កើតការប៉ាន់ប្រមាណនៃល្បឿននៅចំនុចនីមួយៗក្នុងរូបភាព ឬក្នុងឈុត 3D ឬសូម្បីតែកាមេរ៉ាដែលបង្កើតរូបភាព។ ឧទាហរណ៍នៃភារកិច្ចបែបនេះគឺ៖

⦁ ចលនាអត្មា
ការកំណត់ចលនារឹង 3D (ការបង្វិល និងការបកប្រែ) នៃកាមេរ៉ាពីលំដាប់រូបភាពដែលផលិតដោយកាមេរ៉ា។

⦁ ការតាមដាន
ការតាមដានគឺធ្វើតាមចលនានៃចំណុចចាប់អារម្មណ៍ ឬវត្ថុតូចជាង (ជាធម្មតា) (ឧ. យានជំនិះ ឬមនុស្ស) នៅក្នុងលំដាប់រូបភាព។

⦁ លំហូរអុបទិក
នេះគឺជាការកំណត់សម្រាប់ចំណុចនីមួយៗក្នុងរូបភាពថាតើចំណុចនោះកំពុងផ្លាស់ទីទាក់ទងនឹងប្លង់រូបភាពឬយ៉ាងណា ពោលគឺចលនាជាក់ស្តែងរបស់វា។ ចលនានេះគឺជាលទ្ធផលទាំងពីរនៃរបៀបដែលចំណុច 3D ដែលត្រូវគ្នាកំពុងផ្លាស់ទីក្នុងកន្លែងកើតហេតុ និងរបៀបដែលកាមេរ៉ាកំពុងផ្លាស់ទីទាក់ទងទៅនឹងកន្លែងកើតហេតុ។

⦁ ការកសាងឡើងវិញនូវទិដ្ឋភាព
ដោយបានផ្តល់រូបភាពមួយ ឬ (ជាធម្មតា) បន្ថែមទៀតនៃឈុតឆាក ឬវីដេអូ ការស្ថាបនាឡើងវិញនូវទិដ្ឋភាពមានគោលបំណងគណនាគំរូ 3D នៃកន្លែងកើតហេតុ។ ក្នុងករណីសាមញ្ញបំផុត គំរូអាចជាសំណុំនៃចំណុច 3D ។ វិធីសាស្រ្តស្មុគ្រស្មាញកាន់តែច្រើនបង្កើតគំរូផ្ទៃ 3D ពេញលេញ

⦁ ការស្តាររូបភាពឡើងវិញ
គោលបំណងនៃការស្តាររូបភាពឡើងវិញគឺការដកសំលេងរំខាន (សម្លេងរំខានពីឧបករណ៍ចាប់សញ្ញា ចលនាព្រិលៗ។ល។) ចេញពីរូបភាព។ វិធីសាស្រ្តដ៏សាមញ្ញបំផុតដែលអាចធ្វើទៅបានសម្រាប់ការដកសំលេងរំខានគឺប្រភេទផ្សេងៗនៃតម្រងដូចជា តម្រងឆ្លងកាត់ទាប ឬតម្រងមធ្យម។ វិធីសាស្រ្តស្មុគ្រស្មាញជាងនេះសន្មតថាជាគំរូនៃរបៀបដែលរចនាសម្ព័ន្ធរូបភាពក្នុងតំបន់មើលទៅជាគំរូដែលសម្គាល់ពួកវាពីសម្លេងរំខាន។ តាមរយៈការវិភាគទិន្នន័យរូបភាពជាដំបូងទាក់ទងនឹងរចនាសម្ព័ន្ធរូបភាពក្នុងតំបន់ ដូចជាបន្ទាត់ ឬគែម ហើយបន្ទាប់មកគ្រប់គ្រងការត្រងដោយផ្អែកលើព័ត៌មានមូលដ្ឋានពីជំហាននៃការវិភាគ កម្រិតនៃការដកសំលេងរំខានកាន់តែប្រសើរឡើងជាធម្មតាទទួលបានបើប្រៀបធៀបទៅនឹងវិធីសាស្រ្តសាមញ្ញជាង។ ឧទាហរណ៍ក្នុងវិស័យនេះគឺគំនូររបស់ពួកគេ។ ប្រព័ន្ធមួយចំនួនគឺជាកម្មវិធីឯករាជ្យដែលដោះស្រាយបញ្ហារង្វាស់ជាក់លាក់ ឬបញ្ហារកឃើញ ខណៈពេលដែលប្រព័ន្ធផ្សេងទៀតបង្កើតជាប្រព័ន្ធរងនៃការរចនាធំជាង ដែលឧទាហរណ៍ក៏មានប្រព័ន្ធរងសម្រាប់ការគ្រប់គ្រងមេកានិក ការធ្វើផែនការ មូលដ្ឋានទិន្នន័យព័ត៌មាន man- ចំណុចប្រទាក់ម៉ាស៊ីន។ល។ ការអនុវត្តជាក់លាក់នៃប្រព័ន្ធចក្ខុវិស័យកុំព្យូទ័រក៏អាស្រ័យទៅលើថាតើមុខងាររបស់វាត្រូវបានកំណត់ជាមុន ឬប្រសិនបើផ្នែកខ្លះនៃវាអាចត្រូវបានសិក្សា ឬកែប្រែកំឡុងពេលប្រតិបត្តិការ។ ទោះយ៉ាងណាក៏ដោយមានមុខងារធម្មតាដែលត្រូវបានរកឃើញនៅក្នុងប្រព័ន្ធចក្ខុវិស័យកុំព្យូទ័រជាច្រើន។

ការសិក្សាកាន់តែស៊ីជម្រៅជាមួយនឹងការទទួលស្គាល់រូបភាព

ការទទួលស្គាល់រូបភាពគឺនៅមុន AI ។ ប៉ុន្តែកត្តាសិក្សារបស់ម៉ាស៊ីនកំពុងធ្វើបដិវត្តវិធីសាស្រ្តសម្រាប់កំណត់អត្តសញ្ញាណវត្ថុ ឬមុខរបស់មនុស្ស។ ការរៀនម៉ាស៊ីនមានប្រសិទ្ធភាពតែនៅពេលដែលមានទិន្នន័យដើម្បីចិញ្ចឹមវាប៉ុណ្ណោះ។ សម្រាប់ស្វ័យប្រវត្តិកម្មទាំងអស់របស់ AI ភារកិច្ចកំណត់អត្តសញ្ញាណរូបភាពមិនមែនជាសំណើសាមញ្ញនោះទេ។ ការយល់ដឹងរបស់យើងអំពីការមើលឃើញគឺជាធម្មជាតិទីពីរ; វាជាអ្វីដែលយើងត្រូវបានរៀបចំធ្វើតាំងពីក្មេង។ ការសួរម៉ាស៊ីនដូចគ្នា មិនមែនជាដំណើរការត្រង់នោះទេ។ សម្រាប់ហេតុផលនោះ ទម្រង់ដ៏ពេញនិយមមួយនៃការទទួលស្គាល់ AI គឺបណ្តាញសរសៃប្រសាទ (CNN)។ CNN គឺជាវិធីសាស្រ្តមួយដែលផ្តោតលើភីកសែលដែលមានទីតាំងនៅជាប់គ្នា។ រូបភាពដែលមានទីតាំងជិតស្និទ្ធទំនងជាមានទំនាក់ទំនងគ្នា ដែលមានន័យថាវត្ថុ ឬមុខត្រូវបានផ្គូផ្គងទៅនឹងរូបភាពដែលមានតម្លាភាពជាងមុន។
ខណៈពេលដែលម៉ាកយីហោដែលកំពុងស្វែងរកការរកប្រាក់ពីប្រព័ន្ធផ្សព្វផ្សាយសង្គម ទោះបីជាការទទួលស្គាល់រូបភាព AI មានអត្ថប្រយោជន៍ច្បាស់លាស់ក៏ដោយ ករណីប្រើប្រាស់របស់វាដំណើរការកាន់តែជ្រៅ។ រថយន្តដែលបើកបរដោយខ្លួនឯង ហៀបនឹងក្លាយជារឿងធំបន្ទាប់នៅក្នុងពិភពរថយន្ត ហើយបច្ចេកវិទ្យា AI image recognition កំពុងតែជួយផ្តល់ថាមពលដល់ពួកគេ។ រថយន្តដែលបើកបរដោយខ្លួនឯង ដែលអាចចាប់វត្ថុ និងមនុស្សនៅលើដងផ្លូវ ដូច្នេះហើយទើបវាមិនបុកពួកវា មិនកើតឡើងដោយស្វ័យប្រវត្តិនោះទេ។ វាត្រូវតែទទួលស្គាល់រូបភាពដើម្បីធ្វើការសម្រេចចិត្តប្រកបដោយការយល់ដឹង។ រថយន្តដែលបើកបរដោយខ្លួនឯងនីមួយៗត្រូវបានបំពាក់ដោយឧបករណ៍ចាប់សញ្ញាជាច្រើន ដូច្នេះវាអាចកំណត់អត្តសញ្ញាណយានយន្តដែលកំពុងផ្លាស់ទីផ្សេងទៀត អ្នកជិះកង់ និងមនុស្ស – ជាទូទៅអ្វីដែលអាចបង្កគ្រោះថ្នាក់។ រថយន្តស្វ័យប្រវត្តិត្រូវដំណើរការគ្រោះថ្នាក់លើផ្លូវដូចអ្នកបើកបរដែលមានរដូវកាលធ្វើដែរ។ វានៅតែមានទិដ្ឋភាពមួយចំនួនដែលត្រូវដោះស្រាយមុនពេលរថយន្តដែលបើកបរដោយខ្លួនឯងបានបុកផ្លូវនៅឆ្នាំ 2020។ ប៉ុន្តែនៅពេលដែលស្វ័យប្រវត្តិកម្មយានយន្តចាប់ផ្តើមដំណើរការ ការទទួលស្គាល់រូបភាព AI នឹងជាកត្តាជំរុញដ៏សំខាន់មួយនៅពីក្រោយពួកគេធ្វើការដោយសុវត្ថិភាព។
⦁ ការទទួលរូបភាព
រូបភាពឌីជីថលត្រូវបានផលិតដោយឧបករណ៍ចាប់សញ្ញារូបភាពមួយ ឬច្រើន ដែលក្រៅពីប្រភេទផ្សេងៗនៃកាមេរ៉ាដែលងាយនឹងពន្លឺ រួមមានឧបករណ៍ចាប់សញ្ញាជួរ ឧបករណ៍ tomography រ៉ាដា កាមេរ៉ា Ultra-sonic ជាដើម។ អាស្រ័យលើប្រភេទឧបករណ៍ចាប់សញ្ញា ទិន្នន័យរូបភាពលទ្ធផល គឺជារូបភាព 2D ធម្មតា កម្រិតសំឡេង 3D ឬលំដាប់រូបភាព។ តម្លៃភីកសែលជាធម្មតាត្រូវគ្នាទៅនឹងអាំងតង់ស៊ីតេពន្លឺនៅក្នុងក្រុមវិសាលគមមួយ ឬជាច្រើន (រូបភាពពណ៌ប្រផេះ ឬរូបភាពពណ៌) ប៉ុន្តែក៏អាចទាក់ទងទៅនឹងវិធានការរូបវន្តផ្សេងៗដូចជា ជម្រៅ ការស្រូប ឬការឆ្លុះបញ្ចាំងនៃរលកសំឡេង ឬរលកអេឡិចត្រូម៉ាញ៉េទិច ឬអនុភាពម៉ាញេទិកនុយក្លេអ៊ែរ។
⦁ ដំណើរការមុន៖
មុនពេលដែលវិធីសាស្ត្រចក្ខុវិស័យកុំព្យូទ័រអាចត្រូវបានអនុវត្តចំពោះទិន្នន័យរូបភាព ដើម្បីទាញយកព័ត៌មានជាក់លាក់មួយចំនួន ជាធម្មតាចាំបាច់ត្រូវដំណើរការទិន្នន័យ ដើម្បីធានាថាវាបំពេញការសន្មត់ជាក់លាក់ដែលបង្កប់ដោយវិធីសាស្ត្រ។ ឧទាហរណ៍គឺ
1. ការយកគំរូឡើងវិញដើម្បីធានាថាប្រព័ន្ធសំរបសំរួលរូបភាពត្រឹមត្រូវ។
2. ការកាត់បន្ថយសំលេងរំខាន ដើម្បីធានាថា សំលេងរំខានរបស់ឧបករណ៍ចាប់សញ្ញាមិនបង្ហាញព័ត៌មានមិនពិត។
3. ការពង្រឹងកម្រិតពណ៌ ដើម្បីធានាថាព័ត៌មានដែលពាក់ព័ន្ធអាចត្រូវបានរកឃើញ។
4. តំណាងមាត្រដ្ឋាន ដើម្បីបង្កើនរចនាសម្ព័ន្ធរូបភាពតាមមាត្រដ្ឋានសមស្របតាមមូលដ្ឋាន។
⦁ការទាញយកលក្ខណៈពិសេស:
លក្ខណៈពិសេសរូបភាពនៅកម្រិតផ្សេងៗនៃភាពស្មុគស្មាញត្រូវបានស្រង់ចេញពីទិន្នន័យរូបភាព។ ឧទាហរណ៍ធម្មតានៃលក្ខណៈពិសេសបែបនេះគឺ បន្ទាត់ គែម និង Ridge
ចំណុចចាប់អារម្មណ៍ដែលបានធ្វើមូលដ្ឋានីយកម្មដូចជាជ្រុង ប្លុក ឬចំណុច។ លក្ខណៈពិសេសស្មុគ្រស្មាញជាងនេះប្រហែលជាទាក់ទងទៅនឹងវាយនភាព រូបរាង ឬចលនា។
⦁ ការរកឃើញ/ការបែងចែក៖
នៅចំណុចមួយចំនួនក្នុងដំណើរការ ការសម្រេចចិត្តត្រូវបានធ្វើឡើងអំពីចំណុចរូបភាព ឬតំបន់នៃរូបភាពដែលពាក់ព័ន្ធសម្រាប់ដំណើរការបន្ថែម។ ឧទាហរណ៍គឺ
1. ការជ្រើសរើសសំណុំជាក់លាក់នៃចំណុចចាប់អារម្មណ៍
2. ការបែងចែកតំបន់រូបភាពមួយ ឬច្រើនដែលមានវត្ថុជាក់លាក់ដែលចាប់អារម្មណ៍។
⦁ ដំណើរការកម្រិតខ្ពស់៖
នៅជំហាននេះ ការបញ្ចូលជាធម្មតាជាសំណុំទិន្នន័យតូចមួយ ឧទាហរណ៍ សំណុំនៃចំណុច ឬតំបន់ចលនា ដែលត្រូវបានសន្មត់ថាមានវត្ថុជាក់លាក់មួយ។ ដំណើរការដែលនៅសល់ទាក់ទងនឹងឧទាហរណ៍៖
1. ការផ្ទៀងផ្ទាត់ថាទិន្នន័យបំពេញតាមការសន្មត់តាមគំរូ និងកម្មវិធីជាក់លាក់។
2. ការប៉ាន់ប្រមាណនៃប៉ារ៉ាម៉ែត្រជាក់លាក់នៃកម្មវិធីដូចជា object pose ឬ objectsize ។
3. ការចាត់ថ្នាក់វត្ថុដែលបានរកឃើញទៅជាប្រភេទផ្សេងៗ។ ដូច្នេះ ដំណើរការរូបភាពជួយ AI ដើម្បីកំណត់អត្តសញ្ញាណរូបភាព និងឆ្លើយតបទៅតាមការកំណត់រូបភាព។

អនាគតគ្មានថ្នេរនៃរូបភាព

នៅពេលដែលបច្ចេកវិទ្យាមានភាពប្រសើរឡើង ការទទួលស្គាល់រូបភាពនឹងផ្តល់លទ្ធផលកាន់តែច្រើន។ ប្រធានផ្នែករៀនម៉ាស៊ីននៅ Lobster លោក Vladimir Pavlov មានប្រសាសន៍ថា “មូលដ្ឋានគណិតវិទ្យាសម្រាប់ការទទួលស្គាល់វត្ថុមានតាំងពីយូរយារណាស់មកហើយ ប៉ុន្តែលទ្ធភាពបច្ចេកវិទ្យានៃការប្រើប្រាស់ក្បួនដោះស្រាយចក្ខុវិស័យកុំព្យូទ័របានលេចឡើងនាពេលថ្មីៗនេះ។ រួចហើយបណ្តាញសរសៃប្រសាទអនុញ្ញាតឱ្យបង្កើតឧបករណ៍រាវរកដ៏ល្អឥតខ្ចោះដែលមានសមត្ថភាពធ្វើការបានល្អជាងមនុស្ស។ ភាពច្របូកច្របល់ដ៏ធំមួយរារាំងវត្តមាននៃសំណុំទិន្នន័យរូបភាពដែលបានសម្គាល់សម្រាប់ការបណ្តុះបណ្តាល ប៉ុន្តែនៅពេលអនាគតដ៏ខ្លីនេះ វានឹងមិនមានបញ្ហានោះទេ។ វិស្វករចក្ខុវិស័យកុំព្យូទ័រកំពុងធ្វើការយ៉ាងសកម្មលើក្បួនដោះស្រាយការរៀនដោយខ្លួនឯង”។ ជាមួយនឹងអនាគតដ៏មានឥទ្ធិពលយ៉ាងខ្លាំងដោយការទំនាក់ទំនងដែលមើលឃើញ ការទទួលស្គាល់រូបភាពនឹងក្លាយជាកត្តាសំខាន់នៅពីក្រោយរូបភាពជាច្រើនដែលយើងឃើញ។ ទាំងក្នុងជីវិតពិត និងតាមអ៊ីនធឺណិត។