රූපය හඳුනා ගැනීම වැදගත් වන්නේ ඇයි?

අන්තර්ජාලයේ අන්තර්ගතයෙන් සියයට 80 ක් පමණ දෘශ්යමය වේ. පින්තූර ටැග් කිරීම අන්තර්ගත වගුවේ රජු ලෙස එහි ස්ථානය තබාගත හැක්කේ මන්දැයි ඔබට දැනටමත් වැඩ ආරම්භ කළ හැක. එය පුද්ගලයන් හෝ සමාගම් වේවා, AI රූප හඳුනාගැනීම අවම කලබලයකින් අන්තර්ජාලය හරහා දෘශ්‍ය හඳුනා ගැනීමට හැකි වී ඇත. සෑම වසරකම ඡායාරූප බිලියන 657 ක් පමණ ඩිජිටල් ලෙස පළ කරන අතර බහුතරයක් සමාජ මාධ්‍යවල දිස් වේ. එම පින්තූරවලින් හොඳ කොටසක් ඔවුන් නොදැනුවත්වම එසේ කළත්, නිෂ්පාදන ප්‍රවර්ධනය කරන පුද්ගලයින් වේ. පරිශීලක-ජනනය කරන ලද අන්තර්ගතය (UGC) එහි පිරිසිදු ස්වරූපයෙන් එය හොඳම ආකාරයේ ප්‍රවර්ධනයක් සපයන බැවින් සන්නාම සඳහා විශිෂ්ට සක්‍රීය කරන්නකි.
සමාජ මාධ්‍යවල පාරිභෝගික සඳහනක් ඇති විට සමාගම්වලට අනතුරු ඇඟවීමට අලෙවිකරණ මෙවලම් තිබේ, නමුත් සමාජ පළකිරීමේ කිසිවෙකු ඔවුන්ගේ නම ටැග් නොකර වෙළඳ නාම ප්‍රවර්ධනය සිදු වූ විට කුමක් කළ යුතුද? AI රූප හඳුනාගැනීම එහි වටිනාකම ඔප්පු කරන්නේ මෙහිදීය. තාක්‍ෂණයට නිවැරදි දත්ත කට්ටල ලබා දෙන්නේ නම්, AI හට නිශ්චිත ටැග් සඳහනක් නොමැතිව රූපයක් හඳුනාගත හැකිය. සන්නාමවලට ​​ඔවුන්ගේ සමාජ සඳහන සොයා ගැනීමට සහ සොයා ගැනීමට ප්‍රතිඵල ඉතා අගනේය.

රූප හඳුනාගැනීම ක්‍රියා කරන්නේ කෙසේද?

අප දන්නා පරිදි AI හට ඡායාරූප සොයන සමාජ මාධ්‍ය වේදිකා සෙවිය හැකි අතර ඒවා පුළුල් දත්ත කට්ටල සමඟ සංසන්දනය කළ හැක. පසුව එය මිනිසුන්ට ඇති හැකියාවට වඩා ඉතා වේගයෙන් ගැළපෙන අදාළ රූපය තීරණය කරයි. සමාජ මාධ්‍යවල තමන්ට සමාන අන්තර්ගතයන් සොයා ගැනීමට සන්නාම රූප හඳුනාගැනීම භාවිතා කරයි. එනම් සන්නාමයේ ලාංඡනය හඳුනා ගැනීම හෝ සමාජ මාධ්‍ය භාවිතා කරන්නන් අතර ඓන්ද්‍රීයව තබා ඇති නිෂ්පාදන ස්ථානගත කිරීම හඳුනා ගැනීමයි. මෙතරම් තොරතුරු හරහා ගමන් කිරීමට මිනිසුන්ගෙන් ඉල්ලා සිටීම පහසුවෙන් වෙහෙසකර වේ. AI මානව දෝෂය ගැන කනස්සල්ලට පත් නොවන අතර, අසමසම මට්ටම්වල නිරවද්‍ය ප්‍රතිඵල ලබා දෙයි. AI රූප හඳුනාගැනීම පෙළ අවශ්‍යතාවයකින් තොරව වෙළඳ නාමයක් ගැන මිනිසුන් පවසන දේ නිරීක්ෂණය කරයි. පරිශීලකයින්ට සමාගමේ නම ටයිප් කිරීමට අවශ්‍ය නොවී ඔවුන්ගේ සමාජ සඳහන් කිරීම් නිරීක්ෂණය කළ හැකි වෙළඳ නාම වාසිදායක ස්ථානයක සිටිනු ඇත. AI පිළිගත් හඳුනාගැනීම් හරහා පමණක් ඔවුන්ගේම සබැඳි ආවරණයට තට්ටු කිරීමේ හැකියාව අති විශාල වන අතර අසමසම ආවරණයක් සපයයි.

රූප හඳුනාගැනීමේ සාමාන්‍ය කාර්යයන් කිහිපයක් මෙන්න:-

රූප දත්තවල යම් නිශ්චිත වස්තුවක්, විශේෂාංගයක් හෝ ක්‍රියාකාරකමක් තිබේද නැද්ද යන්න මුලින්ම අපට තීරණය කිරීමට සිදුවේ. මෙම කර්තව්‍යය සාමාන්‍යයෙන් මිනිසෙකුට ශක්තිමත්ව සහ උත්සාහයකින් තොරව විසඳිය හැකි නමුත් සාමාන්‍ය අවස්ථාව සඳහා පරිගණක දර්ශනය තුළ තවමත් සතුටුදායක ලෙස විසඳා නැත: අත්තනෝමතික අවස්ථාවන්හිදී අත්තනෝමතික වස්තූන්. මෙම ගැටලුව සමඟ කටයුතු කිරීම සඳහා පවතින ක්‍රම වඩාත් හොඳින් විසඳිය හැක්කේ සරල ජ්‍යාමිතික වස්තු (උදා, බහුඅවයව), මිනිස් මුහුණු, මුද්‍රිත හෝ අතින් ලියන ලද අක්ෂර, හෝ වාහන, සහ විශේෂිත අවස්ථාවන්හිදී, සාමාන්‍යයෙන් විස්තර කර ඇති විශේෂිත වස්තූන් සඳහා පමණි. කැමරාවට සාපේක්ෂව වස්තුවේ හොඳින් අර්ථ දක්වා ඇති ආලෝකය, පසුබිම සහ ඉරියව්ව. හඳුනාගැනීමේ ගැටලුවේ විවිධ ප්‍රභේද සාහිත්‍යයේ විස්තර කර ඇත:

• වස්තු හඳුනාගැනීම

පෙර-නිශ්චිත හෝ උගත් වස්තු හෝ වස්තු පන්ති එකක් හෝ කිහිපයක් හඳුනා ගත හැකිය, සාමාන්‍යයෙන් රූපයේ ඒවායේ 2D පිහිටීම් හෝ දර්ශනයේ 3D ඉරියව් සමඟ.

• හඳුනා ගැනීම
වස්තුවක තනි අවස්ථාවක් හඳුනා ගැනේ. නිශ්චිත පුද්ගලයෙකුගේ මුහුණ හෝ ඇඟිලි සලකුණ හඳුනා ගැනීම හෝ නිශ්චිත වාහනයක් හඳුනා ගැනීම උදාහරණ වේ.

• හඳුනාගැනීම
නිශ්චිත කොන්දේසියක් සඳහා රූප දත්ත ස්කෑන් කරනු ලැබේ. උදාහරණ නම් වෛද්‍ය රූපවල ඇති විය හැකි අසාමාන්‍ය සෛල හෝ පටක හඳුනා ගැනීම හෝ ස්වයංක්‍රීය මාර්ග ගාස්තු පද්ධතියක වාහනයක් හඳුනා ගැනීමයි. සාපේක්ෂ සරල සහ වේගවත් ගණනය කිරීම් මත පදනම් වූ හඳුනාගැනීම සමහර විට සිත්ගන්නා රූප දත්ත කුඩා කලාප සොයා ගැනීම සඳහා භාවිතා කරනු ලබන අතර ඒවා නිවැරදි අර්ථකථනයක් නිෂ්පාදනය කිරීම සඳහා වඩාත් පරිගණකමය වශයෙන් ඉල්ලා සිටින තාක්ෂණික ක්‍රම මගින් තවදුරටත් විශ්ලේෂණය කළ හැකිය.

හඳුනාගැනීම මත පදනම් වූ විශේෂිත කාර්යයන් කිහිපයක් පවතී, වැනි:

• අන්තර්ගතය මත පදනම් වූ රූප ලබා ගැනීම
මෙහිදී නිශ්චිත අන්තර්ගතයක් ඇති විශාල පින්තූර කට්ටලයක සියලුම පින්තූර සොයා ගැනීම. අන්තර්ගතය විවිධ ආකාරවලින් සඳහන් කළ හැක, උදාහරණයක් ලෙස ඉලක්ක රූපයකට සාපේක්ෂ සමානතාවය අනුව (මට X රූපයට සමාන සියලුම පින්තූර දෙන්න), හෝ පෙළ ආදානය ලෙස ලබා දී ඇති ඉහළ මට්ටමේ සෙවුම් නිර්ණායක අනුව (ඇතුළත් සියලුම පින්තූර මට දෙන්න බොහෝ නිවාස, ශීත ඍතුවේ දී ගනු ලබන අතර, ඒවායේ මෝටර් රථ නොමැත).

• ඉරියව් ඇස්තමේන්තුව
අපි කැමරාවට සාපේක්ෂව නිශ්චිත වස්තුවක පිහිටීම හෝ දිශානතිය තක්සේරු කළ යුතුය. මෙම තාක්‍ෂණය සඳහා උදාහරණ යෙදුමක් වනුයේ එකලස් කිරීමේ රේඛා තත්වයකදී වාහක පටියකින් වස්තූන් ලබා ගැනීමට රොබෝවෙකුට සහාය වීමයි.

• ඔප්ටිකල් අක්ෂර හඳුනාගැනීම
OCR එය මුද්‍රිත හෝ අතින් ලියන ලද අකුරුවල රූපවල අක්ෂර හඳුනා ගැනීම, සාමාන්‍යයෙන් පෙළ වඩාත් ආකෘතියකින් කේතනය කිරීමේ අදහසින් සහ මිචිගන් ප්‍රාන්ත විශ්ව විද්‍යාලයේ පරිගණක විද්‍යා හා ඉංජිනේරු දෙපාර්තමේන්තුව සංස්කරණය කිරීමට හෝ සුචිගත කිරීමට හැකියාව ඇත. “රටාව හඳුනාගැනීම සහ රූප සැකසීම (PRIP) විද්‍යාගාර පීඨය සහ සිසුන් රටා හෝ වස්තූන් හඳුනාගැනීම සඳහා යන්ත්‍ර භාවිතා කිරීම විමර්ශනය කරයි. වස්තු සංවේදනය කිරීමටත්, ඒවායේ කුමන ලක්ෂණ ඒවා අන් අයගෙන් වෙන්කර හඳුනා ගැනීමටත්, වර්ගීකරණය කිරීමට යන්ත්‍රයකට භාවිතා කළ හැකි ඇල්ගොරිතම සැලසුම් කිරීමටත් ක්‍රම දියුණු කර ඇත. වැදගත් යෙදුම් අතර මුහුණු හඳුනාගැනීම, ඇඟිලි සලකුණු හඳුනාගැනීම, ලේඛන රූප විශ්ලේෂණය, ත්‍රිමාණ වස්තු ආකෘති නිර්මාණය, රොබෝ සංචාලනය සහ ත්‍රිමාණ පරිමාමිතික දත්ත දෘශ්‍යකරණය/ගවේෂණය ඇතුළත් වේ. වර්තමාන පර්යේෂණ ගැටළු අතර ජෛවමිතික සත්‍යාපනය, ස්වයංක්‍රීය නිරීක්ෂණ සහ ලුහුබැඳීම, අත් රහිත HCI, මුහුණු ආකෘති නිර්මාණය, ඩිජිටල් ජල සලකුණුකරණය සහ සබැඳි ලේඛනවල ව්‍යුහය විශ්ලේෂණය කිරීම ඇතුළත් වේ. විද්‍යාගාරයේ මෑත කාලීන උපාධිධාරීන් අත්අකුරු හඳුනාගැනීම, අත්සන සත්‍යාපනය, දෘශ්‍ය ඉගෙනීම සහ රූප ලබා ගැනීම පිළිබඳව කටයුතු කර ඇත.

⦁ මුහුණු හඳුනාගැනීම
ජීවමිතික තොරතුරු උකහා ගැනීමේ මාධ්‍යයක් ලෙස මුහුණු හඳුනාගැනීමේ පද්ධති ක්‍රමයෙන් ජනප්‍රිය වෙමින් පවතින බව අපි දනිමු. ජෛවමිතික පද්ධතිවල මුහුණු හඳුනාගැනීම තීරණාත්මක කාර්යභාරයක් ඉටු කරන අතර දෘශ්‍ය නිරීක්ෂණ සහ ආරක්ෂාව ඇතුළු බොහෝ යෙදුම් සඳහා ආකර්ෂණීය වේ. විවිධ ලේඛනවල මුහුණු රූප සඳහා සාමාන්‍ය මහජන පිළිගැනීමක් ඇති නිසා, මුහුණු හඳුනාගැනීම ඊළඟ පරම්පරාවේ ජෛවමිතික තාක්‍ෂණය තෝරා ගැනීමේ විශාල විභවයක් ඇත.

රූප හඳුනාගැනීමේ පද්ධති

⦁ චලන විශ්ලේෂණය
රූපයේ එක් එක් ලක්ෂ්‍යවල හෝ ත්‍රිමාණ දර්ශනයේ හෝ රූප නිපදවන කැමරාවේ පවා ප්‍රවේගය පිළිබඳ ඇස්තමේන්තුවක් නිපදවීමට රූප අනුපිළිවෙලක් සකසන ලද චලන ඇස්තමේන්තුවට කාර්යයන් කිහිපයක් සම්බන්ධ වේ. එවැනි කාර්යයන් සඳහා උදාහරණ වන්නේ:

⦁  ඊගෝ චලිතය
කැමරාව විසින් නිපදවන ලද රූප අනුපිළිවෙලකින් කැමරාවේ ත්‍රිමාණ දෘඩ චලිතය (භ්‍රමණය සහ පරිවර්තනය) නිර්ණය කිරීම.

⦁ ලුහුබැඳීම
ලුහුබැඳීම යනු රූප අනුපිළිවෙලෙහි (සාමාන්‍යයෙන්) කුඩා උනන්දුවක් දක්වන ස්ථාන හෝ වස්තූන් (උදා, වාහන හෝ මිනිසුන්) චලනයන් අනුගමනය කිරීමයි.

⦁ ඔප්ටිකල් ප්රවාහය
මෙය රූපයේ සෑම ලක්ෂ්‍යයක් සඳහාම, එම ලක්ෂ්‍යය රූප තලයට සාපේක්ෂව චලනය වන ආකාරය, එනම් එහි දෘශ්‍ය චලිතය තීරණය කිරීමයි. මෙම චලිතය දර්ශනය තුළ අදාළ ත්‍රිමාණ ලක්ෂ්‍යය චලනය වන ආකාරය සහ දර්ශනයට සාපේක්ෂව කැමරාව චලනය වන ආකාරය යන දෙකෙහිම ප්‍රතිඵලයකි.

⦁ දර්ශන ප්‍රතිසංස්කරණය
දර්ශනයක හෝ වීඩියෝවක රූප එකක් හෝ (සාමාන්‍යයෙන්) වැඩි ගණනක් ලබා දී ඇති අතර, දර්ශන ප්‍රතිනිර්මාණය දර්ශනයේ ත්‍රිමාණ ආකෘතියක් ගණනය කිරීම අරමුණු කරයි. සරලම අවස්ථාවෙහිදී ආකෘතිය 3D ලක්ෂ්ය කට්ටලයක් විය හැකිය. වඩාත් සංකීර්ණ ක්‍රම මගින් සම්පූර්ණ ත්‍රිමාණ මතුපිට ආකෘතියක් නිපදවයි

⦁ රූප ප්‍රතිසාධනය
රූප ප්‍රතිසාධනයේ අරමුණ වන්නේ රූපවලින් ශබ්දය (සංවේදක ශබ්දය, චලන බොඳවීම, ආදිය) ඉවත් කිරීමයි. ශබ්දය ඉවත් කිරීම සඳහා හැකි සරලම ප්‍රවේශය වන්නේ පහත් පෙරහන් හෝ මධ්‍ය පෙරහන් වැනි විවිධ ආකාරයේ පෙරහන් වේ. වඩාත් සංකීර්ණ ක්‍රම මගින් දේශීය රූප ව්‍යුහයන් පෙනෙන ආකාරය පිළිබඳ ආකෘතියක් උපකල්පනය කරයි, ඒවා ශබ්දයෙන් වෙන්කර හඳුනා ගන්නා ආකෘතියකි. රේඛා හෝ දාර වැනි දේශීය රූප ව්‍යුහයන් අනුව රූප දත්ත පළමුව විශ්ලේෂණය කිරීමෙන් සහ විශ්ලේෂණ පියවරෙන් දේශීය තොරතුරු මත පදනම්ව පෙරීම පාලනය කිරීමෙන්, සාමාන්‍යයෙන් සරල ප්‍රවේශයන්ට සාපේක්ෂව වඩා හොඳ මට්ටමේ ශබ්ද ඉවත් කිරීමක් ලබා ගනී. මෙම ක්ෂේත්රයේ උදාහරණයක් ඔවුන්ගේ සිතුවම් වේ. සමහර පද්ධති විශේෂිත මිනුම් හෝ හඳුනාගැනීමේ ගැටලුවක් විසඳන ස්වාධීන යෙදුම් වන අතර අනෙක් ඒවා විශාල සැලසුමක උප පද්ධතියක් වන අතර, උදාහරණයක් ලෙස, යාන්ත්‍රික ක්‍රියාකාරක, සැලසුම් කිරීම, තොරතුරු දත්ත සමුදායන් පාලනය කිරීම සඳහා උප පද්ධති ද අඩංගු වේ. යන්ත්‍ර අතුරුමුහුණත් ආදිය. පරිගණක දර්ශන පද්ධතියක නිශ්චිත ක්‍රියාත්මක කිරීම රඳා පවතින්නේ එහි ක්‍රියාකාරීත්වය කලින් නියම කර තිබේද නැතහොත් ක්‍රියාත්මක වන විට එහි යම් කොටසක් ඉගෙන ගැනීමට හෝ වෙනස් කිරීමට හැකිද යන්න මතය. කෙසේ වෙතත්, බොහෝ පරිගණක දර්ශන පද්ධතිවල දක්නට ලැබෙන සාමාන්‍ය කාර්යයන් ඇත.

 

රූප හඳුනා ගැනීම සමඟ ගැඹුරු ඉගෙනීම

රූප හඳුනාගැනීම AI ට පෙර පැවතිණි. එහෙත් යන්ත්‍ර ඉගෙනීමේ සාධකය වස්තුවක් හෝ පුද්ගලයෙකුගේ මුහුණ හඳුනාගැනීමේ ක්‍රම විප්ලවීය කරයි. කෙසේ වෙතත්, යන්ත්‍ර ඉගෙනීම ඵලදායී වන්නේ එය පෝෂණය කිරීමට දත්ත ඇති විට පමණි. AI හි සියලුම ස්වයංක්‍රීයකරණය සඳහා, රූප හඳුනා ගැනීමට එය පැවරීම සරල ඉල්ලීමක් නොවේ. දර්ශන පිළිබඳ අපගේ අවබෝධය දෙවන ස්වභාවයයි; ඒක අපි පොඩි කාලේ ඉඳන්ම කරන්න වැඩසටහන් කරලා තියෙන දෙයක්. යන්ත්‍රයකින් එයම ඇසීම සරල ක්‍රියාවලියක් නොවේ. එම හේතුව නිසා, AI හඳුනාගැනීමේ වඩාත් ජනප්‍රිය ආකාරයක් වන්නේ convolutional neural networks (CNN) ය. CNN යනු එකිනෙකට යාබදව පිහිටා ඇති පික්සල කෙරෙහි අවධානය යොමු කරන ක්‍රමයකි. සමීපව පිහිටා ඇති රූප සම්බන්ධ වීමට වැඩි ඉඩක් ඇත, එයින් අදහස් වන්නේ වස්තුවක් හෝ මුහුණක් වඩාත් විනිවිදභාවයකින් යුත් පින්තූරයකට ගැලපේ.
AI රූප හඳුනාගැනීම් මගින් සමාජ මාධ්‍ය මුදල් ඉපැයීමට අපේක්ෂා කරන වෙළඳ නාම පැහැදිලි ප්‍රතිලාභ ගෙන දෙන අතර, එහි භාවිත අවස්ථා බොහෝ ගැඹුරට දිව යයි. ස්වයංක්‍රීය ධාවන මෝටර් රථ මෝටර් රථ ලෝකයේ මීළඟ විශාල දෙය වීමට නියමිත අතර, AI රූප හඳුනාගැනීමේ තාක්ෂණය ඒවා බල ගැන්වීමට උපකාරී වේ. පාරේ යන වස්තු සහ මිනිසුන් ඒවාට නොවැටෙන ලෙස හඳුනාගත හැකි ස්වයංක්‍රීයව ධාවනය වන මෝටර් රථයක් ස්වයංක්‍රීයව සිදු නොවේ. එය දැනුවත් තීරණ ගැනීමට රූප හඳුනා ගැනීමට අවශ්ය වේ. සෑම ස්වයං ධාවන මෝටර් රථයක්ම සංවේදක කිහිපයකින් සවි කර ඇති අතර එමඟින් අනෙකුත් චලනය වන වාහන, පාපැදිකරුවන්, මිනිසුන් - මූලික වශයෙන් අනතුරක් විය හැකි ඕනෑම දෙයක් හඳුනා ගත හැකිය. පළපුරුදු රියදුරෙකු කරන ආකාරයටම ස්වයංක්‍රීය මෝටර් රථයකට මාර්ගයේ උපද්‍රව සැකසීමට අවශ්‍ය වේ. 2020 දී ස්වයංක්‍රීයව ධාවනය වන මෝටර් රථ පාරට පැමිණීමට පෙර ඉවත් කළ යුතු අංශ කිහිපයක් තිබේ. නමුත් වාහන ස්වයංක්‍රීයකරණය ක්‍රියාත්මක වන විට, AI රූප හඳුනාගැනීම ආරක්ෂිතව ක්‍රියා කරන ප්‍රධාන රියදුරන්ගෙන් එකක් වනු ඇත.
⦁ රූපය අත්පත් කර ගැනීම
ඩිජිටල් රූපයක් රූප සංවේදක එකක් හෝ කිහිපයක් මඟින් නිපදවනු ලබන අතර, විවිධ වර්ගයේ ආලෝක සංවේදී කැමරාවලට අමතරව, පරාස සංවේදක, ටොමොග්‍රැෆි උපාංග, රේඩාර්, අල්ට්‍රා සෝනික් කැමරා ආදිය ඇතුළත් වේ. සංවේදක වර්ගය අනුව, ප්‍රතිඵලයක් ලෙස ලැබෙන රූප දත්ත යනු සාමාන්‍ය 2D රූපයක්, 3D පරිමාවක් හෝ රූප අනුපිළිවෙලකි. පික්සල් අගයන් සාමාන්‍යයෙන් වර්ණාවලි කලාප එකක හෝ කිහිපයක (අළු රූප හෝ වර්ණ රූප) ආලෝක තීව්‍රතාවයට අනුරූප වන නමුත් ගැඹුර, අවශෝෂණය හෝ ශබ්ද හෝ විද්‍යුත් චුම්භක තරංගවල පරාවර්තනය හෝ න්‍යෂ්ටික චුම්භක අනුනාදයක් වැනි විවිධ භෞතික මිනුම්වලට සම්බන්ධ විය හැක.
⦁ පෙර සැකසුම්:
යම් නිශ්චිත තොරතුරක් උකහා ගැනීම සඳහා පරිගණක දෘෂ්ඨි ක්‍රමයක් රූප දත්තවලට යෙදිය හැකි වීමට පෙර, එම ක්‍රමය මගින් ඇඟවුම් කර ඇති ඇතැම් උපකල්පනයන් තෘප්තිමත් කරන බවට සහතික වීම සඳහා දත්ත සැකසීම සාමාන්‍යයෙන් අවශ්‍ය වේ. උදාහරණ වේ
1. රූප ඛණ්ඩාංක පද්ධතිය නිවැරදි බව සහතික කිරීම සඳහා නැවත නියැදීම.
2. සංවේදක ශබ්දය ව්‍යාජ තොරතුරු හඳුන්වා නොදෙන බවට සහතික වීම සඳහා ශබ්දය අඩු කිරීම.
3. අදාළ තොරතුරු අනාවරණය කර ගත හැකි බව සහතික කිරීම සඳහා ප්‍රතිවිරුද්ධ වැඩිදියුණු කිරීම.
4. දේශීය වශයෙන් සුදුසු පරිමාණයන්හිදී රූප ව්‍යුහයන් වැඩිදියුණු කිරීම සඳහා පරිමාණ-අවකාශ නිරූපණය.
⦁ විශේෂාංග නිස්සාරණය:
විවිධ සංකීර්ණතා මට්ටම්වල රූප ලක්ෂණ රූප දත්ත වලින් උපුටා ගනී. එවැනි ලක්ෂණ සඳහා සාමාන්ය උදාහරණ වන්නේ රේඛා, දාර සහ කඳු වැටි
කොන්, බ්ලොබ් හෝ පොයින්ට් වැනි දේශීයකරණය වූ උනන්දුව ඇති ස්ථාන. වඩාත් සංකීර්ණ ලක්ෂණ වයනය, හැඩය හෝ චලිතයට සම්බන්ධ විය හැක.
⦁ හඳුනාගැනීම/ඛණ්ඩනය:
සැකසීමේ යම් අවස්ථාවක දී, වැඩිදුර සැකසීම සඳහා අදාළ වන්නේ කුමන රූප ලක්ෂ්‍ය හෝ රූපයේ ප්‍රදේශද යන්න පිළිබඳව තීරණයක් ගන්නා ලදී. උදාහරණ වේ
1. විශේෂිත පොලී ලකුණු කට්ටලයක් තෝරාගැනීම
2. උනන්දුවක් දක්වන නිශ්චිත වස්තුවක් අඩංගු රූප කලාප එකක් හෝ කිහිපයක් කොටස් කිරීම.
⦁ ඉහළ මට්ටමේ සැකසුම්:
මෙම පියවරේදී ආදානය සාමාන්‍යයෙන් කුඩා දත්ත සමූහයකි, උදාහරණයක් ලෙස නිශ්චිත වස්තුවක් අඩංගු යැයි උපකල්පනය කරන ලක්ෂ්‍ය හෝ සජීවිකරණ කලාපයකි. ඉතිරි සැකසුම් ගනුදෙනු කරන්නේ, උදාහරණයක් ලෙස:
1. දත්ත ආකෘති පදනම් සහ යෙදුම් පිරිවිතරයන් තෘප්තිමත් කරන බව තහවුරු කිරීම.
2. වස්තු ඉරියව්ව හෝ වස්තු ප්‍රමාණය වැනි යෙදුම් විශේෂිත පරාමිති ඇස්තමේන්තු කිරීම.
3. අනාවරණය කරගත් වස්තුවක් විවිධ කාණ්ඩවලට වර්ග කිරීම.එබැවින්, රූප සැකසීම AI හට රූපය හඳුනා ගැනීමට සහ රූප හඳුනාගැනීම අනුව ප්‍රතිචාර දැක්වීමට උපකාරී වේ.

නිරූපණවල බාධාවකින් තොර අනාගතයක්

තාක්‍ෂණය වැඩිදියුණු වන විට, රූප හඳුනාගැනීම ඊටත් වඩා හොඳ ප්‍රතිඵල ලබා දෙනු ඇත. Lobster හි Machine Learning හි ප්‍රධානී Vladimir Pavlov පවසන්නේ, "වස්තු හඳුනාගැනීමේ ගණිතමය පදනම දිගු කලක් තිස්සේ පැවතුන නමුත් පරිගණක දර්ශන ඇල්ගොරිතම භාවිතා කිරීමේ තාක්ෂණික හැකියාවන් මෑතකදී දර්ශනය විය. දැනටමත්, ස්නායු ජාලයන් මිනිසුන්ට වඩා හොඳින් ක්‍රියා කළ හැකි පරිපූර්ණ අනාවරක සෑදීමට ඉඩ සලසයි. පුහුණුව සඳහා සලකුණු කළ රූප දත්ත කට්ටල තිබීම විශාල විහිළුවක් රඳවා තබා ගනී, නමුත් නුදුරු අනාගතයේ දී මෙය ගැටළුවක් නොවනු ඇත. පරිගණක දෘෂ්ඨි ඉංජිනේරුවන් ස්වයං ඉගෙනුම් ඇල්ගොරිතම මත සක්‍රියව ක්‍රියා කරයි”.දෘෂ්‍ය සන්නිවේදනයේ දැඩි බලපෑමක් ඇති අනාගතයක් සමඟ, අප දකින බොහෝ පින්තූර පිටුපස ප්‍රධාන සාධකය වනුයේ රූප හඳුනාගැනීමයි. සැබෑ ජීවිතයේ සහ අන්තර්ජාලයේ යන දෙකම.