රූපය හඳුනා ගැනීම වැදගත් වන්නේ ඇයි?

වෙබයේ ඇති ද්‍රව්‍යවලින් 80% ක් පමණ දෘශ්‍යමය වේ. පින්තූර ලේබල් කිරීම ද්‍රව්‍ය වගුවේ අධිපතියා ලෙස එහි ස්ථානය හිමිවන්නේ මන්දැයි ඔබට දැනටමත් වැඩ ආරම්භ කිරීමට හැකි වනු ඇත. එය පුද්ගලයන් හෝ සංවිධාන කුමක් වුවත්, AI රූප හඳුනාගැනීම මගින් අන්තර්ජාලයේ දෘශ්‍ය නොවැදගත් වස්තුවක් සමඟින් වෙන්කර හඳුනා ගැනීමට සිතිය හැකි කර ඇත. සෑම වසරකම ඡායාරූප බිලියන 657 ක් පමණ ප්‍රවේශමෙන් පළ කරනු ලබන අතර විශාල කොටසක් අන්තර්ජාලය හරහා ප්‍රදර්ශනය කෙරේ. එම පින්තූරවල හොඳ කොටසක් ඔවුන් අහම්බෙන් එසේ කරන්නේද යන්න නොසලකා අයිතම ඉදිරියට ගෙන යන පුද්ගලයන් වේ. සේවාලාභියා විසින් නිෂ්පාදනය කරන ලද අන්තර්ගතය (UGC) එහි වඩාත්ම පරිපූර්ණ ව්‍යුහය තුළ සන්නාම සඳහා විශිෂ්ට බලගැන්වීමේ බලපෑමක් වන අතර එය වඩාත් පරමාදර්ශී ආකාරයේ දියුණුවක් ලබා දෙයි.

මාර්ගගත මාධ්‍ය හරහා ගැනුම්කරු දැනුම්දීමක් ඇති විට ආයතනවලට අනතුරු ඇඟවීමේ ප්‍රචාරණ උපකරණ තිබේ, කෙසේ වෙතත්, සමාජ පළකිරීම්වල කිසිවකු තම නම ලේබල් කිරීමකින් තොරව සන්නාමවල දියුණුව සිදුවන විට යමක් පැවසිය යුතු නොවේද? AI රූප හඳුනාගැනීම එහි වටිනාකම පෙන්නුම් කරන ස්ථානය මෙයයි. තාක්‍ෂණය නිවැරදි දත්ත කට්ටල ගැන සැලකිලිමත් වන අවස්ථාවන්හිදී, AI හට පැහැදිලි ලේබලයකින් තොරව පින්තූරයක් වෙන්කර හඳුනාගත හැකිය. වෙළඳ නාම සඳහා ඔවුන්ගේ සමාජ දැනුම්දීම් නිරීක්ෂණය කිරීමට සහ අනුගමනය කිරීමට ප්‍රතිඵල වැදගත් වේ.

රූප හඳුනාගැනීම ක්‍රියා කරන්නේ කෙසේද?

අප බොහෝ විට දන්නා පරිදි AI හට වෙබ් පාදක මාධ්‍ය අවධීන් හරහා ඡායාරූප සොයන අතර ඒවා පුළුල් තොරතුරු එකතුවකින් වෙනස් කළ හැක. එම අවස්ථාවේදී එය මිනිසුන්ට කළ හැකි වේගයට වඩා වේගයෙන් ගැළපෙන අදාළ පින්තූරය තෝරා ගනී. වෙබ් පාදක මාධ්‍ය හරහා තමන්ගේම අන්තර්ගතයන් සොයා ගැනීමට සන්නාම පින්තූර පිළිගැනීම භාවිතා කරයි. එයින් අදහස් වන්නේ වෙළඳ නාමයක ලාංඡනය වෙන්කර හඳුනා ගැනීම හෝ වෙබ් පාදක මාධ්‍ය සේවාදායකයින් අතර ස්වභාවිකව ස්ථානගත කර ඇති අයිතම තත්ත්වය වටහා ගැනීමයි. මෙතරම් දත්ත ප්‍රමාණයක් ඵලදායී ලෙස මසුන් ඇල්ලීමට මිනිසුන්ට ඉල්ලීම වෙහෙසකරයි. අනුකරණය කළ බුද්ධිය මිනිස් වරද ගැන අවධාරණය නොකරන අතර, නොගැලපෙන මට්ටම්වලින් නිශ්චිත ප්‍රතිඵල ලබා දෙයි. කෘත්‍රිම බුද්ධි පින්තුර පිළිගැනීම මඟින් පෙළ අවශ්‍යතාවයකින් තොරව වෙළඳ නාමයක් ගැන පුද්ගලයන් ප්‍රකාශ කරන දේ තිරගත කරයි. සංවිධානයේ නම ටයිප් කිරීමට බලාපොරොත්තු වන සේවාදායකයින් නොමැතිව ඔවුන්ගේ සමාජ දැන්වීම් අනුගමනය කිරීමට සූදානම් වෙළඳ නාම මිල කළ නොහැකි ස්ථානයක අවසන් වනු ඇත. AI හඳුනාගත් හඳුනාගැනීම් හරහා පමණක් ඔවුන්ගේම සබැඳි ඇතුළත් කිරීමේ වාසිය ලබා ගැනීමේ හැකියාව අතිමහත් වන අතර අසමසම ඇතුළත් කිරීම් ලබා දෙයි.

රූප හඳුනාගැනීමේ සාමාන්‍ය වැරදි කිහිපයක් මෙන්න:-

ආරම්භයේ සිටම පින්තූර තොරතුරුවල යම් විශේෂිත ලිපියක්, උද්දීපනයක් හෝ චලනයක් තිබේද යන්න තීරණය කළ යුතුය. මෙම පැවරුම සාමාන්‍යයෙන් මිනිසෙකුට හෘදයාංගමව සහ වෙහෙසකින් තොරව ආමන්ත්‍රණය කළ හැකි නමුත් සමස්ත නඩුව සඳහා පරිගණක දැක්ම තුළ තවමත් ප්‍රමාණවත් ලෙස විසඳා නොමැත: අභිමතය පරිදි ස්වයං-ස්ථිරාත්මක ලිපි. මෙම ගැටලුව කළමනාකරණය කිරීම සඳහා දැනට පවතින ශිල්පීය ක්‍රම, පැහැදිලි ලිපි සඳහා පමණක් හොඳම ක්‍රමය විය හැකිය, උදාහරණයක් ලෙස, මූලික ගණිතමය අයිතම (උදා, බහුඅවයව), මිනිස් මුහුණු, මුද්‍රිත හෝ පිටපත් කළ අක්ෂර, හෝ වාහන, සහ පැහැදිලි අවස්ථා වලදී, සාමාන්‍යයෙන් සියල්ල දක්වා ඇත. කැමරාව සමඟ සංසන්දනාත්මකව අයිතමයේ දීප්තිය, අත්තිවාරම සහ ඉරියව්ව සංලක්ෂිත වේ. පිළිගැනීමේ ගැටලුවේ විවිධ එකතු කිරීම් ලිඛිතව නිරූපණය කෙරේ:

• වස්තු හඳුනාගැනීම

සාමාන්‍යයෙන් පින්තූරයේ ඇති ඒවායේ 2D තත්ත්වයන් හෝ දර්ශනයේ ත්‍රිමාණ ඉරියව් සමඟින් කලින් තීරණය කළ හෝ උගත් ලිපි හෝ අයිතම පන්ති එකක් හෝ කිහිපයක් දැනගත හැක.

• හඳුනා ගැනීම

ලිපියක තනි පුද්ගල නඩුවක් වටහාගෙන ඇත. මාදිලි යනු යම් පුද්ගලයෙකුගේ මුහුණ හෝ අනන්‍ය සලකුණ හෝ විශේෂිත වාහනයක හැඳුනුම්පත වෙන්කර හඳුනාගත හැකි සාක්ෂි වේ.

• හඳුනාගැනීම

පින්තූරයේ තොරතුරු විශේෂිත තත්වයක් සඳහා පරීක්ෂා කරනු ලැබේ. ආකෘති යනු සායනික පින්තූරවල සිතාගත හැකි අමුතු සෛල හෝ පටක සොයා ගැනීම හෝ වැඩසටහන්ගත වීදි පිරිවැය රාමුවක් තුළ වාහනයක් හඳුනා ගැනීමයි. මධ්‍යස්ථ සරල සහ ඉක්මන් ගණනය කිරීම් මත රඳා පවතින සොයාගැනීම්, නිවැරදි පරිවර්තනයක් නිර්මාණය කිරීම සඳහා වඩාත් පරිගණකමය වශයෙන් ඉල්ලා සිටින උපාය මාර්ග මගින් අතිරේකව බිඳ දැමිය හැකි කුතුහලය දනවන පින්තූර තොරතුරු වඩාත් නිහතමානී දිස්ත්‍රික්ක සොයා ගැනීම සඳහා මෙහි සහ එහි භාවිතා වේ.

පිළිගැනීම මත යැපෙන විශේෂිත ව්‍යාපාර කිහිපයක් පවතී, උදාහරණයක් ලෙස,

• අන්තර්ගතය මත පදනම් වූ පින්තූර ප්‍රතිසාධනය

මෙහිදී කිසියම් ද්‍රව්‍යයක් ඇති පින්තූරවල විශාල සැකැස්මකින් සියලුම පින්තූර සොයා ගැනීම. ද්‍රව්‍යය අනපේක්ෂිත ආකාරයකින් නිර්ණය කළ හැකිය, උදාහරණයක් ලෙස සමානකම් සාපේක්ෂ වෛෂයික චිත්‍රයක් (පින්තූරය X වැනි සියලුම පින්තූර මට දෙන්න), හෝ පෙළ ආදානය ලෙස ලබා දී ඇති සැලකිය යුතු මට්ටමේ ලුහුබැඳීමේ ප්‍රමිතීන් දක්වා (මට බොහෝ පින්තූර අඩංගු සියලුම පින්තූර දෙන්න. නිවාස, ශීත ඍතුවේ දී ගනු ලැබේ, ඒවායේ වාහන නොමැත).

• ඉරියව් තක්සේරුව

අපි කැමරාව සමඟ සංසන්දනාත්මකව යම් ලිපියක පිහිටීම හෝ දිශාව මැනිය යුතුය. මෙම උපාය මාර්ගය සඳහා ආදර්ශ යෙදුමක් යාන්ත්‍රික නිෂ්පාදන පද්ධති තත්වයක් තුළ ප්‍රවාහන මාර්ගයකින් භාණ්ඩ ප්‍රතිසාධනය කිරීමට රොබෝවෙකුට උපකාර වනු ඇත.

• දෘශ්‍ය අක්ෂර පිළිගැනීම

OCR යනු මුද්‍රිත හෝ අතින් ලියා ඇති අන්තර්ගතයේ පින්තූරවල අක්ෂර වෙන්කර හඳුනා ගැනීම, බොහෝ දුරට සංවිධානයක අන්තර්ගතය කේතනය කිරීමේ අවසාන ඉලක්කය සහ මිචිගන් ප්‍රාන්ත විශ්ව විද්‍යාලයේ පරිගණක විද්‍යා හා ඉංජිනේරු දෙපාර්තමේන්තුව වෙනස් කිරීමට හෝ ඇණවුම් කිරීමට බලය ලබා දෙයි. වස්තු හඳුනා ගැනීමටත්, ඒවායේ උද්දීපනයවලින් ඒවා අන් අයගෙන් හඳුනා ගැනීමටත්, ගුනාංගීකරනය කිරීම සඳහා යන්ත්‍රයක් මගින් භාවිතා කළ හැකි ගණනය කිරීම් සැලසුම් කිරීමටත් උපාය මාර්ග නිර්මාණය වේ. සැලකිය යුතු යෙදුම්වල මුහුණු පිළිගැනීම, ඇඟිලි සලකුණු හඳුනා ගත හැකි සාක්ෂි, වාර්තා පින්තූර පරීක්ෂාව, ත්‍රිමාණ ලිපි ආකෘති සංවර්ධනය, රොබෝ මාර්ගය, සහ ත්‍රිමාණ පරිමාමිතික තොරතුරු නිරූපණය/පරීක්ෂණ ඇතුළත් වේ. Ebb සහ ප්‍රවාහ පර්යේෂණ ගැටළු වලට ජෛවමිතික තහවුරු කිරීම්, ක්‍රමලේඛනගත නිරීක්ෂණ සහ අනුගමනය කිරීම, අත් රහිත HCI, මුහුණු ප්‍රදර්ශනය, පරිගණකගත ජල සලකුණුකරණය සහ සබැඳි ලේඛනාගාර සැලසුම් පරීක්ෂා කිරීම ඇතුළත් වේ. විද්‍යාගාරයේ ප්‍රමාද වූ ආදි ශිෂ්‍යයන් පෑන පිළිගැනීම, අත්සන පරීක්ෂා කිරීම, දෘශ්‍ය ඉගෙනීම සහ පින්තූර ප්‍රතිසාධනය සම්බන්ධයෙන් කටයුතු කර ඇත.

කාර් වර්ගය:

පින්තූරයක විෂය හඳුනා ගැනීමේ විකල්පය ලබා ගැනීමට කම්පන සහගත දත්ත පික්සල කිහිපයක් අවශ්‍ය බව අප දැක ගත යුතු බව MIT විශේෂඥයෙකු විසින් මෙහෙයවන ලද කණ්ඩායමක් සොයාගෙන ඇත. මෙම හෙළිදරව්ව මගින් මාර්ගගත පින්තූරවල යාන්ත්‍රික හඳුනාගත හැකි සාක්ෂිවල අසාමාන්‍ය දියුණුවක් ඇති කළ හැකි අතර, අවසානයේදී, මිනිසුන් කරන ආකාරයටම බැලීමට පළාත් සභාවලට පූර්විකාවක් ලබා දිය හැකිය. විශේෂයෙන් කෙටි නිරූපණයක් අනුමාන කිරීම අන්තර්ජාලයේ ඇති බිලියන ගණනක පින්තූර ඉන්වෙන්ටරි කිරීම සඳහා සැලකිය යුතු දියුණුවක් වනු ඇත. මේ වන විට, පින්තූර සෙවීමේ හුදකලා ප්‍රවේශයන් එක් එක් රූපය සඳහා පුද්ගලයන් අතින් ඇතුළත් කර ඇති අන්තර්ගත ශිලා ලේඛන මත රඳා පවතින අතර බොහෝ පින්තූර සඳහා එවැනි දත්ත අවශ්‍ය වේ. ක්‍රමලේඛනගත හැඳුනුම්පත මඟින් සෑම එකක්ම අත්විඳීමෙන් තොරව සහ උපසිරැසි ගැන්වීමකින් තොරව පරිගණකගත කැමරාවලින් පුද්ගලයන් තම පරිගණක වෙත බාගත කර ගන්නා පින්තූර ගොනු කිරීමට ප්‍රවේශයක් ලබා දෙනු ඇත. එසේම, අවසානයේදී එය අව්‍යාජ යන්ත්‍ර දර්ශනයක් ඇති කළ හැකි අතර, එමඟින් රොබෝවරුන්ට ඔවුන්ගේ කැමරාවලින් එන තොරතුරු නිරාකරණය කර ගැනීමට සහ ඒවා කොතැනදැයි නිරාකරණය කිරීමට ඉඩ දිය හැකිය. එවිට පින්තූර දෙකකට [සංඛ්‍යා] සංසන්දනාත්මක කණ්ඩායම් තිබේ නම්, ඒවා සංසන්දනාත්මක විය හැකිය. සාමාන්‍යයෙන් සමාන ලිපියකින්, සාමාන්‍යයෙන් සමාන විධිවිධානයකින් සාදන ලදී. එක් පින්තූරයක් ශිලා ලේඛනයකට හෝ මාතෘකාවකට සම්බන්ධ වී ඇත්නම්, එම අවස්ථාවේදී එහි ගණිතමය කේතය සම්බන්ධීකරණය කරන විවිධ පින්තූර සමාන අයිතමයක් පෙන්වනු ඇත, (උදාහරණයක් ලෙස, වාහනයක්, ගසක් හෝ තනි පුද්ගලයෙකි) මෙලෙස එක් පින්තූරයකට අදාළ නම විය හැකිය. අනෙක් අය වෙත මාරු විය. “අතිශයින්ම පින්තූර රාශියක් සමඟ, සාමාන්‍යයෙන් සරල ගණනය කිරීම්වලට පවා අවංකව හොඳින් ක්‍රියා කළ හැකිය” මෙසේ පින්තූර හඳුනාගැනීමේදී.

⦁ මුහුණු හඳුනාගැනීම

ජෛවමිතික දත්ත ඉවත් කිරීමේ ක්‍රම ලෙස මුහුණු පිළිගැනීමේ රාමු අඛණ්ඩව ප්‍රසිද්ධ වෙමින් පවතින බව අපි දනිමු. මුහුණු පිළිගැනීම ජෛවමිතික රාමු තුළ මූලික කොටසක් ඇති අතර දෘශ්‍ය ඔත්තු බැලීම සහ ආරක්ෂාව ඇතුළු විවිධ යෙදුම් සඳහා ආකර්ෂණීය වේ. විවිධ වාර්තාවල මුහුණු පින්තූර පිළිබඳ සමස්ත ජනගහනයේ පිළිගැනීම අනුව, තීරණ ගැනීමේ අති නවීන ජෛවමිතික නවෝත්පාදනය බවට පත්වීමට මුහුණු පිළිගැනීමට ඇදහිය නොහැකි හැකියාවක් ඇත.

පින්තූර හඳුනාගැනීමේ පද්ධති

⦁ චලන පරීක්ෂණය

එක් එක් පින්තූරයේ හෝ ත්‍රිමාණ දර්ශනයේ හෝ පින්තූර ලබා දෙන කැමරාවේ පවා නාභිගත කරන සෑම අවස්ථාවකදීම වේගයේ මිනුමක් නිර්මාණය කිරීමට පින්තූර අනුප්‍රාප්තියක් සකස් කර ඇති චලන තක්සේරුව සමඟ පැවරුම් කිහිපයක් හඳුනා ගනී. එවැනි පැවරුම්වල අවස්ථා වන්නේ:

⦁ මමත්වය චලනය

කැමරාව විසින් නිර්මාණය කරන ලද පින්තූර අනුප්‍රාප්තියකින් කැමරාවේ ත්‍රිමාණ නම්‍යශීලී චලනය (පරිවර්තනය සහ අර්ථ නිරූපණය) තීරණය කිරීම.

⦁ ලුහුබැඳීම

පහත දැක්වෙන්නේ පින්තූර අනුප්‍රාප්තිය තුළ (සාමාන්‍යයෙන්) වඩාත් නිහතමානී උනන්දුවක් දක්වන හෝ විරෝධතාවල (උදා, වාහන හෝ පුද්ගලයින්) වර්ධනයන් අනුගමනය කිරීමයි.

⦁ ඔප්ටිකල් ධාරාව

මෙය පින්තූරයේ එක් එක් ලක්ෂ්‍යය සඳහා, එම ලක්ෂ්‍යය පින්තූර තලය සමඟ සංසන්දනාත්මකව චලනය වන ආකාරය, එනම් එහි පැහැදිලි චලනය තීරණය කිරීමයි. මෙම චලනය සංසන්දනාත්මක ත්‍රිමාණ ලක්ෂ්‍යය දර්ශනය තුළ චලනය වන ආකාරය සහ කැමරාව දර්ශනය සමඟ සංසන්දනාත්මකව චලනය වන ආකාරය යන දෙකෙහිම ප්‍රතිඵලයකි.

⦁ දර්ශන ප්‍රතිනිර්මාණය කිරීම

දර්ශනයක පින්තූර එකක් හෝ (සාමාන්‍යයෙන්) වැඩි ගණනක්, හෝ වීඩියෝවක්, දර්ශනයේ ත්‍රිමාණ ආකෘතියක් ලියාපදිංචි කිරීමේ දර්ශන ප්‍රතිනිෂ්පාදනය ඉලක්ක කරයි. පහසුම අවස්ථාවෙහිදී, ආකෘතිය ත්‍රිමාණ නාභිගත කිරීම් සමූහයක් විය හැකිය. වඩාත් පිරිපහදු කළ උපාය මාර්ග සම්පූර්ණ 3D මතුපිට ආකෘතියක් නිෂ්පාදනය කරයි

⦁ රූපය නැවත ගොඩනැගීම

පින්තූර නැවත ගොඩනැංවීමේ ලක්ෂ්‍යය වන්නේ පින්තූරවලින් කැළඹීම (සංවේදක ඝෝෂාව, චලනය නොපැහැදිලි සහ යනාදිය) ඉවත් කිරීමයි. කැළඹීම නෙරපා හැරීම සඳහා අවම වශයෙන් සංකීර්ණ සිතාගත හැකි ක්‍රමවේදය වන්නේ විවිධ ආකාරයේ නාලිකා, උදාහරණයක් ලෙස, අඩු-පාස් නාලිකා හෝ මැද නාලිකා. වඩාත් නවීන උපාය මාර්ග මගින් අසල්වැසි පින්තූර ව්‍යුහයන් සමාන වන ආකාරය පිළිබඳ ආකෘතියක් අපේක්ෂා කරයි, එය කලබලයෙන් ඒවා හඳුනා ගන්නා ආකෘතියකි. අවට පින්තූර ව්‍යුහයන්, උදාහරණයක් ලෙස, රේඛා හෝ දාරවල පින්තූර තොරතුරු පළමුව විමර්ශනය කිරීමෙන් සහ පසුව විභාග පියවරෙන් අසල්වැසි දත්ත මත යැපීම පාලනය කිරීමෙන්, කැළඹිලි ඉවත් කිරීමේ උසස් මට්ටමක් සාමාන්‍යයෙන් අඩු ඒවාට වඩා වෙනස් වේ. සංකීර්ණ ක්‍රමවේද. මෙම ක්ෂේත්රයේ ආදර්ශයක් වන්නේ ඔවුන්ගේ චිත්රයයි. රාමු කිහිපයක් යනු යම්කිසි ඇස්තමේන්තුවක් හෝ හඳුනාගැනීමේ ගැටලුවක් ආමන්ත්‍රණය කරන ස්වාධීන යෙදුම් වන අතර අනෙක් ඒවා විශාල සැලැස්මක උප සැකැස්මකින් සමන්විත වන අතර, උදාහරණයක් ලෙස, යාන්ත්‍රික ක්‍රියාකරුවන් පාලනය කිරීම, සැකසීම, දත්ත තොරතුරු පදනම්, මිනිසා- යන්ත්‍ර අතුරුමුහුණත්, සහ යනාදිය PC දර්ශන රාමුවක නිශ්චිත ක්‍රියාත්මක කිරීම රඳා පවතින්නේ එහි ප්‍රයෝජනය කලින් තීරණය කර ඇත්නම් හෝ ක්‍රියාකාරකම් අතරතුර එහි යම් කොටසක් හොඳින් ඉගෙන ගැනීමට හෝ සකස් කිරීමට හැකි නම් මත ය. එය එසේ වුවද, බොහෝ පරිගණක දර්ශනයන්හි දක්නට ලැබෙන නිත්‍ය ධාරිතාවන් ඇත