تصویر کی شناخت کیوں ضروری ہے؟

ویب پر تقریباً 80% مادہ بصری ہے۔ آپ پہلے سے ہی یہ جاننے کے قابل ہو جائیں گے کہ تصویر کی لیبلنگ مادہ کی میز کے مالک کے طور پر اپنی جگہ کیوں رکھ سکتی ہے۔ اس سے قطع نظر کہ یہ لوگ ہوں یا تنظیمیں، AI تصویر کی شناخت نے اسے معمولی چیز کے ساتھ آن لائن بصری میں فرق کرنا قابل فہم بنا دیا ہے۔ وہاں ہر سال 657 بلین تصاویر احتیاط سے پوسٹ کی جاتی ہیں، جس کا بڑا حصہ آن لائن میڈیا کے ذریعے ظاہر ہوتا ہے۔ ان تصاویر کا ایک مہذب ٹکڑا وہ افراد ہیں جو اشیاء کو آگے بڑھا رہے ہیں، قطع نظر اس کے کہ وہ حادثاتی طور پر ایسا کر رہے ہیں۔ کلائنٹ کا تیار کردہ مواد (UGC) اپنے بہترین ڈھانچے میں برانڈز کے لیے ایک شاندار بااختیار بنانے والا اثر ہے کیونکہ یہ انتہائی مثالی قسم کی ترقی دیتا ہے۔

آن لائن میڈیا کے ذریعے خریداروں کا نوٹس آنے پر تنظیموں کے لیے اشتہاری آلات موجود ہیں، تاہم کیا اس بارے میں کچھ نہیں کہا جانا چاہیے کہ جب برانڈز کی ترقی ہوتی ہے تو سوشل پوسٹ میں کسی کے نام کا لیبل لگائے بغیر؟ یہ وہ جگہ ہے جہاں AI امیج کی شناخت اپنی اہمیت کو ظاہر کرتی ہے۔ اس موقع پر کہ ٹیک میں صحیح ڈیٹا سیٹس کا خیال رکھا گیا ہے، AI واضح لیبل کے حوالہ کے بغیر تصویر میں فرق کر سکتا ہے۔ برانڈز کے لیے ان کے سماجی نوٹس کو ٹریک کرنے اور ان کی پیروی کرنے کے لیے نتائج اہم ہیں۔

تصویر کی شناخت کیسے کام کرتی ہے؟

جیسا کہ ہم شاید جانتے ہیں کہ AI تصویروں کی تلاش کے لیے ویب پر مبنی میڈیا کے مراحل کو دیکھ سکتا ہے اور انہیں وسیع معلوماتی مجموعوں کے ساتھ موازنہ کر سکتا ہے۔ اس وقت یہ مناسب تصویر کا انتخاب کرتا ہے جو لوگوں کے کرنے کے قابل ہونے سے کہیں زیادہ تیز رفتار سے میل کھاتا ہے۔ برانڈز ویب پر مبنی میڈیا کے ذریعے اپنے جیسا مواد دریافت کرنے کے لیے تصویر کے اعتراف کا استعمال کرتے ہیں۔ اس کا مطلب یہ ہے کہ کسی برانڈ کے لوگو کی تمیز کرنا یا ویب پر مبنی میڈیا کلائنٹس کے درمیان قدرتی طور پر پوزیشن میں آئٹم کی صورتحال کو سمجھنا۔ یہ درخواست کرنا کہ لوگ اتنے سارے ڈیٹا کو مؤثر طریقے سے پکڑتے ہیں تھکا دیتے ہیں۔ مصنوعی ذہانت انسانی غلطی پر دباؤ نہیں ڈالتی، اور بے مثال سطحوں پر درست نتائج دیتی ہے۔ مصنوعی ذہانت کی تصویر کا اعتراف اس بات کی اسکرین کرتا ہے کہ افراد متن کی ضرورت کے بغیر کسی برانڈ کے بارے میں کیا بیان کر رہے ہیں۔ برانڈز اپنے سماجی نوٹس کی پیروی کرنے کے لیے تیار ہیں، بغیر کسی کلائنٹ کے تنظیم کا نام ٹائپ کرنے کی توقع ایک انمول پوزیشن میں ختم ہو جائے گی۔ AI سمجھے گئے شناخت کنندگان کے ذریعے خصوصی طور پر اپنے آن لائن شمولیت کا فائدہ اٹھانے کا امکان بہت زیادہ ہے اور بے مثال شمولیت کی پیشکش کرتا ہے۔

تصویر کی شناخت کے کچھ عام کام یہ ہیں:-

ہمیں شروع سے یہ فیصلہ کرنے کی ضرورت ہے کہ آیا تصویر کی معلومات میں کوئی خاص مضمون، نمایاں یا حرکت شامل ہے۔ اس تفویض کو عام طور پر کسی انسان کی طرف سے دل سے اور بغیر کسی مشقت کے حل کیا جا سکتا ہے، لیکن ابھی تک مجموعی کیس کے لیے پی سی وژن میں کافی حد تک نمٹا نہیں گیا ہے: صوابدیدی حالات میں خود پر زور دینے والے مضامین۔ اس مسئلے کو سنبھالنے کی موجودہ تکنیک صرف واضح مضامین کے لیے بہترین طریقے سے نمٹ سکتی ہے، مثال کے طور پر، بنیادی ریاضی کی اشیاء (مثلاً، پولی ہیڈرل)، انسانی چہرے، چھپی ہوئی یا نقل شدہ حروف، یا گاڑیاں، اور واضح حالات میں، عام طور پر جہاں تک سب کی تصویر کشی کی جاتی ہے۔ کیمرہ کے ساتھ تقابلی آئٹم کی خصوصیات کی چمک، بنیاد، اور کرنسی کے ارد گرد۔ تحریر میں اعترافی مسئلے کی مختلف اقسام کو پیش کیا گیا ہے:

• آبجیکٹ کی شناخت

ایک یا چند پہلے سے طے شدہ یا سیکھے ہوئے مضامین یا آئٹم کلاسز کو دیکھا جا سکتا ہے، عام طور پر تصویر میں ان کے 2D حالات یا منظر میں 3D کرنسی کے ساتھ۔

• شناخت

کسی مضمون کا انفرادی معاملہ سمجھا جاتا ہے۔ ماڈلز کسی خاص فرد کے چہرے یا منفرد نشان، یا کسی خاص گاڑی کی شناخت کا امتیازی ثبوت ہیں۔

• پتہ لگانا

تصویر کی معلومات کو کسی خاص حالت کے لیے جانچا جاتا ہے۔ ماڈلز طبی تصویروں میں قابل فہم عجیب خلیات یا ٹشوز کی دریافت یا پروگرام شدہ اسٹریٹ لاگت کے فریم ورک میں گاڑی کی پہچان ہیں۔ اعتدال سے سیدھے اور فوری حساب پر منحصر دریافت یہاں ہے اور دلچسپ تصویری معلومات کے مزید معمولی اضلاع کو تلاش کرنے کے لیے استعمال کی جاتی ہے جسے صحیح ترجمہ بنانے کے لیے مزید کمپیوٹیشنل درخواست کرنے والی حکمت عملیوں کے ذریعے بھی توڑا جا سکتا ہے۔

اعتراف پر منحصر چند مخصوص اقدامات موجود ہیں، مثال کے طور پر،

• مواد پر مبنی تصویر کی بازیافت

یہاں تصویروں کے ایک بڑے ترتیب میں تمام تصویروں کو دریافت کیا گیا ہے جن میں ایک خاص مادہ ہے۔ مادہ کا تعین غیر متوقع طریقے سے کیا جا سکتا ہے، مثال کے طور پر جہاں تک مماثلت ایک معروضی تصویر (مجھے تصویر X جیسی تمام تصاویر دیں)، یا جہاں تک اہم سطح کے تعاقب کے معیارات ٹیکسٹ ان پٹ کے طور پر دیئے گئے ہیں (مجھے وہ تمام تصاویر دیں جن میں متعدد پر مشتمل ہے۔ گھر، سردیوں میں لیے جاتے ہیں، اور ان میں کوئی گاڑی نہیں ہوتی)۔

• پوز کی تشخیص

ہمیں کیمرے کے ساتھ تقابلی مضمون کی پوزیشن یا سمت کا اندازہ لگانے کی ضرورت ہے۔ اس حکمت عملی کے لیے ایک ماڈل ایپلی کیشن ایک روبوٹ کو مکینیکل پروڈکشن سسٹم کے حالات میں ٹرانسپورٹ لائن سے اشیاء کو بازیافت کرنے میں مدد کرے گی۔

• آپٹیکل کریکٹر کا اعتراف

OCR جو طباعت شدہ یا دستی طور پر لکھے گئے مواد کی تصویروں میں حروف کو ممتاز کر رہا ہے، زیادہ تر حصہ کے لیے کسی تنظیم میں مواد کو زیادہ سے زیادہ انکوڈنگ کرنے اور مشی گن سٹیٹ یونیورسٹی کے شعبہ کمپیوٹر سائنس اور انجینئرنگ کو تبدیل کرنے یا ترتیب دینے کے لیے بااختیار بنانا ہے۔ اشیاء کا پتہ لگانے کے لیے حکمت عملی بنائی جاتی ہے، یہ معلوم کرنے کے لیے کہ ان کی کون سی جھلکیاں انھیں دوسروں سے پہچانتی ہیں، اور ایسے حسابات کی منصوبہ بندی کرنے کے لیے جنہیں مشین کے ذریعے خصوصیت کے لیے استعمال کیا جا سکتا ہے۔ اہم ایپلی کیشنز میں چہرے کا اعتراف، انگلیوں کے نقوش کو پہچاننے کے قابل ثبوت، ریکارڈ تصویر کی جانچ، 3D آرٹیکل ماڈل کی ترقی، روبوٹ روٹ، اور 3D والیومیٹرک معلومات کی نمائندگی/تحقیقات شامل ہیں۔ ایب اور فلو ریسرچ کے مسائل میں بائیو میٹرک تصدیق، پروگرام شدہ مشاہدہ اور پیروی، ہینڈ لیس HCI، چہرے کی نمائش، کمپیوٹرائزڈ واٹر مارکنگ اور آن لائن آرکائیوز کے ڈیزائن کی جانچ شامل ہے۔ لیب کے مرحوم سابق طلباء نے قلمی اعتراف، دستخط کی جانچ، بصری تعلیم، اور تصویر کی بازیابی سے نمٹا ہے۔

ماڈل:

ہمیں یہ دیکھنا چاہیے کہ تصویر کے موضوع کو پہچاننے کا اختیار حاصل کرنے کے لیے حیران کن طور پر چند پکسلز ڈیٹا درکار ہوتا ہے، یہ بات MIT کے ایک ماہر کے ذریعے چلائے گئے ایک گروپ نے دریافت کی ہے۔ یہ انکشاف آن لائن تصویروں کے میکانائزڈ قابل شناخت ثبوت میں غیر معمولی پیشرفت کا اشارہ دے سکتا ہے اور آخر کار پی سی کو لوگوں کی طرح دیکھنے کے لیے ایک بنیاد فراہم کر سکتا ہے۔ خاص طور پر مختصر تصویر کشی کا اندازہ لگانا اس کے نتیجے میں انٹرنیٹ پر موجود اربوں تصویروں کو انوینٹری کرنے کے قابل بنانے کی طرف ایک اہم پیش رفت ہوگی۔ ابھی تک، تصویروں کو تلاش کرنے کا واحد طریقہ مواد کے ان تحریروں پر منحصر ہے جو افراد نے ہر تصویر کے لیے ہاتھ سے درج کیے ہیں، اور متعدد تصویروں کو ایسے ڈیٹا کی ضرورت ہوتی ہے۔ اسی طرح پروگرام شدہ آئی ڈی لوگوں کو کمپیوٹرائزڈ کیمروں سے اپنے پی سی پر ڈاؤن لوڈ کی گئی تصاویر کو فائل کرنے کا طریقہ فراہم کرے گا، بغیر تجربہ کیے اور ہر ایک کو ہاتھ سے سب ٹائٹل کریں۔ اس کے علاوہ، آخر کار یہ حقیقی مشینی وژن کا اشارہ دے سکتا ہے، جو کسی وقت روبوٹس کو اجازت دے سکتا ہے کہ وہ اپنے کیمروں سے آنے والی معلومات کو ترتیب دیں اور وہ کہاں ہیں، تاکہ اگر دو تصویروں کا موازنہ کرنے والا گروہ ہو، تو وہ ممکنہ طور پر تقابلی ہیں۔ عام طور پر ایک جیسے مضمون سے بنایا گیا ہے، عام طور پر اسی طرح کے انتظام میں۔" اگر ایک تصویر کا تعلق کسی نوشتہ یا عنوان سے ہے، تو اس وقت مختلف تصویریں جو اس کے ریاضیاتی کوڈ کو مربوط کرتی ہیں، شاید اسی طرح کی کوئی چیز دکھائے گی، (مثال کے طور پر، گاڑی، درخت، یا فرد) اس طرح ایک تصویر سے متعلق نام ہوسکتا ہے۔ دوسروں کو منتقل کر دیا. اس طرح تصویروں کو پہچاننے میں "بہت زیادہ تصویروں کے ساتھ، یہاں تک کہ عام طور پر سیدھا حساب بھی حقیقی طور پر اچھی کارکردگی کا مظاہرہ کر سکتا ہے"۔

⦁ چہرے کی شناخت

ہمیں احساس ہے کہ چہرے کے اعتراف کے فریم ورک بایومیٹرک ڈیٹا کو ہٹانے کے طریقوں کے طور پر مسلسل مشہور ہو رہے ہیں۔ بایومیٹرک فریم ورک میں چہرے کی شناخت کا بنیادی حصہ ہے اور یہ مختلف ایپلی کیشنز کے لیے دلکش ہے جس میں بصری تحقیق اور سیکیورٹی شامل ہیں۔ مختلف رپورٹس پر چہرے کی تصویروں کے بارے میں مجموعی آبادی کے اعتراف کی روشنی میں، چہرے کا اعتراف فیصلہ کی جدید ترین بائیو میٹرک اختراع میں تبدیل ہونے کی ناقابل یقین صلاحیت رکھتا ہے۔

تصویر کی شناخت کے نظام

⦁ موشن امتحان

کچھ اسائنمنٹس حرکت کی تشخیص کے ساتھ شناخت کرتے ہیں جہاں تصویر میں ہر ایک فوکس پر یا 3D منظر میں، یا یہاں تک کہ کیمرہ جو تصویریں فراہم کرتا ہے، اس کی رفتار کا اندازہ لگانے کے لیے تصویر کا تسلسل تیار کیا جاتا ہے۔ ایسی اسائنمنٹس کی مثالیں یہ ہیں:

⦁ انا کی تحریک

کیمرے کی طرف سے بنائی گئی تصویر کے تسلسل سے کیمرے کی 3D لچکدار حرکت (محور اور تشریح) کا فیصلہ کرنا۔

⦁ ٹریکنگ

مندرجہ ذیل تصویر کے پے در پے دلچسپی کے فوکس یا احتجاج (مثلاً گاڑیاں یا لوگ) کے (عام طور پر) زیادہ معمولی انتظامات کی پیش رفت کی پیروی کی جائے گی۔

⦁ آپٹیکل اسٹریم

یہ فیصلہ کرنا ہے کہ تصویر کے ہر ایک نقطے کے لیے، کہ وہ نقطہ تصویر کے جہاز کے ساتھ کس طرح تقابلی حرکت کر رہا ہے، یعنی اس کی واضح حرکت۔ یہ حرکت دونوں کا نتیجہ ہے کہ موازنہ کرنے والا 3D پوائنٹ منظر میں کس طرح حرکت کر رہا ہے اور کیمرہ کس طرح منظر کے ساتھ تقابلی حرکت کر رہا ہے۔

⦁ منظر کو دوبارہ بنانا

کسی منظر کی ایک یا (عام طور پر) زیادہ تصویریں، یا ویڈیو، منظر کے 3D ماڈل کو رجسٹر کرنے والے سین ری پروڈکشن کے اہداف دیے جاتے ہیں۔ سب سے آسان صورت میں ماڈل 3D فوکس کا ایک گروپ ہو سکتا ہے۔ مزید بہتر حکمت عملی مجموعی 3D سطح کا ماڈل تیار کرتی ہے۔

⦁ تصویر کی تعمیر نو

تصویر کی تعمیر نو کا نقطہ تصویروں سے ہنگامہ آرائی (سینسر کی آواز، حرکت غیر واضح، اور اسی طرح) کو نکالنا ہے۔ ہنگامہ آرائی کے لیے کم سے کم پیچیدہ طریقہ کار مختلف قسم کے چینلز ہیں، مثال کے طور پر، کم پاس چینلز یا درمیانی چینل۔ مزید جدید حکمت عملی ایک ایسے ماڈل کی توقع کرتی ہے کہ پڑوس کی تصویر کے ڈھانچے کیسے ملتے جلتے ہیں، ایک ایسا ماڈل جو انہیں ہنگامے سے پہچانتا ہے۔ پہلے قریبی تصویری ڈھانچے کی کافی دیر میں تصویر کی معلومات کی چھان بین کرنے سے، مثال کے طور پر، لکیریں یا کناروں، اور بعد ازاں امتحانی مرحلے سے پڑوس کے ڈیٹا پر انحصار کو الگ کرنے پر قابو پا کر، ہنگامہ آرائی کی ایک اعلیٰ ڈگری عام طور پر کم کے برعکس حاصل کی جاتی ہے۔ پیچیدہ طریقہ کار اس میدان میں ایک ماڈل ان کی پینٹنگ ہے۔ کچھ فریم ورک آزاد ایپلی کیشنز ہیں جو کسی خاص تخمینہ یا شناخت کے مسئلے کو حل کرتے ہیں، جب کہ دوسرے بڑے منصوبے کے ذیلی انتظامات پر مشتمل ہوتے ہیں جس میں، مثال کے طور پر، اسی طرح مکینیکل ایکچیوٹرز کے کنٹرول کے لیے ذیلی فریم ورک، ترتیب دینا، ڈیٹا انفارمیشن بیس، انسان۔ مشین انٹرفیس، اور اسی طرح پی سی ویژن فریم ورک کا خاص طور پر عمل درآمد اس بات پر بھی انحصار کرتا ہے کہ آیا اس کی افادیت پہلے سے طے شدہ ہے یا اس کے کچھ حصے کو سرگرمی کے دوران بہت اچھی طرح سے سیکھا یا ایڈجسٹ کیا جا سکتا ہے۔ ایسے ہیں، جیسا کہ ہوسکتا ہے، باقاعدہ صلاحیتیں ہیں جو متعدد پی سی وژن میں پائی جاتی ہیں۔