تصویر کی شناخت کیوں ضروری ہے؟

انٹرنیٹ پر تقریباً 80 فیصد مواد بصری ہے۔ آپ پہلے سے ہی اس بات پر کام شروع کر سکتے ہیں کہ تصویری ٹیگنگ مواد کی میز کے بادشاہ کے طور پر اپنی جگہ کیوں رکھ سکتی ہے۔ چاہے وہ افراد ہوں یا کمپنیاں، AI امیج کی شناخت نے کم سے کم ہنگامہ آرائی کے ساتھ آن لائن بصری کی شناخت ممکن بنا دی ہے۔ وہاں ہر سال تقریباً 657 بلین تصاویر ڈیجیٹل طور پر پوسٹ کی جاتی ہیں، جن کی اکثریت سوشل میڈیا پر ظاہر ہوتی ہے۔ ان تصاویر کا ایک اچھا حصہ مصنوعات کو فروغ دینے والے لوگ ہیں، چاہے وہ ایسا نادانستہ کر رہے ہوں۔ صارف کے ذریعے تیار کردہ مواد (UGC) اپنی خالص ترین شکل میں برانڈز کے لیے ایک بہترین قابل ہے کیونکہ یہ بہترین قسم کی پروموشن فراہم کرتا ہے۔
سوشل میڈیا پر صارفین کا تذکرہ ہونے پر کمپنیوں کو متنبہ کرنے کے لیے مارکیٹنگ ٹولز موجود ہیں، لیکن جب سوشل پوسٹ میں کسی کا نام ٹیگ کیے بغیر برانڈز کی تشہیر کی جائے تو کیا ہوگا؟ یہ وہ جگہ ہے جہاں AI امیج کی شناخت اس کی قدر کو ثابت کرتی ہے۔ اگر ٹیک کو صحیح ڈیٹاسیٹ کھلایا جاتا ہے، تو AI مخصوص ٹیگ کے ذکر کے بغیر کسی تصویر کی شناخت کر سکتا ہے۔ برانڈز کے لیے ان کے سماجی تذکروں کو ٹریک کرنے اور ان کا سراغ لگانے کے لیے نتائج انمول ہیں۔

تصویر کی شناخت کیسے کام کرتی ہے؟

جیسا کہ ہم جانتے ہیں کہ AI تصاویر کی تلاش میں سوشل میڈیا پلیٹ فارمز کو تلاش کر سکتا ہے اور ان کا وسیع ڈیٹا سیٹ سے موازنہ کر سکتا ہے۔ اس کے بعد یہ متعلقہ تصویر کے بارے میں فیصلہ کرتا ہے جو انسانوں کی صلاحیت سے کہیں زیادہ تیز رفتار سے میل کھاتا ہے۔ برانڈز سوشل میڈیا پر اپنے جیسا مواد تلاش کرنے کے لیے تصویر کی شناخت کا استعمال کرتے ہیں۔ اس کا مطلب یہ ہے کہ کسی برانڈ کے لوگو کی شناخت کرنا یا سوشل میڈیا صارفین کے درمیان آرگنائزڈ پروڈکٹ کی جگہ کو پہچاننا۔ انسانوں کو اتنی معلومات کے ذریعے ٹرول کرنے کے لیے کہنا آسانی سے تھکا دینے والا ہو جاتا ہے۔ AI انسانی غلطی کی فکر نہیں کرتا، اور بے مثال سطحوں پر درست نتائج دیتا ہے۔ AI امیج ریکگنیشن مانیٹر کرتا ہے کہ لوگ کسی برانڈ کے بارے میں متن کی ضرورت کے بغیر کیا کہہ رہے ہیں۔ برانڈز جو صارفین کو کمپنی کا نام ٹائپ کرنے کی ضرورت کے بغیر اپنے سماجی تذکروں کو ٹریک کرنے کے قابل ہیں وہ خود کو ایک فائدہ مند پوزیشن میں پائیں گے۔ ان کی اپنی آن لائن کوریج میں صرف AI تسلیم شدہ شناخت کنندگان کے ذریعے استعمال کرنے کی صلاحیت بہت زیادہ ہے اور بے مثال کوریج پیش کرتی ہے۔

تصویر کی شناخت کے کچھ عام کام یہ ہیں:-

سب سے پہلے ہمیں یہ تعین کرنا ہوگا کہ آیا تصویری ڈیٹا میں کوئی خاص چیز، خصوصیت، یا سرگرمی شامل ہے یا نہیں۔ یہ کام عام طور پر مضبوطی سے اور بغیر کسی کوشش کے انسان کے ذریعے حل کیا جا سکتا ہے، لیکن پھر بھی کمپیوٹر وژن میں عمومی صورت کے لیے تسلی بخش طریقے سے حل نہیں کیا جاتا ہے: من مانی حالات میں من مانی اشیاء۔ اس مسئلے سے نمٹنے کے لیے موجودہ طریقے صرف مخصوص اشیاء کے لیے ہی بہترین طریقے سے حل کیے جا سکتے ہیں، جیسے کہ سادہ جیومیٹرک اشیاء (مثلاً، پولی ہیڈرا)، انسانی چہرے، چھپی ہوئی یا ہاتھ سے لکھے ہوئے حروف، یا گاڑیاں، اور مخصوص حالات میں، عام طور پر شرائط میں بیان کیے گئے ہیں۔ کیمرہ کی نسبت آبجیکٹ کی اچھی طرح سے طے شدہ روشنی، پس منظر اور پوز۔ ادب میں شناخت کے مسئلے کی مختلف اقسام بیان کی گئی ہیں:

• آبجیکٹ کی شناخت

ایک یا کئی پہلے سے متعین یا سیکھی ہوئی اشیاء یا آبجیکٹ کلاسز کو عام طور پر تصویر میں ان کی 2D پوزیشنوں کے ساتھ یا منظر میں 3D پوز کے ساتھ پہچانا جا سکتا ہے۔

• شناخت
کسی چیز کی انفرادی مثال کو تسلیم کیا جاتا ہے۔ مثالیں کسی مخصوص شخص کے چہرے یا فنگر پرنٹ کی شناخت، یا کسی مخصوص گاڑی کی شناخت ہیں۔

• پتہ لگانا
تصویر کا ڈیٹا مخصوص حالت کے لیے اسکین کیا جاتا ہے۔ مثالیں طبی امیجز میں ممکنہ غیر معمولی خلیات یا ٹشوز کا پتہ لگانا یا خودکار روڈ ٹول سسٹم میں گاڑی کا پتہ لگانا ہیں۔ نسبتاً آسان اور تیز کمپیوٹیشن پر مبنی کھوج بعض اوقات دلچسپ تصویری ڈیٹا کے چھوٹے خطوں کو تلاش کرنے کے لیے استعمال کی جاتی ہے جس کا مزید تجزیہ کیا جا سکتا ہے کہ ایک درست تشریح پیدا کرنے کے لیے زیادہ کمپیوٹیشنل ڈیمانڈنگ تکنیکوں سے۔

شناخت پر مبنی کئی خصوصی کام موجود ہیں، جیسے:

• مواد پر مبنی تصویر کی بازیافت
یہاں تصویروں کے ایک بڑے سیٹ میں تمام تصاویر تلاش کرنا جن میں ایک مخصوص مواد ہے۔ مواد کو مختلف طریقوں سے بیان کیا جا سکتا ہے، مثال کے طور پر مماثلت کے لحاظ سے ہدف کی تصویر (مجھے تصویر X سے ملتی جلتی تمام تصاویر دیں)، یا ٹیکسٹ ان پٹ کے طور پر دیے گئے اعلیٰ درجے کی تلاش کے معیار کے لحاظ سے (مجھے وہ تمام تصاویر دیں جن میں بہت سے گھر، سردیوں میں لیے جاتے ہیں، اور ان میں کوئی کار نہیں ہوتی)۔

• پوز کا تخمینہ لگانا
ہمیں کیمرے کی نسبت کسی مخصوص چیز کی پوزیشن یا واقفیت کا اندازہ لگانا ہے۔ اس تکنیک کے لیے ایک مثال ایپلی کیشن ایک روبوٹ کی مدد کرے گی جو اسمبلی لائن کی صورت حال میں کنویئر بیلٹ سے اشیاء کو بازیافت کرے۔

• آپٹیکل کریکٹر ریکگنیشن
OCR جو طباعت شدہ یا ہاتھ سے لکھے ہوئے متن کی تصویروں میں حروف کی شناخت کر رہا ہے، عام طور پر متن کو ایک فارمیٹ میں مزید انکوڈنگ کرنے اور مشی گن سٹیٹ یونیورسٹی کے کمپیوٹر سائنس اینڈ انجینئرنگ ڈیپارٹمنٹ میں ترمیم یا انڈیکس کرنے کے قابل بناتا ہے۔ پیٹرن ریکگنیشن اینڈ امیج پروسیسنگ (PRIP) لیب فیکلٹی اور طلباء پیٹرن یا اشیاء کو پہچاننے کے لیے مشینوں کے استعمال کی تحقیقات کرتے ہیں۔ اشیاء کو محسوس کرنے کے لیے طریقے تیار کیے گئے ہیں، یہ دریافت کرنے کے لیے کہ ان کی کون سی خصوصیات انھیں دوسروں سے ممتاز کرتی ہیں، اور الگورتھم ڈیزائن کرنے کے لیے جنہیں مشین کے ذریعے درجہ بندی کرنے کے لیے استعمال کیا جا سکتا ہے۔ اہم ایپلی کیشنز میں چہرے کی شناخت، فنگر پرنٹ کی شناخت، دستاویز کی تصویر کا تجزیہ، 3D آبجیکٹ ماڈل کی تعمیر، روبوٹ نیویگیشن، اور 3D والیومیٹرک ڈیٹا کی ویژولائزیشن/ ایکسپلوریشن شامل ہیں۔ موجودہ تحقیقی مسائل میں بائیو میٹرک تصدیق، خودکار نگرانی اور ٹریکنگ، ہینڈ لیس ایچ سی آئی، فیس ماڈلنگ، ڈیجیٹل واٹر مارکنگ اور آن لائن دستاویزات کی ساخت کا تجزیہ شامل ہیں۔ لیب کے حالیہ فارغ التحصیل افراد نے ہینڈ رائٹنگ کی شناخت، دستخط کی تصدیق، بصری سیکھنے، اور تصویر کی بازیافت پر کام کیا ہے۔"

⦁ چہرے کی شناخت
ہم جانتے ہیں کہ چہرے کی شناخت کے نظام بایومیٹرک معلومات نکالنے کے ذرائع کے طور پر بتدریج مقبول ہو رہے ہیں۔ بایومیٹرک سسٹمز میں چہرے کی شناخت کا ایک اہم کردار ہے اور یہ متعدد ایپلی کیشنز بشمول بصری نگرانی اور سیکیورٹی کے لیے پرکشش ہے۔ مختلف دستاویزات پر چہرے کی تصاویر کو عام طور پر قبول کرنے کی وجہ سے، چہرے کی شناخت میں انتخاب کی اگلی نسل کی بائیو میٹرک ٹیکنالوجی بننے کی بڑی صلاحیت ہے۔

تصویری شناخت کے نظام

⦁ حرکت کا تجزیہ
متعدد کام حرکت کے تخمینے سے متعلق ہیں جہاں تصویر کے ہر ایک پوائنٹ پر یا 3D منظر میں، یا یہاں تک کہ کیمرہ جو کہ تصاویر تیار کرتا ہے، رفتار کا تخمینہ لگانے کے لیے تصویر کی ترتیب پر کارروائی کی جاتی ہے۔ اس طرح کے کاموں کی مثالیں ہیں:

⦁  انا کی حرکت
کیمرے کے ذریعہ تیار کردہ تصویری ترتیب سے کیمرے کی 3D سخت حرکت (گھومنے اور ترجمہ) کا تعین کرنا۔

⦁ ٹریکنگ
ٹریکنگ تصویر کی ترتیب میں دلچسپی کے مقامات یا اشیاء (مثلاً گاڑیوں یا انسانوں) کے (عام طور پر) چھوٹے سیٹ کی نقل و حرکت پر عمل پیرا ہے۔

⦁ آپٹیکل بہاؤ
یہ اس بات کا تعین کرنے کے لیے ہے کہ تصویر کے ہر ایک نقطہ کے لیے، وہ نقطہ تصویری جہاز کے مقابلے میں کس طرح حرکت کر رہا ہے، یعنی اس کی ظاہری حرکت۔ یہ حرکت دونوں کا نتیجہ ہے کہ کس طرح متعلقہ 3D پوائنٹ منظر میں حرکت کر رہا ہے اور کیمرہ کس طرح منظر کے مقابلے میں حرکت کر رہا ہے۔

⦁ منظر کی تعمیر نو
کسی منظر کی ایک یا (عام طور پر) زیادہ تصاویر، یا ویڈیو کو دیکھتے ہوئے، منظر کی تعمیر نو کا مقصد منظر کے 3D ماڈل کو کمپیوٹنگ کرنا ہے۔ آسان ترین صورت میں ماڈل 3D پوائنٹس کا سیٹ ہو سکتا ہے۔ مزید نفیس طریقے ایک مکمل 3D سطحی ماڈل تیار کرتے ہیں۔

⦁ تصویر کی بحالی
تصویر کی بحالی کا مقصد تصاویر سے شور (سینسر کا شور، حرکت دھندلا، وغیرہ) کو ہٹانا ہے۔ شور ہٹانے کے لیے سب سے آسان طریقہ مختلف قسم کے فلٹرز ہیں جیسے لو پاس فلٹرز یا میڈین فلٹرز۔ مزید نفیس طریقے ایک ماڈل کو فرض کرتے ہیں کہ مقامی تصویری ڈھانچے کیسا دکھتا ہے، ایسا ماڈل جو انہیں شور سے ممتاز کرتا ہے۔ پہلے مقامی تصویری ڈھانچے کے لحاظ سے تصویری ڈیٹا کا تجزیہ کرنے سے، جیسے کہ لکیروں یا کناروں، اور پھر تجزیہ کے مرحلے سے مقامی معلومات کی بنیاد پر فلٹرنگ کو کنٹرول کرنے سے، عام طور پر آسان طریقوں کے مقابلے شور کو ہٹانے کی ایک بہتر سطح حاصل کی جاتی ہے۔ اس میدان میں ایک مثال ان کی پینٹنگ ہے۔ کچھ سسٹم اسٹینڈ اکیلے ایپلی کیشنز ہوتے ہیں جو ایک مخصوص پیمائش یا پتہ لگانے کے مسئلے کو حل کرتے ہیں، جب کہ دوسرے بڑے ڈیزائن کا ایک ذیلی نظام تشکیل دیتے ہیں جو مثال کے طور پر مکینیکل ایکچیوٹرز، منصوبہ بندی، معلوماتی ڈیٹا بیس، انسانوں کے کنٹرول کے لیے ذیلی نظام پر مشتمل ہوتا ہے۔ مشین انٹرفیس وغیرہ۔ کمپیوٹر وژن سسٹم کا مخصوص نفاذ اس بات پر بھی منحصر ہے کہ آیا اس کی فعالیت پہلے سے مخصوص ہے یا اس کا کچھ حصہ آپریشن کے دوران سیکھا یا تبدیل کیا جا سکتا ہے۔ تاہم، عام افعال ہیں جو بہت سے کمپیوٹر وژن سسٹمز میں پائے جاتے ہیں۔

 

تصویر کی شناخت کے ساتھ گہری تعلیم

تصویر کی پہچان AI سے پہلے تھی۔ پھر بھی مشین سیکھنے کا عنصر کسی چیز یا شخص کے چہرے کی شناخت کے طریقوں میں انقلاب برپا کر رہا ہے۔ تاہم، مشین لرننگ صرف اس وقت موثر ہوتی ہے جب اسے فیڈ کرنے کے لیے ڈیٹا موجود ہو۔ AI کی تمام آٹومیشن کے لیے، تصاویر کی شناخت کے لیے اسے کام کرنا کوئی آسان درخواست نہیں ہے۔ بصری کی ہماری سمجھ دوسری نوعیت ہے؛ یہ وہ چیز ہے جسے ہم چھوٹی عمر سے ہی کرنے کے لیے پروگرام کر رہے ہیں۔ مشین سے وہی پوچھنا کوئی سیدھا سا عمل نہیں ہے۔ اسی وجہ سے، AI کی شناخت کی ایک مقبول ترین شکل convolutional neural networks (CNN) ہے۔ CNN ایک ایسا طریقہ ہے جو ایک دوسرے کے ساتھ واقع پکسلز پر فوکس کرتا ہے۔ قریب سے موجود تصاویر کے متعلق ہونے کا زیادہ امکان ہوتا ہے، جس کا مطلب ہے کہ کسی چیز یا چہرے کو زیادہ شفافیت والی تصویر سے ملایا جاتا ہے۔
اگرچہ برانڈز سوشل میڈیا کو منیٹائز کرنے کے خواہاں ہیں اگرچہ AI امیج کی شناخت کے واضح فوائد ہیں، لیکن اس کے استعمال کے معاملات بہت گہرے ہیں۔ آٹوموبائل کی دنیا میں خود سے چلنے والی کاریں اگلی بڑی چیز بننے والی ہیں، اور AI امیج ریکگنیشن ٹیک ان کو طاقت دینے میں مدد کر رہی ہے۔ ایک سیلف ڈرائیونگ کار جو سڑک پر موجود اشیاء اور لوگوں کا پتہ لگا سکتی ہے تاکہ یہ ان سے ٹکرا نہ جائے خود بخود نہیں ہوتی۔ باخبر فیصلے کرنے کے لیے اسے تصاویر کو پہچاننے کی ضرورت ہے۔ ہر سیلف ڈرائیونگ کار میں کئی سینسرز لگے ہوتے ہیں تاکہ یہ دوسری چلتی گاڑیوں، سائیکل سواروں، لوگوں کی شناخت کر سکے – بنیادی طور پر ایسی کوئی بھی چیز جو خطرے کا باعث بن سکتی ہے۔ ایک خودکار کار کو سڑک کے خطرات پر اسی طرح عمل کرنے کی ضرورت ہوتی ہے جس طرح ایک تجربہ کار ڈرائیور کرتا ہے۔ 2020 میں خود سے چلنے والی کاروں کے سڑک پر آنے سے پہلے ابھی بھی کچھ پہلوؤں کو ختم کرنا باقی ہے۔ لیکن جب گاڑیوں کی آٹومیشن شروع ہو جائے گی، تو AI امیج کی شناخت ان کے پیچھے محفوظ طریقے سے کام کرنے والے بڑے ڈرائیوروں میں سے ایک ہو گی۔
⦁ تصویر کا حصول
ڈیجیٹل امیج ایک یا متعدد امیج سینسرز کے ذریعے تیار کی جاتی ہے، جس میں روشنی کے حساس کیمروں کی مختلف اقسام کے علاوہ، رینج سینسر، ٹوموگرافی ڈیوائسز، ریڈار، الٹرا سونک کیمرے وغیرہ شامل ہیں۔ سینسر کی قسم پر منحصر ہے، نتیجے میں آنے والا تصویری ڈیٹا ایک عام 2D تصویر، ایک 3D والیوم، یا تصویر کی ترتیب ہے۔ پکسل کی قدریں عام طور پر ایک یا کئی سپیکٹرل بینڈز (گرے امیجز یا کلر امیجز) میں روشنی کی شدت سے مطابقت رکھتی ہیں، لیکن ان کا تعلق مختلف جسمانی پیمائشوں سے بھی ہو سکتا ہے، جیسے کہ آواز یا برقی مقناطیسی لہروں کی گہرائی، جذب یا عکاسی، یا جوہری مقناطیسی گونج۔
⦁ پری پروسیسنگ:
اس سے پہلے کہ کمپیوٹر وژن کا طریقہ تصویری ڈیٹا پر لاگو کیا جائے تاکہ معلومات کے کچھ مخصوص ٹکڑے کو نکالا جا سکے، عام طور پر ڈیٹا پر کارروائی کرنا ضروری ہوتا ہے تاکہ یہ یقین دہانی کرائی جا سکے کہ یہ طریقہ کار کے ذریعے مضمر کچھ مفروضوں کو پورا کرتا ہے۔ مثالیں ہیں۔
1. اس بات کا یقین کرنے کے لیے کہ امیج کوآرڈینیٹ سسٹم درست ہے دوبارہ نمونے لینا۔
2. شور میں کمی اس بات کو یقینی بنانے کے لیے کہ سینسر شور غلط معلومات متعارف نہیں کرواتا ہے۔
3. متضاد اضافہ اس بات کو یقینی بنانے کے لیے کہ متعلقہ معلومات کا پتہ لگایا جا سکتا ہے۔
4. مقامی طور پر مناسب پیمانوں پر تصویری ڈھانچے کو بڑھانے کے لیے پیمانے پر جگہ کی نمائندگی۔
⦁ خصوصیت نکالنا:
پیچیدگی کی مختلف سطحوں پر تصویری خصوصیات تصویری ڈیٹا سے نکالی جاتی ہیں۔ اس طرح کی خصوصیات کی عام مثالیں لکیریں، کنارے اور کنارے ہیں۔
مقامی دلچسپی کے مقامات جیسے کونے، بلاب یا پوائنٹس۔ زیادہ پیچیدہ خصوصیات کا تعلق ساخت، شکل یا حرکت سے ہو سکتا ہے۔
⦁ کھوج/حصہ بندی:
پروسیسنگ کے کسی موقع پر یہ فیصلہ کیا جاتا ہے کہ تصویر کے کون سے مقامات یا علاقے مزید پروسیسنگ کے لیے متعلقہ ہیں۔ مثالیں ہیں۔
1. دلچسپی کے پوائنٹس کے مخصوص سیٹ کا انتخاب
2. ایک یا ایک سے زیادہ تصویری خطوں کا انقطاع جس میں دلچسپی کی ایک مخصوص چیز ہوتی ہے۔
⦁ اعلی سطحی پروسیسنگ:
اس مرحلے پر ان پٹ عام طور پر ڈیٹا کا ایک چھوٹا سا سیٹ ہوتا ہے، مثال کے طور پر پوائنٹس یا اینیمیج ریجن کا ایک سیٹ جس کے بارے میں فرض کیا جاتا ہے کہ وہ کسی خاص چیز پر مشتمل ہے۔ بقیہ پروسیسنگ اس کے ساتھ ڈیل کرتی ہے، مثال کے طور پر:
1. اس بات کی توثیق کہ ڈیٹا ماڈل پر مبنی اور ایپلیکیشن کے مخصوص مفروضوں کو پورا کرتا ہے۔
2. درخواست کے مخصوص پیرامیٹرز کا تخمینہ، جیسے آبجیکٹ پوز یا آبجیکٹ سائز۔
3. کسی دریافت شدہ چیز کو مختلف زمروں میں درجہ بندی کرنا۔ اس لیے، امیج پروسیسنگ AI کو تصویر کی شناخت کرنے اور تصویر کی شناخت کے مطابق جواب دینے میں مدد کرتی ہے۔

منظر کشی کا ایک ہموار مستقبل

جیسے جیسے ٹیکنالوجی بہتر ہوتی جائے گی، تصویر کی شناخت اور بھی بڑے نتائج حاصل کرے گی۔ لابسٹر میں مشین لرننگ کے سربراہ، ولادیمیر پاولوف کہتے ہیں، "آبجیکٹ کی شناخت کی ریاضیاتی بنیاد ایک طویل عرصے سے موجود ہے، لیکن کمپیوٹر ویژن الگورتھم کے استعمال کے تکنیکی امکانات حال ہی میں ظاہر ہوئے ہیں۔ پہلے سے ہی، نیورل نیٹ ورک کامل ڈٹیکٹر بنانے کی اجازت دیتے ہیں جو انسانوں سے بہتر کام کرنے کی صلاحیت رکھتے ہیں۔ ایک بڑا جھٹکا تربیت کے لیے نشان زد تصویری ڈیٹاسیٹس کی موجودگی کو روکتا ہے، لیکن مستقبل قریب میں، یہ کوئی مسئلہ نہیں ہوگا۔ کمپیوٹر وژن انجینئرز خود سیکھنے کے الگورتھم پر فعال طور پر کام کر رہے ہیں"۔ بصری مواصلات سے بہت زیادہ متاثر ہونے والے مستقبل کے ساتھ، ہم جو تصویریں دیکھتے ہیں ان میں سے بہت سی تصاویر کے پیچھے تصویر کی شناخت کلیدی عنصر بننے جا رہی ہے۔ حقیقی زندگی اور آن لائن دونوں میں۔