Hướng dẫn nhận dạng hình ảnh AI

Tại sao nhận dạng hình ảnh lại quan trọng?

Khoảng 80 phần trăm nội dung trên internet là hình ảnh. Bạn đã có thể bắt đầu tìm hiểu lý do tại sao việc gắn thẻ hình ảnh có thể giữ vị trí quan trọng trong bảng nội dung. Cho dù đó là cá nhân hay công ty, nhận dạng hình ảnh AI đã giúp việc xác định hình ảnh trực tuyến trở nên dễ dàng hơn. Có khoảng 657 tỷ bức ảnh được đăng tải kỹ thuật số mỗi năm, phần lớn xuất hiện trên mạng xã hội. Phần lớn những hình ảnh đó là hình ảnh mọi người đang quảng cáo sản phẩm, ngay cả khi họ vô tình làm như vậy. Nội dung do người dùng tạo (UGC) ở dạng thuần túy nhất là một công cụ hỗ trợ tuyệt vời cho các thương hiệu vì nó cung cấp hình thức quảng cáo tốt nhất.
Có các công cụ tiếp thị để cảnh báo các công ty khi có người tiêu dùng nhắc đến trên mạng xã hội, nhưng còn khi quảng cáo thương hiệu diễn ra mà không có ai gắn thẻ tên của họ trong bài đăng trên mạng xã hội thì sao? Đây là nơi nhận dạng hình ảnh AI chứng minh giá trị của nó. Nếu công nghệ được cung cấp đúng bộ dữ liệu, AI có thể xác định hình ảnh mà không cần đề cập đến thẻ cụ thể. Kết quả là vô giá để các thương hiệu theo dõi và theo dõi những đề cập trên mạng xã hội của họ.

Nhận dạng hình ảnh hoạt động như thế nào?

Như chúng ta biết AI có thể tìm kiếm các nền tảng truyền thông xã hội để tìm ảnh và so sánh chúng với các tập dữ liệu mở rộng. Sau đó, nó quyết định hình ảnh có liên quan phù hợp với tốc độ nhanh hơn nhiều so với khả năng của con người. Các thương hiệu sử dụng nhận dạng hình ảnh để tìm nội dung tương tự như nội dung của họ trên mạng xã hội. Điều đó có nghĩa là xác định logo của thương hiệu hoặc nhận biết vị trí sản phẩm được đặt một cách tự nhiên giữa những người dùng mạng xã hội. Yêu cầu con người tìm kiếm quá nhiều thông tin dễ dàng trở nên mệt mỏi. AI không lo lắng về lỗi của con người và trả về kết quả chính xác ở mức độ chưa từng có. Nhận dạng hình ảnh AI theo dõi những gì mọi người đang nói về một thương hiệu mà không cần văn bản. Các thương hiệu có thể theo dõi lượt đề cập trên mạng xã hội của họ mà không cần người dùng cần nhập tên công ty sẽ thấy mình ở một vị trí thuận lợi. Tiềm năng khai thác phạm vi phủ sóng trực tuyến của riêng họ chỉ thông qua số nhận dạng được AI công nhận là rất lớn và mang lại phạm vi phủ sóng tuyệt vời.

Dưới đây là một số nhiệm vụ điển hình của nhận dạng hình ảnh: -

Đầu tiên chúng ta phải xác định xem dữ liệu hình ảnh có chứa một số đối tượng, tính năng hoặc hoạt động cụ thể hay không. Nhiệm vụ này thường có thể được giải quyết một cách dễ dàng và không cần nỗ lực của con người, nhưng vẫn chưa được giải quyết thỏa đáng trong thị giác máy tính đối với trường hợp chung: các đối tượng tùy ý trong các tình huống tùy ý. Các phương pháp hiện có để giải quyết vấn đề này chỉ có thể là giải pháp tốt nhất cho các đối tượng cụ thể, chẳng hạn như các đối tượng hình học đơn giản (ví dụ: khối đa diện), khuôn mặt người, ký tự được in hoặc viết tay, hoặc xe cộ và trong các tình huống cụ thể, thường được mô tả dưới dạng thuật ngữ. về độ chiếu sáng, hậu cảnh và tư thế được xác định rõ ràng của đối tượng so với máy ảnh. Các dạng khác nhau của vấn đề nhận dạng được mô tả trong tài liệu:

• Nhận dạng đối tượng

Một hoặc một số đối tượng hoặc lớp đối tượng được xác định trước hoặc đã học có thể được nhận dạng, thường cùng với vị trí 2D của chúng trong hình ảnh hoặc tư thế 3D trong cảnh.

• Nhận biết
Một trường hợp riêng lẻ của một đối tượng được công nhận. Ví dụ như nhận dạng khuôn mặt hoặc dấu vân tay của một người cụ thể hoặc nhận dạng một phương tiện cụ thể.

• Phát hiện
Dữ liệu hình ảnh được quét cho một điều kiện cụ thể. Ví dụ như phát hiện các tế bào hoặc mô bất thường có thể có trong hình ảnh y tế hoặc phát hiện một phương tiện trong hệ thống thu phí đường bộ tự động. Việc phát hiện dựa trên các tính toán tương đối đơn giản và nhanh chóng đôi khi được sử dụng để tìm các vùng dữ liệu hình ảnh thú vị nhỏ hơn mà có thể được phân tích sâu hơn bằng các kỹ thuật đòi hỏi tính toán cao hơn để đưa ra diễn giải chính xác.

Một số nhiệm vụ chuyên biệt dựa trên sự công nhận tồn tại, chẳng hạn như:

• Truy xuất hình ảnh dựa trên nội dung
Ở đây tìm tất cả hình ảnh trong một tập hợp hình ảnh lớn hơn có nội dung cụ thể. Nội dung có thể được chỉ định theo nhiều cách khác nhau, ví dụ như về mức độ tương tự so với hình ảnh mục tiêu (cung cấp cho tôi tất cả các hình ảnh tương tự với hình ảnh X) hoặc theo tiêu chí tìm kiếm cấp cao được cung cấp dưới dạng đầu vào văn bản (cung cấp cho tôi tất cả các hình ảnh có chứa nhiều ngôi nhà, được lấy vào mùa đông và không có ô tô trong đó).

• Đặt ước lượng
chúng ta phải ước tính vị trí hoặc hướng của một vật thể cụ thể so với máy ảnh. Một ứng dụng ví dụ cho kỹ thuật này là hỗ trợ robot lấy đồ vật từ băng chuyền trong tình huống dây chuyền lắp ráp.

• Nhận dạng ký tự quang học
OCR đó là xác định các ký tự trong hình ảnh của văn bản in hoặc viết tay, thường nhằm mục đích mã hóa văn bản theo một định dạng tốt hơn và cho phép chỉnh sửa hoặc lập chỉ mục Khoa Khoa học và Kỹ thuật Máy tính, Đại học Bang Michigan. “Các giảng viên và sinh viên của Phòng thí nghiệm Nhận dạng Mẫu và Xử lý Hình ảnh (PRIP) điều tra việc sử dụng máy móc để nhận dạng các mẫu hoặc vật thể. Các phương pháp được phát triển để cảm nhận các đối tượng, để khám phá đặc điểm nào của chúng giúp phân biệt chúng với các đối tượng khác và thiết kế các thuật toán mà máy có thể sử dụng để thực hiện phân loại. Các ứng dụng quan trọng bao gồm nhận dạng khuôn mặt, nhận dạng dấu vân tay, phân tích hình ảnh tài liệu, xây dựng mô hình đối tượng 3D, điều hướng robot và hiển thị/khám phá dữ liệu thể tích 3D. Các vấn đề nghiên cứu hiện nay bao gồm xác thực sinh trắc học, giám sát và theo dõi tự động, HCI không cần tay, mô hình khuôn mặt, đóng dấu kỹ thuật số và phân tích cấu trúc của tài liệu trực tuyến. Những sinh viên tốt nghiệp gần đây của phòng thí nghiệm đã làm việc về nhận dạng chữ viết tay, xác minh chữ ký, học tập trực quan và truy xuất hình ảnh.”

⦁ Nhận dạng khuôn mặt
chúng tôi biết rằng hệ thống nhận dạng khuôn mặt đang dần trở nên phổ biến như một phương tiện trích xuất thông tin sinh trắc học. Nhận dạng khuôn mặt có vai trò quan trọng trong hệ thống sinh trắc học và có sức hấp dẫn đối với nhiều ứng dụng bao gồm giám sát trực quan và bảo mật. Do sự chấp nhận rộng rãi của công chúng về hình ảnh khuôn mặt trên các tài liệu khác nhau, nhận dạng khuôn mặt có tiềm năng lớn để trở thành công nghệ sinh trắc học thế hệ tiếp theo được lựa chọn.

Hệ thống nhận dạng hình ảnh

⦁ Phân tích chuyển động
Một số nhiệm vụ liên quan đến ước tính chuyển động trong đó chuỗi hình ảnh được xử lý để tạo ra ước tính vận tốc tại mỗi điểm trong hình ảnh hoặc trong cảnh 3D hoặc thậm chí của máy ảnh tạo ra hình ảnh. Ví dụ về các nhiệm vụ như vậy là:

⦁ Chuyển động của cái tôi
Xác định chuyển động cứng 3D (quay và tịnh tiến) của camera từ chuỗi hình ảnh do camera tạo ra.

⦁ Theo dõi
Theo dõi là theo dõi các chuyển động của một tập hợp các điểm hoặc đối tượng quan tâm (thường) nhỏ hơn (ví dụ: phương tiện hoặc con người) trong chuỗi hình ảnh.

⦁ Dòng quang học
Điều này nhằm xác định, đối với mỗi điểm trong ảnh, điểm đó đang chuyển động như thế nào so với mặt phẳng ảnh, tức là chuyển động biểu kiến của nó. Chuyển động này là kết quả của cả cách điểm 3D tương ứng chuyển động trong cảnh và cách máy ảnh chuyển động so với cảnh.

⦁ Tái tạo cảnh
Với một hoặc (thường) nhiều hình ảnh của một cảnh hoặc một video, việc tái tạo cảnh nhằm mục đích tính toán mô hình 3D của cảnh đó. Trong trường hợp đơn giản nhất, mô hình có thể là một tập hợp các điểm 3D. Các phương pháp phức tạp hơn tạo ra mô hình bề mặt 3D hoàn chỉnh

⦁ Phục hồi hình ảnh
Mục đích của việc khôi phục hình ảnh là loại bỏ nhiễu (nhiễu cảm biến, nhòe chuyển động, v.v.) khỏi hình ảnh. Cách tiếp cận đơn giản nhất có thể để loại bỏ nhiễu là nhiều loại bộ lọc khác nhau như bộ lọc thông thấp hoặc bộ lọc trung vị. Các phương pháp phức tạp hơn giả định một mô hình về cấu trúc hình ảnh cục bộ trông như thế nào, một mô hình phân biệt chúng với nhiễu. Trước tiên, bằng cách phân tích dữ liệu hình ảnh theo cấu trúc hình ảnh cục bộ, chẳng hạn như đường hoặc cạnh, sau đó kiểm soát việc lọc dựa trên thông tin cục bộ từ bước phân tích, thường đạt được mức loại bỏ nhiễu tốt hơn so với các phương pháp đơn giản hơn. Một ví dụ trong lĩnh vực này là bức tranh của họ. Một số hệ thống là các ứng dụng độc lập giải quyết một vấn đề đo lường hoặc phát hiện cụ thể, trong khi các hệ thống khác tạo thành một hệ thống con của một thiết kế lớn hơn, chẳng hạn, cũng chứa các hệ thống con để điều khiển các bộ truyền động cơ khí, lập kế hoạch, cơ sở dữ liệu thông tin, con người- giao diện máy, v.v. Việc triển khai cụ thể của hệ thống thị giác máy tính cũng phụ thuộc vào việc chức năng của nó có được chỉ định trước hay không hoặc liệu một số phần của nó có thể được học hoặc sửa đổi trong quá trình vận hành hay không. Tuy nhiên, có những chức năng điển hình được tìm thấy trong nhiều hệ thống thị giác máy tính.

Học sâu hơn với nhận dạng hình ảnh

Nhận dạng hình ảnh đã có trước AI. Tuy nhiên, yếu tố học máy đang cách mạng hóa các phương pháp xác định khuôn mặt của một vật thể hoặc một người. Tuy nhiên, học máy chỉ hiệu quả khi có dữ liệu để cung cấp cho nó. Đối với tất cả quá trình tự động hóa của AI, việc giao nhiệm vụ cho nó xác định hình ảnh không phải là một yêu cầu đơn giản. Sự hiểu biết của chúng ta về hình ảnh là bản chất thứ hai; đó là điều chúng ta được lập trình để làm từ khi còn nhỏ. Yêu cầu điều tương tự với một chiếc máy không phải là một quá trình đơn giản. Vì lý do đó, một trong những hình thức nhận dạng AI phổ biến hơn là mạng thần kinh tích chập (CNN). CNN là phương pháp tập trung vào các pixel nằm cạnh nhau. Các hình ảnh ở gần nhau có nhiều khả năng liên quan hơn, điều đó có nghĩa là một vật thể hoặc khuôn mặt được khớp với một hình ảnh có độ trong suốt cao hơn.
Trong khi các thương hiệu đang tìm cách kiếm tiền từ mạng xã hội thông qua nhận dạng hình ảnh AI mang lại những lợi ích rõ ràng thì các trường hợp sử dụng của nó lại có chiều sâu hơn nhiều. Xe tự lái sắp trở thành xu hướng lớn tiếp theo trong thế giới ô tô và công nghệ nhận dạng hình ảnh AI đang giúp cung cấp năng lượng cho chúng. Một chiếc ô tô tự lái có thể phát hiện vật thể và người trên đường để không đâm vào họ không tự động xảy ra. Nó cần nhận ra hình ảnh để đưa ra quyết định sáng suốt. Mỗi chiếc ô tô tự lái đều được trang bị một số cảm biến để có thể xác định các phương tiện đang di chuyển khác, người đi xe đạp, con người – về cơ bản là bất cứ thứ gì có thể gây nguy hiểm. Một chiếc ô tô tự động cần xử lý các mối nguy hiểm trên đường giống như cách một người lái xe dày dạn kinh nghiệm thực hiện. Vẫn còn một số khía cạnh cần giải quyết trước khi xe tự lái ra đường vào năm 2020. Nhưng khi quá trình tự động hóa phương tiện bắt đầu phát huy tác dụng, nhận dạng hình ảnh AI sẽ là một trong những động lực chính giúp chúng hoạt động an toàn.
⦁ Thu thập hình ảnh
Hình ảnh kỹ thuật số được tạo ra bởi một hoặc một số cảm biến hình ảnh, ngoài các loại máy ảnh nhạy sáng khác nhau, bao gồm cảm biến phạm vi, thiết bị chụp cắt lớp, radar, máy ảnh siêu âm, v.v. Tùy thuộc vào loại cảm biến, dữ liệu hình ảnh thu được là hình ảnh 2D thông thường, khối 3D hoặc chuỗi hình ảnh. Các giá trị pixel thường tương ứng với cường độ ánh sáng trong một hoặc một số dải quang phổ (hình ảnh màu xám hoặc hình ảnh màu), nhưng cũng có thể liên quan đến các thước đo vật lý khác nhau, chẳng hạn như độ sâu, độ hấp thụ hoặc phản xạ của sóng âm hoặc sóng điện từ hoặc cộng hưởng từ hạt nhân.
⦁ Sơ chế:
Trước khi phương pháp thị giác máy tính có thể được áp dụng cho dữ liệu hình ảnh để trích xuất một số thông tin cụ thể, thông thường cần phải xử lý dữ liệu để đảm bảo rằng nó đáp ứng các giả định nhất định mà phương pháp đó đưa ra. Ví dụ là
1. Lấy mẫu lại để đảm bảo hệ tọa độ hình ảnh là chính xác.
2. Giảm tiếng ồn để đảm bảo rằng tiếng ồn cảm biến không tạo ra thông tin sai lệch.
3. Tăng cường độ tương phản để đảm bảo có thể phát hiện được thông tin liên quan.
4. Biểu diễn không gian tỷ lệ để nâng cao cấu trúc hình ảnh ở tỷ lệ thích hợp cục bộ.
⦁ Trích xuất đặc điểm:
Các đặc điểm hình ảnh ở các mức độ phức tạp khác nhau được trích xuất từ dữ liệu hình ảnh. Ví dụ điển hình của các đặc điểm như vậy là các đường, cạnh và đường gờ
Các điểm quan tâm được bản địa hóa như góc, đốm màu hoặc điểm. Những đặc điểm phức tạp hơn có thể liên quan đến kết cấu, hình dạng hoặc chuyển động.
⦁ Phát hiện/phân đoạn:
Tại một thời điểm nào đó trong quá trình xử lý, một quyết định được đưa ra về các điểm hoặc vùng hình ảnh nào của hình ảnh có liên quan để xử lý tiếp. Ví dụ là
1. Lựa chọn một tập hợp các điểm thú vị cụ thể
2. Phân đoạn một hoặc nhiều vùng hình ảnh chứa đối tượng quan tâm cụ thể.
⦁ Xử lý cấp cao:
Ở bước này, đầu vào thường là một tập hợp dữ liệu nhỏ, ví dụ như một tập hợp các điểm hoặc vùng ảnh được giả định chứa một đối tượng cụ thể. Ví dụ: quá trình xử lý còn lại xử lý:
1. Xác minh rằng dữ liệu đáp ứng các giả định cụ thể dựa trên mô hình và ứng dụng.
2. Ước tính các tham số cụ thể của ứng dụng, chẳng hạn như tư thế đối tượng hoặc kích thước đối tượng.
3. Phân loại đối tượng được phát hiện thành các loại khác nhau. Vì vậy, việc xử lý hình ảnh giúp AI nhận dạng hình ảnh và phản hồi theo nhận dạng hình ảnh.

Một tương lai liền mạch của hình ảnh

Khi công nghệ được cải thiện, nhận dạng hình ảnh sẽ mang lại kết quả tốt hơn nữa. Trưởng bộ phận Machine Learning tại Lobster, Vladimir Pavlov cho biết: “Cơ sở toán học để nhận dạng đối tượng đã tồn tại từ lâu, nhưng khả năng công nghệ sử dụng thuật toán thị giác máy tính mới xuất hiện gần đây. Hiện tại, mạng lưới thần kinh cho phép tạo ra các máy dò hoàn hảo có khả năng hoạt động tốt hơn con người. Thật khó để ngăn cản sự hiện diện của các tập dữ liệu hình ảnh được đánh dấu để huấn luyện, nhưng trong tương lai gần, điều này sẽ không thành vấn đề. Các kỹ sư thị giác máy tính đang tích cực nghiên cứu các thuật toán tự học”. Với một tương lai bị ảnh hưởng nặng nề bởi giao tiếp bằng hình ảnh, nhận dạng hình ảnh sẽ là yếu tố chính đằng sau nhiều hình ảnh mà chúng ta nhìn thấy. Cả ngoài đời lẫn trên mạng.