Gvidilo al AI Bilda Rekono

Kial grava rekono de bildoj?

Ĉirkaŭ 80 procentoj de la enhavo en la interreto estas vidaj. Vi jam povas komenci eltrovi kial bilda etikedado povus teni sian lokon kiel reĝo de la enhavtabelo. Ĉu temas pri individuoj aŭ kompanioj, AI-bildrekono ebligis identigi vidaĵojn interrete kun minimuma tumulto. Tie proksimume 657 miliardoj da fotoj afiŝitaj ĉiujare ciferece, kaj la plimulto aperas en sociaj amaskomunikiloj. Bona parto de tiuj bildoj estas homoj reklamantaj produktojn, eĉ se ili faras tion senkonscie. Uzant-generita enhavo (UGC) en ĝia plej pura formo estas bonega ebliganto por markoj ĉar ĝi disponigas la plej bonan specon de reklamado.
Estas merkataj iloj por atentigi kompaniojn kiam estas mencio de konsumanto en sociaj amaskomunikiloj, sed kio pri kiam reklamado de markoj okazas sen ke iu etikedu sian nomon en la socia afiŝo? Jen kie AI-bilda rekono pruvas sian valoron. Se la tekniko estas provizita per la ĝustaj datumaroj, AI povas identigi bildon sen specifaj etikedmencioj. La rezultoj estas valoregaj por markoj spuri kaj spuri siajn sociajn menciojn.

Kiel funkcias bilda rekono?

Kiel ni scias, AI povas serĉi sociajn amaskomunikilajn platformojn serĉantajn fotojn kaj kompari ilin kun ampleksaj datumaj aroj. Ĝi tiam decidas pri koncerna bildo, kiu kongruas kun rapideco multe pli rapide ol homoj kapablas. Markoj uzas bildrekonon por trovi enhavon similan al sia propra en sociaj amaskomunikiloj. Tio signifas identigi la emblemon de marko aŭ rekoni organike lokitan produktolokigon inter uzantoj de sociaj amaskomunikiloj. Peti homojn traveturi tiom da informoj facile fariĝas laciga. AI ne zorgas pri la homa eraro, kaj liveras precizajn rezultojn sur senekzemplaj niveloj. Bildrekono de AI kontrolas tion, kion homoj diras pri marko sen bezono de teksto. Markoj kapablaj spuri siajn sociajn menciojn sen ke uzantoj bezonas tajpi la firmaonomon, trovos sin en avantaĝa pozicio. La ebleco kapti sian propran retan priraportadon nur per AI agnoskitaj identigiloj estas grandega kaj ofertas senekzemplan priraportadon.

Jen kelkaj tipaj taskoj de bildrekono: -

Komence ni devas determini ĉu aŭ ne la bildaj datumoj enhavas iun specifan objekton, funkcion aŭ agadon. Ĉi tiu tasko normale povas esti solvita fortika kaj sen peno de homo, sed ankoraŭ ne estas kontentige solvita en komputila vizio por la ĝenerala kazo: arbitraj objektoj en arbitraj situacioj. La ekzistantaj metodoj por trakti ĉi tiun problemon povas esti plej solvitaj nur por specifaj objektoj, kiel simplaj geometriaj objektoj (ekz., pluredroj), homaj vizaĝoj, presitaj aŭ manskribitaj signoj, aŭ veturiloj, kaj en specifaj situacioj, tipe priskribitaj en terminoj. de bone difinita lumo, fono, kaj pozo de la objekto relative al la fotilo. Malsamaj varioj de la rekonproblemo estas priskribitaj en la literaturo:

• Objektrekono

Unu aŭ pluraj antaŭspecifitaj aŭ lernitaj objektoj aŭ objektoklasoj povas esti rekonitaj, kutime kune kun iliaj 2D pozicioj en la bildo aŭ 3D pozoj en la sceno.

• Identigo
Individua okazo de objekto estas rekonita. Ekzemploj estas identigo de la vizaĝo aŭ fingrospuro de specifa persono, aŭ identigo de specifa veturilo.

• Detekto
La bildaj datumoj estas skanitaj por specifa kondiĉo. Ekzemploj estas detekto de eblaj eksternormaj ĉeloj aŭ histoj en medicinaj bildoj aŭ detekto de veturilo en aŭtomata vojpagsistemo. Detekto bazita sur relative simplaj kaj rapidaj komputadoj foje estas uzita por trovado de pli malgrandaj regionoj de interesaj bilddatenoj kiuj povas esti plu analizitaj per pli komputile postulantaj teknikoj por produkti ĝustan interpreton.

Pluraj specialecaj taskoj bazitaj sur rekono ekzistas, kiel ekzemple:

• Enhavo-bazita bildo retrovo
Ĉi tie trovi ĉiujn bildojn en pli granda aro de bildoj, kiuj havas specifan enhavon. La enhavo povas esti specifita en malsamaj manieroj, ekzemple laŭ simileco relative al celbildo (donu al mi ĉiujn bildojn similajn al bildo X), aŭ laŭ altnivelaj serĉkriterioj donitaj kiel teksta enigo (donu al mi ĉiujn bildojn kiuj enhavas multaj domoj, estas prenitaj dum vintro, kaj ne havas aŭtojn en ili).

• Poza takso
ni devas taksi la pozicion aŭ orientiĝon de specifa objekto relative al la fotilo. Ekzempla apliko por tiu tekniko estus helpi roboton preni objektojn de transportbendo en muntoĉensituacio.

• Optika karaktero rekono
OCR kiu identigas signojn en bildoj de presita aŭ mane skribita teksto, kutime kun vido al kodi la tekston en formato pli kaj ebligi al redaktado aŭ indeksado Sekcio de Komputado kaj Inĝenieristiko, Michigan State University. "La Fakultato kaj studentoj de Laboratorio pri Rekono kaj Bilda Pretigo (PRIP) esploras la uzon de maŝinoj por rekoni ŝablonojn aŭ objektojn. Metodoj estas evoluigitaj por senti objektojn, por malkovri kiuj el iliaj trajtoj distingas ilin de aliaj, kaj por dizajni algoritmojn kiuj povas esti uzitaj per maŝino por fari la klasifikon. Gravaj aplikoj inkludas vizaĝrekonon, fingrospuridentigon, dokumentbildan analizon, 3D objektomodelkonstruon, robotnavigadon, kaj bildigon/esploron de 3D volumetraj datenoj. Nunaj esplorproblemoj inkluzivas biometrikan aŭtentikigon, aŭtomatan gvatadon kaj spuradon, senmanan HCI, vizaĝmodeligadon, ciferecan akvomarkon kaj analizan strukturon de interretaj dokumentoj. Lastatempaj diplomiĝintoj de la laboratorio laboris pri manskriba rekono, subskriba konfirmo, vida lernado, kaj bildservo."

⦁ Vizaĝa Rekono
ni scias, ke vizaĝrekonaj sistemoj estas iom post iom popularaj kiel rimedoj por eltiri biometriajn informojn. Vizaĝrekono havas kritikan rolon en biometrikaj sistemoj kaj estas alloga por multaj aplikoj inkluzive de vida gvatado kaj sekureco. Pro la ĝenerala publika akcepto de vizaĝbildoj en diversaj dokumentoj, vizaĝrekono havas grandan potencialon fariĝi la venontgeneracia biometrika teknologio de elekto.

Bildaj Rekonaj Sistemoj

⦁ Movada analizo
Pluraj taskoj rilatas al movtakso kie bildsekvenco estas prilaborita por produkti takson de la rapideco aŭ ĉe ĉiu punktoj en la bildo aŭ en la 3D sceno, aŭ eĉ de la fotilo kiu produktas la bildojn. Ekzemploj de tiaj taskoj estas:

⦁ Egomovo
Determinante la 3D rigidan moviĝon (rotacio kaj traduko) de la fotilo de bildsekvenco produktita per la fotilo.

⦁ Spurado
Spurado sekvas la movojn de (kutime) pli malgranda aro de interespunktoj aŭ objektoj (ekz. veturiloj aŭ homoj) en la bildsekvenco.

⦁ Optika fluo
Ĉi tio estas por determini, por ĉiu punkto en la bildo, kiel tiu punkto moviĝas relative al la bilda ebeno, t.e. ĝia ŝajna moviĝo. Ĉi tiu moviĝo estas rezulto kaj de kiel la ekvivalenta 3D punkto moviĝas en la sceno kaj kiel la fotilo moviĝas relative al la sceno.

⦁ Scenrekonstruo
Surbaze de unu aŭ (tipe) pli da bildoj de sceno, aŭ vidbendo, scenorekonstruo celas komputi 3D modelon de la sceno. En la plej simpla kazo la modelo povas esti aro de 3D punktoj. Pli sofistikaj metodoj produktas kompletan 3D surfacmodelon

⦁ Bilda restarigo
La celo de bilda restarigo estas la forigo de bruo (sensila bruo, moviĝmalklaraĵo ktp.) de bildoj. La plej simpla ebla aliro por bruoforigo estas diversaj specoj de filtriloj kiel ekzemple malalt-pasaj filtriloj aŭ medianaj filtriloj. Pli sofistikaj metodoj supozas modelon de kiel aspektas la lokaj bildstrukturoj, modelo kiu distingas ilin de la bruo. Unue analizante la bilddatenojn laŭ la lokaj bildstrukturoj, kiel ekzemple linioj aŭ randoj, kaj tiam kontrolante la filtradon bazitan sur lokaj informoj de la analizpaŝo, pli bona nivelo de bruoforigo estas kutime akirita komparite kun la pli simplaj aliroj. Ekzemplo en ĉi tiu kampo estas ilia pentraĵo. Kelkaj sistemoj estas memstaraj aplikoj kiuj solvas specifan mezuran aŭ detektan problemon, dum aliaj konsistigas subsistemon de pli granda dezajno kiu, ekzemple, ankaŭ enhavas subsistemojn por kontrolo de mekanikaj aktuarioj, planado, informdatumbazoj, man-. maŝininterfacoj, ktp. La specifa efektivigo de komputilvida sistemo ankaŭ dependas de ĉu ĝia funkcieco estas antaŭspecifita aŭ ĉu iu parto de ĝi povas esti lernita aŭ modifita dum operacio. Estas tamen tipaj funkcioj, kiuj troviĝas en multaj komputilvidaj sistemoj.

Pli profunda lernado kun bilda rekono

Bildrekono estis ĉirkaŭe antaŭ AI. Tamen la maŝinlernada faktoro revolucias metodojn por identigi objekton aŭ vizaĝon de persono. Maŝina lernado estas efika nur kiam ekzistas datumoj por nutri ĝin, tamen. Por la tuta aŭtomatigo de AI, taskigi ĝin identigi bildojn ne estas simpla peto. Nia kompreno de bildoj estas dua naturo; ĝi estas io, kion ni estas planitaj fari de juna aĝo. Demandi la samon de maŝino ne estas simpla procezo. Tial, unu el la pli popularaj formoj de AI-rekono estas konvoluciaj neŭralaj retoj (CNN). CNN estas metodo, kiu fokusiĝas al pikseloj situantaj unu apud la alia. Proksime situantaj bildoj estas pli verŝajne rilataj, kio signifas, ke objekto aŭ vizaĝo estas kongrua kun bildo kun pli da travidebleco.
Dum markoj serĉantaj monetigi sociajn amaskomunikilarojn kvankam AI-bilda rekono havas klarajn avantaĝojn, ĝiaj uzkazoj estas multe pli profunde. Memveturantaj aŭtoj estas la venonta granda afero en la aŭtomobila mondo, kaj AI-bildrekono-teknologio helpas funkciigi ilin. Aŭtomobilo, kiu povas detekti objektojn kaj homojn sur la vojo, por ke ĝi ne trafas ilin, ne okazas aŭtomate. Ĝi bezonas rekoni la bildojn por fari informitajn decidojn. Ĉiu aŭtomobila aŭtomobilo estas ekipita per pluraj sensiloj, por ke ĝi povu identigi aliajn moviĝantajn veturilojn, biciklantojn, homojn - esence ĉion, kio povus prezenti danĝeron. Aŭtomatigita aŭto devas prilabori la danĝerojn de la vojo same kiel sperta ŝoforo faras. Estas ankoraŭ kelkaj aspektoj por gladi antaŭ ol memveturaj aŭtoj ekveturos en 2020. Sed kiam aŭtomatigo de veturilo ekfunkciiĝos, AI-bildrekono estos unu el la ĉefaj ŝoforoj malantaŭ ili laborantaj sekure.
⦁ Bildo-akiro
Cifereca bildo estas produktita de unu aŭ pluraj bildsensiloj, kiuj, krom diversaj specoj de lumsentemaj fotiloj, inkluzivas intervalsensilojn, tomografiajn aparatojn, radaron, ultrasonajn fotilojn, ktp. Depende de la speco de sensilo, la rezultaj bildaj datumoj. estas ordinara 2D bildo, 3D volumeno aŭ bildsekvenco. La pikselvaloroj tipe egalrilatas al lumintenseco en unu aŭ pluraj spektraj grupoj (grizaj bildoj aŭ kolorbildoj), sed ankaŭ povas esti rilatitaj al diversaj fizikaj iniciatoj, kiel ekzemple profundo, sorbado aŭ reflektado de sonoj aŭ elektromagnetaj ondoj, aŭ nuklea magneta resonanco.
⦁ Antaŭtraktado:
Antaŭ ol komputilvida metodo povas esti aplikita al bilddatenoj por eltiri iun specifan informon, estas kutime necese prilabori la datenojn por certigi ke ĝi kontentigas certajn supozojn implicitajn per la metodo. Ekzemploj estas
1. Re-specimenado por certigi ke la bilda koordinatsistemo estas ĝusta.
2. Bruoredukto por certigi, ke sensilbruo ne enkondukas malverajn informojn.
3. Kontrasta plibonigo por certigi ke koncernaj informoj povas esti detektitaj.
4. Skal-spaca reprezento por plibonigi bildostrukturojn ĉe loke taŭgaj skaloj.
⦁ Eltiro de trajtoj:
Bildaj trajtoj je diversaj niveloj de komplekseco estas ĉerpitaj el la bildaj datumoj. Tipaj ekzemploj de tiaj trajtoj estas linioj, randoj kaj krestoj
Lokigitaj interesaj punktoj kiel anguloj, makuloj aŭ punktoj. Pli kompleksaj trajtoj povas esti rilataj al teksturo, formo aŭ moviĝo.
⦁ Detekto/segmentado:
Ĉe iu punkto en la prilaborado decido estas farita pri kiuj bildpunktoj aŭ regionoj de la bildo estas signifaj por plia prilaborado. Ekzemploj estas
1. Elekto de specifa aro de interespunktoj
2. Segmentado de unu aŭ pluraj bildregionoj kiuj enhavas specifan objekton de intereso.
⦁ Altnivela prilaborado:
Ĉe tiu paŝo la enigaĵo estas tipe malgranda aro de datenoj, ekzemple aro de punktoj aŭ bildoregiono kiu supozeble enhavas specifan objekton. La restanta prilaborado traktas, ekzemple:
1. Konfirmo, ke la datumoj kontentigas model-bazitajn kaj aplikajn specifajn supozojn.
2. Takso de aplikaj specifaj parametroj, kiel objekto pozo aŭ objektograndeco.
3. Klasifikado de detektita objekto en malsamaj kategorioj. Do, bilda prilaborado helpas AI identigi la bildon kaj respondi laŭ la bilda identigo.

Senjunta estonteco de bildoj

Dum la teknologio pliboniĝas, bilda rekono redonos eĉ pli grandajn rezultojn. Estro de Maŝinlernado ĉe Lobster, Vladimir Pavlov diras, "La matematika bazo por objektrekono ekzistas delonge, sed teknologiaj eblecoj uzi komputilvizialgoritmojn aperis lastatempe. Jam, neŭralaj retoj permesas fari perfektajn detektilojn, kiuj kapablas funkcii pli bone ol homoj. Granda ŝerco retenas la ĉeeston de markitaj bildaj datumaroj por trejnado, sed en proksima estonteco ĉi tio ne estos problemo. Komputilaj vidaj inĝenieroj aktive laboras pri memlernado de algoritmoj". Kun estonteco tiel forte influita de vida komunikado, bilda rekono estos la ŝlosila faktoro malantaŭ multaj el la bildoj, kiujn ni vidas. Kaj en la reala vivo kaj interrete.