Rozpoznávanie obrázkov podľa obsahu tvárí. Jednoduchý prípad, jednorozmerné oddelenie. Prečo je schopnosť rozpoznávať objekty na obrázkoch dôležitá pre globálnu digitálnu komunitu

  • 18.04.2019

Ako výskumná téma v oblasti umelej inteligencie má rozpoznávanie obrazu dlhú históriu a praktický význam... Prvýkrát sa používal na strojové čítanie ručne písaných čísel. V súčasnosti sa rozsah jeho použitia výrazne rozšíril: od merania, kontroly, triedenia a montáže vo výrobných procesoch až po analýzu snímok čítaných na diaľku, diagnostiku z medicínskych snímok, kvantitatívne hodnotenie experimentálnych dát, identifikáciu ľudí, automatický dizajn, chápanie obrázkov ako funkcie.technické videnie robotov a pod. Proces rozpoznávania ľudského obrazu nie je jednoduché spracovanie vizuálna informácia, ale zložitý proces, dôležitá úloha v ktorých hrajú psychologické faktory. Najmä v procese porozumenia obrazu dochádza k sémantickej inferencii, ale jej implementácia si vyžaduje zhromaždenie rozsiahlych znalostí a intuitívnych riešení, ktoré presahujú logiku, takže je mimoriadne ťažké simulovať takýto proces v počítači.

Používajú sa existujúce nástroje na rozpoznávanie obrázkov rôzne metódy v závislosti od toho, či je rozpoznávací objekt umelý alebo prirodzený. V prvom prípade sa zvyčajne zaoberajú samostatnými objektmi jasnej formy, preto veľké číslo výskumu

sa zameriava na porovnávanie vzorov zisťovaním obrysov a hraníc alebo kreslením trojrozmerného tvaru pomocou geometrických pravidiel. Medzi prírodnými objektmi existuje veľa objektov nepravidelného tvaru so svetlom a tieňom, preto sa zvyčajne pomocou zhlukovej analýzy rozdeľujú na homogénne oblasti a potom na základe vlastností tvarov týchto oblastí vyvodzujú záver o objekte. Okrem toho v nedávne časy veľa výskumov sa vykonáva v oblasti reprodukcie dvoj- a trojrozmerných foriem predmetov na základe spracovania veľkého množstva obrazov. V robotike sa stáva nevyhnutnosťou spracovávať pohyblivé obrázky v reálnom čase, t.j. veľký význam získava rýchlosť rozpoznávania.

V všeobecný prípad proces rozpoznávania obrázkov pomocou počítača je nasledovný.

1. Príjem pomocou fotoaparátu alebo iného prostriedku informácie o obraze a jeho premena na digitálne informácie: V dôsledku toho sú rámy rozdelené do veľkého počtu prvkov a ku každému prvku je priradená farba a kontrast.

2. Predspracovanie. Odstránenie šumu, normalizácia na porovnanie s referenciou, segmentácia (extrakcia miestnych informácií potrebných na rozpoznanie) atď.

3. Izolácia znakov. Atribúty obrázka môžu mať rôzne úrovne. Presne povedané, segmentácia je tiež súčasťou extrakcie funkcií. Metódy extrakcie prvkov môžu byť lokálne a globálne. Príkladmi lokálnej metódy sú detekcia hraníc, globálne zhlukovanie a metóda rozšírenia regiónu. Diskontinuity medzi oblasťami sa používajú na detekciu hraníc, zatiaľ čo zhlukovanie je segmentácia založená na detekcii homogénnych oblastí. Pretože v každom prípade informácie o obrázku obsahujú šum, ktorý nebol eliminovaný vo fáze predspracovanie, pri segmentácii je potrebné spracovanie fuzzy informácií. Globálny výber prvkov sa vykonáva vo vzťahu k tvaru, vlastnostiam, relatívnej polohe a iným charakteristikám vybraných oblastí. Tento postup má veľký význam pre ďalšiu fázu hodnotenia.

4. Pochopenie a hodnotenie. Proces chápania obrazu

nazývajú buď klasifikácia a identifikácia porovnaním získaných zhlukov so známymi modelmi, alebo konštrukcia trojrozmerného obrazu pôvodného objektu pomocou inferencií. Výsledkom tohto procesu je konečný cieľ rozpoznávania obrazu.

V súčasnosti sa uskutočnilo obrovské množstvo štúdií procesu rozpoznávania obrazu, ale doterajšie výsledky sú mimoriadne neuspokojivé. Napríklad také otázky, ako je pochopenie zložitých obrazov, vzájomná transformácia verbálnych a video informácií, rozpoznávanie objektov krivočiarych a nepravidelné tvary, rozpoznávanie rozmazaného obrazu, vysokovýkonná extrakcia funkcií, sémantické odvodzovanie a predstavivosť atď.

Hlavnými metodologickými prístupmi, ktoré sa v súčasnosti používajú pri uznávaní, sú štatistika, zhluková analýza, dedukcia v dvojhodnotovej logike a množstvo ďalších, ale všetky sú veľmi vzdialené od procesu rozpoznávania, ktorý je charakteristický pre človeka. Extrakcia funkcií je najviac dôležitá etapa v rozpoznávaní obrazu, ale aj mimoriadne zložité. Čo je vlastne obrazová funkcia? Prečo sa karikatúra viac podobá človeku ako fotografia? Zrejme dôležitú úlohu v procese ľudského rozpoznávania zohrávajú informácie, ktoré pre počítač nie sú ničím iným ako šumom, no sú akosi izolované a prezentované. Znaky tohto druhu je možné identifikovať podľa pocitov človeka a nie podľa logiky. Navyše, pri rozoznávaní neostrých obrázkov nefungujú analytické schopnosti, ale schopnosť zovšeobecňovať, t.j. je to tiež intuitívny proces. Na simuláciu takýchto procesov je potrebné študovať metódy spracovania subjektívnych informácií a techniky narábania s makroinformáciami. Výskum v oblasti rozpoznávania fuzzy obrázkov sa len začína, ale už čaká ďalší vývoj nová metodika, ktorá spĺňa vyššie uvedené požiadavky.

Pozrime sa stručne na stav rozpoznávania fuzzy obrazu. Keďže obrazová informácia aj dostatočne čistého objektu môže byť rušená šumom, na detekciu hrán sa najčastejšie používa fuzzy logika. Typickým príkladom je klasifikácia

obrazových prvkov pomocou fuzzy zhlukovania. Keďže sú však absolútne identické prvky zriedkavé, je nevyhnutné „fuzzy“ zhlukovanie. Podobné metódy sa používajú na klasifikáciu obrázkov, ktoré sú rozptýlené vzhľadom na referenčný obrázok (rozpoznanie ručne písaných znakov, reči atď.).

Priama detekcia obrysov vyvoláva problém so šumom, ktorý nie je možné úplne vyriešiť pomocou filtrov. Okrem toho sú potrebné závery na doplnenie stratených miest. Na to slúžia heuristické pravidlá, ktoré však majú fuzzy kvalitatívny charakter. Pri prechode do štádia porozumenia obrazu vzniká problém efektívnejšieho fuzzy porovnávania obrazov, ktoré si na svoje riešenie vyžaduje zhodu nielen vo forme, ale aj v sémantike. Táto situácia sa vyvíja najmä v oblasti diagnostiky na základe röntgenových snímok, kde je vytvorenie pravidiel nemožné.

Nižšie sú uvedené niektoré typické príklady výskumu rozpoznávania obrázkov pomocou fuzzy logiky.

Uskutočňuje sa prehľad metód neurónových sietí používaných pri rozpoznávaní obrazu. Metódy neurónových sietí sú metódy založené na použití rôznych typov neurónových sietí (NN). Hlavné oblasti použitia rôznych neurónových sietí na rozpoznávanie vzorov a obrázkov:

  • aplikácia na extrakciu kľúčových charakteristík alebo vlastností daných obrázkov,
  • klasifikácia samotných obrázkov alebo charakteristík z nich už extrahovaných (v prvom prípade k extrakcii kľúčových charakteristík dochádza implicitne v rámci siete),
  • riešenie optimalizačných problémov.

Architektúra umelých neurónových sietí má určité podobnosti s prirodzenými neurónovými sieťami. NS určené na riešenie rôznych problémov sa môžu výrazne líšiť v algoritmoch fungovania, ale ich hlavné vlastnosti sú nasledovné.

Neurónová sieť je tvorená prvkami nazývanými formálne neuróny, ktoré sú samy o sebe veľmi jednoduché a sú prepojené s inými neurónmi. Každý neurón prevádza súbor signálov prijatých na jeho vstupe na výstupný signál. Práve spojenia medzi neurónmi, zakódované váhami, zohrávajú kľúčovú úlohu. Jednou z výhod neurónových sietí (ako aj nevýhodou pri ich implementácii na sekvenčnej architektúre) je, že všetky prvky môžu fungovať paralelne, čím sa výrazne zvyšuje efektivita riešenia problému najmä pri spracovaní obrazu. Okrem toho, že neurónové siete umožňujú efektívne riešiť mnohé problémy, poskytujú výkonné flexibilné a univerzálne mechanizmy učenia, čo je ich hlavná výhoda oproti iným metódam (pravdepodobnostné metódy, lineárne separátory, rozhodovacie stromy a pod.). Učenie eliminuje potrebu výberu kľúčových znakov, ich významu a vzťahu medzi znakmi. Ale stále výber originálna prezentácia vstupné dáta (vektor v n-rozmernom priestore, frekvenčné charakteristiky, vlnky a pod.), výrazne ovplyvňujú kvalitu riešenia a sú samostatnou témou. Neurónové siete majú dobrú schopnosť zovšeobecňovania (lepšiu ako rozhodovacie stromy), t.j. dokáže úspešne rozšíriť skúsenosti získané z finálnej tréningovej sady na celú sadu obrázkov.

Opíšme si využitie neurónových sietí na rozpoznávanie obrazu a všimnime si možnosti ich využitia na rozpoznanie človeka z obrazu tváre.

1. Viacvrstvové neurónové siete

Architektúra viacvrstvovej neurónovej siete (MNN) pozostáva zo sekvenčne spojených vrstiev, kde neurón každej vrstvy je svojimi vstupmi spojený so všetkými neurónmi predchádzajúcej vrstvy a výstupy s ďalšou vrstvou. NN s dvoma rozhodovacími vrstvami môže aproximovať akúkoľvek viacrozmernú funkciu s akoukoľvek presnosťou. NS s jednou rozhodovacou vrstvou je schopný vytvárať lineárne deliace plochy, čo značne zužuje okruh problémov, ktoré riešia, najmä takáto sieť nebude schopná vyriešiť problém typu „exkluzívne alebo“. NN s nelineárnou aktivačnou funkciou a dvoma rozhodovacími vrstvami umožňuje vytvorenie ľubovoľných konvexných oblastí v priestore riešenia a s tromi rozhodovacími vrstvami - oblasťami akejkoľvek zložitosti, vrátane nekonvexných. Zároveň MNF nestráca svoju zovšeobecňujúcu schopnosť. MNS sa trénuje pomocou algoritmu spätného šírenia chýb, čo je metóda gradientného zostupu v priestore váh, aby sa minimalizovala celková chyba siete. V tomto prípade sa chyby (presnejšie hodnota korekcie váh) šíria opačným smerom od vstupov k výstupom, cez váhy spájajúce neuróny.

Najjednoduchšou aplikáciou jednovrstvovej neurónovej siete (nazývanej autoasociatívna pamäť) je trénovať sieť na rekonštrukciu dodaných obrázkov. Kŕmenie pri vchode skúšobný obrázok a výpočtom kvality rekonštruovaného obrazu je možné odhadnúť, nakoľko sieť rozpoznala vstupný obraz. Pozitívne vlastnosti tejto metódy spočívajú v tom, že sieť dokáže obnoviť skreslené a zašumené obrázky, ale nie je vhodná na vážnejšie účely.

Ryža. 1. Viacvrstvové neurónová sieť pre klasifikáciu obrázkov. Neurón s maximálnou aktivitou (tu prvý) označuje príslušnosť k rozpoznanej triede.

MNS sa používa aj na priamu klasifikáciu obrazu - na vstup sa privádza buď samotný obraz v nejakej forme, alebo súbor predtým extrahovaných kľúčových obrazových charakteristík, na výstupe neurón s maximálnou aktivitou indikuje svoju príslušnosť k rozpoznanej triede (obr. 1). Ak je táto aktivita pod určitou hranicou, potom sa má za to, že predložený obrázok nepatrí do žiadnej zo známych tried. Proces učenia stanovuje súlad vstupných obrázkov s príslušnosťou určitú triedu... Toto sa nazýva učenie pod dohľadom. Keď sa tento prístup použije na rozpoznávanie ľudí podľa obrázkov tváre, je vhodný pre úlohy riadenia prístupu pre malú skupinu tvárí. Tento prístup poskytuje priame porovnanie samotných obrazov sieťou, ale s nárastom počtu tried sa čas školenia a prevádzky siete exponenciálne zvyšuje. Preto pri úlohách, ako je nájdenie podobnej osoby vo veľkej databáze, je potrebné extrahovať kompaktný súbor kľúčových charakteristík, na základe ktorých je možné vykonať vyhľadávanie.

Klasifikačný prístup využívajúci frekvenčné charakteristiky celého obrázku, popísaného v. Použili sme jednovrstvovú neurónovú sieť založenú na viachodnotových neurónoch. Databáza MIT bola rozpoznaná na 100 %, ale rozpoznanie bolo vykonané medzi obrázkami, s ktorými bola sieť trénovaná.

Použitie MNS na klasifikáciu obrazov tváre na základe charakteristík, ako je vzdialenosť medzi určitými špecifickými časťami tváre (nos, ústa, oči) je popísané v. V tomto prípade boli tieto vzdialenosti privedené na vstup NS. Používali sa aj hybridné metódy - v prvej sa na vstup NN privádzali výsledky spracovania skrytým Markovovým modelom a v druhej sa na vstup Markovho modelu privádzal výsledok práce NN. . V druhom prípade neboli pozorované žiadne výhody, čo naznačuje, že výsledok klasifikácie NN je dostatočný.

Aplikácia neurónových sietí na klasifikáciu obrazov sa ukáže, keď sú na vstupe siete prijaté výsledky rozkladu obrazu metódou hlavných komponentov.

V klasickom MNS sú medzivrstvové neurónové spojenia plne prepojené a obraz je prezentovaný ako jednorozmerný vektor, hoci je dvojrozmerný. Architektúra konvolučných neurónových sietí má za cieľ prekonať tieto nevýhody. Využíval lokálne receptorové polia (poskytujúce lokálnu dvojrozmernú konektivitu neurónov), všeobecné váhy (poskytujúce detekciu niektorých znakov kdekoľvek na obrázku) a hierarchickú organizáciu s priestorovým podvzorkovaním. Konvolučná neurónová sieť (CNN) poskytuje čiastočnú odolnosť voči zmenám v mierke, posunutiu, rotácii, skresleniu. Architektúra SNN pozostáva z mnohých vrstiev, z ktorých každá má niekoľko rovín a neuróny ďalšej vrstvy sú spojené len s malým počtom neurónov predchádzajúcej vrstvy z okolia lokálnej oblasti (ako v ľudskom zrakovom kortexe). . Váhy v každom bode tej istej roviny sú rovnaké (konvolučné vrstvy). Po konvolučnej vrstve nasleduje vrstva, ktorá zmenšuje svoj rozmer lokálnym spriemerovaním. Potom znova konvolučnú vrstvu a tak ďalej. Tak sa dosiahne hierarchická organizácia. Neskoršie vrstvy extrahujú viac Všeobecné charakteristiky menej závislé od skreslenia obrazu. Dozvedela sa SNS štandardná metóda spätné šírenie chyby. Porovnanie MNS a SNS ukázalo významné výhody posledne menovaných z hľadiska rýchlosti a spoľahlivosti klasifikácie. Užitočnou vlastnosťou SNN je, že charakteristiky vytvorené na výstupoch z vyšších vrstiev hierarchie možno použiť na klasifikáciu metódou najbližšieho suseda (napríklad vypočítaním euklidovskej vzdialenosti) a SNN dokáže takéto charakteristiky úspešne extrahovať pre obrázky, ktoré nie sú v tréningovej sade. SNS sa vyznačuje tým vysoká rýchlosťškolenia a práce. Testovanie SNN na základe databázy ORL, obsahujúcej obrázky tvárí s malými zmenami osvetlenia, mierky, priestorových rotácií, polohy a rôznych emócií, ukázalo približne 98% presnosť rozpoznávania a pre známe tváre boli prezentované varianty ich obrázkov, ktoré neboli v tréningovej súprave. Tento výsledok robí túto architektúru sľubnou pre ďalší vývoj v oblasti rozpoznávania obrazu priestorových objektov.

MNS sa používajú aj na detekciu objektov určitého typu. Okrem toho, že každý trénovaný MNS dokáže do určitej miery určiť príslušnosť obrázkov k „svojim“ triedam, môže byť špeciálne trénovaný na spoľahlivé zistenie určitých tried. V tomto prípade budú výstupnými triedami triedy patriace a nepatriace do určeného typu obrázka. Na detekciu obrazu tváre na vstupnom obrázku bol použitý detektor neurónovej siete. Obraz bol naskenovaný oknom 20x20 pixelov, ktoré bolo privedené na vstup siete, ktorá rozhoduje o tom, či táto oblasť patrí do triedy tváre. Školenie sa uskutočnilo s použitím oboch pozitívnych príkladov ( rôzne obrázky tváre) a negatívne (obrázky, ktoré nie sú tvárami). Pre zvýšenie spoľahlivosti detekcie bol použitý tím NS trénovaný s rôznymi počiatočnými váhami, v dôsledku čoho sa NS dopúšťali rôznych chýb a konečné rozhodnutie padlo hlasovaním celého tímu.

Ryža. 2. Hlavné zložky (vlastné osoby) a rozklad obrazu na hlavné zložky.

NN sa tiež používa na extrakciu kľúčových charakteristík obrazu, ktoré sa potom používajú na následnú klasifikáciu. Je znázornený spôsob implementácie metódy analýzy hlavných komponentov neurónovej siete. Podstatou metódy analýzy hlavných komponentov je získanie čo najviac dekorovaných koeficientov charakterizujúcich vstupné obrázky. Tieto koeficienty sa nazývajú hlavné zložky a používajú sa na štatistickú kompresiu obrazu, v ktorej malý počet koeficienty sa používajú na reprezentáciu celého obrazu. Neurónová sieť s jednou skrytou vrstvou obsahujúcou N neurónov (čo je oveľa menej ako rozmer obrazu), natrénovaná metódou spätného šírenia chyby na obnovenie obrazu dodávaného na vstup na výstupe, generuje koeficienty prvých N hlavných komponentov na výstupe skrytých neurónov, ktoré sa používajú na porovnanie. Zvyčajne sa používa 10 až 200 hlavných komponentov. S nárastom počtu komponentov sa jeho reprezentatívnosť výrazne znižuje a nemá zmysel používať komponenty s veľkým počtom. Pri použití nelineárnych aktivačných funkcií neurónových prvkov je možný nelineárny rozklad na hlavné zložky. Nelinearita vám umožňuje presnejšie odrážať variácie vo vstupných údajoch. Aplikovaním analýzy hlavných komponentov na rozklad obrazov tváre získame hlavné komponenty, nazývané holóny v práci, ktoré sú tiež vlastné užitočný majetok- sú zložky, ktoré odrážajú najmä také podstatné vlastnosti človeka ako pohlavie, rasa, emócie. Po rekonštrukcii majú komponenty vzhľad podobný tvári, pričom prvé odrážajú najvšeobecnejší tvar tváre, druhé odrážajú rôzne menšie rozdiely medzi tvárami (obr. 2). Táto metóda funguje dobre pri vyhľadávaní podobné obrázky osoby v veľké základneúdajov. Je tiež znázornená možnosť ďalšieho zmenšovania rozmerov hlavných komponentov pomocou NN. Vyhodnotením kvality rekonštrukcie vstupného obrazu je možné veľmi presne určiť jeho príslušnosť k triede osôb.

Úloha rozpoznávania je redukovaná na výber (zvýraznenie) objektov určených na otvorenie medzi ostatnými detekovanými objektmi prírodného a umelého pôvodu. Úlohou rozpoznávania je aj určenie triedy a typu vybraných objektov a ich funkčného stavu. Zvlášť dôležitou a zodpovednou úlohou pri rozhodovaní je rozpoznávanie špeciálnych falošných cieľov (nafukovacie modely, rohové reflektory atď.), Ako aj predmetov patriacich ich vlastným - cudzím.

Zvýšenie efektívnosti riešenia problému rozpoznávania objektov sa dosahuje dvoma spôsobmi:

zvýšenie informačného obsahu použitých rozpoznávacích znakov (charakteristiky) objektu;

formovanie nových rozpoznávacích znakov daných objektov v PCA.

Zvyčajne je kritériom pre výber rozpoznávacích vlastností a metód na zvýšenie ich efektívnosti princíp primeranej dostatočnosti, keďže tvorba nových a zlepšovanie charakteristík používaných vlastností si vyžaduje prerozdelenie (výdavky) dostupných zdrojov (výpočtové, energetické, časové). ) PCA, ktoré sú vždy obmedzené kritickými technológiami a taktickými požiadavkami.

Rýchly rozvoj technológií PCA umožňuje využitie rozpoznávacích funkcií stále širšej triedy. Ďalej sa analyzujú hlavné rozpoznávacie znaky objektov, keď ich pozoruje SAR.

Charakteristické rozmery radarového obrazu objektu. Charakteristické rozmery objektu zahŕňajú jeho dĺžku, šírku, výšku, plochu a objem, určený počtom prvkov rozlíšenia v radarovom obraze objektu. Ďalšou vlastnosťou je tvar radarového obrazu objektu.

Uvažujme o metodológii výpočtu pravdepodobnosti rozpoznania cieľa na príklade použitia oblasti objektu ako rozpoznávacieho znaku. Pravdepodobnosť rozpoznania cieľa je určená mnohými faktormi:

súbor rozpoznateľných cieľov;

a priori informácie o triede pozorovaných cieľov;

vlastnosti vybraných rozpoznávacích znakov;

algoritmus na rozhodovanie o triede cieľa.

Súbor typických cieľov sa berie ako súbor rozpoznateľných cieľov. V tomto prípade sa vždy pri určovaní pravdepodobnosti rozpoznania cieľa predpokladá, že existujú dva ciele s najbližšími parametrami, t.j. v najhoršom prípade. Navyše predpokladáme, že absentuje apriórna informácia o prítomnosti konkrétneho cieľa, t.j. prítomnosť dvoch cieľov s podobnými parametrami je rovnako pravdepodobná.

táto presnosť sa dosahuje s rezervou.

V triede cieľa číslo 2.

pixel), rovnaké špecifikované straty v prípade chýb klasifikácie prvého a druhého druhu, absencia strát v prípade presných riešení a rovnaké apriórne pravdepodobnosti výskytu cieľov každej triedy, hodnota oblasti rozdelenia je :

správna klasifikácia prvého cieľa sa rovná:

potom

Cieľové oblasti obrazu možno aproximovať pomocou Gaussovej krivky:

pri pozorovaní prvého cieľa je určený integrálom pravdepodobnosti:

- normalizovaná medzná hodnota separácie

oblasť prvého cieľa vzhľadom na druhý.

pre rôzne normalizované hodnoty rozhrania

pravdepodobnosť uznania bude 0,7.

v charakteristickej veľkosti obrazu. Tabuľka 7.4 uvádza hodnoty požadovaného rozlíšenia SAR pre detekciu a rozpoznávanie typických objektov pri pozorovaní ich radarových snímok skúseným operátorom.

Aktuálne sa dosiahlo rozlíšenie 0,3x0,3 m a v niekt

pokusy aj 0,1x0,1 m,

ktorý umožňuje rozpoznať malé ciele s rozmermi niekoľkých metrov.

Riešenie problému výberu falošných cieľov, ktoré majú rovnaké charakteristické rozmery ako dané ciele, vyžaduje zapojenie ďalších rozpoznávacích znakov.

Amplitúdový portrét objektu. Amplitúdový portrét je detailný obraz objektu vo forme rozloženia EPR objektu cez prvky rozlíšenia radarového obrazu. Ako rozpoznávacie znaky sa používajú štatistické charakteristiky EPR.

Priemerná hodnota RCS, získaná spriemerovaním realizácie amplitúdy radarového obrazu počas niekoľkých prieskumov, charakterizuje rozdelenie odrazivosti objektu podľa rozlišovacích prvkov.

Korelačná funkcia charakterizuje vzťah amplitúd radarového obrazu tak v riešenom prvku od prieskumu k prieskumu, ako aj medzi prvkami. Zohľadňujú sa aj zákony rozloženia hustoty pravdepodobnosti amplitúd radarových snímok.

Ťažkosti pri používaní týchto funkcií je získať databanku pre danú triedu (typy) objektov, čo si vyžaduje veľké experimentálna práca... Zvažuje sa aj možnosť výpočtu štatistických charakteristík radarových snímok objektov na počítači.

Polarizované portréty objektu. V súčasnosti sa pri rozpoznávaní objektu využívajú najmä unipolarizované odrazové funkcie, kedy sa vysiela a prijíma elektromagnetická vlna má rovnakú polarizáciu (GG alebo BB). Vývoj anténno-polarimetrovej technológie umožnil vytvoriť kompletnú polarizačnú maticu odrazovej funkcie objektu. V tomto prípade radarové snímky objektu, získané pri rôznych polarizáciách, nesú informácie o dizajne a štruktúre materiálu objektu. Takže radarové snímky objektov prírodného a umelého pôvodu sa výrazne líšia v závislosti od polarizácie, ako aj pre špeciálne falošné ciele.

Hlavným problémom pri vytváraní plne polarimetrickej SAR je značná komplikácia hardvérových a softvérových (algoritmických) častí. V skutočnosti paralelne fungujú štyri kanály príjmu signálu a spracovania dát. Veľmi náročnou úlohou je tiež určiť (hlavne experimentálne) polarizačnú maticu odrazovej funkcie objektov pre rozdielne podmienky pozorovanie.

Trojrozmerný portrét subjektu. Zvyčajne je radarový obraz objektu vytvorený vo forme plochého vzoru premietaného na zemský povrch. Významné informácie o triede a type objektu sú zároveň obsiahnuté vo výške objektu. Okrem prirodzenej zmeny výšky zemského povrchu (terénu) umožňuje SAR získať obraz mikroreliéfu objektu, t.j. zmena terénu spojená s prítomnosťou odkrytého objektu (kaponiéry, lomy, jednotlivé stavby, zariadenia a pod.).

Zorný uhol (v radiánoch). Takže pri uhle pohľadu 6 ° poskytuje objekt s výškou L = 10 m tieň s dĺžkou 100 m.

Pri stredných a veľkých uhloch pohľadu, ako aj pri komplexnej povahe reliéfu Zeme v oblasti objektu metóda radarových tieňov nefunguje. Preto sa na meranie výšky objektu používa goniometrická metóda s použitím skutočnej antény SAR. Čím väčšia je anténa, tým vyššia je presnosť merania výšky. Pre zjednodušenie konštrukcie antény sa zvyčajne používajú dve antény vzdialené od seba v elevačnej rovine (interferometer). Fázový rozdiel signálov toho istého prvku objektu rozlíšený v dosahu a azimute, prijatých anténami interferometra, je úmerný výške objektu. Tieto informácie sa používajú na vytvorenie trojrozmerného portrétu objektu.

Hlavným smerom vo vývoji takýchto interferometrických SAR je zlepšenie presnosti meraní výšky. Na tento účel sa zväčší rozstup antény. Takže v experimentálnej SAR bola presnosť merania výšky reliéfu terénu 0,3 m s rozlíšením obrazu 1 ... 3 m.

Na zníženie vplyvu vegetačných krytov objektov môže interferometrické SAR fungovať v rozsahu decimetrov.

Do úvahy prichádzajú aj ultraširokopásmové systémy v pásmach 215 ... 900 MHz a 100 ... 600 MHz, ktoré môžu pracovať v dvoch decimetrových a metrových čiastkových pásmach - s frekvenčným pásmom 100 MHz. Na krátke vzdialenosti (jednotky kilometrov) je k dispozícii vysoké rozlíšenie azimutu a vzdialenosti, čo umožňuje získať detailné snímky objektov v rôzne rozsahy vlny.

Dynamický portrét objektu. Pohyb objektu a jeho oddelené časti je jednou z najdôležitejších rozpoznávacích vlastností, ktorá je základom nielen rozpoznania triedy a typu, ale aj funkčného stavu objektu.

Problém formovania dynamického portrétu jednotlivých sústredených objektov pozorovaných na pozadí podkladovej plochy je riešený na rôznych úrovniach.

V prvom prípade je použitý režim SDC, ktorý umožňuje vyberať pohybujúce sa objekty podľa ich radiálnej rýchlosti. Hlavným smerom vývoja režimu SDC je zníženie minimálnej radiálnej rýchlosti cieľa, pri ktorej sa rozhoduje o pohybe objektu. V súčasnosti sa považuje za možné odhaliť ciele pohybujúce sa rýchlosťou 1 ... 2 m / s. V tomto prípade sa na potlačenie signálu stacionárneho pozadia používa anténny interferometer s dvoma fázovými stredmi rozmiestnenými pozdĺž dráhovej čiary.

V režime SDC sa vykonáva nielen výber, ale aj meranie radiálnej zložky rýchlosti a azimutu objektov. Na to sa používa časopriestorové spracovanie signálu, ktoré vyžaduje anténu s tromi alebo viacerými fázovými stredmi. Pri súčasnom vytváraní obrazov pohybujúcich sa a stacionárnych objektov sa zvyšuje počet potrebných fázových centier. Je tiež možné súčasne merať tangenciálnu a radiálnu zložku rýchlosti objektu s presnosťou merania rádovo 2 ... .3 m/s.

Pri rozpoznávaní pohybujúceho sa (rotujúceho) objektu je možné získať podrobný radarový obraz pomocou metód inverznej (inverznej) syntézy. V tomto prípade aj malá zmena uhla pozorovania objektu (uhol natočenia objektu voči líniovému objektu - PCA) resp. jednotlivé prvky umožňuje získať vysoké rozlíšenie. Napríklad, keď sa uhol zmení o 3 °, je možné rozlíšenie v rovine rotácie rovnajúce sa 5 ... 10 vlnovým dĺžkam.

Druhým hlavným smerom použitia dynamického portrétu je určenie funkčného stavu objektu. Bojová práca (streľba, odpaľovanie rakiet), ako aj manévrovanie, pohyb jednotlivých častí objektu, chod motora spôsobujú časopriestorovú moduláciu funkcie odrazu objektu a podľa toho aj signálu trajektórie SAR. Detekcia a určenie parametrov tejto modulácie umožňuje rozpoznať objekt (triedu, typ, falošný cieľ) a posúdiť jeho funkčný stav.

V prípade rozmiestneného objektu (napríklad vodnej hladiny) je možné vytvoriť dynamický (frekvenčný, fázový) portrét hladiny. Takže vysokorýchlostný portrét hladiny mora (radiálna rýchlosť hladiny mora v rozsahu súradníc - azimut) vám umožňuje určiť stupeň pravidelných vĺn, turbulencií rôznych druhov, prúdov. Vysokorýchlostný portrét umožňuje odhaliť a rozpoznať morské objekty podľa ich stôp na hladine mora, určiť stupeň vzrušenia v záujme plavby a oblastí znečistenia (ekológia, stopy katastrof).

Dôležitým rozlišovacím znakom je aj konfigurácia a vzájomné posunutie skupiny objektov, ktoré si vyžadujú presné meranie súradníc a vektora rýchlosti všetkých objektov v skupine.

Výber návnad. Problém selekcie (izolácie) medzi detekovanými objektmi špeciálne vytvorených falošných cieľov (LC), podobný v množstve rozpoznateľných znakov s dané predmety, je jedným z najťažších.

Metódy vytvárania LC sa neustále zdokonaľujú. V prvej fáze boli ako LC použité rohové reflektory s ESR rovným ESR objektu. S nárastom rozlíšenia boli potrebné zložitejšie konfigurácie LC, ktoré sa začali opakovať geometrický obraz objekt (napríklad nafukovacie makety), ktorý určil podobnosť radarového obrazu objektu a návnady. Ťahané (pohyblivé) LC opakujú dynamiku pohybu objektu.

Hlavným smerom riešenia problému výberu LC je zvýšenie počtu znakov rozpoznávania objektov, ktoré tvoria RSA. Čím viac rozpoznávacích funkcií sa používa v PCA, tým ťažšie je napodobniť funkciu odrazu, podobnú funkcii odrazu objektu. V tomto smere je efektívne využiť polarizáciu a frekvenčné rozdiely odrazovej funkcie.

Spôsoby tvorby polarizovaných, trojrozmerných a dynamických portrétov budú diskutované v ďalších častiach.

  • Povinný kurz pre študentov 3. ročníka odboru. MMP, prečítaná v 6. semestri
  • Povinný kurz pre študentov 1. ročníka magistrátu katedry. ASVK, čítať v 2. polroku
  • Prednášky - 32 hodín
  • Kontrolný formulár - skúška
  • Autor programu: Profesor Mestetsky L.M.
  • Prednáša: Profesor Mestetsky L.M.

anotácia

Kurz je založený na matematické metódy rozpoznávanie vzorov používané na analýzu a klasifikáciu obrazov v systémoch počítačového videnia. Charakteristické rysy Metódy rozpoznávania pre túto triedu problémov sú určené štruktúrou počiatočných údajov - digitálnych obrázkov vo forme matíc farieb a jasu bodov. Tieto vlastnosti ovplyvňujú najmä špecifiká generovania popisov vlastností objektov, ako aj špecifiká konštrukcie metriky v priestore obrázkov.

Prvá časť kurzu (18 hodín) zahŕňa otázky transformácie obrázkov rôznych typov na účely generovania popisov funkcií. Najprv sa študujú metódy bodového, priestorového geometrického, algebraického a medzisnímkového spracovania obrazu. Ďalej metódy generovania prvkov založených na rozklade obrazov z hľadiska základných funkcií (Karunen-Loevova transformácia, diskrétna Fourierova transformácia, vlnkový rozklad), štatistická analýza textúry obrazu, ako aj analýza tvaru obrazov (konštrukcia hraníc , kostry, Houghova transformácia).

V druhej časti kurzu (8 hodín) sa uvažuje o metódach konštrukcie metrík na porovnávanie obrázkov (porovnávanie spektrálnych rozkladov, prekrývanie a zarovnávanie obrázkov).

Posledná časť kurzu (6 hodín) zahŕňa aplikáciu študovaných metód v aplikovanej problematike počítačového videnia. Uvažuje sa o problémoch rozpoznávania textu v obrazoch dokumentov, problémoch biometrickej identifikácie osoby podľa štruktúry dúhovky, podľa tvaru dlane, odtlačku prsta, profilu tváre. Ďalej sa skúmajú aplikácie na rozpoznávanie dynamických objektov v pozorovaných scénach na rozpoznávanie pozícií a gest.

Predmet a úlohy spracovania a rozpoznávania digitálnych obrazov

Zariadenia na získavanie a reprodukciu rastrového obrazu (fotoaparáty, skenery, displeje, tlačiarne), digitalizácia obrazu. Obrazové modely. Úlohy spracovania, analýzy a klasifikácie obrazu. Aplikačné systémy, softvér.

Bodové metódy spracovania obrazu

Histogramy intenzity. Transformácie založené na analýze histogramov intenzity. Bodové transformácie (osvietenie, negatívny obraz, binarizácia, pseudo zafarbenie).

Techniky spracovania priestorového obrazu

Priestorová frekvencia obrazu. Konvolúcia obrazu. Konštrukcia filtra: dolnopriepustné, pásmové a hornopriepustné filtre. Zvýrazňovanie hrán, Laplaceova, Robertsova, Kirschova a Sobelova metóda, metódy posunu a rozdielu, metóda smerového gradientu.

Techniky geometrického a algebraického spracovania obrazu

Algebraické transformácie (sčítanie, odčítanie obrázkov). Geometrické transformácie (monochromatická interpolácia, afinné a nelineárne transformácie).

Metódy spracovania obrazu medzi snímkami

Geometria niekoľkých projekcií. Stereovízia. Určenie pohybu objektu.

Analýza obrazu založená na rozšírení základných funkcií

Bázové vektory a bázové matice. Karunen-Loevov rozklad. Diskrétna transformácia Fourier. Kosínusová transformácia. Spojité a diskrétne vlnkové transformácie. Vlnkový rozklad. Výber vlnky.

Štatistické metódy analýzy textúry

Regionálne značky. Metódy merania textúr založené na štatistikách prvého rádu. Metódy merania textúr na základe štatistík druhého rádu.

Metódy analýzy tvaru obrazu

Pojmy formulárov. Segmentácia, výber tvaru. Odoslanie formulára. Charakteristiky tvaru a ich meranie. Skeletonizácia. Hough transformácia. Binárna matematická morfológia. Erózia a dilatácia. Morfologické algoritmy na diskrétnych binárnych obrazoch.

Metriky na meranie podobnosti obrázkov

Porovnanie spektrálnych expanzií. Klasifikácia porovnaním so štandardom. Podobnosť založená na hľadaní optimálnej cesty. Bellmanov princíp optimality a dynamické programovanie... Rozpoznanie „bez znamenia“.

Rozpoznávanie textov z obrázkov dokumentov

Segmentácia dokumentov a textov. Zarovnávanie textov. Rozpoznávanie tlačených znakov. Rozpoznávanie rukopisu.

Biometrická identifikácia založená na rozpoznávaní obrazu

Klasifikácia dúhoviek Daugmanovou metódou. Klasifikácia siluet dlaní metódou porovnávania flexibilných predmetov. Metóda zvýraznenia špeciálnych bodov v papilárnom vzore.

Rozpoznávanie dynamických scén

Rozpoznávanie gest. Rozpoznávanie výrazov tváre. Rozpoznanie póz.

Samostatná práca študenta

Výpočtový workshop o spracovaní a klasifikácii obrazu

Cvičenie 1. Téma: Štúdium a osvojenie si metód spracovania a segmentácie obrazu. Vyvinúť a implementovať program na prácu s obrázkami žetónov hernej sady Tantrix.

Zadanie 1, PDF

Úloha 2. Téma: Štúdium a vývoj metód klasifikácie tvaru obrázkov. Vyvinúť a implementovať program na klasifikáciu obrázkov dlaní. "

Pokračujem v sérii článkov o rozpoznávaní vzorov, počítačovom videní a strojovom učení. Dnes vám predstavím prehľad algoritmu s názvom eigenface.

Algoritmus je založený na použití základných štatistických charakteristík: priemeru (očakávania) a kovariančnej matice; pomocou metódy hlavných komponentov. Dotkneme sa aj pojmov lineárnej algebry ako napr vlastné hodnoty(vlastné hodnoty) a vlastné vektory(vlastné vektory) (wiki :, eng). A okrem toho budeme pracovať v multidimenzionálnom priestore.
Akokoľvek to znie strašidelne, tento algoritmus je možno jedným z najjednoduchších, o ktorých som uvažoval, jeho implementácia nepresahuje niekoľko desiatok riadkov, zároveň vykazuje dobré výsledky v množstve úloh.


Pre mňa je eigenface zaujímavý, pretože posledných 1,5 roka sa venujem vývoju vrátane algoritmov štatistického spracovania rôzne polia dáta, kde veľmi často musíte riešiť všetky vyššie uvedené „veci“.

Nástroje

Podľa zavedených, v rámci mojich skromných skúseností, je technika po premyslení akéhokoľvek algoritmu, ale pred jeho implementáciou v C/C++/C#/Pythone atď., potrebné rýchlo (pokiaľ možno ) vytvorte matematický model a otestujte ho, aby ste niečo spočítali. To vám umožní vykonať potrebné úpravy, opraviť chyby a zistiť, čo nebolo zohľadnené pri premýšľaní o algoritme. Na tento účel používam MathCAD. Výhodou MathCADu je, že spolu s obrovské množstvo vstavané funkcie a procedúry, používa klasický matematický zápis. Zhruba povedané, stačí vedieť matematiku a vedieť písať vzorce.

Stručný popis algoritmu

Ako každý algoritmus zo série strojového učenia, aj vlastná tvár sa musí najskôr natrénovať, na to používame trénovaciu sadu, čo sú obrázky tvárí, ktoré chceme rozpoznať. Po natrénovaní modelu dodáme nejaký obrázok ako vstup a ako výsledok dostaneme odpoveď na otázku: ktorý obrázok z trénovacej vzorky s najväčšou pravdepodobnosťou zodpovedá príkladu na vstupe alebo nezodpovedá žiadnemu .

Úlohou algoritmu je reprezentovať obrázok ako súčet základných komponentov (obrázkov):

Kde Ф i je centrovaný (t. j. mínus priemer) i-tý obrázok pôvodnej vzorky, w j sú váhy a u j sú vlastné vektory (vlastné vektory alebo v rámci tento algoritmus, vlastné tváre).

Na obrázku vyššie dostávame pôvodný obrázok vážený súčet vlastných vektorov a sčítanie priemeru. Tie. s w a u môžeme obnoviť akýkoľvek pôvodný obrázok.

Tréningová vzorka musí byť premietnutá do nového priestoru (pričom tento priestor je spravidla oveľa väčší ako pôvodný 2-rozmerný obrázok), kde každá dimenzia určitým spôsobom prispeje k Všeobecná myšlienka... Metóda hlavných komponentov umožňuje nájsť základ nového priestoru tak, aby sa v ňom dáta nachádzali v istom zmysle optimálne. Aby ste to pochopili, predstavte si, že v novom priestore niektoré dimenzie (aka hlavné komponenty alebo vlastné vektory alebo vlastné tváre) „unesú“ viac všeobecné informácie zatiaľ čo iné budú niesť iba špecifické informácie. Dimenzie vyššieho rádu (zodpovedajúce menším vlastným hodnotám) spravidla nesú oveľa menej užitočných (v našom prípade užitočný znamená niečo, čo poskytuje zovšeobecnený pohľad na celú vzorku) informácií ako prvé dimenzie zodpovedajúce najväčším vlastným hodnotám. Ponechaním rozmerov iba užitočnými informáciami dostaneme priestor funkcií, v ktorom je každý obrázok pôvodnej vzorky prezentovaný v zovšeobecnenej forme. Toto, veľmi zjednodušene, je myšlienka algoritmu.
Ďalej, keď máme v rukách nejaký obrázok, môžeme ho namapovať na vopred vytvorený priestor a určiť, ku ktorému obrázku tréningovej vzorky sa náš príklad nachádza najbližšie. Ak je zapnutá relatívne veľká vzdialenosť zo všetkých údajov, potom tento obrázok s najväčšou pravdepodobnosťou vôbec nepatrí do našej databázy.

Pre viac Detailný popis Odporúčam pozrieť si zoznam externých odkazov na wikipédii.

Malá odbočka. Metóda hlavnej zložky je široko používaná. Napríklad vo svojej práci ho používam na výber komponentov určitej mierky (časovej alebo priestorovej), smeru alebo frekvencie v dátovom poli. Môže sa použiť ako metóda na kompresiu údajov alebo ako metóda na zmenšenie pôvodného rozmeru viacrozmernej vzorky.

Tvorba modelu

Databáza tvárí Olivetti Research Lab (ORL) bola použitá na zostavenie vzorky tréningu, ktorá obsahuje 10 fotografií 40 rôznych ľudí:

Pre popis implementácie algoritmu sem vložím screenshoty s funkciami a výrazmi z MathCADu a okomentujem ich. Choď.

FaceNums definuje vektor čísel tvárí, ktoré sa budú používať pri tréningu. varNums nastavuje číslo variantu (podľa popisu základne máme 40 adresárov, každý s 10 obrazovými súbormi tej istej tváre). Náš tréningový set pozostáva zo 4 obrázkov.
Ďalej zavoláme funkciu ReadData. Implementuje sekvenčné čítanie údajov a konverziu obrazu na vektor (funkcia TwoD2OneD):

Na výstupe teda máme maticu Г, ktorej každý stĺpec je obrazom „roztiahnutým“ do vektora. Na takýto vektor sa možno pozerať ako na bod vo viacrozmernom priestore, kde rozmer je určený počtom pixelov. V našom prípade obrázky 92 x 112 dávajú vektor 10304 prvkov alebo definujú bod v 10304-rozmernom priestore.

2. Je potrebné normalizovať všetky obrázky v trénovacej sade odpočítaním priemernej snímky. Toto sa robí len preto, aby ste odišli jedinečné informácie odstránením prvkov spoločných pre všetky obrázky.

Funkcia AverageImg počíta a vracia vektor priemerov. Ak tento vektor „zbalíme“ do obrázka, uvidíme „spriemerovanú tvár“:

Funkcia Normalize odpočítava vektor priemeru od každého obrázka a vráti priemernú vzorku:

3. Ďalši krok toto je výpočet vlastných vektorov (aka vlastných tvárí) u a váh w pre každý obrázok v trénovacej množine. Inými slovami, ide o prechod do nového priestoru.

Vypočítame kovariančnú maticu, potom nájdeme hlavné zložky (sú to tiež vlastné vektory) a vypočítame váhy. Tí, ktorí sa lepšie zoznámia s algoritmom, vstúpia do matematiky. Funkcia vracia maticu váh, vlastných vektorov a vlastných hodnôt. Toto sú všetky údaje, ktoré potrebujete na mapovanie nového priestoru. V našom prípade pracujeme so 4-rozmerným priestorom, podľa počtu prvkov v trénovacej množine je zvyšných 10304 - 4 = 10300 dimenzií degenerovaných, neberieme ich do úvahy.

Vo všeobecnosti vlastné hodnoty nepotrebujeme, no dajú sa z nich vysledovať niektoré užitočné informácie. Poďme sa na ne pozrieť:

Vlastné hodnoty v skutočnosti ukazujú rozptyl pozdĺž každej osi hlavných komponentov (každý komponent zodpovedá jednej dimenzii v priestore). Pozrite sa na správny výraz, súčet daného vektora = 1 a každá položka predstavuje príspevok k celkovému rozptylu údajov. Vidíme, že súčet hlavných zložiek 1 a 3 je 0,82. Tie. Dimenzie 1 a 3 obsahujú 82 % všetkých informácií. 2. dimenzia je zrútená a 4. nesie 18% informácií a my ich nepotrebujeme.

Uznanie

Model je zostavený. Budeme testovať.

Vytvárame nový výber 24 prvkov. Prvé štyri prvky sú rovnaké ako v tréningovej súprave. Ostatné sú rôzne varianty obrázky z tréningového setu:

Ďalej načítame údaje a prenesieme ich do procedúry Rozpoznať. V ňom sa každý obrázok spriemeruje, namapuje do priestoru hlavných komponentov a nájdu sa váhy w. Po poznaní vektora w je potrebné určiť, ku ktorému z existujúcich objektov je najbližšie. Na tento účel sa používa funkcia dist (namiesto klasickej euklidovskej vzdialenosti v problémoch s rozpoznávaním vzorov je lepšie použiť inú metriku: vzdialenosť Mahalonobis). Nájdite minimálnu vzdialenosť a index objektu, ku ktorému tento obrázok nachádza najbližšie.

Na vzorke 24 objektov zobrazených vyššie je účinnosť klasifikátora 100%. Je tu však jedna výhrada. Ak zadáme na vstup obrázok, ktorý nie je v pôvodnej báze, tak sa aj tak vypočíta vektor w a nájde sa minimálna vzdialenosť. Preto sa zavedie kritérium O, ak je minimálna vzdialenosť< O значит изображение принадлежит к классу распознаваемых, если минимальное расстояние >Och, v databáze takýto obrázok nie je. Hodnota tohto kritéria sa volí empiricky. Pre tento model som zvolil O = 2,2.

Urobme vzorku ľudí, ktorí nie sú na školení a uvidíme, ako efektívne bude klasifikátor odfiltrovať falošné vzorky.

Z 24 vzoriek máme 4 falošne pozitívne... Tie. účinnosť bola 83 %.

Záver

Vo všeobecnosti jednoduchý a originálny algoritmus. V znova dokazuje, že v priestoroch vyššej dimenzie "skryl" množinu užitočná informácia ktoré možno použiť rôznymi spôsobmi.  Spolu s ďalšími pokročilými technikami je možné vlastnú tvár použiť na zlepšenie efektívnosti riešenia úloh.

Ako klasifikátor používame napríklad jednoduchý klasifikátor vzdialenosti. Mohli by sme však použiť napríklad pokročilejší klasifikačný algoritmus