Algoritmus rozpoznávania vzorov. Geometrické a algebraické metódy spracovania obrazu. Predmet a úlohy spracovania a rozpoznávania digitálnych obrazov

  • 22.04.2019

ROZPOZNANIE NEDEFORMOVATEĽNÝCH TROJROZMERNÝCH OBJEKTOV NA OBRÁZKOCH PODĽA OBRYSU

Študent 545 gr. Stoličky programovanie systému SPbSU, nikolai. ***** @ *** com

anotácia

V tejto práci uvedieme porovnanie známymi metódami rozpoznávanie trojrozmerných predmetov podľa obrysov a navrhovaných nová metóda, ktorý sa úspešne používa v probléme rozpoznávania áut. Táto metóda odolný voči malým zmenám na snímke objektu, ako sú malé rotácie a malé zmeny v mierke. Pri tejto metóde 3D objekty sú reprezentované konečnou množinou vzoriek, s ktorými sa uvažuje podobnosť vstupného obrazu. Metóda je založená na orientáciách gradientov obrazu, preto je slabo závislá od osvetlenia objektu. Tento prístup má tiež výhodu v možnosti použiť vnútorné a čiastočné obrysy.

Úvod

Problém rozpoznávania objektov vzniká v mnohých oblastiach, napríklad v medicínskych aplikáciách na rozpoznanie typu kosti na röntgenovom snímku, alebo vo forenznej oblasti na porovnávanie objektu na obrázku s objektom z databázy, napr. rozpoznávanie tváre alebo stroja.

Existujúce metódy berú do úvahy dva typy zmien modelu: nedeformujúce zmeny a deformujúce sa. Prvý typ zmien zahŕňa rotáciu, strih a zmenu mierky modelu a druhý - tiež deformácie samotného modelu, ako napríklad zmena polohy ľudského tela alebo mimiky.

Nižšie navrhovaná metóda predpokladá nájdenie objektu s nedeformujúcimi zmenami. Za týmto účelom sa jeho obrys extrahuje zo vstupného obrazu študovaného objektu špeciálne body obrysy, pomocou ktorých sa obrys zistí zo základne obrysov vytvorených na trojrozmerných modeloch.

Existujúce riešenia

Problém rozpoznania objektu podľa jeho obrysu v všeobecný pohľad sa rieši buď parametrizáciou obrysu a ďalším výpočtom funkcie podobnosti dvomi parametrizáciami, alebo vypočítaním nejakého deskriptora obrysu (napríklad množiny histogramov) a ich porovnaním.

V prístupe Belongie et al sú zavedené a porovnané kontexty tvaru obrysu. N bodov obrysu sa vyberie rovnomerne, z každého bodu sa segmenty spustí do všetkých ostatných bodov vzorkovania a v smeroch a dĺžkach týchto segmentov sa vytvorí histogram. Súbor všetkých takýchto histogramov je kontextom obrysového tvaru. Porovnanie dvoch obrysov sa vykonáva prekrytím jednej sady na druhú so všetkými možnými posunmi, pričom sa nájde najlepšia rotácia jedného obrysu k druhému. Zložitosť tohto prístupu je O (n3).

Prístup Sebastiana et al je založený na redakčných medzerách, ktoré boli predtým zavedené pre struny. Pre každý bod obrysu je známa vzdialenosť vopred určeného bodu (začiatok obrysu) a zakrivenie v tomto bode. Pri porovnávaní dvoch obrysov sa funkcia podobnosti vypočíta tak, že sa jeden obrys navrství na druhý a vypočíta sa rozdiel v zakrivení s možnosťou vyhodiť kúsky obrysov s penalizáciami.

Na porovnanie kontúr možno použiť aj koncept šokového grafu, ako v prístupe Macriniho et al. Jeho kostra je skonštruovaná pozdĺž vrstevnice vo forme stromu ako množiny bodov rovnako vzdialených od dvojíc bodov obrysu. Uzly tohto stromu sú šoky odlišné typy a silu. Porovnaním týchto grafov je možné porovnať samotné kontúry.

Vyššie uvedené metódy môžu pomôcť určiť, či je skúmaný obrys obrysom lietadla alebo kladiva, ale je ťažké rozlíšiť medzi podobnými obrysmi. nedeformovateľné predmety... Preto je potrebné, aby niečo viac záviselo od nezvyčajných bodov obrysu a silnejšie charakterizovalo konkrétny objekt... Navyše je potrebné použiť vnútorné obrysy.

Navrhovaný prístup

Na vstupnom obrázku objektu, získanom pomocou kamery s známe parametre bez skreslenia, musíte najprv vybrať obrys objektu pomocou prechodu obrázka. Potom z bodov obrysu ponechajte len špeciálne a zapamätajte si iba smer gradientu v týchto bodoch. Získané body potom nejakým spôsobom prefiltrujte a použite pri porovnávaní obrysov.

Výber ciest

Na zvýraznenie obrysov sa pomocou Sobelovho operátora vypočítal gradient obrazu. Zvyčajne sa na to používa jas obrazu v odtieňoch sivej, ale na získanie jasnejších a úplnejších obrysov sa používa nasledujúca metóda: vypočítame gradient v každom bode pre tri kanály samostatne a zapíšte si gradient s maximálnou normou ako výsledok.

https://pandia.ru/text/78/196/images/image002_10.png "width =" 198 "height =" 207 src = ">

Výber špeciálnych bodov

Medzi bodmi výsledného obrazového gradientu necháme len tie, ktorých gradientová norma je väčšia ako určitá prahová hodnota, čím dostaneme body obrysu. Pre tieto body gradientu necháme len uhol medzi smerom gradientu a osou Ox. Ak je uhol α väčší ako π, potom namiesto neho píšeme α - π, pretože gradient môže smerovať v opačných smeroch s rôznym pozadím. Vyhýbanie sa používaniu informácií o rýchlosti prechodu vám umožňuje použiť body cesty, ktoré sú v tieni, rovnakým spôsobom, akým používate body cesty v osvetlenej časti objektu. Ďalej vypočítané uhly binarizujeme do n zásobníkov, to znamená, ak je uhol α,: 0< α < π / n, тогда он попадает в первый бин, а если α,: π / n < α < π * 2 / n, тогда во второй и так далее. Затем из точек удаляем те, для которых неверно, что направление в этой точке является самым частым направлением в некоторой небольшой окрестности точки. Это обеспечивает локальную сонаправленность точек контура и чистит контур от шума. Оставшиеся точки (направление и координаты) и будут использоваться для сравнения двух контуров

Vytvorenie základne z trojrozmerných modelov

Podklad obrysov objektov slúži na nájdenie objektu a jeho perspektívy na vstupnom obrázku. Pre určitý súbor trojrozmerných modelov sú ich obrazy generované v rôznych uhloch a in rôzne mierky... Potom sa na týchto obrázkoch zistia obrysy a špeciálne body sa zvýraznia, ako je opísané vyššie. Tieto výsledky je možné uložiť pre budúce opätovné použitie. Túto základňu môžete tiež rozdeliť do skupín v závislosti od veľkosti obrysov v pixeloch.

Ryža. 3 Príklad trojrozmerného modelu v pohľade otočenom pozdĺž osi Oy o 20 stupňov a pozdĺž osi Ox o 10 stupňov od frontálu.

Funkcia podobnosti a jej výpočet

Nazvime každý obrys od základu modelový model v určitej perspektíve a mierke. Posuňme súradnice bodov vo vzorkách tak, aby úsečka ľavého bodu bola nula a súradnica najvyššieho bodu tiež nula. Potom pre vstupný obrázok ja v bode s a vzorka T môžete zadať funkciu podobnosti

kde P Je súbor vzorových bodov, O Je obraz zodpovedajúci vzorke, ori (O, r) je binarizovaný smer gradientu obrazu O v bode r. Funkcia vychádza z diela Stegera a podobná bola použitá v diele Farhana. Problém je v tom, že takáto funkcia je úplne nestabilná voči zmenám, preto je pre každý bod vzorky potrebné zvážiť určité okolie R(napríklad štvorec 7x7 pixelov) okolo použitého bodu:

DIV_ADBLOCK44 ">

0 "style =" border-collapse: kolaps; border: none ">

Výsledok testu rozmazania závisí od veľkosti jadra rozmazania a jeho sily. Čím viac - tým nižšie percento. Pri oklúzii závisí percento rozpoznania od toho, ktorá časť objektu sa prekrýva (koľko obrysových bodov je na nej).

Ryža. 4 Graf podobnosti testovacieho prípadu v základni (pozdĺž osí - uhly natočenia v x a y). Ukazuje, že v oblasti správneho uhla je explicitný vrchol funkcie, ktorý možno nájsť rýchlejšie ako vymenovaním všetkých uhlov.

Literatúra

1. Belongie, S.; Malik, J.; Puzicha, J., "Shape matching and object recognition using shape contexts," Pattern Analysis and Machine Intelligence, IEEE Transactions on, zväzok 24, č. 4, str. 509 522, apríl 2002

2. Sebastian, T. B.; Klein, P. N.; Kimia, B. B., "On aligning curves," Pattern Analysis and Machine Intelligence, IEEE Transactions on, zväzok 25, č. 1, str. 116 125, január. 2003

3. Macrini, D.; Shokoufandeh, A.; Dickinson, S.; Siddiqi, K.; Zucker, S., "Rozpoznávanie 3-D objektov na základe zobrazenia pomocou šokových grafov," Pattern Recognition, 2002. Zborník. 16. medzinárodná konferencia na, ročník 3, č., str. 24, 28 ročník 3, 2002

4. Farhan U.; Shun "ichi K.; Satoru I.," Object Search Using Orientation Code Matching ", IAPR Workshop on Machine Vision Applications, 28.-30. novembra 2000

5. C. Steger, „Occlusion Clutter, and Illumination Invariant Object Recognition“, v International Archives of Photogrammetry and Remote Sensing, 2002.

  • Povinný kurz pre študentov 3. ročníka odboru. MMP, prečítaná v 6. semestri
  • Povinný kurz pre študentov 1. ročníka magistrátu katedry. ASVK, čítať v 2. polroku
  • Prednášky - 32 hodín
  • Kontrolný formulár - skúška
  • Autor programu: Profesor Mestetsky L.M.
  • Prednáša: Profesor Mestetsky L.M.

anotácia

Kurz je založený na matematické metódy rozpoznávanie vzorov používané na analýzu a klasifikáciu obrazov v systémoch počítačového videnia. Charakteristické rysy metódy rozpoznávania pre túto triedu problémov sú určené štruktúrou počiatočných údajov - digitálnych obrázkov vo forme matíc farby a jasu bodov. Tieto vlastnosti ovplyvňujú najmä špecifiká generácie popisy funkcií objektov, ako aj špecifiká konštrukcie metriky v priestore obrazov.

Prvá časť kurzu (18 hodín) zahŕňa otázky transformácie obrázkov rôznych typov na účely generovania popisov funkcií. Najprv sa študujú metódy bodového, priestorového geometrického, algebraického a medzisnímkového spracovania obrazu. Ďalej uvažujeme o metódach generovania prvkov založených na rozklade obrázkov z hľadiska základné funkcie(Karunen-Loevova transformácia, diskrétna Fourierova transformácia, vlnkový rozklad), štatistická analýza textúry obrazu, ako aj analýza tvaru obrazov (konštrukcia hraníc, kostry, Houghova transformácia).

V druhej časti kurzu (8 hodín) sú metódy na zostavovanie metrík na porovnávanie obrázkov (porovnávanie spektrálne expanzie ukladanie a zarovnávanie obrázkov).

Posledná časť kurzu (6 hodín) zahŕňa aplikáciu naučených metód v aplikované úlohy počítačového videnia. Uvažuje sa o problémoch rozpoznávania textu v obrazoch dokumentov, problémoch biometrickej identifikácie osoby podľa štruktúry očnej dúhovky, podľa tvaru dlane, odtlačku prsta, profilu tváre. Ďalej sa skúmajú aplikácie na rozpoznávanie. dynamické objekty v pozorovaných scénach na rozpoznávanie postojov a gest.

Predmet a úlohy spracovania a rozpoznávania digitálnych obrazov

Zariadenia na získavanie a reprodukciu rastrového obrazu (fotoaparáty, skenery, displeje, tlačiarne), digitalizácia obrazu. Obrazové modely. Úlohy spracovania, analýzy a klasifikácie obrazu. Aplikačné systémy, softvér.

Bodové metódy spracovania obrazu

Histogramy intenzity. Transformácie založené na analýze histogramov intenzity. Bodové transformácie (osvietenie, negatívny obraz, binarizácia, pseudo zafarbenie).

Techniky spracovania priestorového obrazu

Priestorová frekvencia obrazu. Konvolúcia obrazu. Konštrukcia filtra: dolná priepust, pásmová priepust a hornopriepustné filtre... Zvýrazňovanie hrán, Laplaceova, Robertsova, Kirschova a Sobelova metóda, metódy posunu a rozdielu, metóda smerového gradientu.

Techniky geometrického a algebraického spracovania obrazu

Algebraické transformácie (sčítanie, odčítanie obrázkov). Geometrické transformácie (monochromatická interpolácia, afinné a nelineárne transformácie).

Metódy spracovania obrazu medzi snímkami

Geometria niekoľkých projekcií. Stereovízia. Určenie pohybu objektu.

Analýza obrazu založená na rozšírení základných funkcií

Bázové vektory a bázové matice. Karunen-Loevov rozklad. Diskrétna transformácia Fourier. Kosínusová transformácia. Spojité a diskrétne vlnkové transformácie. Vlnkový rozklad. Výber vlnky.

Štatistické metódy analýzy textúry

Regionálne značky. Metódy merania textúr založené na štatistikách prvého rádu. Metódy merania textúr na základe štatistík druhého rádu.

Metódy analýzy tvaru obrazu

Pojmy formulárov. Segmentácia, výber tvaru. Odoslanie formulára. Charakteristiky tvaru a ich meranie. Skeletonizácia. Hough transformácia. Binárna matematická morfológia. Erózia a dilatácia. Morfologické algoritmy na diskrétnych binárnych obrazoch.

Metriky na meranie podobnosti obrázkov

Porovnanie spektrálnych expanzií. Klasifikácia porovnaním so štandardom. Podobnosť založená na hľadaní optimálnej cesty. Bellmanov princíp optimality a dynamické programovanie... Rozpoznanie „bez znamenia“.

Rozpoznávanie textov z obrázkov dokumentov

Segmentácia dokumentov a textov. Zarovnávanie textov. Rozpoznávanie tlačených znakov. Rozpoznávanie rukopisu.

Biometrická identifikácia založená na rozpoznávaní obrazu

Klasifikácia dúhoviek Daugmanovou metódou. Klasifikácia siluet dlaní metódou porovnávania flexibilných predmetov. Metóda zvýraznenia špeciálnych bodov v papilárnom vzore.

Rozpoznávanie dynamických scén

Rozpoznávanie gest. Rozpoznávanie výrazov tváre. Rozpoznanie póz.

Samostatná práca študenta

Výpočtový workshop o spracovaní a klasifikácii obrazu

Cvičenie 1. Téma: Štúdium a osvojenie si metód spracovania a segmentácie obrazu. Vyvinúť a implementovať program na prácu s obrázkami čipov hracia zostava Tantrix.

Zadanie 1, PDF

Úloha 2. Téma: Štúdium a vývoj metód klasifikácie tvaru obrázkov. Vyvinúť a implementovať program na klasifikáciu obrázkov dlaní. "

  • Návod

Dlho som chcel napísať všeobecný článok obsahujúci úplné základy rozpoznávania obrázkov, sprievodcu základné metódy, kedy ich aplikovať, aké úlohy riešia, čo je možné robiť večer na kolene a na čo je lepšie nemyslieť bez toho, aby ste mali tím 20 ľudí.

Už dlho píšem nejaké články o optickom rozpoznávaní, takže mi píšu párkrát do mesiaca Iný ľudia s otázkami na túto tému. Niekedy máte pocit, že s nimi žijete rozdielne svety... Na jednej strane chápete, že osoba je s najväčšou pravdepodobnosťou profesionálom v príbuznej téme, ale vie veľmi málo o metódach optického rozpoznávania. A najurážlivejšia vec je, že sa snaží použiť metódu z blízkej oblasti vedomostí, ktorá je logická, ale nefunguje úplne v rozpoznávaní obrázkov, ale nerozumie tomu a je veľmi urazený, ak začne niečo hovoriť. od úplných základov. A vzhľadom na to, že rozprávanie od základov je veľa času, čo často nie je, je to ešte smutnejšie.

Tento článok bol koncipovaný tak, aby si človek, ktorý sa nikdy nezaoberal metódami rozpoznávania obrazu, v priebehu 10-15 minút vytvoril v hlave určitý základný obraz sveta zodpovedajúci téme a pochopil, akým smerom sa má uberať. Mnohé z tu opísaných techník sú aplikovateľné na radarové a audio spracovanie.
Začnem niekoľkými zásadami, ktoré vždy začneme hovoriť potenciálnemu zákazníkovi alebo človeku, ktorý chce začať s optickým rozpoznávaním:

  • Pri riešení problému vždy postupujte od najjednoduchšieho. Je oveľa jednoduchšie zavesiť na človeka oranžový štítok, ako ho nasledovať a zvýrazniť ho kaskádami. Je oveľa jednoduchšie vziať si so sebou fotoaparát s vysokým rozlíšením ako vyvinúť algoritmus s vysokým rozlíšením.
  • Presná formulácia problému v metódach optického rozpoznávania je rádovo dôležitejšia ako v problémoch systémového programovania: nadbytočné slovo v TK môže pridať 50% prac.
  • V úlohách rozpoznávania nie je univerzálne riešenia... Nemôžete vytvoriť algoritmus, ktorý jednoducho „rozpozná akýkoľvek nápis“. Nápis na ulici a list textu sú zásadne odlišné predmety. Pravdepodobne sa to dá všeobecný algoritmus(dobrý príklad od Google), ale bude to vyžadovať veľa práce od veľkého tímu a bude pozostávať z desiatok rôznych rutín.
  • OpenCV je biblia, ktorá má veľa metód a pomocou ktorej môžete vyriešiť 50% objemu takmer akéhokoľvek problému, ale OpenCV je len malá časť toho, čo skutočne dokážete. V jednej štúdii boli napísané závery: "Problém nie je vyriešený metódami OpenCV, preto je neriešiteľný." Snažte sa tomu vyhnúť, nebuďte leniví a triezvo vyhodnoťte aktuálnu úlohu zakaždým od začiatku, bez použitia OpenCV šablón.
Je veľmi ťažké poskytnúť nejakú univerzálnu radu alebo povedať, ako vytvoriť nejakú štruktúru, okolo ktorej môžete postaviť riešenie ľubovoľných problémov s počítačovým videním. Účelom tohto článku je štruktúrovať, čo môžete použiť. Pokúsim sa zlomiť existujúce metódy do troch skupín. Prvou skupinou je predbežná filtrácia a príprava obrazu. Druhou skupinou je logické spracovanie výsledkov filtrovania. Treťou skupinou sú rozhodovacie algoritmy založené na logickom spracovaní. Hranice medzi skupinami sú veľmi podmienené. Na vyriešenie problému nie je zďaleka vždy potrebné použiť metódy zo všetkých skupín, niekedy stačia dve, niekedy dokonca jedna.

Tu uvedený zoznam metód nie je úplný. Navrhujem pridať kritické metódy do komentárov, ktoré som nenapísal, a priradiť ku každému 2-3 sprievodné slová.

Časť 1. Filtrácia

Do tejto skupiny som umiestnil metódy, ktoré vám umožňujú zvýrazniť oblasti záujmu na obrázkoch bez ich analýzy. Väčšina z z týchto metód aplikuje istý druh rovnomernej transformácie na všetky body obrazu. Na úrovni filtrovania sa obraz neanalyzuje, ale body, ktoré sú filtrované, možno považovať za oblasti so špeciálnymi charakteristikami.
Prahová binarizácia, výber oblasti histogramu
Najjednoduchšou transformáciou je prahová binarizácia obrazu. Pre RGB obrázky a v obrázkoch v odtieňoch sivej je prahom hodnota farby. Sú ideálne úlohy, pri ktorých takáto premena postačuje. Povedzme, že chcete automaticky vyberať objekty na bielom hárku papiera:




Výber prahu, pri ktorom dochádza k binarizácii, do značnej miery určuje samotný proces binarizácie. V v tomto prípade, obrázok bol binarizovaný podľa priemernej farby. Zvyčajne sa binarizácia vykonáva pomocou algoritmu, ktorý adaptívne vyberá prah. Tento algoritmus môže byť výberom očakávania alebo režimu. A môžete si vybrať najväčší vrchol histogramu.

Binarizácia môže poskytnúť veľmi zaujímavé výsledky pri práci s histogramami, vrátane prípadov, keď neuvažujeme o obrázku v RGB, ale v HSV. Napríklad segmentujte farby, ktoré vás zaujímajú. Tento princíp možno použiť na zostavenie detektora značiek aj detektora ľudskej kože.
Klasické filtrovanie: Fourier, LPF, HPF
Klasické metódy filtrovania z radaru a spracovania signálu možno úspešne použiť v rôznych úlohách rozpoznávania vzorov. Tradičná metóda v radare, ktorá sa takmer nikdy nepoužíva v snímkach v čistej forme je Fourierova transformácia (presnejšie FFT). Jednou z mála výnimiek, pri ktorých sa používa jednorozmerná Fourierova transformácia, je kompresia obrazu. Na analýzu obrazu zvyčajne nestačí jednorozmerná transformácia, musíte použiť dvojrozmernú transformáciu, ktorá je oveľa náročnejšia na zdroje.

Len málo ľudí to skutočne vypočíta, zvyčajne je oveľa rýchlejšie a jednoduchšie použiť konvolúciu oblasti záujmu s hotovým filtrom zaostreným na vysoké (HPF) alebo nízke (LPF) frekvencie. Táto metóda samozrejme neumožňuje spektrálnu analýzu, ale v konkrétnu úlohu spracovanie videa zvyčajne nevyžaduje analýzu, ale výsledok.


Najviac jednoduché príklady filtre, ktoré implementujú podčiarknutie nízke frekvencie(Gaussov filter) a vysoké frekvencie(Gaborov filter).
Pre každý bod na obrázku sa vyberie okno a vynásobí sa filtrom rovnakej veľkosti. Výsledkom tejto konvolúcie je nová bodová hodnota. Pri implementácii dolnopriepustného filtra a hornopriepustného filtra sa získajú obrázky nasledujúceho typu:



Vlnky
Čo ak však použijeme ľubovoľnú charakteristickú funkciu na konvolúciu so signálom? Potom sa to bude volať "Wavelet transform". Táto definícia vlniek nie je správna, ale tradične sa vyvinulo, že v mnohých príkazoch je vlnková analýza hľadaním ľubovoľného vzoru v obraze pomocou konvolúcie s modelom tohto vzoru. Vo vlnkovej analýze sa používa súbor klasických funkcií. Patria sem vlnka Haar, vlnka Morlet, vlnka mexického klobúka atď. Haarove primitívy, o ktorých bolo niekoľko mojich predchádzajúcich článkov (,), sa týkajú takýchto funkcií pre dvojrozmerný priestor.


Vyššie sú 4 príklady klasických vlniek. 3D vlnka Haar, vlnka 2D Meyer, vlnka Mexican Hat, vlnka Daubechies. Dobrý príklad Pri použití rozšírenej interpretácie vlniek je problém nájsť záblesk v oku, pre ktorý je vlnkou samotná záblesk:

Klasické vlnky sa zvyčajne používajú na alebo na ich klasifikáciu (popísané nižšie).
Korelácia
Po takejto voľnej interpretácii vlniek z mojej strany stojí za zmienku ich skutočná korelácia. Pri filtrovaní obrázkov je to tak nenahraditeľný nástroj. Klasická aplikácia- korelácia video streamu na nájdenie posunov alebo optických tokov. Najjednoduchší detektor posunu je v istom zmysle aj rozdielovým korelátorom. Tam, kde obrázky nekorelujú, nastal pohyb.

Funkcie filtrovania
Zaujímavou triedou filtrov je filtrovanie funkcií. Jedná sa o čisto matematické filtre, ktoré umožňujú odhaliť jednoduché matematická funkcia na obrázku (priamka, parabola, kruh). Vytvorí sa hromadiaci sa obraz, v ktorom pre každý bod pôvodný obrázok mnohé funkcie, ktoré ho generujú, sú vykreslené. Najklasickejšou transformáciou je Houghova transformácia pre čiary. Pri tejto transformácii sa pre každý bod (x; y) nakreslí množina bodov (a; b) priamky y = ax + b, pre ktoré platí rovnosť. Máme krásne obrázky:


(prvé plus má ten, kto ako prvý nájde úlovok na obrázku a takúto definíciu a vysvetlí to, druhé plus ten, kto prvý povie, čo je tu zobrazené)
Houghova transformácia vám umožňuje nájsť ľubovoľné parametrizovateľné funkcie. Napríklad kruh. K dispozícii je upravená transformácia, ktorá umožňuje vyhľadávať ľubovoľné. Táto transformácia sa matematikom strašne páči. Ale pri spracovaní obrázkov to, bohužiaľ, nie vždy funguje. vysoko pomalá rýchlosť práce, veľmi vysoká citlivosť na kvalitu binarizácie. Aj v ideálnych situáciách som si radšej vystačil s inými metódami.
Analógom Houghovej transformácie pre priame čiary je Radonova transformácia. Vypočítava sa pomocou FFT, čo poskytuje výkonnostnú výhodu v situácii, keď je veľa bodov. Okrem toho sa dá použiť aj na nebinarizovaný obrázok.
Filtrovanie obrysov
Samostatnou triedou filtrov je okrajové a obrysové filtrovanie. Obrysy sú veľmi užitočné, keď chceme prejsť od práce s obrázkom k práci s objektmi na tomto obrázku. Keď je téma dostatočne zložitá, ale dobre definovaná, je to často jediná cesta práca s ním je výber jeho obrysov. existuje celý riadok algoritmy, riešenie problému filtrovanie obrysov:

Najčastejšie sa používa Canny, ktorý funguje dobre a ktorého implementácia je v OpenCV (je tam aj Sobel, ale on vyzerať horšie kontúry).



Iné filtre
Vyššie sú filtre, ktorých úpravy pomáhajú vyriešiť 80-90% problémov. Ale okrem nich existujú vzácnejšie filtre používané v miestnych úlohách. Takýchto filtrov sú desiatky, nebudem uvádzať všetky. Zaujímavé sú napríklad iteračné filtre, ale aj ridgeletové a zakrivené transformácie, ktoré sú zliatinou klasickej vlnkovej filtrácie a analýzy v poli radónovej transformácie. Lúčová transformácia funguje krásne na hranici vlnkovej transformácie a logickej analýzy, čo vám umožňuje zvýrazniť kontúry:

Ale tieto transformácie sú veľmi špecifické a sú prispôsobené pre zriedkavé úlohy.

Časť 2. Logické spracovanie výsledkov filtrovania

Filtrovanie poskytuje súbor údajov vhodných na spracovanie. Tieto údaje však často nemôžete len tak vziať a použiť bez ich spracovania. V tejto časti bude niekoľko klasických metód, ktoré umožňujú prejsť od obrázku k vlastnostiam objektov, prípadne k objektom samotným.
Morfológia
Prechodom od filtrácie k logike sú podľa mňa metódy matematickej morfológie (,). V skutočnosti ide o najjednoduchšie operácie vytvárania a erodovania binárnych obrazov. Tieto metódy umožňujú odstrániť šum z binárneho obrazu zvýšením alebo znížením existujúcich prvkov. Na základe matematickej morfológie existujú kontúrovacie algoritmy, ale zvyčajne používajú nejaký druh hybridných algoritmov alebo algoritmov v spojení.
Analýza obrysov
Algoritmy na získanie hraníc už boli spomenuté v časti o filtrovaní. Výsledné hranice sú celkom jednoducho prevedené na obrysy. Pre Cannyho algoritmus sa to deje automaticky, pre ostatné algoritmy je potrebná dodatočná binarizácia. Kontúru pre binárny algoritmus môžete získať napríklad pomocou chrobáka.
Obrys je jedinečná charakteristika objektu. To často umožňuje identifikovať objekt pozdĺž obrysu. Existuje mocný matematický aparátčo vám to umožní. Prístroj sa nazýva analýza obrysu (,).

Aby som bol úprimný, nikdy sa mi nepodarilo použiť analýzu kontúr v skutočných problémoch. Vyžadujú sa príliš ideálne podmienky. Buď tam nie je žiadna hranica, alebo je tam príliš veľa hluku. Ak však potrebujete niečo rozpoznať ideálne podmienky- potom je analýza obrysu skvelou voľbou. Funguje veľmi rýchlo, krásna matematika a jasná logika.
Špeciálne body
Singulárne body sú jedinečné vlastnosti objekty, ktoré umožňujú objekt mapovať na seba alebo na podobné triedy objektov. Existuje niekoľko desiatok spôsobov, ako zdôrazniť takéto body. Niektoré metódy zvýrazňujú špeciálne body v susedných snímkach, niektoré po dlhom čase a pri zmene osvetlenia, niektoré umožňujú nájsť špeciálne body, ktoré tak zostávajú aj pri otáčaní objektu. Začnime metódami, ktoré nám umožňujú nájsť singulárne body, ktoré nie sú také stabilné, ale sú rýchlo vypočítané, a potom postupujeme v rastúcej zložitosti:
Prvá trieda. Singulárne body, ktoré sú stabilné niekoľko sekúnd. Takéto body sa používajú na vedenie objektu medzi susednými snímkami videa alebo na zlučovanie obrázkov zo susedných kamier. Tieto body zahŕňajú miestne maximá obrazu, uhly obrazu (najlepší z detektorov, možno Harisov detektor), body, v ktorých sa dosahujú maximá disperzie, určité gradienty atď.
Druhá trieda. Špeciálne body, ktoré sú stabilné pri zmenách osvetlenia a malých pohyboch objektu. Takéto body sa primárne používajú na trénovanie a následnú klasifikáciu typov objektov. Napríklad klasifikátor chodcov alebo klasifikátor tváre je produktom systému postaveného okolo takýchto bodov. Niektoré z vyššie uvedených vlniek môžu byť základom pre takéto body. Napríklad primitívy Haar, vyhľadávanie odleskov, vyhľadávanie ďalších špecifických funkcií. Tieto body zahŕňajú body nájdené metódou smerového gradientového histogramu (HOG).
Tretia trieda. Stabilné body. Viem len o dvoch metódach, ktoré poskytujú úplnú stabilitu a o ich modifikáciách. Toto a. Umožňujú vám nájsť špeciálne body aj pri otáčaní obrázka. Výpočet takýchto bodov trvá dlhšie ako iné metódy, ale dosť limitovaný čas... Bohužiaľ, tieto metódy sú patentované. Aj keď v Rusku nie sú algoritmy patentované, takže pre domáci trh použi to.

Časť 3. Školenie

Tretia časť príbehu bude venovaná metódam, ktoré nepracujú priamo s obrazom, no umožňujú rozhodovanie. Hlavne rôzne metódy strojové učenie a rozhodovanie. Nedávno Yandyks napísal na Habr na túto tému, tam je veľmi dobrý výber... Tu je to in textová verzia... Pre seriózne štúdium témy dôrazne odporúčam, aby ste si ich pozreli. Tu sa pokúsim načrtnúť niekoľko základných metód používaných pri rozpoznávaní vzorov.
V 80 % situácií je podstata učenia v probléme rozpoznávania nasledovná:
Existuje testovacia sada obsahujúca niekoľko tried objektov. Nech je to prítomnosť / neprítomnosť osoby na fotografii. Pre každý obrázok existuje súbor funkcií, ktoré boli identifikované nejakou vlastnosťou, či už je to Haar, HOG, SURF alebo nejaký druh vlnky. Učiaci sa algoritmus musí zostaviť taký model, podľa ktorého bude schopný analyzovať nový obrázok a rozhodnúť, ktorý z objektov je na obrázku.
Ako sa to robí? Každý z testovacie obrázky je bod v priestore funkcií. Jeho súradnice predstavujú hmotnosť každého z prvkov na obrázku. Nech sú naše znamenia: „Prítomnosť očí“, „Prítomnosť nosa“, „Prítomnosť dvoch rúk“, „Prítomnosť uší“ atď. ... človek. Pre človeka v takomto priestore bude pointa správna. Pre opicu ide o koňa. Klasifikátor je trénovaný na vzorke príkladov. Nie všetky fotografie však ukazovali ruky, iné nemajú oči a na tretej má opica ľudský nos kvôli chybe v klasifikátore. Vycvičený ľudský klasifikátor automaticky rozdelí priestor prvkov takým spôsobom, aby povedal: ak prvý prvok leží v rozsahu 0,5 Účelom klasifikátora je v podstate zakresliť do priestoru znakov oblasti, ktoré sú charakteristické pre objekty klasifikácie. Takto bude vyzerať postupná aproximácia k odpovedi pre jeden z klasifikátorov (AdaBoost) v dvojrozmernom priestore:


Existuje veľa klasifikátorov. Každý z nich funguje lepšie v nejakej vlastnej úlohe. Úloha výberu klasifikátora pre konkrétnu úlohu je v mnohých ohľadoch umením. Tu je niekoľko krásnych obrázkov na túto tému.
Jednoduchý prípad, jednorozmerné oddelenie
Analyzujme na príklade najjednoduchší prípad klasifikácie, keď je priestor prvkov jednorozmerný a potrebujeme rozdeliť 2 triedy. Táto situácia nastáva častejšie, ako by sa dalo predpokladať: napríklad, keď potrebujete rozlíšiť dva signály alebo porovnať vzor so vzorkou. Povedzme, že máme tréningovú vzorku. V tomto prípade sa získa obrázok, kde na osi X bude miera podobnosti a na osi Y - počet udalostí s takouto mierou. Keď hľadaný objekt vyzerá ako on sám, získa sa ľavý Gaussian. Keď nie ako - správne. Hodnota X = 0,4 rozdeľuje vzorky tak, aby chybné rozhodnutie minimalizovalo pravdepodobnosť akéhokoľvek nesprávneho rozhodnutia. Práve hľadanie takéhoto oddeľovača je klasifikačným problémom.


Malá poznámka. Kritérium, ktoré minimalizuje chybu, nebude vždy optimálne. Ďalší graf je grafom skutočného systému rozpoznávania dúhovky. Pre takýto systém je kritérium zvolené tak, aby sa minimalizovala pravdepodobnosť falošného vstupu neoprávnenej osoby do objektu. Táto pravdepodobnosť sa nazýva „chyba prvého druhu“, „pravdepodobnosť falošného poplachu“, „falošne pozitívny“. V anglickej literatúre "False Access Rate".
) AdaBusta je jedným z najbežnejších klasifikátorov. Je na nej postavená napríklad Haarova kaskáda. Väčšinou sa využívajú pri potrebe binárnej klasifikácie, no nič vám nebráni učiť pre väčší počet tried.
SVM (,,,) Jeden z najvýkonnejších klasifikátorov s mnohými implementáciami. V podstate na učebných úlohách, s ktorými som sa stretol, to fungovalo podobným spôsobom ako adabusta. Považuje sa za dostatočne rýchly, ale jeho tréning je náročnejší ako u Adabusty a vyžaduje sa výber správneho jadra.

Existujú aj neurónové siete a regresia. Aby sme ich však stručne klasifikovali a ukázali, v čom sa líšia, je potrebný článok oveľa viac ako tento.
________________________________________________
Dúfam, že sa mi podarilo urobiť rýchly prehľad použitých metód bez toho, aby som sa ponoril do matematiky a popisu. Možno to niekomu pomôže. Aj keď je samozrejme článok neúplný a nie je tam ani slovo o práci so stereo obrazmi, ani o OLS s Kalmanovým filtrom, ani o adaptívnom bayesovskom prístupe.
Ak sa vám článok páči, pokúsim sa urobiť druhú časť s výberom príkladov, ako sa riešia existujúce úlohy ImageRecognition.

A nakoniec

čo čítať?
1) Kedysi sa mi veľmi páčila kniha "Digitálne spracovanie obrazu" od B. Yane, ktorá je napísaná jednoducho a zrozumiteľne, no zároveň je v nej podaná takmer všetka matematika. Dobré na oboznámenie sa s existujúcimi metódami.
2) Klasikmi žánru sú R. Gonzalez, R. Woods „Digital Image Processing“. Z nejakého dôvodu to bolo pre mňa ťažšie ako to prvé. Oveľa menej matematiky, ale viac metód a obrázkov.
3) "Spracovanie a analýza obrazu v úlohách strojového videnia" - napísané na základe kurzu vyučovaného na jednej z katedier PhysTech. Existuje veľa metód a ich podrobný popis. Kniha má však podľa mňa dve veľké nevýhody: kniha je silne zameraná na softvérový balík, ktorý je s ňou dodávaný, v knihe sa až príliš často popis jednoduchej metódy mení na matematickú džungľu, z ktorej sa ťažko štruktúrny diagram metódy. Ale autori vytvorili pohodlnú stránku, kde je prezentovaný takmer všetok obsah - wiki.technicalvision.ru Pridať značky DIGITÁLNE SPRACOVANIE SIGNÁLU

Téma 18. ROZPOZNÁVANIE OBJEKTOV OBRAZU

Akékoľvek ľudské poznanie začína intuíciou, prechádza k pojmom a končí myšlienkami.

Immanuel Kant. nemecký filozof. XVIII storočia

Keď počítač namiesto človeka spozná koňa na obrázku, nie je to až tak ďaleko od pravdy, hoci je to len v počiatočnom štádiu procesu formovania vedomostí o človeku.

Georgy Korgul, uralský geofyzik. XX storočia

Úvod.

1. Predspracovanie obrázkov. Upravuje jas a kontrast obrázkov. Histogramy jasu. Vyrovnanie osvetlenia obrázkov. Vylepšené priestorové rozlíšenie.

2. Určenie hraníc objektov na obrázku. Nájdite hranice na základe gradientu. Hľadanie hraníc na základe laplacianu.

3. Výber objektov na obrázku. Algoritmus čarovnej paličky. Algoritmus inteligentných nožníc. Segmentácia pomocou grafových rezov.

4. Pridelenie vlastností objektov. Určenie plochy a obvodu. Určenie polomerov vpísaných a opísaných kružníc. Určenie strán opísaného obdĺžnika. Určenie počtu a relatívnej polohy rohov. Určenie momentov zotrvačnosti objektu.

5. Detekcia a rozpoznávanie objektov obrazu. Detekcia objektov. Metóda priameho porovnávania objektu s referenčným obrázkom. Korelačná metóda. Metódy rozpoznávania založené na systéme znakov.

ÚVOD

Podrobná úvaha o teoretických aspektoch tejto témy nie je úlohou tejto časti. Ktokoľvek môže získať podrobnejšie informácie o týchto otázkach v iných zdrojoch. Nižšie sú uvedené praktické odporúčania pre implementáciu jednotlivých metód priamo súvisiacich s najtypickejšími problémami, ktoré sú riešené na základe použitia algoritmov diskutovaných v predchádzajúcej téme.

Rozpoznávanie objektov v obrazoch optických senzorov (fotografické, letecké, satelitné a iné snímky) je tradičnou oblasťou spracovania obrazu. V tom istom čase sa metódy rozpoznávania objektov začali vo veľkej miere využívať v automatických televíznych pozorovacích systémoch, pri röntgenovom a magnetickom rezonančnom zobrazovaní a iných typoch pôvodne digitálnych obrazov na postprocesing aj spracovanie v reálnom čase.

^ 18.1. predbežné spracovanie OBRÁZKOV

Operáciám rozpoznávania na obrazoch určitých predmetov spravidla predchádza spracovanie obrazu, aby sa vytvorili podmienky, ktoré zvyšujú efektivitu a kvalitu výberu a rozpoznávania hľadaných alebo študovaných predmetov. Metódy predspracovania závisia od výskumných úloh, sú dosť rôznorodé a môžu zahŕňať napríklad výber najinformatívnejších fragmentov, ich zväčšenie, získanie 3-rozmerných obrázkov, farebné mapovanie, implementáciu vysokého priestorového rozlíšenia, zvýšenie kontrastného rozlíšenia. , zlepšenie kvality obrazu atď. Zvážte medzi nimi tie, bez ktorých sa obyčajne nezaobíde žiadna typická úloha.

Úprava jasu a kontrastu obrázkov .

Obrázky zadané do počítača majú často nízky kontrast. Slabý kontrast je spravidla spôsobený širokým rozsahom reprodukovateľného jasu, ktorý je často kombinovaný s nelinearitou charakteristík prenosu úrovne. Povaha závislosti zmeny jasu palety pixelov z minimálnej hodnoty na maximálnu hodnotu ovplyvňuje aj kvalitu obrazu. Optimálna je lineárna funkcia zmeny intenzity pixelov. S konkávnou charakteristikou bude obraz tmavší, s konvexnou charakteristikou bude svetlejší. V oboch prípadoch môžu byť vlastnosti objektov skreslené a neidentifikovateľné. Korekcia (linearizácia) jasu palety výrazne zlepšuje kvalitu obrazu.

Nízky kontrast môže byť tiež spôsobený skutočnosťou, že odchýlky vo funkcii jasu pixelov v obraze sú oveľa menšie ako povolený rozsah šedej stupnice. V tomto prípade sa kontrast obrazu zvýši „natiahnutím“ reálneho dynamického rozsahu jasu na celú škálu pomocou lineárnej transformácie po prvkoch.

Ďalším spôsobom, ako opraviť jas palety, je invertovať vstupný obrázok. Keďže je dosť ťažké rozlíšiť slabé signály na tmavom pozadí, inverzná forma zobrazenia takýchto obrázkov má iný histogram jasu, ktorý je prijateľnejší pre pozorovanie a vizuálnu identifikáciu.

Niektoré úlohy spracovania obrazu zahŕňajú konverziu obrazu v odtieňoch sivej (veľa stupňov jasu) na binárny obraz (dva stupne). Transformácia sa vykonáva s cieľom znížiť informačnú redundanciu obrazu, ponechať v ňom iba informácie, ktoré sú potrebné na vyriešenie konkrétneho problému. V binárnom obraze musia byť zachované určité detaily (napríklad obrysy zobrazených predmetov) a musia byť vylúčené nepodstatné znaky (pozadie).

Prahovanie obrazu v odtieňoch sivej spočíva v rozdelení všetkých prvkov obrazu do dvoch tried A 1 a A 2 podľa jasu s okrajom A c a vo vykonaní zodpovedajúceho prahového filtrovania s nahradením obrazových bodov nastavenými triedami jasu. Voľba orámovania je určená typom histogramu jasu pôvodnej snímky. Pre najjednoduchšie obrázky, ako sú kresby, strojom písaný text atď., ktoré majú bimodálnu distribúciu, je hranica medzi distribučnými režimami nastavená na minimum. Vo všeobecnom prípade môže byť obraz multimodálny a ak sa medzi objektmi a zodpovedajúcimi režimami ich jasu vytvorí dostatočne spoľahlivá korešpondencia, potom prahové filtrovanie môže zabezpečiť aj niekoľko tried jasu pixelov.

Rozsah jasu počítačového obrazu sa môže líšiť od pôvodného rozsahu jasu, napríklad v dôsledku nedostatočnej expozície. Existujú dva možné spôsoby korekcie jasu. Podľa prvého spôsobu sa obraz lineárne zobrazuje v rozsahu pôvodného jasu. Druhá metóda poskytuje obmedzenie jasu pixelov v spracovanom obraze na maximálnu a minimálnu prahovú úroveň a má širšie uplatnenie. Prítomnosť najsvetlejších a najtmavších tónov v obraze vyvoláva dojem dobrého kontrastu, nadmerný kontrast však vedie k tomu, že maximálne gradácie ovplyvňujú stredné tóny a väčšina detailov obrazu je zafarbená v stredných tónoch a nadmernom kontraste môže viesť k strate týchto detailov alebo sťažiť ich výber.

Histogramy jasu. Nástrojom na hodnotenie úrovní intenzity pixelov je histogram - grafické zobrazenie kvantitatívnych charakteristík pravdepodobnostného rozloženia intenzity (jasu) pixelov vo vybranej oblasti obrazu. Maximálnej hodnote intenzity pixelov je priradená úroveň gradácie intenzity 255 (biela), najtmavšej hodnote je priradená hodnota 0 (čierna). Intenzity v rozsahu od 0 do 255 majú lineárnu stupnicu zmeny, alebo sú nastavené v súlade s prevzatou funkciou zmeny, napríklad zosilnenie slabých signálov (stupne šedej) a zoslabenie silných signálov (v bielej oblasti), čím sa zväčší priestorové a kontrastné rozlíšenie obrazu alebo určité oblasti záujmu.

Existuje známy spôsob zlepšovania obrázkov založený na výpočte logaritmu spektrálnych koeficientov Fourierovej transformácie pôvodného obrázku (výpočet kepstra). Pri reverznej transformácii kepstra na obraz je histogram obrazu zarovnaný v dôsledku logaritmickej transformácie obrazového spektra.

Mnohé snímky sú charakterizované histogrammi s vysokou koncentráciou čiar v určitých oblastiach rozloženia intenzity. Často je histogram rozloženia jasu obrazu skreslený smerom k nízkym úrovniam (jas väčšiny prvkov je podpriemerný). Jednou z metód na zlepšenie kvality takýchto obrázkov je úprava ich histogramu. Zarovnanie histogramu sa môže uskutočniť na základe zvýšenia modulu spektrálnych koeficientov Fourierovej transformácie obrazu na mocninu, pričom znamienko a fáza koeficientov sú zachované. Ak označíme exponent α, potom pre α<1 операция извлечения корня степени α уменьшает большие спектральные коэффициенты и увеличивает малые. Такое перераспределение энергии в частотной плоскости изображения приводит к более эффективному использованию динамического диапазона интенсивностей пикселей изображения в пространственной области.

Výber dobrej masky na nastavenie histogramu intenzity pixelov zvyšuje kontrast, čím zlepšuje kontrastné rozlíšenie detailov. Spracovacie programy majú príkazy, ktoré umožňujú nastaviť farby pre farebné mapovanie obrázkov, ktoré majú plynulé alebo naopak ostré prechody zobrazených detailov v oblasti záujmu. V kombinácii s reverzáciou kontrastu, ktorá prevádza negatívny obraz na pozitívny obraz, táto metóda tiež zvyšuje kontrast malých a stredných detailov obrazu.

Existuje pomerne veľký arzenál matematických modelov a algoritmov, ktorých softvérová implementácia môže výrazne zvýšiť kontrastné rozlíšenie obrázkov. Tieto algoritmy sú založené na lineárnych a nelineárnych procesoch filtrovania obrazu, ktoré transformujú histogram intenzity.

Vyrovnanie osvetlenia obrázkov. Niektoré oblasti obrázka sú často príliš tmavé na to, aby ich bolo možné vidieť. Ak pridáte jas celému obrázku, pôvodne svetlé oblasti môžu byť preexponované. Na zlepšenie vzhľadu obrazu v takýchto prípadoch sa používa metóda vyrovnávania osvetlenia.

Osvetlenie sa v priestore mení pomerne pomaly a možno ho považovať za nízkofrekvenčný signál. Samotný obraz možno v priemere považovať za signál vyššej frekvencie. Ak by sa v priebehu fotografovania tieto signály pridali, potom by sa dali oddeliť pomocou bežných filtrov. Na skutočnej fotografii však získame produkt obrazu, ktorý chceme vidieť, a mapu ožiarenia. A keďže sa tieto signály nesčítavajú, ale násobia, nezrovnalostí v osvetlení sa nebude dať zbaviť jednoduchým filtrovaním.

Na vyriešenie takýchto problémov sa používa homomorfné spracovanie. Myšlienkou spracovania je zredukovať nelineárny problém na lineárny. Napríklad problém delenia vynásobených signálov možno zredukovať na problém delenia vynásobených signálov. Aby ste to dosiahli, musíte zobrať logaritmus súčinu obrázkov, ktorý sa bude rovnať súčtu logaritmov faktorov. V tomto prípade je problém delenia súčinu signálov redukovaný na problém delenia súčtu LF a HF signálov a je riešený pomocou HF filtra, ktorý odstraňuje nízke frekvencie zo súčtu signálov. Zostáva zobrať exponent z prijatého signálu, aby sa vrátil do pôvodnej amplitúdovej stupnice.

RF filter môže byť implementovaný nasledovne. Najprv sa na obrázok aplikuje operácia rozmazania (dolnopriepustný filter) a potom sa rozmazaný odpočíta od pôvodného obrázka. Najlepší polomer rozostrenia závisí od konkrétneho obrázka. Môžete začať experimentovať s polomerom približne desať pixelov.

Zvyčajne sa na rozostrenie obrazu používa dvojrozmerný Gaussov filter, ktorý má tvar h (x, y) = A exp (- (x 2 + y 2) / 2 2). Tu je A normalizačná konštanta (súčet všetkých koeficientov filtra sa musí rovnať 1), σ je „šírka“ filtra, ktorá riadi stupeň rozmazania.

Priamy výpočet 2D konvolúcie s takýmto jadrom je výpočtovo náročný aj pri relatívne malej veľkosti jadra. Ekvivalentný efekt však možno dosiahnuť tak, že sa najprv vyfiltrujú riadky obrazu jednorozmerným Gaussiánom a potom stĺpce výsledného obrazu. Efekt dosiahnutý vyrovnaním osvetlenia môže byť príliš silný (tmavé oblasti budú mať rovnaký jas ako svetlé). Na zníženie efektu môžete jednoducho zmiešať spracovaný obrázok s originálom v určitom pomere.

Zlepšenie priestorového rozlíšenia ... Interpretácia obrázkov úzko súvisí s kvalitou podania jemných, neskreslených detailov. V tomto prípade je potrebné, aby s nárastom fragmentov nedochádzalo k zhoršeniu rozlíšenia obrazu pri vykonávaní matematických operácií 2D interpolácie funkcie priestorového rozloženia intenzity pixelov v riadkoch a stĺpcoch matice obrazu. Dôležitým faktorom pri identifikácii objektov je aj lokalizácia a zobrazenie plôch s rovnakým jasom alebo farebnosťou, aj keď tieto plochy majú veľkosť niekoľkých pixelov.

Jasnosť obrázkov v profesionálnych programoch sa spravidla opravuje určením optimálnych hodnôt jasu a kontrastu výberom vhodných možností:

A) "hodnoty" - miera vplyvu vplyvu na ostrosť obrazu;

B) "polomer" - hrúbka obrysu ostrosti;

C) "prah diskriminácie" - definovanie obrysov objektov nastavením rozdielu v hodnotách intenzity susedných pixelov, dostatočné na to, aby program zvýšil kontrast medzi nimi.

Niektoré programy obsahujú automatické nastavenie optimálneho pomeru kontrastu a jasu pri zachovaní požadovanej čistoty obrazu.

Pri spracovaní obrazu zohrávajú dôležitú úlohu algoritmy filtrovania hodnotenia, ktoré umožňujú eliminovať „rozostrovanie“ detailov (na zlepšenie ich zaostrenia) výberom dvojrozmernej masky n × n pixelov, ktorá vykonáva operáciu hodnotenia pixelov. hodnoty intenzity v rámci špecifikovanej masky a priradenie hodnoty rovnajúcej sa maximálnej hodnote centrálnemu pixelu podľa hodnotenia. Hodnotený typ zahŕňa aj procedúru mediánového filtrovania, ktorá eliminuje nekorelované náhodné signály a impulzný šum v obraze bez „rozmazania“ ostrých zmien jasu na hraniciach objektov.

Informatívne využitie lineárneho filtrovania je spôsobené jeho schopnosťou korigovať rôzne typy skreslení vznikajúcich v dôsledku nedokonalosti zariadení, ktoré tvoria obraz. Pomocou lineárnej filtrácie je možné znížiť vplyv fluktuačného šumu a iných defektov na reprodukované snímky v režime zvyšovania kontrastu málo kontrastných detailov so zväčšením mierky záujmových oblastí.

Korekcia apertúrneho skreslenia obrazov pri absencii šumovej zložky signálu sa vykonáva inverznou filtráciou (dekonvolúcia). Treba si však uvedomiť, že dekonvolučné filtre majú zosilnenie rozptylu šumu väčšie ako 1 a namiesto zlepšenia obrazu sa môže zvýšiť šum.

Za sľubné sa považujú nelineárne metódy filtrovania založené na frekvenčných maskách, ktoré umožňujú znížiť vplyv nízkofrekvenčných zložiek obrazového signálu a zosilniť vplyv vysokofrekvenčných zložiek, čo zvyšuje priestorové rozlíšenie detailov popísaných v spektre obrazu o vyššiu priestorovú frekvencie.

^ 18.2. URČOVANIE HRANIC OBJEKTOV V OBRAZE

Z hľadiska rozpoznávania a analýzy objektov na obrázku nie sú najinformatívnejšie hodnoty jasu objektov, ale charakteristiky ich hraníc - obrysy. Inými slovami, hlavná informácia nespočíva v jase jednotlivých oblastí, ale v ich obrysoch. Úlohou zvýraznenia kontúr je vybudovať obraz presnej hranice objektov a obrysy homogénnych oblastí.

Okraj objektu na fotografii sa zvyčajne zobrazuje ako rozdiel v jase medzi dvoma relatívne jednotnými oblasťami. Ale rozdiel v jase môže byť spôsobený aj textúrou objektu, tieňmi, svetlami, zmenami osvetlenia atď.

Obrysom obrazu budeme nazývať súbor jeho pixelov, v blízkosti ktorých je pozorovaná prudká zmena funkcie jasu. Keďže pri digitálnom spracovaní je obraz prezentovaný ako funkcia celočíselných argumentov, obrysy sú reprezentované čiarami širokými aspoň jeden pixel. Ak pôvodný obrázok okrem oblastí s konštantným jasom obsahuje oblasti s plynule sa meniacim jasom, potom nie je zaručená kontinuita obrysových čiar. Na druhej strane, ak je na obrázku „po častiach konštantný“ šum, potom sa v bodoch, ktoré nie sú hranicami regiónu, môžu nachádzať „extra“ obrysy.

Pri vývoji algoritmov na výber obrysov je potrebné vziať do úvahy špecifikované vlastnosti správania obrysových čiar. Špeciálne dodatočné spracovanie vybraných obrysov umožňuje eliminovať medzery a potlačiť falošné obrysové čiary.

Postup konštrukcie binárneho obrazu hraníc objektov zvyčajne pozostáva z dvoch po sebe idúcich operácií: výber obrysov a ich prahovanie.

Pôvodný obraz je podrobený lineárnemu alebo nelineárnemu spracovaniu s reakciou na zmeny jasu. V dôsledku tejto operácie sa vytvorí obraz, ktorého funkcia jasu sa výrazne líši od nuly iba v oblastiach prudkých zmien jasu obrazu. Prahovanie tvorí obrysový objekt z tohto obrázku. Výber prahu v druhej fáze by mal vychádzať z nasledujúcich úvah. Ak je prah príliš vysoký, môžu sa objaviť zlomy okrajov a malé rozdiely v jase sa nezistia. Ak je prah príliš nízky, môžu sa objaviť falošné obrysy v dôsledku hluku a nerovnomernosti plôch.

Nájdite hranice na základe gradientu. Jedným z najjednoduchších spôsobov, ako izolovať hranice, je priestorová diferenciácia funkcie jasu. Pre dvojrozmernú jasovú funkciu A (x, y) sú rozdiely v smeroch x a y zaznamenané parciálnymi deriváciami A (x, y) / x a A (x, y) / y, ktoré sú úmerné rýchlosť zmeny jasu v zodpovedajúcich smeroch.

Ryža. 18.2.1.


Izolácia rozdielov jasu je znázornená na obr. 18.2.1. Je vidieť, že podčiarknutie obrysov kolmých na os x je zabezpečené deriváciou A (x, y) / x (obr. B) a podčiarknutie obrysov kolmých na os y zabezpečuje A (x, y) / y (obr....v).

V praktických úlohách je potrebné zvoliť obrysy, ktorých smer je ľubovoľný. Na tieto účely môžete použiť prechodový modul funkcie jasu

| A (x, y) | = ,

Čo je úmerné maximálnej (v smere) rýchlosti zmeny funkcie jasu v danom bode a nezávisí od smeru obrysu. Modul gradientu na rozdiel od parciálnych derivácií nadobúda len nezáporné hodnoty, preto vo výslednom obraze (obr. D) majú body zodpovedajúce obrysom zvýšenú úroveň jasu.

Pre digitálne obrázky sú analógy parciálnych derivácií a modul gradientu rozdielové funkcie.

Praktický príklad detekcie hraníc na fotografickom obrázku je na obr. 18.2.2. Pôvodný obrázok (1) je monochromatický. Obrázok (2) ukazuje výsledok výpočtu vektora gradientu jasu Аx, y) = (A / x, A / y). Ako môžete vidieť na obrázku, v miestach veľkého rozdielu jasu má gradient dlhú dĺžku. Odfiltrovaním pixelov s dĺžkou gradientu väčšou ako určitá prahová hodnota  získame obraz hraníc (3).



Ryža. 18.2.2.
Nevýhodou algoritmu je preskočenie okraja s malými rozdielmi v jase a zahrnutie okrajov detailov obrazu s veľkými zmenami jasu (koža chipmunka). Keď je obraz zašumený, mapa hraničných bodov bude znečistená a iba šum, pretože sa neberie do úvahy, že hraničné body zodpovedajú nielen rozdielom jasu, ale rozdielom jasu medzi relatívne monotónnymi oblasťami.

Na zníženie vplyvu tejto nevýhody sa obraz najskôr podrobí Gaussovmu vyhladzovaciemu filtrovaniu. S antialiasingovým filtrovaním sú malé nepodstatné detaily rozmazané rýchlejšie ako rozdiely medzi oblasťami. Výsledok operácie je možné vidieť na obrázku (4). V tomto prípade sa však jasne definované hranice rozmazávajú do tučných čiar.

Gradient jasu v každom bode je charakterizovaný dĺžkou a smerom. Vyššie sa pri hľadaní hraničných bodov použila iba dĺžka vektora. Smer gradientu je smer maximálneho nárastu funkcie, čo vám umožňuje použiť procedúru nemaximálneho potlačenia. Pri tomto postupe sa pre každý bod uvažuje segment s dĺžkou niekoľkých pixelov, orientovaný v smere gradientu a so stredom v uvažovanom pixeli. Pixel sa považuje za maximálny vtedy a len vtedy, ak je dĺžka gradientu v ňom maximálna spomedzi všetkých dĺžok gradientov pixelov v segmente. Všetky maximálne pixely s dĺžkou gradientu väčšou ako určitá prahová hodnota možno rozpoznať ako hraničné. Gradient jasu v každom bode je kolmý na hranicu, takže po potlačení nemaxím nezostanú žiadne tučné čiary. V každej kolmej časti tučnej čiary zostane jeden pixel s maximálnou dĺžkou gradientu.

Kolmosť gradientu jasu k okraju sa môže použiť na sledovanie okraja od niektorého pixelu okraja. Toto sledovanie sa používa pri filtrovaní maximálnej hysterézie pixelov. Myšlienka hysterézneho filtrovania spočíva v tom, že dlhý stabilný okrajový obrys s najväčšou pravdepodobnosťou obsahuje pixely s obzvlášť veľkým rozdielom jasu a počnúc takýmto pixelom možno obrys sledovať cez okrajové pixely s menším rozdielom jasu.


Ryža. 18.2.3.
Pri vykonávaní hysterézneho filtrovania sa nezavádza jedna, ale dve prahové hodnoty. Menší () zodpovedá minimálnej dĺžke prechodu, pri ktorej možno pixel rozpoznať ako hraničný pixel. Väčšie () zodpovedá minimálnej dĺžke prechodu, pri ktorej môže pixel inicializovať cestu. Po inicializácii obrysu na maximálny pixel P s dĺžkou gradientu väčšou ako  sa berie do úvahy každý maximálny pixel susediaci s ním Q... Ak je pixel Q má dĺžku gradientu väčšiu ako  a uhol medzi vektormi PQ a  ( P) sa blíži k 90 o P sa pridá do obrysu a proces rekurzívne preskočí na Q. Jeho výsledok pre pôvodný obrázok na obr. 18.2.2 je znázornené na obr. 18.2.3.

Algoritmus na nájdenie hraníc na základe gradientu teda spočíva v postupnej aplikácii nasledujúcich operácií:

Gaussovo vyhladzovacie filtrovanie;

Nájdenie gradientu jasu v každom pixeli;

Nájdenie maximálneho počtu pixelov;

Filtrovanie maximálnej hysterézie pixelov.

Tento algoritmus sa nazýva Cannyho algoritmus a najčastejšie sa používa na hľadanie hraníc.

Hľadanie hraníc na základe laplacianu. Je známe, že nevyhnutnou a postačujúcou podmienkou pre extrémnu hodnotu prvej derivácie funkcie v ľubovoľnom bode je rovnosť druhej derivácie s nulou v tomto bode a druhá derivácia musí mať opačné znamienka na opačných stranách funkcie. bod.

V dvojrozmernej verzii je analógom druhej derivácie Laplacián - skalárny operátor   f) = (2 f / x + 2 f / y).


Ryža. 18.2.3.
Nájdenie hraníc v obraze pomocou Laplaciána sa dá urobiť analogicky s jednorozmerným prípadom: hraničné body sú body, v ktorých sa Laplacián rovná nule a okolo ktorých má rôzne znamienka. Odhadu Laplaciána pomocou lineárneho filtrovania tiež predchádza Gaussovské vyhladzovacie filtrovanie, aby sa znížila citlivosť algoritmu na šum. Gaussovské vyhladzovanie a Laplaciánske vyhľadávanie je možné vykonávať súčasne, takže nájdenie hraníc pomocou tohto filtra je rýchlejšie ako pomocou Cannyho algoritmu. Filter sa používa v systémoch, kde je dôležitá kvalita výsledku (zvyčajne nižšia ako pri Cannyho algoritme) a výkon. Pre zníženie citlivosti na nepodstatné detaily môžete z počtu hraničných bodov vylúčiť aj tie, ktorých dĺžka gradientu je menšia ako určitá prahová hodnota (obr. 18.2.3).

^ 18.3. IZOLOVANIE OBJEKTOV V OBRAZE

Pri práci s obrázkom je často potrebné oddeliť jednu pre používateľa zmysluplnú časť (objekt) od všetkého ostatného (pozadie). Napríklad na lekárskych snímkach je určitý objekt zvýraznený na meranie jeho parametrov. Algoritmy na riešenie tohto problému sú interaktívne, pretože iba používateľ môže určiť, čo je objektom záujmu a aké je pozadie.

V zásade možno úlohu vyriešiť najjednoduchším spôsobom - používateľ jednoducho sleduje objekt pomocou kurzora myši, ale pre zložité objekty to bude vyžadovať značné úsilie a čas.

Algoritmus magickej paličky (Magic wand) bol jedným z prvých interaktívnych segmentačných algoritmov. Používateľ postupne špecifikuje body objektu a algoritmus vyberie okolité pixely s podobnou farbou a (podľa uváženia používateľa) pridá vybranú oblasť k objektu. Na posúdenie „podobnosti“ používateľ nastaví maticu prahových hodnôt pre citlivosť vzdialenosti medzi farbami. Čím je väčšia, tým viac pixelov vynikne v jednom kroku. V tomto prípade sú do oblasti „podobných“ farieb priradené iba pripojené pixely.

Algoritmus funguje dobre pri výbere objektov, ktoré majú dosť monotónnu farbu. Pri výrazných farebných variáciách nie je možné pomocou tohto algoritmu presne oddeliť objekt od pozadia. Ak je prah citlivosti príliš nízky, významná časť objektu nemusí vyniknúť. Zvýšenie prahu spôsobí, že výber „vytečie“ z objektu. V prípade pestrého objektu alebo rozmazanej hranice medzi pozadím a objektom je algoritmus takmer bezmocný.

Algoritmus inteligentných nožníc používa sa od roku 1996, získal si popularitu a bol zabudovaný do bežného editora fotografií Adobe Photoshop. Pri použití algoritmu používateľ nakreslí hranicu medzi objektom a pozadím, pričom označuje body na hranici s určitou medzerou a „inteligentné nožnice“ nakreslia hraničnú čiaru medzi po sebe nasledujúcimi špecifikovanými bodmi.


Ryža. 18.3.1.
Predstavme si raster obrázku vo forme grafu (obr. 18.3.1) s okrajmi tvorenými stranami pixelov. Keď používateľ určí dva po sebe idúce body P a Q, algoritmus „nožnice“ vypočíta minimálnu vzdialenosť medzi bodmi P a Q pozdĺž okrajov grafu, zatiaľ čo podmienená geometrická dĺžka každého okraja pozdĺž tejto cesty má inverzný vzťah k farbe. rozdiel pixelov po jej stranách. Keďže okraje zodpovedajúce ostrým zmenám farby budú mať kratšiu podmienenú dĺžku, "inteligentné nožnice" majú tendenciu kresliť okraj pozdĺž takýchto okrajov.

„Inteligentné nožnice“ výrazne urýchľujú proces výberu objektu. Nefungujú však veľmi dobre v prítomnosti pestrého pozadia a / alebo pestrého objektu. V takýchto prípadoch je potrebných viac koncových bodov.

Segmentácia pomocou grafových rezov. Tretí spôsob zvýraznenia objektu na pozadí je tiež založený na teórii grafov. Používateľ jednoducho označí určitú množinu A pixelov patriacich objektu a nejakú množinu B pixelov patriacich pozadiu. Keďže tieto pixely nemusia byť blízko okraja, takéto označenie nevyžaduje zo strany používateľa veľké úsilie. Výsledkom algoritmu je segmentácia, pri ktorej celá množina A patrí objektu a množina B pozadiu.

Ak výsledok výberu používateľa prvýkrát neuspokojí, pridá pixely k pôvodným súborom a pridá ich do obrázka. Napríklad, ak algoritmus omylom priradil časť objektu k pozadiu, používateľ označí niektoré pixely tohto dielu ako pixely objektu (sada A). Výsledkom opätovného spustenia algoritmu je prepracovaná segmentácia.

Pozrime sa, ako funguje algoritmus. Zostrojme graf na rastri nasledovne. Vrcholy pixelov grafu umiestnime do stredu každého pixelu a farbou vrcholov rozumieme farbu pixelu. Každý vrchol spojíme so susednými vrcholmi a získame osem hrán, ktoré spájajú stredy susedných pixelov. Ku každej hrane pridáme váhu:

( / L) exp (-  (C 2, C 2)),

Kde L je geometrická dĺžka hrany, C 1 a C 2 sú farby vrcholov spojených hranou, λ a σ sú niektoré (kladné) parametre,  (..) je matica citlivosti farebného rozdielu. Čím väčší je rozdiel medzi farbami vrcholov, tým je táto váha menšia.

Pridajme do grafu dva koncové vrcholy, nazývané zdroj a odtok, a spojme ich hranami ku každému vrcholu grafu. Hranám spájajúcim zdroj s vrcholmi množiny A a hranám spájajúcim umývadlo s vrcholmi množiny B priraďujeme nekonečnú váhu.

Zvážte rozloženie farieb vrcholov množiny A (napríklad ako histogram). Pre všetky vrcholy pixelov, ktoré nie sú z množiny A, priradíme hranám spájajúcim ich so zdrojom váhu úmernú konzistencii ich farby s týmto rozložením farieb, pričom hmotnosť hrany bude tým väčšia, čím väčšia bude farba vrchol je "podobný" farbám vrcholov množiny A. Podobne sa postupuje aj pri množine B a okrajoch spájajúcich vrcholy pixelov s odtokom.

Všetky okraje grafu "rozrežeme" na dve disjunktné množiny - zdroj a zásobu a budeme predpokladať, že vrcholy, ktoré spadajú do zdrojovej množiny, zodpovedajú pixelom objektu a ostatné, ktoré spadajú do množina zásob, zodpovedajú pixelom pozadia. Počet možných variantov rezov sa rovná 2 P, kde P je počet pixelov, keďže každý pixelový vrchol môže byť priradený buď k zdroju alebo k odtokovej sade.


Ryža. 18.3.2.
Hmotnosť rezu je súčet hmotností všetkých rezaných hrán, okrem hrán s nekonečnou hmotnosťou. Minimálny rez je rez s minimálnou hmotnosťou, pričom zdrojové pixely tohto rezu budú priradené k pixelom objektu a základné pixely - k pozadiu. Hranica medzi objektom a pozadím bude nakreslená, ak je to možné, medzi pixelmi s veľmi odlišnými farbami.

Prirodzene, ideálne oddelenie nemôže existovať. Napríklad oblasť obrázka môže mať podobnú farbu ako pozadie (pixely zo sady B), ale obklopená pixelmi zo sady A a nie je od nich oddelená ostrým okrajom. V takýchto prípadoch výber parametra λ vo vzorci hmotnosti hrany vytvorí rovnováhu medzi poslednými dvoma bodmi. So zvyšujúcou sa hodnotou λ sa zvyšuje dôležitosť hranice medzi pozadím a objektom prechádzajúcim medzi pixelmi s rôznymi farbami a so znižovaním hodnoty λ sa zvyšuje dôležitosť skutočnosti, že pixely sú farebne podobné pixelom množiny A ( alebo B) sú priradené k objektu (pozadie). Príklad výberu objektu je na obr. 18.3.2.

^ 18.4. Izolácia vlastností objektov

Extrakcia funkcií umožňuje zjednodušiť implementáciu rozpoznávania alebo identifikácie objektov. Pri výbere čo najinformatívnejších vlastností je potrebné brať do úvahy ako vlastnosti samotných objektov, tak aj rozlišovacie schopnosti primárnych tvarovačov obrazového signálu. Výber funkcií vykonáme na príklade spracovania monochromatických (jednovrstvových) obrázkov. Vo farebných obrázkoch možno uvažované algoritmy aplikovať na každú farbu samostatne.

Počas spracovania sa uprednostňujú tieto vlastnosti objektov:

- plocha a obvod obrazu objektu;

- veľkosti vpísaných najjednoduchších geometrických útvarov (kruhy, obdĺžniky, trojuholníky atď.);

- počet a vzájomná poloha rohov;

- momenty zotrvačnosti obrazov predmetov.

Dôležitým znakom väčšiny geometrických znakov je invariantnosť vzhľadom na rotáciu obrazu objektu a normalizáciou geometrických znakov voči sebe navzájom sa dosiahne nemennosť vzhľadom na mierku obrazu objektu.

Určenie plochy a obvodu. Plocha obrázka objektu sa vypočíta spočítaním počtu prvkov súvisiacich s objektom:

A = S (x, y), S (x, y) =,

Kde L je množina súradníc poľa S (x, y) patriace vybranému objektu.

Obvod obrazu objektu P sa vypočíta po výbere hraníc objektu sčítaním množstva obrysových bodov obrazu objektu.

Na základe vybratých znakov normalizovaný znak invariantný k mierke obrazu U = A / P 2 alebo V = P /.

Určenie polomerov vpísaných a opísaných kružníc (obr. 18.4.1) pozostáva z dvoch etáp.


Ryža. 18.4.1.
1. Určenie súradníc geometrického stredu obrazu objektu:

X q = xS (x, y) / S (x, y), Y q = yS (x, y) / S (x, y),

Kde X a r- počet riadkov a stĺpcov všetkých pixelov S (x, y) obsiahnutých v objekte.

2. Výpočet minimálnej a maximálnej vzdialenosti od stredu k hraniciam obrazu objektu.

R (x, y) = .

Rmax = r (x, y max); R min = r (x, y min), kde x, y  P (obvodové body).

Normalizovaná vlastnosť R ′ = R max ⁄ R min je invariantná k mierke obrazu objektu.


Ryža. 18.4.2.
Určenie strán opísaného obdĺžnika (obr. 18.4.2) sa vykonáva nasledovne. Stanovia sa maximálne a minimálne hodnoty úsečiek a súradníc obrázka objektu x max a x min, y max a y min, po ktorých sa určí výška a základňa obdĺžnika:

L = x max - x min, H = y max - y min.

Táto funkcia nie je invariantná k rotácii obrazu objektu.

Určenie počtu a relatívnej polohy rohov. Klasickým spôsobom určenia rohových bodov na obrázku objektu je analýza malého fragmentu obrysu v blízkosti daného bodu a určenie polomeru jeho zakrivenia. Ak je polomer menší ako prah, ide o rohový prvok, inak nie.


Ryža. 18.4.3.
Z praktického hľadiska sa zdá byť vhodnejší jednoduchší algoritmus. Spočíva v odhade vzdialeností medzi začiatočným a koncovým bodom fragmentu obrysu, napríklad medzi prvkami obrysu s poradovými číslami k - 2 a k + 2 na obr. 18.4.3.

Nech x (k) a y (k) sú os a y (os) prvkov obrysu. Potom môže rozhodovacie pravidlo vyzerať takto:

(| x (k-2) −x (k + 2) | + | y ​​​​(k − 2) −y (k + 2) | ≤H).

Ak je podmienka splnená, potom daný bod obrysu patrí do množiny rohových bodov L. Tu je H prahová hodnota zvolená s prihliadnutím na vlastnosti objektov.

Určenie momentov zotrvačnosti objektu. Pojem "momenty zotrvačnosti obrazu objektu" nesúvisí s mechanikou. Jednoducho na výpočet naznačeného znaku sa používajú matematické výrazy, podobne ako pri výpočte momentov zotrvačnosti hmotného telesa, kde sa namiesto hodnôt hmotností jednotlivých bodov telesa uvádzajú hodnoty osvetlenia pri zodpovedajúce body jeho obrazu sú nahradené. Momenty zotrvačnosti sú informačnými znakmi pre následné rozpoznanie vzoru.



Ryža. 18.4.4.
Označme hlavné požadované momenty zotrvačnosti obrazu objektu cez J 1 a J 2. Na nájdenie J 1 a J 2 je potrebné najskôr určiť takzvané medzimomenty J x a J y, t.j. momenty zotrvačnosti okolo vertikálnej a horizontálnej osi súradnicového systému, ako aj zmiešaný moment J x, y (obr. 18.4.4a).

Poradie výpočtu:

1. Určia sa súradnice ťažiska (centra energie) obrazu objektu.

Xtse = xA (x, y) / A (x, y), Ytse = yA (x, y) / A (x, y),

2. Určujú sa medzimomenty J x, J y, J x, y.

J x = [(x- X tse) 2 A (x, y)], Y x = [(y- Y tse) 2 A (x, y)],

J xy = [(x- Xtse) (y- Ytse) A (x, y)].

3. Vypočítajú sa hlavné body.

J1,2= .

^ 18.5. detekcia a rozpoznávanie objektov IMAGES

Detekcia objektov. Detekciu (identifikáciu) obrazov objektov v obraze skreslenom šumom a interferenciou možno definovať ako postup kontroly určitej podmienky na porovnanie dvoch čísel - výsledku transformácie analyzovaného obrazu a určitej prahovej hodnoty:

L ≥ P. (18.5.1)

Tu L [.] je operátor transformácie pôvodného obrazu, P [.] je operátor tvorby prahovej hodnoty. Rozhodnutie o dostupnosti objektu sa prijíma, ak je splnená podmienka. Kvalita detekcie je charakterizovaná pravdepodobnosťou splnenia podmienky v prítomnosti objektu na analyzovanom obrázku.

Konkrétny typ operátorov L [.], P [.] A kvalita detekcie závisí od dostupnosti apriórnych informácií o očakávaných objektoch, šume, interferenciách a skresleniach. Základom pre stanovenie optimálnych parametrov operátorov je teória štatistických riešení.

Takže napríklad pri výbere bodových objektov je tvar obrazu objektu jednoznačne určený funkciou šošovkového rozptylového bodu, ktorý možno považovať za známy, a problém sa redukuje na klasický postup detekcie signálu známeho tvar na pozadí aditívneho normálneho hluku s nulovou strednou hodnotou. V tomto prípade sú operátormi transformácie korelačné integrály vypočítané pomocou daného popisu známeho obrazu objektu a typického šumu, v tomto poradí. Identifikácia spočíva v porovnaní obrazu predmetu so štandardmi danej triedy. O objekte rozhoduje najlepšia zhoda.

Metóda priameho porovnávania objektu s referenčným obrázkom. Nech S (x, y) - pôvodný obrázok objektu, F (x, y) - referenčný obrázok. Algoritmus priameho porovnania je nasledujúci:

T = (S (x, y) - F (x, y)) 2 ≤ D, (18.5.2)

Kde D je prahová hodnota rozdielu.

Metóda je jednoduchá a dá sa ľahko implementovať. V prítomnosti destabilizujúcich faktorov v reálnych podmienkach je však spoľahlivosť metódy nízka. Pri väčšej hodnote prahu D môže byť podmienka (18.5.2) splnená rôznymi objektmi a môžu nastať chyby spojené s nesprávnou identifikáciou objektu (chyby prvého druhu). Keď sa D znižuje, môžu sa vyskytnúť chyby, ako napríklad chýbajúci objekt (chyby druhého druhu). Úpravou hodnoty D je možné zmeniť iba pomer medzi pravdepodobnosťami výskytu chýb prvého a druhého druhu v súlade s daným kritériom optimality.

Korelačná metóda na základe výpočtu vzájomnej korelácie medzi objektmi a štandardmi. Z množiny k alternatívnych možností sa vyberie objekt (alebo štandard), pri ktorom sa získa maximálny súčet vzájomnej korelácie:

K (k) = Sk (x, y) Fk (x, y). (18.5.3)

Pri identifikácii objektov je vhodné použiť korelačné koeficienty, ktoré v prvej aproximácii dávajú aj odhad pravdepodobnosti odkazovania objektu na daný štandard:

R (k) = K (k) / K max (k), K max (k) = F k 2 (x, y), (18.5.3)

Kde K max (k) - autokorelačné hodnoty noriem.

Korelačná metóda je spoľahlivejšia, ale vyžaduje oveľa viac výpočtov. Ale pri spracovaní binárnych obrázkov to nie je také dôležité, pretože násobenie jednobitových čísel je zredukované na jednoduchú logickú operáciu "AND".

Vyššie uvedené metódy vyžadujú rovnakú orientáciu obrazov objektu a referencie, ich zarovnanie v priestorových súradniciach a zachovanie rovnakých mierok.

Metódy rozpoznávania založené na systéme prvkov využívajú aj štandardy objektov, ale ako prvky porovnávania sú použité vlastnosti objektu a štandardu, čo umožňuje znížiť množstvo referenčných údajov a čas spracovania informácií. Treba však mať na pamäti, že v praxi sa výber vlastností objektov vždy vykonáva s určitou chybou, a preto je potrebné identifikovať a vziať do úvahy povahu a mieru možného rozptylu odhadov. vlastnosti používané pre každý z očakávaných objektov, tzn použiť histogramy rozdelenia hodnôt vlastností.

Pri veľkom počte možných variantov objektov sa odporúča viacstupňový (hierarchický) algoritmus. V tomto prípade sa v každom štádiu rozpoznávania využíva ľubovoľná charakteristika objektu (plocha, obvod, polomery vpísaných a opísaných kružníc, momenty zotrvačnosti, počet a umiestnenie rohov atď.). Na nižších úrovniach sa používajú vlastnosti, ktoré nevyžadujú veľké výpočtové náklady (napríklad plochy a obvody objektov), ​​a tie najinformatívnejšie (napríklad momenty zotrvačnosti) sa používajú na vyššej úrovni, kde je počet alternatív je minimálny.

A. V. Davydov.

literatúre

46. ​​Huang T.S. a ďalšie rýchle algoritmy v digitálnom spracovaní obrazu. - M .: Rádio a komunikácia, 1984 .-- 224 s.

47. Soifer V.A. Počítačové spracovanie obrazu. Časť 2. Metódy a algoritmy. - Sorosov vzdelávací časopis číslo 3, 1996.

48. Apalkov I.V., Chryashchev V.V. Odstránenie šumu z obrázkov na základe nelineárnych algoritmov pomocou štatistiky hodnotenia. - Jaroslavľská štátna univerzita, 2007.

49. Andreev A.L. Automatizované televízne monitorovacie systémy. Časť II. Aritmetické a logické základy a algoritmy. Návod. - SPb: SPb, GUITMO, 2005 .-- 88s.

50. Rosenfeld L.G. a iné.Možnosti následného spracovania diagnostických CT a MRI snímok na osobnom počítači. - Ukrajinský lekársky chasopis - № 6 (56) - XI / XII, 2006.

51. Lukin A. Úvod do číslicového spracovania signálov (matematické základy) .- M .: Moskovská štátna univerzita, laboratórium

Ako téma výskumu umelej inteligencie má rozpoznávanie obrazu dlhú históriu a veľkú praktickú hodnotu. Prvýkrát sa používal na strojové čítanie ručne písaných čísel. V súčasnosti sa rozsah jeho použitia výrazne rozšíril: od merania, kontroly, triedenia a montáže vo výrobných procesoch až po analýzu snímok čítaných na diaľku, diagnostiku z medicínskych snímok, kvantitatívne hodnotenie experimentálnych dát, identifikáciu ľudí, automatický dizajn, porozumenie obrázky ako funkcia.technické videnie robotov a pod. Proces rozpoznávania ľudského obrazu nie je jednoduchým spracovaním vizuálnych informácií, ale zložitým procesom, v ktorom zohrávajú dôležitú úlohu psychologické faktory. Najmä v procese porozumenia obrazu existuje sémantická inferencia, ale jej implementácia si vyžaduje zhromaždenie rozsiahlych znalostí a intuitívnych riešení, ktoré presahujú logiku, a preto je mimoriadne ťažké simulovať takýto proces v počítači.

Existujúce nástroje na rozpoznávanie obrázkov používajú rôzne metódy v závislosti od toho, či je rozpoznávaný objekt umelý alebo prirodzený. V prvom prípade sa väčšinou zaoberajú samostatnými objektmi prehľadnej formy, preto veľké množstvo štúdií

sa zameriava na porovnávanie vzorov zisťovaním obrysov a hraníc alebo kreslením trojrozmerného tvaru pomocou geometrických pravidiel. Medzi prírodnými objektmi je veľa objektov nepravidelného tvaru so svetlom a odtieňmi, preto sa pomocou zhlukovej analýzy zvyčajne rozdelia na homogénne oblasti a potom sa na základe vlastností tvarov týchto oblastí urobí záver o objekte. . Okrem toho sa v poslednom čase uskutočnilo množstvo výskumov v oblasti reprodukcie dvoj- a trojrozmerných foriem predmetov na základe spracovania veľkého množstva obrazov. V robotike je potrebné spracovávať pohyblivé obrázky v reálnom čase, to znamená, že rýchlosť rozpoznávania je veľmi dôležitá.

Vo všeobecnosti je proces rozpoznávania obrazu pomocou počítača nasledujúci.

1. Príjem informácií o obrázku pomocou fotoaparátu alebo iných prostriedkov a ich prevod na digitálne informácie: v dôsledku toho sú snímky rozdelené do veľkého počtu prvkov a ku každému prvku je priradená farba a kontrast.

2. Predspracovanie. Odstránenie šumu, normalizácia na porovnanie s referenciou, segmentácia (extrakcia miestnych informácií potrebných na rozpoznanie) atď.

3. Izolácia znakov. Atribúty obrázka môžu mať rôzne úrovne. Presne povedané, segmentácia je tiež súčasťou extrakcie funkcií. Metódy extrakcie prvkov môžu byť lokálne a globálne. Príkladmi lokálnej metódy sú detekcia hraníc, globálne zhlukovanie a metóda rozšírenia regiónu. Diskontinuity medzi oblasťami sa používajú na detekciu hraníc, zatiaľ čo zhlukovanie je segmentácia založená na detekcii homogénnych oblastí. Keďže v každom prípade informácie o obrázku obsahujú šum, ktorý nebol eliminovaný v štádiu predspracovania, pri segmentácii je potrebné spracovanie fuzzy informácií. Globálny výber prvkov sa vykonáva vo vzťahu k tvaru, vlastnostiam, relatívnej polohe a iným charakteristikám vybraných oblastí. Tento postup má veľký význam pre ďalšiu fázu hodnotenia.

4. Pochopenie a hodnotenie. Proces chápania obrazu

nazývajú buď klasifikácia a identifikácia porovnaním získaných zhlukov so známymi modelmi, alebo konštrukcia trojrozmerného obrazu pôvodného objektu pomocou inferencií. Výsledkom tohto procesu je konečný cieľ rozpoznávania obrazu.

V súčasnosti sa uskutočnilo obrovské množstvo štúdií procesu rozpoznávania obrazu, ale doterajšie výsledky sú mimoriadne neuspokojivé. Napríklad také otázky, ako je porozumenie zložitým obrazom, vzájomná transformácia verbálnej a obrazovej informácie, rozpoznávanie objektov krivočiarych a nepravidelných tvarov, rozpoznávanie rozmazaných obrazov, vysoko efektívna extrakcia znakov, sémantické vyvodzovanie a predstavivosť atď. .

Hlavnými metodologickými prístupmi, ktoré sa v súčasnosti používajú pri uznávaní, sú štatistika, zhluková analýza, dedukcia v dvojhodnotovej logike a množstvo ďalších, ale všetky sú veľmi vzdialené od procesu rozpoznávania, ktorý je človeku vlastný. Extrakcia prvkov je najdôležitejšou fázou rozpoznávania obrazu, ale je tiež mimoriadne náročná. Čo je vlastne obrazová funkcia? Prečo sa karikatúra viac podobá človeku ako fotografia? Zrejme dôležitú úlohu v procese ľudského rozpoznávania zohrávajú informácie, ktoré pre počítač nie sú ničím iným ako šumom, no sú akosi izolované a prezentované. Znaky tohto druhu je možné identifikovať podľa pocitov človeka a nie podľa logiky. Navyše, pri rozoznávaní neostrých obrázkov nefungujú analytické schopnosti, ale schopnosť zovšeobecňovať, t.j. je to tiež intuitívny proces. Na simuláciu takýchto procesov je potrebné študovať metódy spracovania subjektívnych informácií a techniky narábania s makroinformáciami. Výskum fuzzy rozpoznávania obrazu je len na začiatku, no už teraz očakávajú ďalší vývoj novej metodiky, ktorá spĺňa vyššie uvedené požiadavky.

Pozrime sa stručne na stav rozpoznávania fuzzy obrazu. Keďže obrazová informácia aj dostatočne čistého objektu môže byť rušená šumom, na detekciu hrán sa najčastejšie používa fuzzy logika. Typickým príkladom je klasifikácia

obrazových prvkov pomocou fuzzy zhlukovania. Keďže sú však absolútne identické prvky zriedkavé, je nevyhnutné „fuzzy“ zhlukovanie. Podobné metódy sa používajú na klasifikáciu obrázkov, ktoré sú rozptýlené vzhľadom na referenčný obrázok (rozpoznanie ručne písaných znakov, reči atď.).

Priama detekcia obrysov vyvoláva problém so šumom, ktorý nie je možné úplne vyriešiť pomocou filtrov. Okrem toho sú potrebné závery na doplnenie stratených miest. Na to slúžia heuristické pravidlá, ktoré však majú fuzzy kvalitatívny charakter. Pri prechode do štádia porozumenia obrazu vzniká problém efektívnejšieho fuzzy porovnávania obrazov, ktoré si na svoje riešenie vyžaduje zhodu nielen vo forme, ale aj v sémantike. Táto situácia sa vyvíja najmä v oblasti diagnostiky na základe röntgenových snímok, kde je vytvorenie pravidiel nemožné.

Nižšie sú uvedené niektoré typické príklady výskumu rozpoznávania obrázkov pomocou fuzzy logiky.