Analýza údajov v modernom svete. Charakteristiky údajov analýzy. Využitie nových poznatkov

  • 13.05.2019

Pri analýze informácií sa často stretnete s faktom, že teoretická brilantnosť analytických metód je rozbitá oproti realite. Koniec koncov, všetko sa zdá byť dávno rozhodnuté, je známych veľa metód na riešenie problémov analýzy. Prečo nepracujú dosť často?

Faktom je, že metódy, ktoré sú z hľadiska teórie bezchybné, nemajú s realitou veľa spoločného. Najčastejšie sa analytik stretáva so situáciou, keď je ťažké urobiť jasné predpoklady o skúmanom probléme. Model nie je známy a jediným zdrojom informácií pre jeho konštrukciu je tabuľka experimentálnych údajov typu "vstup - výstup", ktorej každý riadok obsahuje hodnoty vstupné charakteristiky objekt a zodpovedajúce hodnoty výstupných charakteristík.

V dôsledku toho sú nútení používať všetky druhy heuristických alebo expertných predpokladov o výbere informatívnych vlastností, o triede modelov ao parametroch zvoleného modelu. Tieto predpoklady analytika vychádzajú z jeho skúseností, intuície, chápania významu analyzovaného procesu. Závery získané týmto prístupom sú založené na jednoduchej, no zásadnej hypotéze o monotónnosti priestoru riešenia, ktorú možno vyjadriť nasledovne: „Podobné vstupné situácie vedú k podobným výstupným reakciám systému.“ Myšlienka na intuitívnej úrovni je dostatočne jasná a zvyčajne to stačí na získanie prakticky prijateľných riešení v každom konkrétnom prípade.

V dôsledku uplatňovania tohto spôsobu rozhodovania je akademická prísnosť obetovaná skutočnému stavu vecí. V skutočnosti to nie je nič nové. Ak sú niektoré prístupy k riešeniu problému v rozpore s realitou, potom sa zvyčajne menia. Vráťme sa k analýze údajov, alebo skôr k tomu, čo sa dnes nazýva Dolovanie dát, mali by ste venovať pozornosť ešte jednému bodu: proces získavania znalostí z údajov prebieha podľa rovnakej schémy ako zakladanie fyzikálne zákony: zber experimentálnych údajov, ich usporiadanie vo forme tabuliek a nájdenie takej schémy uvažovania, ktorá po prvé robí získané výsledky zrejmými a po druhé umožňuje predpovedať nové skutočnosti. Zároveň je jasné, že naše poznatky o analyzovanom procese, ako o každom fyzikálnom jave, sú do určitej miery aproximáciou. Vo všeobecnosti každý systém uvažovania o skutočnom svete predpokladá rôzne druhy aproximácií. V skutočnosti je termín dolovanie údajov pokusom o legitimizáciu fyzického prístupu, na rozdiel od matematického, k riešeniu problémov analýzy údajov. Čo rozumieme pod pojmom „fyzický prístup“?

Ide o prístup, pri ktorom je analytik pripravený na to, že analyzovaný proces môže byť príliš mätúci a nie je prístupný presnej analýze pomocou rigoróznych analytických metód. Ale stále môžete získať dobrá prezentácia o jeho správaní za rôznych okolností, pristupovaní k problému z rôznych uhlov pohľadu, vedený poznatkami predmetná oblasť skúsenosťami, intuíciou a využitím rôznych heuristických prístupov. Zároveň prechádzame od hrubého modelu k čoraz presnejším predstavám o analyzovanom procese. Mierne parafrázujúc R. Feynmana, povedzme si toto: v ideálnom prípade môžete študovať charakteristiky analyzovaného systému, len sa nemusíte hnať za presnosťou.

Všeobecná schéma práce v tomto prípade vyzerá nasledujúcim spôsobom:

Tento prístup teda znamená, že:

  1. Pri analýze musíte vychádzať zo skúseností odborníka.
  2. Je potrebné zvážiť problém pod rôzne uhly a kombinovať prístupy.
  3. Nemali by ste sa okamžite snažiť o vysokú presnosť. Je potrebné prejsť k riešeniu od jednoduchších a hrubších modelov k čoraz zložitejším a presnejším.
  4. Stojí za to zastaviť sa hneď, ako dosiahneme prijateľný výsledok, bez toho, aby sme sa snažili získať dokonalý model.
  5. S postupom času a hromadením nových informácií sa musí kolobeh opakovať – proces poznávania je nekonečný.

Príklad práce

Ako príklad môžeme načrtnúť proces analýzy trhu s nehnuteľnosťami v Moskve. Cieľom je posúdiť investičnú atraktivitu projektov. Jednou z riešených úloh v tomto prípade je konštrukcia cenového modelu bývania v novostavbách, inými slovami kvantitatívna závislosť ceny bývania od cenových faktorov. Pre typické bývanie sú to najmä:

  • umiestnenie domu (prestíž územia; infraštruktúra územia; hmotová alebo výplňová zástavba; okolie domu (napr. neželaná štvrť priemyselné podniky, "Chruščov", trhy atď.); ekológia územia (blízkosť lesoparkov)
  • Umiestnenie bytu (poschodie - prvé a posledné poschodie sú lacnejšie; sekcia - byty v koncových častiach lacnejšie; orientácia bytu na svetové strany - severná strana je lacnejšia; výhľad z okien).
  • Typ domu (najpopulárnejšia séria je P-44T).
  • Rozloha bytu.
  • Prítomnosť lodžií (balkónov)
  • Stupeň výstavby (čím bližšie k odovzdaniu domu, tým vyššia cena za m2).
  • Dostupnosť konečnej úpravy ("hrubá" úprava, čiastočná úprava, na kľúč. Väčšina novostavieb sa dodáva s hrubou úpravou).
  • Inštalácia telefónov v domácnosti.
  • Dopravné spojenie (blízkosť metra, vzdialenosť od hlavných ťahov, pohodlný prístup, prítomnosť parkoviska pri dome (dostupnosť parkovacích miest)).
  • Kto predáva byt ("z prvej ruky" (investor, developer) alebo sprostredkovatelia (realitných kancelárií). Realitných kancelárií, spravidla sa za svoje služby - 3-6%).

Toto nie je zďaleka úplný zoznam, ale je to tiež skľučujúce. Tu sa veľmi hodí tvrdenie R. Feynmana („charakteristiky analyzovaného systému si môžete ideálne naštudovať, len sa nemusíte hnať za presnosťou“). Na začiatok sme sa z dostupnej histórie predaja obmedzili na údaje pre jeden moskovský okres. Ako vstupné faktory sme zobrali obmedzený súbor charakteristík z pohľadu odborníkov, samozrejme ovplyvňujúcich predajnú cenu bývania: rad domu, povrchová úprava, poschodie (prvé, posledné, stredné), pripravenosť zariadenia, počet izieb, sekcia ( rohový, obyčajný), metráž. Výstupnou hodnotou bola cena za meter štvorcový v ktorej sa byty predávali. Výsledkom je veľmi prehľadná tabuľka s primeraným počtom vstupných faktorov.

Na základe týchto údajov bola trénovaná neurónová sieť, to znamená, že bol zostavený dosť hrubý model. Pri všetkej svojej približnosti mal jednu významnú výhodu: správne odrážal závislosť ceny od zohľadnených faktorov. Napríklad pri zachovaní všetkých ostatných vecí bol byt v rohovej časti lacnejší ako v bežnej časti a náklady na byty sa zvýšili, keď bol objekt pripravený. Teraz už zostávalo len vylepšiť, urobiť to úplnejšie a presnejšie.

V ďalšej fáze boli do tréningového súboru pridané záznamy o predaji v iných okresoch Moskvy. Preto sa ako vstupné faktory začali brať do úvahy také charakteristiky ako prestíž oblasti, ekológia oblasti a vzdialenosť od metra. K tréningovému setu pribudla aj cena za podobné bývanie na sekundárnom trhu. Odborníci so skúsenosťami na trhu s nehnuteľnosťami mali možnosť bezbolestne experimentovať v procese vylepšovania modelu, pridávania či vyraďovania faktorov, keďže, pripomínam, proces hľadania dokonalejšieho modelu sa zredukoval na trénovanie neurónovej siete na rôzne sadyúdajov. Hlavnou vecou je včas pochopiť, že tento proces je nekonečný.

Toto je podľa nášho názoru príklad pomerne efektívneho prístupu k analýze údajov: využitie skúseností a intuície špecialistu vo svojom odbore postupná aproximácia k čoraz presnejšiemu modelu analyzovaného procesu. Hlavnou požiadavkou v tomto prípade je dostupnosť kvalitných informácií v dostatočnom objeme, čo nie je možné bez automatizačného systému na zhromažďovanie a ukladanie informácií, čo by sa malo vždy pamätať pre tých, ktorí sa vážne zaoberajú. informačnú podporu podnikania. ale táto téma je nad rámec článku.

Výkon

Opísaný prístup umožňuje riešiť reálne problémy s prijateľnou kvalitou. Samozrejme, môžete nájsť veľa nevýhod tejto techniky, ale v skutočnosti skutočná alternatíva ona nie, okrem toho, že úplne opustí analýzu. Hoci, ak fyzici úspešne používali takéto metódy analýzy po mnoho storočí, prečo ich nezaviesť aj v iných oblastiach?

Analýza údajov je široký pojem. Samotný pojem „analýza“ k nám prišiel zo starovekého Grécka a znamená „rozmotať“, „oslobodiť“. V oblasti analýzy údajov existuje veľa definícií a všetky sú odlišné. Obráťme sa na Veľký ekonomický slovník (Inštitút novej ekonomiky. A.N. Azrilian, 1997):

Analýza údajov je smer štatistického výskumu vrátane súboru metód spracovania viacrozmerný systém pozorovacie údaje, charakterizované mnohými znakmi. Na rozdiel od klasickej matematiky štatistické metódy za predpokladu známeho pravdepodobnostného modelu generovania údajov metódy analýzy údajov využívajú len informácie v nich zaznamenané.

Vo všeobecnosti je definícia správna a presná. Pre podnikanie je však dôležitá aj iná súčasť tejto analýzy. Definícia slovnej zásoby hovorí len o spracovaní údajov, no pre žiadneho manažéra alebo vrcholového manažéra nie je dôležité samotné spracovanie a štruktúrovanie údajov. Oveľa zaujímavejšie a užitočnejšie je to v záverečnej fáze – pri hľadaní skrytých vzorcov a získavaní nových vedomostí.

Preto v podnikateľskom prostredí v nedávne časy Existuje veľmi populárna definícia od Maria Fariu, viceprezidenta spoločnosti Gartner:

Analýza - transformácia údajov na závery, na základe ktorých sa budú prijímať rozhodnutia a budovať akcie pomocou ľudí, procesov a technológií.

Je nemožné a nesprávne pozerať sa na analýzu údajov len ako na spracovanie informácií po ich prijatí a zozbieraní. Analýza údajov je v prvom rade prostriedkom a spôsobom testovania hypotéz a spôsobom riešenia problémov výskumníka. Preto medzi dôležité úlohy analýzy údajov vyčleňujeme:

  • predpovedanie,
  • identifikácia odchýlok,
  • prijímanie odporúčaní.

Charakteristiky údajov analýzy

Údaje, ktoré používame pri analýze, sú z hľadiska ich charakteristík rozdelené do 2 veľkých skupín:

  • kvantitatívne
  • a vysokej kvality.

Kvalitatívne údaje sú dôležité, keď marketingový výskum- aký je váš produkt, pre čo by ho spotrebitelia mali „milovať“. Najzaujímavejšie pre prognózovanie sú, samozrejme, kvantitatívne údaje. Čísla sú naše všetko! Na ich základe viete napríklad predpovedať recesiu či rast tržieb. A toto, vidíte, je veľmi dôležité. Schopnosť nakúpiť správne množstvo tovaru, vybudovať dodávateľský reťazec, vyškoliť personál – to všetko v konečnom dôsledku ovplyvňuje príjmy spoločnosti.

Ako rýchlo a užitočne analyzovať?

Informácií je vo svete stále viac. Štúdia IBS hovorí, že do roku 2003 svet nazhromaždil 5 exabajtov dát (1 EB = 1 miliarda gigabajtov). V roku 2011 to bude 1,76 zettabajtov dát (1 ZB = 1 024 exabajtov) a v máji 2015 bol globálny objem dát cez 6,5 zb. Podľa štúdie The Data Age 2025 sa predpokladá, že do roku 2025 sa vygeneruje viac ako 400 zettabajtov informácií.

Ale hlavná vec je, že všetky tieto nahromadené údaje obsahujú dôležitá informácia, pomocou ktorej je možné a potrebné predvídať, vyvodzovať závery a rozhodovať sa. Aby ste si mohli vybrať z celého poľa nahromadených údajov užitočná informácia, spracovanie týchto údajov je nevyhnutné. Alebo - analýza údajov.

Spracovanie údajov je čoraz náročnejšie. Ak skôr, pred 15 rokmi, bol Excel hranicou dokonalosti, teraz je už naozaj „minulé storočie“. Po dopyte po analýze veľkých dát sa na trhu objavujú nové riešenia pre malé, stredné a veľké podniky.

Riešenia analýzy údajov sa líšia v závislosti od nákladov na implementáciu a personálu, ktorý bude zamestnaný na jej riadenie. Existujú riešenia pre veľké korporácie, bez ktorých sa, samozrejme, nezaobídete veľké investície- tak vo fáze implementácie, ako aj neskôr - vo fáze riešenia (hlavné náklady sú špecialisti pracujúci so softvérom).

Analýza dát

Analýza dát- oblasť matematiky a informatiky, ktorá sa zaoberá konštrukciou a výskumom najvšeobecnejších matematických metód a výpočtových algoritmov na získavanie poznatkov z experimentálnych (v širšom zmysle) údajov; proces skúmania, filtrovania, transformácie a modelovania údajov s cieľom extrahovať užitočné informácie a prijímať rozhodnutia. Analýza údajov má mnoho aspektov a prístupov, pokrýva rôzne metódy v rôznych oblastiach veda a činnosť.

Analýza sociologických údajov

Hlavným cieľom analýzy údajov v sociológii je identifikovať (potvrdiť, opraviť) niektoré štatistické vzorce zaujímavé pre výskumníka; alebo inými slovami, určitý druh kompresie, spriemerovanie informácií obsiahnutých v údajoch. V metodológii analýzy údajov ako oblasti metodológie sociologického výskumu je potrebné štruktúrne rozlíšiť aspoň tieto navzájom súvisiace časti:

Poznámky (upraviť)


Nadácia Wikimedia. 2010.

Pozrite si, čo je „Analýza údajov“ v iných slovníkoch:

    Štatistické štúdie súvisiace s výpočtom viacrozmerného systému pozorovacích údajov s mnohými parametrami. Peklo. klasifikované ako: 1. Popis niektorých parametrov cez iné a zostavenie nových parametrov. 2. Jazyk prezentácie ...... Obchodný slovník

    Angličtina. analýza, dáta; nemecký Analýza dátumu. Etapa empirickej sociológie. výskum, v priebehu ktorého za pomoci vecných úvah a matematických štatistík. metódami, na základe primárnych informácií sa odhalia vzťahy študovaných premenných. ... ... Encyklopédia sociológie

    Analýza dát- pozri Aplikovanú štatistiku... Ekonomický a matematický slovník

    analýza dát- - EN analýza údajov Vyhodnotenie digitálnych údajov, t.j. údaje reprezentované sekvenciou kódových znakov. (Zdroj: MGH) ... ... Technická príručka prekladateľa

    ANALÝZA DÁT- 1. Súbor činností, ktoré výskumník vykonáva v procese štúdia údajov získaných takým či onakým spôsobom, aby si vytvoril určité predstavy o povahe javu opísaného týmito údajmi. V procese A.D. výskumník častejšie... Ruská sociologická encyklopédia

    ANALÝZA DÁT- oblasť matematiky a informatiky, ktorá sa zaoberá konštrukciou a výskumom najvšeobecnejších matematických metód a výpočtových algoritmov na získavanie poznatkov z experimentálnych (v širšom zmysle) údajov. V sociológii A.D. uplatňované v ...... Sociológia: Encyklopédia

    ANALÝZA DÁT- smer štatistického výskumu zahŕňajúci súbor metód spracovania viacrozmerného systému pozorovacích údajov, vyznačujúci sa mnohými znakmi. Na rozdiel od klasických matematických štatistických metód, za predpokladu dobre známeho ... ... Veľký ekonomický slovník

    ANALÝZA DÁT- (analýza údajov) výskum a spracovanie informácií vedeckých prác prieskumy alebo experimenty. Sociálne údaje možno analyzovať množstvom metód, vrátane krížových tabuliek, štatistických testov (pozri Štatistiky a štatistické ... ... Komplexný výkladový sociologický slovník

    ANALÝZA DÁT- - 1. Súbor činností, ktoré výskumník vykonáva v procese štúdia údajov získaných tak či onak, aby si vytvoril určitú predstavu o povahe javu opísaného týmito údajmi. Výskumník sa pokúša získať údaje ... ... Encyklopedický slovník psychológie a pedagogiky

    Analýza dát- súbor činností, ktoré výskumník vykonáva v procese štúdia údajov získaných tak či onak, s cieľom vytvoriť určité predstavy o povahe javu opísaného týmito údajmi ... Sociologický slovník Socium

Dva prístupy k analýze údajov

Každá organizácia sa v rámci svojej činnosti snaží zvyšovať zisky a znižovať náklady. V tomto jej pomáha nový Počítačové technológie, používanie rôznych programov na automatizáciu obchodných procesov. Ide o účtovné, účtovné a skladové systémy, manažérske účtovné systémy a mnohé ďalšie. Čím presnejšie a úplnejšie sa vykonáva zber a systematizácia informácií, tým úplnejšie bude pochopenie procesov v organizácii. Moderné pamäťové médiá umožňujú uložiť desiatky a stovky gigabajtov informácií, no bez použitia špeciálne prostriedky analýzy nahromadených informácií sa takéto médiá jednoducho premenia na skládku zbytočných informácií. Veľmi často prijatie správne rozhodnutie komplikované tým, že hoci sú údaje dostupné, sú neúplné, alebo naopak nadbytočné, preplnené informáciami, ktoré nie sú pre prípad vôbec relevantné, nesystematizované alebo nesprávne systematizované. Potom sa uchýlite k pomoci softvérové ​​nástroje, ktoré umožňujú uviesť informácie do takej podoby, aby bolo možné s dostatočnou mierou spoľahlivosti posúdiť skutočnosti v nich obsiahnuté a zvýšiť pravdepodobnosť optimálneho rozhodnutia.

Existujú dva prístupy k analýze údajov pomocou informačných systémov.

V prvej verzii sa program používa na vizualizáciu informácií - získavanie údajov zo zdrojov a ich poskytovanie osobe na nezávislú analýzu a rozhodovanie. Údaje poskytované programom sú zvyčajne jednoduchá tabuľka a v tejto forme je veľmi ťažké ich analyzovať, najmä ak existuje veľa údajov, ale existujú aj pohodlnejšie spôsoby zobrazenia: kocky, grafy, histogramy, mapy, stromy...

Druhým prípadom použitia analytického softvéru je budovanie modelov... Model simuluje určitý proces, napríklad zmenu objemu predaja určitého produktu, správanie zákazníkov a pod. Na zostavenie modelu je potrebné údaje predspracovať a následne na ne aplikovať matematické metódy analýzy: zhlukovanie, klasifikácia, regresia atď. Zostrojený model možno použiť na rozhodovanie, vysvetľovanie dôvodov, hodnotenie významnosti faktorov, modelovanie rôzne možnosti vývoj...

Pozrime sa na príklad. Poskytovanie zliav zákazníkom je stimulom na zvýšenie objemu nákupu. Čím viac sa určitý produkt predáva, tým väčší je zisk. Na druhej strane, čím väčšia zľava je poskytnutá, tým nižšia je prirážka k produktu a tým menší zisk predaj tohto produktu prináša. Nech existuje história predaja reprezentovaná tabuľkou so stĺpcami: dátum, objem predaja, percentuálna zľava, prirážka a zisk. Keď robíte analýzu „ručne“, môžete sa pozrieť na diagram.

Úvod

Toto číslo je druhým zo série čísel, v ktorých je prezentovaný kurz „Matematické modelovanie geologických objektov“ sprevádzaný vzdelávacími a metodickými odporúčaniami, kontrolné otázky a komentáre. Toto číslo sa zameriava na analýzu dát ako samostatnú vednú disciplínu a v jej spojení s aplikovanou štatistikou. Samozrejme, nie je prezentovaná analýza „všetkých“ dát, ale iba ich jednotlivé fragmenty potrebné na pochopenie kurzu ako celku. Minimum potrebné informácie o aplikovanej štatistike.

Matematické modelovanie geologických objektov úzko súvisí s analýzou údajov ako samostatná vedná disciplína a aplikovanou štatistikou.

Ako prebieha analýza údajov, matematické modelovanie a aplikovaná štatistika sa používa spoločne pri riešení konkrétnych geologických problémov a najmä pri tvorbe modelov geologických objektov? Zvyčajne je tvorba modelu geologického objektu rozdelená na množstvo čiastkových úloh, ktoré tvoria jeden blokový diagram s postupným a paralelným pohybom spracovávaných informácií od počiatočných postupov až po konečný výsledok - syntézu modelu.

Riešenie každého z týchto podproblémov sa redukuje buď na konštrukciu a analýzu konkrétneho modelu, alebo na hľadanie stochastického vzťahu medzi niektorými parametrami, alebo na riešenie jedného alebo druhého typického problému analýzy údajov atď. V druhom prípade sa vyberie algoritmus, ktorý spĺňa požiadavky počiatočnej informácie. Tieto požiadavky môžu mať jednak čisto formálny charakter (napríklad prítomnosť rôznych typov prvkov v tabuľke znemožňuje použitie niektorých algoritmov), jednak predstavovať „ťažko“ formalizované predstavy o systéme skúmaných objektov, ktoré by nemali byť zanedbané.

V súčasnosti neexistuje univerzálna formálna matematická metóda na výber vhodného algoritmu. Preto sa pri výbere algoritmu spolu s kontrolou jeho formálnej a matematickej vhodnosti odporúča zamerať sa na jeho relatívnu jednoduchosť a zmysluplnú interpretovateľnosť matematického aparátu používaného v konkrétnu úlohu, skúsenosti s používaním algoritmu pri riešení podobných problémov.

Rozpoznávanie vzorov

Hlavné čiastkové úlohy

Hlavné čiastkové úlohy problému rozpoznávania sú:

1 ) vytvorenie počiatočného zoznamu funkcií;

2 ) výber tried objektov;

3 ) príprava tabuliek (tabuľky) školenia;

4 ) výber skupiny rozhodovacích pravidiel;

5 ) hľadať optimálne (vzhľadom na nejaké kritérium alebo kritériá) rozhodovacie pravidlo v tejto rodine;

6 ) príprava opisov vzoriek;

7 ) rozpoznávanie vzoriek.

V etapách 1 -3 výber je urobený a vysvetlenie znaky (pozri príručku Krasavchikova, 2008) a zostavenie databázy.

Pri vytváraní počiatočného zoznamu funkcií je možné implementovať dva prístupy:

A) komplexný popis predmetov, typický pre situácie, keď bádateľ nevie, z akých znakov má zostaviť konečný zoznam (informatívny systém znakov), podľa ktorého budú vzorky rozpoznané. Preto vyberá také vlastnosti, aby v zásade môže obsahujú užitočné informácie (hoci na prvý pohľad ich súvislosť s riešeným problémom nemusí byť zrejmé), a spolieha sa na výber informačného systému znakov na algoritme a programe, ktorý ho implementuje.

B) popis objektov založený na nejakom geologickom modeli, pre ktorý je zoznam vlastností vopred známy.

Pri výbere tried objektov sa vychádza nielen z formulácie problému (napr. podľa výsledkov interpretácie seizmických údajov vytriediť lokálne výzdvihy ako perspektívne a neperspektívne), ale aj na základe geologického cítenia a skúseností v riešenie podobných problémov. Možno budete musieť minúť rozkladúlohy a realizovať krok za krokom riešenie v rámci sériovo-paralelného vývojového diagramu niekoľko úloh rozpoznávania.

Pri príprave tréningovej tabuľky (tabuľiek) by sa malo, ak je to možné, vyhnúť výskytu charakteristických znakov meraných na stupnici mien (nominálnych) s počtom hodnôt, ktoré akceptujú väčším ako dve, pretože výrazne obmedzujú výber rozpoznávací algoritmus. Môžu obsahovať veľmi významné informácie, ale je lepšie, ak nie sú zahrnuté v zozname charakteristických znakov. Zvyčajne sa podľa hodnôt takýchto funkcií vytvárajú triedy.

Výber skupiny rozhodovacích pravidiel nie je formálnym postupom. Na tento výber však existujú formálne požiadavky. Napríklad, ak sú medzi funkciami nominálne alebo hodnotové funkcie, potom môžete použiť iba tie algoritmy, ktoré sú schopné pracovať s informáciami prezentovanými v kvalitatívnych mierkach.

Jedným z hlavných kritérií výberu rozhodovacieho pravidla je jeho „jednoduchosť“. Prax ukázala, že by sa mali uprednostňovať jednoduchšie pravidlá rozhodovania. Ak medzi „jednoduchými“ rozhodovacími pravidlami (navyše dostupnými výskumníkovi pri implementácii softvéru) nemožno nájsť také, ktoré by bolo schopné zvládnuť úlohu (alebo v prípade ( a), radikálne zmenšiť rozmer popisu), potom prejsť na zložitejšie atď.

Nie je ľahké formalizovať koncept jednoduchosti! V matematickej logike a teórii algoritmov existuje celá oblasť týkajúca sa formalizácie a štúdia jednoduchosti matematických konštrukcií, ale oboznámenie sa s touto témou nie je súčasťou cieľov kurzu. Preto budeme túto otázku považovať za intuitívne jasnou. Ako príklad najjednoduchších rozhodovacích pravidiel môžu zrejme poslúžiť lineárne rozhodovacie pravidlá (pozri nižšie). Ak existujú dve lineárne pravidlá rozhodovania, potom jednoduchšie je zjavne to, ktoré používa menej funkcií.

Kedy ( a) pri výbere rodiny rozhodovacích pravidiel treba venovať osobitnú pozornosť schopnosti radikálne zmenšiť rozmer popisu.

Po výbere rodiny sa hľadá rozhodovacia funkcia a príslušné pravidlo, ktoré táto rodina má « najlepšiu kvalitu» v súvislosti s učebným a skúšobným materiálom.

Na posúdenie kvality rozhodovacieho pravidla sa používajú funkcionality Páči sa mi to nižšie:

Δ (F, λ, ε) = p 1 M 1 + p 2 M 2 + p 3 M 3 + p 4 M 4,

kde na učebný a skúšobný materiál

M 1 - počet chybne rozpoznaných predmetov prvej triedy;

M 2 - počet chybne rozpoznaných predmetov druhej triedy;

M 3 je počet porúch pre objekty prvej triedy;

M 4 - počet porúch pre objekty druhej triedy.

Koeficienty p j, j = 1, ..., 4 sú „penalizácie“ za chybu zodpovedajúceho typu. Ako menšiu hodnotuΔ (F, λ, ε) (s pevnými zoznamami predmetov učenia a skúšky), tým vyššia je kvalita rozhodovacieho pravidla.

Po vypočítaní hodnôt rozhodovacej funkcie pre všetky objekty tréningu a skúšky je možné optimálnym spôsobom zvoliť riadiace parametre algoritmu λ, ε, t.j. aby kvalitatívna funkcionalita rozhodovacieho pravidla dosiahla minimum:

Δ (F, λ *, ε *) = min Δ (F, λ, ε),

kde minimum preberá všetky λ, ε a ε> 0.

Kedy ( a) Ďalším (a nemenej dôležitým) kritériom kvality je prudké zníženie počtu prvkov používaných pri rozpoznávaní v porovnaní s pôvodným zoznamom. To je preto, že

Malý počet funkcií znižuje vplyv „ informačný šum», Čo robí rozpoznávanie spoľahlivejším;

Čas na prípravu popisov vzoriek je skrátený. Takže pri rozpoznávaní v uzloch mriežky sa zníži počet máp, ktoré je potrebné postaviť;

Je možné zmysluplne interpretovať rozhodovacie pravidlo atď.

Opis vzoriek sa robí podľa kritérií použitých v pravidle optimálneho rozhodovania. Kedy ( a) je to obzvlášť dôležité, pretože najmä čas na prípravu popisov sa výrazne skráti.

Príklady rozpoznávacích algoritmov

Doteraz boli publikované stovky metód rozpoznávania. Sú spojené do rodín. Často sú tieto rodiny opísané ako rozhodovacie funkcie (alebo pravidlá) s nedefinovanými parametrami. Neexistuje žiadna dobre zavedená všeobecne akceptovaná klasifikácia rodín rozpoznávacích algoritmov. Preto sa obmedzíme stručný popis niekoľko rodín algoritmov, ktoré preukázali svoju účinnosť pri riešení aplikovaných geologických problémov, najmä v geológii ropy a zemného plynu.

Pre podrobné oboznámenie sa s aplikáciou metód rozpoznávania v geológii ropy a zemného plynu odkazujeme čitateľa na publikácie zo 60. – 80. rokov minulého storočia, kedy bolo ich využitie pri riešení problémov predpovedno-hľadacieho profilu masívne. Metódy rozpoznávania sa využívali najmä pri riešení problémov prognózovania obrovských ropných polí, produktivity lokálnych výzdvihov, fázového stavu uhľovodíkov v ložiskách a pod. vkladov ..., 1981 atď.).

4.3.1. Bayesovské rozhodovacie pravidlá

Tieto pravidlá rozhodovania sú podrobne uvedené v študijná príručka Demina (2005), kam čitateľa odkazujeme. Pre hlbšie oboznámenie sa s aplikáciami bayesovskej teórie rozhodovania v geológii ropy a plynu odporúčame odkázať na monografiu (Forecast of fields ..., 1981).

4.3.2. Kombinatorické logické metódy v rozpoznávaní

Uvažujme o aplikácii týchto metód na príklade jednej špecifickej rozpoznávacej schémy založenej na aparáte diskrétnej matematiky a matematickej logiky.

Po prvé, kvôli jednoduchosti prezentácie sú všetky znaky X 1,…, X n binárne. Podľa Zhuravleva (1978) nazývame ľubovoľnú kolekciu W množín znakov tvaru w = (X j (1), ..., X j (k)), kde k = 1, ..., n, sústava množín podpier W = (w 1, w 2,…, w N) a jej prvky wr sú množiny podpier.

Nech wÎW, w = (X j (1),…, X j (L)), S k - riadok tabuľky, Q p - riadok tabuľky. Riadky Sk a Qp sa líšia v množine znakov w, ak je vo w zahrnutý znak Xj (r) tak, že X j (r) (S k) ¹X j (r) (Q p). Inak povieme, že sa nelíšia.

Definícia 1 Súbor funkcií wÎW hlasov na priradenie riadku S do prvej triedy, ak je v tabuľke T 1 existuje rad Sk taký, že riadky S a Sk sa v množine w nelíšia; w hlasov na priradenie riadku S do druhej triedy, ak je v tabuľke T 2 existuje rad Q p taký, že riadky S a Q p sa v množine w nelíšia.

pre Г 1 (S)> Q p) a Г 2 (S) ≤ Г 2 (S i) objekt S patrí do triedy K 1;

pre Г 2 (S)> S i) a Г 1 (S) ≤ Г 1 (Q p) objekt S patrí do triedy K 2;

inak S nie je rozpoznané.

Dôvodom tohto rozhodovacieho pravidla je, že na to, aby bola vzorka S klasifikovaná v triede Kj, kde j = 1,2, musí dostať

Táto schéma je jednou z najjednoduchších možností hlasovania s podporou. Algoritmus je implementáciou takzvaného „princípu čiastočnej prednosti“ (Zhuravlev, 1978), v ktorom sa záver o príslušnosti objektu k triede robí na základe analýzy zhôd fragmentov jeho popisu s zodpovedajúce fragmenty popisov predmetov tejto triedy. Čiastočným precedensom je zhoda fragmentov opisov cvičného objektu a vzorky.

Príklad systému podporných súprav: testovacia konštrukcia. Je založený na konceptoch testu a testu slepej uličky, ktoré navrhol S.V. Yablonsky ako matematický diagnostický prístroj technické zariadenia(Žuravlev, 1978).

Definícia 2. Množina stĺpcov w sa nazýva cesto pre dvojicu tabuliek T 1, T 2, ak medzi riadkami S i a Q p nie sú žiadne zhody, kde

Definícia 3.Test sa volá slepá ulica, ak sa z neho nedajú odstrániť žiadne stĺpce bez toho, aby to prestalo byť testom.

Dmitriev, Zhuravlev, Krendelev (1966) použili slepý testovací prístroj na vytvorenie algoritmov na klasifikáciu objektov a javov.

V geológii ropy a zemného plynu sa kombinatoricko-logické metódy prvýkrát uplatnili pri riešení problémov prognózovania obrovských ropných polí (Recognition of images ..., 1971), kde bola použitá testovacia štruktúra. Pod vedením A.A. Skúšobný prístup Trofimuka bol aplikovaný aj na riešenie iných hlavných problémov predpovedania v geológii ropy a zemného plynu (Separate forecasting ..., 1978, atď.). Množstvo A.A. Trofimukove prognózy, ktoré nenašli podporu v čase vydania, sa v budúcnosti brilantne potvrdili.

Konstantinov, Koroleva, Kudryavtsev (1976) pomocou reprezentatívneho faktografického materiálu na predpovedanie obsahu rudy potvrdili účinnosť algoritmov testovacieho prístupu v porovnaní s inými rozpoznávacími algoritmami používanými na riešenie problémov predpovedania rudy.

V geológii ropy a zemného plynu sa nepoužívali žiadne iné referenčné systémy.

Ak tabuľky obsahujú znaky merané v kvantitatívnych mierkach, potom sa pre ne používajú prahové miery rozlíšiteľnosti hodnôt (pozri Krasavchikov, 2009).

4.3.1. Lineárne metódy

Lineárne metódy boli medzi prvými, ktoré boli použité na riešenie problémov rozpoznávania vzorov (pozri Tu, Gonzalez, 1978) v polovici minulého storočia.

Nech F (u 1,…, u n) = a 1 u 1 + a 2 u 2 +… + a n u n - lineárna funkcia n premenných u 1,…, u n. Metódy na nájdenie lineárnych rozhodovacích funkcií a pravidiel sa zvyčajne nazývajú lineárne. Všeobecná forma lineárne rozhodovacie pravidlá možno špecifikovať takto:

pre a 1 X 1 (S) + a 2 X 2 (S) +… + a n X n (S) ≥λ + ε patrí objekt S K 1;

pre a 1 X 1 (S) + a 2 X 2 (S) +… + a n X n (S) ≤λ-ε patrí objekt S K 2;

pri λ-ε

Nechajte byť,. Na kontrolu existencie lineárneho rozhodovacieho pravidla stačí overiť existenciu riešenia systému lineárne nerovnosti pre niektorých ε> 0:

,

kde j = 1,…, n, i = 1,…, m (1), k = m (1) + 1,…, m s neznámymi y 1,…, yn (požadované hodnoty koeficientov aj ) a λ. Výpočtové metódy lineárnej algebry sa používajú na overenie existencie riešenia systémov lineárnych nerovníc; táto kontrola „nie je príliš náročná“ a softvér je v bežných balíkoch. Ak riešenie existuje, potom je buď jedinečné, alebo ich je nekonečne veľa.

Existuje množstvo metód na nájdenie lineárnych rozhodovacích pravidiel, ktoré implementujú rôzne dodatočné požiadavky (ako je maximalizácia ε, zmenšenie rozmeru popisu atď.).

Geometrický výklad lineárneho rozhodovacieho pravidla je nasledovný. Nech sú všetky znaky merané v kvantitatívnych mierkach a E n - n-rozmernom euklidovskom priestore. Hyperrovina a 1 X 1 + a 2 X 2 + ... + a n X n = λ rozdeľuje E n na dve časti tak, že každá z nich obsahuje body len jednej z tried. Takéto nadroviny sa nazývajú delenie.

Situácia sa výrazne skomplikuje, ak deliaca nadrovina neexistuje a je potrebné nájsť takú nadrovinu, ktorá minimalizuje funkčnú kvalitu rozpoznávania. Z výpočtového hľadiska je táto úloha oveľa zložitejšia.

Lineárne metódy rozpoznávania sa už niekoľko rokov používajú na predpovedanie produktivity lokálnych výzdvihov a na objasnenie hraníc prírodných uhľovodíkových rezervoárov v sedimentoch spodnej a strednej jury. Západná Sibír(Kashtanov, Sokolov, 1976, Krasavchikov, 2007).

Objednávanie

V praxi namiesto hľadania rozhodujúcej funkcie, ktorá vyhovuje reťazcu nerovností (1), často stačí získať „dobrú“ koreláciu zostupného zoradenia hodnôt funkcie F s usporiadaním na základe tréningu. materiál. Toto má zásadný význam, pretože rozhodujúca funkcia, pre ktorú sú splnené nerovnosti (1), nemusí existovať v triedach „jednoduchých“ funkcií (ako sú lineárne atď.). Na približné riešenie tohto problému môžete použiť matematický aparát viacnásobnej lineárnej regresie, implementovaný v softvérový produkt Statistica pre Windows.

Nech sa hľadá približné riešenie F v triede lineárnych funkcií,

F (u 1, u 2, ..., u n) = a 1 u 1 + a 2 u 2 + ... + a n u n + b,

kde a 1 ,…,a n, b Sú koeficienty premenných a intercept, Ψ nejaká monotónna funkcia definovaná na množine hodnôt cieľového znaku (napríklad logaritmus, pozri vysvetlenie v časti 10). Potom vyriešte problém viacnásobnej lineárnej regresie formulára:

nájsť 1 ,…, a n, b, pre ktoré je funkčný

dosiahne minimum,

približné riešenie problému usporiadania získame aproximáciou nejakej monotónnej funkcie cieľového znaku. Keďže funkcia Ψ je monotónna, je možné pomocou Spearmanovho koeficientu odhadnúť spoľahlivosť vzťahu medzi riešením regresného problému a hodnotami cieľového znaku. X n +1. Význam r s je prirodzeným ukazovateľom kvality približného riešenia objednávkového problému.

Dá sa ukázať, že nájsť presné riešenie F v triede lineárnych rozhodovacích funkcií stačí vyriešiť sústavu m-1 nestriktných lineárnych nerovníc s n neznámymi p 1 ,…,p n:

, i = 1, ..., m-1, (3)

kde n je počet prvkov, e> 0 je malá kladná konštanta. Navyše, ako je ľahké vidieť, rozdiely Xj (Si) - Xj (Si +1) = Hij sú známe hodnoty. Naopak, existencia riešenia sústavy lineárnych nerovníc (3) implikuje existenciu riešenia sústavy nerovníc (2). Avšak, ako už bolo uvedené, riešenia nemusia existovať v triede lineárnych rozhodovacích funkcií.

Softvér na riešenie systémov laxných lineárnych nerovností nie je dostupný v balíku Statistica. V zásade je však značne rozšírený a je obsiahnutý v softvérových produktoch určených na riešenie problémov výpočtovej algebry.

Zhluková analýza

existuje veľké množstvo metódy a algoritmy pre zhlukovú analýzu. Medzi nimi vynikajú dve veľké skupiny, do ktorých patrí väčšina publikovaných algoritmov. Ide o hierarchické algoritmy, ktoré generujú stromové klasifikácie objektov, a algoritmy, ktoré generujú oddiely (zoskupenia).

Hierarchické algoritmy

Medzi hierarchickými algoritmami možno rozlíšiť dve hlavné triedy - aglomeratívne a deliace. Toto sú krok za krokom algoritmy. Aglomeratívne algoritmy začínajú skutočnosťou, že každý objekt je samostatným zhlukom, a končia skutočnosťou, že všetky zhluky sú spojené do jedného objektu. V každom kroku sa kombinujú dva zhluky, ktoré sú v istom zmysle „najbližšie“. Blízkosť medzi klastrami je daná „vzdialenosťou“ alebo mierou blízkosti. Pod "vzdialenosťou" v v tomto prípade rozumie sa nezáporná symetrická funkcia. Príklady takýchto funkcií budú diskutované nižšie. Naopak, v deliacich metódach v prvom kroku všetky objekty tvoria jeden zhluk, v poslednom - každý objekt predstavuje samostatný zhluk.

6.1.1. Aglomeratívne algoritmy

Zoberme si aglomeratívne metódy prezentované v balíku Statistica pre Windows. Aby sme to dosiahli, najprv definujeme funkcie, ktoré sa používajú na odhad vzdialeností medzi konečnými podmnožinami metrický priestor M.

Nech je súbor popisov objektov S =(S 1, ..., S m) znakmi X 1 (S), ..., X n (S) je obsiahnutá v euklidovskom priestore E n, takže pre ľubovoľnú dvojicu objektov S i, S j od r. S je definovaná metrika (vzdialenosť) ρ ij = ρ (S i, S j) a zostaviť symetrickú maticu vzdialeností R = (ρ ij) m ´ m. Uveďme príklady funkcií dvoch premenných, ktorých hodnoty zohrávajú úlohu vzdialeností medzi disjunktnými podmnožinami v zhlukovej analýze, hoci formálne tieto funkcie nie sú metrikami. Nech A l, A q Ì S nemajú spoločné prvky, A l ÇA q = Æ. potom:

a) ρ lq sa rovná vzdialenosti dvoch najbližších objektov množín A l, A q;.

b) ρ lq sa rovná vzdialenosti medzi najvzdialenejšími objektmi množín A l, A q;

c) ρ lq sa rovná vzdialenosti medzi ťažiskami množín A l, A q (body so stred.

hodnoty všetkých ukazovateľov);

d) ρ lq sa rovná aritmetickému priemeru vzdialeností medzi objektmi množín A l, A q;

e) ρ lq sa rovná vzdialenosti medzi bodmi so strednými hodnotami vlastností pre mnohých

vlastnosti Al, Aq;

f) ρ lq sa rovná súčtu vzdialeností medzi prvkami množín A l, A q.

g) ρ lq sa rovná takzvanej „štatistickej vzdialenosti“ (Durant, Odell, 1977) medzi

sady A l, A q:

.

Tu sú vektory stredných hodnôt vlastností pre podmnožiny Al, A q, T- transpozičný znak. „Štatistická vzdialenosť“ medzi podmnožinami Al, A q je teda druhá mocnina vzdialenosti medzi vektormi stredných hodnôt vlastností (ťažiská) s koeficientom m l m q / (m l + m q).

V hierarchických aglomeračných algoritmoch založených na výpočte "vzdialeností" medzi podmnožinami Al, Aq tvaru (a-g) a podobne sa v prvom kroku každý objekt považuje za samostatný zhluk. zapnuté ďalši krok dva najbližšie objekty, ktoré tvoria nová trieda, sú určené "vzdialenosti" z tejto triedy ku všetkým ostatným objektom. Matica vzdialenosti sa teda mení s prihliadnutím na výsledky zhlukovania, vrátane zmenšenia jej rozmeru. zapnuté pth krok pre zhluky a maticu vzdialeností z predchádzajúceho kroku R p -1 sa rovnaký postup opakuje, kým sa všetky objekty neskombinujú do jedného zhluku. Na rozdiel od R 1 = R, pre p> 1 prvky R p nie sú vzdialenosti medzi objektmi, ale „vzdialenosti“ medzi zhlukami.

Ak niekoľko objektov (alebo zhlukov) má minimálnu „vzdialenosť“ naraz, potom sú možné dve stratégie: vyberte si jednu náhodný pár alebo spojiť všetky páry naraz. Prvá metóda je klasická; niekedy sa v literatúre nazýva hierarchická klasifikácia zdola nahor. Druhá metóda sa používa oveľa menej často.

Metóda založená na výpočte „štatistickej vzdialenosti“ (pozri bod (g) vyššie) sa nazýva Wardova metóda (Mandel, 1988) podľa mena osoby, ktorá ju navrhla. Ostatné metódy sú pomenované podľa vzdialenosti, ktorú používajú.

Výsledky práce všetkých hierarchických aglomeračných postupov sa spravidla formalizujú do podoby tzv dendrogramy(pozri obr. 1), v ktorom sú počty objektov zobrazené horizontálne a hodnoty medzizhlukových vzdialeností ρ lq, pri ktorých sa dva zhluky spájajú, sú znázornené pozdĺž vertikály.

6.1.2. Deliace algoritmy

Túto triedu algoritmov klastrovej analýzy opíšeme na príklade „Rýchleho deliaceho kombinačného algoritmu“, ktorý navrhol Chaudhuri (Mandel, 1988). Experimenty uskutočnené v INGG ukázali jeho vysokú účinnosť pri riešení problému zhlukovania sekcií podľa hrúbky ich jednotlivých horizontov na základe informácií obsiahnutých v hrúbkových mriežkach. Spracovanie informácií o strednej jure juhovýchodne od WSP ukázalo, že rýchlo a „inteligentne“ zoskupuje obrovské súbory údajov reprezentované mriežkovými modelmi. Použitie iných algoritmov na zoskupenie týchto polí, niekedy pozostávajúcich z viac ako milióna objektov, charakterizovaných viac ako 10 funkciami, je často nemožné alebo mimoriadne ťažké. Algoritmus Chaudhuri nie je uvedený v softvérovom produkte Statistica pre Windows.

Pre stručnosť sa tento algoritmus bude nazývať aj algoritmus hyperkocky. Tu je jeho stručný popis.

Hyperkocka, ktorá obsahuje všetky body (určené rozsahom variácií prvkov), je v prvom kroku pozdĺž každej osi rozdelená rovinou na ňu kolmou na 2 n"Kocka", kde n– Počet znakov. zapnuté j -tý krok, každá z týchto kociek je tiež zlomená, to znamená, že sa ukáže 2 n j hyperkocka. Ak výsledná kocka obsahuje aspoň jeden objekt, považuje sa za plnú, ak nie - prázdnu. Zhluk sa tu nazýva najväčšia spojená oblasť, v ktorej sú ľubovoľné dva objekty spojené neprázdnymi bunkami (tj spojený komponent grafu, ktorého vrcholy sú objekty, a dva vrcholy, v ktorých sú spojené hranou vtedy a len vtedy, ak sú sú buď v tej istej bunke, alebo bunky, ktoré ich obsahujú, majú spoločné ohraničenie, aj keď pozostáva z jedného bodu).

Ako sa zvyšujete j rastie počet zhlukov, t.j. algoritmus je deliaci. Patrí k najrýchlejším hierarchickým algoritmom, nevyžaduje predbežnú normalizáciu ukazovateľov, ukladanie a prepočítavanie matice vzdialeností, môže pracovať v pôvodnom priestore. Tieto a niektoré ďalšie vlastnosti z neho robia jeden z najpreferovanejších algoritmov na vytváranie hierarchických klasifikácií v prípade veľké základneúdajov.

Sekcia 2

1. Rozhodujúcou funkciou pri rozpoznávaní vzorov je mapovanie, ktoré prevádza množinu hodnôt heterogénnych znakov X 1 (S),…, X n (S) na číslo. Toto číslo je hodnotou rozhodovacej funkcie F na objekte S. Rozhodovacie pravidlo pri rozpoznávaní vzorov je príkaz, ktorý obsahuje hodnoty rozhodovacej funkcie a riadiacich parametrov a berúc do úvahy tieto hodnoty, buď priradí vzorku do jednej z tried alebo odmietne uznanie.

2. Formulujte pojem rozhodovacej funkcie vo vzťahu k problému usporiadania.

3. Môže byť cieľový znak vo vzťahu k verzii problému sekvenovania formulovanému v časti 2 a) logický; b) nominálne?

4. Prečo ďalej počiatočné štádiá rozvojový klaster - jeho analýza (na rozdiel od rozpoznávania vzorov) sa nazývala "učenie bez učiteľa"?

5. Vzťah medzi znakmi môže byť prezentovaný vo forme povolenej pre konkrétny znak, napríklad X j ≈ f (X i, X k, ..., X l), alebo bez takéhoto povolenia. Napríklad (ln (X j)) 2 + ln (X j + X k) -1≈0.

6. Formulujte problém rozpoznávania ako problém vyplnenia jedinej medzery.

7. Formulujte problém vyplnenia jednej medzery v binárnom alebo nominálnom znaku ako problém rozpoznávania.

Časť 3

1. V akých prípadoch a prečo posudzovať vzťah medzi kvantitatívne znaky racionálne využívať zoradené Spearmanov koeficient?

2. Je to vždy viacnásobné lineárna regresia presne vyrieši problém s objednávkou?

3. Je možné aplikovať lineárne regresný model z oddielu 3, ak Y je hodnostný znak?

4. Je možné použiť lineárny regresný model z časti 3, ak Y je nominálny znak?

5. Je možné použiť lineárny regresný model z časti 3, ak aspoň jeden znak zo zoznamu X 1,…, X n je hodný alebo nominálny?

6. Je možné bez predbežnej normalizácie znakov porovnať váhy, s ktorými sú zahrnuté v regresnej rovnici, a zoradiť ich podľa ich vplyvu na hodnotu predpovedaného ukazovateľa?

7. Čo je b v sekcii Viacnásobná lineárna regresia v programe Statistica pre Windows? Ako možno použiť hodnoty bj pri porovnávaní charakteristických znakov podľa ich vplyvu na hodnotu závislého (cieľového) znaku?

Časť 4

1. Aké je vysvetlenie vo fáze tvorby zoznamu počiatočných znakov?

2. Ako umožňujú sankcie za chyby a odmietnutia regulovať hodnotenie kvality uznania?

3. Ktoré z dvoch lineárnych rozhodovacích pravidiel s rovnakým skóre kvality rozpoznávania je vhodnejšie: použiť 5 funkcií alebo 7?

4. Ak sa metóda rozpoznávania použije na objasnenie hraníc (laterálne) geologického objektu v sedimentárnych vrstvách, potom určité percento porúch alebo dokonca chýb v uzloch siete nemusí ovplyvniť predpokladanú polohu jeho hranice. V dôsledku vyriešenia problému rozpoznávania vzorov pre uzly mriežky patrí lokálna oblasť (ktorej stred je uzol) k modelovanému objektu. ukážková verzia hranice. Zvyčajne sa v dôsledku analýzy získanej verzie vyjasní geologická situácia ako celok, takže výskumník je už schopný „nezávisle“ nakresliť hranicu objektu.

5. V dôsledku riešenia problémov s rozpoznávaním pomocou znakov vypočítaných z mriežok referenčných geofyzikálnych povrchov a údajov z hĺbkových vrtov (rozdelenie podľa stratigrafických úrovní, hrúbky horizontov atď.) sú hranice (laterálne) hlavných stratigrafických horizontov v spodnej - Stredojurské ložiská západnej Sibíri, čo zase umožnilo spresniť odhady jurských zdrojov uhľovodíkov v mnohých veľkých regiónoch.

6. Pri čítaní prác o aplikácii metód rozpoznávania v geológii ropy a plynu treba mať na pamäti, že výskumník sa spravidla spolieha na svoje skúsenosti s riešením podobných problémov a literárne údaje; zároveň nepoužíva „najlepší“ softvér, ale ten, ktorý má a vie ho používať.

7. Skúsenosti s riešením mnohých praktických problémov v oblasti modelovania geologických objektov vo vrstvených vrstvách nám umožňujú formulovať nasledujúce požiadavky na algoritmy a softvér rozpoznávanie vzorov vo vzťahu k modelovaniu regionálnych, zonálnych a lokálnych objektov v sedimentárnej panve:

- „byť schopný“ pracovať s funkciami špecifikovanými na mriežkach;

- nájsť jednoduché a ľahko interpretovateľné pravidlá rozhodovania;

- poskytujú efektívne zmenšenie rozmeru popisu n;

- pracovať so závislými a heterogénnymi vlastnosťami;

- brať do úvahy komplexný charakter delenia tried (laterálne).

Sekcia 5

Viacnásobné lineárne regresná analýza je určený na nájdenie lineárnej závislosti znaku Y na znakoch X 1, ..., X n

Y≈ a 1 x 1 +... + a n X n + b= L (Xi, ..., Xn). (4)

V probléme objednávania je potrebné riešiť viac spoločná úloha: nájdite závislosť F, ktorá usporiada učebné objekty v zostupnom poradí hodnôt cieľového znaku X n +1. V tomto prípade sa môže ukázať, že hodnoty funkcie F pre trénovacie objekty a vzorky sa nebudú zhodovať s hodnotami cieľovej funkcie.

Riešenie úlohy lineárnej regresie hľadania minima funkcionálu (4) nemusí viesť k nájdeniu prijateľnej aproximácie pre riešenie úlohy zoradenia. Môžeme sa však pokúsiť transformovať cieľový znak Xn+1 monotónnou funkciou Ψ tak, že pre Ψ (Xn+1) možno použiť metódu najmenších štvorcov na získanie požadovanej aproximácie. Pretože Ψ je monotónne, poskytuje to riešenie problému usporiadania.

S najväčšou pravdepodobnosťou neexistuje žiadny „univerzálny“ spôsob výberu Ψ. Avšak, niektoré praktické rady podľa jeho výberu.

Monotónna funkcia Ψ sa spravidla používa pri „bežnom“ párovom korelačnom koeficiente r(Demin, 2005, s. 42-44) medzi hodnotami cieľového znaku X n +1 a zodpovedajúcimi hodnotami vypočítanými pomocou viacnásobnej lineárnej regresnej rovnice, „malý“. Zmysluplné úvahy nám zároveň umožňujú predpokladať, že je stále možné usporiadať objekty v zostupnom poradí cieľového znaku X n + 1 podľa hodnôt X 1, ..., X n. Najčastejšie sa viacnásobná lineárna regresia s „dobre zvoleným“ Ψ úspešne aplikuje pri rozložení hodnôt v sekvencii X n +1 (S m), X n +1 (S m -1), ..., X n +1 (S 1) má výrazný nelineárny charakter, porovnateľný napr. s exponenciálou. Funkcia Ψ sa zvyčajne volí tak, aby sa čo najviac eliminovala ostrá nelinearita. Logaritmus je typickým príkladom podobnej funkcie, opakovane využívanej v podobných situáciách pri riešení praktických problémov.

Časť 6

1. Nech Al = ((0,1), (2,0), (2,3)), Aq = ((5,1), (6,2), (8,3), (9 , 5), (10, 7)). Vypočítajte vzdialenosti (a – g).

2. Nastavenie S = A l ÈA q vyriešiť problém zhlukovania kolekcie objektov S metódou Choudari

3. Na miestnej úrovni sa pre samostatnú oblasť alebo akumuláciu oblastí („malá“ zóna) úspešne používa zhluková analýza na koreláciu disjunktívnych porúch na základe 3D seizmických údajov (Kashik et al, 2004).

Skúsenosti s aplikáciou zhlukovej analýzy na regionálnej a zonálnej úrovni ukázali, že tieto metódy môžu poskytnúť užitočné informácie o histórii vývoja skúmaných vrstiev a tektonických procesov, typoch geologických rezov, ich bočnom rozložení, zónach vývoja nádrží v nich. obsah ropy a plynu. To si však, ako sa ukázalo, vyžaduje dostatočne „husté“ pravidelné mriežky hrúbok sedimentov, preto hlavným faktorom obmedzujúcou jeho použitie v regionálnych a zónových stavbách (v prípade „veľkých“ území) je potreba ukladať a prepočítavať maticu vzdialeností pre celý súbor objektov.

Na základe posúdenia výpočtovej náročnosti , potom na miestnej úrovni, s výnimkou spracovania 3D seizmických údajov, je celkom možné použiť takmer všetky algoritmy klastrovej analýzy. Pri regionálnych a zonálnych konštrukciách s použitím sieťových modelov (v prípade „veľkých“ území), ako aj pri spracovaní 3D seizmických údajov (aj na úrovni samostatnej oblasti alebo „malej zóny“) je vhodné zvoliť algoritmus ktorá nevyžaduje prepočet matice vzdialeností, napríklad metóda Choudari.

4. Načrtnime vo všeobecnosti prístup, ktorý umožňuje efektívne využiť zhlukovú analýzu vrtných dát v prediktívnych konštrukciách. Analyzujme napríklad údaje o niektorých regionálnych alebo zonálnych nádržiach uhľovodíkov. Klastrovanie objektov sa vykonáva na základe nejakého počiatočného zoznamu vlastností (bez výsledkov testov vrtov a ich súradníc).