Kto je databázový analytik. Data Science. Oleg Mikhalskiy na ruskom trhu a špecifiká tvorby nového produktu v oblasti big data

  • 27.06.2020

Správa údajov je proces, ktorý zahŕňa zhromažďovanie, ukladanie, spracovanie a interpretáciu nahromadených údajov. Správa dát je dnes pre mnoho spoločností vynikajúcou príležitosťou na pochopenie už zhromaždených údajov, „poznanie“ konkurencie, vytváranie prediktívnych analýz (prognóz) a odpovedanie na mnohé obchodné otázky.

Správa údajov

Čo obsahuje správa údajov? Vymenujme hlavné procesy:

  • Správa databáz
  • Procesy ETL (extrakcia, transformácia a načítanie údajov)
  • Zber dát
  • Ochrana údajov a šifrovanie
  • Dátové modelovanie
  • Samotná analýza dát

Na základe vyššie uvedeného je zrejmé, že úspešná správa údajov si vyžaduje:

  • Vyriešte technické problémy (vyberte si databázu, určte, kam sa budú údaje ukladať - v cloude, na serveri atď.)
  • Nájdite kompetentné ľudské zdroje 🙂

Kľúčové výzvy v správe údajov

Medzi najčastejšie chyby a ťažkosti, ktoré vznikajú pri zhromažďovaní, ukladaní a interpretácii údajov, patria:

  • Neúplné údaje
  • „Duplikácia“ údajov (a často si navzájom odporujú)
  • Zastarané údaje

V mnohých otázkach vo fáze zhromažďovania údajov môže pomôcť produkt, ktorý pomáha kombinovať údaje z rôznych zdrojov, obohatiť ich a pripraviť na použitie v systémoch Business Intelligence.

Analýza dát

Máte už správne množstvo relevantných a dôležitých údajov? Teraz je ich potrebné okrem úložiska aj analyzovať. Analýza dát pomôže odpovedať na mnohé obchodné otázky, robiť informované rozhodnutia, „vidieť“ vášho zákazníka, optimalizovať skladové a logistické procesy. Všeobecne je analýza údajov dôležitá a potrebná v akejkoľvek oblasti, spoločnosti a na akejkoľvek úrovni.

Riešenie analýzy údajov sa skladá z troch hlavných blokov:

  • Uloženie údajov;
  • Postupy ETL (extrakcia, transformácia a načítanie údajov);
  • Systém podávania správ a vizuálnej analýzy.

To všetko sa zdá byť dosť komplikované, ale v skutočnosti to nie je až také strašidelné.

Moderné analytické riešenia

Čo by mali robiť spoločnosti, ktoré nemajú zamestnancov analytikov? A neexistuje žiadny vývojársky programátor? Existuje však túžba robiť analytiku!

Samozrejme, existuje riešenie. Na trhu je teraz dostatok automatizovaných systémov na analýzu a - čo je dôležité! - vizualizácia vašich údajov.

Aké sú výhody takýchto systémov (typu):

  • Schopnosť rýchlej implementácie (stiahnite si program a nainštalujte ho aspoň na svoj laptop)
  • Nie sú potrebné žiadne zložité IT alebo matematické znalosti
  • Nízke náklady (od 2 000 rubľov za mesiac za licenciu na marec 2018)

Akákoľvek spoločnosť tak môže implementovať taký analytický produkt: bez ohľadu na to, koľko zamestnancov v ňom pracuje. Tableau je vhodný pre individuálnych podnikateľov aj pre veľké spoločnosti. V apríli 2018 si OSN vybrala Tableau ako analytickú platformu pre všetky svoje kancelárie po celom svete!

Spoločnosti, ktoré pracujú s takýmito automatizovanými analytickými systémami, si uvedomujú, že tabuľkové prehľady, ktoré sa predtým vytvorili za 6 hodín, sa v tablo zhromažďujú doslova za 10 - 15 minút.

Neverte mi? Vyskúšajte to sami - stiahnite si bezplatnú skúšobnú verziu Tableau a získajte návody, ako program používať:

Stiahnite si tablo

Stiahnite si ZDARMA plnú verziu Tableau Desktop, 14 dní, a získajte DARČEK školiacich materiálov Tableau BI

Výber stránok s bezplatnými lekciami o štúdiu veľkých dát.

Do záložiek

Priemerný plat analytika údajov je podľa HeadHunteru 120 tisíc rubľov. Tento materiál zdôrazňuje hlavné požiadavky na voľné pracovné miesta analytikov a miesta, kde môžete získať zručnosti v tejto oblasti zadarmo.

Kto sú analytici údajov

Vedci veľkých dát vedia, ako získať užitočné informácie zo všetkých druhov zdrojov a analyzovať ich, aby mohli robiť obchodné rozhodnutia. Analytici spravidla čelia rôznorodým informáciám, takže je dôležité vedieť extrahovať správne údaje.

Profesia dátovej analytiky sa dnes považuje za jednu z najatraktívnejších a najsľubnejších na svete. Ak sa chcete stať dobrým analytikom, musíte rozumieť viac štatistikám ako programovaniu. Pretože počas práce musíte zostaviť matematické modely, ktoré popisujú problém a skutočné údaje.

Analytik dát pracuje s náhodnými premennými a pravdepodobnostnými modelmi, jeho úlohou je nájsť neočakávané vzorce. Znalosť teórie pravdepodobnosti a matematickej štatistiky je preto jednou z hlavných požiadaviek uchádzačov.

Musíte tiež poznať programovacie jazyky R alebo Python a porozumieť technológiám spracovania veľkých dát. Tieto vedomosti stačia na to, aby sa kvalifikoval na počiatočnú pozíciu analytika údajov.

Ak sa chcete stať dobrým analytikom, musíte nielen rozumieť programovaniu alebo štatistike, ale aj dokonale poznať produkt, a čo je najdôležitejšie, vedieť testovať a navrhovať hypotézy. Veľké dáta, ak sa používajú správne, obsahujú množstvo skvelých poznatkov a nápadov, ako vylepšiť produkt alebo zistiť, na čom záleží.

Väčšina problémov ale nemá jednoznačné riešenie alebo algoritmus: v tomto ohľade je analýza údajov veľmi kreatívnou prácou. Dôležitá je aj schopnosť zvoliť správnu vizualizáciu. Rovnaké údaje môžu vyzerať ako náhodná sada bodov alebo pri správnom prevedení môžu povedať veľa zaujímavých vecí.

Vo VKontakte pracujeme s obrovským objemom dát - viac ako 20 miliárd meraní denne. Zhromažďujeme informácie o klastri Hadoop a používame rôzne nástroje na ich spracovanie: Hive nám dáva odpovede na jednoduché otázky a Spark, Pandas, Sklearn pomáhajú vykonávať zložitejšie analýzy.

Na analýzu produktových a technických metrík a experimentov A / B používame tiež systém zberu, agregácie a vizualizácie údajov vyvinutý našim tímom. Vďaka analýze dát denne kontrolujeme desiatky hypotéz produktov a uskutočňujeme stovky experimentov, ktoré nám umožňujú produkt neustále vylepšovať, robiť naše služby pohodlnejšími a osobnejšími.

Napríklad v roku 2015 sme začali analyzovať aktivitu používateľov v informačnom kanáli a zisťovali, čo by sa dalo vylepšiť. Po dlhom výskume sme prišli na to, že môžeme všetko urobiť oveľa pohodlnejším a v roku 2016 sme spustili „inteligentný“ feed, ktorý je pre každého používateľa čo najzaujímavejší a najužitočnejší.

Neustále analyzujeme aktivitu publika. V určitom okamihu sme v praxi zistili, že používatelia chcú rozšíriť svoje záujmy a spoznať nových autorov. Preto bola v roku 2017 spustená sekcia „Odporúčania“. A teraz, keď analyzujeme rastúcu aktivitu v novej službe, vidíme, že to bolo správne rozhodnutie.

Andrey Zakonov

Riaditeľ pre rast a výskum, VKontakte

Znalosť jazykov Python a R.

Výučba kurzu Python

Jazyk: Angličtina.

Úroveň: počiatočné.

Rozhranie codecademy

Online platforma Codecademy ponúka interaktívne učenie v jazyku Python: jedna stránka vysvetľuje stručné teoretické základy a kódového tlmočníka. Kurz je určený pre začínajúcich používateľov a rozpráva o základných príkazoch programovacieho jazyka.

Kurz je poskytovaný shareware: prístup k testovacím úlohám a práca na projektoch môžete získať iba so zaplateným predplatným. Bezplatné hodiny sú vhodné na osvojenie jednoduchých konštrukcií a porozumenie syntaxe jazyka.

Sprievodca samoštúdiom „Python 3 pre začiatočníkov“

Jazyk: Rusky.

Úroveň: počiatočné.

Musinova príručka pre samoukov je jednou z najväčších ruských znalostí o Pythone. Táto stránka obsahuje informácie o moduloch, materiály o analýze údajov pomocou knižnice Pandas, teoretické informácie, príklady úloh a užitočné odkazy. Na základe publikovaných článkov bol tiež pripravený sprievodca samoštúdiom vo formáte PDF.

Kurz programovania v Pythone

Jazyk: Rusky.

Úroveň: počiatočné.

Na kurze učitelia predstavia základné pojmy programovania. Veľké množstvo praktických úloh sa ponúka ako domáca úloha - všetky riešenia sú kontrolované automatickým systémom. Učitelia zároveň neposkytujú individuálne rady. Súčasťou kurzu sú aj úlohy so zvýšenou zložitosťou, ktoré nie sú potrebné na zvládnutie predmetu.

Kurz Základy a aplikácie v Pythone

Jazyk: Rusky.

Úroveň: priemer.

Požiadavky: základné programovacie zručnosti v jazyku Python alebo iných programovacích jazykoch.

Študenti sa naučia základné základy jazyka: ako interpret vykonáva kód, kde ukladá premenné a dáta, ako sú definované jeho vlastné dátové typy a funkcie. Kurz je určený pre používateľov, ktorí majú základné znalosti programovania.

Testové úlohy v kurze sú rozdelené do dvoch typov: upevnenie látky a hľadanie spôsobov, ako uplatniť naučené zručnosti. Riešenia kontroluje systém.

Kurz Základy programovania v jazyku Python

Jazyk: Angličtina.

Úroveň: počiatočné.

Študenti sa učia tri základné témy: používanie funkcií, tvorba a používanie tried. Posledná lekcia je o vytváraní vlastných projektov. Učenie je postavené na práci na mini-projektoch a učení sa dôležitých konceptov. Kurz je zameraný na tých, ktorí sa chcú stať programátormi alebo plánujú s nimi spolupracovať.

Kurz Základy programovania

Jazyk: Rusky.

Úroveň: počiatočné.

Na tomto kurze pedagógovia považujú R za programovací jazyk, nie za nástroj na riešenie problémov. Študenti sa naučia základné dátové typy a všeobecné sémantické pravidlá, ako aj témy súvisiace s analýzou a spracovaním údajov.

Analýza dát v kurze R.

Jazyk: Rusky.

Úroveň: priemer.

Požiadavky: základné vedomosti v štatistike.

Učitelia vysvetľujú hlavné etapy analýzy údajov pomocou jazyka R. Študenti budú oboznámení s hlavnými fázami štatistickej analýzy R, čítania a predspracovania údajov, s použitím základných štatistických metód a vizualizácie výsledkov.

R Programovanie v kurze dátovej vedy

Jazyk: Angličtina.

Úroveň: priemer.

Požiadavky: Kurz je zameraný na analytikov, ktorí potrebujú znalosti R pre prácu na štatistických projektoch.

Kurz bol vyvinutý spoločnosťou Microsoft v spolupráci s Technickou univerzitou v Dánsku. Kurz vás naučí základy jazyka R, naučí vás čítať a zapisovať údaje, pracovať s nimi a dosahovať výsledky. Vysvetľujú tiež, ako vykonávať prediktívnu analýzu s R a vizualizovať údaje.

Projekt DataCamp

Jazyk: Angličtina.

Úroveň: počiatočné.

Rozhranie školiaceho systému DataCamp

DataCamp ponúka interaktívne výučbové kurzy R a Python na témy z oblasti vedy, štatistiky a strojového učenia. Projekt sa zameriava na prácu s údajmi. DataCamp spolupracuje so spoločnosťami RStudio, Continuum Analytics, Microsoft a láka učiteľov z popredných spoločností Pfizer, Liberty Mutual, H2O, DataRobot a ďalších.

Bezplatné predplatné vám umožní prístup k základným kurzom a k prvej kapitole platených kurzov. Ak chcete získať neobmedzený prístup, musíte si kúpiť predplatné za 29 dolárov mesačne alebo 300 dolárov ročne.

Znalosti v štatistike a strojovom učení

Kurz Základy štatistiky

Jazyk: Rusky.

Úroveň: počiatočné.

Kurz študuje prístupy k popisu údajov získaných v priebehu výskumu, základné pojmy štatistickej analýzy, interpretácie a vizualizácie získaných údajov. Hlavný dôraz sa kladie na matematické nápady, intuíciu a logiku, ktoré určujú metódy a výpočtové vzorce.

Kurz „Algoritmy: teória a prax. Metódy “

Jazyk: Rusky.

Úroveň: priemer.

Požiadavky: znalosť jedného z programovacích jazykov: slučky, polia, zoznamy, fronty.

Kurz sa zameriava na základné algoritmické metódy: „chamtivé“ algoritmy, metóda „rozdeľuj a panuj“, dynamické programovanie. Pri všetkých metódach učitelia preukazujú matematický dôkaz správnosti a odhady pracovného času.

Kurz tiež hovorí o zvláštnostiach implementácie algoritmov v jazykoch C ++, Java a Python. Väčšina algoritmov diskutovaných v kurze musí byť naprogramovaná ako súčasť zadaní.

Úvod do kurzu deskriptívnej štatistiky

Jazyk: Angličtina.

Úroveň: počiatočné.

Študenti sa oboznámia so základnými pojmami používanými na popis údajov. Učitelia budú hovoriť o výskumných metódach, naučia vás, ako vypočítať a interpretovať štatistické hodnoty a vypočítať jednoduché pravdepodobnosti. Študenti si preštudujú distribučné zákony a naučia sa, ako s nimi manipulovať, aby vytvorili pravdepodobnostné predpovede údajov.

Úvod do kurzu štatistickej inferencie

Jazyk: Angličtina.

Úroveň: počiatočné.

Požiadavky: Absolvovali ste kurz Úvod do deskriptívnej štatistiky.

Kurz je venovaný štúdiu výstupov zrejmých údajov. Študenti študujú odhad parametrov pomocou štatistík vzoriek a naučia sa testovať hypotézy a intervaly spoľahlivosti. Školitelia vysvetlia t-test a analýzu rozptylu, korelácie a regresie a ďalšie metódy testovania štatistických hypotéz.

Úvod do kurzu Data Science

Jazyk: Angličtina.

Úroveň: priemer.

Požiadavky: Základné zručnosti programovania v Pythone.

Účastníci kurzu sa naučia základné pojmy dátovej vedy: správa dát, analýza dát pomocou štatistík a metód strojového učenia, prenos a vizualizácia informácií a práca s veľkými dátami.

Úvod do kurzu strojového učenia

Jazyk: Rusky.

Úroveň: priemer.

Požiadavky: vedomosti zo základov matematiky (funkcie, deriváty, vektory, matice), programovacie schopnosti v jazyku Python.

Kurz skúma hlavné typy problémov riešených pomocou strojového učenia: klasifikácia, regresia a klastrovanie. Študenti sa naučia hodnotiť kvalitu modelov a rozhodovať, či je model vhodný pre konkrétnu úlohu. Učitelia budú hovoriť o moderných knižniciach, ktoré implementujú študované modely a metódy hodnotenia ich kvality.

Dátová veda: Kurz vizualizácie

Jazyk: Angličtina.

Úroveň: počiatočné.

Kurz učí základy vizualizácie dát a analýzy dát. Študenti sa naučia, ako používať balík R ggplot2 na vytváranie vlastných grafov. Učiteľ bude hovoriť aj o hlavných chybách, ktoré sa robia pri práci s údajmi.

Kurz „Úvod do umelej inteligencie“

Jazyk: Angličtina.

Úroveň: počiatočné.

Požiadavky: Hands-on labs are based on Microsoft Azure and require an Azure subscription.

Študenti sa naučia, ako používať strojové učenie na tvorbu prediktívnych modelov. Inštruktori kurzu vám povedia, aký softvér je potrebný na spracovanie a analýzu prirodzeného jazyka, obrázkov a videí. Študenti sa tiež naučia, ako vytvárať inteligentné chatovacie roboty.

Kurz strojového učenia

Jazyk: Angličtina.

Úroveň: počiatočné.

Účastníci kurzu sa dozvedia o efektívnych metódach strojového učenia a získajú praktické zručnosti pri ich implementácii. Učitelia tiež budú hovoriť o najlepších postupoch v Silicon Valley v oblasti strojového učenia a umelej inteligencie.

Kurz poskytuje široký úvod do strojového učenia, dolovania dát a rozpoznávania štatistických modelov. Kurz je založený na prípadových štúdiách a praktických skúsenostiach - študenti sa naučia používať algoritmy učenia na tvorbu inteligentných robotov, analýzu textu, získavanie zručností v počítačovom videní, lekárskej informatike, zvuku, ťažbe databáz a ďalších odboroch.

Spracovanie veľkých údajov

Kurz „Hadoop. Systém na spracovanie veľkého množstva údajov “

Jazyk: Rusky.

Úroveň: priemer.

Hadoop je jedným z populárnych open-source systémov na spracovanie veľkého množstva údajov. Medzi používateľov systému patria Facebook, Twitter, Yahoo !, Bing, Mail.ru. Študenti sa naučia základné metódy ukladania a spracovania veľkého množstva dát. Študenti sa tiež naučia vyvíjať aplikácie pomocou programovacieho modelu MapReduce.

Úvod do kurzu Hadoop a MapReduce

Jazyk: Angličtina.

Úroveň: priemer.

Špeciálne požiadavky

Študenti sa naučia základy práce s Hadoopom a osvoja si, ako ich používať pri práci s veľkými dátami. Inštruktori vám povedia, aké problémy Hadoop rieši, vysvetlia pojmy HDFS a MapReduce. Na konci kurzu sa študenti naučia písať programy pomocou programu MapReduce a získajú skúsenosti s riešením problémov samostatne.

Transformácia dát pomocou kurzu MongoDB

Jazyk: Angličtina.

Úroveň: priemer.

Špeciálne požiadavky: základné programátorské zručnosti v jazyku Python.

Transformácia údajov je proces čistenia údajov, aby sa s nimi neskôr ľahšie pracovalo. Doteraz tomu venujú niektorí vedci väčšinu času. Študenti sa naučia zhromažďovať a extrahovať údaje z najbežnejších formátov. Študenti sa naučia, ako merať kvalitu dát, a preskúmať najlepšie postupy čistenia dát pomocou MongoDB, jednej z popredných databáz NoSQL.

Práca s veľkými dátami

UCI strojové učenie

Zdroj podporuje 425 súborov údajov pre komunitu strojového učenia. Táto služba ponúka vysoko kvalitné, v reálnom živote a zrozumiteľné súbory strojového učenia, ktoré môžete použiť na precvičenie techník strojového učenia.

Kaggle

Platforma ponúka súťaže pre výskumných pracovníkov všetkých úrovní zručností, kde si môžu vyskúšať svoje modely na spoľahlivých a relevantných údajoch. Spoločnosť Kaggle poskytuje peňažnú odmenu za najlepšie riešenie.

Zoznam KDnuggets

KDnuggets je jedným z popredných webov pre business inteligenciu, veľké dáta, dolovanie dát, dátovú vedu a strojové učenie. Autori projektu zhromaždili na jednej strane 78 zdrojov otvorených údajov na spracovanie.

Zoznam Joe Rickert

Joe Riker pravidelne prispieva do komunity R. Zostavil zoznam stránok, kde možno nájsť otvorené údaje na analýzu v systéme R.

Požiadali sme Dianu Borisovú, IT inžinierku v Supermass Data Competence Center v Sberbank Technologies, aby komentovala zoznam a povedala nám o ďalších kurzoch, ktoré sa mi páčili.

Kniha samoukov Python 3 pre začiatočníkov - skvelé lekcie. Materiál je predstavený stručne a k danej téme. Tieto stránky používajú nielen začínajúci programátori, ale aj skúsení chlapci.

Samozrejme „Programovanie v Pythone“ vhodné pre ľudí, ktorí sa začínajú učiť Python. Existuje miesto, ale nie najlepšie. Základy sa rozprávajú dlho - je lepšie obrátiť sa na tutoriál.

Z plusov - úlohy rozvíjajú algoritmické myslenie, mínus - nie najoptimálnejšie riešenie niektorých úloh (znalosť určitých funkcií sa dá vyriešiť v dvoch riadkoch namiesto 15).

O TOM Základy a aplikácie v Pythone počul veľa dobrých recenzií. Pre začiatočníkov to bude ťažké. Preto je vhodnejšia pre tých, ktorí majú základné vedomosti.

„Základy programovania R“ - dobrý kurz pre tých, ktorí začínajú študovať R. Jasná a štruktúrovaná prezentácia, sú tu praktické úlohy, dávajte pozor na dôležité detaily.

Samozrejme "Analýza dát v R" vyučuje skvelý učiteľ a kurz je tiež vynikajúci. Po štúdiu matematickej štatistiky a základov programovania v R je tento kurz nevyhnutnosťou

„Základy štatistiky“ je skvelý kurz pre začiatočníkov. Teória je uvedená v jednoduchých a zrozumiteľných príkladoch bez toho, aby sme sa ponorili do dôkazov a bez veľkého množstva vzorcov. Prax pomáha upevňovať teóriu.

Samozrejme „Algoritmy: teória a prax. Metódy “ organizuje Centrum informatiky známe svojou dobrou expozíciou teórie programovania. Alexander je jedným z najlepších učiteľov v centre.

Kurz je vhodný pre tých, ktorí už majú určité znalosti algoritmov. Praktické úlohy pomáhajú spevniť materiál, pri niektorých úlohách budete musieť sedieť dlhšie.

Lepšie ako Andrej Raigorodský, učiteľ kurzu, nikto túto tému nevysvetlí. Všetko maškrtí, dáva jasné príklady. Kurz určite stojí za vašu pozornosť.

Po základných štatistikách môžete pokračovať v prehlbovaní svojich vedomostí v tejto téme a absolvovať druhý kurz. Anatolij Karpov predstavuje materiál čo najjasnejšie a najjednoduchšie.

Ďalší vynikajúci kurz od Bioinformatického ústavu. Pre začiatočníkov to môže byť trochu zložité. Kurz ale aj tak stojí za vašu pozornosť.

Táto stránka vám pomôže naučiť sa základy programovania v jazyku Python. Práce prebiehajú priamo v prehliadači. Najskôr si prečítate článok, potom vyriešite veľa praktických problémov od ľahkej po ťažkú \u200b\u200búroveň.

Kurz s dobrými recenziami. Myslím si, že pre tých, ktorí majú chromý matematický aparát, je kurz nevyhnutnosťou. Nie je nič lepšie ako teória spojená s praxou.

Diana Borisová

IT inžinier v Sberbank-Technologies Supermass Data Competence Center

Julia Perminová

Tréner vo Softline Training Center od roku 2008.

Základný nástroj na prácu s obrovským množstvom neštruktúrovaných údajov, z ktorého môžete rýchlo vyvodiť závery a neobťažovať sa ručným filtrovaním a triedením. Kontingenčné tabuľky je možné vytvoriť v niekoľkých krokoch a dajú sa rýchlo prispôsobiť podľa toho, ako chcete zobraziť výsledky.

Užitočný doplnok. Môžete tiež vytvoriť kontingenčné tabuľky na základe kontingenčných tabuliek, ktoré sa pri zmene automaticky aktualizujú. Je to užitočné, ak napríklad potrebujete pravidelne vytvárať prehľady pre rovnaké parametre.

Ako pracovať

Počiatočné údaje môžu byť akékoľvek: údaje o predaji, zásielkach, dodávkach atď.

  1. Otvorte súbor s tabuľkou, ktorej údaje chcete analyzovať.
  2. Prejdite na kartu Vložiť → Tabuľka → Kontingenčná tabuľka (pre macOS na karte Údaje v skupine Analýza).
  3. Malo by sa zobraziť dialógové okno Vytvorenie kontingenčnej tabuľky.
  4. Prispôsobte si zobrazenie údajov, ktoré máte v tabuľke.

Pred nami je tabuľka s neštruktúrovanými údajmi. Môžeme ich usporiadať a prispôsobiť zobrazenie údajov, ktoré máme v tabuľke. „Súčet objednávok“ posielame do „Hodnoty“ a „Predajcovia“, „Dátum predaja“ - do „Riadkov“. Podľa údajov rôznych predajcov za rôzne roky boli sumy okamžite vypočítané. V prípade potreby ho môžete rozšíriť každý rok, štvrťrok alebo mesiac - získame podrobnejšie informácie za konkrétne obdobie.

Množina možností bude závisieť od počtu stĺpcov. Napríklad máme päť stĺpcov. Musíte ich len správne umiestniť a zvoliť to, čo chceme ukázať. Povedzme sumu.

Môžete to podrobne uviesť napríklad podľa krajiny. Prenášame „Krajiny“.

Výsledky si môžete pozrieť podľa predajcu. Zmeníme „Krajina“ na „Predajcovia“. Pre predajcov budú výsledky nasledovné.

Tento spôsob vizualizácie geograficky odkazovaných údajov vám umožňuje analyzovať údaje a nájsť vzory, ktoré majú regionálny pôvod.

Užitočný doplnok. Nie je potrebné nikde registrovať súradnice - stačí len správne uviesť zemepisný názov v tabuľke.

Ako pracovať

  1. Otvorte súbor s tabuľkou, ktorej údaje chcete zobraziť. Napríklad s informáciami o rôznych mestách a krajinách.
  2. Pripravte údaje na zobrazenie na mape: „Domov“ → „Formátovať ako tabuľku“.
  3. Vyberte rozsah údajov na analýzu.
  4. Na karte Vložiť sa nachádza tlačidlo 3D mapa.

Body na mape sú naše mestá. Jednoducho nás však mestá veľmi nezaujímajú - je zaujímavé sledovať informácie spojené s týmito mestami. Napríklad sumy, ktoré sa dajú zobraziť cez výšku stĺpca. Keď umiestnite kurzor myši na stĺpec, zobrazí sa čiastka.

Koláčový graf podľa rokov je tiež dosť informačný. Veľkosť kruhu je daná súčtom.

3. Prognóza

Pri plánovaní často existujú sezónne vzorce v obchodných procesoch, ktoré je potrebné zohľadniť. Hárok s prognózami je najpresnejším prognostickým nástrojom v programe Excel ako všetky funkcie, ktoré boli predtým a sú teraz. Môže byť použitý na plánovanie činností obchodných, finančných, marketingových a iných služieb.

Užitočný doplnok. Na výpočet prognózy budete potrebovať údaje za predchádzajúce obdobia. Presnosť predpovedí závisí od množstva údajov za určité obdobia, najlepšie minimálne rok. Požadujete rovnaké intervaly medzi dátovými bodmi (napríklad mesiac alebo rovnaký počet dní).

Ako pracovať

  1. Otvorte tabuľku s údajmi za obdobie a zodpovedajúcimi ukazovateľmi, napríklad za rok.
  2. Vyberte dva riadky údajov.
  3. Na karte Údaje v skupine kliknite na tlačidlo Predikčný list.
  4. V okne Vytvoriť hárok predikcie vyberte graf alebo stĺpcový graf, ktorý vizuálne predstavuje predpoveď.
  5. Vyberte dátum ukončenia prognózy.

V príklade nižšie máme údaje za roky 2011, 2012 a 2013. Je dôležité uviesť nie čísla, ale časové obdobia (to znamená nie 5. marca 2013, ale marec 2013).

Na predpoveď na rok 2014 potrebujete dve série údajov: dátumy a príslušné hodnoty indikátorov. Vyberieme oba riadky údajov.

Na karte „Údaje“ v skupine „Prognóza“ kliknite na „Predpoveďový list“. V zobrazenom okne „Vytvoriť hárok prognózy“ vyberte formát prezentácie prognózy - graf alebo histogram. V poli „Koniec prognózy“ vyberte dátum ukončenia a potom kliknite na tlačidlo „Vytvoriť“. Oranžová čiara je predpoveď.

4. Rýchla analýza

Táto funkcionalita je možno prvým krokom k tomu, čo sa dá nazvať business intelligence. Je pekné, že táto funkcia je implementovaná používateľsky najpríjemnejším spôsobom: požadovaný výsledok sa dosiahne iba niekoľkými kliknutiami. Nemusíte nič počítať, nemusíte si zapisovať žiadne vzorce. Stačí zvoliť požadovaný rozsah a zvoliť si, aký výsledok chcete dosiahnuť.

Užitočný doplnok. Môžete okamžite vytvoriť rôzne typy grafov alebo iskier (mikrofotografie priamo v bunke).

Ako pracovať

  1. Otvorte údajovú tabuľku na analýzu.
  2. Vyberte rozsah, ktorý chcete analyzovať.
  3. Keď je vybraný rozsah, v dolnej časti sa vždy zobrazí tlačidlo „Rýchla analýza“. Okamžite sa ponúkne, že s údajmi urobí niekoľko možných akcií. Napríklad vyhľadajte súčty. Zistíme sumy, sú uvedené nižšie.

Rýchla analýza má tiež niekoľko možností formátovania. V bunkách samotného histogramu vidíte, ktoré hodnoty sú väčšie a ktoré menšie.

Do buniek môžete vložiť aj viacfarebné ikony: zelená - najvyššie hodnoty, červená - najmenšia.

Dúfame, že tieto techniky pomôžu urýchliť vašu prácu s analýzou údajov v programe Microsoft Excel a rýchlo dobyť výšky tejto zložitej, ale z hľadiska práce s číslami tak užitočnej aplikácie.

Hovorme o tých, ktorí pracujú s veľkými dátami, a o znalostiach, ktoré sú pre to potrebné.

Existuje stereotyp, že s veľkými dátami pracujú iba IT oddelenia, programátori a matematici. V skutočnosti toto mladé odvetvie obsahuje pomerne veľa povolaní: od inžiniera po špecialistu na rozprávanie údajov. V rámci špeciálneho projektu sme spolu s IE Business School T&P hovorili s Josephom Curtom, analytikom, obchodným konzultantom a podnikateľom, o multifunkčnosti, schopnosti ovplyvňovať globálne procesy a veľkých dát v poľnohospodárstve.

Joseph Curto

výkonný riaditeľ nezávislej konzultačnej spoločnosti Delfos Research, docent na IE School of Social, Behavioral & Data Sciences

- Špecialista na veľké dáta - kto je to?

Predpokladá sa, že špecialista na veľké dáta je super profesionál, superman s obrovským počtom rôznych schopností. Do istej miery je to pravda, pretože okrem iného musí dobre rozumieť podnikaniu. Samozrejme, pre jedného človeka je ťažké vedieť všetko všeobecne, preto pracujeme najčastejšie v tímoch - je to oveľa produktívnejšie. Napríklad jeden z mojich kolegov je špecialista iba na vizualizáciu údajov a rozprávanie dát. Vytvára ohromujúcu infografiku, ktorá dokáže rozprávať akýkoľvek príbeh v číslach. Hlavné je mať 360-stupňový uhol pohľadu, ktorý prichádza so skúsenosťami. Sám mi to trvalo takmer 15 rokov.

- Aké pozadie je lepšie mať, ak chcete pracovať s veľkými dátami?

V Big Data existuje veľa rôznych rolí: napríklad môžete byť Big Data Engineer (tj. Inžinier) alebo analytik, čo sú úplne odlišné funkcie. Základné veci sú vedomosti z matematiky, štatistiky a informatiky.

- Popíšte hlavné fázy práce špecialistu na veľké dáta?

Pracujeme v rôznych oblastiach: financie, maloobchod, právny priemysel. Jednou z najdôležitejších rolí je stratég: v prvej fáze väčšina spoločností jednoducho nevie, ako začať s veľkými dátami. Okrem toho je niekedy veľmi ťažké pochopiť, aký problém spoločnosti je spojený s týmito údajmi a ako ich vyriešiť.

Najdôležitejšie je najskôr identifikovať problém, ktorému spoločnosť čelí. Realizujeme workshopy, kde hovoríme o možnostiach Big Data. V procese práce musíme transformovať prácu vo firme, ale našou prvou prioritou je vyriešiť problém. Rozprávame sa s klientom, kladieme veľa otázok o všetkých oblastiach činnosti. V priebehu týchto rozhovorov sa objavujú obrovské zoznamy položiek a úloh, ktoré vezmeme do úvahy a na ktorých budeme pracovať. Hlavným cieľom, ktorý sledujeme pri práci s Big Data, je schopnosť lepšie pochopiť spotrebiteľa, produkt, zamestnancov, dodávateľov. Big Data pokrýva všetky oblasti spoločnosti.

Po zhromaždení informácií prediskutujeme všetky problematické body a pochopíme, či súvisia s big data. Niektoré problémy môžu súvisieť s niečím iným - napríklad s nedostatočnou motiváciou zamestnancov. Musíme teda skrátiť celý zoznam a nechať len problémy, ktoré sa týkajú našej kompetencie. Ak sa chcete dozvedieť viac o svojich tržbách, znamená to, že by ste o nich mali mať prehľad. To je niekedy dosť ťažké. Napríklad v obchodoch by ste mali byť schopní sledovať každý nákup. Toto však nie je problém veľkých dát. To znamená, že si stačí kúpiť systém na sledovanie nákupov. Aby mohla spoločnosť Big Data specialist začať, musí niekedy podstúpiť rad významných zmien.

Ďalším krokom je zostavenie zoznamu odporúčaní. Potom diskutujeme o budúcej stratégii spoločnosti tak, ako si to želajú manažéri. Implementácia veľkých dát nie je len o prijatí jedného špecialistu, ale aj o zmene myslenia všetkých zamestnancov. Je veľmi dôležité, aby každý pochopil, čo robí človek, ktorý si hovorí špecialista na veľké dáta. Je veľmi dôležité vyvrátiť mýtus, že Big Data sú iba časťou IT oddelenia. Po definovaní stratégie navrhujeme spôsoby jej implementácie.

- Aké základné zručnosti by mal mať špecialista na veľké dáta?

Hlavnou vecou je schopnosť pracovať s veľkým množstvom informácií a znalostí technológií: sú ich už stovky a každý mesiac sa objavujú nové. Zároveň musí mať vedecké myslenie, byť veľmi zvedavý. Je veľmi dôležité vedieť myslieť z obchodného hľadiska. Dovoľte mi, aby som vám pripomenul, že môžete byť na niečo úzkym špecialistom a byť užitočným členom tímu a niesť zodpovednosť za svoju časť procesu.

- Kde takíto špecialisti najčastejšie pracujú?

Sme veľmi často zapojení ako odborníci; veľa mojich kolegov kombinuje vedeckú prácu s výučbou.

- Aké odvetvia najviac potrebujú veľké dáta?

Verím, že úplne všetko. Big Data sa v poslednej dobe čoraz viac využívajú v bankovom sektore, verejnej správe a poľnohospodárstve. Angažovanie špecialistu na veľké dáta je príležitosťou pozrieť sa na dostupné dáta z rôznych uhlov pohľadu. Niekedy sa so študentmi pozeráme na veľmi jednoduché súbory údajov - napríklad tabuľky iba s tromi stĺpcami (dátum, číslo zákazníka a suma nákupu). Aj keď sa to môže javiť ako primitívne, ukážem študentom, koľko nových informácií z nich môžu získať. Aj keď nemáte veľa údajov, môžete robiť predpovede a závery.

- Ako by sa malo zmeniť vzdelávanie špecialistov na Big Data?

Hlavnou vecou je školenie multifunkčných špecialistov. Je dôležité venovať dostatočnú pozornosť matematike a informatike, študovať nové technológie, prístupy (napríklad NoSQL). Najdôležitejšou vecou je analytické myslenie. Toto je prvá vec, ktorú učím svojich študentov. Špecialista na veľké dáta pozná matematiku, technológie a myslí kriticky. Je dôležité mať na pamäti - nikdy nemôžete vedieť všetko, je to nemožné, ale musíte vedieť vyhľadávať a analyzovať informácie.

- V ktorej najobvyklejšej oblasti ste pracovali?

Niet pochýb o tom, že ide o poľnohospodárstvo. Toto odvetvie má širokú škálu procesov, zatiaľ čo sú úplne nepripravené na nové technológie. Musíte sa naučiť hovoriť ich jazykom a pochopiť, s akými úlohami sa spoločnosti stretávajú. Napríklad je veľmi bežné čeliť výzve znižovania spotreby vody, ktorá sa každý deň v poľnohospodárstve využíva v obrovských množstvách. Byť schopný pomôcť pri riešení týchto problémov je úžasné. Poľnohospodárske organizácie sú nútené byť pragmatické a spoločnosť Big Data im v tom pomáha.

Špecialisti na veľké dáta sú novým typom profesionálov. Musíte pochopiť, že najúžasnejšou vecou na tejto práci je schopnosť výrazne ovplyvňovať globálne procesy. Je to ako práca detektíva. Vy určíte, čo sa stalo, kde a prečo. Môžete pomôcť spoločnostiam pochopiť, prečo prichádzajú o peniaze a zákazníkov, ako tomu zabrániť a zvýšiť v budúcnosti zisky.

Jurij Kotikov

strategy Consultant at Ericsson, absolvent Master in Management IE Business School

Nemôžem inak, ako súhlasiť s kolegom. Veľké dáta v organizáciách skutočne začínajú predovšetkým nie nákupom drahého vybavenia, softvérových riešení alebo analýzou súborov dát, ale definíciou cieľov, ktoré je možné dosiahnuť pomocou analytiky, ako aj správnym prístupom k procesom ich implementácie.

Napríklad takmer všetci poprední svetoví mobilní operátori vytvárajú špecializované divízie pre Big Data, ktoré majú bezplatný prístup k dátam v rámci spoločnosti, ako aj podporu vrcholového manažmentu a akcionárov. Toto je jeden z kľúčových faktorov úspechu v projektoch Big Data, ktoré zahŕňajú veľa funkcií a spôsobujú významné zmeny v procesoch spoločností.

Metodicky dôležitým faktorom je takzvaný Lean Startup Approach - flexibilný prístup k riešeniu obchodných problémov pomocou Big Data. Namiesto zdĺhavého procesu vývoja finálneho komplexného modelu alebo produktu založeného na veľkých dátach je potrebné postupovať v malých iteráciách a rýchlych výhrach a pravidelne dostávať spätnú väzbu od kľúčových zákazníkov riešenia. Napríklad Telefónica sa spočiatku zameriavala na maloobchodníkov pri vývoji svojho riešenia Smart Steps pomocou agregovaných údajov o polohe predplatiteľa. Prevádzkovateľ plánoval poskytnúť zákazníkom údaje o pohybe osôb v určitých uliciach mesta. Vďaka pravidelnej spätnej väzbe bola Telefónica schopná rozhodnúť o nevyhnutnom strategickom obratu, ktorý zmenil zameranie produktu na analýzu tokov cestujúcich v sektore dopravy.

Pokiaľ hovoríme o špecialistoch v odbore Big Data, potom je podľa nášho názoru kľúčovou kvalitou pre technických aj manažérskych špecialistov krížová funkčnosť. Mať celú škálu zručností v oblasti analýzy údajov je takmer nemožné. Technici však musia mať základné znalosti o fungovaní podniku a manažéri musia rozumieť základným princípom analýzy. Preto majú vzdelávacie programy v oblasti veľkých dát, ktoré kombinujú technickú časť, obchodné aspekty a ponorenie sa do určitých priemyselných odvetví, dobrú šancu pripraviť pracovníkov požadovaných na trhu.

Odporúčané učebné osnovy: Magisterský titul v odbore obchodná analytika a veľké dáta

Master of Business Analytics and Big Data je moderný program zameraný na ponorenie do štyroch oblastí znalostí týkajúcich sa oblastí podnikovej analýzy a veľkých dát: Big Data Technologies, Data Science, Business Transformation, Professional Skills. Program sa skladá z troch termínov, z ktorých každé končí praktickým projektom vrátane startupu Big Data a konzultačného projektu.

Spoločnosti hľadajú dynamických odborníkov z rôznych oblastí - skúsenosti v podnikaní, IT, znalosti ekonomiky, matematiky a príbuzných vied a schopní pracovať s informáciami: zhromažďovať, analyzovať a interpretovať údaje.

Obrovská škála rôznych platforiem a nástrojov na analýzu údajov môže zmiasť každého profesionála, ktorý stojí pred úlohou vybudovať obchodný proces založený na pokročilej analýze podnikových údajov. Strojové učenie a hĺbková analýza údajov už nie sú nové. Toto je povinná položka, bez ktorej nemôže podnik v modernom svete normálne konkurovať. Analýza zhromaždených informácií je kľúčom k zlepšeniu výkonnosti podniku. Ale na to musíte mať a používať nástroje na analýzu dát. Ktoré? Pozrime sa na túto otázku. Zostavili sme pre vás najkompletnejší zoznam rámcov, platforiem, riešení a pokročilých analytických systémov na trhu.

Zdá sa, že vďaka nízkym nákladom na distribuované výpočty a rýchlosti spracovania je program Hadoop for Big Data rovnako dôležitým riešením ako všetky ostatné softvérové \u200b\u200bprodukty. Akýkoľvek zoznam platforiem Big Data s otvoreným zdrojom začína u železného slona, \u200b\u200bale Hadoop nie je jediným základným kameňom.

1 Hadoop

Presto podporuje ANSI SQL, čo znamená, že okrem JSON, ARRAY, MAP a ROW môžete používať štandardné dátové typy SQL, funkčnosť okien a agregačné a agregačné funkcie.

V porovnaní s Hive má Presto nevýhodu: viac sa podieľa na vývoji, konštrukcii a nasadení funkcií definovaných používateľom. Napriek tomu je Presto považované za jeden z najlepších nástrojov s otvoreným zdrojom pre analýzu veľkých dát.

7 Vŕtačka

9 IBM SPSS Modeler

Platforma IBM SPPS Modeler Platform je komerčným konkurentom spoločnosti RapidMiner, ktorá má nízku vstupnú lištu pre začiatočníkov. Zrozumiteľnosť pre začiatočníkov poskytujú režimy „autopilot“. Automatické modely (Auto Numeric, Auto Classifier) \u200b\u200bvymenúvajú niekoľko možných modelov s rôznymi parametrami a spomedzi nich určujú to najlepšie. Menej skúsený analytik môže na takomto riešení postaviť adekvátny model.

Medzi hlavné vlastnosti SPSS patria:

Užívateľské rozhranie SPSS sa neustále zdokonaľuje, aby bol systém intuitívny. Jednoduché úlohy, ako je vytváranie vzorcov, si nevyžadujú nijakú prípravu. To všetko robí z IBM SPSS Modeler dobré riešenie pre analýzu údajov pre začiatočníkov.

Všetky výhody modelu IMB SPSS Modeler môžu byť zatienené jednou nevýhodou, ktorá oddeľuje veľké publikum používateľov. Jedná sa o to, že tento systém nie je najlepším nástrojom na analýzu veľkých dát. Atribúty, vďaka ktorým je SPSS ľahko použiteľný, sú príliš obmedzené na prístupy veľkého rozsahu pri práci s technológiami veľkých dát. Vo veľmi zlých prípadoch SPSS jednoducho „spadne“ z preťaženia.

IBM SPSS Modeler však zostáva populárny pre svoje jednoduché použitie a nenáročné rozhranie.

10 KNIME

Analytická platforma Qlik ponúka plný prístup k motoru asociatívneho indexovania údajov QIX, ktorý umožňuje nadviazať vzťahy medzi viacerými zdrojmi informácií, ktoré sú zvyčajne skryté v hierarchických údajových modeloch. „Trik“ spočíva v tom, že QIX používa Qlik pri vytváraní ďalších riešení. QIX Engine používa stĺpcové rozloženie údajov v pamäti na zabezpečenie vysoko výkonného indexovania a kompresie. V praxi to umožňuje ťažbu dát vo voľnejšej podobe bez potreby preddefinovania možných užívateľských otázok. Programátori zase môžu rýchlejšie vytvárať aplikácie založené na technológiách Big Data a používatelia môžu rýchlo dostávať odpovede.

Architektúra platformy Qlik Analytics obsahuje nasledujúce prvky:

  1. Qlik Management Console (QMC) a Dev Hub.
  2. Aplikačné programové rozhrania (API) a vývojové kity (SDK) spoločnosti Qlik Sense.
  3. Podporné služby pre Qlik Engine a Qlik Sense.

Platformu na analýzu údajov Qlik možno použiť na vývoj analytických aplikácií, informačných služieb alebo platforiem IoT. Poskytnutie dobrých vizuálnych a interaktívnych schopností systému umožňuje používateľovi lepšie preskúmať dostupné údaje.

12

Toto je platforma vyvinutá v Rusku. Systém poskytuje najkompletnejšiu sadu metód pre dolovanie údajov. STATISTICA Data Miner predovšetkým implementuje nástroje na predspracovanie, filtrovanie a čistenie údajov, ktoré vám umožňujú efektívne vyberať funkcie zo stotisíc možných prediktorov.

Funkciou tejto platformy je schopnosť získať priamy prístup k databázam aj bez vykonania explicitných operácií exportu a importu. Softvér je schopný spracovávať, čítať a zapisovať údaje takmer zo všetkých štandardných súborov. Samotné prediktívne modely je možné generovať v rôznych formátoch (PMML, C ++, C #, Java, SAS, procedúry uložené v databáze).

Používatelia berú na vedomie, že vďaka integrovanému Sprievodcovi ťažbou dát, ktorý vykonáva automatické vytváranie modelov, je STATISTICA Data Miner vynikajúci pre ľudí, ktorí nesúvisia s vývojom softvéru (napríklad marketingoví analytici). Napriek tomu široká škála klastrovacích metód, architektúry neurónových sietí, klasifikačné a regresné stromy, multivariačné modelovanie, sekvenčná analýza, asociácie a vzťahy robia z tejto platformy silný nástroj v rukách odborníka.

Upozorňujeme tiež, že spoločnosť nedávno predstavila nový produkt - STATISTICA Big Data Analytics, ktorý, ako už z názvu vyplýva, dopĺňa zoznam softvérov na analýzu veľkých dát. Táto platforma je škálovateľná; môže vytvárať výbery pomocou MapReduce, vyhľadávať na stroji Lucene / SOLR, vykonávať analytiku Mahout, pracovať v cloude a pomocou textu na spracovanie prirodzeného jazyka. A ak integrujete STATISTICA Big Data Analytics s podnikovou verziou STATISTICA Enterprise, umožní vám to implementovať Big Data Analytics na podnikovej úrovni.

13 Inteligentná dátová platforma Informatica

Informatica nazýva svoj vývoj „virtuálnou dátovou cestou“. Inteligentná dátová platforma Informatica poskytuje inteligentné a riadiace služby, ktoré dokážu pracovať s najpopulárnejšími dátami a formátmi: web, sociálne médiá, protokoly strojov.

Táto inteligentná platforma na analýzu údajov obsahuje Vibe, virtuálny modul, ktorý integruje namapované údaje raz a potom ich spúšťa vo viacerých prostrediach. Rovnako ako STATISTICA Data Miner, aj Informatica IDP je založená na rozhraní drag-and-drop, to znamená, že používateľovi stačí iba pretiahnuť potrebné prvky do pracovného prostredia a všetky pokyny systém vygeneruje automaticky.

Hlavnou „vlastnosťou“ inteligentnej dátovej platformy Informatica je prístup k zadávaniu štruktúrovaných, pološtruktúrovaných a neštruktúrovaných údajov na rovnakej sémantickej vlnovej dĺžke. Porozumenie medzi týmito údajmi je možné prostredníctvom mapovacích prístupov, heuristiky a porovnávania vzorov.

Informatica, ktorá je považovaná za jedného z popredných hráčov v oblasti analýzy veľkých dát, je hrdá na to, že je jedinou platformou, ktorá získala ocenenia od spoločností Gartner a Forrester takmer v každej kategórii správy dát.

Architektonicky sa inteligentná dátová platforma Informatica skladá z 3 vrstiev:

  1. Vibe je vyššie uvedený nástroj na manipuláciu s akýmkoľvek typom údajov. Pretože Vibe je teraz zabudovaný modul, sprístupňuje údaje všetkým bez ohľadu na umiestnenie alebo formát. Pretože je Vibe implementovaný ako virtuálny stroj, motor môže bežať na ľubovoľnej lokálnej serverovej platforme, klastroch Hadoop alebo cloudových službách.
  2. Dátová infraštruktúra. Dátová vrstva infraštruktúry leží nad virtuálnym strojom Vibe. Zahŕňa všetky služby určené na automatizáciu nepretržitého poskytovania čistých, zabezpečených a pripojených údajov v akomkoľvek rozsahu na ľubovoľnú platformu, klaster Hadoop alebo cloudovú službu.
  3. Data Intelligence. Inteligentná dátová vrstva je umiestnená na vrchole dátovej infraštruktúry. Zhromažďuje metadáta, sémantické údaje a ďalšie informácie z celej platformy. Po zhromaždení údajov ich Data Intelligence segmentuje, aby sa uľahčilo ďalšie spracovanie. Úlohou tejto vrstvy je poskytnúť metódy na spracovanie veľkých dát. Hovoríme o analytike, business inteligencii (BI) aj o operačnom spravodajstve (OI) v reálnom čase. V poslednej dobe rozšírila Data Intelligence zoznam „zručností“ Informatica IDP so strojovým učením.

Takže hlavnými charakteristikami platformy pre analýzu údajov od spoločnosti Informatica sú hybridná štruktúra, ktorá vám umožňuje pripojiť ľubovoľnú aplikáciu k akémukoľvek zariadeniu, systematická a globálna povaha údajov, ako aj demokratizácia údajov, čo vylučuje potrebu, aby používateľ mal zručnosti v oblasti vývoja softvéru a znalosti programovacieho jazyka na analýzu informácií. ...

Data Lake je zodpovedný za konsolidáciu údajov do jedného úložiska. Táto zložka eliminuje zložitosť ukladania sila dát spojenú s veľkým množstvom rôznorodých informácií. Data Curator je založený na hodnotách z dátového jazera a poskytuje jednotný formát pre všetky študované a indexované súbory údajov, a to zo samotného Data Lake aj z externých zdrojov. Podľa spoločnosti Dell EMC šetrí dátový kurátor až 80% času vedca v oblasti údajov pri príprave informácií na analýzu. Data Governor obsahuje informácie o pôvode údajov a zaisťuje ich bezpečnosť počas celého procesu analýzy. Kurátor údajov vám tiež umožňuje vidieť a používať súbory údajov vo formáte „end-to-end“.

Celkovo s modulom Dell EMC Analytic Insights môže používateľ:

  • preskúmajte, používajte a indexujte všetky údaje v jednom formáte pomocou Data Curator;
  • zistite pôvod, zaistite správu a zabezpečenie všetkých aplikácií a dátových skladov pomocou Data Governor;
  • transformovať všetky dôležité informácie do dátovo orientovaných aplikácií a obchodných modelov.

21 Windows Azure HDInsight

Azure Machine Learning poskytuje nielen schopnosť vytvárať modely prediktívnej analýzy, ale poskytuje aj plne spravovanú službu, ktorú môžete použiť na nasadenie prediktívnych modelov ako webové služby pripravené na použitie.

So všetkou svojou funkčnosťou nemožno povedať, že Azure Machine Learning spotrebúva finančné zdroje v gigantickom meradle. Keďže služba beží na verejnom cloude Azure, nie je potrebné kupovať samotný hardvér alebo softvér.

Je možné, že práve Azure Machine Learning je dnes najlepším nástrojom na prácu so strojovým učením.

23 Integrácia údajov spoločnosti Pentaho

Systém Pentaho Data Integration (PDI) je súčasťou balíka Pentaho suite, ktorý je zodpovedný za proces extrakcie, transformácie a vykládky dát (ETL). Napriek skutočnosti, že systémy ETL sa majú používať ako súčasť komplexu na ukladanie údajov, možno nástroje PDI použiť na:

  • výmena údajov medzi aplikáciami alebo databázami;
  • export údajov z databázových tabuliek do súborov;
  • načítanie dátových polí do databáz;
  • spracovanie dát;
  • integrácia do aplikácií.

Pentaho eliminuje potrebu písania kódu, pretože celý vývojový proces prebieha vo vizuálnej podobe, čo dáva dôvod hovoriť o PDI ako o metaúdajovo orientovanom systéme. Vďaka pracovnému panelu a interaktívnym grafickým nástrojom môžu používatelia analyzovať údaje vo viacerých dimenziách.

Pentaho Data Integration uľahčuje integráciu veľkého množstva dát pomocou nástroja drag-and-drop, ktorý presúva dáta z úložiska do úložiska veľkých dát. Systém je tiež schopný dopĺňať a kombinovať zdroje štruktúrovaných údajov s pološtruktúrovanými a neštruktúrovanými zdrojmi, aby vytvoril jeden obraz.

Nástroj je možné úplne personalizovať: používateľ má k dispozícii prispôsobenie vizualizácie, interaktívne správy, informačný panel a špeciálne analýzy. A keďže PDI je 100% platforma Java postavená na priemyselných štandardoch, ako je webová služba RESTful, integrácia s ľubovoľnou aplikáciou je jednoduchá.

24 Analýza spoločnosti Teradata Aster

Teradata Aster Analytics je nástroj, ktorý vám umožní pracovať s textom, grafikou, strojovým učením, vzormi a štatistikami v jednom rozhraní a syntaxi. Obchodní analytici a vedci v oblasti údajov môžu pomocou jedného dotazu vykonať komplexnú analýzu údajov z celého podniku. Teradata Aster Analytics má viac ako 100 integrovaných pokročilých analytických dotazov.

Tento nástroj umožňuje kombinovať Graph, R a MapReduce v jednom rámci. Vďaka všetkým funkciám, ktoré fungujú ako príkazy SQL, a všetkým analytickým motorom zabudovaným do nástroja, Aster Analytics poskytuje vysoký výkon pri spracovaní veľkého množstva údajov.

Teradata Aster Analytics je k dispozícii v rámci ekosystému Hadoop a služieb Amazon Web Services.

Aster Analytics na Hadoope:

  1. Rozširuje prípady použitia dátového jazera. Aster Analytics sprístupňuje železného slona väčšine obchodných analytikov so znalosťami SQL alebo R.
  2. Funguje natívne. Používatelia nemusia pre analýzu údajov presúvať údaje z Hadoopu na servery.
  3. Implementuje analytiku rýchlo. Používatelia môžu vytvárať sandboxové a runtime prostredia v rovnakom klastri Hadoop na rovnakých dátach.

Aster Analytics na AWS:

  1. Urýchľuje návratnosť investícií do podnikania. Spoločnosť môže rýchlo zaistiť analytické karantény v cloude a použiť vložený SQL na urýchlenie vývoja.
  2. Zvyšuje flexibilitu analytiky. Dátovému vedcovi je poskytnutá výkonná sada diverzifikovaných nástrojov: každý analytik môže nájsť vhodný nástroj na prácu s Big Data.
  3. Znižuje finančné zaťaženie. Spoločnosti môžu využívať vstavané pokročilé analýzy a súbory údajov bez potreby nového hardvéru.

25

Je to nástroj, ktorého cieľom je optimalizovať zdroje a zvýšiť ziskovosť v celej spoločnosti.

Integrácia odbornej analýzy s nástrojom Output Model Manager prináša rýchlejšie a presnejšie výsledky predpovedí a prináša prediktívne informácie o obchodných procesoch a aplikáciách - oblastiach, kde používatelia interagujú.

Vďaka SAP BusinessObjects Predictive Analytics môžete:

  • automatizovať prípravu dát, prediktívne modelovanie, nasadenie - a vďaka tomu je ľahké model preškoliť;
  • používať pokročilé možnosti vizualizácie na rýchlejšie vyvodenie záverov;
  • integrovať sa do programovacieho jazyka R a otvoriť prístup k veľkému množstvu vlastných skriptov;
  • spolupracovať so SAP HANA.

Predikčná analýza SAP BusinessObjects posúva hranice Sparku, aby zákazníkom poskytovala pokročilejšiu interaktívnu analýzu údajov. Aktuálna verzia nástroja umožňuje pripojenie k SAP HANA Vora a automatické prediktívne modelovanie. Využitím natívneho modelovania Spark na duplikovaných inštanciách Spark umožňuje SAP HANA Vora distribuované spracovanie automatizovaných algoritmov.

Upozorňujeme, že spoločnosť Forrester Research v apríli 2015 udelila spoločnosti SAP status lídra v prediktívnej analýze veľkých dát.

26 Príprava Oracle Big Data

Cloudová služba Oracle Big Data Preparation, ktorá je postavená na technológiách Hadoop a Spark, ponúka analytikom vysoko intuitívny a interaktívny spôsob prípravy štruktúrovaných, pološtruktúrovaných a neštruktúrovaných údajov na ďalšie spracovanie.

Rovnako ako väčšina vyššie uvedených nástrojov, aj Oracle Big Data Preparation sa zameriava na podnikových používateľov, takže služba sa ľahko používa. Škálovateľnosť vám umožňuje pracovať s iteračným strojovým učením v klastrovanom výpočtovom prostredí. Ďalšou výhodou Oracle Big Data Preparation je integrácia s radom cloudových služieb.

Pokiaľ ide o funkcie tohto nástroja, je možné ich rozdeliť na 4 časti: spotreba, rozšírenie, správa a publikácia a tiež intuitívne vytváranie.

Pri spotrebe (ingest) služba importuje a pracuje s heterogénnymi informáciami, čistí údaje (napríklad od nepodstatných znakov), štandardizuje dátumy, telefónne čísla a ďalšie údaje a tiež počíta a odstraňuje nepotrebné duplicitné údaje.

Prípona (obohatenie) by mala obsahovať definíciu kategórií údajov a identifikáciu ich charakteristík z hľadiska atribútov, vlastností a schém, detekciu metadát (detekcia schémy definuje schému / metadáta, ktoré sú priamo alebo nepriamo definované v hlavičkách, poliach alebo značkách).

Správa a publikácie (správa a publikácie) znamenajú interaktívny informačný panel, ktorý poskytuje jediný graf všetkých spracovaných súborov údajov s príslušnými metrikami a schopnosťami pre ďalší podrobný audit a analýzu. Rôzne formáty publikácií zase poskytujú maximálnu flexibilitu.

Zhrnutie

Preskúmali sme množstvo nástrojov na analýzu údajov od najlepších výrobcov riešení Big Data. Ako ste si mohli všimnúť, väčšina riešení je open source, to znamená, že sú open source. Existuje naozaj veľa rámcov, databáz, analytických platforiem a ďalších nástrojov, takže je od vás potrebné jasné pochopenie úlohy. Keď sa rozhodnete pre svoj cieľ, môžete ľahko zvoliť správny nástroj (alebo skupinu nástrojov), ktorý vám umožní vykonať plnohodnotnú analýzu údajov.