Kim bir veritabanı analistidir. Veri bilimi. Oleg Mikhalsky, Rus pazarı hakkında ve büyük veri alanında yeni bir ürün yaratmanın özellikleri

  • 27.06.2020

Veri yönetimi, birikmiş verilerin toplanması, depolanması, işlenmesi ve yorumlanmasını ima eden bir işlemdir. Günümüzde, veri yönetimi, daha önce toplanmış olan verileri, "öğrenin" rakipleri, tahmin edici analistler (tahmin) oluşturan, birçok iş sorunu yanıtlamak için mükemmel bir fırsattır.

Veri yönetimi

Veri yönetimi nedir? Ana işlemleri listeliyoruz:

  • Veritabanı Yönetimi
  • ETL işlemleri (özü, dönüşüm ve veri yükleme)
  • Veri toplama
  • Veri Koruma ve Şifreleme
  • Veri modellemesi
  • Aslında veri analizi

Yukarıdakilere dayanarak, başarılı veri yönetimi için gerekli olduğu açıktır:

  • Teknik sorunları çözün (bir veritabanı seçin, verilerin nerede saklanacağını belirler - bulutta, sunucuda vb.)
  • Yetkili İnsan Kaynaklarını Bul 🙂

Verileri yönetirken ana problemler

Verilerin toplanması, depolanması ve yorumlanması sırasında meydana gelen en yaygın hatalar ve zorluklar arasındadır:

  • Eksik veriler
  • "Test" verilerini (ve genellikle birbirlerini çeliştiren)
  • Eski veriler

Birçok soruda, böyle bir ürün, veri bagajının veribelleme aşamasında yardımcı olabilir, bu da farklı kaynaklardan veri bağlamaya yardımcı olur, bu da iş zekası sistemlerinde kullanmaya hazırlar.

Veri analizi

Zaten uygun bir miktarda gerekli ve önemli veri var mı? Şimdi, depolamaya ek olarak, analiz edilmeleri gerekir. Veri analizi birçok iş sorunu cevaplamanıza, ağırlıklı kararları benimsemek, "Alıcınızın", depo ve lojistik süreçlerini optimize edin. Genel olarak, veri analizi herhangi bir katta, herhangi bir seviyede herhangi bir şirkette önemlidir ve ihtiyaç vardır.

Veri analizi çözümü üç ana bloktan oluşur:

  • Bilgi deposu;
  • ETL prosedürleri (özü, dönüşüm ve veri yükleme);
  • Raporlama ve Görsel Analytics.

Bütün bunlar oldukça karmaşık görünüyor, ama aslında her şey bu kadar korkutucu değil.

Modern Analitik Çözümler

Analisti olmayan şirketleri neler yapmalı? Ve geliştirici programcısı yok mu? Ancak analitik yapmak için bir arzu var!

Tabii ki, bir çözüm var. Şimdi piyasa analitik için yeterli otomatik sistemler içeriyor ve - önemli olan nedir! - Verilerinizi görselleştirmek.

Bu tür sistemlerin avantajları nelerdir (Tip):

  • Hızlı bir şekilde uygulama yeteneği (programı indirin ve en azından dizüstü bilgisayarınıza yükleyin)
  • Karmaşık BT veya matematiksel bilgiye gerek yok
  • Düşük maliyet (Mart 2018 için lisans için ayda 2 000 ruble arasında)

Böylece, herhangi bir şirket böyle bir analitik ürünü uygulayabilir: içinde kaç çalışan çalışıyorum. Tablo, bireysel girişimciler ve büyük şirketler için uygundur. Nisan 2018'de BM, Tableau'yu dünyadaki tüm ofisleri için analitik bir platform olarak seçti!

Bu tür otomatik analitik sistemler ile çalışan şirketler, daha önce 6 saat içinde inşa edilen tablo raporlarının tabloda 10-15 dakika içinde tam anlamıyla toplandığını unutmayın.

İnanma? Kendinizi deneyin - Masau'nun ücretsiz denemesini indirin ve programla çalışmak için eğitim materyallerini alın:

Tableau'yu indirin.

Tableau Desktop'un tam sürümünü, 14 gün indirin ve hediye tablosu iş analisti eğitim materyalleri olarak alın

Ücretsiz öğrenme dersleri içeren sitelerin seçimi.

Yer imlerine

Headhunter'a göre, veri analitiklerinin ortalama maaşı, 120 bin ruble'dir. Malzeme, tarih analistleri ve bu alanda yetenek kazanabileceğiniz yerlerdeki temel gereksinimleri vurguladı.

Bu tür veri analistleri kimlerdir?

Büyük verilerle çalışan uzmanlar, her türlü kaynaktan faydalı bilgiler çıkarabilir ve iş çözümleri yapmak için analiz edebilir. Kural olarak, analistler farklı bilgilerle yüzleşir, bu nedenle gerekli verileri kaldırabilmek önemlidir.

Şimdi veri analisti mesleği, dünyadaki en çekici ve vaat edenlerden biri olarak kabul edilir. İyi bir analist olmak için, programlamadan daha fazla istatistikte anlamanız gerekir. Çünkü çalışırken, sorunu ve gerçek verileri tanımlayacak matematiksel modeller inşa etmeniz gerekir.

Veri analisti rastgele değerler ve olasılıksal modellerle çalışır, görevi beklenmeyen desenler bulmaktır. Bu nedenle, olasılık ve matematiksel istatistik teorisinin bilgisi, başvuru sahiplerinin ana gereksinimlerinden biridir.

Ayrıca R veya Python programlama dillerini bilmeniz ve büyük veriler için işleme teknolojileri hakkında bir fikir edinmeniz gerekir. Bu bilgi, tarih analitiklerinin ilk pozisyonuna hak kazanmak için yeterlidir.

İyi bir analist olmak için, sadece programlama veya istatistiklerle başa çıkmak için gerekli değildir, aynı zamanda mükemmel bir şekilde iyi tanır ve en önemlisi, hipotezleri kontrol edebilir ve sunabilir. Uygun kullanımı olan büyük veriler, büyük miktarda sınıf içgörü ve fikirleri, ürünün nasıl geliştirileceği veya önemli olanı belirleyeceğini içerir.

Ancak, çoğu görevin açık bir çözümü veya algoritması yoktur: bu konuda, veri analizi - iş çok yaratıcı. Bu önemlidir ve doğru görselleştirmeyi seçme yeteneği. Bazıları ve aynı veriler rastgele bir noktaya benzeyebilir veya doğru yaklaşımda çok ilginç şeyler söyleyebilir.

VKontakte'de, büyük miktarda veri ile çalışıyoruz - günde 20 milyardan fazla ölçüm. Hadoop kümesi hakkında bilgi topluyoruz ve çeşitli işleme araçlarını kullanıyoruz: basit soruların cevapları bize kovan ve daha karmaşık analistler, Spark, Pandas, Sklearn egzersiz yapmanıza yardımcı olur.

Ürün ve teknik ölçümleri ve A / B deneylerini analiz etmek için, ekibimiz, toplama ve görselleştirme tarafından geliştirilen veri toplama sistemini de kullanıyoruz. Verilerin analizi sayesinde, günlük onlarca bakkal hipotezini test ediyoruz ve ürünü sürekli olarak iyileştirmemize izin veren yüzlerce deney yapıyoruz, hizmetlerimizi daha rahat ve kişiselleştirmemizi sağlıyor.

Örneğin, 2015 yılında, haber yayınındaki kullanıcıların faaliyetini analiz etmeye başladık ve neyin iyileştirilebileceğini görmeye başladık. Çok sayıda araştırmadan sonra, her şeyi çok daha uygun hale getirebileceğimizi ve 2016'da her kullanıcı için ilginç ve faydalı bir "akıllı" bir kaset başlattıkları sonucuna vardık.

Seyircinin faaliyetini analiz etmeye sürekli devam ediyoruz. Bir noktada, uygulamada, kullanıcıların ilgi alanlarını genişletmek ve yeni yazarlarla tanışmak istediklerini bulduk. Bu nedenle, 2017 yılında "Öneriler" bölümü başlatıldı. Ve şimdi, yeni bir hizmette büyüyen aktiviteyi analiz etmek, doğru karar olduğunu görüyoruz.

Andrei yasaları

Büyüme ve Araştırma Direktörü "VKontakte"

Bilgi Python ve R

Kurs "Python Çalışma"

Dil: İngilizce.

Seviye: İlk.

Codecademy arayüzü

CodeCademy çevrimiçi platformu, Python'un etkileşimli bir çalışmasını sunar: bir sayfa kısa teorik bilgi ve kod tercümanı açıklar. Kurs, acemi kullanıcılar için tasarlanmıştır ve programlama dilinin temel komutlarını anlatır.

Kurs şartsız olarak ücretsiz olarak verilmektedir: Erişim Kontrol Görevleri ve Proje Çalışması yalnızca ücretli abonelik ile mümkündür. Özgür dersler basit tasarımları keşfetmek ve dilin sözdizimini anlamak için uygun olacaktır.

Öğretici "Yeni Başlayanlar İçin Python 3"

Dil: Rusça.

Seviye: İlk.

Musina Eğitimi, Rusça'da Python hakkında bilgi veritabanlarından biridir. Sitede Modüller, Pandas Kütüphanesi, teorik bilgi, görev örnekleri ve faydalı bağlantılar kullanılarak veri analizi hakkında bilgi bulunmaktadır. Ayrıca, yayınlanan makaleler temelinde, PDF formatında bir eğitim hazırlanır.

Kurs "Python'da Programlama"

Dil: Rusça.

Seviye: İlk.

Ders Öğretmenleri, programlamanın temel kavramlarını tanıtıyor. Ödev olarak, büyük miktarda pratik görev önerilmiştir - tüm çözümler otomatik sistemi kontrol eder. Aynı zamanda, öğretmenler bireysel tavsiyeler vermezler. Kurs ayrıca, kursu tamamlamaya karar vermek için gerekli olmadığı karmaşıklığın görevlerini de içeriyordu.

Kurs "Python: Temel Bilgiler ve Uygulama"

Dil: Rusça.

Seviye: orta.

Gereksinimler: Python veya diğer programlama dillerinde temel programlama becerileri.

Ders Öğrencileri Dilin temel tabanlarını inceleyin: Bir tercüman değişkenleri ve verileri depoladığı kodu yürütürken, kendi veri türleri ve işlevleri belirlenir. Kurs, temel programlama becerilerine aşina olan kullanıcılar için tasarlanmıştır.

Görevlerin doğrulanması iki türde bilgilendirilir: malzemeyi düzeltmek ve çalışılan becerilerin uygulanması için yöntemleri aramak için. Çözümler sistem tarafından kontrol edilir.

Kurs "Python'da Programlama Temelleri"

Dil: İngilizce.

Seviye: İlk.

Dinleyiciler üç temel konuyu inceliyor: fonksiyonların kullanımı, sınıfları oluşturma ve kullanma. Son ders kendi projelerini yaratmaya adanmıştır. Eğitim, mini projeler üzerinde çalışmaya ve önemli kavramları öğrenmektedir. Kurs, bir programcı olmak ya da onlarla çalışmak için plan yapmak isteyenlere yöneliktir.

Kurs "r programlamanın temelleri"

Dil: Rusça.

Seviye: İlk.

Bu derste, öğretmenler r programlama dili olarak görür ve belirli görevleri çözme bir araç olarak değil. Dinleyiciler, veri analizi ve işleme ile ilgili konuların yanı sıra ana veri ve evrensel anlamsal kural türlerini inceliyorlar.

Ders "R 'de Veri Analizi"

Dil: Rusça.

Seviye: orta.

Gereksinimler: İstatistik alanındaki temel bilgiler.

Öğretmenler, R dilini kullanarak veri analizinin ana aşamalarını açıklar. Öğrenciler istatistiksel analizlerin ana aşamalarını, okuma ve ön işleme verilerinin, temel istatistiksel yöntemlerin uygulanması ve sonuçların görselleştirilmesi hakkında bilgi verecektir.

Kurs "Veri Bilimi'nde R Programlama"

Dil: İngilizce.

Seviye: orta.

Gereksinimler: Kurs, istatistiksel projeler üzerinde çalışmak için bilgiye ihtiyaç duyan analistlere odaklanmıştır.

Kurs, Microsoft tarafından Danimarka Teknik Üniversitesi ile birlikte tasarlanmıştır. Kurs, R'nin temelleri hakkında söylenir, veri okumayı ve yazmayı öğrenin, onlarla çalışın ve sonuç alın. Ayrıca, öğretmenler, r kullanarak entelektüel analitiklerin nasıl yapıldığını ve verileri görselleştirmeyi açıklar.

DataCamp Projesi

Dil: İngilizce.

Seviye: İlk.

DataCamp Öğrenme Sistemi Arabirimi

DataCamp, bilim, istatistik ve makine öğrenmesi alanındaki konularda etkileşimli çalışma kursları R ve Python sunmaktadır. Proje verilerle çalışmaya odaklanır. DataCamp, RStudio, Continuum Analytics, Microsoft, Pfizer Lider şirketlerinden, Liberty Mutual, H2O, Datarobot ve diğerlerinden öğretmenleri cezbeder.

Ücretsiz abonelik, temel kurslara ve ödenen ilk bölümüne erişimi açar. Sınırsız erişim elde etmek için, ayda 29 $ veya yılda 300 $ için bir abonelik satın almanız gerekir.

İstatistik ve makine öğrenimi alanındaki bilgi

Kurs "İstatistiklerin Temelleri"

Dil: Rusça.

Seviye: İlk.

Ders çalışmaları, araştırma sırasında elde edilen verilerin açıklamalarına, istatistiksel analizin temel kavramları, elde edilen verilerin yorumlanması ve görselleştirilmesine yaklaşır. Ana odak, matematiksel fikirler, sezgi ve mantık, yöntemlere ve hesaplanan formüllere neden olur.

"Algoritmalar: Teori ve Uygulama. Yöntemler "

Dil: Rusça.

Seviye: orta.

Gereksinimler: Programlama dillerinden birinin alanında bilgi: Döngü, diziler, listeler, kuyruklar.

Temel algoritmik yöntemler şudur: "Açgözlü" algoritmalar, "bölün ve fethet" yöntemi, dinamik programlama. Tüm yöntemler için, öğretmenler matematiksel doğruluk kanıtını ve çalışma süresinin değerlendirilmesini gösterir.

Ayrıca, kurs, C ++, Java ve Python'daki algoritmaların uygulanmasının özellikleri hakkında söylenir. Kursta tartışılan çoğu algoritma görevlerin bir parçası olarak programlanmalıdır.

"Tanımlayıcı İstatistiklere Giriş" dersi

Dil: İngilizce.

Seviye: İlk.

Ders dinleyicileri, verileri tanımlamak için kullanılan temel kavramlarla tanışacaktır. Öğretmenler araştırma yöntemlerinden bahseder, istatistiksel değerleri hesaplamayı ve yorumlamayı öğretir, basit olasılıkları hesaplar. Öğrenciler dağıtım yasalarını keşfedecek ve olasılıksal veri tahminlerini yaratmayı öğreneceklerdir.

Kurs "İstatistiksel Sonuç'a Giriş"

Dil: İngilizce.

Seviye: İlk.

Gereksinimler: Kursu geçmek "Tanımlayıcı istatistiklere giriş".

Kurs, bariz olmayan verilerin incelenmesine adanmıştır. Öğrenciler, seçici istatistikleri kullanarak parametrelerin derecelendirmesini keşfedecek, hipotezleri ve güven aralıklarını test etmeyi öğreneceklerdir. Öğretmenler, T-Kriter ve Dağılım Analizi, Korelasyon ve Regresyonun çalışmalarını ve ayrıca istatistiksel hipotezlerin diğer yöntemlerini açıklar.

Kurs "veri bilimine giriş"

Dil: İngilizce.

Seviye: orta.

Gereksinimler: Python'da temel programlama becerileri.

Ders dinleyicileri, veri yönetimi temel kavramlarını araştıracak: veri yönetimi, istatistiksel ve makine öğrenme yöntemlerini kullanarak veri analizi, bilgilerin iletimi ve görselleştirilmesi, büyük verilerle çalışın.

Kurs "Makineye Giriş"

Dil: Rusça.

Seviye: orta.

Gereksinimler: Matematik temelleri (fonksiyonlar, türevler, vektörler, matris), Python'da programlama becerileri hakkında bilgi.

Ders, makine öğreniminin yardımıyla çözülen ana görev türlerini tartışır: sınıflandırma, regresyon ve kümeleme. Dinleyiciler, modellerin kalitesini değerlendirmeyi ve modelin belirli bir görevi çözmek için uygun olup olmadığına karar vermeyi öğreneceklerdir. Öğretmenler, incelenen modellerin ve kalitelerini değerlendirme yöntemlerinin uygulandığı modern kütüphanelerden bahseder.

Ders "Veri Bilimi: Görselleştirme"

Dil: İngilizce.

Seviye: İlk.

Kurs, veri görselleştirme ve arama veri analizinin temelleri inceleniyor. Dinleyiciler, özel grafikler oluşturmak için R GGPLOT2 paketini kullanmayı öğreneceklerdir. Ayrıca, öğretmen verilerle çalışırken izin verilen ana hataları anlatır.

Kurs "Yapay zekaya giriş"

Dil: İngilizce.

Seviye: İlk.

Gereksinimler: Pratik görevler Microsoft Azure'a dayanır ve Azure aboneliği gerektirir.

Ders dinleyicileri, prognostik modeller oluşturmak için makine öğrenmesinin nasıl kullanılacağını öğreneceklerdir. Ders Öğretmenleri, doğal dili, görüntüleri ve videoyu işlemek ve analiz etmek için hangi yazılımın gerekli olduğunu söyleyecektir. Öğrenciler ayrıca entelektüel sohbet botları oluşturmayı da öğreneceklerdir.

Kurs "Makine eğitimi"

Dil: İngilizce.

Seviye: İlk.

Ders dinleyicileri, makine öğrenmenin etkili yöntemlerini öğrenecek ve uygulamalarının pratik becerilerini alacaklar. Öğretmenler ayrıca makine öğrenimi ve yapay zeka alanındaki Silikon Vadisi'nin en iyi uygulamalarını da anlatacaklar.

Kurs, makine öğrenimine, akıllı veri analizi ve istatistiksel modellerin tanınması yaygın giriş sağlar. Kurs, tematik çalışmalara ve pratik deneyimlere dayanmaktadır - öğrenciler "akıllı" robotlar oluşturmak için öğrenme algoritmalarını nasıl kullanacağını öğrenecekler, metni analiz eder, bilgisayar vizyonunda, tıbbi bilişim, ses, entelektüel analizinde bilgi veritabanları ve diğer bölgelerde beceriler alacaklar.

Büyük verilerin işlenmesi

Kurs "hadoop. Büyük veri hacimlerinin işlenmesi için sistem »

Dil: Rusça.

Seviye: orta.

HADOOP, büyük veri hacimlerini işlemek için popüler açık kaynak sistemlerinden biridir. Sistem kullanıcıları arasında - Facebook, Twitter, Yahoo!, Bing, Mail.ru. Dinleyiciler, büyük veri hacimlerinin işlenmesi için temel depolama yöntemlerini ve yöntemlerini keşfedecektir. Ayrıca, öğrenciler aynı zamanda MapReduce yazılım modelini kullanarak uygulamaları geliştirmeyi de öğrenilir.

Kurs "Hadoop ve MapReduce'a Giriş"

Dil: İngilizce.

Seviye: orta.

Özel gereksinimler

Ders dinleyicileri Hadoop ile çalışma vakıflarını inceleyecek ve büyük verilerle çalışmak için nasıl kullanılacağını öğreneceklerdir. Öğretmenler, Hadoop'un hangi sorunların çözüldüğünü söyleyecektir, HDF'ler ve MapReduce kavramını açıklayacaktır. Dersin ardından, öğrenciler MapReduce kullanarak programlar yazmayı öğreneceklerdir ve bağımsız olarak problemleri çözer.

Kurs "Mongodb kullanarak verilerin dönüşümü"

Dil: İngilizce.

Seviye: orta.

Özel gereksinimler: Python'da temel programlama becerileri.

Veri dönüştürme, onlarla daha fazla çalışmayı kolaylaştırmak için veri temizleme işlemidir. Şimdiye kadar, bazı bilim adamları bu zamanın çoğunda harcıyor. Ders Öğrencileri, yaygın olarak kullanılan formatlardan veri toplanmayı ve verilerini nasıl toplayacağınızı öğrenirler. Dinleyiciler, verilerin kalitesinin nasıl değerlendirileceğini ve önde gelen NOSQL veritabanlarından biri olan MONGODB kullanarak en iyi veri temizleme yöntemlerini öğreneceklerdir.

Büyük verilerle çalışmak

UCI Makinesi Öğrenimi

Kaynak, makine öğrenme topluluğu için 425 veri setini destekler. Hizmet, makine öğrenme yöntemlerini uygulamak için kullanılabilecek yüksek kaliteli, gerçek ve anlaşılabilir makine öğrenme verileri kümeleri sunar.

Kaggle

Platform, modellerini ciddi ve gerçek verilere göre test edebilecekleri farklı bir hazırlık seviyesinin araştırmacıları için yarışmalar sunar. Kaggle en iyi çözüm için para ödülü sağlar.

KDnuggets Listesi

Kdnuggets, önde gelen iş analizi sitelerinden, harika veri, entelektüel analiz, veri bilimi ve makine öğrenimlerinden biridir. Projenin yazarları, işleme için açık veri kaynaklarının bir sayfasında toplandı.

Listesi joe rikerta

Joe Riker, R-Topluluğun kalıcı katılımcılarından biridir. R'da analiz için açık veri bulabileceğiniz sitelerin bir listesini topladı.

Sberbank-Technologies'deki Veri Süper Masifleri Merkezinin BT Mühendisinden, Diana Borisov'un listeye yorum yaptığını ve hoşlandığınız diğer küfürleri anlattık.

Öğretici "Yeni başlayanlar için Python 3" - Mükemmel dersler. Malzeme kısaca ve konuyla ilgili ayrıştırılır. Yalnızca acemi programcılar bu siteye değil, aynı zamanda deneyimli adamlara da yönelik değil.

Kurs "Python'da Programlama" Python'ı öğrenmeye başlayan insanlar için uygun olacaktır. Bir yer var ama en iyisi değil. Temeller uzun zamandır söylenir - öğreticiye başvurmak daha iyidir.

Avantajları - Görevler, algoritmik düşünceler geliştiriyor, eksi - bazı görevlere en uygun çözüm değil (belirli fonksiyonların 15 yerine iki satırda çözülebileceğini bilmek).

HAKKINDA "Python: Temel Bilgiler ve Uygulama" Çok iyi yorum duydum. Yeni başlayanlar için zor olacak. Bu nedenle, temelleri aşina olanlara uyacak.

"R programlamanın temelleri" - R'yi keşfetmeye başlayanlar için iyi bir kurs. Anlaşılabilir ve yapılandırılmış bir sunum, pratik görevler var, önemli trivia'ya dikkat edin.

Kurs "R'de veri analizi" Dik bir öğretmene öncülük ediyor ve kurs da mükemmel. Matematiksel istatistikleri ve R programlamanın temellerini inceledikten sonra, bu dersin gerekli olması gerekir.

"İstatistiklerin Temelleri" - Yeni başlayanlar için mükemmel bir kurs. Teori, delillere daldırılmadan ve çok sayıda formül olmadan basit ve anlaşılır örneklerde ortaya konmuştur. Uygulama teoriyi birleştirmeye yardımcı olur.

Kurs "Algoritmalar: teori ve uygulama. Yöntem » Programlama teorisinin iyi sunumu ile bilinen Bilgisayar Bilimi Merkezi. Alexander, merkezin en iyi öğretmenlerinden biridir.

Kurs, zaten bir miktar algoritma fikri olanlar için uygundur. Pratik görevler Malzemeyi birleştirmeye yardımcı olur, bazı görevler için bazı görevler var.

Daha iyi Andrew railgorodsky - kursun öğretmeni - kimse bu konuyu açıklayamaz. Her şeyi inceler, net örnekler verir. Kurs kesinlikle dikkat etmeye değer.

İstatistiklerin temellerinin ardından, bu konudaki bilgileri derinleştirmeye devam edebilir ve ikinci kursu geçebilirsiniz. Anatoly Karpov, malzemeyi mümkün olduğunca ve basit hale getirir.

Biyoinformatik Enstitüsü'nden başka bir mükemmel kurs. Yeni başlayanlar için biraz zor olabilir. Ancak her durumda kurs dikkat etmeye değer.

Site, Python'da programlamanın temellerini keşfetmeye yardımcı olacaktır. Çalışma tarayıcıda doğru geçer. Öncelikle makaleyi okudunuz, ardından bir ışık seviyesinden karmaşıklığa çok fazla pratik göreve karar verin.

İyi yorumlar ile kurs. Bence matematiksel bir aparat olanlar için kurs, ders çalışmak zorunludur. Uygulama ile birlikte teoriden daha iyi bir şey icat edilemez.

Diana Borisov

"Sberbank-Technologies" veri dışındaki yeterliliklerin merkezinde mühendis

Julia Perminova

2008'den beri Softline Eğitim Merkezinin Koçu.

Çok sayıda yapılandırılmamış veri ile çalışmak için temel araç, sonuçları hızlı bir şekilde çizebileceğiniz ve filtreleme ve manuel olarak sıralama ile uğraşmazsınız. Özet Tablolar, birkaç işlem kullanılarak oluşturulabilir ve sonuçları tam olarak nasıl görüntülemek istediğinize bağlı olarak hızlı bir şekilde yapılandırılabilir.

Faydalı ekleme. Ayrıca, değiştirirken otomatik olarak güncellenecek olan pivot tablolarına dayanan özet çizelgeleri de oluşturabilirsiniz. Bu, örneğin, aynı parametrelere göre düzenli olarak raporlar oluşturmanız gerekir.

Nasıl çalışılır

Kaynak verileri herhangi bir olabilir: Satış verileri, gönderiler, teslimat vb.

  1. Dosyayı tabloda açın, veriler analiz edilmelidir.
  2. "Ekle" → "Tablo" sekmesine gidin → "Özet Tablo" (Analiz grubundaki Veri sekmesindeki MACOS için).
  3. Yaratılış tablosu oluşturma iletişim kutusu görünmelidir.
  4. Tablodaki görüntüleme verilerini yapılandırın.

Yapılandırılmamış verilerle bir masamız var. Onları sistematikleştirebilir ve tabloda olduğumuz verilerin ekranını yapılandırabiliriz. "Siparişin miktarı" "Değerlere" ve "Satıcılar", "Satış Tarihi" ne gönderilir. Farklı yıllardaki çeşitli satıcılara göre, toplamlar derhal dikkate alındı. Gerekirse, her yıl, çeyrek veya ay konuşlandırabilirsiniz - belirli bir süre için daha ayrıntılı bilgi alacağız.

Seçenekler kümesi sütun sayısına bağlı olacaktır. Örneğin, beş sütunumuz var. Basitçe doğru şekilde düzenlemeleri ve göstermek istediğimizi seçmeleri gerekir. Miktarı söyleyelim.

Örneğin ülke tarafından detaylandırabilirsiniz. "Ülkeler" taşıyoruz.

Satıcıların sonuçlarını görebilirsiniz. "Ülkeyi", "satıcılar" üzerindeki değiştiriyoruz. Satıcılara göre, sonuçlar böyle olacak.

Coğrafi bağlama ile verilerin görselleştirilmesinin bu yöntemi, verileri analiz etmenizi, bölgesel kökenli düzenlemeleri bulmanızı sağlar.

Faydalı ekleme. Koordinatlar hiçbir yere kaydolmanıza gerek yoktur - sadece doğru şekilde tablodaki coğrafi ismi belirtin.

Nasıl çalışılır

  1. Verileri görselleştirilmesi gereken bir tabloyla bir dosyayı açın. Örneğin, farklı şehirler ve ülkeler hakkında bilgi ile.
  2. Haritadaki ekran için veri hazırlayın: "HOME" → "Tablo olarak format".
  3. Analiz için veri aralığını vurgulayın.
  4. "Ekle" sekmesinde, bir 3D kart düğmesi var.

Haritadaki puanlar bizim şehirlerimizdir. Ama sadece ilginç olmayan şehirler - bu şehirlere bağlı bilgileri görmek ilginçtir. Örneğin, direk yüksekliği boyunca görüntülenebilecek tutarlar. Sütun üzerindeki imleci vurduğunuzda miktarı gösterir.

Ayrıca oldukça bilgilendirici, yıla göre dairesel bir diyagramdır. Çemberin boyutu miktarla ayarlanır.

3. Tahmin Sayfası

Genellikle, mevsimsel desenler genellikle planlama yaparken dikkat edilmesi gereken iş süreçlerinde gözlenir. Tahmini tabakası, Excel'de önceden yapılan tüm fonksiyonlardan daha önce tahmin etmek için en doğru araçtır. Ticari, finansal, pazarlama ve diğer hizmetlerin faaliyetlerini planlamak için kullanılabilir.

Faydalı ekleme. Tahmini hesaplamak için, veriler önceki dönemler için veri gerektirecektir. Tahmin doğruluğu, dönemlerdeki verilerin miktarına bağlıdır - yıla göre daha az değildir. Veri noktaları arasındaki aynı aralıklara ihtiyacınız var (örneğin, ay veya eşit gün sayısı).

Nasıl çalışılır

  1. Tabloyu, dönem için veri ve karşılık gelen göstergeler, örneğin yıldan itibaren açın.
  2. İki veri satırını vurgulayın.
  3. Veri sekmesinde, grupta "Tahmin Sayfası" düğmesini tıklatın.
  4. "Projeksiyon tabakası oluşturma" penceresinde, tahminin görsel gösterimi için bir grafik veya histogram seçin.
  5. Tahminin sonunu seçin.

Aşağıdaki örnekte, 2011, 2012 ve 2013 için verilerimiz var. Numaraları, yani, zaman dilimlerinin (yani 5 Mart 2013 ve Mart 2013'ü değil) belirtmek önemlidir.

2014 için tahmin için, iki veriye ihtiyacınız olacak: tarihler ve göstergelerin karşılık gelen değerleri. Her iki veri satırını da vurguluyoruz.

Veri sekmesinde, tahmin grubunda "Tahmin Listesi" nde tıklayınız. Görünen "projeksiyon sacının oluşturulması" penceresinde, Tahmin Temsilciliği formatını - bir grafik veya histogram seçin. "Komple Hava Tahmini" alanında, son tarihini seçin ve ardından "Oluştur" düğmesini tıklatın. Portakal hattı bir tahmindir.

4. Hızlı Analiz

Bu işlevsellik belki de iş analizi olarak adlandırılabilecek ilk adımdır. Bu işlevselliğin kullanıcıya en kolay şekilde uygulanması güzel: İstenilen sonuç kelimenin tam anlamıyla birkaç tıklamayla elde edilir. Hiçbir şey dikkate alınması gerekmez, hiçbir formül yazmayın. İstenilen aralığı vurgulamak yeterlidir ve ne elde etmek istediğinizi seçin.

Faydalı ekleme. Anında farklı türde diyagramlar veya ışıltı (doğrudan hücreye mikrograflar) oluşturabilirsiniz.

Nasıl çalışılır

  1. Analiz için verilerle bir tablo açın.
  2. İstediğiniz aralığı seçin.
  3. Aralık altta tahsis edildiğinde, "Hızlı Analiz" düğmesi her zaman görünür. Hemen verilerle ilgili birkaç olası eylemi yapmayı önerir. Örneğin, sonuçları bulmak için. Tutarları öğrenebiliriz, altta yapıştırılmışlardır.

Hızlı analizde, birkaç formatlama seçeneği de vardır. Değerlerin daha fazla olduğunu görmek için ve daha az olan, histogram hücrelerinde kendilerini yapabilirsiniz.

Ayrıca hücrelere çok renkli simgeler koyabilirsiniz: yeşil - en büyük değerler, kırmızı - en küçüğü.

Bu tekniklerin, Microsoft Excel'deki veri analizi ile çalışmayı hızlandırmalarını ve bu kompleksin köşelerini fethetmek için daha hızlı, ancak uygulamanın sayıları ile çalışma açısından faydalı olduğunu umuyoruz.

Büyük veri ile çalışanları ve bunun için gerekli olan bilgileri anlatıyoruz.

Özellikle BT departmanları, programcıları ve matematik büyük verilerle çalıştığı bir klişe var. Aslında, bu genç endüstri oldukça az meslek içermektedir: Mühendisden veri hikaye anlatımındaki bir uzmana. Özel proje çerçevesinde, IE Business School T & P ile birlikte, JoZep Kurt, bir analist, bir iş danışmanı ve bir girişimci, çok işlevli bir, küresel süreçleri etkileme fırsatı ve tarımda büyük verilerle konuştu.

JOZEP KURTO

bağımsız Danışmanlık Şirketi Yönetimi Delfos Araştırması, İlişkili Profesör IE Sosyal, Davranış ve Veri Bilimleri Fakültesi

- Büyük Verilerde Uzman - Kim?

Büyük bir veri uzmanının süper profesyonelce, çok sayıda farklı becerilere sahip bir süper koruma olduğu görüşü var. Bir dereceye kadar, doğrudur, çünkü diğer şeylerin yanı sıra, işi iyi anlamalıdır. Tabii ki, bir kişinin her şeyi bilmek zor, bu yüzden çoğu zaman takımlarda çalışıyoruz - bu çok daha verimli. Örneğin, meslektaşımdan biri sadece veri görselleştirme ve veri hikaye anlatımı konusunda uzmandır. Numaraları herhangi bir hikaye anlatabileceği inanılmaz infographics oluşturur. Asıl şey, deneyimle ortaya çıkan 360 derecelik bir açı görünümü olmasıdır. Ben kendim neredeyse 15 yıldır vardı.

- Büyük verilerle çalışmak istiyorsanız, Barkand'ın sahip olması daha iyidir?

Büyük verilerde, çok fazla farklı rol vardır: Örneğin, büyük veri mühendisi (yani, bir mühendis) veya bir analist olabilirsiniz ve bunlar tamamen farklı işlevlerdir. Temel şeyler matematik, istatistik ve bilgisayar bilimi bilgisidir.

- Büyük verilerin çalışmalarının ana aşamalarını tanımlayın?

En farklı yönlerle çalışıyoruz: finans, perakende, hukuk sektörleri. En önemli rollerden biri bir stratejisttir: İlk aşamada, çoğu şirket büyük bir veri ile nasıl çalışmaya başlayacağını bilmiyor. Ayrıca, şirkette ne tür bir sorunun bu verilerle ilgili olduğunu ve nasıl çözüleceğini anlamak bazen çok zordur.

En önemlisi, en önemlisi, şirketin karşılaştığı sorunu belirlemek için. Çalıştayları büyük veri olanakları hakkında konuştuğumuz için harcıyoruz. Çalışma sürecinde, şirketteki işi dönüştürmeliyiz, ancak birincil görevimiz sorunu çözmektir. Müşteri ile konuşuruz, tüm faaliyet alanları hakkında birçok soru soruyoruz. Bu konuşmalar sırasında, dikkate alacağımız ve üzerinde çalışacağımız büyük nokta ve görevler listeleri vardır. Büyük verilerle çalışarak takip ettiğimiz asıl amacı, tüketiciyi, ürünü, çalışanları, tedarikçileri daha iyi anlama yeteneğidir. Büyük veri, şirketin tüm alanlarını kapsar.

Bilgi topladıktan sonra, tüm sorun noktalarını tartışırız ve büyük verilerle bağlantılı olup olmadıklarını anlıyoruz. Bazı problemler başka bir şeyle ilişkilendirilebilir - örneğin, çalışanların yetersiz motivasyonu ile. Bu yüzden tüm listeyi azaltmalıyız ve sadece yetkinliğimizi ilgilendiren sorunları bırakmalıyız. Satışlarınız hakkında daha fazla bilgi edinmek istiyorsanız, kayıtları kaydedebilmeniz gerektiği anlamına gelir. Bazen oldukça zor. Örneğin, mağazalarda her satın alımını dikkate almalısınız. Ancak bu bir sorun değil büyük bir veri. Bu, sadece muhasebe için bir sistem satın almanız gerektiği anlamına gelir. Bazen şirketler, büyük bir veri uzmanının çalışmaya başlaması için bir dizi önemli değişiklikleri olmalıdır.

Bir sonraki adım, bir öneri listesi oluşturmaktır. Bundan sonra, şirketin daha fazla stratejisini tartışıyoruz, ne tür yöneticiler onu görmesini istiyoruz. Büyük verilerin tanıtılması sadece bir uzmanı çekmek değil, bu tüm çalışanların düşünmesinde bir değişiklik. Herkesin kendisini büyük bir veri uzmanı olan o adamı yaptığını anladıkları çok önemlidir. Efsaneyi, büyük verilerin BT departmanının sadece bir parçası olduğunu ortadan kaldırmak çok önemlidir. Stratejiyi belirledikten sonra, uygulamanın yollarını sunuyoruz.

- Hangi temel becerilerin büyük bir veri uzmanına sahip olması gerekir?

Asıl şey, büyük miktarda bilgi ve teknolojilerin bilgisi ile çalışabilme yeteneğidir: Zaten yüzlerce kişi var ve her ay yeni görünür. Aynı zamanda, bilimsel düşünceye sahip olmalı, çok sorgulamalıdır. İş açısından düşündüğü düşünülmek çok önemlidir. Size bir şeyde dar bir uzman olabileceğinizi ve sürecin bir kısmından sorumlu olan ekibin yararlı bir üyesi olabileceğinizi hatırlatayım.

- Bu tür uzmanlar en sık çalışır?

Uzman olarak sık sık çekildik; Meslektaşlarımın çoğu bilimsel çalışmaları öğretim faaliyetleriyle birleştiriyor.

- Hepsi en büyük verilere ihtiyaç duyan hangi endüstriler?

Bence kesinlikle her şey. Son zamanlarda, büyük veriler giderek daha fazla bankacılık sektörüne, kamu yönetimi, tarıma sunulmaktadır. Büyük bir veri uzmanı çekmek, mevcut verilere farklı bakış açılarından bakmak için bir fırsattır. Bazen öğrencilerle çok basit veri setlerini düşünüyoruz - örneğin, sadece üç sütun (tarih, alıcı numarası ve satın alma miktarı) oluşan tablolar. İlkel görünmesinin gerçeğine rağmen, öğrencilere ondan ne kadar yeni bilgi alabileceklerini gösteriyorum. Çok fazla veri olmasanız bile, tahminler ve sonuç çıkarabilirsiniz.

- Büyük veri uzmanları hazırlamak için eğitim nasıl değiştirilmelidir?

Asıl şey çok işlevli uzmanlar hazırlamaktır. Yeni teknolojileri öğrenmek için matematik ve bilgisayar bilimine dikkat etmek önemlidir (örneğin, NOSQL). En önemlisi analitik düşünmedir. Bu, öğrencilerime öğrettiğim ilk şey. Büyük Veri Uzmanı matematik, teknolojiyi biliyor ve eleştirel düşünür. Hatırlanması önemlidir - hiçbir zaman her şeyi bilemezsiniz, imkansızdır, ancak bilgileri arayabilir ve analiz edebilmelisiniz.

- En sıradışı alan ne işe yaraman gerekiyordu?

Kuşkusuz, tarım. Bu sektörde, en çeşitli süreçlerin çoğu, yeni teknolojilere tamamen hazır olmadıklarında. Dillerini konuşmayı ve hangi görevlerin şirketlerle karşılaştığını anlamayı öğrenmeniz gerekir. Örneğin, tarımda her gün büyük miktarlarda kullanılan su tüketimini azaltmanın bir görevidir. Bu tür görevleri çözme fırsatına sahip olabilirsiniz - bu şaşırtıcı. Tarımsal kuruluşlar pragmatik olmaya zorlanır, büyük veriler onlara yardımcı olur.

Büyük veri uzmanları yeni bir profesyonel türüdür. Bu çalışmada en şaşırtıcı, küresel süreçleri büyük ölçüde etkilemek için bir fırsat olduğunu anlamalısınız. Bu dedektif bir iş gibi bir şey. Nerede ve neden olduğunu tanımlarsın. Şirketlerin neden para ve müşterileri kaybettiklerini anlamalarına yardımcı olabilirsiniz, gelecekte karı önlemek ve karı artırmak.

Yuri Kotikov

strateji Danışmanı Ericsson, Müdürlük Yüksek Lisans IE İşletme Okulu

Bir meslektaşımla aynı fikirde olmayabilirim. Nitekim, kuruluşlardaki büyük veriler öncelikle pahalı ekipman satın alarak, yazılım çözümleri veya veri dizilerinin analizini satın alarak, ancak analitik araçları ile sağlanabilecek hedeflerin ve uygulamalarının süreçlerine doğru yaklaşımla belirlenmesinden kaynaklanır.

Örneğin, hemen hemen tüm dünyanın önde gelen mobil operatörleri, şirket içindeki şirkete ücretsiz erişimli, ayrıca büyük yönetim ve hissedarları büyük veri altında destekleyen özel birimler oluşturur. Bu, birçok işlevi etkileyen ve şirketlerin süreçlerinde önemli değişiklikleri eğlendiren büyük veri projelerindeki kilit başarı faktörlerinden biridir.

Metodolojik olarak önemli bir faktör, yağsız başlangıç \u200b\u200byaklaşımıdır - büyük veri kullanarak iş görevlerini çözmeye esnek bir yaklaşımdır. Sonlu karmaşık bir model geliştirme uzun bir süreci ya da büyük verilere dayanan bir ürün yerine, küçük yineleme ve hızlı zaferlerle hareket etmek, kilit müşteri çözümlerinden düzenli geri bildirim almak gerekir. Örneğin, agregated abone konum verileri kullanarak Akıllı Adımları Çözümünü geliştiren Telefonica, başlangıçta perakendecilere odaklandı. Operatör, müşterilere insanların şehirlerin belirli sokaklarında hareketi üzerindeki verileri vermeyi planlamıştır. Düzenli geribildirim sayesinde Telefonica, nakliye sektörü için yolcu trafiğinin analizine odaklanarak, ürün odaklanmayı değiştirerek gerekli stratejik bulanıklara karar verebildiler.

Büyük veri alanındaki uzmanlar hakkında konuşursak, bizim görüşümüzde, hem teknik hem de yönetim uzmanları için anahtar kalite çapraz uyumludur. Veri analizi alanında tam bir spektrum becerisine sahip olmak neredeyse imkansızdır. Bununla birlikte, teknik uzmanlar işin işleyişi hakkında genel bir fikri olmalı ve yöneticiler, analitiklerin temel ilkelerini anlamaktadır. Bu nedenle, hem teknik parçaları hem de iş hususlarını ve belirli endüstrilere dalga birleştiren büyük veriler alanındaki eğitim programları, çerçeve pazarı tarafından talep üzerine hazırlanıyor.

Önerilen Müfredat: İş Analytics ve Büyük Veri Yüksek Lisans

İşletme Yüksek Lisans Analytics ve Büyük Veri, iş zekası ve büyük veri alanlarıyla ilgili dört bilgi alanına dalış yapmayı amaçlayan modern bir programdır: büyük veri teknolojileri, veri bilimi, iş dönüşümü, mesleki beceriler. Program, her biri büyük veri başlatma ve danışmanlık projesi arasında, her biri pratik bir projeyle biten üç trimesterden oluşur.

Şirketler, farklı geçmişe sahip dinamik profesyoneller arıyor - iş, bilgili ekonomi, matematik ve ilgili bilimler, bilgili ekonomi, matematik ve ilgili bilimler ve bilgi ile çalışma yeteneğine sahiptir: verileri toplayın, analiz edin ve yorumlayın.

Veri analizi için çok çeşitli platformlar ve araçlar, gelişmiş kurumsal veri analizine dayalı bir iş süreci oluşturma görevi, daha önce herhangi bir uzmanın ölü bir ucuna koyabilir. Bugün makine öğrenmesi ve derin bir veri analizi artık yeni bir şey değil. Bu, işletmenin modern dünyada normal olarak rekabet edemeyeceği zorunlu bir noktadır. Toplanan bilgilerin analizi, iş göstergelerinin iyileştirilmesinin anahtarıdır. Ancak bunun için veri analizi için araçlarla çalışmanız ve çalışmanız gerekir. Ne? Bu soruyu düşünelim. Sizin için pazarda, platformlar, çözümler ve gelişmiş analitik sistemlerde sunulan en eksiksiz çerçevelerin listesi topladık.

Düşük dağıtılmış hesaplamaların düşük maliyetinin ve işleme hızının, Hadoop'u, tüm diğer kombine yazılım ürünlerinin yanı sıra, büyük veriler için de büyük veriler içindir. Açık kaynaklı büyük veri platformlarının herhangi bir listesi gerçekten "demiryolu doğumlu bir fille" başlıyor, ancak Hadoop tek köşe taşı değil.

1 Hadoop.

Presto, ANSI SQL'sini destekler; bu, JSON, dizi, harita ve satıra ek olarak, Standart SQL veri türlerini, pencere arabirimi işlevselliğini, istatistiksel ve yaklaşımsal toplam fonksiyonları kullanabileceğiniz anlamına gelir.

Kovanla karşılaştırıldığında, Presto bir eksikliğe sahiptir: Kullanıcı tanımlı işlevlerin geliştirilmesine, inşası ve konuşlandırılmasına daha aktif katılım. Bununla birlikte, Presto, büyük verilerin analizi için en iyi açık kaynaklı mekanizmalardan biri olarak kabul edilir.

7 Matkap

9 IBM SPSS modelleyici.

IBM SPPS modelleyici platformu, yeni başlayanlar için düşük bir giriş eşiği ile karakterize edilen ticari bir rapidminer rakiptir. Yeni başlayanlar için temizlik "Autopilot" modları tarafından sağlanır. Otomatik modeller (Otomatik Sayısal, Otomatik Sınıflandırıcı), aralarında en iyisini belirleyen birkaç olası modeli farklı parametrelerle taşır. Tecrübeli olmayan analist, böyle bir çözüm üzerinde yeterli bir model oluşturabilir.

SPSS'nin temel özellikleri şunlardır:

SPSS kullanıcı arayüzü sürekli olarak iyileştirilir, böylece sistemin sezgisel olarak adlandırılabilir. Formül oluşturmak gibi basit görevleri gerçekleştirmek, prensipte hazırlık gerektirmez. Bütün bunlar, IBM SPSS modelleyicisini yeni başlayanlar için veri analizi açısından iyi bir çözümdür.

IMB SPSS modelinin tüm avantajları, kullanıcıların büyük bir kitlesini kesen bir dezavantajı tutulabilir. Bu, bu sistemin büyük verileri analiz etmek için en iyi araç olmamasıdır. SPSS'yi kullanımı kolay hale getiren nitelikler, büyük veri teknolojileri ile çalışırken büyük ölçekli yaklaşımlar için çok sınırlıdır. Çok kötü durumlarda, aşırı yüklenmenin SPS'leri basitçe "damlalar".

Bununla birlikte, IBM SPSS modelleyici kullanım kolaylığı ve basit bir arayüz nedeniyle popüler bir çözüm kalır.

10 Knime.

Qlik Analytical Platformu, genellikle hiyerarşik veri modellerinde genellikle gizlenen birden fazla bilgi kaynağı arasındaki ilişkiyi kurmanıza olanak tanıyan QIX Veri Dizini'ne tam erişim sağlar. "Fishka", diğer çözümlerini yaratırken Qlik tarafından uygulanan Qix'dir. QIX Engine, indeksleme ve sıkıştırma konusunda yüksek performans sağlayan RAM'in bir çubuk düzenlemesini kullanır. Uygulamada, bu, olası kullanıcı isteklerini önceden tanımlamak zorunda kalmadan, daha serbest bir biçimde veri madenciliğine izin verir. Sırayla, programcılar büyük veri teknolojilerine dayanan uygulamaları daha hızlı bir şekilde oluşturabilir ve kullanıcılar derhal cevaplar alıyorlar.

Qlik Analytics Platform Mimarisi aşağıdaki öğeleri içerir:

  1. Qlik Yönetim Konsolu (QMC) ve dev hub.
  2. Uygulama Programlama Arayüzleri (API'ler) ve Geliştirme Araçları (SDK) Qlik Sense.
  3. Yardımcı hizmetler Qlik Motoru ve Qlik Sense.

Qlik veri analizi platformu, analitik uygulamaların, bilgi hizmetlerinin veya internet platformlarının geliştirilmesinde kullanılabilir. Ve iyi bir görsel ve etkileşimli yetenekler sisteminin sağlanması, kullanıcının mevcut verileri daha iyi keşfetmesini sağlar.

12

Bu bir Rus gelişimi platformudur. Sistem veri madenciliği için en eksiksiz yöntem seti sağlar. Özellikle, ön işleme aletleri, filtreleme ve veri temizleme aletleri, STATISTICA veri minerunda uygulanır, bu da yüz binlerce olası öngörücüden işaretleri etkili bir şekilde seçmeyi mümkün kılar.

Bu platformun bir özelliği, açık ihracat / ithalat işlemleri yapmadan bile, veritabanlarına doğrudan erişim sağlama yeteneğidir. "Can" işlemi, neredeyse tüm standart dosyalardan veri okuyabilir, okuyabilir ve yazabilir. Tahmin modellerinin kendileri çeşitli formatlarda üretilebilir (PMML, C ++, C #, Java, SAS, Saklanan Veritabanı Prosedürleri).

Kullanıcılar, dahili veri madenciliği ustası sayesinde otomatik modeller gerçekleştiren, Statistica veri madenci, yazılım geliştirme ile ilgili olmayan insanlar için mükemmeldir (örneğin, pazarlama analistleri). Bununla birlikte, çok çeşitli kümeleme yöntemleri, sinir ağ mimarileri, sınıflandırma ve regresyon ağaçları, çok boyutlu modelleme, sekansların, derneklerin ve bağlantıların analizi, bu platformu uzman ellerde güçlü bir araçla yapar.

Ayrıca, şirketin yakın zamanda yeni bir ürün - başlıktan açık olduğu gibi, büyük verileri analiz etmek için yazılımın listesini tamamlayan yeni bir ürün - Statistica büyük veri analizi tanıttığını da unutmayın. Bu platform ölçeklenebilir; MapReduce, Lucene / Solr Engine, Analytics MAHOUT, "Cloud" ve doğal dil işleme metni ile birlikte çalışarak örnekleri oluşturabilir. Statistica Büyük Veri Analitiğini Statistica Enterprise'ın kurumsal versiyonuyla bütünleştirirseniz, kurumsal düzeyde büyük bir veri analizi uygulamasına izin verecektir.

13 Informatica Akıllı Veri Platformu

Informatica, gelişimini "sanal verilerle" çağırır. Informatica Akıllı Veri Platformu, en popüler veri ve formatlarla çalışabilen akıllı ve yönetsel hizmetler sunar: Web, Sosyal Ağlar, Makine günlükleri.

Bu akıllı veri analizi platformu, bir vibe - ilişkili verileri bir kez birleştirmenize izin veren ve daha sonra farklı ortamlarda çalıştırmanıza olanak sağlayan sanal bir mekanizma içerir. Statistica veri madenci gibi, Informatica IDP, sürükle ve bırak arabirimine dayanır, yani, kullanıcının yalnızca gerekli maddeleri çalışma ortamına sürüklemesi gerekir ve tüm talimatlar otomatik olarak sistem tarafından oluşturulur.

Ana "Fishka" informatica akıllı veri platformu, bir anlamsal dalga üzerinde yapılandırılmış, kısmen yapılandırılmış ve yapılandırılmamış verilerin girişi ile ilgili bir yaklaşımdır. Bu veriler arasındaki anlayış, eşleme, sezgisel tarama ve numune ile karşılaştırma yaklaşımlarından dolayı mümkündür.

Büyük veri teknolojileri ile çalışmak için analitik araçların geliştirilmesindeki ana oyunculardan biri olarak kabul edilen Informatica, IDP'nin hem Gartner'dan hem de Forrester'dan neredeyse tüm veri yönetimi kategorilerinde ödülü aldığı tek platform olduğu için gurur duyuyor.

Mimari informatica akıllı veri platformu 3 kattan oluşur:

  1. VIBE, herhangi bir veri türünün belirtilen bir kontrol motorudur. Artık vibe dahili bir mekanizma olduğundan, konumlarına veya formatlarından bağımsız olarak, evrensel veri erişimi sağlar. Vibe sanal bir makine formunda yürütüldüğünden, motor herhangi bir yerel sunucu platformunda, hadoop kümeleri veya bulut servisi üzerinde çalışabilir.
  2. Veri altyapısı. Verilerin altyapı tabakası vibe sanal makinesinin üzerinde bulunur. Herhangi bir platforma, hadoop kümeleri veya bulut servisine herhangi bir ölçekte sürekli "temiz", güvenli ve bağlı veri kaynağını otomatikleştirmek için tasarlanmış tüm hizmetleri içerir.
  3. Veri zekası. Akıllı veri katmanı veri altyapısının üstündedir. Meta verileri, anlamsal veri ve diğer bilgileri platformdan toplar. Veriler toplandıktan sonra, veri zekası daha fazla işlemeyi kolaylaştırmak için bunları segmentler. Bu katmanın rolü, büyük verileri işleme koymak için yöntemler sağlamaktır. Analitik, iş zekası (BI), ayrıca gerçek zamanlı olarak operasyonel zeka (OI) hakkında konuşuyoruz. Ve son zamanlarda, veri zekası "Beceriler" informatica IDP makinesi öğrenme listesini genişletti.

Böylece, bilgilerin bilgilerinin bilgi veri analizinin ana özellikleri, herhangi bir cihazı, sistematite ve küresel verilere herhangi bir başvuruyu, sistematiklik ve küresel verilere, kullanıcının yazılım geliştirmesinin zorunlu varlığını ortadan kaldıran verilerin demokratikleşmesini sağlayan hibrit bir yapıdır. Bilgiyi analiz etmek için herhangi bir programlama dilinin becerileri ve bilgisi.

Veri Gölü, verileri tek bir depoda konsolide etmekten sorumludur. Bu bileşen, çok sayıda farklı bilgi ile ilişkili verilerin silajını depolamanın zorluğunu sever. Veri küratörü, veri gölünün değerlerine dayanır ve hem veri gölündeki hem de harici kaynaklardan çalışılan ve endekslenmiş veri kümelerinin tek bir formatını sunar. Dell EMC'ye göre, veri küratörü, analitik için bilgi hazırlama konusunda veri analizini analiz etmek için zamanın% 80'ine kadar korunur. Veri Valisi, verilerin kaynağı hakkında bilgi içerir ve test işlemi boyunca güvenliklerini sağlar. Ayrıca, veri küratörü, veri setlerini uçtan uca formatta görmenizi ve kullanmanızı sağlar.

Toplam, Dell EMC Analitik Insights Modülü ile kullanıcı şunları yapabilir:

  • tüm verileri veri küratörü kullanarak tek bir formatta keşfedin, kullanın ve endeksleyin;
  • veri valisi kullanan tüm uygulamalar ve veri depolarının menşeini öğrenin;
  • tüm önemli bilgileri uygulama yönetilen veri ve iş modellerine dönüştürün.

21 Windows Azure HDINSIGHT

Azure Makinesi Öğrenmesi, yalnızca bir öngörücü analiz modelleri oluşturma yeteneği sunar, aynı zamanda prediktif modelleri kullanıma hazır web servisleri biçiminde dağıtmak için kullanılabilecek tamamen yönetilen bir hizmet sunar.

Tüm işlevselliğiyle, Azure Makine öğrenmesinin finansal kaynakları devasa bir ölçekte emdiğini söylemek imkansızdır. Servis, Azure'un kamu bulutu üzerinde çalıştığı için, "demir" veya kendi başına atma ihtiyacı.

Belki de makine öğrenimi ile çalışmak için en iyi araç olan Azure Makine öğrenmesidir.

23 Pentaho veri entegrasyonu.

Pentaho veri entegrasyon sistemi (PDI), verilerin (ETL) çıkarma, dönüştürme ve boşaltma işleminden sorumlu olan Pentaho kompleksinin bir bileşenidir. ETL sisteminin kullanımının depolama kompleksi çerçevesinde varsayıldığına rağmen, PDI araçları aşağıdakilere uygulanabilir.

  • uygulamalar veya veritabanları arasındaki veri değişimi;
  • veritabanı tablolarından dosyalara verileri dışa aktarın;
  • veri dizileri veritabanlarına yükleme;
  • veri işleme;
  • uygulamalara entegrasyon.

Pentaho, kodu yazma ihtiyacını ortadan kaldırır, çünkü tüm geliştirme işlemi, Meta veri sistemi ile çalışmak üzere olduğu gibi, PDI hakkında konuşmak için bir gözle görsel bir formda yapılır. Çalışma panelini ve etkileşimli grafik araçlarını kullanarak, kullanıcılar, verileri birden fazla boyutta analiz edebilir.

Pentaho Veri Entegrasyonu, depodan büyük veri deposuna verileri hareket ettiren "sürükle ve bırak" aracı kullanılarak büyük miktarda veri entegrasyonunu kolaylaştırır. Sistem ayrıca, sonuçta tek bir resim oluşturmak için yapılandırılmış ve yapılandırılmış kaynaklarla yapılandırılmış veri kaynaklarını kısmen yapılı ve yapılandırılmış kaynaklarla tamamlayabilir ve birleştirebilir.

Araç tamamen kişiselleştirilebilir: Görselleştirme, etkileşimli raporlar, çalışma paneli ve özel bir analiz kurmak - tüm bunlar kullanıcı tarafından kullanılabilir. PDI% 100'ün% 100'ü, dinlendirici bir web hizmeti gibi endüstriyel standartlara göre inşa edilen bir Java platformu, herhangi bir uygulama ile entegrasyon sorunlara neden olmaz.

24 Teradata Aster Analytics.

Teradata Aster Analytics, bir arayüz ve sözdizimi içinde, metin, grafik, makine öğrenimi, desen ve istatistiklerle çalışmanıza olanak sağlayan bir araçtır. İş analistleri ve veri analizi uzmanları, bir istek gerçekleştirerek tüm girişimden kapsamlı veri analizi yapabilir. Teradata Aster Analytics, 100'den fazla entegre gelişmiş analitik sorgu bulunmaktadır.

Bu araç, grafiği, R ve MapReduce'ı bir çerçevede birleştirmenize olanak sağlar. SQL komutları olarak yürütülen tüm fonksiyonlarla ve alete gömülü tüm analitik motorlarla Aster Analytics, büyük veri dizilerini işlerken yüksek performans sağlar.

Teradata Aster Analytics Analytics Hadoop ve Amazon web hizmetleri ekosistemi içerisinde bulunmaktadır.

Hadoop'ta Aster Analytics:

  1. Veri Gölü Senaryolarının kullanımını genişletir. Aster Analytics, SQL veya R üzerindeki iş becerilerine sahip çoğu iş analisti için "demiryolu doğumlu bir fil" yapar.
  2. Yerli çalışıyor. Kullanıcıların Veri Analizi için verileri Hadoop'dan sunuculara taşıman gerekmez.
  3. Hızlıca analitikleri uygular. Kullanıcılar, aynı verilerde bir Hadoop kümesinde izole edilmiş bir program ve çalışma ortamı oluşturabilir.

AWS'de Aster Analytics:

  1. İş geri ödeme hızlandırır. Şirket, bulut üzerinde bir analitik izole edilmiş yazılım ortamı hazırlayabilir ve geliştirme sürecini hızlandırmak için, Gömülü SQL sorgularını kullanın.
  2. Analitik esnekliğini arttırır. Veri Analizi Uzmanı, güçlü çeşitli araçlar kümesi sunar: Her analist, büyük verilerle çalışmak için uygun bir araç bulabilir.
  3. Finansal yükü azaltır. Şirketler, yeni ekipman kullanması gerekmeden dahili gelişmiş analitik işlevleri ve veri setlerini kullanabilir.

25

Bu, kaynakları optimize etmeyi ve şirket genelinde karlılığı artırmayı amaçlayan bir araçtır.

Uzman analitiklerinin çıktı model yöneticisi ile entegrasyonu, daha hızlı ve daha doğru tahmin sonuçları verir ve ayrıca, kullanıcıların etkileşime girdiği iş süreçlerine ve uygulamalarına prognostik fikirler getirir.

SAP BusinessObjects ile Tahmin Analytics:

  • veri hazırlama, tahmin modelleme, dağıtım - ve sonuç olarak, modeli hareket ettirmek kolaydır;
  • sonuçları daha hızlı hale getirmek için geliştirilmiş görselleştirme yeteneklerini kullanın;
  • Çok sayıda kullanıcı komut dosyasına erişimi açmak için r programlama diliyle entegre edin;
  • sAP HANA ile doğru.

SAP BusinessObjects Tahmini Analytics, müşterilere daha gelişmiş bir etkileşimli veri analizi sunmak için Spark Yetenekleri sınırlarını genişletir. Aracın gerçek versiyonu, SAP HANA VORA'ya bağlanmanıza ve otomatik olarak tahmin modellemesini gerçekleştirmenize olanak sağlar. Aynı kopya örneklerinde yerli kıvılcım modellemesini kullanarak, SAP Hana Vora, otomatik algoritmaların dağıtılmış işlenmesini yapmanızı sağlar.

Nisan 2015'te Forrester Research'in, büyük verilerdeki prediktif analitiklerde SAP lideri statüsünü kazandığını unutmayın.

26 Oracle Büyük Veri Hazırlama

Hadoop ve kıvılcım, ölçeklenebilirlik amacıyla, Oracle Büyük Veri Hazırlama Bulut Hizmeti, sonraki işlemleri için yapılandırılmış, kısmen yapılandırılmış ve yapılandırılmamış verileri hazırlamak için analistler, sezgisel ve etkileşimli bir yöntem sunar.

Yukarıdaki araçların çoğu gibi, Oracle Büyük Veri Hazırlama, işletme kullanıcılarını hedeflemektedir, bu nedenle servisin kullanımı kolaydır. Ölçeklenebilirlik, küme bilgi işlem ortamında yinelemeli makine öğrenimi ile çalışmanıza olanak sağlar. Oracle büyük veri hazırlığının bir başka avantajı, bir dizi bulut hizmeti ile entegrasyondur.

Bu aracın işlevlerine gelince, 4 bölüme ayrılabilirler: tüketim, genişleme, yönetim ve yayımın yanı sıra sezgisel bir yazma.

Tüketimde (yutma), servis, heterojen bilgi ile içe aktarır ve çalışır, verileri (örneğin, önemsiz karakterlerden), tarihleri, telefon numaralarını ve diğer verileri standartlaştırır ve ayrıca gereksiz yinelenen verileri hesaplar ve siler.

Uzantıya (zenginleştiren), veri kategorilerinin tanımı ve özelliklerinin tanımlanması, özellikleri, özellikleri ve devreleri, meta veri tespiti (şema algılama, başlıklar, alanlarda veya etiketler halinde doğrudan veya dolaylı olarak tanımlanan devre / meta verileri belirler) .

Yönetim ve Yayınlar (Hükümet ve Yayınlar), daha ayrıntılı denetim ve analiz için uygun ölçümler ve yeteneklere sahip tüm işlenmiş veri kümelerinin tek bir takvimi sağlayan etkileşimli bir kontrol paneli anlamına gelir. Buna karşılık, çeşitli yayın formatları maksimum esneklik sağlar.

Özet

Büyük veri-çözümlerin en iyi üreticilerinden verileri analiz etmek için çeşitli fonları gözden geçirdik. Dikkat edebileceğiniz gibi, çoğu çözüm açılır, yani açık kaynak kodu var. Çerçeveler, veritabanları, analitik platformlar ve diğer araçlar gerçekten çok şey var, bu nedenle görevin net bir şekilde anlaşılmasına ihtiyacınız var. Hedefe karar vermek, tam veri analizine izin verecek olan herhangi bir sorun olmadan doğru aleti (veya bir fon kümesini) seçeceksiniz.