Çok değişkenli istatistiksel süreç kontrolü. Çok boyutlu veritabanı teknolojisi

  • 14.05.2019

Çok boyutlu süreçlerin analitik tahmini.

Genel parametre yöntemi.

Amaç:çok parametreli bir nesnenin durumunu tahmin etmek için pratik tekniklerin incelenmesi.

Kısa teorik bilgi:

durum değişikliği teknik sistemler belirli bir dizi parametredeki değişikliklerle karakterize edilen bir süreç olarak kabul edilebilir. Durum vektörünün uzaydaki konumu, sistem performansının derecesini belirler. Sistemin durumu, uzay koordinatlarının k sistem parametreleri olduğu k boyutlu uzayda bir vektör ile karakterize edilir.

Durum tahmini, parametrelerin periyodik ön kontrolüne indirgenir; durum fonksiyonunun kontrolünün t i T 1 anlarında belirlenmesi

Q=Q[ ] ve durumun Q fonksiyonunun değerlerinin T 2 > T 1 zaman değerleri aralığında hesaplanması.

Bu durumda, durum vektörü, Q * performans derecesinin kabul edilebilir değerlerinin hiper yüzeyinden ne kadar uzakta bulunursa, teşhis edilen sistemin performansı o kadar yüksek olur. Fark * ne kadar küçükse, performans düzeyi o kadar düşük olur.

Analitik tahmin yöntemlerinin kullanımı, zaman içinde sürecin bileşenlerindeki değişikliklerin düzenliliğini varsayar.

Genelleştirilmiş parametre yönteminin fikri, birçok bileşenle karakterize edilen bir sürecin, sayısal değerleri sürecin kontrollü bileşenlerine bağlı olan tek boyutlu bir fonksiyonla tanımlanmasıdır. Böyle bir işlev, genelleştirilmiş bir süreç parametresi olarak kabul edilir. Bu durumda, genelleştirilmiş parametrenin belirli bir fiziksel anlamı olmadığı, tahmin edilen sürecin kontrollü bileşenlerinden yapay olarak oluşturulmuş matematiksel bir ifade olduğu ortaya çıkabilir.

Teknik sistemlerin çalışabilirlik derecesini karakterize eden parametreleri özetlerken, aşağıdaki sorunları çözmek gerekir:

Birincil parametrelerin göreceli değerlerinin tanımları;

Nesnenin durumunu değerlendirmek için birincil parametrenin önemine ilişkin tahminler;

Genelleştirilmiş bir parametre için matematiksel bir ifadenin oluşturulması.

Nesnenin durumunun farklı boyutlara sahip parametrelerle karakterize edilebilmesi nedeniyle, birincil parametrelerin göreceli değerlerinin belirlenmesi gereklidir. Bu nedenle, tüm kontrollü birincil parametreler, karşılaştırılabilir olabilecekleri tek bir hesaplama sistemine indirgenmelidir. Böyle bir sistem, boyutsuz (normalleştirilmiş) göreli hesap sistemidir.

Gerçekte, her bir ,s = 1, 2, …, k parametresi için, nesnenin işlevselliğini kaybettiğine ulaşıldığında kabul edilebilir bir değer olan * ve optimum değer opt'i (genellikle şuna eşittir) ayırmak mümkündür. nominal değer n).

Nesnenin çalışması sırasında koşulun gözlemlenmesine izin verin. Eğer , yerel parametreyi girmek yeterlidir ve daha sonra gerekli koşul yerine getirilecektir.

Boyutsuz (normalleştirilmiş) parametreyi şu şekilde yazıyoruz:

nerede , ve , ve ne zaman .

Böylece, (1) ifadesi kullanılarak parametre normalleştirilir ve boyutsuz normalleştirilmiş değer zamanla 1'den 0'a değişir. verilen parametre. Teorik olarak olabilir, ancak bu pratikte nesnenin çalışamaz olduğu anlamına gelir.

Belirli sorunları çözmek için uygun olan çeşitli normalleştirilmiş ifadeler belirleyebilirsiniz, örneğin:

vb. nerede - sırasıyla akım, sıfır, mat. S-th parametresi bekleniyor.

Normalleştirme ifadelerinin kullanılması, bir nesnenin durumunu karakterize eden bir dizi boyutsuz nicelik elde etmeyi mümkün kılar. Ancak nicel olarak bu değerlerdeki aynı değişiklik, nesnenin performansındaki değişiklik üzerindeki etki derecesi açısından eşdeğer değildir, bu nedenle birincil parametreleri ayırt etmek gerekir. Bu işlem, değerleri, sorunun fiziksel özü için karşılık gelen parametrelerin önemini karakterize eden ağırlık katsayıları yardımıyla gerçekleştirilir. Bu durumda nesnenin parametreleri olsun karşılık gelen ağırlık katsayıları , verilen bir veya daha fazla kriteri karşılayan ve .

Bir nesnenin sağlık derecesi, bir dizi kontrollü parametre açısından genelleştirici bir ifade kullanılarak tahmin edilebilir.

Genelleştirilmiş bir nesne parametresi nerede.

İfade (2), doğrusal bir ortalamadır. Genelleştirilmiş parametrenin tanımından, değeri ne kadar büyük olursa, S -inci terimin (parametrenin) 'ye katkısı o kadar büyük olur.

Genel bir parametre, formun bir ifadesi kullanılarak tanımlanabilir

, (3)

bu, doğrusal olmayan bir ortalamadır. Bu model aynı zamanda şu koşulu da karşılar: terimin katkısı ne kadar büyükse ve o kadar büyük boyutunda.

Pratikte, doğrusal olmayan bir ortalama yazmanın diğer biçimleri de kullanılır, örneğin:

, (4)

, (5)

burada (5) deneysel olarak elde edilen sonuçlara en iyi yaklaşımı verecek şekilde seçer.

Genelleştirilmiş parametre için ifadeler göz önüne alındığında, işaret değiştirmediği, yani her zaman olduğu varsayılmıştır. İşareti dikkate almak gerekirse, (2) ifadesi forma dönüştürülür.

, (6)

Böylece, genelleştirilmiş bir parametrenin kullanılması, çok parametreli bir nesnenin durumunu tahmin etme problemini tek boyutlu bir zaman fonksiyonunu tahmin etmeye indirmeyi mümkün kılar.

Örnek vermek. 6 parametreyi kontrol eden 250 saat boyunca nesneyi test etmek, tablo 1'de gösterilen sonuçları verdi.

tablo 1

ben n, nom = 9,5

V g1 . sayı = 120

ben, isim = 2.0

ben g3 , isim = 70

(1) ifadesi kullanılarak parametre değerleri normalleştirildikten sonra tablo (tablo2) şeklini alır.

Tablo 2

Çok boyutlu durağan rastgele süreç, durağan ve durağan ilişkili bir dizi olarak tanımlanır. rastgele süreçler . Böyle bir süreç genellikle zamana bağlı olarak rastgele bir sütun vektörü olarak gösterilir:

.

Çok boyutlu (çok kanallı) sistemlerin tanımında çok boyutlu rastgele süreçler kullanılmaktadır. Bu bölümde, normal çok boyutlu durağan rastgele süreçlerin sayısal modellemesi problemini ele alıyoruz. Bu problemi çözmenin sonucu, tek boyutlu durumda olduğu gibi, dijital bir bilgisayarda belirli bir işlemin çok boyutlu ayrık gerçekleşmelerini oluşturmayı mümkün kılan bir algoritmadır. -boyutlu sürekli normal durağan rastgele süreç genellikle ya korelasyon matrisi şeklinde belirtilir

veya bir spektral matris şeklinde

nerede - rastgele süreçlerin otokorelasyon (için) ve çapraz korelasyon (için) fonksiyonları - Fourier dönüşümü. Aynı zamanda, beri , elemanlar ve spektral matris karmaşık eşleniktir,

.

Ayrık çok boyutlu normal rastgele süreçler, korelasyon ve spektral matrisler kullanılarak sürekli süreçlere benzer şekilde tanımlanır (35, 70]

nerede , ve .

Çok boyutlu normal rastgele bir sürecin dijital modellemesi sorunu formüle edilmelidir. Aşağıdaki şekilde. Rastgele bir sürecin korelasyonu veya spektral matrisi verilir. Belirli bir korelasyon (spektral) özellikleri ile rastgele bir sürecin ayrık gerçekleşmelerinin sayısal bir bilgisayarda oluşturulması için bir algoritma bulmak gerekir.

Bu sorunu çözmek için, daha önce olduğu gibi, doğrusal bir filtre şekillendirme fikrini kullanıyoruz. İncelenen durumda Konuşuyoruzçok boyutlu bir şekillendirme filtresinin sentezi üzerine.

Boyutlu bir doğrusal filtre, doğrusal olarak tanımlanır. dinamik sistem girişler ve çıkışlar ile. Eğer - giriş eylemi ve sistemin cevabı ise, daha sonra -boyutlu lineer sürekli filtrenin girişi ve çıkışı arasındaki ilişki, formdaki transfer matrisi kullanılarak açıklanır.

nerede Ve - Laplace dönüşümü anlamında sırasıyla giriş ve çıkış sinyallerinin görüntüleri; - elemanları -th girdi - -th çıktı kanallarının transfer fonksiyonları olan -boyutlu filtrenin transfer matrisi.

Ayrık boyutlu lineer filtrelerdeki giriş-çıkış bağlantısı benzer şekilde tanımlanır:

,

Nerede ve - giriş ve çıkış sinyallerinin ayrık Laplace dönüşümü anlamında görüntüler; ayrık boyutlu filtrenin transfer matrisidir.

İki boyutlu bir filtre örneğinde çok boyutlu bir filtrenin yapısal diyagramı, Şek. 2.9, buna göre

(2.107)

Çıkış sinyallerinin her birinin ve toplamının olduğunu görüyoruz. lineer operatörler giriş sinyallerinden ve . Benzer ilişkiler devam ediyor Genel dava. Bu, transfer matrislerinin tanımlanmasıdır.

Bir -boyutlu lineer filtrenin girişindeki eylem --boyutlu olsun Beyaz gürültü, yani, formun bir korelasyon matrisi ile rastgele bir süreç

sürekli zaman ve

ayrık zaman için, nerede - delta işlevi. -boyutlu beyaz gürültü burada bir dizi bağımsız -ilişkili rastgele süreç olarak tanımlanır.

Beyaz gürültünün etkisi altında, sırasıyla sürekli ve ayrık zaman için çıktı boyutlu filtredeki işlemin spektral matrisinin, filtrenin transfer matrisi ile ilgili olduğu gösterilebilir (örneğin, bakınız). ilişkiler

(2.108)

burada sembol, transpoze edilmiş matrisi gösterir.

Bu nedenle, belirli bir spektral matris ile boyutlu bir rastgele süreç elde etmek için, boyutlu beyaz gürültünün transfer matrisi denklemleri (2.108) karşılayan bir boyutlu şekillendirme filtresinden geçirilmesi gerekir. Belirli bir spektral matristen transfer matrisini bulmak için, ikincisini formun (2.108) iki faktörüne bölmek gerekir. Bu prosedüre spektral matris çarpanlarına ayırma denir. Bilinen algoritmalara göre uygulanabilir.

Beyaz gürültünün çok boyutlu filtrelenmesi oldukça basittir: her bileşen Bir transfer matrisi ile bir boyutlu filtrenin çıkışında rastgele işlem, bileşenlerin toplanmasıyla elde edilir. transfer fonksiyonlarına sahip tek boyutlu filtreler tarafından filtrelenen girdi süreci [bkz. formül (2.107)]. Tek boyutlu filtreleme algoritmaları yukarıda tartışılmıştır.

Bu modelleme yöntemi ile iki yol mümkündür: 1) sürekli boyutlu bir rastgele işlemin verilen spektral matrisi, bir sürekli şekillendirme filtresinin transfer matrisini elde etmek için doğrudan çarpanlara ayrılabilir ve daha sonra, tam veya yaklaşık ayrıklaştırma yöntemlerini kullanarak. sürekli beyaz gürültünün çok boyutlu filtrelemesini gerçekleştirmek için yukarıda açıklanan sürekli filtreler; 2) sürekli boyutlu bir sürecin spektral matrisi verildiğinde, -dönüşümünü kullanarak, karşılık gelen ayrık rastgele sürecin spektral matrisini bulabilir (bkz. § 2.3), sonra ayrık şekillendirme filtresinin transfer fonksiyonunu çarpanlara ayırarak bulabilirsiniz ve sonra ayrık beyaz gürültünün çok boyutlu filtrelemesini gerçekleştirin.

En büyük zorluklar, spektral matrislerin çarpanlarına ayrılmasında karşılaşılır. Şu anda, çarpanlara ayırma algoritmaları yalnızca rasyonel spektral matrisler için geliştirilmiştir, yani elemanları argümanların kesirli rasyonel fonksiyonları olan matrisler veya .

Kanıtları atlayarak rasyonel spektral matrislerin çarpanlarına ayırma algoritmalarından birini tanımlayalım.

Rasyonel bir spektral matris verilsin

.

Matris forma indirgenebilir

aşağıdaki dönüşümler yoluyla.

1. Matrisin sırası belirlenir, daha sonra ana sıradaki küçüklerden biri matrisin sol üst köşesinde bulunur.

2. Matris köşegen bir forma indirgenir. Bunu yapmak için, - ile çarpılan ilk satır matrisin -. satırına eklenir, ardından - ile çarpılan ilk sütun -th sütununa eklenir; matris

, (2.109)

matrisin elemanları nerede

gibi görünmek

(2.110)

Aynı dönüşümler, matris ile olduğu gibi gerçekleştirilir. orijinal matris . Bu işleme beşinci adımda devam ederek bir köşegen matris elde ederiz.

öyle ki .

3. Yardımcı bir matris bulunur

kimin öğeleri şöyle görünür:

(2.111)

tekrarlama ilişkilerinden belirlenir

(2.112)

4. Yardımcı polinomlar bulunur

nerede - polinomların sıfırları , alt yarı düzlemde yatan, sayıları kadar sayılan maksimum çeşitlilik, ve matrisin elemanları olan kesirli rasyonel fonksiyonların paydalarıdır:

.

5. § 2.9, madde 2'de ele alınan yönteme göre, kesirli rasyonel fonksiyonlar

şeklinde sunulur

,

burada polinomlar ve alt yarı düzlemde sıfır yok.

Bu, çarpanlara ayırma işlemini tamamlar. Şekillendirme filtresinin son transfer matrisi şu şekilde yazılır:

(2.113)

Burada sürekli çok boyutlu süreçlerin rasyonel spektral matrisleri için çarpanlara ayırma algoritmasını tanımlıyoruz. Ayrık süreçlerin spektral matrislerinin çarpanlara ayrılması benzer şekilde yapılır, ancak alt yarım düzlemde bulunan kökler yerine birim çemberde bulunan kökler alınır.

örnek 1 Korelasyon matrisi ile iki boyutlu sürekli durağan merkezli rastgele bir süreç olsun

, (2.114)

bazı pozitif sabitler nerede ve .

Spektral matrise (2.114) karşılık gelen korelasyon matrisi şu şekildedir:

, (2.115)

nerede Ve - süreçlerin otokorelasyon ve çapraz korelasyon anları ve sırasıyla; - süreçlerin karşılıklı korelasyon katsayısı ve zaman içinde çakışan noktalar. Katsayılar ve bu durumda enerji spektrumunun genişliğini (0,5 düzeyinde) temsil eder. ve süreçlerin karşılıklı enerji spektrumu ve .

Şekillendirme filtresinin transfer matrisini elde etmek için spektral matrisi (2.114) çarpanlarına ayırmak gerekir.

Yukarıdaki çarpanlara ayırma algoritmasına uygun olarak çarpanlara ayırma işlemini adım adım gerçekleştireceğiz.

1. İçinde bu durum spektral matrisin sıralaması .

2. Bir matrisi köşegen yapmak için bir adım gereklidir. Formüller (2.109) ve (2.110) ile elde ederiz

.

3. (2.111) ve (2.112) ifadelerine göre yardımcı matris şu şekildedir:

4. İncelenen durumda sadece bir yardımcı polinom bulmak gerekir. Bunu yapmak için, matris elemanının paydasının köklerini, yani polinomun köklerini bulmanız gerekir. Bu kökler

Sonuç olarak,

.

5. Son aşamada kesirli rasyonel fonksiyonları çarpanlarına ayırmak gerekir.

Bu durumda kesirli rasyonel fonksiyonların pay ve paydalarının kökleri ve kolayca hesaplanabilir. Üst yarı düzlemde bulunan kökleri kullanarak (pozitif sanal kısımlara sahip kökler), ve değişkenine şunu elde ederiz:

.

Şek. 2.9 gösterilen yapısal şema filtre girişine beyaz gürültü etki ediyorsa, çıkışında gerekli spektral özelliklere sahip iki boyutlu rastgele bir işlemin oluşturulduğu iki boyutlu şekillendirme filtresi. Sürekli değiştirme 2D filtre karşılık gelen ayrık filtre, iki boyutlu rastgele normal bir sürecin ayrık gerçekleşmelerinin bir dijital bilgisayarda oluşumu için bir algoritma elde ederiz, yani iki durağan ve durağan ilişkili normal rastgele prosesin ayrık gerçekleşmeleri, üstel otomatik ve karşılıklı olarak korelasyon fonksiyonları(2.115) şeklindedir.

Bir şekillendirme filtresinin sentezine yönelik başka bir yaklaşımla, önce karşılık gelen ayrık çok boyutlu rastgele sürecin spektral matrisi bulunmalıdır. Söz konusu örnekte, bu matris şu şekildedir:

Ve matrisler (2.116).

Dikkate alınan örnek, karşılık gelen polinomların sıfırlarını analitik olarak bulmak mümkünse, spektral matrislerin çarpanlara ayrılmasının nispeten basit bir şekilde gerçekleştirildiğini göstermektedir. Sürekli iki boyutlu bir sürecin spektral matrisini çarpanlara ayırırken, bu zor değildi, çünkü sıfırları belirlemek için sadece ikinci dereceden ve iki dereceli denklemleri çözmek gerekiyordu. Ayrık iki boyutlu bir sürecin spektral matrisini çarpanlara ayırırken, ikinci dereceden denklemler ve aynı zamanda analitik bir çözüme izin veren dördüncü dereceden bir karşılıklı denklem vardı.

Diğerlerinde, daha zor vakalar bir polinomun sıfırlarını analitik olarak bulmak her zaman mümkün değildir. Bu durumlarda, inci dereceden denklemleri çözmek için sayısal yöntemlere başvurulur. Genel olarak, çarpanlara ayırma işlemi bir bilgisayarda standart bir program olarak uygulanabilir. Bu amaçla burada verilenin dışında başka çarpanlara ayırma algoritmaları da kullanılabilir.

Şu anda mevcut olan tüm spektral matris çarpanlara ayırma algoritmalarının, genel olarak konuşursak, çok zahmetli olduğuna dikkat edilmelidir.

E.F. tarafından önerilen ilişkisel veri modeli. 1970'de ve on yıl sonra Turing Ödülü'nü kazandığı Codd, günümüzün milyarlarca dolarlık veritabanı endüstrisinin temelidir. Son on yılda, hedef tam olarak veri analizi olduğunda ve işlem yürütme olduğunda kullanılan çok boyutlu bir veri modeli geliştirildi. teknoloji çok boyutlu tabanlar veri - karar vermeyi desteklemek için büyük veri kümelerinin etkileşimli analizinde önemli bir faktör. benzer bazlar veriler, verileri analizleri için çok uygun olan çok boyutlu küpler olarak yorumlar.

Çok boyutlu modeller, verileri ya karşılık gelen sayısal parametrelere sahip gerçekler olarak ya da bu gerçekleri karakterize eden metin boyutları olarak ele alır. İÇİNDE perakendeörneğin, bir satın alma bir gerçektir, satın alma hacmi ve maliyet parametrelerdir ve satın alınan ürünün türü, satın alma zamanı ve yeri ölçümlerdir. Tüm ölçüm aralığı boyunca toplu parametre değerlerini sorgular ve toplam aylık satışlar gibi değerlerle sonuçlanır bu ürün. Çok boyutlu veri modelleri, veri analizi problemleriyle ilgili üç önemli uygulama alanına sahiptir.

  • Veri ambarları, bir kuruluştaki birden çok kaynaktan gelen bilgileri analiz etmek için entegre edilmiştir.
  • Operasyonel sistemler analitik işleme(çevrimiçi analitik işleme - OLAP), ortak eğilimleri araştırmak için büyük miktarda veriyi kapsayan sorgulara hızlı bir şekilde yanıt almanızı sağlar.
  • Veri madenciliği uygulamaları, veritabanlarında önceden bilinmeyen kalıpları ve ilişkileri yarı otomatik olarak arayarak bilgiyi keşfetmeye hizmet eder.

Araştırmacılar resmi önerdi Matematiksel modellerçok boyutlu veritabanları ve daha sonra bu teklifler belirli bir şekilde rafine edildi. yazılım araçları bu modelleri uygulayan Kenar çubuğu, çok boyutlu veri modelinin gelişimini açıklar.

E-tablolar ve ilişkiler

Tablo 1'de gösterilenlere benzer elektronik tablolar kullanışlı araç satış verilerini analiz etmek: hangi ürünlerin satıldığı, kaç işlem yapıldığı ve nerede yapıldığı. Ana tablo(pivot tablo) - x ve y eksenleri boyunca birden çok boyutu iç içe geçirerek ve verileri birden çok sayfada görüntüleyerek daha karmaşık verileri görüntülemek için kullanılan, karşılık gelen ara ve nihai sonuçlara sahip iki boyutlu bir elektronik tablo. Ana tablolar genellikle veri alt kümelerinin yinelemeli seçimini ve görüntülenen ayrıntı düzeyinin değiştirilmesini destekler.

E-tablolar çok boyutlu verileri yönetmek ve depolamak için uygun değildir, çünkü verileri kendi alanlarına çok sıkı bağlarlar. görünüm ayırmadan yapısal bilgi istenen bilgi sunumundan. Örneğin, zaman gibi üçüncü bir boyut eklemek veya verileri genel ürün türlerinde gruplandırmak çok daha karmaşık bir kurulum gerektirir. Açık çözüm, her boyut için ayrı bir elektronik tablo kullanmaktır. Ancak böyle bir çözüm, yalnızca sınırlı bir ölçüde haklı çıkarılabilir, çünkü bu tür tablo gruplarının analizi hızla çok hantal hale gelir.

SQL'i destekleyen veritabanlarının kullanılması, yapılandırılmış verileri işleme esnekliğini büyük ölçüde artırır. Ancak, kümülatif rakamlar (yıl için satış hacmi) gibi birçok hesaplamayı formüle etmek için şimdiki an), nihai ve ara sonuçların bir kombinasyonu, örneğin sıralama, en çok satan on ürünün belirlenmesi, standart varyant SQL imkansız değilse de çok zordur. Satırları ve sütunları yeniden düzenlerken, farklı gösterimleri manuel olarak belirtmeli ve birleştirmelisiniz. Data Cube Operator ve Query Windows gibi SQL uzantıları bu sorunları kısmen çözer, ancak genellikle temizdir. ilişkisel model kabul edilebilir düzeyde hiyerarşik boyutlarla çalışmaya izin vermez.

E-tablolar ve ilişkisel temeller veri kümeleri, az sayıda boyuta sahip veri kümelerini yeterince işler, ancak derinlemesine veri analizinin gereksinimlerini tam olarak karşılamazlar. Çözüm, çok boyutlu veri modelleme araçlarının tamamını destekleyen teknolojiyi kullanmaktır.

Küba

Çok boyutlu veritabanları, verileri bir genelleme olan küpler olarak ele alır. elektronik tablolar herhangi bir sayıda boyut için. Ayrıca küpler, tanımlarını tekrarlamadan bir boyutlar ve formüller hiyerarşisini destekler. Bir dizi karşılık gelen küp, çok boyutlu bir veritabanı (veya veri ambarı) oluşturur.

Yeni boyut değerleri ekleyerek küpleri yönetmek kolaydır. Yaygın kullanımda, bu terim üç boyutlu bir şekle atıfta bulunur, ancak teorik olarak bir küp herhangi bir sayıda boyuta sahip olabilir. Uygulamada, çoğu zaman veri küpleri 4 ila 12 boyuta sahiptir. Modern araç takımı, sözde hiperküp 10-15'ten fazla boyuta sahip olduğunda genellikle performans sorunlarıyla karşılaşır.

Boyut değeri kombinasyonları, küp hücrelerini tanımlar. Bağlı olarak özel uygulama Bir küpteki hücreler dağınık veya yoğun olabilir. Küpler, boyut sayısı ve boyut değerlerinin ayrıntı düzeyi arttıkça silolanma eğilimindedir.

Şek. Şekil 1, ek bir boyut olan Zaman ile Tablo 1'de listelenen iki Danimarka şehri için satış verilerini içeren bir küpü göstermektedir. İlgili hücreler satış verilerini depolar. Örnekte, bir "gerçek" - karşılık gelen bilgiyi içeren boş olmayan bir hücre bulabilirsiniz. sayısal parametreler- en az bir satışın yapıldığı her zaman, ürün ve şehir kombinasyonu için. hücre şunları içerir: Sayısal değerler gerçekle ilişkili - bu durumda, satış hacmi - tek parametre.

Genel olarak, bir küp aynı anda yalnızca iki veya üç boyut gösterebilir, ancak bir boyutu diğerinin içine yerleştirerek daha fazlası gösterilebilir. Böylece, bir küpü iki veya üç boyutlu bir uzaya yansıtarak, bazı boyutları toplayarak küpün boyutu küçültülebilir, bu da daha fazla boyutla çalışmaya yol açar. karmaşık değerler parametreler. Örneğin, şehir ve zamana göre satışları göz önünde bulundurarak, her şehir ve saat kombinasyonu için bilgi topluyoruz. Yani, Şek. 1, 127 ve 211 alanlarını ekleyerek, 2001 yılında Kopenhag için toplam satışları elde ederiz.

ölçümler

Boyutlar, çok boyutlu veritabanlarında anahtar bir kavramdır. Çok boyutlu modelleme, gerçekler için mümkün olduğu kadar çok bağlam sağlamak için boyutların kullanılmasını içerir. İlişkisel veritabanlarından farklı olarak, çok boyutlu veritabanlarında kontrollü fazlalık genellikle artarsa ​​haklı çıkar. bilgi değeri. Çok boyutlu bir küpteki veriler genellikle işlem sistemi gibi diğer kaynaklardan toplandığından, güncellemelerle ilgili artıklık sorunları çok daha kolay ele alınabilir. Kural olarak, gerçeklerde fazlalık yoktur, sadece ölçümlerdedir.

Boyutlar, gerekli ayrıntı düzeyinde verileri seçmek ve toplamak için kullanılır. Boyutlar, her biri ilgili analiz için gereken ayrıntı düzeyini temsil eden birkaç düzeyden oluşan bir hiyerarşi halinde düzenlenir.

Bazen bir boyut için birden çok hiyerarşi tanımlamak yararlıdır. Örneğin, bir model hem mali yıllarda hem de takvim yıllarında zaman tanımlayabilir. Birkaç hiyerarşi, gün ve ay gibi bir veya daha fazla ortak, en düşük düzeyi paylaşır ve model bunları birkaç üst düzey, mali çeyrek ve takvim çeyreği olarak gruplandırır. Tanımların tekrarını önlemek için, çok boyutlu bir veritabanının meta verileri bir boyutlar hiyerarşisi tanımlar.

Şek. Şekil 2, Tablo 1'deki satış verileri için "Konum" şemasını göstermektedir. Konum boyutunun üç seviyesinden en düşük olanı "Şehir"dir. Şehir düzeyindeki değerler Ülke düzeyindeki değerler olarak gruplandırılmıştır, örneğin Aalborg ve Kopenhag Danimarka'dadır. Seviye T, tüm boyutları temsil eder.

Bazı çok boyutlu modellerde, bir seviyenin basit, hiyerarşik olmayan bilgileri içeren birkaç ilişkili özelliği vardır. Örneğin, Parti Boyutu, Ürün boyutunda bir düzey özelliği olabilir. Paket Boyutu boyutu da bu bilgiyi alabilir. Özellik mekanizmasının kullanılması, bir küpteki boyutların sayısını artırmaz.

Matris cebirinin uğraştığı doğrusal uzayların aksine, çok boyutlu modeller tipik olarak boyut değerleri için sıralama veya uzaklık işlevleri sağlamaz. Tek "sıralama", değerlerin daha fazla olmasıdır. yüksek seviye daha düşük seviyelerin değerlerini içerir. Ancak, zaman gibi bazı boyutlar için boyut değerlerinin sıralanması, kişi başına toplam satış gibi kümülatif bilgileri hesaplamak için kullanılabilir. belirli bir süre. Çoğu model, dengeli ağaçlar oluşturmak için bir boyut hiyerarşisi tanımını gerektirir - hiyerarşiler aynı yükseklik tüm dallarda ve her kök olmayan düzey değerde - yalnızca bir ebeveyn.

Veri

Gerçekler bir konuyu temsil eder - analiz edilmesi gereken belirli bir model veya olay. Çoğu çok boyutlu veri modelinde gerçekler, boyut değerlerinin bir kombinasyonu ile benzersiz bir şekilde belirlenir; bir gerçek, yalnızca belirli bir değer kombinasyonu için hücre boş olmadığında mevcuttur. Bununla birlikte, bazı modeller gerçekleri özel özelliklere sahip "birinci sınıf nesneler" olarak ele alır. Çoğu çok boyutlu model ayrıca her olgunun her boyutun alt düzeyinde bir değere sahip olmasını gerektirir, ancak bu bazı modellerde bir gereklilik değildir.

Her gerçek, boyut değerleri kombinasyonlarının oluşturulduğu seviyeler tarafından tanımlanan bir miktar ayrıntı düzeyine sahiptir. Örneğin, Şekil 2'de gösterilen küpteki gerçek ayrıntı düzeyi. 1 (Yıl x Ürün x Şehir). (Yıl x Tip x Şehir) ve (Gün x Ürün x Şehir) sırasıyla daha kaba ve daha ince taneciklidir.

Veri ambarları tipik olarak aşağıdaki üç tür gerçeği içerir.

  • Olaylar (olay), en azından en büyük ayrıntı düzeyinde, kural olarak, gerçek dünyadaki olaylar modellenir ve her bir olgu incelenen olgunun belirli bir örneğini temsil eder. Örnekler, satışlar, bir Web sayfasındaki tıklamalar veya bir depodaki malların hareketidir.
  • anlık görüntüler bir nesnenin durumunu modelleyin şu an mağaza veya depodaki stok seviyeleri ve Web sitesinin kullanıcı sayısı gibi zaman. Belirli bir fasulye konservesi gibi gerçek dünya fenomeninin aynı örneği, birden çok olguda ortaya çıkabilir.
  • toplu anlık görüntüler belirli bir süre için kuruluşun faaliyetleri hakkında bilgi içerir. Örneğin, içinde bulunulan ay da dahil olmak üzere bir önceki döneme ait kümülatif satış hacmi, bir önceki yılın ilgili aylarına ait rakamlarla kolaylıkla karşılaştırılabilir.

Bir veri ambarı genellikle üç tür gerçeği de içerir. Aynı kaynak veriler, örneğin bir depodaki malların hareketi, üç bölümde yer alabilir. çeşitli tipler küpler: depodaki mal akışı, mal listesi ve yılın cari tarihe akışı.

parametreler

Parametrelerin iki bileşeni vardır:

  • fiyat veya satış geliri gibi bir olgunun sayısal bir özelliği;
  • bir formül, genellikle basit bir toplama işlevi, diyelim ki birden çok parametre değerini tek bir değerde birleştirebilen bir toplam.

Çok boyutlu bir veritabanında, parametreler tipik olarak kullanıcının incelemek istediği gerçeğin özelliklerini temsil eder. Parametreler kabul çeşitli anlamlar için farklı kombinasyonlarölçümler. Özellik ve formül, tüm toplama düzeylerinin kombinasyonları için anlamlı bir değeri temsil edecek şekilde seçilir. Meta veriler formülü tanımladığı için, elektronik tabloların aksine veriler çoğaltılmaz.

üçünü hesaplarken farklı sınıf parametreler tamamen farklı davranır.

  • katkı parametreleri herhangi bir boyutta anlamlı bir şekilde birleştirilebilir. Örneğin, ürün, yer ve zaman için toplam satışları toplamak mantıklıdır, çünkü bu, bu değerlerin her birinin oluşturduğu gerçek dünya fenomenleri arasında örtüşmeye neden olmaz.
  • yarı katkılı parametreler, bir veya daha fazla boyutta birleştirilemez. Örneğin, farklı ürünler ve depolardaki stokları toplamak mantıklıdır, ancak farklı ürün ve depolardaki stokları toplamak mantıklıdır. farklı zaman anlamsızdır, çünkü aynı fiziksel fenomen birkaç kez hesaba katılabilir.
  • Katkısız parametreler genellikle seçilen formül ortalamaların birleştirilmesine izin vermediği için hiçbir boyutta birleştirilmez. düşük seviye daha yüksek bir seviyenin ortalama değerinde.

Toplamsal ve toplamsal olmayan parametreler her türden gerçeği tanımlayabilirken, yarı toplamsal parametreler genellikle anlık görüntüler veya toplu anlık görüntüler.

İstekler

Çok boyutlu bir veritabanı, doğal olarak belirli sorgu türleri için tasarlanmıştır.

  • dilim ve zar istekleri Küpü azaltan bir seçim yapın. Örneğin, küpün Şekil 2'deki bölümünü düşünün. 1, sadece ekmekle ilgili hücreleri dikkate almak ve daha sonra onu daha da azaltmak, sadece 2000 yılına ait hücreleri bırakmak. Bir boyut değerini sabitlemek, küpün boyutunu azaltır, ancak daha fazlası mümkündür. genel işlemler seçim.
  • Detaya inme ve toparlama gibi istekler- toplama için boyutlar hiyerarşisini ve parametreleri kullanan karşılıklı işlemler. Daha yüksek değerlere genelleme, boyut eliminasyonuna karşılık gelir. Örneğin, Şekil 1'de "Şehir" düzeyinden "Ülke" düzeyine evrişim. 2, Aalborg ve Kopenhag değerlerini tek bir değerde, Danimarka'da toplar.
  • detaylandırma istekleri bir veya daha fazla olan küpleri birleştirin ortak ölçümler. İlişkisel cebir açısından, böyle bir işlem bir birleştirme (birleştirme) gerçekleştirir.
  • sıralama sorguları 2000 yılında Kopenhag'da en çok satan 10 ürün gibi, yalnızca sıralanmış bir listenin üstünde veya altında görünen hücreleri döndürür.
  • Dönen Bir küp, kullanıcılara diğer boyutlara göre gruplandırılmış verileri görme yeteneği verir.

uygulama

Çok boyutlu veritabanları iki ana biçimde uygulanmaktadır.

  • Çok Boyutlu Çevrimiçi Analitik İşleme (MOLAP) sistemleri, verileri özel çok boyutlu yapılarda depolar. MOLAP sistemleri tipik olarak seyrek dizi işleme içerir ve sorguları çalıştırırken verileri aramak için gelişmiş indeksleme ve karma kullanır.
  • ilişki sistemleri OLAP (ROLAP), verileri depolamak için ilişkisel veritabanlarını kullanır ve aynı zamanda, elde etmek için bitmapler gibi özelleştirilmiş dizin yapılarını kullanır. yüksek hız isteklerin yerine getirilmesi.

MOLAP sistemleri tipik olarak daha fazlasını başarır etkili kullanım disk alanı, ayrıca istekleri işlerken daha hızlı yanıt süreleri.

İstekleri işlerken yanıt süresini azaltma

Çoğu önemli yöntemlerçok boyutlu veritabanlarında performans kazanımları ön hesaplamadır. Özel karşılıkları, potansiyel olarak büyük miktarda veri içeren sorgular için yanıt süresini etkileşimli veri analizi için yeterli bir dereceye kadar azaltan önceden toplamadır.

Ülkeye ve aya göre konsolide satış hacimlerinin hesaplanması ve saklanması veya "gerçekleştirilmesi", bir ön toplama örneğidir. Bu yaklaşım, örneğin bir ayda, bir ülkede veya üç ayda bir ve aynı anda ülke bazında toplam satışlarla ilgili sorulara hızlı bir şekilde yanıt almanızı sağlar. Bu cevaplar önceden hesaplanmış verilerden elde edilebilir ve veri ambarında saklanan bilgilere başvurmaya gerek yoktur.

Modern ticari ilişkisel veritabanlarının yanı sıra özelleşmiş çok boyutlu sistemler, önceden hesaplanmış toplamalara (toplama) dayalı sorgu optimizasyon araçlarını ve temel alınan verileri güncellerken depolanan toplamaların otomatik olarak yeniden hesaplanmasını içerir.

Tam ön birleştirme - tüm küme kombinasyonlarının gerçekleştirilmesi - imkansızdır, çünkü ön hesaplamalar için çok fazla disk alanı ve zaman gerektirir. Bunun yerine modern sistemler OLAP'ler, yalnızca seçilen toplama kombinasyonlarını gerçekleştirerek ve ardından bunları diğer toplamaları daha verimli bir şekilde hesaplamak için kullanarak ön toplamaya daha pratik bir yaklaşım benimser. yeniden kullanın kümeler, doğru bir çok boyutlu veri yapısının korunmasını gerektirir.

Edebiyat
  1. R. Winter, "Veritabanları: OLAP Oyununa Geri Dönün", Intelligent Enterprise Magazine, cilt. 1, hayır. 4, 1998
  2. E. Thomsen, G. Spofford, D. Chase, Microsoft OLAP Çözümleri, John Wiley & Sons, New York, 1999

Torben Bach Pedersen, Christian S. Jensen, Çok Boyutlu Veritabanı Teknolojisi. IEEE Computer, Aralık 2001. Telif hakkı IEEE Computer Society, 2001. Tüm hakları saklıdır. İzin alınarak yeniden basılmıştır.

Sayfalar 513-523

çok boyutlu süreçler

Şimdiye kadar, zaman serilerini birbirine bağlayan sadece bir ilişkiden oluşan modelleri ele aldık. Bu durumda değişkenlerden birini içsel, geri kalan değişkenler dışsal olarak seçtik. Böyle bir bölünme her zaman doğal değildir; aynı değişkenlerin hem içsel hem de dışsal olduğu birkaç oranı aynı anda düşünmek çoğu zaman gereklidir. Son derste görebileceğiniz gibi, bir değişken her zaman dışsal olarak kabul edilemez ve aslında birkaç denklemden oluşan bir DGP modelini düşünmemiz gerekir. Bu, aynı anda birkaç zaman serisinin modellenmesi, başka bir deyişle çok boyutlu rastgele bir sürecin modellenmesi anlamına gelir.

Bir tanımla başlayalım. vektörü düşünün =(xt 1 ,xt 2 ,...,хTk)T, her bileşeni bir zaman serisidir. üst indeks, bileşenin sayısını ve daha önce olduğu gibi, zaman içindeki noktayı alt indeks gösterecektir. bileşenlerin dağılımı aile tarafından karakterize edilir eklem yoğunlukları formun dağılımları: F n ( xt1i1 ,xt2i2 ,..., xtniçinde)‚ n=1‚2,.... Dar anlamda durağanlık koşulu, tüm ortak dağılım yoğunlukları ailesinin zaman kaymasından hala bağımsızdır. Ancak şimdi, farklı zamanlarda rastgele bir sürecin tüm olası değer kombinasyonlarına ek olarak, olasılık yoğunluklarının argümanları da farklı zamanlarda farklı bileşenlerin tüm olası kombinasyonlarıdır. Örneğin, iki boyutlu bir yoğunluk için durağanlık koşulundan şunu elde ederiz: F 2 (XT 1 ,XT 2 ) = F 2 (x 1T + r, x 2T + r) herhangi bir τ için Ortak dağıtım Aynı an için bileşen zamana bağlı değildir. Örneğin, zaman içinde iki farklı noktada birinci bileşenin değerlerini ve zaman içinde üçüncü bir noktada ikinci bileşeni içeren üç boyutlu bir dağıtım işlevi düşünün. Durağanlık şu anlama gelir F 3 (XT 1 ,XT + H 1 ,XT + s 2 ) = F 3 (x 1T + τ , x 2T + s + τ ) . Bunun zamandaki bir kaymaya karşı değişmezliğin bir özelliği olduğunu söyleyebiliriz. Yani, zamanın her anına τ değerini eklersek, yoğunluk fonksiyonu değişmeyecektir. Çok boyutlu bir sürecin durağanlığının, bileşenlerinin her birinin durağanlığını gerektirdiği açıktır.

Tek boyutlu durumda olduğu gibi, dar anlamda durağanlık, rastgele süreçlerin özelliklerinin bir takım özelliklerini gerektirir. Her şeyden önce, matematiksel beklenti ile başlayalım. Her bileşen için matematiksel beklenti diğer bileşenlerden bağımsızdır. Bu nedenle, çok boyutlu süreç durağan ise, her bileşenin matematiksel beklentisi zamana bağlı değildir. Beklenti vektörü E( zamana bağlı değildir.

Şimdi ikinci derecenin anlarını düşünün. Her bileşen, dağılma ile karakterize edilir ve otokorelasyon fonksiyonu. Tek boyutlu bir seri durağansa, otokorelasyon ve otokovaryans fonksiyonları yalnızca τ kaymasına bağlıdır: Düzeltme(τ) = Düzelt( xTi,XJT + r) = р i (τ), ama şimdi için ikinci karışık anı düşünebiliriz çeşitli bileşenler, ayrıca Corr( xTi,XJT + r). Böyle bir değeri çapraz korelasyon fonksiyonu olarak adlandırmak doğaldır. Bileşenler çok boyutlu durağan bir süreç oluşturuyorsa, çapraz korelasyon τ zaman kaymasının bir fonksiyonu olacaktır. Bu işlevi belirtiyoruz R ij (τ) . oldukça açık ki R ij (τ) = R ji (-τ) . Sabit bir τ değeri için, elemanlar R ij (τ) τ'ya bağlı olarak bir R matrisi oluşturur. τ'nın sıfıra eşit değeri, vektörün korelasyon matrisine karşılık gelir.

Bir önceki bölümde, 2B durum geçiş diyagramına baktık. Artan sayıda yük akışı için durum sayısı (ve dolayısıyla denklemler) çok hızlı bir şekilde artar. Ancak durum geçiş diyagramı yapısını kullanarak sorunu basitleştirmek mümkündür. Şekil 2'de gösterilen iki boyutlu durum geçiş diyagramını düşünün. 10.2. Dört komşu durum için, saat yönündeki akış, ters yöndeki akışa eşit olmalıdır (Kingman, 1969), (Sutton, 1980). Figür'e bakalım. 10.2.


Pirinç. 10.2.

Saat yönünde:


saat yönünün tersine:


Her iki ifadeyi de durum olasılıklarına indirgeyebilir ve ardından koşul (10.12) elde edebiliriz. Tersinirlik için gerekli ve yeterli bir koşul, aşağıdaki iki ifadenin eşit olmasıdır.

Saat yönünde:

(10.12)

saat yönünün tersine:

Bu iki ifade birbirine eşitse yerel veya kısmi denge. Böylece, gerekli kondisyon tersine çevrilebilirlik, i durumundan j durumuna bir akış (ok) varsa, o zaman j durumundan i durumuna bir akış (ok) olması gerektiğidir. Herhangi iki bağlantılı durum arasında kesit denklemleri uygulayabiliriz. Böylece, şekil 10.2'den şunu elde ederiz:

(10.13)

Bu iki durum arasında herhangi bir yol seçerek herhangi bir durum olasılığını durum olasılığı cinsinden ifade edebiliriz ( Kolmogorov kriterleri). Örneğin bir yol seçebiliriz:

Sonra aşağıdaki denge denklemini elde ederiz:

(10.17)

N yük akışına sahip çok boyutlu kayıplı bir sistem düşünürsek, herhangi bir yük akışı duruma bağlı bir Poisson süreci olabilir. Belirli bir iş parçacığında, aşağıdaki gibi yükler olabilir: BPP(Bernoulli, Poisson, Pascal). N- için boyutlu sistemlerde, tersinirlik koşulları (10.12)'ye benzer. Kolmogorov kriteri herkes için sağlanmalı olası yollar. Pratikte herhangi bir problem yaşamıyoruz çünkü tersinirlik varsayımı altında elde edilen çözüm doğru karar ancak ve ancak düğümün denge denklemleri sağlanırsa. Bir sonraki bölümde, genel bir çok boyutlu yük modelini tanıtmak için bunu temel olarak kullanıyoruz.

Çok Boyutlu Kayıplı Sistemler

Bu bölümde, tek bir kanala veya bir grup kanala veya kanal demetlerine ulaşan çeşitli trafik akışlarından oluşan sistemler için klasik teletrafik teorisinin genellemelerini ele alıyoruz. Her yük akışı olabilir bireysel parametreler ve sınıf kısıtlamalı, duruma bağlı Poisson çağrı akışları ve çok yuvalı trafik olabilir. Bu genel model sınıfı, bir sınıf olabilen sistemdeki zaman dağılımına duyarsızdır. Genellemeleri teker teker tanıtıyoruz ve ana fikirleri göstermek için küçük bir vaka çalışması sunuyoruz.

sınıf kısıtlaması

Bölüm 10.1'de ele alınan durumla karşılaştırıldığında, şimdi her bir yük akışı (sınıf) için eşzamanlı isteklerin sayısını sınırlayacağız. Böylece tam kullanılabilirlik olmayacak, ancak fiziksel olarak yalnızca belirli kanallara erişimin olduğu tıkanıklık sistemlerinden farklı olarak, artık tüm kanalları kullanmak mümkün, ancak herhangi bir zamanda yalnızca sınırlı sayıda işgal edebiliyoruz. Bu, servis koruması sağlar (numaranın korunması sanal kanallar= hizmet kısıtlaması sınıfı = öncelik eşiği stratejisi). Bu nedenle, j sınıfındaki eşzamanlı çağrıların sayısına aşağıdaki gibi sınırlamalar getiriyoruz:

(10.18)

Son kısıtlama sağlanmazsa, o zaman şunu elde ederiz: bireysel gruplar N olağan bağımsız tek boyutlu karşılık gelen kayıplı sistemler. Sınırlamalar nedeniyle, durum geçiş diyagramı kesilir. İki yük akışı için Şekil 10.3'te gösterilmiştir.


Pirinç. 10.3.

Kesik durum geçiş diyagramının hala tersine çevrilebilir olduğuna ve kesilen değere göre değerin değişmediğine dikkat edin. Sadece normalizasyon sabiti değişir. Aslında, yerel denge özelliği nedeniyle, yukarıdaki özellikleri değiştirmeden herhangi bir durumu kaldırabiliriz. Herhangi bir yük akışında minimum (garanti edilen) dağıtılmış kanal sayısı olacak şekilde yük akışları kümelerinde daha genel sınıf kısıtlamaları düşünebilirsiniz.

Genel Yük Hizmet Süreçleri

düşünebiliriz PCT-I yalnızca bölüm 10.1'deki gibi yükleyin. Her yük akışı duruma bağlı olabilir, örneğin doğrusal durum bağımlılığı ve kendi çıkış (ölüm) oranı ile Poisson çağrı akışı, bkz. (10.16) ve (10.17)

Sistem, tersine çevrilebilirlik koşullarını karşılıyor, bkz. (10.12). Böylece, çalışma formu için de var BPP-yük akışları ve daha genel duruma bağlı Poisson süreçleri. Tüm yük akışları Engset (Binom) süreçleri ise, çok değişkenli Engset formülünü elde ederiz (Jensen, 1948). Yukarıda bahsedildiği gibi sistem, sistemdeki bekleme sürelerinin dağılımlarına karşı duyarsızdır. Her yük akışı, sistemde harcanan zamanın kendi ayrı dağılımına sahip olabilir.

Çoklu yuva yükü

Entegre servislerin olduğu sistemlerde, gerekli verim hizmetin türüne bağlı olabilir. Örneğin, yalnızca sesli bir telefon bağlantısı bir kanal (yuva) gerektirirken, örneğin video iletimi aynı anda kanallar gerektirebilir. alırız ek kısıtlamalar:

(10.19)
(10.20)

tür aramaların gerçek sayısı nerede. Ortaya çıkan durum geçiş diyagramı tersinir olacak ve bir çarpım şeklinde olacaktır.