Excel'de regresyon programı. Excel'de Doğrusal Regresyonun Hızlı İnşaatı: Trend Hattı

  • 13.09.2019

Microsoft Excel'de Regresyon Analizi - İş zekası alanındaki regresyon analizi görevlerini çözmek için MS Excel'i kullanmak için en eksiksiz kılavuzlar. Konrad Carlberg, hem bağımsız regresyon analizinde hem de diğer insanlar tarafından gerçekleştirilen analizin sonuçlarını değerlendirme konusunda birçok hatadan kaçınmanıza yardımcı olacak teorik soruları açıklar. Basit korelasyonlardan ve t testlerinden çoklu kovaryans analizinden gelen tüm materyaller gerçek örneklere dayanır ve ilgili adım adım prosedürlerin ayrıntılı bir açıklaması eşlik eder.

Kitap, Excel işlevleriyle ilişkili özellikleri ve çelişkilerin regresyonla çalışması, her bir seçeneklerini kullanmanın sonuçları ve her bir argümanın sonuçları, tıbbi araştırmalardan finansal analizlere kadar çeşitli alanlarda regresyon yöntemlerini ne kadar güvenilir bir şekilde uygular.

Konrad Carlberg. Microsoft Excel'de regresyon analizi. - m.: Diyalektik, 2017. - 400 s.

Not formatında veya formattaki örnekler indirin

Bölüm 1. Veri değişkenliğinin değerlendirilmesi

İstatistiklerin bertaraf edilmesinde, birçok varyasyon göstergesi vardır (değişkenlik). Bunlardan biri, bireysel değerlerin sapmalarının ortalamasından toplamıdır. Excel'de, quadolc () işlevi bunun için kullanılır. Ancak dispersiyon daha sık kullanılır. Dispersiyon, sapmaların ortalama kareleridir. Dispersiyon, test verilerindeki değer sayısına duyarsızdır (sapmaların karelerinin toplamı ölçüm sayısı ile büyürken).

Excel programı, dispersiyonu döndüren iki fonksiyon sunar: Ekran () ve ekran ():

  • İşlenecek değer genel bir set oluşturursa, ekranın işlevini () kullanın. Bunlar, aralıkta yer alan değerler, ilgilendiğiniz tek değerlerdir.
  • İşlenecek değer daha büyük hacim kümesinden bir örnek oluşturursa, ekran işlevini () kullanın. Dispersiyonun da değerlendirebileceğiniz ek değerler olduğu varsayılmaktadır.

Bu değer ortalama değer veya korelasyon katsayısı genel popülasyona göre hesaplanırsa, parametre olarak adlandırılır. Örneğe göre hesaplanan benzer bir değer, istatistik denir. Sapmaları sayma ortalamadan Bu sette, daha küçük bir değerden sapmaların karelerinin toplamını başka bir değerden sayılırsa alırsınız. Benzer iddiası dağılma için doğrudur.

Daha fazla örnekleme, hesaplanan istatistik değeri ne kadar doğru olur. Ancak, genel popülasyonun hacminden daha az bir hacimli bir numune yoktur, bunlara göre, istatistiklerin değerinin parametrenin değeri ile çakıştığından emin olabilirsiniz.

Bu farkın ne kadar küçük olursa olsun, genel popülasyonun ortalamasından farklı 100 büyüme değerinin olduğunu varsayalım. Numunenin dispersiyonunu hesapladıktan sonra, anlamlarından bazılarını alacaksınız, 4, 4. bu değer, elde edilebilecek, diğer herhangi bir değere göre 100 büyüme değerinin her birinin sapmasını hesaplayan diğerlerinden daha azdır. numunedeki ortalamadan daha fazla, sayı ve nispeten gerçek ortalama genel agrega. Bu nedenle, hesaplanan dispersiyon farklı olacaktır ve daha küçük bir tarafta, bir şekilde öğrendiğiniz ve seçici olmadığı takdirde, ancak genel agreganın parametresinin parametresi olur.

Numune için tanımlanan ortalama karelerin toplamı, genel popülasyonun dağılımının düşük tahminini verir. Bu şekilde hesaplanan dispersiyon denir yerinden olmuş değerlendirme. Ofsetini dışlamak ve dayanılmaz bir değerlendirme elde etmek ortaya çıkıyor, sapmaların toplamını bölmek için yeterlidir. n.nerede n. - örnek boyutu ve açık n - 1..

Değer vermek n - 1.özgürlük derecelerinin (sayı) olarak adlandırılır. Bu değeri hesaplamanın farklı yolları vardır, ancak hepsi örneklem büyüklüğünden bir miktar çıkarma veya gözlemlerin düştüğü kategorilerin sayısını sayarlar.

Ekranın () ve ekranın () işlevleri arasındaki farkların özü aşağıdaki gibidir:

  • Ekranın işlevinde () karelerin toplamı gözlem sayısına ayrılır ve bu nedenle, dispersiyonun yerinden edilmiş değerlendirmesini, gerçek ortalamayı temsil eder.
  • Ekranın fonksiyonunda () karelerin toplamı eksi 1, yani, yani, I.E.'nin gözlemlerinin sayısına ayrılmıştır. Bu numunenin alındığı genel nüfusun dağılımının daha doğru, olası bir şekilde değerlendirilmesini sağlayan özgürlük derecelerinin sayısına göre.

Standart sapma (eng. standart sapma., SD) - Dispersiyonun kare kökü var:

Meydandaki sapmaların yapımı, ölçüm ölçeğini orijinalin karesi olan başka bir metrike çevirir: metre kare, kare dolara, vb. Standart sapma, dağılımdan kare bir köktür ve bu nedenle bizi ilk ölçüm birimlerine döndürür. Daha uygun.

Veriler bazı manipülasyonlara maruz kaldıktan sonra standart sapmayı hesaplamak genellikle gereklidir. Ve bu durumlarda sonuçlar şüphesiz standart sapmalardır, onlar denir standart hatalar. Standart bir ölçüm hatası, standart ortalama bir hata, standart ortalama bir hata dahil olmak üzere standart hata çeşitleri vardır.

50 devletin her birinde rastgele seçilen yetişkin erkeklerin büyümesi hakkında veri topladığınızı varsayalım. Daha sonra, her durumda yetişkin erkeklerin ortalama büyümesini hesaplarsınız. Elde edilen 50 ortalama değerler, gözlemler olarak kabul edilebilir. Buna dayanarak, standart sapmalarını hesaplayabilirsiniz. standart orta hata. İncir. 1. 1250 kaynak bireysel değerlerin dağıtımını (50 eyaletin her biri için 25 erkeğin büyümesi hakkındaki veriler), 50 eyaletin ortalama kümelerinin dağılmasıyla karşılaştırmanızı sağlar. Ortalama standart hatayı tahmin etmek için formül (yani, ortalama değerlerin standart sapması, bireysel gözlemler):

ortalamanın standart hatası nerede; s. - İlk gözlemlerin standart sapması; n. - Örnekteki gözlem sayısı.

İncir. 1. Orta değerlerin durumdan duruma kadar değişmesi, bireysel gözlem sonuçlarının önemli ölçüde daha az değişimi

İstatistikte, istatistiksel miktarları belirlemek için Yunan ve Latin harflerinin kullanımı konusunda bir anlaşma var. Yunan harfleri, genel nüfusun parametrelerini, Latince - seçici istatistikleri belirlemek için yapılır. Bu nedenle, genel popülasyonun standart sapması hakkında konuşursak, onu σ olarak yazıyoruz; Numunenin standart sapması göz önünde bulundurulursa, belirtenizi kullanıyoruz. Karakterlerin ortalamayı belirlemesi için, birbirleriyle bu kadar başarılı bir şekilde tutarlıdır. Genel nüfusun ortalaması Yunan harfi ile belirtilmiştir. Ancak, X̅ sembolü geleneksel olarak örnek ortamı temsil etmek için kullanılır.

z-skoru Dağıtımdaki gözlemin standart sapma birimlerinde olduğunu ifade eder. Örneğin, Z \u003d 1.5, gözlemin ortalama 1,5 standart sapmalara kadar büyük değerlere doğru olduğu anlamına gelir. Terim z-skoru Bireysel tahminler için kullanılır, yani. Numunenin bireysel elemanlarına atfedilen ölçümler için. Bu tür istatistikler için (örneğin, ortalama standart) terimi kullanın z-değeri:

buradaki X̅ ortalama örnek değerdir, μ, genel setin ortalama değeridir, ortalama örnek setinin standart hatası:

Σ genel popülasyonun standart hatasıdır (bireysel ölçümler), n. - Örnek boyut.

Golf kulübünde bir eğitmen olarak çalıştığınızı varsayalım. Şok çeşitlerini ölçmek için uzun zamandır bir fırsatınız oldu ve ortalama değerinin 205 metre olduğunu ve standart sapma 36 metre olduğunu biliyorsunuz. 10 metre mesafeyi artıracağını iddia eden yeni bir kulüp teklif edildi. Aşağıdaki 81 kulüp ziyaretçilerinden her birine yeni bir tuşla test yumrukları yapmayı ve hit serisini yazmasını isteyin. Yeni bir tuşa sahip ortalama damlama aralığının 215 metre olduğu ortaya çıktı. 10 metre (215 - 205) farkının, örneklemenin son derece hatasından kaynaklanması olasılığı nedir? Ya da farklı bir şekilde: Daha büyük bir testte, yeni anahtarın, mevcut uzun vadeli ortalama 205 metre ile karşılaştırıldığında, etkinin mesafesinde bir artış göstermeyeceği olasılığı nedir?

Z-değerini oluşturarak kontrol edebiliriz. Standart orta hata:

Sonra Z-Değer:

Numunenin ortalamasının genel popülasyon için ortalamanın ortalamasından 2,5σ ile savunması olasılığını bulmamız gerekiyor. Olasılık küçükse, farklılıklar kazadan kaynaklanır, ancak yeni çubuğun kalitesidir. Excel'de, Z-değeri olasılığını belirlemek için bitmiş bir işlev yoktur. Bununla birlikte, bir formül \u003d 1-norms.st.sp.sp. (Z-değeri; gerçek), burada norms.st.sp (), normal eğrinin altındaki alanı Z'nin soluna döndürür. -Value (Şekil 2).

İncir. 2. Normların işlevi .Sst. ASP (), eğrinin altındaki alanı Z-değerin soluna döndürür; Görüntüyü büyütmek için sağ tıklayın ve seçin Yeni bir sekmede resim aç

Norms.st.SP. () Fonksiyonunun ikinci argümanı iki değer alabilir: gerçek - fonksiyon, eğrinin altındaki alanı ilk argüman tarafından verilen noktanın soluna döndürür; Fals - fonksiyon, eğrinin yüksekliğini ilk argüman tarafından verilen noktada döndürür.

Ortalama değer (μ) ve genel popülasyonun standart sapması (Σ) bilinmiyorsa, t-değeri kullanılır (daha fazla ayrıntı, daha ayrıntılı). Z- ve T-değerlerinin yapısı, T-değerini, seçici sonuçlara dayanarak elde edilen standart sapma olduğunu ve genel popülasyonun parametresinin bilinen değerini bulmak gerçeğiyle ayırt edilir. Kullanılmış. Normal eğri tek bir forma sahiptir ve T-değerlerinin dağılım şekli, DF özgürlüğü derecelerinin sayısına bağlı olarak değişmektedir (İngilizce'den). Özgürlük derecesi) Temsil ettiği örnek. Numunenin özgürlüğünün sayısı eşittir n - 1.nerede n. - Numune boyutu (Şek. 3).

İncir. 3. Σ parametresinin bilinmediği durumlarda ortaya çıkan t-dağılımlarının formu, normal dağılım biçiminden farklıdır

Excel'de, T-Dağılımı için ayrıca Öğrenci Dağılımı olarak da adlandırılan iki fonksiyon vardır: Student.Rasp (), eğri altındaki alanın değerini belirtilen T-değerinin solundaki değerini ve Student.Rasp. Px () - Sağdaki.

Bölüm 2. Korelasyon

Korelasyon, sipariş edilen buhar kümesinin elemanları arasındaki ilişkinin bir ölçüsüdür. Korelasyon karakterize edilir pearson Korelasyon Katsayıları- r. Katsayı -1.0 ile +1.0 arasında değişebilir.

nerede S X. ve S y. - Standart değişken sapmalar H. ve Y., S xy. - Covariator:

Bu formülde, kovaryans değişkenlerin standart sapmalarına ayrılmıştır. H. ve Y.Böylece, ölçüm birimleri ile ilişkili ölçeklendirme etkilerini Covaria'dan çıkarın. Excel, Correla () işlevini kullanır. Bu fonksiyonun başlığında, standart klon (), tabak () veya kovaryans () gibi işlevlerin adlarında kullanılan G ve B'nin açıklayıcı unsurları yoktur. Numunenin yer değiştirme derecesi ile sağladığı korelasyon oranı olmasına rağmen, ancak yer değiştirmenin nedeni dağılım veya standart sapma durumunda farklıdır.

Genel korelasyon katsayısının büyüklüğüne bağlı olarak (genellikle Yunan mektubu tarafından belirtilir) ρ ), korelasyon katsayısı r. Yerinden edilmiş bir derece verir ve yer değiştirme etkisi, numune boyutunda bir azalma ile geliştirilmiştir. Bununla birlikte, bu yer değiştirmeyi aynı şekilde ayarlamaya çalışmıyoruz, örneğin, standart sapmanın hesaplanmasında, gözlem sayısı karşılık gelen formüle göre ikame edilmediğinde, ancak özgürlük derecelerinin sayısı. Aslında, kovaryansı hesaplamak için kullanılan gözlem sayısı, büyüklük üzerinde herhangi bir etkisi yoktur.

Standart korelasyon katsayısı, doğrusal bir oranla ilişkili değişkenlerle kullanılmak üzere tasarlanmıştır. Verilerdeki doğrusallık ve / veya hataların varlığı (emisyonlar), korelasyon katsayısının yanlış hesaplanmasına yol açar. Veri sorunlarını teşhis etmek için, nokta şemaları oluşturulması önerilir. Bu, Excel'deki tek tip diyagramlardır, burada yatay ve dikey eksenlerin değerlerin ekseni olarak muamele edilir. Sütunlardan biri olan doğrusal diyagram, kategori ekseninin veri resmini nasıl bozduğunu (Şek. 4) tanımlar.

İncir. 4. Regresyon hatları aynı görünüyor, ancak denklemlerini kendi aralarında karşılaştırır.

Doğrusal bir diyagram oluşturmak için kullanılan gözlemler, yatay eksen eşitliği boyunca bulunur. Bu eksen boyunca bölünmelerin yazıtları sadece yazıtlardır ve sayısal değerler değildir.

Korelasyonun sıklıkla nedensel bir ilişkinin varlığı anlamına gelmesine rağmen, olduğu kanıt olarak görev yapmaz. İstatistikler, teorinin doğru veya yanlış olduğunu göstermek için kullanılmaz. Gözlem sonuçlarının rekabet edilmesini ortadan kaldırmak için planlanan Deneyler. İstatistikler, bu tür deneyler sırasında toplanan bilgileri özetlemek için çekilir ve mevcut kanıt tabanında yapılan kararın yanlış olabileceği olasılığının nicel bir değerlendirmesini.

Bölüm 3. Basit regresyon

İki değişken birbirine bağlanırsa, korelasyon katsayısının değeri, 0,5, daha sonra bu durumda, bir diğerinin bilinen değeri için bir değişkenin bilinmeyen bir değeri tahmin edilebilir (bir doğrulukla) tahmin edilebilir. İncir'de gösterilen verilere dayanarak tahmin fiyat değerleri için. 5, birkaç olası yoldan birini kullanabilirsiniz, ancak neredeyse kesinlikle, Şekil 2'de sunulan kişiyi kullanmazsınız. 5. ve yine de kendinizi tanıymalısınız, çünkü başka bir yöntem, bunun gibi, bunun gibi, bununla ilişkiyi açıkça göstermemize izin vermemize izin vermez. İncirde. 5 B2 aralığında: C12, on evin rastgele bir örneğidir ve her evin (ayakla ayaklarındaki) ve satış fiyatı hakkında veri sağlar.

İncir. 5. Tahmini satış fiyatları düz bir çizgi oluşturur

Ortalama değerleri, standart sapmaları ve korelasyon katsayısını bulun (A14: C18 aralığı). Alanın z-tahminlerini hesaplayın (E2: E12). Örneğin, EZ hücresi bir formül içerir: \u003d (B3- $ 14) / $ 15'te $. Tahmini fiyatının Z-tahminlerini hesaplayın (F2: F12). Örneğin, F3 hücresi bir formül içerir: \u003d yez * $ 18'de. Z-Tahminleri fiyatlarla Dolar (H2: H22) tercüme et. NZ hücre formülünde: \u003d F3 * $ C $ 15 + $ C $ 14.

Lütfen dikkat: Yansıtılan değer, her zaman 0'a eşit ortalamaya doğru kaydırılmaya çalışır. Korelasyon katsayısına daha yakın olan sıfıra yaklaştırın, yansıtılan Z-tahminindir. Örneğimize, bölge ile satış fiyatı arasındaki korelasyon katsayısı 0.67'dir ve tahmin fiyatı 1.0 * 0.67, yani. 0.67. Bu, standart sapmanın üçte ikisine eşit ortalama değerin üzerindeki aşan değerin üzerindeki değerine karşılık gelir. Korelasyon katsayısı 0,5'e eşitse, tahmin fiyatı 1.0 * 0.5, yani. 0.5. Bu, standart sapmanın sadece yarısına eşit ortalama değerin üzerindeki aşırı değere karşılık gelir. Korelasyon katsayısı değeri mükemmelden farklı olduğunda, yani More -1.0 ve 1.0'dan az olan, öngörülen değişkenin tahmini, ortalama değerine (bağımsız) değişkenin kendi kendine olan tahmininden daha yakın olmalıdır. Bu fenomen orta regresyon denir veya sadece regresyon denir.

Excel, regresyon hattı denkleminin katsayılarını belirlemek için birkaç işlevi vardır (Excel'de bir trend çizgisi denir) y \u003dkx. + b.. Belirlemek için k. İşlev görür

\u003d Tilt (bilinen_name_u; tobned_stations_x)

Buraya w. - Tahmin edilen değişken ve h. - Bağımsız değişken. Bu değişkenlerin sırasını kesinlikle takip etmelisiniz. Regresyon hattının eğimi, korelasyon katsayısı, standart değişkenler ve kovaryans sapmaları birbirleriyle yakından ilişkilidir (Şekil 6). Segment () işlevi, dikey eksendeki regresyon çizgisini kesen bir değer döndürür:

\u003d Segment (bilinen_stations_u; tobned_stations_x)

İncir. 6. Standart sapmalar arasındaki oran, kovaryansı korelasyon katsayısına ve regresyon hattının eğimine dönüştürür.

Lütfen eğimin () işlevi ve segment () argümanları tarafından sağlanan X ve Y değerlerinin sayısının aynı olması gerektiğini unutmayın.

Regresyon analizinde, bir başka önemli gösterge kullanılır - R2 (R-kare) veya belirleme katsayısı kullanılır. Genel veri değişkenliğine katkının bağımlılık tarafından hangi katkının tanıtıldığını belirler. h. ve w.. Excel'de, Correla () işlevi olarak tam olarak aynı argümanları alan bir fonksiyon () var.

Aralarında sıfır olmayan bir korelasyon katsayısına sahip iki değişkende, dağılımı açıkladıklarını veya açıklanmış bir dispersiyona sahip olduklarını söylüyorlar. Genellikle açıklanan dispersiyon, yüzde olarak ifade edilir. Yani R. 2 \u003d 0.81, iki değişkenin dağılımının (dağılımının)% 81'in açıklandığı anlamına gelir. Kalan% 19 rastgele dalgalanmalardan kaynaklanmaktadır.

Excel, hesaplamaları basitleştiren bir eğilim fonksiyonuna sahiptir. İşlev Trend ():

  • tanınmış değerleri kabul eder h. ve bilinen değerler w.;
  • regresyon hattının eğimini ve sabiti (segment);
  • tahmin değerlerini döndürür w.Regresyon denklemini bilinen değerlere uygulamak temelinde tanımlanır. h. (Şek. 7).

Eğilim () işlevi, dizinin işlevidir (daha önce bu tür fonksiyonlarla karşılaşmadıysanız, öneririm).

İncir. 7. Trend işlevini kullanma (), bir çift eğim fonksiyonunun () ve bir parçanın kullanımına kıyasla hesaplamaları hızlandırmanıza ve basitleştirmenizi sağlar ()

G3: G12 hücresindeki dizinin formülündeki eğilim () işlevini girmek için G3: G12 aralığını seçin, Trend Formülünü Girin (SZ: C12; VZ: B12), tuşları basılı tutun. Ve yalnızca tuşuna basın. . Lütfen formülün kıvırcık parantez içine alındığını unutmayın: (ler). Bu yüzden Excel, bu formülün tam olarak bir dizi formülü olarak algılandığını bildirir. Parantezlerine girmeyin: Onları formülün bir parçası olarak kendinize girmeye çalışırsanız, Excel girişinizi normal bir metin dizesi olarak algılayacaktır.

İşlevin bir eğilim vardır () iki argüman var: new_name_x.ve kurnaz. Birincisi, gelecek için bir tahmin oluşturmanıza olanak tanır ve ikincisi, regresyon hattını koordinatın kökeninden geçmesine zorlayabilir (gerçeğin değeri, Hesaplanan sabiti kullanmak için Excel diyor, değer bir yalandır - Constant \u003d 0). Excel, grafikte doğrudan bir regresyon çizmenizi sağlar, böylece koordinatların kökeninden geçer. Bir nokta şeması oluşturarak başlayın, ardından veri serisi işaretleyicilerinden birine sağ tıklayın. Açılan içerik menüsündeki öğeyi seçin Trend Hattı Ekle; Seçenek'i seçin Doğrusal; Gerekirse, paneli aşağı kaydırın, kutuyu işaretleyin. Geçişi ayarla; Metin alanının ilişkili metin alanında 0.0 olarak ayarlandığından emin olun.

Üç değişkeniniz varsa ve ikisi arasındaki korelasyonu belirlemek istiyorsanız, üçüncünün etkisini ortadan kaldırır, kullanabilirsiniz. Özel korelasyon. Koleji tamamlayan şehrin sakinlerinin yüzdesi ile kentli kütüphanelerdeki kitap sayısının yüzdesi arasındaki ilişki ile ilgilendiğinizi varsayalım. 50 şehirde veri topladınız, ancak ... Sorun şu ki, bu parametrelerin her ikisinin de bir veya başka bir şehir sakinlerinin refahına bağlı olabileceğidir. Tabii ki, diğer 50 şehri seçmek çok zordur, aynı zamanda sakinlerin aynı düzeyde refah ile karakterize edilir.

Kütüphaneler için hem mali destek üzerindeki refah faktörü tarafından sağlanan etkiyi ortadan kaldırmak için istatistiksel yöntemler uygulamak ve üniversite eğitiminin mevcudiyeti, ilgilendiğiniz değişkenler arasındaki derecenin daha doğru bir kantitatif değerlendirmesini elde edebilirsiniz: yani: kitap sayısı ve mezunların sayısı. Diğer değişkenlerin değerleri sabitlendiğinde, iki değişken arasında böyle bir şartlı korelasyon ve özel korelasyon denir. Hesaplamasının yöntemlerinden biri denklemi kullanmaktır:

Nerede r. Cb. . W. - Kolej değişkenleri (kolej) (üniversite) ve Kitaplar (Kitaplar) arasındaki korelasyon katsayısı, değişken refahın (servet) ortadan kaldırılmış etkisi (sabit değer); r. Cb. - Kolej ve kitap değişkenleri arasında korelasyon katsayısı; r. Cw - Kolej değişkenleri ve refah arasındaki korelasyon katsayısı; r. Bw - Kitap ve refah değişkenleri arasında korelasyon katsayısı.

Öte yandan, özel korelasyon kalıntıların analizine dayanarak hesaplanabilir, yani. Yansıtılan değerler ile ilgili gerçek gözlemlerin (her iki yöntem de Şekil 8'de sunulmuştur) arasındaki farklar.

İncir. 8. Kalıntıların korelasyonu olarak özel korelasyon

Korelasyon katsayısı matrisinin (B16: E19) hesaplamasını basitleştirmek için Excel analiz paketini kullanın (menü Veri –> Analiz –> Veri analizi). Varsayılan olarak, Excel'deki bu paket aktif değil. Yüklemek için menüyü geç Dosya –> Parametreler –> Üst yapı. Alt katta pencereleri açtı ParametrelerExcel Alan bulmak Kontrol, Seç Üst yapıExcelTıklayın Git. Üstyapının karşısındaki keneyi kontrol edin Analiz Paketi. A'ya tıklayın. naliza verileri, Seçeneği seçin Korelasyon. Giriş aralığı olarak, $ 2: $ D $ 13'ü belirtin, kutuyu işaretleyin İlk dizideki etiketler, Çıktı aralığı olarak, $ 16: $ 9 $ değerini belirtin.

Başka bir fırsat, yarı parti korelasyonunu belirlemektir. Örneğin, büyüme ve yaşın etkisini ağırlıkça etkilerini keşfedersiniz. Böylece, iki öngörücü değişkeniniz var - büyüme ve yaş ve bir öngörülen değişken - ağırlık. Bir belirleyici değişkenin etkisini bir başkasına, ancak öngörülen değişken için ortadan kaldırmak istiyorsunuz:

n yükseklik (yükseklik), W-ağırlık (ağırlık) ve yaş (yaş); Sektörel korelasyon katsayısının endeksinde, belirtilen yuvarlak parantezler kullanılır, değişkenin etkisi hangi değişkenden ortadan kaldırılır. Bu durumda, W (N.A) atama, değişken yaşın etkisinin büyüme değişkeninden çıkarıldığını ancak değişken ağırlıktan çıkarıldığını gösterir.

Sorunun önemli ölçüde anlamlı olmadığı izlenimini arayabilir. Ne de olsa, en önemli şey, genel regresyon denkleminin tam olarak nasıl çalıştığını, bireysel değişkenlerin toplam açıklanan dağılıma nispi katkılarının sorunu ikincil görünüyor. Ancak, bu durum değil. Birden fazla regresyon denkleminde bir değişken kullanmaya değer olup olmadığını düşünmeye başladığınızda, sorun önemli hale gelir. Analiz için model seçiminin doğruluğunun değerlendirilmesini etkileyebilir.

Bölüm 4. Fonksiyon Lineni ()

Doğrusal () işlevi 10 regresyon istatistikini döndürür. Doğrusal fonksiyon (), dizinin işlevidir. Girmek için, beş satır ve iki sütun içeren aralığı vurgulayın, formülü yazın ve tıklayın (Şek. 9):

Doğrusal (B2: B21; A2: A21; gerçek; gerçek)

İncir. 9. LINENE (): a) D2: E6 aralığını vurgulayın, b) Formül, C formülünde gösterildiği gibi girin.)

Doğrusal () fonksiyonu döndürür:

  • regresyon katsayısı (veya eğim, D2 hücresi);
  • kesilmiş (veya sabit, e3);
  • standart regresyon katsayısı hataları ve sabitleri (D3: E3 aralığı);
  • r 2 Regresyon için belirleme katsayısı (hücre D4);
  • standart Tahliye Hatası (E4 hücresi);
  • Komple regresyon için F-kriter (D5 hücresi);
  • karelerin artık toplamı için özgürlük derecelerinin sayısı (E5 hücresi);
  • regresyon miktarı kareler (D6 hücresi);
  • karelerin artık toplamı (E6 hücresi).

Bu istatistiklerin her birini ve etkileşimlerini düşünün.

Standart hata Bizim durumumuzda, bu örnekleme hataları için hesaplanan standart bir sapmadır. Bunlar., Bu, genel agreganın bir istatistik sahibi olduğu bir durumdur ve örnek bir diğeridir. Regresyon katsayısını standart bir hataya paylaşma, 2.092 / 0.818 \u003d 2.559 değeri alacaksınız. Başka bir deyişle, 2.092'ye eşit regresyon katsayısı, iki buçuk standart hataya eşittir.

Regresyon katsayısı sıfır ise, öngörülen değişkenin en iyi tahmini ortalama değeridir. İki buçuk standart hatalar oldukça büyük bir değerdir ve genel nüfusun regresyon katsayısının sıfır olmayan bir değere sahip olduğuna asla inanabilirsiniz.

Genel setteki gerçek değeri fonksiyon kullanılarak 0.0 ise, 2.092 seçici bir regresyon katsayısı alma olasılığını belirleyebilirsiniz.

Student.rasp.ph (t-kriter \u003d 2.559; özgürlük derecesi sayısı \u003d 18)

Genel olarak, özgürlüklerin sayısı \u003d N - K - 1, N gözlem sayısıdır ve K, belirleyici değişkenlerin sayısıdır.

Bu formül 0.00987 veya yuvarlatılmış,% 1 değerini döndürür. Bize aşağıdakileri bilgilendirir: Genel nüfus için regresyon katsayısı% 0 ise, daha sonra regresyon katsayısının tahmini değerinin 2.092 olduğu,% 1'lik bir% 1 olduğundan, 20 kişilik bir örnek alma olasılığı% 1'dir.

F-kriteri (Şekil 9'daki hücre D5), basit çifti regresyon katsayısına ilişkin t-kriteri olarak tamamen gerileme açısından aynı işlevleri yerine getirir. F-kriteri, R 2 belirleme katsayısının, regresyon için yeterince gerçek olup olmadığını doğrulamak için kullanılır. Genel olarak, bir dispersiyonun yokluğunu belirten, 0.0 değerinde olan hipotezi atmanıza izin veren yeterince büyük bir tutarı vardır. belirleyici ve öngörülen değişken tarafından açıklanmıştır. Sadece bir tahminci değişken F-kriteri varsa, kare t-kriterine tam olarak eşitse.

Şimdiye kadar, aralık değişkenlerini düşündük. Örneğin, basit isimler çeşitli değerleri alabilir değişkenler varsa, bir erkek ve bir kadın ya da sürüngen, amfibi ve balık, bir sayısal kodla şeklinde bunları düşünün. Bu tür değişkenler nominal denir.

İSTATİSTİK R 2. Açıklanan dağılımın payının nicel bir değerlendirmesini sağlar.

Standart değerlendirme hatası.İncirde. 4.9 Ön ödemeli değişken ağırlık değerleri değişken bir büyüme ile bağlantısına dayanarak elde edilir. E2 aralığında: E21, değişken ağırlık için kalıntıların değerlerini içerir. Daha kesin olarak, bu artıklar hataları çağırır - buradan ve standart değerlendirme hatasını takip eder.

İncir. 10. Hem R2 hem de tahminin standart hatası, regresyon ile elde edilen çıkıntıların doğruluğunu ifade eder.

Standart tahmin hatası ne kadar küçük olursa, gerileme denkleminin daha doğru olması ve denklem kullanılarak elde edilen herhangi bir tahminin daha yakın tesadüf edilmesi, beklediğiniz gerçek gözlemle. Standart değerlendirme hatası, bu beklentileri ölçmek için bir yöntem sağlar. Bazı büyümeye sahip insanların% 95'ini ağırlık aralıkta olacaktır:

(Yükseklik * 2,092 - 3,591) ± 2,092 * 21,118

F-istatistikleri- Bu, grup içi dağılımın invalma dağılımına ilişkisidir. Bu isim, 20. yüzyılın başında (varyans analizi) bir dispersiyon analizi geliştiren Sir'in onuruna George Snedel'in istatistikleri tarafından tanıtıldı.

Belirleme katsayısı R2, gerileme ile ilgili toplam karelerin toplamının payını ifade eder. Değer (1 - R2), dengelerle ilgili toplam karelerin payını ifade eder - tahmin hataları. F-kriteri, bir dispersiyon fraksiyonu (G14: J15 aralığı) kullanarak, karelerin toplamını (G10: J11) toplamını kullanarak doğrusal bir fonksiyon (Şekil 11'de F5) kullanılarak elde edilebilir. Formüller eşlik eden Excel dosyasında incelenebilir.

İncir. 11. F-kriterlerinin hesaplanması

Nominal değişkenler kullanırken, hayali kodlama kullanılır (Şekil 12). Değerleri kodlamak için, 0 ve 1 değerlerini kullanmak uygundur. F Olasılık fonksiyonu kullanılarak hesaplanır:

F.RESP.PH (K2; I2; I3)

Burada, F.RESP.PH () işlevi, I2 ve I3 hücrelerinde verilen, iki veri kümesi olan iki veri grubu için, merkezi F-dağılımını (Şek. 13) yerleştirme olasılığını döndürür. , değeri C2 hücresinde verilen değerle çakışıyor.

İncir. 12. Hayali değişkenler kullanarak regresyon analizi

İncir. 13. Central F-dağılımı λ \u003d 0

Bölüm 5. Çoklu Regresyon

Basit bir çifti regresyonundan bir çok regresyona göre bir regresyonla döndürmek, bir veya daha fazla belirleyici değişken eklersiniz. Tahmin edici değişkenlerin değerlerini bitişik sütunlar halinde tutun, örneğin, üç öngörücü veya A, B ve C durumunda A ve B sütunlarında A ve B sütunlarında. Doğrusal () işlevini içeren bir formül girmeden önce, beş satır seçin ve bu kadar çok sütun belirleyici değişkenler olduğu için, artı sabit için başka bir tane seçin. İki belirleyici değişkenli regresyon durumunda, aşağıdaki yapıyı kullanabilirsiniz:

Linene (A2: A41; B2: C41; Hakkı)

Benzer şekilde, üç değişken durumunda:

Linene (A2: A61; B2: D61; gerçek)

düşük yoğunluklu lipoproteinler, (Şekil 14). Bir atherotromability neden aterosklerotik plakların oluşumuna sorumlu kabul edilir - Eğer LDL bakım yaş ve diyetin olası etkisini incelemek istediğinizi varsayalım.

İncir. 14. Çoklu regresyon

R 2 Çoklu regresyon (F13 hücresine yansıyan), herhangi bir basit regresyonun R2'sinden daha fazlası (E4, H4). Birden fazla regresyonda, çeşitli yordam değişkenleri aynı anda kullanılmaktadır. Bu durumda, R2 neredeyse her zaman artmaktadır.

Yansıtılan değerler ve tahmin edici değişkenlerin değerleri arasındaki tek bir prediktör değişkeni olan herhangi bir basit doğrusal regresyon denklemi için, ideal korelasyon her zaman gözlemlenecektir, çünkü böyle bir denklemde, yordayıcının değeri bir sabit tarafından çarpılır ve Her çalışmaya başka bir sabit eklenir. Bu etki çoklu regresyonda korunmaz.

Birden fazla regresyon için linear () işlevi tarafından döndürülen sonuçları görüntüler (Şek. 15). Regresyon katsayıları, Linenin () fonksiyonu tarafından döndürülen sonuçların bir parçası olarak türetilmiştir. değişkenlerin ters konumu sırasına göre (G-H - Ben C-A'ya karşılık gelir).

İncir. 15. Katsayılar ve standart hataları, çalışma sayfasında aşağıdakilerin ters sırasına göre görüntülenir.

Regresyon analizinde kullanılan prensipler ve prosedürler, bir prediktör değişkeni ile birlikte çeşitli tahmin edici değişkenleri hesaba katacak şekilde uyarlanır. Bu adaptasyonun çoğunun, öngörücü değişkenlerinin birbirine etkisinin ortadan kaldırılmasına bağlı olduğu ortaya çıktı. İkincisi, özel ve yarı parti korelasyonlarla ilişkilidir (Şekil 16).

İncir. 16. Çoklu regresyon, kalıntıların eşleştirilmiş regresyon yoluyla ifade edilebilir (formlar, bkz. Excel dosyası)

Excel'de, T- ve F dağılımları hakkında bilgi sağlayan özellikler vardır. Adları, Student.Rasp () ve f.rasp () gibi makbuzun bir kısmını içerir, bir T-veya F kriteri bir argüman olarak alır ve belirtilen değeri gözlemleme olasılığını döndürür. isimleri örneğin Öğrenci olarak ORP parçasını içerir. Üretimi () ve F. Ürün () fonksiyonları, bir argüman olarak olasılık değeri alır ve belirtilen olasılığına karşılık gelen bir ölçütün değerini döndürür.

Kuyruk alanlarının kenarlarını kesen kritik T-dağıtım değerlerini aradığımızdan,% 5'ünü öğrencinin işlevlerinden birinin bir argümanı olarak iletiyoruz. Bu olasılığa karşılık gelen değeri döndüren üretim () . 17, 18).

İncir. 17. Bilateral T-Testi

İncir. 18. Tek taraflı t testi

Tek saatlik bir alfa bölgesi durumunda karar alma kuralını kurarak, testin istatistiksel gücünü arttırırsınız. Bir deneyi başlatırsa, olumlu (veya olumsuz) bir regresyon katsayısı beklemek için her türlü nedeniniz olduğundan emin olabilirsiniz, daha sonra tek saatlik bir test yapmanız gerekir. Bu durumda, genel popülasyonda sıfır regresyon katsayısının hipotezini reddeden doğru çözümü almanız olasılığı daha yüksek olacaktır.

İSTATİSTİK terimi kullanmayı tercih ediyor yönlendirme testi Terim yerine tek test. ve terim yönsüz test Terim yerine İki meşgul testi. Amaçlanan ve dışkılamayan terimler tercih edilir, çünkü dağıtım kuyruklarının niteliğinde değil, hipotez türüne odaklanırlar.

Tahmincilerin modellerin karşılaştırmasına dayanarak etkisini değerlendirmeye yaklaşım.İncirde. Şekil 19, değişken diyetin regresyon denklemine katkısının test edildiği regresyon analizinin sonuçlarını göstermektedir.

İncir. 19. İki modelin sonuçlarındaki farklılıkları kontrol ederek karşılaştırılması

Doğrusal () işlevinin sonuçları (aralık H2: K6), LDL değişkeninin regresyonunun değişken bir diyet, yaş ve HDL üzerinde gerçekleştirildiği tam model dediklerimle ilgilidir. H9: J1z aralığında, belirleyici değişken diyetini dikkate almadan hesaplamaları sunar. Buna sınırlı bir model diyorum. Tam bir modelde, bağımlı değişken LDL'nin% 49.2 dağılımının belirleyici değişkenlerle açıklanmaktadır. Sınırlı bir modelde, LDL'nin sadece% 30,8'i değişken yaş ve HDL ile açıklanmaktadır. R2 kaybı, modelden değişken diyet hariç, 0.183'tür. G15: L17 aralığında, yalnızca 0.0288 olasılıkla değişken bir diyetin etkisinin rastgele olduğunu gösteren hesaplamalar yapılır. Kalan% 97,1 diyet LDL'yi etkiler.

Bölüm 6. Regresyon analizi için varsayımlar ve dikkatli

"Varsayım" terimi yeterince kesinlikle tanımlanmamıştır ve kullanmanın yolu, varsayımın saygı duyulmadığında, tüm analiz sonuçlarının en azından sorgulanabilir veya muhtemelen güçler olmadığı anlamına gelir. Aslında, bu durum böyle değildir, ancak elbette, kökteki varsayım bozukluğunun resmi değiştirdiği durumlar vardır. Ana varsayımlar: a) Y değişkenin kalıntıları normal olarak regresyon çizgisi boyunca herhangi bir noktada dağıtılır; b) Y'nin değerleri X değerlerine doğrusal bağımlılıkta; c) Kalıntıların dispersiyonu, X'in her noktasında yaklaşık olarak aynıdır; d) Kazanlar arasında bir bağımlılık yoktur.

Varsayımlar önemli bir rol oynamıyorsa, istatistikler, engellilerle ilgili analizin sağlamlığı hakkında konuşuyorlar. Özellikle, grup ortalamaları arasındaki farkları test etmek için regresyon kullandığınızda, Y - ve dolayısıyla kalıntıların değerlerinin normal olarak dağıldığı varsayımı, önemli bir rol oynamıyor: Testler normalliğin devamsızlığına göre sağlam. Diyagramları kullanarak verileri analiz etmek önemlidir. Örneğin üst yapıya dahil Veri analizi aracı Regresyon.

Veriler doğrusal regresyon varsayımlarına karşılık gelmezse, doğrusaldan başka bir yaklaşımlar vardır. Bunlardan biri lojistik bir regresyondur (Şekil 20). Tahmin edici değişkenin üst ve alt sınır değerlerine yakın, doğrusal regresyon gerçekçi olmayan tahminlere yol açar.

İncir. 20. Lojistik Regresyon

İncirde. 6.8 Yıllık gelir arasındaki bağlantıyı incelemeye yönelik verileri analiz etmek için iki yöntemin sonuçlarını görüntüleme ve bir ev satın alma olasılığı. Açıkçası, bir satın alma yapma olasılığı artan gelirle artacaktır. Grafikler, bir ev satın alma olasılığını doğrusal regresyonla satın alma olasılığını öngören sonuçlar arasında farklılıkların tanımlanmasını kolaylaştırır ve başka bir yaklaşım kullanabildiğiniz sonuçlar.

İstatistikçilerin dilinde, sıfır hipotezinin atılması, gerçekte doğru olduğunda, i tür hatası olarak adlandırılır.

Üst yapıya Veri analizi Kullanıcının istenen dağıtım formunu (örneğin normal, binom veya poisson) ve ortalama değer ve standart sapma ayarlamasını sağlayan rasgele sayılar üretmek için uygun bir araç sunulmaktadır.

Student.Rasp () ailesinin fonksiyonları arasındaki farklar.Excel 2010'dan başlayarak, dağıtımın sola ve / veya belirtilen T-kriter değerinin sağındaki payını döndüren bir fonksiyonun üç farklı şekli mevcuttur. Öğrenci işlevi. Rasp (), belirttiğiniz t-kriterinin solundaki dağıtım eğrisi altındaki alanın hissesini döndürür. 36 gözleminiz olduğunu varsayalım ve bu nedenle analiz için özgürlük derecelerinin sayısı 34'e eşittir ve T-kriterinin değeri \u003d 1.69. Bu durumda, formül

Student.Rasp (+1.69; 34; gerçek)

0.05 veya% 5 değeri döndürür (Şekil 21). Student.Rasp () işlevinin üçüncü argümanı gerçeğin anlamını veya yanlışlığına sahip olabilir. Gerçeğe eşit olarak belirtilirse, işlev, bir pay formunda ifade edilen, belirli bir T-Kriterin solundaki eğri altındaki kümülatif alanı döndürür. Yalana eşitse, fonksiyon, eğrinin T-kriterine karşılık gelen noktadaki göreceli yüksekliğini döndürür. Student.RASP () işlevinin diğer sürümleri. Px () ve Student.Rasp 2x () - T-kriterinin değerini ve özgürlük derecelerinin değerini ve görevini gerektirmeyen argümanlar olarak alın. üçüncü argüman.

İncir. 21. Dağılımın sol kuyruğundaki koyu gölgeli alan, T-kriterinin büyük pozitif değerinin solundaki eğri altındaki alanın oranına karşılık gelir.

T-kriterinin sağındaki alanı belirlemek için formüllerden birini kullanın:

1 - ShadenT.Rasp (1, 69; 34; gerçek)

Student.rasp.ph (1.69; 34)

Eğrinin altındaki tüm alan% 100 olmalıdır, bu nedenle, fonksiyonu geri döndüren, T-kriter değerinin solundaki alanın solundaki 1 payından çıkarılması, T-kriterin sağına yerleştirilmiş alanın hissesini verir. değer. Dağılımın doğru kuyruğu olan Student.ph () işlevi ile ilgilenen ilgi alanının doğrudan payının doğrudan payı seçeneği görünebilir (Şek. 22).

İncir. Yönümüz test için% 22.% 5 alfa alanı

Student.Rasp () veya student.rasp'ın işlevlerini kullanarak. Px (), yönlendirilmiş çalışma hipotezini seçtiğinizi ima eder. Yüzeysel çalışma hipotezi, alfa değerinin% 5 seviyesinde montajı ile birlikte,% 5'ini doğru dağıtım kuyruğuna koymanız anlamına gelir. Sıfır hipotezi yalnızca alınan t-kriterinin değeri olasılığı% 5 ve daha az ise reddetmeniz gerekecektir. Yönlü hipotezler genellikle daha hassas istatistiksel testlere yol açar (bu daha fazla hassasiyete daha fazla istatistiksel güç olarak da adlandırılır).

Sonsuz bir testte, alfa değeri% 5 aynı düzeyde kalır, ancak dağıtım farklı olacaktır. İki sonucuna izin vermeniz gerektiğinden, iki dağıtım kuyruğu arasında yanlış pozitif sonuç olasılığı dağıtılmalıdır. Bu olasılığı eşit olarak dağıtmak için genellikle kabul edilir (Şekil 23).

T-kriterinin aynı değerini ve önceki örnekte olduğu gibi aynı sayıda özgürlük derecesini kullanarak, formülü kullanın.

Student.Rasp 2x (1.69; 34)

Herhangi bir nedenden ötürü, Student.SPS () işlevi, ilk argüman olarak negatif bir t-kriteri değeri veriyorsa, # numarayı Hata kodunu döndürür!

Örnekler farklı sayıda veri içeriyorsa, pakette yer alan çeşitli dispersiyonlarla iki kazma T-testi kullanın. Veri analizi.

Bölüm 7. Grup ortalamaları arasındaki farkları test etmek için regresyon kullanma

Önceden tahmin edilen değişkenlerin adı altında daha önce ortaya çıkan değişkenler, bu bölümde verimli değişkenler olarak adlandırılacaktır ve yordayıcı değişkenleri yerine değişkenler terim olarak kullanılacaktır.

Nominal değişkenin kodlamasına yaklaşımların en basiti kurgusal kodlama (Şek. 24).

İncir. 24. Hayali Kodlamaya Dayalı Regresyon Analizi

Herhangi bir tür kurgusal kodlamayı kullanırken, kurallara uyulmalıdır:

  • Yeni veriler için ayrılan sütun sayısı, eksi faktör seviyelerinin sayısına eşit olmalıdır.
  • Her vektör bir faktör seviyesini temsil eder.
  • Genellikle kontrol grubu olan seviyelerden birinin denekleri tüm vektörlerde kod 0 alır.

Hücrelerdeki Formül F2: H6 \u003d Linene (A2: A22; C2: D22; gerçek) regresyon istatistiklerini döndürür. Şekil l'de karşılaştırma için. 24 Alet tarafından döndürülen geleneksel dispersiyon analizlerinin sonuçlarını görüntüleme Tek faktörlü dispersiyon analizi üst yapı Veri analizi.

Kodlama efektleri.Başka bir kodlama türünde, denilen kodlama Efektleri Her grubun ortalaması ortalama grup ortalamasıyla karşılaştırılır. Kodlama etkilerinin bu yönü, tüm kod vektörlerinde aynı kodu alan bir grup için bir kod olarak 0 yerine -1 değerinin kullanılmasından kaynaklanmaktadır (Şek. 25).

İncir. 25. Etkisi Kodlama

Hayali kodlama kullanıldığında, doğrusal () işlevi tarafından döndürülen sabitin değeri, tüm vektörlerde (genellikle kontrol grubu) sıfır kodlarının atandığı ortalama grupla çakışır. Kodlama durumunda, sabitin etkileri genel ortalamanın (J2 hücresine) eşittir.

Toplam doğrusal model, ortaya çıkan değişkenin değerinin bileşenlerini kavramsallaştırmanın faydalı bir yoludur:

Y ij \u003d μ + α j + ε ij

Latin yerine bu formüldeki Yunan harflerinin kullanılması, örneklerin çıkarıldığı genel popülasyona ait olduğu gerçeğini vurgulamaktadır, ancak yayınlanan genel popülasyonun geri kazanılan örnekleri belirten formda yeniden yazılabilir:

Y IJ \u003d Y̅ + A J + E IJ

Fikir, her bir gözlem Y IJ'in aşağıdaki üç bileşenin toplamı olarak görülebilmesidir: genel ortalama, μ; J ve j işleme etkisi; Y, toplam ortalama toplam değeri, ve J-inci işlem (Şek. 26) etkisinden ij bireysel kantitatif göstergesi sapmasını temsil eder E ij, değeri. Regresyon denkleminin amacı, kalıntıların karelerinin toplamını en aza indirmektir.

İncir. 26. Genel Doğrusal Modelin Bileşenlerine Göre Gözlemler

Faktor analizi.Etkili değişken arasındaki ilişki ve aynı zamanda iki veya daha fazla faktör araştırılırsa, bu durumda faktör analizinin kullanımı hakkında konuşurlar. Tek faktörlü dispersiyon analizine bir veya daha fazla faktör eklemek, istatistiksel gücü artırabilir. Tek faktörlü bir dispersiyon analizinde, faktöre atfedilemeyen verimli bir değişkenin varyasyonu, artık ortalama kareye dahil edilir. Ancak bu varyasyonun başka bir faktörle örüldüğü iyi olabilir. Daha sonra, bu değişim ortalama kare hatasından çıkarılabilir, bu, F-kriterinin değerlerinde bir artışa yol açan ve dolayısıyla testin istatistiksel gücündeki bir artışa yol açan azalma. Üst yapı Veri analizi Aynı anda iki faktörün işlenmesini sağlayan bir araç içerir (Şekil 27).

İncir. 27. Analiz paketinin tekrarı ile takım iki faktörlü dispersiyon analizi

Bu şekilde kullanılan dispersiyon analizi aracı, etkinliğin ortalamasını ve dağıtımını ve plana dahil olan her grup için sayaç değerinin yanı sıra verimli değişkenin yanı sıra dispersiyonunu iade eder. Tablo Dispersiyon analizi Dispersiyon analiz aracının tek faktörlü versiyonunun çıkış bilgilerinde eksik olan iki parametre görüntülenir. Varyasyon kaynaklarına dikkat edin Örneklem ve Sütunlar 27 ve 28 satırlarda. Varyasyon kaynağı Sütunlar Zemini ifade eder. Kaynak varyasyonu Örneklem Değerleri, çeşitli satırları kapsayan herhangi bir değişkeni ifade eder. İncirde. 27 Tahıl grubu için değerler, 2-6 satırlarında, serebral grup grubu - 7-11 satırlarında ve 12-16 satırlarında serebral grubunda bulunur.

Asıl nokta, her iki faktörün, zeminin (E28 hücresindeki sütunların imzasının) ve tedavinin (E27 hücresindeki numune imzasının), tablo dispersiyon analizinde varyasyon kaynakları olarak dahil olmasıdır. Erkekler için orta kadınlar için ortamdan farklıdır ve bu bir varyasyon kaynağı yaratır. Üç tür tedavi için ortalama aynı zamanda ayırt edilir - şimdi başka bir varyasyon kaynağınız var. Ayrıca, seks değişkenlerinin ve tedavinin birleşik etkisini ifade eden üçüncü bir kaynak - bir etkileşim vardır.

Bölüm 8. Covaryence analizi

Kovaryans analizi veya ANCOVA (Covariation'ın analizi) ofsetleri azaltır ve istatistiksel gücü arttırır. Regresyon denkleminin güvenilirliğini değerlendirmenin yollarından birinin F testleri olduğunu hatırlatayım:

F \u003d MS Regresyon / MS Artık

mS (ortalama kare) orta kare olduğunda ve regresyon ve artık endeksler, sırasıyla regresyon ve artık bileşenleri göstermektedir. MS artıklarının hesaplanması, formül tarafından yapılır:

MS Rezidual \u003d SS artık / DF artık

sS (karelerin toplamı) karelerin toplamıdır, bir DF özgürlük derecesidir. Regresyon denklemine kovaryans eklediğinizde, karelerin toplam karesinin bazı payları SS Residuai'ye dahil değildir, ancak SS regresyonunda. Bu, SS Residua L'de bir düşüşe yol açar ve bu nedenle MS artık. Daha küçük MS artıkları, F-kriteri ne kadar büyükse, ortalama arasındaki farkların yokluğuyla ilgili sıfır hipotezi reddetmeniz muhtemeldir. Sonuç olarak, etkili değişkenin değişkenliğini yeniden dağıttınız. ANOVA'da, kovaryans dikkate alındığında, değişkenlik bir hataya girer. Ancak, ANCOVA'da, daha önce hataya inanılan değişkenliğin bir kısmında, bir karşılamaya atanır ve SS regresyonunun bir parçası olur.

ANOVA'yı kullanarak aynı veri setinin analiz edildiği ve daha sonra ANCOVA'yı kullanarak bir örneği düşünün (Şekil 28).

İncir. 28. ANOVA analizi, regresyon denklemi kullanılarak elde edilen sonuçların güvenilmez olduğunu gösterir.

Çalışma, fiziksel egzersizlerin göreceli etkilerini, kas kuvveti geliştirmek ve bilişsel egzersizler (çözme bulmacıları), beyin aktivitesini aktive eder. Denekler, iki grupta rastgele dağıtıldı, böylece deneyin başlangıcında her iki grubun da aynı koşullarda bulundu. Üç ay sonra, deneklerin bilişsel özellikleri ölçüldü. Bu ölçümlerin sonuçları, V. sütununda verilmiştir.

A2 aralığında: C21, doğrusal () için iletilen kaynak verileri, çeviren etkileri kullanarak analizi gerçekleştirir. Doğrusal () fonksiyonunun sonuçları E2: F6 aralığında verilmiştir, burada E2 hücresinin etki vektörü ile ilişkili regresyon katsayısını görüntüler. E8 hücresi bir T-kriteri \u003d 0.93 içerir ve bu T-kriterin güvenilirliği E9 hücresinde test edilir. E9 hücresinde yer alan değer, bu deneyde gözlenen grup ortalamaları arasındaki farkı karşılama olasılığının% 36'dır, genel popülasyonda, grup ortalamaları eşittir. Bu sonucu sadece birkaç tanıyın istatistiksel olarak anlamlıdır.

İncirde. 29 Analize covariatrioms eklenirken ne olacağını göstermektedir. Bu durumda, her birinin yaşını bir dizi veriye ekledim. Covariators kullanan regresyon denklemi için R2 belirleme katsayısı 0.80 (Hücre F4). F15: G19 aralığındaki R2'nin değeri, Covariates kullanmadan elde edilen ANOVA sonuçlarını yalnızca 0.05 (Hücre F17 )'dır. Sonuç olarak, karışıklığı içeren regresyon denklemi, değişken bilişsel göstergenin değerlerini sadece vektörün kullanımını kullanmaktan çok daha doğru tahmin eder. ANCOVA için, F5 hücresinde görüntülenen F-kriterinin değerini elde etme olasılığı% 0.01'den azdır.

İncir. 29. ANCOVA tamamen farklı bir resim döndürür.

Regresyon hattı, fenomen arasındaki ilişkinin grafik bir yansımasıdır. Çok net bir şekilde Excel'de regresyon çizgisi yapılabilir.

Bunun için ihtiyacınız var:

1. Excel Programını Çıkarın

2. Verilerle sütunlar oluşturun. Örneğimize göre, birinci sınıf öğrencilerindeki saldırganlık ve belirsizlik arasında bir regresyon çizgisi veya ilişkiler kuracağız. Deneyde, 30 çocuk katıldı, veriler özel tabloda sunuldu:

1 sütun - test numarası

2 ColumID - saldırganlık Ballatsta

3 ColumID - kırılma Ballatsta

3. Sonra her iki sütunu da vurgulamanız gerekir (sütunun adı olmadan), sekmeyi tıklayın. eklemek , seç otlatmak ve önerilen düzenlerden ilk seçmek için İşaretçilerle seçici .

4. Bu yüzden regresyon çizgisi için boş kaldık - sözde - saçılma diyagramı. Regresyon çizgisine gitmek için, ortaya çıkan çizime tıklamanız gerekir, sekmeyi tıklayın. kurucu, panelde bulun Düzen Diyagramları ve Seç M. fakatket9 , hala üzerine yazılmış F (x)

5. Ve biz bir regresyon hattımız var. Grafik ayrıca denklemini ve korelasyon katsayısının karesini gösterir.

6. Bir grafik adı, eksenlerin adı var. Ayrıca, efsaneyi de kaldırabilir, yatay örgü hatlarının sayısını azaltabilirsiniz (sekme) yerleşim , sonra kafes ). Ana değişiklikler ve ayarlar sekmesinde yapılır. Yerleşim

Regresyon hattı MS Excel'de inşa edilmiştir. Şimdi işin metnine eklenebilir.

Regresyon analizi, bir parametrenin bir veya birkaç bağımsız değişkenden bağımlılığını gösteren istatistiksel bir araştırma yöntemidir. Uygulamanın, özellikle büyük miktarda veri ile ilgili olsaydı, bir Compuscript döneminde kullanmak zordu. Bugün, Excel'de regresyon yapmayı öğrenmek, karmaşık istatistiksel görevleri tam anlamıyla birkaç dakika içinde çözebilirsiniz. Aşağıda ekonomi alanından somut örneklerdir.

Regresyon Türleri

Bu konsept 1886'da matematiğe tanıtıldı. Regresyon olur:

  • doğrusal;
  • parabolik;
  • güç;
  • Üstel;
  • hiperbolik;
  • gösterge;
  • logaritmik.

Örnek 1.

Ekibin üyelerini 6 sanayi işletmesinde ortalama maaştan söndürenlerin sayısının bağımlılığını belirleme görevini göz önünde bulundurun.

Bir görev. Altı işletmenin ortalama aylık ücretini ve kendi istekleriyle istifa eden çalışanların sayısını analiz etti. Tablo halinde biz var:

Soluk sayısı

Maaş

30000 ruble

35.000 ruble

40000 ruble

45.000 ruble

50.000 ruble

55.000 ruble

60000 ruble

6 işletmenin ortalama maaşından geçirdiği işçilerin miktarının bağımlılığını belirleme sorunu için, regresyon modeli bir denklem biçimine sahiptir Y \u003d A 0 + A 1 x 1 + ... + AKXK, burada Xi Değişkenleri etkilemek ve regresyon katsayıları, AK, faktörlerin sayısıdır.

Bu görev için Y, çalışanları kavga edenlerin ve etkilenen faktörün bir göstergesidir - X'in X tarafından belirtildiği maaş.

"Excel" masa işlemcisinin yeteneklerini kullanma

Excel'deki regresyon analizi, yerleşik fonksiyonların mevcut tablo verilerine başvurudan önce gelmelidir. Bununla birlikte, bu amaçlar için çok yararlı bir üst yapı "analiz paketi" kullanmak daha iyidir. Etkinleştirmek için, ihtiyacınız:

  • dosya sekmesinden, "Parametreler" bölümüne gidin;
  • açılan pencerede "Üst Yapı" dizesini seçin;
  • aşağıdaki "Yönetim" sağındaki "GO Button" düğmesine tıklayın;
  • "Analiz Paketi" adının yanındaki bir kene koyun ve Tamam'ı tıklatarak eylemlerinizi onaylayın.

Her şey doğru şekilde yapılırsa, "Verilerin" sekmesinin sağ tarafında, "Excel" iş istasyonunun üstünde bulunan, istediğiniz düğme görünecektir.

Excel'de

Şimdi, ekonometrik hesaplamaların uygulanması için gerekli tüm sanal araçlara sahip olduğunuzda, görevimizi çözmeye devam edebiliriz. Bunun için:

  • "Veri Analizi" düğmesine tıklayın;
  • açılan pencerede, "Regresyon" düğmesine tıklayın;
  • görünen sekmede, Y (kaldırılmış çalışanların sayısı) ve X (maaşları) için değer aralığını giriyoruz;
  • "OK" düğmesine basarak eylemlerinizi onaylayın.

Sonuç olarak, program otomatik olarak yeni bir tablo işlemcisini regresyon analizi verileriyle doldurur. Not! Excel, bu amaç için tercih ettiğiniz yere bağımsız olarak sorma yeteneğine sahiptir. Örneğin, değerlerin Y ve X olduğu ve hatta bu tür verileri depolamak için özel olarak tasarlanmış yeni bir kitap olduğu aynı sayfa olabilir.

R-kare için regresyon sonuçlarının analizi

Excel'de, dikkate alınan verilerin işlenmesi sırasında elde edilen veriler şunlar gibi görünüyor:

Her şeyden önce, R-Meydanın değerine dikkat etmelisiniz. Bu belirleme katsayısıdır. Bu örnekte, R-kare \u003d 0.755 (% 75.5), yani modelin hesaplanan parametreleri, dikkate alınan parametreler arasındaki ilişkiyi% 75,5 oranında açıklamaktadır. Belirleme katsayısının değeri ne kadar yüksek olursa, seçilen model belirli bir görev için daha uygulanabilir. Gerçek durumu, 0.8'in üzerindeki R-Meydanın değeri ile doğru şekilde tanımladığına inanılmaktadır. Eğer r-kare<0,5, то такой анализа регрессии в Excel нельзя считать резонным.

Katsayıların Analizi

64.1428 numaralı, modernizdeki tüm değişkenler XI'yı sıfırladığımız durumlarda ne olacağını göstermektedir. Başka bir deyişle, analiz edilen parametrenin değerinin, belirli modelde açıklanmayan diğer faktörleri de etkilediği iddia edilebilir.

B18 hücresinde bulunan aşağıdaki katsayılı -0.16285, X üzerindeki değişkenin etkisinin ağırlığını gösterir. Bu, göz önüne alındığında modeldeki çalışanların ortalama aylık maaşının -0.16285 sayısını etkilediği, yani, Etkisinin derecesi hiç küçük. "-" işareti, katsayının negatif bir değere sahip olduğunu gösterir. Bu, herkesin işletmede ne kadar maaş olduğunu bildiği için, daha az insanların istihdam sözleşmesini sonlandırma veya reddetme arzusunu ifade ettiği gibi.

Çoklu regresyon

Böyle bir terim altında, türün birkaç bağımsız değişkeniyle iletişim denklemi olarak anlaşılmaktadır:

y \u003d F (x 1 + x 2 + ... x m) + ε, burada y sonuçta bir özellik (bağımlı değişken) ve X 1, X 2, ... X M, faktörlerin belirtileridir (bağımsız değişkenler).

Parametrelerin değerlendirilmesi

Çoklu regresyon (MR) için, en küçük kareler (MNC) yöntemi kullanılarak gerçekleştirilir. Y \u003d A + B 1 X 1 + ... + B M X M + ε formunun doğrusal denklemleri için normal denklemlerin bir sistemini oluştururuz (aşağıya bakınız)

Yöntemin ilkesini anlamak için, iki faktörlü bir dava düşünün. O zaman formül tarafından açıklanan durumumuz var.

Buradan:

Σ, ilgili özelliğin dispersiyonu olduğunda, dizine yansıdı.

MNK, standartlaştırılmış bir ölçekte MR bir denklem için geçerlidir. Bu durumda, denklemi alıyoruz:

bu, t y, t x 1, ... T XM, ortalama değerlerin 0 olduğu standart değişkenlerdir; β Ben standartlaştırılmış regresyon katsayılarıdır ve standart sapma 1'dir.

Lütfen bu durumda tüm β I'in normalleştirilmiş ve merkezi olarak belirtildiğini, bu nedenle karşılaştırmaları doğru ve kabul edilebilir olarak kabul edilir. Ek olarak, faktörlerin farklılığını gerçekleştirmek, bunların en küçük değerlerinin en küçük değerlerinin atılması gelenekseldir.

Doğrusal regresyon denklemini kullanarak görev

Geçtiğimiz 8 ay boyunca belirli bir ürünün fiyatının bir dinamik tablosu olduğunu varsayalım. Partisini 1850 ruble / t fiyatında edinmenin fizibilitesine karar vermek gereklidir.

ay sayısı

ayın adı

Ürün fiyatı N.

Ton başına 1750 ruble

Ton başına 1755 ruble

Ton başına 1767 ruble

Ton başına 1760 ruble

Ton başına 1770 ruble

Ton başına 1790 ruble

Ton başına 1810 ruble

Ton başına 1840 ruble

Bu görevi Excel masa işlemcisinde çözmek için yukarıda sunulan "Veri Analizi" aracını kullanmak gerekir. Sonra, "Regresyon" bölümünü seçin ve parametreleri ayarlayın. Bağımlı değişken için değer aralığının "Giriş Giriş Aralığı Y" (bu durumda, belirli aylardaki malların fiyatı) ve "Giriş Aralığı X" bölümünde tanıtılması gerektiği hatırlanmalıdır. bağımsız (ayın sayısı). OK tuşuna basarak eylemleri onaylayın. Yeni bir sayfada (eğer belirtilmişse) regresyon için veri elde ediyoruz.

Y \u003d AX + B formunun doğrusal denklemini oluştururuz, burada ayın sayısının ve "Y) katsayılarının ve" Y-kesişme "çizgilerinin, regresyon analizinin sonuçları, A ve B parametreleri olarak ortaya çıkar. Böylece, Görev 3 için regresyon lineer denklemi (ur) formda yazılır:

Fiyat n \u003d 11.714 * Ay ayı + 1727.54.

veya cebirsel notasyonda

y \u003d 11,714 x + 1727,54

Sonuçların analizi

Elde edilen doğrusal regresyon denklemlerinin yeterince, çoklu korelasyon katsayıları (KMK) ve Balıkçının kriteri ve öğrenci kriteri kullanıldığına karar vermek için. "Excel" tablosunda gerileme sonuçlarıyla, sırasıyla çoklu R, R-kare, F-istatistik ve T-istatistik olarak işlev görürler.

KMK R, bağımsız ve bağımlı değişkenler arasındaki olasılıksal bağlantının yakınlığını değerlendirmeyi mümkün kılar. Yüksek değeri, "ayın sayısı" ve "bir ürünün 1 ton başına r bir ürünün fiyatı" arasında yeterince güçlü bir bağlantıyı gösterir. Ancak, bu bağlantının niteliği bilinmemektedir.

Belirleme katsayısının karesi R2 (RI), toplam saçılma payının sayısal bir özelliğidir ve deneysel verilerin hangi bölümünün hangi bölümünün dağılımını gösterir. Bağımlı değişkenin değerleri doğrusal regresyon denklemine karşılık gelir. Söz konusu problemde, bu değer% 84.8, yani yüksek doğruluk derecesine sahip istatistiksel veriler açıklanmaktadır veya elde edilir.

F-Statistics, Fisher'in kriteri olarak da adlandırılan, lineer bağımlılığın önemini değerlendirmek, varlığının hipotezini reddetmek veya onaylamak için kullanılır.

(Öğrencinin kriteri), katsayının öneminin bilinmeyen veya özgür bir bağımlılık üyesinin önemini değerlendirmeye yardımcı olur. T-kriterinin değeri\u003e T ise, lineer denklemin serbest elemanının önemsizliğinin hipotezi reddedilir.

Ücretsiz bir üye için dikkate alınan problemde, "Excel" araçlarını kullanarak, T \u003d 169,20903 ve p \u003d 2.89E-12'nin, yani ücretsiz bir önemsizliğin doğru hipotezinin, yani sıfır olasılığımızı sağladı. Üye reddedilecektir. Bilinmeyen bir t \u003d 5,79405 ve p \u003d 0.001158 katsayısı için. Başka bir deyişle, katsayının önemsizliğinin doğru hipotezinin bilinmeyen bir şekilde reddedilmesi olasılığı% 0.12'dir.

Böylece, doğrusal regresyonun ortaya çıkan denkleminin yeterince olduğuna dair tartışılabilir.

Bir paket paketi satın alma fizibilitesi üzerinde görev

Excel'de çoklu regresyon, tüm "veri analizi" aracı kullanılarak gerçekleştirilir. Belirli bir uygulamalı görevi düşünün.

Yönetim Şirketi "NNN", MMM JSC'de% 20 hisseye göre% 20 hisseyi almanın fizibilitesine karar vermelidir. Paketin (SP) maliyeti 70 milyon ABD dolarıdır. "NNN" uzmanları benzer işlemlerde verileri topladı. Milyonlarca Amerikan Doları cinsinden ifade edilen bu tür parametrelerde bir hisse maliyetini değerlendirmeye karar verildi:

  • ödenecek hesaplar (VK);
  • yıllık ciro (VO) hacmi;
  • alacaklar (VD);
  • sabit varlıkların maliyeti (SOF).

Buna ek olarak, ücret işletmesinin (V3 P) binlerce dolar cinsinden yerleşimi kullanılıyor.

Bir masa işlemcisi için çözüm araçları Excel

Her şeyden önce, kaynak veri tablosu yapmanız gerekir. Aşağıdaki forma sahiptir:

  • "Veri Analizi" penceresini arayın;
  • "Regresyon" bölümünü seçin;
  • "Giriş Aralığı Y" penceresinde, G'nin sütundan bağımlı değişkenlerin bir dizi değeri tanıtılır;
  • "Giriş Aralığı X" penceresinin sağındaki kırmızı bir okla simgeye tıklayın ve B, C, D, F sütunlarından tüm değerlerin aralığını tahsis edin.

"Yeni çalışma listesi" öğesi ve "Tamam" ı tıklayın.

Bu görev için analiz al.

Sonuçlar ve sonuçların incelenmesi

Yukarıda sunulan yuvarlatılmış verilerden "topla", bir masa işlemcisi Excel'in bir sayfasında, regresyon denklemi:

SP \u003d 0.103 * SOF + 0.541 * VO - 0.031 * VK + 0.405 * VD + 0.691 * VZP - 265,844.

Daha tanıdık bir matematiksel formda, şu şekilde yazılabilir:

y \u003d 0.103 * x1 + 0,541 * x2 - 0.031 * x3 + 0,405 * x4 + 0,691 * x5 - 265,844

MMM JSC'nin verileri tabloda sunulmuştur:

Regresyon denklemine yerleştirmek, 64.72 milyon ABD doları bir rakam alırlar. Bu, MMM JSC'nin paylarının satın alınmaması gerektiği anlamına gelir, çünkü 70 milyon ABD doları maliyetleri yeterince fazla tahmin edilmektedir.

Gördüğümüz gibi, "Excel" masa işlemcisinin kullanımı ve regresyon denklemleri, tamamen belirli bir işlemin fizibilitesine ilişkin makul bir kararın alınmasını mümkün kıldı.

Şimdi regresyonun ne olduğunu biliyorsun. Yukarıda tartışılan Excel örnekler, ekonometri alanından pratik görevleri çözmenize yardımcı olacaktır.

İstatistiksel veri işleme eklentilerle de yapılabilir. Analiz Paketi(Şek. 62).

Önerilen öğelerden öğeyi seçer " Regresyon"Ve sol fare düğmesiyle üzerine tıklayın. Sonra, Tamam'ı tıklayın.

Şekil 2'de gösterilen bir pencere görünür. 63.

Analiz Aracı " Regresyon»Daha küçük kare yöntemi kullanarak bir dizi gözlem için bir zamanlama seçmek için kullanılır. Durgunluk, bir veya daha fazla bağımsız değişkenin ayrı bağımlı değişken değerleri üzerindeki etkiyi analiz etmek için kullanılır. Örneğin, atlet atletizm yaş, büyüme ve ağırlık da dahil olmak üzere çeşitli faktörleri etkiler. Bu üç faktörün her birinin, sporcunun performansının sonuçlarına göre her birinin etkisinin derecesini hesaplayabilir ve daha sonra başka bir atletin performansını tahmin etmek için elde edilen verileri kullanın.

Durgunluk aracı bir işlev kullanır Linenin.

İletişim kutusu "Regresyon"

Etiketler İlk satır veya giriş aralığının ilk sütunun başlıkları içeriyorsa kutuyu işaretleyin. Başlıklar eksikse, bu onay kutusunu kaldırın. Bu durumda, veri çıkış tablosu için uygun başlıklar otomatik olarak oluşturulur.

Güvenilirlik Seviyesi Çıktı tablosunda ek bir seviye etkinleştirmek için onay kutusunu işaretleyin. Uygun alanda, varsayılan olarak kullanılan% 95 seviyesine ek olarak uygulanacak güvenilirlik seviyesini girin.

Sabit - Sıfır, gerileme hattının koordinatların kökeninden geçmesi için onay kutusunu seçin.

Çıkış aralığı Çıkış aralığının sol üst hücresine bağlantıyı girin. Aşağıdakileri içerecek olan sonuçların çıktı tablosu için en az yedi sütun alın: Dispersiyon analizi, katsayıların sonuçları, Y hesaplanmasının standart hataları, radyal sapmalar, gözlem numarası, katsayılar için standart hatalar.

Yeni Çalışma Listesi Kitabın içindeki yeni bir sayfa açmak ve A1 hücresinden başlayarak analiz sonuçlarını eklemek için düğmeyi bu konuma getirin. Gerekirse, anahtarın karşılık gelen konumunun karşısındaki alandaki yeni bir sayfa için bir ad girin.

Yeni Çalışma Kitabı Sonuçların yeni bir sayfaya ekleneceği yeni bir kitap oluşturmak için düğmeyi bu konuma getirin.

Kalıntıları Çıktı tablosunu açmak için onay kutusunu işaretleyin.

Standart Kalıntılar, çıktı tablosundaki standart kalıntıları etkinleştirmek için kutuyu işaretleyin.

Zamanlama, her bağımsız değişken için artık grafikler oluşturmak için onay kutusu kalır.

Öngörülen değerlerin gözlenebileceğinden bağımlılığını oluşturmak için seçim zamanlamasını seçin.

Normal olasılık grafiği Normal bir olasılıktan oluşan bir grafik oluşturmak için kutuyu işaretleyin.

İşlev Linenin

Hesaplamaları yapmak için imleci, imleci ortalama değeri görüntülemek istediğimiz hücreye ayırıyoruz ve klavye tuşuna tıklayın. İleri alanında, istediğiniz işlevi belirtin, örneğin Srnzoke (Şek. 22).

İşlev Linenin Kullanılabilir verileri en iyi şekilde yaklaştıran doğrudan satırı hesaplamak için en az kareler yöntemini kullanarak bir seri için istatistikleri hesaplar ve ardından ortaya çıkan düzeni tanımlayan bir dizi döndürür. İşlevi de birleştirebilirsiniz Linenin Polinom, logaritmik, üstel ve güç sıraları da dahil olmak üzere bilinmeyen parametrelerde (bilinmeyen parametreler olan) doğrusal olan diğer modelleri hesaplamak için diğer işlevlerle. Değer dizisi iade edildiğinden, fonksiyon bir dizi formülü olarak ayarlanmalıdır.

Düz bir çizgi için denklem aşağıdaki forma sahiptir:

y \u003d m 1 x 1 + m 2 x 2 + ... + b (çeşitli x değerlerinin aralıklarında),

bağımlı bir değerin bağımsız bir değerinin işlevi olduğu durumlarda, M değerleri, her bağımsız değişken X'e karşılık gelen katsayılardır ve B sabittir. Lütfen y, x ve m vektörlerin olabileceğini unutmayın. İşlev Linenin Bir diziyi döndürür (Mn; mn-1; ...; m 1; b). Linenin Ayrıca ek regresyon istatistiklerini iade edebilir.

Linenin(Known_stations_y; known_stations_x; const; istatistik)

Known_stations_y - Y \u003d MX + B'ye göre zaten bilinen Y değerleri kümesi.

Known_stations_y dizisi bir sütunu varsa, daha sonra Know_Stations_x dizisinin her sütunu ayrı bir değişken olarak yorumlanır.

Known_stations_y dizisi bir satır varsa, Known_Stations_x dizinin her satırı ayrı bir değişken olarak yorumlanır.

Bilinen_name_x, Y \u003d MX + B'ye göre zaten bilinen isteğe bağlı bir X değerleri kümesidir.

Bir dizi known_nation_x, bir veya daha fazla değişken seti içerebilir. Keşke bir değişken kullanılırsa, ArRays_night_date_y ve known_name_x, aynı boyuta sahip olmaları şartıyla, herhangi bir formu olabilir. Birden fazla değişken kullanılırsa, bilinen_stations_y bir vektör olmalıdır (yani, tek bir satır veya tek sütun genişliğinin aralığı).

Eğer bir dizi referans_stations_x atlandı ise, bu dizinin (1; 2; 3; ...) bir dizi referans_y ile aynı boyuta sahip olduğu varsayılmaktadır.

Const - sabit B'nin 0'a eşit olup olmadığını belirten mantıksal bir değer.

"Const" argümanı doğru mu yoksa ihmal ederse, sabit B'nin her zamanki gibi hesaplanır.

"Const" argümanı yanlış bir değere sahipse, B değeri 0'a aittir ve M değerleri, Y \u003d MX oranının böyle bir şekilde seçilir.

İSTATİSTİK - Regresyon hakkında ek istatistikleri geri dönüp dönmeyeceğini belirten mantıksal bir değer.

"İstatistikler" argümanı gerçek önemlidirse, doğrusal fonksiyon ek regresyon istatistiklerini döndürür. İade edilen dizinin aşağıdaki forma sahip olacaktır: (MN; MN-1; ...; M1; B: SEN; SEN-1; ...; SE1; SEB: R2; SEY: F; DF: SSREG; SSRESID) .

Eğer "istatistikler" argümanı bir yalan ya da atlandı, doğrusal fonksiyon sadece M ve Kalıcı b katsayıları döndürür.

Ek regresyon istatistikleri. (Tablo 17)

Değer vermek Açıklama
SE1, SE2, ..., Sen M1, M2, ..., Mn katsayıları için standart hata değerleri.
Seb. Constant B (SEB \u003d # N / D, "Const" argümanı bir yalan söylüyorsa) hatanın standart değeridir.
R2. Determinizm katsayısı. Y gerçek değerleri karşılaştırılır ve doğrudan denklemden elde edilen değerler; Karşılaştırmanın sonuçlarına göre, determinizm katsayısı, 0'dan 1'e kadar normalleştirildiği hesaplanır. 1 ise, model ile tam bir korelasyon vardır, yani, yaptığınız gerçek ve tahmini değerler arasındaki farklar yok. Karşı durumda, determinizme katsayısı 0 ise, R'nin değerlerini tahmin etmek için regresyon denklemini kullanmak mantıklı değil. R2 hesaplama yöntemleri hakkında daha fazla bilgi için, bu bölümün sonundaki "Açıklamalar".
Sey. Y tahmini için standart hata
F. F-istatistikler veya F-gözlemlenen değer. F-istatistikler bağımlı ve bağımsız değişkenler arasında rastgele gözlemlenebilir bir ilişkinin olup olmadığını belirlemek için kullanılır.
df. Özgürlük derecesi. Özgürlük dereceleri, istatistiksel bir tabloda F-eleştirel değerler bulmak için faydalıdır. Modelin güvenilirlik seviyesini belirlemek için, bir tablodaki değerleri doğrusal fonksiyon tarafından döndürülen F-Statistices ile karşılaştırmanız gerekir. DF'nin değerini hesaplamakla ilgili daha fazla bilgi için, bkz. Bu bölümün sonundaki "Açıklamalar". Daha sonra, Örnek 4'te, F ve DF değerlerinin kullanımı gösterilir.
SSREG. Regresyon miktarı.
SSRESID Artık kareler toplamı. SSREG ve SSRESID değerlerinin hesaplanmasında daha fazla bilgi için, bkz. Bu bölümün sonundaki "Açıklamalar".

Aşağıdaki şekil, ek regresyon istatistiklerinin nasıl iade edildiğini göstermektedir (Şekil 64).

Uyarılar:

Herhangi bir doğrudan Y ekseni ile eğim ve kesişme ile tanımlanabilir:

Tilt (m): Eğim düz, genellikle m ile gösterilen, doğrudan (x 1, y 1) ve (x 2, y2), iki nokta almanız gerekir; Eğim (Y2 -Y 1) / (x 2-x 1) eşit olacaktır.

Y-Kesişme (B): Y-Kavşağı Doğrudan, genellikle B ile gösterilen, doğrudan Y ekseni kesiştiği bir nokta için Y değeridir.

Denklem doğrudan Y \u003d MX + B formuna sahiptir. M ve B değerleri biliniyorsa, daha düz bir çizgide herhangi bir noktayı hesaplayabilir, Y veya X değerlerini denklemin içine taşıyabilirsiniz. Trend işlevini de kullanabilirsiniz.

Sadece bir bağımsız değişken X varsa, aşağıdaki formülleri kullanarak doğrudan bir eğim ve Y geçidi alabilirsiniz:

Eğim: Endeks (Doğrusal (bilinen_damations_y; tobned_stations_x); 1)

Y-kavşak: indeks (doğrusal (bilinen_stations_y; thibled_stations_x); 2)

Doğrusallığın doğrudan hesaplanmış bir fonksiyonu ile yaklaşımın doğruluğu, veri saçılma derecesine bağlıdır. Verileri düz çizgiye yaklaştırın, doğrusal fonksiyon tarafından kullanılan model daha doğrudur. Doğrusal fonksiyon, verilerin en iyi yaklaşımını belirlemek için en küçük kareler yöntemini kullanır. Sadece bir bağımsız değişken olduğunda, X, M ve B aşağıdaki formüllere göre hesaplanır:

x ve Y seçici ortalama değerlerdir, örneğin, x \u003d сраснова (known_stations_x) ve y \u003d srnvov (bilinen_des_y).

Doğrusal ve lgrfprb'in yaklaşımının işlevleri, verileri en iyi şekilde tanımlayan doğrudan veya üstel eğriyi hesaplayabilir. Ancak, iki sonuçtan hangisinin görevi çözmek için daha uygun olduğunu sorusuna cevap vermezler. Üstel bir eğri için (bilinen_stations_y; thibl_stations_x) için eğilim işlevini (Known_stations_y; thibl_stations_x) hesaplayabilirsiniz. Bu işlevler, new_nation_x argümanını belirtmezseniz, düz veya eğriye göre gerçek X değerleri için bir Dizi Hesaplanan Değerleri döndürün. Bundan sonra, hesaplanan değerleri gerçek değerlerle karşılaştırabilirsiniz. Görsel karşılaştırma için diyagramlar da yapabilirsiniz.

Regresyon analizi yapılması, Microsoft Excel, Y, Y'nin öngörülen değeri ile Y'nin gerçek değeri arasındaki farkın her bir nokta karesini hesaplar. Bu karelerinin toplamı, karelerin kalıntısı toplamı (SSRESID) olarak adlandırılır. Microsoft Excel daha sonra karelerin toplam toplamını (sstital) hesaplar. Eğer Const \u003d gerçek veya bu argümanın değeri belirtilmemişse, karelerin toplam toplamı, Y değerlerinin değerleri ile ortalama değerler arasındaki farkın karelerinin toplamına eşit olacaktır. Y. Süspansiyon \u003d yatıyorsa, toplam kareler miktarı, Y ortalama Y değerinin y değerinden çıkarılmadan (ortalama Y değerini y değerinden çıkarmadan) karelerinin toplamına eşit olacaktır. Bundan sonra, gerileme miktarı kare miktarı aşağıdaki gibi hesaplanabilir: SSREG \u003d SSTOTAL - SSRESID. Karelerin artık toplamı, regresyon analizi ile elde edilen denklemin değişkenler arasındaki ilişkiyi ne kadar iyi olduğunu gösteren belirleme katsayısı R2'nin değeri ne kadar büyükse. R2 katsayısı SSREG / SSTOTAL'a eşittir.

Bazı durumlarda, bir veya daha fazla sütun X (Y ve X değerlerinin sütunlarda bırakın), diğer sütunlarda ek bir tahmin edici bir değere sahip değildir. Başka bir deyişle, bir veya daha fazla sütununun çıkarılması, X'in kaldırılması Y'nin değerleri aynı doğrulukla hesaplanır. Bu durumda, aşırı sütunlar regresyon modelinden hariç tutulacaktır. Bu fenomen "collinearity" olarak adlandırılır, çünkü fazla fazla sütunlar, boş olmayan birkaç kolonun toplamı olarak gösterilebileceğinden. Doğrusal fonksiyon, collineity üzerinde kontrol eder ve bunları tespit ederselerse, tüm fazla sütunları regresyon modelinden kaldırır. Uzaktan kumanda X, doğrusalın çıkışında 0 katsayısı ile ve 0 değeri ile tanımlanabilir. DF'nin değerini değiştirirken, bir veya daha fazla sütunun değerini değiştirir, çünkü Tahıllı amaçlar için kullanılan gerçeklik. DF değerinin hesaplanması hakkında daha fazla bilgi için, Örnek 4'te aşağıya bakın. DF değiştiğinde, fazla sütunların çıkarılması nedeniyle, SEY ve F değeri de değiştirilir. Sık sık collinearity kullanarak önerilmez. Bununla birlikte, bazı X sütunları, deneyin ayrı bir gruba dahil edilip edilmediği bir gösterge göstergesi olarak 0 veya 1 içeriyorsa uygulanmalıdır. Eğer Const \u003d gerçeği veya bu argümanın değeri belirtilmemişse, Kavşak noktasını simüle etmek için Linen işlevi ek bir sütun x ekler. Erkekleri ve 0'ı belirtmek için değerleri 1 olan bir sütun varsa ve kadınlar için değerleri 1 ve 0 - erkekler için değerleri olan değerleri olan bir sütun varsa, son sütun silinir, çünkü değerleri "erkek göstergesi" olan bir sütundan alınmalıdır.

DF'nin hesaplanması, X Sütunları, CollineSity nedeniyle modelden silinmediğinde, aşağıdaki gibi olursa: Known_name_x'in K sütunları varsa ve bağlantı değeri \u003d gerçek veya belirtilmemişse, DF \u003d N - K - 1. Const \u003d yalanlar, sonra df \u003d n - k. Her iki durumda da, CollineSity nedeniyle x sütunlarının çıkarılması, DF'nin değerini 1 olarak artırır.

Dönüş dizilerinin bir dizi formülü olarak tanıtılmalıdır.

Sabit dizisini girerken, örneğin, bilinen argüman adı_name_x, değerleri bir satırda ayırmak ve satırları ayırmak için kolon ayırmak için virgülle bir nokta kullanmalıdır. Bölücüler, kontrol panelindeki dil ve standartlar penceresinde belirtilen parametrelere bağlı olarak farklı olabilir.

Denklemini belirlemek için kullanılan y değerlerinin dışına yerleştirilmişse, regresyon denklemi kullanılarak tahmin edilenlerin doğru olmayabileceği belirtilmelidir.

Fonksiyonda kullanılan ana algoritma LineninAna fonksiyonlar algoritmundan farklıdır EĞİM ve BÖLÜM. Algoritmalar arasındaki fark, tanımsız ve kollinear verilerle çeşitli sonuçlara yol açabilir. Örneğin, bilinen argümanın veri noktaları 0'a eşitse, 0'a eşittir ve bilinen argümanın veri noktaları 1, ardından 1'e eşittir:

İşlev Linenin 0'a eşit değeri döndürür. İşlev Algoritması Linenin Collinear verileri için uygun değerleri iade etmek için kullanılır ve bu durumda, en az bir cevap bulunabilir.

Fonksiyonlar eğim ve geri dönüş hatası # işler / 0 !. Algoritma fonksiyonları eğim ve kesim yalnızca bir yanıtı aramak için kullanılır ve bu durumda birçoğu olabilir.

Diğer regresyon türleri için istatistikleri hesaplamanın yanı sıra, diğer regresyon türlerinin aralıklarını hesaplarken, X ve Y değişkenlerinin işlevlerini doğrusal olarak x ve y sıraları olarak girerken, lineer fonksiyon kullanılabilir. Örneğin, aşağıdaki formül:

Doğrusal (değerler_y, vals_x ^ sütun ($ a: $ c)))

aşağıdaki formun küpünün (polinomu 3RD derece) hesaplanmasını hesaplamak için Y ve bir değeri X değerlerinin bir sütunu varlığında çalışır:

y \u003d M 1 x + m 2 x 2 + m 3 x 3 + b

Formül, diğer regresyon türlerini hesaplamak için değiştirilebilir, ancak bazı durumlarda çıkış değerlerini ve diğer istatistiksel verileri ayarlaması gerekir.