Sandy Bridge'den Coffee Lake'e: Yedi Nesil Intel Core i7'yi Karşılaştırın. Intel Sandy Bridge: yeni bir işlemci mikro mimarisiyle yeni yılda

  • 22.07.2019

İlk Core i'nin (Nehalem ve 2009'da Westmere) rakibin CPU'su üzerindeki üstünlüğü kesin mi? Durum biraz Pentium II'nin piyasaya sürülmesinden sonraki ilk yıla benziyor: defnelerimize dayanarak ve rekor karlar elde ederek, başarılı mimariyi adını fazla değiştirmeden, kullanımı önemli ölçüde etkileyecek yenilerini eklemeden sürdürmek iyi olurdu. performansı artırın, günümüzün sürüm programlarını hızlandıran diğer yenilikleri de unutmayın. Doğru, 10 yıl önceki durumun aksine, şu anda moda olan enerji verimliliği konusuna da dikkat edilmelidir, belirsiz sıfat Cool - "cool" ve "cold" - ve işlemciye inşa etmek için daha az modaya uygun bir istek yoktur. hala ayrı olarak var olan her şey. Bu, yeniliğin servis edildiği sostur.

Intel işlemcilerin "dünden önceki gün", "dün" ve "bugün".


Konveyörün önü. Renkler, farklı bilgi türlerini ve bunları işleyen veya saklayan blokları temsil eder.

Tahmin

Intel'in tamamen elden geçirilmiş (BPU) duyurusuyla başlayalım. Nehalem'de olduğu gibi, her saat döngüsü (ve gerçek yürütmeden önce), henüz tahmin edilen kısımdaki atlama talimatlarının beklenen davranışına bağlı olarak bir sonraki 32 baytlık kod parçasının adresini tahmin eder - ve görünüşe göre, sayıdan bağımsız olarak ve geçiş türleri. Daha doğrusu, geçerli kısımda sözde tetiklenmiş bir geçiş varsa, kendi ve hedef adresleri verilir, aksi takdirde - arka arkaya bir sonraki bölüme geçiş. Tahminler, ikiye katlama (BTB), uzatma (GBHR) ve erişim karma fonksiyonunun (BHT) optimizasyonu nedeniyle daha da doğru hale geldi. Doğru, gerçek testler bazı durumlarda tahmin verimliliğinin Nehalem'den biraz daha kötü olduğunu göstermiştir. Tüketimdeki düşüşle birlikte performans artışı, iyi şube tahmini ile uyumlu olmayabilir mi? Anlamaya çalışalım.

Nehalem'de (diğer modern mimarilerde olduğu gibi) BTB, iki seviyeli bir hiyerarşi şeklinde bulunur - küçük - "hızlı" L1 ve büyük - "yavaş" L2. Bu, birkaç seviye olmasının aynı nedenle olur: tek seviyeli bir çözüm, tüm parametrelerde (boyut, tepki hızı, tüketim, vb.) fazla uzlaşma olacaktır. Ancak SB'de mimarlar bir seviye koymaya karar verdiler ve boyut Nehalem'den L2 BTB'nin iki katı, yani muhtemelen en az 4096 hücre - Atom'da kaç tane var. (En sık yürütülen kodun boyutunun yavaş yavaş büyüdüğü ve önbelleğe daha az sığdığı ve boyutu ilk Pentium M'den bu yana tüm Intel CPU'lar için aynı olduğu belirtilmelidir.) önerilmez (bu bir tanesidir). mimarinin ilk ilkelerinden) - başka bir yapıdan bir şey almalısınız. Ama bir de hız var. SB'nin aynı proses teknolojisi ile biraz daha yüksek bir hız için tasarlanması gerektiği göz önüne alındığında, bu büyük yapının tüm konveyörün darboğazı olmasını bekleyebilirsiniz - eğer boruyu bağlamazsanız (zaten iki tane yeterlidir). Doğru, BTB'de çevrim başına tetiklenen toplam transistör sayısı iki katına çıkacak ve bu da enerji tasarrufuna hiç katkıda bulunmaz. Yine çıkmaz mı? Intel buna, yeni BTB'nin adresleri belirli bir sıkıştırılmış durumda sakladığını ve bu da aynı alan ve tüketime sahip iki kat daha fazla hücreye sahip olmanızı sağladığını yanıtlıyor. Ancak bunu doğrulamak henüz mümkün değil.

Diğer taraftan bakıyoruz. SB yeni tahmin algoritmaları değil, eskileri optimize etti: genel, dolaylı dallar, döngüler ve geri izlemeler için. Nehalem, 18 bit GBHR ve bilinmeyen boyutta BHT'ye sahiptir. Ancak, tablodaki hücre sayısının 2 18'den az olduğunu garanti edebilirsiniz, aksi takdirde çekirdeğin çoğunu kaplar. Bu nedenle, tüm geçişlerin geçmişinin 18 bitini ve talimat adresinin bitlerini daha kısa bir dizine katlayan özel bir karma işlevi vardır. Ayrıca, büyük olasılıkla en az iki karma vardır - tüm GBHR bitleri için ve en zor geçişlerin tetiklenmesini yansıtanlar için. Ve şimdi, BHT hücrelerinin sayısına göre çeşitli davranış kalıplarının endekslerinin kaotik dağılımının etkinliği, genel öngörücünün başarısını belirler. Açıkça belirtilmemesine rağmen, Intel, daha az dolgu verimliliği olmadan daha uzun GBHR'lerin kullanılmasını mümkün kılan karmaları kesinlikle iyileştirdi. Ancak yine de BHT'nin boyutu hakkında tahminde bulunabilirsiniz - ayrıca tahmin edicinin enerji tüketiminin bir bütün olarak gerçekte nasıl değiştiği hakkında ... kendilerini çağırır - artık dört x 16 bayt kod yok.

Daha ileri gidene kadar, beyan edilen teori ile gözlemlenen uygulama arasındaki küçük bir tutarsızlıktan bahsedelim - ve SB'deki döngü öngörücünün kaldırıldığını gösterdi, bunun sonucunda döngünün başlangıcına son geçişin tahmini genel algoritma tarafından yapılan, yani daha kötü. Bir Intel sözcüsü, hiçbir şeyin "daha kötü" olmaması gerektiğine dair bize güvence verdi, ancak ...

Kod çözme ve IDQ

Önceden tahmin edilen yürütülebilir komutların adresleri (dönüşümlü olarak her iş parçacığı için - teknoloji etkinken) talimat önbelleklerinde (L1I) ve (L0m) olup olmadığını kontrol etmek için verilir, ancak ikincisi hakkında sessiz kalacağız - açıklayacağız şimdilik cephenin geri kalanı. İşin garibi, Intel, L1I'den okunan talimat bölümünün boyutunu 16 baytta tuttu (burada "kısım" kelimesi bizimkine göre anlaşılır). Şimdiye kadar bu, ortalama komut boyutu 4 baytı aşan kod için bir engel olmuştur ve bu nedenle döngü başına yürütülmesi istenen 4 komut artık 16 bayta sığmayacaktır. AMD, K10 mimarisinde bu sorunu komut yığınını 32 bayta genişleterek çözdü - CPU'larında şimdiye kadar 3'ten fazla işlem hattı olmamasına rağmen. SB'de, boyutların eşitsizliği bir yan etkiye yol açar: öngörücü 32 baytlık bir bloğun sonraki adresini verir ve ilk yarısında (muhtemelen) tetiklenen bir geçiş bulunursa, okuma ve kod çözme gerekli değildir. ikincisi - ancak, yapılacaktır.

L1I'den, kısım ön kod çözücüye ve oradan - uzunluğun kendisine (), 7 veya 6 komut / döngüye kadar (ile ve olmadan; Nehalem'in maksimum 6'sı olabilir) işleyen uzunluğun kendisine gider. toplam uzunluk ve karmaşıklık. Geçişten hemen sonra, işlem hedef adresteki komutla başlar, aksi takdirde - ön kod çözücünün bir saat önce durdurduğu bayttan. Son nokta ile aynı şekilde: ya bu (muhtemelen) tetiklenen bir geçiştir, son baytın adresi BTB'den gelir veya yığının son baytı - 7 talimat / saat sınırına ulaşılmadıkça veya bir "uygunsuz" komutuyla karşılaşıldı. Büyük olasılıkla, uzunluk ölçer arabelleği yalnızca 2-4 parçaya sahiptir, ancak uzunluk ölçer herhangi bir 16 parçayı alabilir. ardışık bayt. Örneğin, bölümün başında 7 çift baytlık talimatlar tanınırsa, bir sonraki döngüde 15'inden başlayarak 16 bayt daha işleyebilirsiniz.

Uzunluk ölçer, diğer şeylerin yanı sıra, makro birleştirilmiş komut çiftlerinin algılanmasıyla ilgilenir. Çiftlerin kendileri hakkında biraz sonra konuşacağız, ancak şimdilik, Nehalem'de olduğu gibi, her bir saatte bu tür bir çiftten fazlasının algılanamayacağını, ancak bunların en fazla 3 (ve bir tane daha tekli) ile işaretlenebileceğini unutmayın. emretmek). Bununla birlikte, talimat uzunluklarının ölçümü kısmen ardışık bir süreçtir, bu nedenle bir döngü sırasında birkaç makro birleştirilmiş çifti belirlemek mümkün olmaz.

Etiketli komutlar iki komuttan birine girer (IQ: talimat kuyruğu) - iş parçacığı başına bir tane, her biri 20 komut (Nehalem'inkinden 2 tane fazladır). sırayla kuyruklardan komutları okur ve bunları paspaslara aktarır. 3 basit komutu (1 komutu 1 paspasa ve makro birleştirme ile - 2 komutu 1 paspasa çevir), karmaşık bir çevirici (1-4 paspasa 1 komut veya 1 paspasta 2 komut) ve bir mikro sıralayıcıya sahiptir. 5 ve daha fazla paspas gerektiren en karmaşık komutlar. Ayrıca, ilk 4'ü karmaşık bir çevirmen tarafından üretildiğinden, 5. paspastan başlayarak her dizinin yalnızca "kuyruklarını" depolar. Ayrıca, mikro programdaki mop sayısı 4'e bölünemiyorsa, son dördü eksik olacaktır, ancak aynı döngüde tercümanlardan 1-3 mop daha eklemek işe yaramayacaktır. Kod çözme sonucu iki (akış başına bir) girer ve çıkar. İkincisi (resmi olarak IDQ - talimat kod çözme kuyruğu olarak adlandırılır) hala 28 uops'a sahiptir ve yürütülebilir kısmı buraya sığarsa döngüyü engelleme yeteneğine sahiptir.

Bütün bunlar (paspas önbelleği hariç) zaten Nehalem'deydi. Farklılıklar nedir? Her şeyden önce, açıkçası, kod çözücüye yeni alt küme komutlarını işlemesi öğretildi. Tüm basamaklı SSE setleri için destek artık şaşırtıcı değil ve Westmere'e (Nehalem'in 32nm versiyonu) komut hızlandırma (PCLMULQDQ dahil) eklendi. Bir sorunumuz var: bu işlev hem sabit hem de RIP'ye göre adreslemeye sahip komutlar için çalışmaz (RIP'ye göre, komut işaretçisine göre adres, 64 bit koddaki verilere erişmenin olağan yoludur). Bu tür komutlar 2 paspas gerektirir (ayrı yükleme ve çalıştırma), bu da kod çözücünün bunları yalnızca karmaşık bir çevirici kullanarak döngü başına birden fazla işlemeyeceği anlamına gelir. Intel, bu fedakarlıkların enerji tasarrufu için yapıldığını iddia ediyor, ancak ne olduğu net değil: çift yerleştirme, yürütme ve paspaslar açıkça daha fazla kaynak alacak, bu da birden fazla enerji tüketecekleri anlamına geliyor.

Makro birleştirme optimize edildi - daha önce, birleştirme için ilk komut olarak yalnızca aritmetik veya mantıksal karşılaştırma (CMP veya TEST) kullanılabilirdi, şimdi toplama ve çıkarma için basit aritmetik talimatlar (ADD, SUB, INC, DEC) ve mantıksal "VE " (VE) geçiş için de izin verilir (çiftin ikinci takımı). Bu, neredeyse her döngüde son 2 komutu 1 mop'a düşürmeyi mümkün kılar. Tabii ki, birleştirilmiş komutlar üzerindeki kısıtlamalar kalır, ancak bunlar kritik değildir, çünkü bir çift komut için listelenen durumlar neredeyse her zaman yürütülür:

  • ilk komutun ilki bir kayıt olmalıdır;
  • birinci komutun ikinci işleneni bellekteyse, RIP'ye göre adresleme geçersizdir;
  • ikinci komut, başlangıçta veya çapraz çizgi sınırlarında olamaz.

Geçişin kendisi için kurallar aşağıdaki gibidir:

  • sadece TEST ve VE herhangi bir koşulla uyumludur;
  • eşittir (değil) ve işaretli olanlarla karşılaştırmalar, izin verilen herhangi bir ilk komutla uyumludur;
  • tireleme (değil) için karşılaştırmalar ve imzasız karşılaştırmalar INC ve DEC ile uyumlu değildir;
  • diğer karşılaştırmalar (işaret, taşma, eşlik ve negatifleri) sadece TEST ve AND için geçerlidir.

Paspas kuyruklarındaki ana değişiklik, bellek erişiminin indeks kaydının okunmasını gerektirdiği türdeki birleştirilmiş moplardır (ve birkaç daha nadir tür), IDQ'ya yazarken çiftlere bölünür. Bu tür 4 paspas olsa bile, toplam 8'in tamamı IDQ'ya kaydedilecektir. Bunun nedeni, paspas kuyrukları (IDQ), sevk aracı (ROB) ve rezervasyonun artık 6 bitlik dizin alanı olmadan kısaltılmış paspas biçimini kullanmasıdır (elbette, paspasları taşırken paradan tasarruf etmek için). Bu tür vakaların nadir olacağı ve bu nedenle hızı büyük ölçüde etkilemeyeceği varsayılmaktadır.

Aşağıda bu tamponun döngü engelleme modunun geçmişini anlatacağız, ancak burada sadece bir önemsememeye dikkat çekeceğiz: döngünün başlangıcına geçiş daha önce 1 ek döngü aldı ve sonun okumaları arasında bir "kabarcık" oluşturdu. ve döngünün başlangıcı, ama şimdi gitti. Bununla birlikte, döngü başına okunan mopların dördü, mevcut yinelemeden sonuncuyu ve bir sonrakinden ilkini içeremez, bu nedenle ideal olarak, bir döngüdeki mopların sayısı 4'e tamamen bölünebilir olmalıdır. pek değişmedi:

  • döngü paspasları, 8'den fazla 32 bayt kaynak kodu parçası tarafından oluşturulmamalıdır;
  • bu bölümler L0m'de önbelleğe alınmalıdır (Nehalem'de, elbette, L1I'de);
  • 8 adede kadar koşulsuz sıçramaya izin verilir, tetikleneceği tahmin edilir (sonuncusu dahil);
  • aramalara ve geri dönüşlere izin verilmez;
  • yığına yapılan eşleştirilmemiş çağrılar kabul edilemez (çoğunlukla eşit olmayan sayıda PUSH ve POP komutuyla) - aşağıda daha fazlası.

Yığın motoru

Önceki makalelerde dikkate almadığımız bir mekanizma daha var - IDQ'nun önünde bulunan yığın işaretçisi izleyici. Pentium M'de göründü ve hala değişmedi. Özü, yığın işaretçisinin (32/64 bit modu için ESP / RSP kaydı) onunla çalışmak için komutlarla (PUSH, POP, CALL ve RET) değiştirilmesinin ayrı bir toplayıcıda yapılması, sonucun saklanmasıdır. özel bir kayıt ve uop'a sabit olarak geri döndü - her komuttan sonra işaretçiyi gerektiği gibi ve Pentium M'den önce Intel CPU'da olduğu gibi değiştirmek yerine.

Bu, bazı komutlar işaretçiye doğrudan erişene kadar (ve diğer bazı nadir durumlarda) gerçekleşir - yığın motoru gölge işaretçisini sıfırla karşılaştırır ve değer sıfır değilse, komut işaretçiyi çağırmadan önce paspas akışına bir senkronizasyon ekler. , işaretçiye özel kayıttan gerçek değeri yazar (ve kaydın kendisi sıfırlanır). Bu nadiren gerekli olduğu için, işaretçiyi yalnızca dolaylı olarak değiştiren yığına yapılan çağrıların çoğu, diğer işlemlerle aynı anda değiştirilen gölge kopyasını kullanır. Yani, boru hattı blokları açısından, bu tür talimatlar tek bir birleştirilmiş paspas tarafından kodlanır ve ALU'da işlem gerektirmeden sıradan bellek erişimlerinden farklı değildir.

Dikkatli bir Okuyucu (iyi günler!) Bir bağlantı olduğunu fark edecek: bir paspas kuyruğunu döngüye alırken, yığın motoru boru hattında olduğundan, yığına yapılan eşleştirilmemiş çağrılar kesinlikle kabul edilemez. önce IDQ - bir sonraki yinelemeden sonra gölge işaretçisinin değeri sıfırdan farklıysa, yenisine bir senkromop eklemeniz gerekir, ancak bu dairesel modda imkansızdır (paspaslar yalnızca IDQ'dan okunur). Ayrıca, yığın motoru, öndeki diğer tüm parçalar gibi, enerji tasarrufu için genellikle kapatılır.

Nop'un gizli hayatı

Başka bir değişiklik uzunluk ölçeri etkiledi, ancak bu durum biraz öne çıkıyor. İlk olarak, ne olduklarını ve neden gerekli olduklarını hatırlayalım. Bir zamanlar x86 mimarisinde nop yalnızca 1 bayttı. Kodu 1 bayttan fazla kaydırmak veya 1 bayttan uzun komutları değiştirmek gerektiğinde, ancak birkaç kez eklediler. Ancak bu komutun hiçbir şey yapmamasına rağmen, kodunun çözülmesi için ve nops sayısıyla orantılı olarak hala zaman harcanmaktadır. "Yamalı" programın performansının sarkmasını önlemek için düğme uzatılabilir. Bununla birlikte, 90'ların CPU'sunda, belirli bir değerin üzerinde bir dizi önekle (ki bu, 15 baytlık bir x86 komutunun izin verilen maksimum uzunluğundan çok daha az olan) talimatların kod çözme hızı keskin bir şekilde düştü. Ek olarak, özellikle nop için, önek kural olarak aynı tipte kullanılır, ancak birçok kez tekrarlanır, bu sadece istenmeyen bir istisna olarak izin verilir ve uzunluk göstergesini karmaşıklaştırır.

Bu sorunları çözmek için, Pentium Pro ve Athlon işlemcilerinden başlayarak, yazmaçları ve adres ofsetini kullanarak "resmi" komut uzatma için modR / M bayt ile "uzun nop"u anlarlar. Doğal olarak, bellek ve kayıtlarla hiçbir işlem gerçekleşmez, ancak uzunluk belirlenirken, sıradan çok baytlı komutlarla aynı uzunluktaki sayaç blokları kullanılır. Artık uzun düğümlerin kullanılması hem Intel hem de AMD'nin düşük seviyeli yazılım optimizasyon eğitimleri tarafından resmi olarak tavsiye ediliyor. Bu arada, SB ön kod çözücüsü, sabitin uzunluğunu ve adres ofsetini değiştiren 66 ve 67 önekleri için cezayı (6'dan 3 saate) yarıya indirdi - ancak Nehalem'de olduğu gibi, komutlara ceza uygulanmaz burada bu önekler aslında uzunluğu değiştirmez (örneğin, ön ek 66 bir komuta hemen işlenen olmadan uygulanırsa) veya bir anahtar listesinin parçasıdır (genellikle vektör kodunda kullanılır).

İyi biçimlendirilmiş bir uzun düğümün maksimum uzunluğu Intel için 9 baytı ve AMD için 11 baytı geçmez. Bu nedenle, 16 veya 32 baytlık hizalama için hala birkaç nops olabilir. Bununla birlikte, bu komut basit olduğu için, kod çözme ve "yürütme", en basit çalıştırma komutlarını işlemekten daha fazla kaynak almayacaktır. Bu nedenle, uzun yıllar boyunca, uzun budaklarla test, boru hattı cephesinin, özellikle uzunluk ölçer ve kod çözücünün parametrelerini belirlemek için standart yöntem olmuştur. Ve burada Sandy Bridge çok garip bir sürpriz sundu: Sıradan programların performansını test etmek herhangi bir gecikme veya yavaşlama göstermedi, ancak görevdeki dekoder parametrelerinin sentetik kontrolü beklenmedik bir şekilde performansının saat başına bir komuta eşit olduğunu gösterdi! Aynı zamanda Intel, kod çözücüdeki bu tür radikal değişiklikler hakkında herhangi bir resmi açıklama yapmadı.

Ölçüm prosedürü Nehalem'de harika çalıştı ve doğru 4'ü gösterdi. Ölçülen saat hızlarını bozan yeni ve "aşırı" aktif Turbo Boost 2.0'ı suçlayabilirsiniz, ancak testler için devre dışı bırakıldı. Kısma sıklığını yavaşlatarak aşırı ısınma da hariç tutulur. Ve nihayet, sebep keşfedildiğinde, daha da garip hale geldi: SB'deki uzun nops'ların yalnızca ilk basit çevirmen tarafından işlendiği ortaya çıktı, ancak 1 bayt nops herhangi bir sayıda önek ve benzeri komutlarla "eylemsizlikle" ( örneğin, bir kaydın kendisine kopyalanması) dördü de kolayca kabul edilir. Bunun neden yapıldığı açık değil, ancak böyle bir teknik çözümün en az bir dezavantajı kendini zaten açıkça gösterdi: araştırma ekibimiz kod çözücünün gizemli yavaşlığının nedenlerini bulmak için on gün sürdü ... İntikam için soruyoruz Karşı Kampın öfkeli hayranları, belirli bir şirketin sinsi planları hakkında bir tür komplo teorisi ortaya atmak için I. saf, cesur işlemci araştırmacılarını şaşırtmak için. :)

Bu arada, ortaya çıktığı gibi, 1 numaralı çevirmen diğerleri arasında zaten "daha eşit" idi. Nehalem'de, açık bir sabit işlenene sahip döngüsel kaydırma komutlarının (ROL ve ROR) de kodu yalnızca ilk çevirmende çözüldü ve aynı döngüde dördüncüsü kapatıldı, böylece IPC değeri 3'e düştü. Görünüşe göre - neden burada bu kadar nadir bir örnek veriyorsunuz? Ancak tam da bu numara nedeniyle, SHA-1 gibi karma algoritmalarda en yüksek hızı elde etmek için, derleyicilerin baş edemediği çok kesin talimat düzenlerine ihtiyaç duyuldu. Bununla birlikte, SB'de, bu tür komutlar basitçe 2-Mops haline geldi, böylece karmaşık bir çevirmen (ki zaten bir tane) işgal ederek CPU için neredeyse ayırt edilemez, ancak bir kişi ve bir derleyici için daha öngörülebilir davranırlar. Düğümlerde ise tam tersi oldu. Nakit paspaslar

Hedefler ve öncekiler

Bu bölümü özellikle ön taraftaki açıklamanın geri kalanından ayırdık - paspas önbelleğinin eklenmesi, Intel'in Core 2'den başlayarak tüm işlemcileri için hangi yolu seçtiğini açıkça gösteriyor. İkincisinde, ilk kez (Intel için) , aynı anda ikiye ulaşan bir blok eklendi, çelişkili hedefler gibi görünüyor: hızı artırmak ve enerji tasarrufu. Ön kod çözücü ile kod çözücü arasındaki komut kuyruğundan (IQ) bahsediyoruz, bu daha sonra toplamda 64 bayta kadar 18 komut depolar. Yalnızca komutların (normal bir tampon gibi) hazırlanma ve kod çözme oranlarındaki farkı düzeltirse, fayda küçük olacaktır. Ancak Intel, IQ'ya küçük bir LSD bloğu eklemeyi anladı (adamların bir şeyi "kabul etmeleri" olası değil, sadece böyle bir mizahları var) - Döngü Akış Dedektörü, bir "döngüsel akış dedektörü". 18 komuta uyan bir döngü algılandığında, LSD önceki tüm aşamaları (tahmin, L1I önbellek ve ön kod çözücü) devre dışı bırakır ve döngü komutlarını tamamlanana veya sınırlarının dışında bir geçiş yapılana kadar (çağrılar) kod çözücüye kuyruğa alır. ve iadeler kabul edilemez). Böylece, geçici olarak boşta olan bloklar devre dışı bırakılarak enerji tasarrufu sağlanır ve dekoder için garantili 4 talimat/saat akışı sayesinde, bunlar en uygunsuz öneklerle "sağlanmış" olsalar bile performans artar.

Intel bu fikri açıkça beğendi, bu yüzden Nehalem için devre optimize edildi: IQ kopyalandı (iki akış için) ve kod çözücü ile gönderici arasına (yani tam olarak ön ve arka sınırında) iki IDQ kuyruğu yerleştirildi. her biri 28 ups ile ve LSD bloğu onlara taşındı. Şimdi, döngü bloke edildiğinde, kod çözücü de kapatılır ve 4 komutun değil, döngü başına 4 paspasın garantili akışı nedeniyle, üretimleri minimumda olsa bile (için Core 2 / i) 2 mops / döngü temposu. Karşı Kampın öfkeli taraftarları, kendilerini en sevdikleri eğlenceden bir anlığına kopararak hemen bir saç tokası takacaklar: LSD bu kadar iyi bir şeyse, neden Atom'a inşa edilmedi? Ve firkete adil - kod çözücüden sonra 32 megapiksellik bir kuyruğa sahip olan Atom, içindeki bir döngüyü engelleyemez, bu da değerli miliwattlardan tasarruf etmek için çok faydalı olacaktır. Yine de Intel fikirden vazgeçmeyecek ve yeni CPU'lar için bir güncelleme hazırladı ve ne güncelleme!

Paspas önbelleğinin resmi dahili adı DSB'dir (kod çözme akışı arabelleği), ancak önerilen DIC (kod çözülmüş talimat önbelleği) terimi kadar doğru değildir. İşin garibi, yerini almaz, ancak şimdi kod çözücüye bağlı olan IDQ kuyruklarını tamamlar. veya paspas önbelleği ile. Bir sonraki dal tahmininde, hedef adres komut ve uop önbelleklerinde eş zamanlı olarak kontrol edilir. İkincisi tetiklenirse, ondan daha fazla okuma yapılır ve kenarın geri kalanı kapatılır. Bu nedenle paspas önbelleği, sıfır seviye bir paspas önbelleğidir, yani L0m.

İlginç bir şekilde, bu fikir IDQ önbelleklerini "eksi birinci" seviye olarak çağırarak devam ettirilebilir. :) Ama tüm çekirdeğin çerçevesi içinde bile böyle karmaşık bir hiyerarşi değil, sadece bir cephe, aşırı değil mi? Intel, bir istisna olarak alanı ayırmasa bile, IDQ çifti, çalıştıkları zaman, ön kısmın geri kalanından (tahmin edici hariç) beri yalnızca paspasların önbelleğinin kapalı olduğu göz önüne alındığında, önemli ek tasarruflar getirecek mi? ) zaten uyuyor mu? Mops önbelleği de 4 mop / döngü üretecek şekilde yapılandırıldığından, hızda da özel bir artış elde edemezsiniz. Görünüşe göre Intel mühendisleri 3 seviyeli bir oyunun miliwatt mum değerinde olduğuna karar vermişler.

Tasarruflara ek olarak, paspasların önbelleği, geçişin yanlış tahmini için cezayı azaltmak da dahil olmak üzere performansı hızlandırır: Nehalem'de, L1I'de doğru kod bulunduğunda, ceza SB - 19'da 17 saat döngüsü idi, ancak eğer kod L0m'de bulundu, o zaman sadece 14. Üstelik bunlar maksimum sayılardır: yanlış tahmin edilen bir geçiş durumunda, programlayıcının önceki paspasları programatik sırayla başlatması ve bitirmesi gerekir ve bu süre zarfında L0m'nin zamanı olabilir. Doğru paspasları pompalayın, böylece zamanlayıcı, komutlar geçişten önce istifa ettikten hemen sonra bunları başlatmak için zamana sahip olur. Nehalem'de bu teknik IDQ ve bir cephe ile çalıştı, ancak ilk durumda, doğru hedef adresin 28-Mop döngüsünün içinde olma olasılığı çok küçük ve ikincisinde, çoğu durumda cephenin yavaşlığı. vakalar gecikmenin sıfıra indirilmesine izin vermedi. SB'nin şansı daha yüksek.

Cihaz

Topolojik olarak, L0m 32 x 8 satırdan (8-) oluşur. Her satır 6 mop depolar (tüm önbellekte - 1536, yani “bir buçuk kilo megapiksel”) ve önbellek döngü başına bir satır yazabilir ve okuyabilir. Tahmin edici, 32 baytlık blokların adreslerini verir ve L0m için çalışan bu boyuttur, bu nedenle, "yığın" teriminin altında, çalışan bir 32 baytlık kod bloğu olarak hizalanmayı ve tahmin etmeyi kastediyoruz (ve 16 bayt değil, kod çözücüye gelince). Kod çözme sırasında, L0m denetleyicisi, işlenecek kısmın sonuna kadar veya içinde tetiklenen ilk geçişe kadar bekler (elbette, muhtemelen - bundan sonra, tahminlerin her zaman doğru olduğunu varsayıyoruz), göndermeleriyle eşzamanlı olarak paspaslar biriktirir. geriye. Ardından, geçişlerin davranışına göre yığına giriş ve çıkış noktalarını sabitler. Genellikle giriş noktası, önceki bölümde tetiklenen geçişin hedef adresidir (daha doğrusu adresin alt 5 biti) ve çıkış noktası bu bölümde tetiklenen geçişin kendi adresidir. Aşırı bir durumda, ne önceki ne de şimdiki kısımlar tek bir geçişi tetiklemediyse (yani, kısımlar yalnızca yürütülmekle kalmaz, aynı zamanda bir satırda saklanır), o zaman her ikisi de tam olarak yürütülür - bunlara giriş açık olacaktır. sıfır paspas ve ilk baytın ilk baytı, komutun bu bölümüne tamamen sığar ve çıktı, son tam olarak sığdır komutunun son paspasında ve ilk baytındadır.

Bir bölümde 18'den fazla mop varsa, önbelleğe alınmaz. Bu, minimum ortalama (bir yığın içinde) talimat boyutunu 1.8 bayta ayarlar ve çoğu programda ciddi bir sınırlama olmayacaktır. IDQ kısıtlamalarının ikinci noktasını hatırlayabilirsiniz - döngü bir bölüme sığarsa, ancak 19 ila 28 mop alırsa, boyut olarak her yere sığmasına rağmen, ne L0m önbelleği ne de IDQ kuyruğu bunu düzeltemez. Bununla birlikte, bu durumda, komutların ortalama uzunluğu 1,1–1,7 bayt olmalıdır; bu, arka arkaya iki düzine ekip için son derece olası değildir.

Büyük olasılıkla, mop bölümleri aynı anda önbelleğe yazılır ve bir setin 1-3 satırını işgal eder, bu nedenle L0m için set-ilişkisel önbelleğin ana ilkelerinden biri ihlal edilir: genellikle bir set satırı tetiklendiğinde. Tam orada, üç satıra kadar olan etiketler, aynı bölümün adresini alabilir, yalnızca sıra sayıları farklılık gösterir. Öngörülen adres L0m'ye girdiğinde, okuma aynı şekilde ilerler - gerekli setin 1, 2 veya 3 yolu tetiklenir. Doğru, böyle bir şema bir dezavantajla doludur.

Tüm parçalardaki yürütülebilir programın kodu, tüm parçalar için 3 satır L0m alacak olan 13-18 uops'a çözülürse, aşağıdakiler bulunur: mevcut küme zaten iki adet 3 satırlık parça tarafından işgal edilmişse ve üçüncüsü ise ona yazmaya çalışırken (ki bu yeterli bir satır değil), eski olanlardan birini yerinden çıkarmanız ve bağlantısını hesaba katmanız gerekecek - 3 eski olanı da. Bu nedenle, kümedeki "küçük komut" kodunun ikiden fazla kısmı sığmamalıdır. Bu varsayımı pratikte test ederken, aşağıdakiler ortaya çıktı: 7'den az mop gerektiren büyük ekiplerin olduğu kısımlar, L0m sayısı 255'te paketlendi (nedense başka bir tane almak işe yaramadı), neredeyse 8 KB kod sığdırdı. . Orta kısımlar (7-12 paspas) tüm 128 olası konumu (her biri 2 satır) alarak tam olarak 4 KB önbelleğe aldı. Küçük komutlar 66 bölüme sığar, bu beklenen değerden iki fazladır (2112 bayta karşı 2048), bu da görünüşe göre test kodumuzun sınır etkilerinden kaynaklanmaktadır. Eksiklik açıktır - 256 6 megapiksel satır tamamen doldurulabilseydi, toplam kod boyutu 2720 bayt olan 85 tam üçlü için yeterli olurdu.

Belki de Intel, bazı kodların 2/3'ünden fazlasının birbirini L0m'den gerekenden daha erken çıkaracak 3 satırlık parçalara ayrılacağı kadar çok kısa ve basit komut içermesini beklemiyor. Ve böyle bir kod bulunsa bile - kod çözmenin basitliği göz önüne alındığında, ön blokların geri kalanı arka için gerekli 4 mop / döngü sağlama göreviyle kolayca başa çıkacaktır (vaat edilen watt tasarrufu ve ceza döngüleri olmasa da). yanlış tahmin). L0m 6 yollarımız olsaydı, sorunun ortaya çıkmayacağı merak ediliyor. Intel, ilişkilendirilebilirlik nedeniyle tam olarak üçte bir oranında daha büyük önbellek boyutuna sahip olmanın daha önemli olduğuna karar verdi ...

Boyutlar (düzenle)

x86 komutları yerine çok sayıda uops'u önbelleğe alma fikrinin yeni olmadığını hatırlayın. İlk olarak Pentium 4'te paspas izlerinin bir önbelleği olarak ortaya çıktı - döngüleri açtıktan sonra paspas dizileri. Ayrıca, izleme önbelleği eksik L1I'yi tamamlamadı, ancak yerini aldı - kod çözücü için komutlar hemen okundu. NetBurst mimarisinin unutulmuş olmasına rağmen, Intel mühendislerinin, devre dışı bırakma döngüleri ve önbellek için özel bir tahmin edici olmasa da geçmiş deneyimlerini kullandıklarını varsaymak mantıklıdır. Eski ve yeni çözümleri karşılaştıralım (burada yeni CPU'lara Core i 2 deniyor, çünkü SB mimarisine sahip neredeyse tüm modellerin sayıları iki ile başlıyor):

* - muhtemelen

Burada bir açıklamaya ihtiyaç var. İlk olarak, L0m için verim, 4 mopalık toplam konveyör genişliği sınırlamasına dayanmaktadır. Yukarıda, L0m'nin saat başına 18 mop okuyabildiğini ve yazabildiğini varsaydık. Bununla birlikte, okuma sırasında, 18'in tümü (orijinal bölümün kodunu çözerken tam olarak bu kadar çok varsa) döngü başına gönderilemez ve gönderme birkaç döngüde gerçekleşir.

Ayrıca, paspasın bit cinsinden boyutu genellikle üreticilerin ya hiç vermediği ya da yalnızca duvara sabitlendiğinde çok hassas bilgileri ifade eder (derler ki, her şeyi zaten anladınız, öyle olsun - onaylayacağız) . Intel CPU'lar için bilinen son rakam Pentium Pro için 118 bittir. O zamandan beri boyutun arttığı açık, ancak tahminlerin başladığı yer burası. 32 bit x86-CPU için 118 bit, paspasın kendisini oluşturan komutun adresi (32 bit), anlık işlenen (32 bit), adres ofseti (32 bit), kayıt işlenenleri ( indeks kaydı için ölçek başına 3 x 3 bit + 2 bit) ve bir işlem kodu (ön ekleri dikkate alarak x86 komutunun belirli bir sürümünün kodlandığı 11 bit). SSE2'yi ekledikten sonra, işlem kodu alanı muhtemelen 119 sayısının alındığı yerden 1 bit arttı.

(Prescott ve daha fazlası) moduna geçtikten sonra, teorik olarak, tüm 32-bit alanlar 64-bit'e yükselmelidir. Ancak burada incelikler var: x86-64'teki 64 bit sabitlere bir seferde yalnızca bir tane izin verilir (yani komuttaki her iki sabit kesinlikle 8 bayttan fazla sürmez) ve hem o zaman hem de şimdi 48 bit maliyeti. Bu nedenle, uop'un boyutunu artırmak, yalnızca adresin 16 biti ve 3 ek kayıt numarası (16'sı vardır) ile gereklidir - (yaklaşık olarak) 138 bit alırız. Eh, SB'de, son P4'ten bu yana birkaç yüz komut daha eklenmesi nedeniyle mos 1 bit daha ve bir komutta açıkça belirtilen maksimum kayıt sayısının 5'e artması nedeniyle 8 bit daha büyüdü. (AVX kullanırken). Ancak ikincisi şüpheli: günlerden beri, hayal edin, i386 bile x86 mimarisine eklenmedi. yeni en az 4 bayt sabit gerektiren bir komut (AMD'den SSE4.a'da çoğu programcının bile bilmediği son derece incelikli istisna dışında). Intel AVX ve AMD, yalnızca vektör talimatlarının kodlamasını güncellediğinden, ek kayıt numaralarının bitleri, anlık işlenenin kısmen kullanılmayan (bu talimatlar için) 32 bitlik alanının üst yarısına sığacaktır. Ayrıca, x86 komutunun kendisinde, 4. veya 5. kayıt sadece dört sabit bit ile kodlanmıştır.

Açıkçası, bu tür "canavarları" herhangi bir büyük miktarda depolamak ve göndermek çok pahalıdır. Bu nedenle, P4 için bile Intel, her iki sabit için yalnızca bir alanın olduğu paspasın kısaltılmış bir versiyonunu buldu ve eğer oraya sığmıyorlarsa, eksik bitler komşu paspasın aynı alanına yerleştirilir. . Bununla birlikte, sabitlerini zaten orada depoluyorsa, o zaman bir komşu olarak, ek bitlerin verici taşıyıcısı olarak bir np eklemek gerekir. Bu şemanın sürekliliği SB'de de gözlenir: fazladan noplar eklenmez, ancak 8 baytlık sabitlere sahip komutlar (veya bir sabitin boyutlarının toplamı ve 5-8 baytlık bir adres ofseti ile) çift boyuta sahiptir. 0m. Bununla birlikte, bu tür komutların uzunluğu göz önüne alındığında, 4'ten fazlası bir bölüme sığmayacağından, dolu moplar üzerindeki sınır açıkça kritik değildir. Bununla birlikte, şunu belirtiyoruz: SB, önceki CPU'ların aksine, 3 mop formatına sahiptir - kodu çözülmüş (en eksiksiz), paspas önbelleğinde (düşük sabitlerle) ve ana olanı (indeks kayıt alanı olmadan) saklanır. boru hattında daha fazla kullanılır. Yine de çoğu paspas, kod çözmeden emekliliğe kadar el değmeden gider.

Kısıtlamalar

Paspasların özel biçimindeki "Önbelleği kullanma kuralları" burada bitmiyor. Açıkçası, L0m gibi uygun bir blok, promosyon malzemelerinde bize anlatılmayan bir derece veya başka bir kısıtlama olmadan tamamen olamazdı. :) Yayın komutunun tüm paspaslarının bir satıra sığması gerektiği gerçeğiyle başlayalım, aksi takdirde bir sonrakine taşınırlar. Bu, hat moplarının adreslerinin ayrı olarak saklanması (her mopta 48 bit kaydetmek için) ve komut tarafından üretilen tüm mopların, sadece bir tanesinin etiketinde saklanan ilk baytının adresine karşılık gelmesi gerektiği gerçeğiyle açıklanır. hat. Orijinal adresleri geri yüklemek için, paspasları oluşturan komutların uzunlukları etiketlerde saklanır. Paspasların "hoşgörüsüzlüğü", L0m kullanmanın verimliliğini bir şekilde bozar, çünkü birkaç mop oluşturan ara sıra komutların bir sonraki satıra sığmama konusunda önemli bir şansı vardır.

Ayrıca, en karmaşık komutların paspasları hala mikro kodlu ROM'da saklanır ve dizinin yalnızca ilk 4 paspası L0m'ye ve ayrıca devamına bir bağlantı alır, böylece her şey birlikte bir bütün satırı kaplar. Bundan, bir bölümde üçten fazla mikrokod talimatı bulunamayacağı ve ortalama ekip büyüklüğü göz önüne alındığında, iki sınırın daha olası olduğu sonucuna varılır. Ancak gerçekte, çok daha az sıklıkla karşılaşırlar.

Bir diğer önemli nokta ise L0m'nin kendine ait olmamasıdır. Görünüşe göre bu, adreslerin (burada yalnızca sanal olan) doğrulanmasını hızlandırmalı ve güç tüketimini azaltmalıdır. Ancak her şey çok daha ilginç - tüm modern önbelleklerin sahip olduğu hiçbir şey için değil. İşletim sisteminde yürütülen programların sanal adres alanları çakışabilir, bu nedenle görev bağlamı değiştirilirken aynı adreslerdeki eski verileri veya kodu okumamak için sanal adreslenebilir önbelleğin temizlenmesi gerekir (bu tam olarak P4'ün izleme önbelleği). Tabii ki, etkinliği düşük olacaktır. Bazı mimariler sözde kullanır. ASID (adres alanı tanımlayıcısı) - işletim sistemi tarafından her iş parçacığına atanan benzersiz numaralar. Ancak, tüm önbellekler için fiziksel etiketlerin varlığı göz önüne alındığında, x86 ASID'leri gereksiz olarak desteklemez. Ama sonra L0m geldi ve resmi kırdı. Ayrıca, çoğu çekirdek kaynağı gibi paspas önbelleğinin iki iş parçacığı arasında paylaşıldığını, böylece farklı programların paspaslarının olacağını unutmayın. Ve uygun modda sanal işletim sistemleri arasında geçişi eklerseniz, iki programın paspasları adreslerde çakışabilir. Ne yapalım?

Akışlarla ilgili sorunu çözmek kolaydır - L0m kümeler tarafından basitçe yarıya bölünür, bu nedenle akış numarası, küme numarasının en anlamlı bitini verir. Ek olarak, L1I, L0m'ye göre bir saklama ilkesine sahiptir. Bu nedenle, kod L1I'den öncelendiğinde, paspasları L0m'den kaldırılır, bu da iki bitişik bölümün kontrol edilmesini gerektirir (modern CPU'ların tüm önbelleklerinin satır boyutu, L0m'nin kendisi hariç 64 bayttır). Böylece, önbelleğe alınan uop'lardan gelen sanal adres, TLB'sini kullanarak L1I etiketlerinde her zaman kontrol edilebilir. L0m'nin sanal adreslemeye sahip olmasına rağmen, L1I'den kod için fiziksel etiketleri ödünç aldığı ortaya çıktı. Bununla birlikte, L0m'nin tamamen sıfırlandığı bir durum vardır - hem L1I TLB'deki değiştirme hem de tam sıfırlama (CPU çalışma modlarını değiştirirken dahil). Ayrıca, kod seçicinin (CS) temel adresi sıfır olmadığı sürece (modern işletim sistemlerinde pek olası değildir) L0m tamamen devre dışı bırakılır.

Çalışmak

Paspas önbelleğinin ana sırrı, cephenin komutları paspaslara işleme konusundaki çalışması için L0m'den gelen okumaları değiştiren algoritmadır. Bir sonraki atlamada, L0m setini seçmek için atlama hedefinin adresinin 5-9 bitlerini (veya 2 iş parçacığı durumunda 5-8 bitleri artı akış numarasını) kullanması gerçeğiyle başlar. Set etiketleri, mopları etikete karşılık gelen satıra yazılan bölüme giriş noktasını ve bölüm içindeki bu satırın sıra numarasını gösterir. 1-3 satır eşleşebilir ve (büyük olasılıkla) aynı anda 18 megapiksel arabelleğe okunur. Oradan, paspaslar çıkış noktasına ulaşılana kadar dört ayak halinde IDQ'ya gönderilir - ve her şey baştan tekrarlanır. Ayrıca, bir porsiyonda son 1–3 paspas gönderilmediğinde, yeni bir bölümün ilk 3–1 paspasıyla birlikte gönderilirler ve toplamda olağan dörtlü oluştururlar. Yani, paspası alan IDQ kuyruğunun bakış açısından, tüm geçişler, P4'te olduğu gibi, ancak izleme önbelleği olmadan tek tip bir kod akışına düzleştirilir.

Ve şimdi ilginç bir nokta - bir çizgide ikiden fazla geçişe izin verilmez ve bunlardan biri koşulsuz ise, o zaman çizgi için sonuncusu olacaktır. Dikkatli Okuyucumuz, tüm yığının 6'ya kadar koşullu sıçramaya (her biri bir çıkış noktası olmadan tetiklenebilir) veya yığının son komutu olacak 5 koşullu ve 1 koşulsuz atlamaya izin verildiğini anlayacaktır. . Intel CPU'lardaki dal tahmincisi, en az bir kez tetiklenene kadar koşullu bir dallanmayı fark etmeyecek ve ancak bundan sonra davranışı tahmin edilebilecek şekilde tasarlanmıştır. Ancak "sonsuz" geçişler bile sınırlamaya tabidir. Aslında bu, porsiyon paspaslarının yürütülmesinin tamamlanmasına izin verildiği anlamına gelir ve önceçıkış noktasıdır.

Ancak, çoklu girişli benzer bir numara çalışmaz - zaten önbelleğe alınmış bir bölüme geçiş varsa, ancak içinde farklı bir ofset varsa (örneğin, birden fazla koşulsuz geçiş olduğunda), o zaman L0m bir ıska düzeltir, döner ön tarafa ve alınan mopları yeni bir bölüme yazar. Yani, önbellekte, farklı girdilere ve aynı, tam olarak bilinen çıktıya (birkaç olası olana ek olarak) sahip bölümler için kopyalara izin verilir. Ve kod L1I'den L0m'ye kaydırıldığında, giriş noktaları iki parçanın 64 baytından herhangi birine düşen tüm satırlar silinir. Bu arada, P4 izleme önbelleğinde de kopyalar mümkündü ve kodu saklama verimliliğini önemli ölçüde azalttılar ...

Bu tür kısıtlamalar, L0m alanının kullanılabilirliğini azaltır. Gerçek kullanım için ne kadar kaldığını hesaplamaya çalışalım. Bir x86-64 komutunun ortalama boyutu 4 bayttır. Takım başına ortalama paspas sayısı 1.1'dir. Yani porsiyon başına 8-10 mops tüketilmesi muhtemeldir ki bu 2 satırdır. Daha önce hesaplandığı gibi, L0m, 4 KB kod için yeterli olan bu çiftlerden 128'ini depolayabilecektir. Ancak, dizelerin kusurlu kullanımı dikkate alındığında, gerçek sayı muhtemelen 3-3,5 KB olacaktır. Bunun, önbellek alt sistemi birimlerinin genel dengesine nasıl uyduğunu merak ediyorum?

  • 1 (aslında çekirdek başına ortalama olarak L3'ün bir parçası) - 2 MB;
  • L2 - 256 KB, 8 kat daha az;
  • her ikisi de L1 - 32 KB, 8 kat daha az;
  • L0m'deki önbelleğe alınan birim yaklaşık 10 kat daha azdır.

Çekirdekte birçok komut veya paspas depolayan başka bir yapı bulursanız, bunun yaklaşık 650-700 bayt kod tarafından oluşturulan 168 mop'un sığabileceği bir dağıtıcının ROB kuyruğu olacağı ortaya çıkacaktır. Efektif eşdeğer hacim L0m'den (3–3,5 KB) 5 kat daha az ve tam hacimden (6 KB) 9 kat daha az. Böylece, paspas önbelleği, farklı kod depolarının düzenli hiyerarşisini farklı ancak iyi dengelenmiş parametrelerle tamamlar. Intel, isabetlerin ortalama olarak %80'inin L0m'de olduğunu iddia ediyor. Bu, 32 KB L1I önbellek için% 98-99 rakamından önemli ölçüde düşüktür, ancak yine de - beş önbellek paspasından dördünde varlığını haklı çıkarır.

Mobil ve masaüstü işlemcilerle karşılaştırma

Ocak ayının ortalarında, yeni Intel Sandy Bridge platformunda ilk sistem çalışmasını gerçekleştirdik. Bu test, yeni NVIDIA grafik kartı ve NVIDIA Optimus teknolojisine sahip bir prototip Toshiba A665-3D dizüstü bilgisayarı içeriyordu. Ancak, dedikleri gibi, çok zekiydiler: dizüstü bilgisayarda harici grafikler açılmadı. Bu nedenle grafik kullanan uygulamaları (öncelikle oyunlar) test etmenin bir anlamı yoktu. Her neyse, bazı şeyler erken ve kötü çalışan bir örnek üzerinde yeterince test edilemez.

Bu nedenle, başka bir sistemin yeniden test edilmesine karar verildi ve davanın gelmesi uzun sürmedi. Başka bir dizüstü bilgisayarı Hewlett-Packard DV7'yi yeni bir platformda ve AMD'nin yeni nesil grafikleriyle test ettik. Doğru, testler zaten tamamlandığında, satılan cihazların (mobil cihazlar dahil) geri çağrılmasına bağlı olarak güney köprüsündeki kötü şöhretli hata hakkında bilgi ortaya çıktı. Yani burada sonuçlar kelimenin tam anlamıyla resmi değil (en azından Hewlett-Packard dizüstü bilgisayarı iade etmesini istedi), ancak bir hatanın (ve hatta “teorik”) test sonuçlarını etkileyemeyeceğini anlıyoruz.

Yine de, ölçümleri bir kez daha tekrarlamak ve onları nihai olarak adlandırmak için ayrı bir materyal yayınlamaya değmezdi. Bu nedenle, bu derlemede kendimize birkaç görev belirledik:

  • yeni sistemin sonuçlarını "mobil" yöntemle kontrol edin;
  • Intel Turbo Boost hız aşırtma sistemini farklı bir soğutmaya sahip başka bir sistemde test edin;
  • Sandy Bridge işlemcisinin mobil ve masaüstü sürümlerini bir masaüstü bilgisayar sistemi test metodolojisinde karşılaştırın.

Neyse teste geçelim.

Mobil sistemler için metodolojiye göre test katılımcılarının yapılandırılması

Daha önce belirtildiği gibi, mobil bilgisayar alt sistemlerinin performansını karşılaştırmak çok daha zordur, çünkü bunlar bitmiş ürünler şeklinde test edilmek üzere sağlanır. Birden fazla bileşen performans farklılıklarını etkileyebileceğinden sonuç çıkarmak zordur.

Rakiplere veya daha doğrusu önceki testlere kıyasla kompozisyonlarındaki değişime bakalım. Öncelikle Core i5-540M'yi karşılaştırmadan çıkarmaya karar verdik. Daha zayıf çift çekirdekli seriye ait ve Sandy Bridge serisindeki diğer modeller buna karşılık gelecek. Bu işlemcinin sonuçları bu kadar önemliyse bir önceki yazıdan alınabilir. Bunun yerine karşılaştırma, yine Core i7-720QM işlemciye dayanan Hewlett-Packard Elitebook 8740w'yi ve günümüzün ana test sistemi olan Sandy Bridge 2630QM işlemci üzerindeki Hewlett-Packard Pavillon DV7'yi içeriyor.

Bu nedenle test, Core i7-720QM işlemci üzerinde iki model ve Core i7 2630QM işlemci üzerinde iki model içermektedir. Bu, yalnızca daha eski ve daha yeni bir işlemcideki sistemlerin performansını karşılaştırmanıza değil, aynı zamanda aynı işlemcideki iki sistem için performans seviyesinin aynı olmasını sağlamanıza olanak tanır.

Teste katılan dizüstü bilgisayarların konfigürasyonlarının analizine dönüyoruz.

Defter adıHP 8740wASUS N53JqToshiba A665-3DHP DV7
İşlemciÇekirdek i7-720QMÇekirdek i7-720QMÇekirdek i7-2630QMÇekirdek i7-2630QM
Çekirdek sayısı4 (8 iş parçacığı)4 (8 iş parçacığı)4 (8 iş parçacığı)4 (8 iş parçacığı)
Orantılı frekans1,6 GHz1,6 GHz2 GHz2 GHz
Maks. Turbo Boost frekansı2.6 * GHz2.6 * GHz2.9 * GHz2.9 * GHz
LLC önbellek boyutu6 MB6 MB6 MB6 MB
Veri deposu10 GB10 GB4 CİGABAYT4 CİGABAYT
Video alt sistemiNVIDIA QUADRO FX 2800MNVIDIA GT425MIntel integ.ATI 6570

* Otomatik hız aşırtma frekansı, işlemcinin dört çekirdeği de yük altındaysa gösterilir. Yük altında iki çekirdek varsa, frekans daha da büyüyebilir (2,6 GHz'den 2,8 GHz'e) ve eğer varsa - maksimum işarete (2,6 GHz'den 2,9 GHz'e) yükselebilir.

Karşılaştırma için gerekli işlemciler hakkındaki verileri analiz ediyoruz. İlk olarak, üretici, işlemcinin iç mimarisinin Sandy Bridge hattında optimize edildiğini iddia ediyor, bunun genel performansta bir tür artış getirmesi gerekiyor.

Hiper ticaretin çekirdek ve iş parçacığı sayısı tüm katılımcılar için aynıdır. Ancak saat hızı farklıdır: 720QM yalnızca 1,6 GHz hızına sahipken, yeni işlemciler 2 GHz hızında çalışmaktadır. Bununla birlikte, sınırlayıcı saat hızı o kadar farklı değil. Gerçek şu ki, 720QM için frekans, dört çekirdek söz konusu olduğunda ve 2630QM için - bir çekirdek söz konusu olduğunda belirtilir. Dört çekirdeğe sahipse, maksimum frekans aynı 2,6 GHz'dir. Başka bir deyişle, "overclock" durumunda, işlemciler aynı frekansta (sıcaklık kontrolü tetiklenene kadar) çalışmalıdır. Sadece Sandy Bridge, artırılmış frekansı daha uzun süre tutabilen daha gelişmiş bir Intel Turbo Boost hız aşırtma teknolojisine sahiptir, bu nedenle bir avantajı olabilir. Ancak, dış etkenlere çok fazla bağımlılık olduğundan, hız aşırtmanın tam olarak nasıl davranacağını tahmin etmek imkansızdır.

Direkt testlere geçelim.

Mobil performans araştırma araç setinde Sandy Bridge işlemci serisinin performansını önceki nesil ile karşılaştırma. Sonuçların tekrarlanabilirliğinin belirlenmesi

Testler için, 2010 örneğinden gerçek uygulamalarda dizüstü bilgisayarları test etme metodolojisini kullandık. Masaüstü ile karşılaştırıldığında, içinde bir dizi uygulama kesilir, ancak geri kalanı aynı ayarlarla başlatılır (oyunlar hariç, bu gruptaki ayarlar ciddi şekilde değiştirildi ve Photoshop için test probleminin parametreleri). Bu nedenle, bireysel testlerin sonuçları, masaüstü işlemcilerin sonuçlarıyla karşılaştırılabilir.

Bu makaledeki bireysel uygulama gruplarının sıralamaları, doğrudan masaüstü sistemleri sıralamalarıyla karşılaştırılamaz. Dizüstü bilgisayarların performansını test ederken, yöntemin tüm uygulamaları başlatılmaz, bu nedenle derecelendirme farklı şekilde hesaplanır. Kıyaslamalar için kıyaslama puanları yeniden hesaplandı.

Testlerin her sistem için iki kez yapıldığını ve çalıştırmalar arasında sistemin yeniden kurulduğunu ve ayarlandığını hemen ayırtacağım. Başka bir deyişle, test sonuçları garip görünüyorsa, en azından tekrarlanabilirler: güncel sürücü setine sahip yeni kurulmuş iki farklı sistemde.

Profesyonel uygulamalarla başlayalım.

3D görselleştirme

Bu grup, hem işlemci performansı hem de grafik talep eden uygulamaları içerir.

HP 8740w
Çekirdek i7-720QM
ASUS N53Jq
Çekirdek i7-720QM
Toshiba A665-3D
Çekirdek i7-2630QM
HP DV7
Çekirdek i7-2630QM
Lightwave - iş20,53 22,97 24,87 16,17
Solidworks - çalışma52,5 58,83 133,12 60,45
Lightwave - derecelendirme122 109 101 155
Solidworks - derecelendirme129 115 51 112
Grup - derecelendirme126 112 76 134

İlginç bir şekilde, "ikinci dalganın" her iki sistemi de performans açısından bir buçuk ay önce test edilen sistemlerden önemli ölçüde daha iyi performans gösteriyor. Bunun ne olduğunu merak ediyorum - sürücülerin etkisi mi? Her iki durumda da çok daha güçlü başka bir grafik mi? Sandy Bridge işlemcinin eski sonuçlarını göz ardı etsek bile iki Core i7 arasındaki karşılaştırma aynı ilişkiyi gösteriyor.

Artık yeni neslin daha hızlı olduğunu söylemek güvenli. SolidWorks'ün garip sonuçları dışında, ancak bunlara tezgah üstü tekniğin sonuçlarını tartışırken döneceğiz.

3D oluşturma

Bakalım son sahnenin sunumunda işler nasıl duracak. Bu işleme CPU tarafından yapılır.

HP 8740w
Çekirdek i7-720QM
ASUS N53Jq
Çekirdek i7-720QM
Toshiba A665-3D
Çekirdek i7-2630QM
HP DV7
Çekirdek i7-2630QM
Işık dalgası138,58 131,56 269,89 90,22
3ds Max0:10:04 0:10:06 00:21:56 0:07:45
Lightwave - derecelendirme95 101 49 146
3Ds MAX - derecelendirme113 112 52 147
Grup - derecelendirme104 107 51 147

Toshiba örneğinin bu testte çok zayıf sonuçlar verdiğini hatırlatmama izin verin. Ancak tamamen işlevsel bir sistemde Sandy Bridge işlemci, her iki grafik paketinde de önemli bir üstünlük elde etmenize olanak tanır. Lightwave'de gördüğünüz gibi iki Core i7-720QM arasında fark varken, 3Ds MAX'de neredeyse hiç fark yok.

Ancak her iki testte de Core i7-2630QM işlemcinin önemli ölçüde daha hızlı olduğu ve önceki neslin temsilcilerinden önemli ölçüde daha iyi performans gösterdiği açıktır.

hesaplamalar

Matematiksel hesaplama uygulamalarında işlemcilerin performansına bakalım.

HP 8740w
Çekirdek i7-720QM
ASUS N53Jq
Çekirdek i7-720QM
Toshiba A665-3D
Çekirdek i7-2630QM
HP DV7
Çekirdek i7-2630QM
Solidworks46,36 45,88 44,02 38,42
MATLAB0,0494 0,0494 0,0352 0,0365
Solidworks - derecelendirme111 112 117 134
MATLAB - sıralama113 113 159 153
Grup - derecelendirme112 113 138 144

Ama matematik testleri iki Core i7-720QM arasındaki farkı hissetmiyor. Bundan, bu uygulamaların diğer sistem bileşenlerine ve yazılımlara minimum düzeyde yanıt verdiğine dair bir ön sonuç çıkarabiliriz.

Yeni neslin işlemcisi daha hızlı, ancak burada boşluk o kadar büyük değil, bu özellikle derecelendirme sayılarından belirgindir. Bazı nedenlerden dolayı, DV7'nin MATLAB karşılaştırmasındaki performansı A660'tan biraz daha düşüktür.

Bakalım diğer testlerde yeni nesil ile eskisi arasındaki fark yaklaşık olarak aynı olacak mı?

Derleme

Microsoft Visual Studio 2008 derleyicisini kullanarak programın derleme hızını test edin.Bu test, işlemci ve önbellek hızına iyi yanıt verir ve ayrıca çok çekirdekli kullanmayı da bilir.

HP 8740w
Çekirdek i7-720QM
ASUS N53Jq
Çekirdek i7-720QM
Toshiba A665-3D
Çekirdek i7-2630QM
HP DV7
Çekirdek i7-2630QM
derlemek0:06:29 0:06:24 0:04:56 0:04:54
Derleme - derecelendirme123 125 162 163

Sonuçlardaki fark küçük, bence bir hataya atfedilebilir. İki nesil arasındaki performans farkı önemlidir.

Java Uygulama Performansı

Bu kıyaslama, bir dizi Java uygulamasının yürütme hızını temsil eder. Test, işlemcinin hızı için kritik öneme sahiptir ve ek çekirdeklere çok olumlu tepki verir.

HP 8740w
Çekirdek i7-720QM
ASUS N53Jq
Çekirdek i7-720QM
Toshiba A665-3D
Çekirdek i7-2630QM
HP DV7
Çekirdek i7-2630QM
Java79,32 83,64 111,8 105,45
Java - sıralama90 94 126 119

Burada, daha yeni test edilen dizüstü bilgisayarlar için sonuçlar biraz ama belirgin şekilde daha düşüktür. Bunun neden olduğunu tahmin etmeyeceğiz ama sonuçların iki kez tekrarlandığını vurguluyorum. Farklı nesillerdeki işlemciler arasındaki fark, önceki testtekiyle hemen hemen aynıdır.

Şimdi üretken ev görevlerine geçelim: video, ses ve fotoğraflarla çalışma.

2D grafikler

Bu grupta oldukça çeşitli olan sadece iki test kaldığını hatırlatmama izin verin. ACDSee, bir dizi fotoğrafı RAW formatından JPEG'e dönüştürür ve Photoshop bir dizi görüntü işleme işlemi gerçekleştirir - filtre uygulama vb. Uygulamalar işlemcinin hızına bağlıdır, ancak çok çekirdekli olduğu sürece kullanılır.

HP 8740w
Çekirdek i7-720QM
ASUS N53Jq
Çekirdek i7-720QM
Toshiba A665-3D
Çekirdek i7-2630QM
HP DV7
Çekirdek i7-2630QM
ACDSee0:07:01 0:06:55 0:05:11 0:04:52
Photoshop0:01:17 0:01:17 0:00:49 0:00:51
ACDSee - derecelendirme108 110 146 156
Photoshop - derecelendirme426 426 669 643
Grup - derecelendirme267 268 408 400

ACDSee sonuçların bazı kararsızlıklarını gösterir, ancak genel olarak nesiller arasındaki fark eğilime karşılık gelir, hatta biraz daha büyüktür.

Photoshop derecelendirmeleri, değişen test öğesi nedeniyle dikkate alınmaya değmez. Bu puanlar aynı zamanda grubun genel puanını da bozar. Ancak yürütme süresine bakarsanız, avantajın hemen hemen aynı olduğunu görebilirsiniz.

Çeşitli formatlarda ses kodlaması

Sesi çeşitli ses formatlarına kodlamak, modern işlemciler için oldukça basit bir iştir. dBPowerAmp sarmalayıcı, kodlama için kullanılır. Çok çekirdekli kullanmayı bilir (ek kodlama akışları başlatılır). Test sonucu kendi puanlarıdır, kodlama için harcanan zamanın tersidir, yani ne kadar çok olursa sonuç o kadar iyi olur.

HP 8740w
Çekirdek i7-720QM
ASUS N53Jq
Çekirdek i7-720QM
Toshiba A665-3D
Çekirdek i7-2630QM
HP DV7
Çekirdek i7-2630QM
elma148 159 241 238
flac199 214 340 343
maymun143 155 239 235
mp389 96 150 152
siyah85 91 135 142
ogg60 65 92 90
elma - derecelendirme90 97 147 145
flac - derecelendirme99 106 169 171
maymun - derecelendirme97 105 163 160
mp3 - derecelendirme103 112 174 177
nero - derecelendirme104 111 165 173
ogg - derecelendirme103 112 159 155
Grup - derecelendirme99 107 163 164

Test oldukça basittir, ancak aynı zamanda göstericidir. Beklenmedik bir şekilde, iki Core i7-720QM işlemci arasında, yakın zamanda test edilen sistem lehine olmayan bir fark vardı. Sandy Bridge işlemciler hemen hemen aynı performansı gösterdi. Gördüğünüz gibi, yeni işlemcilerin avantajı, önceki test gruplarına göre çok daha önemli.

video kodlama

Dört testten üçü bir videoyu belirli bir video formatına kodluyor. Premiere testi diğerlerinden farklıdır, bu uygulamada senaryo, yalnızca kodlama değil, efektlerin yerleştirilmesi de dahil olmak üzere bir film oluşturulmasını sağlar. Ne yazık ki, Sony Vegas bazı sistemlerde çalışmadı, bu nedenle bu makale için sonuçlarını kaldırdık.

HP 8740w
Çekirdek i7-720QM
ASUS N53Jq
Çekirdek i7-720QM
Toshiba A665-3D
Çekirdek i7-2630QM
HP DV7
Çekirdek i7-2630QM
DivX0:05:02 0:05:23 0:04:26 0:04:18
prömiyer0:05:04 0:04:47 0:03:38 0:03:35
x2640:10:29 0:10:01 0:07:45 0:07:35
XviD0:03:31 0:03:34 0:02:34 0:02:30
DivX - derecelendirme86 80 98 101
Premier - derecelendirme101 107 140 142
x264 - derecelendirme100 105 135 138
XviD - derecelendirme87 86 119 123
Grup - derecelendirme94 95 123 126

DivX'te kodlamanın sonuçları birbirinden farklıdır. Nedense bu testte 720QM'li sistemler için çok büyük, eski ve yeni nesiller arasında ise çok küçük bir fark var.

Diğer testlerde, fark önemlidir ve nesiller arasındaki fark kabaca genel eğilime karşılık gelir. İlginç bir şekilde, Premiere'de fark, basit kodlamadakiyle hemen hemen aynıdır. Bu arada bu testte iki 720QM sistemi arasındaki büyük fark da dikkat çekiyor.

Son olarak, birkaç tür ev işi vardır.

Arşivleme

Arşivleme, tüm işlemci bileşenlerinin aktif olarak çalıştığı oldukça basit bir matematik problemidir. 7z, herhangi bir sayıda çekirdeği kullanabildiğinden ve genellikle işlemciyle daha verimli çalıştığından daha gelişmiştir. Winrar en fazla iki çekirdek kullanır.

HP 8740w
Çekirdek i7-720QM
ASUS N53Jq
Çekirdek i7-720QM
Toshiba A665-3D
Çekirdek i7-2630QM
HP DV7
Çekirdek i7-2630QM
7-zip0:01:57 0:01:55 0:01:30 0:01:27
WinRAR0:01:50 0:01:48 0:01:25 0:01:25
Paketi aç (RAR)0:00:50 0:00:49 0:00:42 0:00:41
7-zip derecelendirmesi115 117 149 154
WinRAR - derecelendirme135 138 175 175
Paketi açma (RAR) - derecelendirme140 143 167 171
Grup - derecelendirme130 133 164 167

Aynı işlemciler arasındaki fark çok küçük. Yine, 8740, iki 720QM sisteminden çok daha hızlı değildir, ancak sürekli olarak daha hızlıdır. Yeni nesil işlemciler önemli ölçüde daha hızlıdır, iki nesil arasındaki fark genellikle diğer birçok grupla aynıdır.

Tarayıcı testlerinde performans

Oldukça basit testler de. Her ikisi de, tarayıcı motorunun belki de en yoğun performans gerektiren kısmı olan Javascript'teki performansı ölçer. İşin püf noktası, V8 benchmarkının puan olarak puan alması, Sunspider'ın ise milisaniye olarak puan vermesidir. Buna göre, ilk durumda, sayı ne kadar yüksekse, ikincisinde o kadar iyidir - bunun tersi de geçerlidir.

HP 8740w
Çekirdek i7-720QM
ASUS N53Jq
Çekirdek i7-720QM
Toshiba A665-3D
Çekirdek i7-2630QM
HP DV7
Çekirdek i7-2630QM
Googlev8-krom6216 6262 7414 7366
Googlev8-firefox556 555 662 654
Googlev8-ie122 123 152 147
Googlev8-opera3753 3729 4680 4552
Googlev8-safari2608 2580 3129 3103
Sunspider-firefox760 747 627 646
güneş örümceği4989 5237 4167 4087
Sunspider-opera321 322 275 275
Sunspider-safari422 421 353 354
Googlev8 - sıralama134 134 162 160
Sunspider - derecelendirme144 143 172 172
Grup - derecelendirme139 139 167 166

HD Play'de Karşılaştırma

Bu test, masaüstü sistemler için karşılaştırmalı değerlendirmeden kaldırılmıştır, ancak yine de mobil cihazlar için geçerlidir. Sistem karmaşık bir videonun kodunu çözmekle başa çıksa bile, bir dizüstü bilgisayarda bu görevi tamamlamak için kaç kaynağın gerekli olduğu hala çok önemlidir, çünkü sistemin ısınması ve pil ömrü buna bağlıdır ...

HP 8740w
Çekirdek i7-720QM
ASUS N53Jq
Çekirdek i7-720QM
Toshiba A665-3D
Çekirdek i7-2630QM
HP DV7
Çekirdek i7-2630QM
H.264 donanımı2,6 2,5 2,3 1,2
H.264 yazılımı19,7 18,9 13,4 14
H.264 donanımı - derecelendirme631 656 713 1367
H.264 yazılımı - derecelendirme173 180 254 243

Mutlak anlamda, iki 720QM arasındaki fark, derecelendirmelerde önemli görünse de çok büyük değildir. Donanım hızlandırmalı modda iki Core i7-2630QM işlemci arasındaki farkı görmek ilginç. AMD grafikli bir sistem daha düşük bir yük gösterir, ancak bir Intel adaptörüyle sonuçlar çok iyiydi. Yazılım modunda, her iki sistem de kod çözme işini iyi yapıyor, işlemci yükü düşük. Sandy Bridge işlemciler için sistem yükü tahmin edilebileceği gibi daha düşüktür.

Testlere katılan sistemlerin ortalama puanına bakalım.

HP 8740w
Çekirdek i7-720QM
ASUS N53Jq
Çekirdek i7-720QM
Toshiba A665-3D
Çekirdek i7-2630QM
HP DV7
Çekirdek i7-2630QM
Genel sistem değerlendirmesi128 129 158 173

Intel Core i7-720QM işlemcili iki sistem arasındaki fark bazı testlerde fark edilse de genel sonuçlar hemen hemen aynıydı.

Core i7-2630QM işlemcili tamamen işlevsel ve işlevsel bir sistemin performansı, daha önce test ettiğimiz örnekten çok daha yüksektir. Bu sonuçlara dayanarak, platformun performansı hakkında sonuçlar çıkarmak zaten mümkün.

Ve bu sonuçlar, yeni Sandy Bridge platformunun performansının (kullanılan uygulamalara bağlı olarak) önceki neslin kullanılan platformundan yaklaşık %35 daha yüksek olduğudur. Tabii ki, sonuçlar hala nihai değil. En azından çiplerin farklı frekansları var. Ve genel olarak, yeni Intel işlemcilerle ilgili olarak, "saat frekansı" gibi bir kavram, Intel Turbo Boost teknolojisine sahip olduğumuz için oldukça yanıltıcı hale geldi.

Intel Turbo Boost Sisteminin Çalışmasını Doğrulama

Sandy Bridge serisi işlemciler, işlemcinin saat hızı üzerinde çok daha fazla kontrol sağlayan yeni bir Intel Turbo Boost Teknolojisi sürümüne sahiptir. İzleme ve kontrol sistemi çok daha sofistike ve akıllı hale geldi. Artık birçok parametreyi hesaba katabilir: hangi çekirdekler ve ne kadar yüklü, işlemcinin ve ayrı bileşenlerin sıcaklığı (yani, sistem yerel aşırı ısınmayı izleyebilir ve önleyebilir).

Sıcaklık ve yük üzerindeki kontrol daha verimli hale geldiğinden, işlemcinin herhangi bir dış koşulda (öncelikle sıcaklık) kararlı ve verimli çalışabilmesi için daha küçük bir güvenlik payına ihtiyacı vardır. Bu, yeteneklerini daha etkin bir şekilde kullanmanızı sağlar. Aslında, bu sistem kontrollü bir hız aşırtmadır: çalışma frekansı artırılır ve kontrol, işlemcinin güvenli çalışma koşullarının ötesine geçmesine ve kararlılığını kaybetmesine veya bozulmasına izin vermez. Artan bir frekansta çalışan işlemci çok ısınırsa, izleme sisteminin kendisi frekansı düşürür ve voltajı güvenli sınırlara getirir.

Ayrıca, yeni hızlanma kontrol sistemi "atalet etkisini" hesaba katabilir. İşlemci soğukken frekans kısa süreliğine çok yükselebilir, hatta işlemci üreticinin belirttiği ısı yayma sınırını bile aşabilir. Yük kısa süreliyse işlemcinin aşırı sıcaklıklara ısınması için zamanı olmayacak ve yük daha uzun sürerse işlemci ısınacak ve sistem sıcaklığı güvenli sınırlara indirecektir.

Böylece, Sandy Bridge işlemcisinin üç çalışma konumu vardır:

Enerji tasarrufu mekanizmaları devreye girer, işlemci düşük frekansta ve düşük voltajda çalışır. Intel Turbo Boost sistemi etkinleştirilir, işlemci izin verilen maksimum hız aşırtma frekansına hız aşırtılır (kaç çekirdek ve nasıl yüklendiğine bağlıdır), besleme voltajı yükselir. İşlemci, çekirdek sıcaklığı izin verdiği sürece bu saat hızında çalışır.İşlemci, yük veya ısıtma eşikleri aşıldığında, kararlı bir şekilde çalışmasının garanti edildiği saat frekansına geri döner. Örneğin, 2630QM için bu frekans 2 GHz olarak belirtilir, bu frekans özelliklerde belirtilir ve üretici, işlemcinin belirtilen dış koşullara tabi olarak bu frekansı gerektiği kadar sürdürebileceğini garanti eder. Intel Turbo Boost, çalışma frekansını artırmanıza izin verir, ancak çalışma parametreleri ve çalışma frekansı dış koşullara bağlıdır, bu nedenle üretici, bu sistemin her zaman aynı şekilde çalışacağını garanti edemez.

Ancak, bu bilgi ilk incelemeden toplanabilir. Bir hatırlatma olarak, ilk testte işlemci boşta kalma süresinde aşağıdaki parametrelerle çalıştı:

  • Basit: 800 MHz, besleme gerilimi 0.771 V.
  • Yük (tüm çekirdekler, maksimum): frekans 2594 MHz (çarpan 26), besleme gerilimi 1.231 V.
  • Yük (yaklaşık 5 dakikalık çalışmadan sonra) ya 2594 MHz (çarpan 26) ya da 2494 MHz'dir (çarpan 25).
  • Yük (yaklaşık 7-8 dakikalık çalışmadan sonra) - 1995 MHz (çarpan 20). Voltaj 1.071 V. Sistem, üretici tarafından ayarlanan kararlı çalışma parametrelerine geri döndü.

Bakalım Hewlett-Packard DV7 hız aşırtma konumunda ne kadar dayanacak.

İşlemcinin durumunu izlemek için programlar başlatıyoruz.

Çalışma frekansı ve voltajı önceki testtekiyle aynıdır. Sıcaklık okumalarına bakalım.

Her şey sessiz, sıcaklıklar nispeten düşük - 49 derece. Yüksek performanslı bir işlemci için bu çok fazla değil. Birinci ve dördüncü çekirdek arasındaki sıcaklık farkına dikkat edin.

Bir yük testi yapıyoruz. Tüm çekirdekleri aynı anda yüklediğini hatırlatmama izin verin, bu nedenle Intel Turbo Boost'ta maksimum sayıları (2,9 GHz) görmeyeceğiz.

Gördüğünüz gibi voltaj 1.211 Volt'a yükseldi, değişen çarpan nedeniyle frekans 2594 MHz oldu, şimdi 26 oldu. İşlemci hızla sıcaklık kazanmaya başlıyor, soğutma fanı daha yüksek ses çıkarmaya başlıyor.

Bakalım işlemci nominal frekansa geçtiğinde ne kadar dayanacak.

Bir dakika geçti, sıcaklıkların dengelenmeye başladığı açık.

Beş dakika geçti ve sıcaklıklar stabilize oldu. Bazı nedenlerden dolayı, birinci ve dördüncü çekirdeklerin sıcaklıkları 10 derece farklılık gösteriyor. Sıcaklıklardaki fark tüm testlerde mevcuttur, boşta kalma süresinde bile fark edilir. Bunun neden olduğunu söylemeye cüret etmeyeceğim.

Testin başlamasından bu yana 15 dakika geçti. Sıcaklıklar sabit, soğutma sistemi başa çıkıyor. Saat hızı 2,6 GHz'de kalır.

48 dakika geçti. Dizüstü bilgisayar yük altında çalışmaya devam ediyor, sıcaklıklar sabit (bir derece arttı). Saat frekansı aynı:

En azından kışın ve çok sıcak olmayan bir odada, DV7 sınırsız bir süre için maksimum kullanılabilir frekansla çalışabilir. Soğutma sistemi, Intel Turbo Boost'un mevcut maksimum hız aşırtma frekansını sorunsuz bir şekilde tutması için yeterli güce sahiptir. Teorik olarak işlemciyi biraz daha fazla overclock etmek mümkün olabilir.

Bu bulgu önceki sonuçlardan farklıdır. Artık yüksek kaliteli bir dizüstü bilgisayar satın almaya değer olduğu açıktır: tasarımcılar bir soğutma sistemi oluşturmak için iyi bir iş çıkardıysa, yalnızca yüksek kaliteli ve sağlam bir kasa şeklinde değil, aynı zamanda performansta da temettü alacaksınız. !

Makalenin ikinci çok ilginç kısmına geçiyoruz: Mobil işlemci Core i7-2630QM ile Sandy Bridge serisinin masaüstü işlemcilerini bir masaüstü test metodolojisinde karşılaştırmak.

Core i7-2630QM Mobil İşlemci ile Sandy Bridge Masaüstü İşlemcilerin Karşılaştırması

Karşılaştırma için, Sandy Bridge çekirdeğindeki masaüstü Core i7 ve Core i5 işlemciler çalışmamızın sonuçlarını kullanıyoruz.

Core i7-2630QM ile ilgili tablo bilgileri de dahil olmak üzere katılımcıların konfigürasyonlarını karşılaştıralım.

İşlemciçekirdek i5-2300çekirdek i5-2400Çekirdek i5-2500 / 2500KÇekirdek i7-2600 / 2600KÇekirdek i7-2630QM
çekirdek adıkumlu köprükumlu köprükumlu köprükumlu köprükumlu köprü
Beklenti teknolojisi32 nm32 nm32 nm32 nm32 nm
Çekirdek frekansı (std / max), GHz2,8/3,1 3,1/3,4 3,3/3,7 3,4/3,8 2,0/2,9
Çarpma faktörünü başlat28 31 33 34 20
Turbo Boost iş akışı3-2-2-1 3-2-2-1 4-3-2-1 4-3-2-1 yok
Hesaplamanın çekirdek / iş parçacığı sayısı4/4 4/4 4/4 4/8 4/8
L1 önbellek, I / D, KB32/32 32/32 32/32 32/32 yok
L2 önbellek, KB4 × 2564 × 2564 × 2564 × 256yok
L3 önbellek, MiB6 6 6 8 6
Veri deposu2 × DDR3-1333
Grafik çekirdeği GMA HD2000 2000 2000/3000 2000/3000 3000
Grafik çekirdek frekansı (maks), MHz1100 1100 1100 1350 1100
PrizLGA1155LGA1155LGA1155LGA1155yok
TDP95 watt95 watt95 watt95 watt45 watt

Mobil işlemcinin saat hızı daha düşük, bu çok açık. Maksimum Turbo Boost modunda, Turbo Boost olmadan çalışan düşük kaliteli masaüstü Core i5'ten biraz daha iyi performans gösterir, ancak daha fazlası değil. Ancak termal paket çok daha düşük - yarısından fazlası. Ayrıca, yalnızca 6 MB'de daha az son düzey önbelleğe sahiptir. Avantajlardan, mobil işlemcinin bir Core i7 olduğu için dört çekirdeğe ve sekiz bilgisayar iş parçacığına sahip olduğunu belirtmekte fayda var. Alt masaüstü Core i5'e göre en azından bir miktar avantaj. Bakalım pratikte ne sonuç verecek.

Ne yazık ki, tam teşekküllü bir karşılaştırma yine de işe yaramadı. Masaüstü yönteminden bazı paketler başlamadı (örneğin, Pro / Engineer test sistemimizde kararlı bir şekilde asılı kaldı), sonuç olarak, sonuçlarını derecelendirmeden çıkarmak zorunda kaldık, bu, derecelendirmenin kendisinin derecelendirmelere kıyasla değiştiği anlamına gelir. ana malzemeden.

Testlere geçelim. "Test başlamadı" ifadesi, testin dizüstü bilgisayarımızda başlamadığı anlamına gelir, bu nedenle tüm test katılımcılarının sonuçları kaldırılmıştır. Bu durumda, derecelendirmeler yeniden hesaplanır.

Sonuçlar, mobil işlemcinin masaüstü işlemciye karşı oldukça ciddi bir şekilde kaybettiğini hemen gösteriyor - yeni masaüstü serisinin küçük işlemcisinin bile performans seviyesine ulaşamıyor. Masaüstü işlemci Core i7'nin sonuçları bence oldukça zayıf, yine de Core i5 hattından çok daha güçlü olmalı, sonuçlara göre bağımlılık doğrusal görünüyor. Solidworks sonuçları genellikle tüm masaüstü sistemleri için hemen hemen aynıdır. Bu kıyaslama, CPU saat hızının ne olduğunu umursamıyor mu?

3D sahnelerin render hızına bir göz atalım.

çekirdek i5-2300çekirdek i5-2400Çekirdek i5-2500 / 2500KÇekirdek i7-2600 / 2600KÇekirdek i7-2630QM
3ds Max181 195 207 233 157
Işık dalgası153 168 180 234 161
Maya142 170 181 240 165
işleme159 178 189 236 161

Burada durum biraz daha eğlenceli - mobil sistem yine de küçük masaüstü sistemi seviyesine ulaştı. Ancak masaüstü Core i7 tüm kriterlerde çok ileride. Karşılaştırma için, testlerden biri olan Maya'nın mutlak sonuçları burada. Bu testin sonucu, diğer testlerdeki puanlardan daha açıklayıcı olan projeye harcanan zamandır.

çekirdek i5-2300çekirdek i5-2400Çekirdek i5-2500 / 2500KÇekirdek i7-2600 / 2600KÇekirdek i7-2630QM
Maya00:08:47 00:07:20 00:06:52 00:05:11 00:07:34

Gördüğünüz gibi, proje oluşturma için çok uzun olmayan bir süre olsa bile, fark önemlidir. Daha karmaşık projeler söz konusu olduğunda, daha da büyük olmalıdır.

Bir sonraki teste geçelim.

Hemen hemen tüm uygulamalar karmaşık matematik kullanır, bu nedenle daha yüksek frekanslı bir masaüstü cetveli açıkça önde olacaktır. Aynı zamanda, masaüstü Core i5-2500 ve Core i7-2600 arasındaki çok küçük farkla kafam çok karıştı, bazı uygulamalarda daha güçlü bir işlemci bile kaybediyor. Hyperdreading, bu uygulamalarda saat hızlarındaki farkın bile neden olduğu yavaşlamayı telafi edemeyecek kadar etkisiz mi? Bu daha da ilginç, çünkü bir mobil işlemcide çekirdek yapılandırma 2600 serisindekiyle aynıdır, ancak genel olarak, aralarındaki çalışma frekanslarındaki fark göz önüne alındığında, küçük masaüstü işlemcisinin o kadar gerisinde değildir.

Ve daha az profesyonel ve daha yaygın testlere geçiyoruz. Ve bitmap grafiklerle başlayalım. Ne yazık ki, testlerden biri başlamadı, bu da testlerin resmini yine etkiledi.

Ve yine, mobil sistem sürekli olarak en genç masaüstü çözümünün hemen altında bir seviyede. Ve bunun nedeni Photoimpact'teki beklenmedik şekilde yüksek sonuç, aksi takdirde resim daha da üzücü olurdu. Netlik için, iki paketin sonuçlarını mutlak sayılarla vereceğim.

çekirdek i5-2300çekirdek i5-2400Çekirdek i5-2500 / 2500KÇekirdek i7-2600 / 2600KÇekirdek i7-2630QM
ACDSee00:04:20 00:03:59 00:03:46 00:03:34 00:04:57
Photoshop00:03:36 00:03:15 00:03:07 00:02:58 00:04:00

Bu şekilde, görevi tamamlamak için geçen süredeki belirli farkı tahmin edebilirsiniz.

Arşivleme testlerine geçelim. Bunlar, hem hızda hem de ek işlemci çekirdeklerinin varlığında iyi olan basit hesaplamalardır (bununla ilgili sorular olmasına rağmen).

çekirdek i5-2300çekirdek i5-2400Çekirdek i5-2500 / 2500KÇekirdek i7-2600 / 2600KÇekirdek i7-2630QM
7-zip140 151 156 213 137
RAR191 207 216 229 173
Paketi aç (RAR)179 194 206 219 167
arşivciler170 184 193 220 159

Ve tekrar tekrar ... 7-zip'in sonuçlarına bakarsanız, çok çekirdekli (hiper iş parçacığı biçiminde bile) önemli temettüler ödediğini görebilirsiniz. Ancak, görünüşe göre, saat frekansı da önemli temettüler ödüyor, çünkü sekiz çekirdekli mobil Core i7, küçük masaüstü işlemcisinin bile gerisinde kaldı. Winrar testlerinde de aynı durum devam etti. Ancak 7-zip testindeki masaüstü Core i7-2600 çok ileri gidiyor.

Derleme testi, yine işlemcinin matematiksel yeteneklerini kullanarak...

Java uygulama performans testinde, eğilim prensipte onaylanmıştır. Ancak mobil işlemcinin gecikmesi daha da büyük.

Modern tarayıcılardaki Javascript performansına bir göz atalım.

çekirdek i5-2300çekirdek i5-2400Çekirdek i5-2500 / 2500KÇekirdek i7-2600 / 2600KÇekirdek i7-2630QM
Google v8161 176 190 191 148
Güneş örümceği156 162 167 170 198
Tarayıcı159 169 179 181 173

Google'ın kıyaslama sonuçları daha önce gördüklerimizle kabaca eşleşirken, Sunspider'da açıkça bir sorun var. Prensip olarak, tüm tarayıcılarda, bu test bir mobil işlemcide, masaüstü Core i7 de dahil olmak üzere tüm masaüstü işlemcilerden daha hızlı çalıştı (ancak sonuçlara göre, eski Core i5'ten çok az farklıdır).

Genel olarak, açıklayamadığım ikinci testin çok beklenmedik bir sonucu. Belki yazılımda bir şey farklı çalıştı?

İnternet uygulamalarını bırakalım ve video ve ses ile çalışmaya devam edelim. Aynı zamanda, mobil bilgisayarlar da dahil olmak üzere oldukça popüler bir aktivite türüdür.

çekirdek i5-2300çekirdek i5-2400Çekirdek i5-2500 / 2500KÇekirdek i7-2600 / 2600KÇekirdek i7-2630QM
elma kayıpsız135 149 154 206 126
FLAC145 159 171 233 144
Maymunun Sesi150 165 174 230 139
MP3 (LAME)162 179 191 258 152
Nero AAC154 171 179 250 148
Ogg Vorbis164 179 191 252 147
Ses152 167 177 238 143

Ses kodlaması bize sürpriz yapmıyor. Mobil Core i7-2630QM, test edilen tüm masaüstü işlemcilerden biraz daha zayıf, masaüstü Core i7 ciddi bir lider. Peki ya video kodlama?

çekirdek i5-2300çekirdek i5-2400Çekirdek i5-2500 / 2500KÇekirdek i7-2600 / 2600KÇekirdek i7-2630QM
DivX146 160 170 157 96
Ana kavram (VC-1)153 167 175 187 133
prömiyer155 169 178 222 132
Vegas'ta164 177 185 204 131
x264152 165 174 225 136
XviD166 180 190 196 133
Video156 170 179 199 127

Mobil işlemcinin gecikmesi arttı, masaüstü Core i7, boşluk daralmış olsa da hala diğer tüm işlemcilerin çok önünde.

Ve en "gerçek" testlerden biri: oyunlar!

çekirdek i5-2300çekirdek i5-2400Çekirdek i5-2500 / 2500KÇekirdek i7-2600 / 2600KÇekirdek i7-2630QM
yarasa Adam131 134 135 134 40
Sınır bölgeleri142 149 157 160 234
YÖK 2109 110 110 110 36
uzak ağlamak 2200 218 232 237 84
Fritz Satranç142 156 166 215 149
Gta IV162 164 167 167 144
Ölümcül Deney125 125 125 125 119
TAKİPÇİ.104 104 104 104 28
UT3150 152 157 156 48
Crysis: Savaş Başlığı127 128 128 128 40
Çatışma İçinde Dünya163 166 168 170 0
Oyunlar141 146 150 155 84

Sadece "oh" demek istiyorum. Tüm oyunlar açıkça CPU bağımlı ve grafik bağımlı olarak ayrılmıştır. Daha güçlü bir işlemci kurmak Borderlands, Far Cry 2 ve Fritz Chess'deki hızı büyük ölçüde artırabilir. Bazı oyunlar daha güçlü işlemcilere çok az tepki verir, bazıları ise hiç tepki vermez. Mobil Core i7'nin 0 aldığı World in Confict'i değerlendirme dışı bırakırsak, genel derecelendirme şöyle görünür.

Sonuçlar bir mobil sistem için tatsız çıktı ve çoğunlukla işlemci bunun için suçlanmıyor. Sonuç çıkarmadan önce, oyunlardaki mutlak performans sayılarına bakalım.

çekirdek i5-2300çekirdek i5-2400Çekirdek i5-2500 / 2500KÇekirdek i7-2600 / 2600KÇekirdek i7-2630QM
yarasa Adam205 209 210 209 63
Sınır bölgeleri75 79 83 85 124
YÖK 276 77 77 77 25
uzak ağlamak 276 83 88 90 32
Fritz Satranç8524 9368 9982 12956 8936
Gta IV63 64 65 65 56
Ölümcül Deney128 128 128 128 121,6
TAKİPÇİ.62,9 62,9 63 62,9 17,2
UT3166 169 174 173 53
Crysis: Savaş Başlığı57,4 57,6 57,7 57,7 18,1
Çatışma İçinde Dünya62,6 63,5 64,3 65

Gördüğünüz gibi, masaüstü işlemciler neredeyse her zaman oldukça iyi sonuçlar veriyorsa, mobil sistem birçok yerde oynanabilirlik eşiğinde veya altındadır.

Hemen hemen tüm oyunlar için işlemciler çok hızlıdır, nihai sonuç esas olarak video kartının performansına bağlıdır. Aynı zamanda, mobil sistemin performans seviyesi önemli ölçüde daha düşüktür, bu da masaüstü ve mobil video çözümleri arasındaki çok büyük fark hakkında bazı sonuçlar çıkarmamızı sağlar. Testlerimizdeki fark ortalama olarak üç kattır. GTA IV ve Resident Evil, mobil de dahil olmak üzere tüm sistemlerde benzer sonuçlar gösteriyor.

İşlemci yoğun bir satranç programında, mobil Core i7, bütçe masaüstü modelleri arasında iyi bir performans sergiliyor.

Peki, özetleyelim.

çekirdek i5-2300çekirdek i5-2400Çekirdek i5-2500 / 2500KÇekirdek i7-2600 / 2600KÇekirdek i7-2630QM
Genel puanı157 170 180 203 141

Genel sonuç, trendi doğruluyor: En güçlü mobil işlemcilerden biri olan Core i7-2360QM, daha zayıf Core i5 serisindeki daha düşük masaüstü işlemcisinin performans seviyesine ulaşamıyor. Performans olarak masaüstü işlemci Core i7, mobil versiyonu bir yana, genç nesil masaüstü işlemcilerden bile çok ileride.

Çıktı

Bu yüzden sonuçlara atlamanın zamanı geldi. Size önceki materyalden bazı sonuçları hatırlatmama izin verin.

İlk bakışta Sandy Bridge gerçekten çok başarılı bir işlemci. İlk olarak, büyük ölçüde iyileştirildi, mantıksız çözümler kaldırıldı (farklı teknik işlemlere göre yapılan aynı iki ayrı kristal), çipin yapısı mantıklı ve iyi optimize edildi. İşlemci içindeki bileşenlerin iletişim veri yolu iyileştirildi (buna artık video çekirdeği de dahil!). İkinci olarak, işlemci çekirdeklerinin yapısı optimize edilmiştir, bu da performansı iyileştirmelidir. Uygulama teoriyi doğruluyor: Test ettiğimiz işlemci, mevcut platforma kıyasla performansta çok ileri gidiyor.

Gerçekten de, pratik testlerde, Core i7'nin yeni mobil serisindeki en genç olması gereken Core i7-2630QM, üretkenlerin en yaygını (veya en üretken olan) Core i7-720QM'nin performans seviyesini ciddi şekilde atlıyor. ilk nesillerin mobil Intel Core serisindeki yaygın) işlemciler. Görünüşe göre 2630QM yerini almalı, yani 2. nesil Core hattında ana üretken işlemci haline gelmeli.

Genel olarak, performans açısından ikinci nesil mobil Core işlemcilerin ileriye doğru iyi bir adım olduğu sonucuna varabiliriz. Hattın diğer avantajlarına gelince, yeni işlemcilerde alt hatların ve sadece çok sayıda modelin piyasaya sürülmesini beklemeye ve o zaman bile yeni hattın ısıtma, enerji verimliliği gibi niteliklerini değerlendirmeye değer olduğunu düşünüyorum. vesaire.

Bununla birlikte, yeni Sandy Bridge masaüstü Core i5 ve i7 işlemcilerle karşılaştırıldığında, yeni mobil Core i7-2630QM hala kaybediyor. Ayrıca, mobil platform tüm test gruplarında daha zayıf ve kararlıdır. Bu normal bir durumdur, çünkü mobil hatlar oluştururken öncelikler yalnızca performans değil, aynı zamanda düşük güç tüketimi (daha uzun pil ömrü sağlamak için) ve düşük güç tüketimi (daha kompakt ve daha zayıf soğutma sistemleri nedeniyle). En azından yeni mobil işlemcinin masaüstü sürümlerine göre iki kat (!) daha düşük olan termal paketine bakmakta fayda var. Bu, daha düşük nominal frekans ve genel performans dahil olmak üzere bir fiyata gelir.

Bu arada, frekanslardan bahsetmişken. Hewlett-Packard DV7 bu açıdan hoş bir sürpriz sundu (ancak sıcak yaz aylarında her şeyin bu kadar pembe olmaması mümkün). İyi bir soğutma sistemi varsayan bir işlemci, süresiz olarak maksimum 2,6 GHz Turbo Boost frekansında çalışabilir, bu nedenle standart özelliklerden daha yüksek bir performans seviyesi gösterme yeteneğine sahiptir. Tabii ki, soğutma sisteminin yaz aylarında başa çıkacağının garantisi yoktur ve değilse, masaüstü sistemlere göre gerçek performans seviyesi testlerimizden önemli ölçüde daha düşük olabilir. Bu nedenle, yeni bir mobil işlemci Core i7'ye sahip bir dizüstü bilgisayarda yetkin bir soğutma sisteminin varlığı ön plana çıkıyor.

"Yaklaşık bir yıl önce yayınlanan, 2008'in sonunda Core'un yerini alan Nehalem mikro mimarisinden bahsetmiştik. Bu inceleme, çok yakın bir gelecekte Nehalem'in yerini alması gereken Sandy Bridge mimarisine odaklanacak.

Bugün Sandy Bridge tabanlı çipler, sunucu Xeon, masaüstü ve mobil Core i3 / 35 / i7, Pentium ve Celeron ve "aşırı" Core i7 Extreme dahil olmak üzere tüm Intel işlemci serilerinde sunulmaktadır. Bu makalenin yayınlanmasından kısa bir süre önce, 22 Mayıs 2011'de Sandy Bridge tabanlı yedi yeni işlemci daha tanıtıldı.

Sandy Bridge ve Nehalem arasındaki temel farklar nelerdir ve yeni Intel mikro mimarisinin özellikleri ve avantajları nelerdir? Kısacası, bu farklılıklar şunlardır: "sistem aracısının" bir parçası olarak güncellenmiş grafik çekirdeği, hesaplamalı olanla aynı kalıpta bulunur, yeni bir L0 mikro komut arabelleği, paylaşılan L3 önbelleği, yükseltilmiş Turbo Boost teknolojisi, genişletilmiş bir SIMD AVX komut seti ve yeniden tasarlanmış çift kanallı DDR3 1333 MHz bellek denetleyicisi sağlanır ... Yeni mimari ile birlikte yeni bir LGA 1155 işlemci soketi ortaya çıktı.

Sandy Bridge ve Nehalem arasındaki temel tasarım farklılıklarından biri, hesaplama çekirdeklerinin ve kuzey köprüsünün (sistem aracısı) bir kalıba yerleştirilmesidir. Nehalem'de CPU'nun kendisinin ve kuzey köprüsünün ortak bir kapak altında bulunduğunu hatırlayın, ancak aslında farklı teknolojik standartlara göre yapılmış bağımsız yongalara yerleştirildiler: CPU - 32 nm'de ve kuzey köprüsü - 45 nm'de ... Sandy Bridge'de bu, bilgi işlem çekirdeklerini, grafik çekirdeğini, RAM denetleyicilerini, PCI Express'i, Güç Kontrol Birimi'ni (PCU) ve bir video çıkış birimini barındıran 32nm işlem teknolojisi kullanılarak yapılan tek bir kristaldir.

Sandy Bridge çiplerindeki yeni SIMD yönergeleri grubuna AVX - Gelişmiş Vektör Uzantıları, yani "genişletilmiş vektör yönergeleri" adı verilir. Aslında, bu SIMD komutlarının yeni neslidir (Tek Yönerge, Çoklu Veri - "tek komut akışı, çoklu veri akışı" SSE5, AMD tarafından geliştirilen x86 setine bir alternatif. AVX komutlarındaki XMM kayıtlarının bitliği iki katına çıkarıldı. 128 ila 256 bit, dört işlenen komutları destekleyen 12 yeni talimat Donanım şifreleme teknolojisi Gelişmiş Şifreleme Standardı (AES) ve sanallaştırma sistemi Sanal Makine Uzantılarını (VMX) destekler.

Benzer tasarıma rağmen, Sandy Bridge yongaları Nehalem'den daha fazla yürütme birimine sahiptir: 15'e 12 (blok şemasına bakın). Her yürütme birimi, 128 bitlik bir kanal aracılığıyla talimat programlayıcıya bağlanır. 256 bit veri içeren yeni AVX komutlarını yürütmek için aynı anda iki yürütme birimi kullanılır.

Sandy Bridge yongaları, komut getirme bloklarına yerleştirilmiş dört kod çözücü sayesinde saat döngüsü başına dört komuta kadar işleyebilir. Bu kod çözücüler, x86 komutlarını basit RISC benzeri mikro komutlara dönüştürür.

Sandy Bridge işlemcilerdeki en önemli yenilik, prensipte önceki nesil işlemcilerde bulunmayan "seviye sıfır" önbellek L0'dır. Bu önbellek, 1536'ya kadar kodu çözülmüş mikro talimatı depolayabilir: anlamı, yürütülebilir program dairesel bir döngüye girdiğinde, yani aynı talimatları tekrar tekrar yürüttüğünde, aynı talimatların tekrar kodunun çözülmesine gerek olmamasıdır. Bu şema performansı önemli ölçüde artırabilir: Intel uzmanlarına göre, L0 bilgisayar süresinin %80'inde, yani vakaların ezici çoğunluğunda kullanılır. Ayrıca, L0 kullanıldığında, kod çözücüler ve L1 önbelleği devre dışı bırakılır ve çip daha az güç tüketir ve daha az ısı üretir.

Sandy Bridge yongalarında "seviye sıfır önbellek" görünümüyle bağlantılı olarak, NetBurst mimarisine dayanan "gigahertz yarışının gazileri" Pentium 4 işlemcilerinin iz önbelleği sıklıkla hatırlanır. Bu arada, bu arabellekler farklı şekillerde çalışır: izleme önbelleğinde, talimatlar tam olarak yürütüldükleri sırayla yazılır, böylece aynı talimatlar içinde birkaç kez tekrarlanabilir. L0, elbette daha rasyonel olan tek talimatları saklar.

Dal tahmin bloğu, ikiye katlanmış bir dal hedef tamponu alan gözle görülür değişiklikler geçirdi. Ek olarak, arabellekte artık özel bir veri sıkıştırma algoritması kullanılmaktadır, bu nedenle blok büyük hacimli talimatlar hazırlayabilir ve böylece hesaplama performansını arttırır.

Sandy Brigde'deki bellek alt sistemi de 256-bit AVX talimatlarını işlemek için optimize edilmiştir. Nehalem'in adresleri yüklemek, depolamak ve verileri depolamak için ayrı dağıtım bağlantı noktalarına bağlı özel bağlantı noktaları kullandığını hatırlayın; bu, saat döngüsü başına L1 önbelleğinden 128 bit veri yükleyebileceği anlamına gelir. Sandy Brigde'de, yük ve depolama portları gerektiğinde yeniden atanabilir ve aynı anda bir çift yük veya depolama portu olarak hareket ederek saat döngüsü başına 256 bit veriye izin verir.

Sandy Bridge, çip bileşenlerini, yani hesaplama çekirdeklerini, L3 önbelleğini, grafik çekirdeğini ve sistem aracısını (bellek, PCI Express, güç ve ekran denetleyicileri) bağlamak için bir halka ara bağlantısı kullanır. İlk olarak Nehalem Lynnfield yongalarında (Soket LGA1366 için Core i7 9xxx) uygulanan yüksek hızlı QPI veriyoluna (Hızlı Yol Bağlantısı, 3.2 GHz'de 6,4 GB / s'ye kadar bant genişliği) dayanıyordu.

Sandy Bridge halka veri yolu, esas olarak dört adet 32 ​​baytlık halkadır: veri yolları, istek veri yolları, alındı ​​veri yolları ve izleme veri yolları. İstekler, işlem çekirdeklerinin frekansında işlenirken, 3 GHz saat frekansında veri yolu bant genişliği saniyede 96 GB'a ulaşır. Aynı zamanda sistem en kısa veri iletim yolunu otomatik olarak belirleyerek minimum gecikmeyi sağlar.

Ring veri yolunun kullanılması, Sandy Bridge'de LLC (Son Seviye Önbellek, yani "son seviye önbellek") olarak adlandırılan üçüncü seviye önbellek L3'ü uygulamanın başka bir yolunu sağladı. Nehalem'den farklı olarak, burada LLC tüm çekirdekler için ortak değildir, ancak aynı zamanda gerekirse tüm çekirdekler, grafikler ve sistem aracısı arasında dağıtılabilir. Her hesaplama çekirdeğinin kendi LLC segmentine sahip olmasına rağmen, bu segmentin "kendi" çekirdeğine sıkı bir şekilde bağlı olmadığını ve hacminin bir ring bus aracılığıyla diğer bileşenler arasında dağıtılabileceğini belirtmek önemlidir.

Sandy Bridge'e geçiş sırasında Intel, merkezi işlemcinin hesaplama çekirdeklerine ait olmayan tüm bileşenlerini, genel adı Sistem Aracısı, yani "sistem aracısı" olarak atadı. Aslında, bunların hepsi sistem mantık setinin "kuzey köprüsü" olarak adlandırılan bileşenleridir, ancak bu isim ayrı bir mikro devre için hala daha uygundur. Nehalem'e uygulandığında, garip ve açıkça talihsiz olan "Uncore", yani "çekirdek olmayan" adı kullanıldı, bu nedenle "sistem aracısı" çok daha uygun geliyor.

"Sistem aracısının" ana unsurları arasında 1333 MHz'e kadar yükseltilmiş çift kanallı DDR3 bellek denetleyicisi, bir x16 veriyolu, iki x8 veriyolu veya bir x8 ve iki x4 veriyolu desteğine sahip bir PCI Express 2.0 denetleyicisi bulunur. Çip, yeni nesil Turbo Boost otomatik hız aşırtma teknolojisinin uygulandığı özel bir güç kontrol ünitesine sahiptir. Hem bilgi işlem hem de grafik çekirdeklerinin durumunu dikkate alan bu teknoloji sayesinde çip, gerektiğinde işlemciye zarar vermeden ve performansı etkilemeden termal paketini 25 saniyeye kadar önemli ölçüde aşabiliyor.

Sandy Bridge, işlemci modeline bağlı olarak altı veya on iki yürütme biriminden (EU) oluşabilen yeni nesil Intel HD Graphics 2000 ve HD Graphics 3000 grafik işlemcilerini kullanır. Nominal grafik saat hızı 650 veya 850 MHz iken, artık video hızlandırıcıya kadar uzanan Turbo Boost modunda 1100, 1250 veya 1350 MHz'e yükseltilebilir. Grafikler Direct X 10.1 programlama arayüzünü destekliyor - geliştiriciler, bu API'nin gerçekten talep edildiği bilgisayar oyunları hayranlarının her durumda çok daha güçlü ayrı grafikleri tercih edeceğini düşünerek, haklı olarak Direct X 11 desteğini gereksiz buldular.

Sandy Bridge işlemcilerin etiketlenmesi oldukça basit ve mantıklı. Daha önce olduğu gibi, bazı durumlarda alfabetik dizinlerin eşlik ettiği sayısal dizinlerden oluşur. Sandy Bridge, Nehalem'den adıyla ayırt edilebilir: yeni çiplerin indeksi dört basamaklıdır ve iki ("ikinci nesil") ile başlar ve eskileri üç basamaklıdır. Örneğin, bir Intel Core i5-2500K işlemcimiz var. Burada "Intel Core" markayı, "i5" seriyi, "2" nesli, "500" model indeksini ve "K" harf indeksini temsil etmektedir.

Harf endekslerine gelince, bunlardan biri Nehalem mikro mimarisine sahip yongalardan biliniyor - "S" (i5-750S ve i7-860S işlemciler). Ev multimedya makinelerinde hedeflenen çiplere atanır. Aynı sayısal indekse sahip işlemciler, "S" harf indeksine sahip modellerin biraz daha düşük nominal saat frekansında çalışması bakımından farklılık gösterir, ancak otomatik Turbo Boost ile elde edilen "turbo frekansı" onlar için aynıdır. Diğer bir deyişle, normal işletimde daha ekonomiktirler ve soğutma sistemleri "standart" modellere göre daha sessizdir. İkinci neslin indekssiz tüm yeni masaüstü çekirdekleri 95 watt ve "S" indeksi - 65 watt tüketir.

"T" indeksli modifikasyonlar, "temel" olanlardan daha da düşük bir saat frekansında çalışırken, "turbo frekansı" da daha düşüktür. Bu tür işlemcilerin termal paketi, modern mobil çiplerin TDP'si ile oldukça karşılaştırılabilir olan yalnızca 35 veya 45 W'dir.

Ve son olarak, "K" endeksi, işlemciyi engellemeden hız aşırtmanıza ve saat hızını artırmanıza olanak tanıyan kilidi açılmış bir çarpan anlamına gelir.

Sandy Bridge mimarisine sahip "masaüstü" işlemcilerde uygulanan genel teknik çözümler hakkında bilgi sahibi olduk. Ardından, farklı serilerin özellikleri hakkında konuşacağız, mevcut model yelpazesini inceleyeceğiz ve hangi belirli modellerin sınıflarında en iyi satın alma olarak kabul edilebileceği konusunda önerilerde bulunacağız.

Web sitemizdeki ayrıntılı incelemesi (ancak, C6 derin uyku ve LV-DDR3 düşük voltajlı bellek desteği yalnızca Westmere'de göründü). SB'deki yenilikler neler?

İlk olarak, ikinci tip sıcaklık sensörleri. Okumaları BIOS ve yardımcı programlar tarafından "görülen" tanıdık bir termal diyot, fan hızını ayarlamak ve aşırı ısınmaya karşı koruma sağlamak için sıcaklığı ölçer (frekans kısma ve yardımcı olmazsa, CPU'nun acil olarak kapatılması). Ancak alanı çok geniştir çünkü her çekirdekte (GPU dahil) ve sistem aracısında bunlardan yalnızca birer tane bulunur. Her büyük blokta onlara termotransistörlü birkaç kompakt analog devre eklenir. Daha kısa bir çalışma aralığına (80–100 ° C) sahiptirler, ancak termal diyot verilerini iyileştirmek ve yeni TB 2.0 işlevlerinin gerçekleştirilemeyeceği doğru bir kristal ısıtma haritası oluşturmak için gereklidirler. Dahası, güç denetleyicisi, anakart üreticisi yerleştirir ve bağlarsa harici bir sensör bile kullanabilir - ancak bunun nasıl yardımcı olacağı tam olarak belli değil.

Her bir çekirdek için aralarındaki geçişlerin geçmişinin izlendiği C durumlarını yeniden numaralandırma işlevi eklendi. Geçiş daha uzun sürer, çekirdeğin girdiği veya çıktığı "uyku sayısı" ne kadar büyükse. Denetleyici, "uyanma" olasılığını hesaba katarak çekirdeği uyku moduna almanın mantıklı olup olmadığını belirler. Yakında böyle bir şey bekleniyorsa, istenen işletim sistemi yerine çekirdek sırasıyla C3 veya C1'e, yani daha hızlı çalışmaya başlayan daha aktif bir duruma aktarılacaktır. İşin garibi, böyle bir rüyadaki daha yüksek güç tüketimine rağmen, işlemcinin hiç uyumadığı her iki geçiş süresi de azaldığından, genel tasarruf etkilenmeyebilir.

Mobil modeller için, tüm çekirdeklerin C6'ya aktarılması, L3 önbelleğinin bankalarda ortak olan güç anahtarları tarafından sıfırlanmasına ve devre dışı bırakılmasına neden olur. Bu, boştayken tüketimi daha da azaltacaktır, ancak gerekli veri ve kod oraya pompalanırken çekirdeklerin L3'te birkaç yüz veya binlerce kez kaçırması gerekeceğinden, uyanmada ek bir gecikmeyle doludur. Açıkçası, önceki işlevle bağlantılı olarak, bu yalnızca denetleyici CPU'nun uzun süre uykuya daldığından emin olduğunda (işlemci süresi standartlarına göre) gerçekleşir.

Önceki neslin Core i3 / i5'i, anakarttaki CPU güç sisteminin karmaşıklığı açısından 6'ya kadar voltaj gerektiren bir tür rekor sahibiydi - daha doğrusu, 6'sının tümü daha önce mevcuttu, ancak hepsi yönlendirilmedi işlemciye. SB'de sayıya göre değil, aşağıdakileri kullanarak değiştiler:

  • x86 çekirdekleri ve L3 - 0.65-1.05 V (Nehalem L3'te ayrılmış);
  • GPU - benzer şekilde (Nehalem'de, hatırlayalım ki, oradaki ikinci CPU kristali olan kuzey köprüsünün neredeyse tamamı ortak bir veri yolu tarafından desteklenmektedir);
  • sabit frekanslı ve 0,8, 0,9 veya 0,925 V sabit voltajlı bir sistem aracısı (ilk iki seçenek mobil modeller içindir) veya dinamik olarak ayarlanabilir 0,879–0,971 V;
  • - sabit 1,8 V veya ayarlanabilir 1,71-1,89 V;
  • bellek veri yolu sürücüsü - 1,5 V veya 1.425-1.575 V;
  • PCIe sürücüsü - 1.05V.

Güç veri yolunun regüle edilmiş versiyonları, K harfi ile kilitsiz SB görünümlerinde kullanılmaktadır. Masaüstü modellerde, x86 çekirdeklerinin boşta frekansı, görünüşe göre ekonomiden ödün vermeden 1,3 GHz'den 1,6 GHz'e yükseltilmiştir. Bu durumda, tam boşta 4 çekirdekli bir CPU 3,5-4 watt tüketir. Mobil sürümler 800 MHz'de boşta ve daha da azını istiyor. Modeller ve Chipsetler

Verim

Bu bölüm mikromimariye teorik bir genel bakış açısından ne yapar? Ve 20 yıldır (farklı sürümlerde) kullanılan ve genel olarak kabul görmüş bir test olduğu gerçeği, bilgisayarların teorik değil, programlı olarak elde edilebilir hızını değerlendirmek için - SPEC CPU. İşlemcinin performansını kapsamlı bir şekilde değerlendirebilir ve kendisi için en iyi durumda - testlerin kaynak kodu test edilen sistem için derlendiğinde ve optimize edildiğinde (yani, kitaplıklı derleyici de geçerken kontrol edilir). Böylece, kullanışlı programlar, yalnızca bugün büyük bir zaman aralığına sahip, nadir görülen gözü pek programcılar olan assembler'daki el yazısı eklemelerle daha hızlı olacaktır. SPEC, yararlı bir şey hesaplamadığı ve herhangi bir belirli sayı (IPC, floplar, zamanlamalar, vb.) vermediği için yarı sentetik testler olarak sınıflandırılabilir - bir CPU'nun "papağanları" yalnızca diğerleriyle karşılaştırmak için gereklidir.

Intel, tipik olarak, CPU'ları için çıktıları ile neredeyse aynı anda sonuçlar sağlar. Ancak SB, anlaşılmaz bir 3 aylık gecikme yaşadı ve Mart ayında elde edilen rakamlar henüz başlangıç ​​niteliğinde. Onları tam olarak neyin engellediği belirsiz, ancak bu, en son CPU'ları için resmi sonuçları yayınlamayan AMD'deki durumdan daha iyi. Opteron için aşağıdaki rakamlar, Intel derleyici kullanan sunucu üreticileri tarafından verilmiştir, bu nedenle bu sonuçlar yetersiz optimize edilmiş olabilir: ne Intel'in yazılım araç takımı, "yabancı" bir CPU üzerinde kod yürütme ile yapabilir. ;)


SPEC CPU2006 testlerinde sistemlerin karşılaştırılması. Mart 2011'den David Kanter tarafından derlenen elektronik tablo.

Önceki CPU'larla karşılaştırıldığında, SB, her bir çekirdek ve gigahertz için mutlak ve tamamen rekor kıran mükemmel (gerçek anlamda) sonuçlar gösteriyor. HT'yi açmak ve L3'e 2 MB eklemek, gerçek hıza + %3 ve tam sayıya + %15 verir. Bununla birlikte, 2 çekirdekli model en yüksek özgül hıza sahiptir ve bu öğretici bir gözlemdir: Açıkçası, Intel AVX kullandı, ancak tamsayı kazancı elde etmek hala imkansız olduğundan, yalnızca gerçek göstergelerde keskin bir hızlanma beklenebilir. Ancak onlar için bile, 4 çekirdekli modellerin karşılaştırılmasıyla gösterilen hiçbir sıçrama yoktur - ve i3-2120 için sonuçlar nedeni ortaya koymaktadır: aynı 2 ICP kanalına sahip olan her çekirdek, yansıtılan bant genişliğinin iki katını alır. belirli gerçek hızda %34 artışla. Görünüşe göre, 6-8 MB L3 önbellek çok küçük ve kendi bant genişliğini halka veri yolu pahasına ölçeklendirmek yardımcı olmuyor. Intel'in neden sunucu Xeon'larını 3 ve hatta 4 kanallı ICP'lerle donatmayı planladığı artık açık. Sadece şimdi oradaki 8 çekirdek, tam olarak dağıtmak için yeterli değil ...

Güncelleme: Nihai SB sonuçları ortaya çıktı - sayılar (beklendiği gibi) biraz arttı, ancak niteliksel sonuçlar aynı. Beklentiler ve sonuçlar

2012 baharında piyasaya sürülecek olan Sandy Bridge'in 22nm'lik halefi Ivy Bridge şimdiden iyi biliniyor. Genel amaçlı çekirdekler, AES-NI'nin biraz güncellenmiş bir alt kümesini destekleyecektir; yeniden adlandırma aşamasında kayıtların "ücretsiz" kopyalanması oldukça mümkündür. Turbo Boost'ta iyileştirmeler beklenmiyor, ancak GPU (bu arada, yonga setinin tüm sürümlerinde çalışacak) maksimum FU sayısını 16'ya çıkaracak, iki değil üç ekranın bağlantısını destekleyecek ve sonunda OpenCL 1.1 (DirectX 11 ve OpenGL 3.1 ile birlikte) için normal destek alacak ve donanım video işleme yeteneklerini geliştirecek. Büyük olasılıkla, masaüstü ve mobil modellerde bile ICP 1600 MHz'i destekleyecek ve PCIe denetleyicisi 3.0 veri yolu sürümünü destekleyecektir. Ana teknolojik yenilik, L3 önbelleğinin kullanacağı (kitlesel mikroelektronik üretiminde ilk kez!) Dikey olarak düzenlenmiş çok taraflı kapı kenarına (FinFET) sahip transistörler, radikal bir şekilde geliştirilmiş elektriksel özelliklere sahip (ayrıntılar - yaklaşmakta olanlardan birinde) nesne). Söylentiye göre GPU sürümleri tekrar çoklu GPU olacak, ancak bu sefer işlemciye bir veya daha fazla hızlı video bellek kristali eklenecek.

Ivy Bridge, 70 serisinin yeni yonga setlerine (yani güney köprüleri) bağlanacak: ev için Z77, Z75 ve H77 (Z68 / P67 / H67'nin yerini alıyor) ve ofis için Q77, Q75 ve B75 (Q67 / Q65 / B65 yerine). O(yani, farklı isimler altındaki fiziksel çip) hala ikiden fazla SATA 3.0 bağlantı noktasına sahip olmayacak ve USB 3.0 desteği nihayet görünecek, ancak rakipten bir yıl sonra. Yerel PCI desteği ortadan kalkacak (veri yolu için 19 yıl sonra dinlenme zamanı geldi), ancak Z77 ve Q77'deki disk alt sistem denetleyicisi, SSD'leri kullanan sürücüleri önbelleğe alarak performansı artırmak için Smart Response teknolojisini alacak. Ancak, en heyecan verici haber, buna rağmen iyi yaşlı Geleneksel olarak, Ivy Bridge'in masaüstü sürümleri yalnızca SB ile aynı LGA1155 soketine yerleştirilmekle kalmayacak, aynı zamanda bunlarla geriye dönük uyumlu olacak - yani modern anakartlar da yeni CPU'ya uyacak.

Meraklılar için, bu yılın 4. çeyreğinde çok daha güçlü bir X79 yonga seti hazır olacak ("aşırı sunucu" LGA2011 soketi için 4-8 çekirdekli SB-E için). Henüz USB 3.0'a sahip olmayacak, ancak 14 SATA 3.0 bağlantı noktasından 10'u (artı 4 tip RAID desteği) olacak ve 8 PCIe hattından 4'ü DMI ile paralel olarak CPU'ya bağlanabilecek ve " CPU-yonga seti" iletişim bant genişliği. Ne yazık ki X79, 8 çekirdekli Ivy Bridge ile eşleşmeyecek.

Bir istisna (ve belki de yeni bir kural) olarak, Sandy Bridge'de geliştirmek ve düzeltmek istediklerimizin bir listesini vermeyeceğiz. Herhangi bir değişikliğin karmaşık bir uzlaşma olduğu zaten açıktır - kesinlikle maddenin korunumu yasasına göre (Lomonosov tarafından formüle edildiği gibi): eğer bir yere bir şey gelirse, o zaman aynı miktar azalacaktır. Intel, her yeni mimaride eskinin hatalarını düzeltmek için acele ederse, o zaman kırılan tahta ve uçan talaşların sayısı elde edilen faydaları aşabilir. Bu nedenle, uç noktalar ve ulaşılamaz bir ideal yerine, sürekli değişen ve bazen zıt gereksinimler arasında bir denge aramak ekonomik açıdan daha karlıdır.

Bazı kusurlara rağmen, yeni mimari sadece parlak bir şekilde parlamakla kalmamalı (ki, testlere bakılırsa, öyledir), aynı zamanda öncekilerin hepsini - hem kendi hem de rakiplerini - gölgede bırakmalıdır. Popüler programların yeni sürümlerinde görünmek üzere olan AVX paketi için optimizasyon dışında, açıklanan performans ve ekonomi hedeflerine ulaşıldı. Ve sonra Gordon Moore onun zekasına bir kez daha şaşıracak. Görünüşe göre Intel, bu yıl göreceğimiz mimariler arasındaki Epic Battle'a tamamen silahlanmış durumda.

Teşekkür ifade edilir:

  • Aynı "Intel temsilcisi" olan Maxim Loktyukhin, yazılım ve donanım optimizasyonu departmanı çalışanı - çok sayıda açıklayıcı soruyu yanıtlamak için.
  • Yanıtları ve bir tür resmi yanıt alma fırsatı için Baş Yazılım Mühendisi ve Optimizasyon Başkanı Mark Buxton'a teşekkür ederiz.
  • Agner Fogh, programcı ve işlemci araştırmacısı - birçok yeni ve gizemli ortaya çıkan SB'nin bağımsız düşük seviye testi için.
  • Özenli Okuyucuya - dikkat, azim ve yüksek sesle horlama için.
  • Karşı Kampın öfkeli hayranları - yığına.