Od Sandy Bridge po Coffee Lake: porovnanie siedmich generácií Intel Core i7. Intel Sandy Bridge: do nového roka s novou mikroarchitektúrou procesora

  • 22.07.2019

Je prevaha prvého Core i (Nehalem a v roku 2009 Westmere) nad súperovým CPU konečná? Situácia sa trochu podobá na prvý rok po vydaní Pentia II: zaspať na vavrínoch a získať rekordné zisky, bolo by pekné pokračovať v úspešnej architektúre bez toho, aby sme výrazne menili jej názov, pridávali nové, ktorých používanie bude výrazne zlepšiť výkon, pričom netreba zabúdať na ďalšie inovácie, ktoré zrýchľujú dnešné verzie programov. Je pravda, že na rozdiel od situácie spred 10 rokov by ste mali venovať pozornosť aj aktuálne módnej téme energetickej účinnosti, ktorá sa hrá s nejednoznačným prívlastkom Cool - „cool“ a „studený“ - a nemenej módnou túžbou zabudovať do procesora. všetko, čo stále existuje ako oddelené. Tu sa pod takouto omáčkou podáva novinka.

„Predvčerom“, „včera“ a „dnes“ procesorov Intel.


Predná časť dopravníka. Farby zobrazujú rôzne typy informácií a bloky, ktoré ich spracúvajú alebo uchovávajú.

Predpoveď

Začnime oznámením spoločnosti Intel o úplne prepracovanom (BPU). Rovnako ako v Nehalem, predpovedá adresu ďalšej 32-bajtovej časti kódu každý cyklus (a pred skutočným vykonaním) v závislosti od očakávaného správania skokových inštrukcií v práve predpovedanej časti - a zjavne bez ohľadu na počet a typ skokov. Presnejšie, ak aktuálny blok obsahuje údajne spustený prechod, jeho vlastné a cieľové adresy sú uvedené, inak ide o prechod na ďalší blok v rade. Samotné predpovede sa stali ešte presnejšími vďaka zdvojnásobeniu (BTB), predĺženiu (GBHR) a optimalizácii hashovacej funkcie prístupu (BHT). Je pravda, že skutočné testy ukázali, že v niektorých prípadoch je účinnosť predpovedí stále o niečo horšia ako v Nehalem. Snáď nárast výkonu s poklesom spotreby nie je kompatibilný s kvalitnou predikciou vetvy? Skúsme na to prísť.

V Nehaleme (ako aj v iných moderných architektúrach) je BTB prítomná vo forme dvojúrovňovej hierarchie – malá – „rýchla“ L1 a veľká – „pomalá“ L2. Deje sa tak z rovnakého dôvodu, prečo existuje niekoľko úrovní: jednoúrovňové riešenie bude príliš kompromisné vo všetkých parametroch (veľkosť, rýchlosť odozvy, spotreba atď.). Ale v SB sa architekti rozhodli dať jednu úroveň, a to dvojnásobnú veľkosť Nehalemovho L2 BTB, teda pravdepodobne aspoň 4096 buniek – toľko je v Atome. (Treba si uvedomiť, že veľkosť najčastejšie vykonávaného kódu pomaly rastie a čoraz menej sa zmestí do cache, ktorej veľkosť je rovnaká pre všetky CPU Intel z prvého Pentia M.) Teoreticky napr. tým sa zväčší plocha, ktorú zaberá BTB, a pretože sa neodporúča zmeniť celkovú plochu (toto je jeden z počiatočných predpokladov architektúry) - niečo bude musieť byť odobraté z nejakej inej štruktúry. Ale stále existuje rýchlosť. Ak vezmeme do úvahy, že SB musí byť pre rovnaký proces navrhnutý na mierne vyššiu rýchlosť, dalo by sa očakávať, že táto veľká konštrukcia bude prekážkou celého dopravníka - pokiaľ nie je tiež potrubný (dva už stačia). Je pravda, že celkový počet tranzistorov pracujúcich na jeden cyklus v BTB sa v tomto prípade zdvojnásobí, čo vôbec neprispieva k úspore energie. Opäť uviaznutie? Na to Intel odpovedá, že nový BTB ukladá adresy v akomsi komprimovanom stave, čo umožňuje mať dvakrát toľko buniek s podobnou plochou a spotrebou. Ale zatiaľ to nie je možné overiť.

Pozeráme sa z druhej strany. SB nedostal nové predikčné algoritmy, ale optimalizované staré: všeobecné, pre nepriame skoky, slučky a návraty. Nehalem má 18-bitové GBHR a BHT neznámej veľkosti. Dá sa však zaručiť, že počet buniek v tabuľke je menší ako 2 18, inak by zaberala väčšinu jadra. Preto existuje špeciálna hašovacia funkcia, ktorá zbalí 18 bitov histórie všetkých prechodov a bitov adresy inštrukcie do indexu menšej dĺžky. A s najväčšou pravdepodobnosťou existujú aspoň dva hashe - pre všetky bity GBHR a pre tie, ktoré odrážajú fungovanie najťažších prechodov. A tu je efektivita chaotickej distribúcie podľa indexov rôznych vzorcov správania podľa počtu buniek BHT určuje úspešnosť všeobecného prediktora. Aj keď to nie je výslovne uvedené, spoločnosť Intel určite vylepšila hash, aby umožnila dlhšie GBHR s rovnako účinným výplňou. Ale stále sa dá hádať o veľkosti BHT - ako aj o tom, ako sa vlastne zmenila spotreba energie prediktora ako celku... Čo sa týka (RSB), stále je to 16-adresa, ale nové obmedzenie na boli zavedené samotné volania – už nie štyri krát 16 bajtov kódu.

Než pôjdeme ďalej, povedzme si o miernom nesúlade medzi deklarovanou teóriou a pozorovanou praxou - a ukázalo sa, že prediktor cyklu v SB je odstránený, v dôsledku čoho je predikcia konečného prechodu na začiatok cyklu urobené všeobecným algoritmom, teda horšie. Zástupca spoločnosti Intel nás uistil, že to nemôže byť „horšie“, avšak...

Dekódovanie a IDQ

Adresy spustiteľných príkazov predpovedané vopred (striedavo pre každé vlákno - s povolenou technológiou) sa vydávajú na kontrolu ich prítomnosti v vyrovnávacích pamätiach inštrukcií (L1I) a (L0m), ale o druhej pomlčíme - popíšeme zatiaľ zvyšok prednej časti. Napodiv Intel ponechal veľkosť časti inštrukcie načítanej z L1I na 16 bajtoch (tu sa slovo „časť“ chápe podľa nášho). Doteraz to bolo prekážkou pre kód, ktorého priemerná veľkosť inštrukcie narástla na 4 bajty, a preto sa 4 inštrukcie, ktoré sú žiaduce na vykonanie za cyklus, už nezmestia do 16 bajtov. AMD tento problém vyriešilo v architektúre K10 rozšírením inštrukčnej časti na 32 bajtov – hoci jej CPU zatiaľ nemajú viac ako 3 pipeline. V SB vedie nerovnosť veľkosti k vedľajšiemu efektu: prediktor vydáva ďalšiu adresu 32-bajtového bloku a ak sa (pravdepodobne) spustený prechod nájde v jeho prvej polovici, potom nie je potrebné čítať a dekódovať druhý - však sa to spraví.

Z L1I ide časť do preddekodéra a odtiaľ - do samotného merača dĺžky (), ktorý spracuje až 7 alebo 6 príkazov / hodín (s a bez; Nehalem mohol urobiť maximálne 6), v závislosti od ich celkovej dĺžky a komplexnosť. Ihneď po prechode začne spracovanie príkazom na cieľovej adrese, inak od bajtu, pred ktorým sa preddekodér zastavil o cyklus skôr. Podobne s posledným bodom: buď ide o (pravdepodobne) spustenú vetvu, ktorej adresa posledného bajtu pochádza z BTB, alebo o posledný bajt samotnej časti – pokiaľ sa nedosiahne limit 7 príkazov/hodiny, alebo "nepohodlný" príkaz. S najväčšou pravdepodobnosťou má vyrovnávacia pamäť dĺžkového meradla iba 2-4 porcie, no dĺžkové meradlo z nej môže získať ľubovoľných 16 postupné byte. Napríklad, ak je na začiatku časti rozpoznaných 7 dvojbajtových príkazov, potom v ďalšom cykle možno spracovať ďalších 16 bajtov, počnúc od 15.

Merač dĺžky sa okrem iného zaoberá detekciou párov makroslučovacích príkazov. O samotných pároch si povieme trochu neskôr, ale zatiaľ si všimnite, že podobne ako v Nehaleme, aj tu nie je možné zistiť viac ako jeden takýto pár za cyklus, aj keď možno označiť maximálne 3 (a ešte jeden jediný príkaz). . Meranie dĺžok inštrukcií je však čiastočne sériový proces, takže by nebolo možné určiť niekoľko párov makroslučujúcich sa počas cyklu.

Označené príkazy spadajú do jedného z dvoch príkazov (IQ: inštrukčný front) - jeden na vlákno, každý po 20 príkazov (čo je o 2 viac ako Nehalem). striedavo číta príkazy z frontov a prekladá ich do uops. Má 3 jednoduché (preložiť 1 inštrukciu na 1 uop a s makro zlúčením - 2 inštrukcie na 1 uop), zložitý prekladač (1 inštrukciu na 1–4 uop alebo 2 príkazy na 1 uop) a mikrosekvenátor pre väčšinu zložité príkazy vyžadujúce 5 a viac mopov z . Okrem toho ukladá iba „chvosty“ každej sekvencie, počnúc 5. mopom, pretože prvé 4 sú vydávané zložitým prekladačom. Zároveň, ak počet ups vo firmvéri nie je deliteľný 4, ich posledné štyri budú neúplné, ale vloženie ďalších 1–3 ups od prekladateľov v rovnakom pomere nebude fungovať. Prichádza výsledok dekódovania a dva (jeden na stream). Posledné menované (oficiálne nazývané IDQ - inštrukčný dekódovací front, fronta dekódovaných príkazov) majú ešte 28 uops a možnosť zablokovať slučku, ak sa tam zmestí jej spustiteľná časť.

Toto všetko (okrem mop cache) už bolo v Nehaleme. A aké sú rozdiely? V prvom rade je zrejmé, že dekodér bol naučený zvládnuť nové podmnožinové inštrukcie. Podpora pre sady SSE so všetkými číslicami už neprekvapuje a do Westmere (32nm verzia Nehalemu) pribudlo zrýchlenie šifrovania príkazov (vrátane PCLMULQDQ). Bolo pridané úskalie: táto funkcia nefunguje pre príkazy, ktoré majú konštantné aj RIP-relatívne adresovanie (RIP-relatívne, adresa je relatívna k príkazovému ukazovateľu - obvyklý spôsob prístupu k údajom v 64-bitovom kóde). Takéto príkazy vyžadujú 2 uops (samostatné načítanie a ovládanie), čo znamená, že ich dekodér nespracuje viac ako jeden za cyklus, pričom použije iba zložitý prekladač. Intel tvrdí, že tieto obete sa robia kvôli úspore energie, ale nie je jasné, čo: dvojité umiestnenie, vykonanie a uops si jednoznačne vyžiadajú viac zdrojov, a teda spotrebujú energiu, ako jeden.

Zlúčenie makier je optimalizované - predtým mohlo byť prvým zlúčeným príkazom iba aritmetické alebo logické porovnanie (CMP alebo TEST), teraz sú povolené jednoduché aritmetické príkazy sčítania a odčítania (ADD, SUB, INC, DEC) a logické "AND" (AND) , aj striedačky na prechod (druhý tím z dvojice). To vám umožní znížiť posledné 2 príkazy na 1 uop v takmer akejkoľvek slučke. Obmedzenia zlučovania príkazov samozrejme zostávajú, ale nie sú kritické, pretože uvedené situácie pre pár príkazov sa takmer vždy vykonajú:

  • prvý z prvého príkazu musí byť register;
  • ak je druhý operand prvej inštrukcie v pamäti, RIP-relatívne adresovanie je neplatné;
  • druhý príkaz nemôže byť na začiatku alebo prekročiť hranicu čiary.

Pravidlá pre samotný prechod sú:

  • iba TEST a AND sú kompatibilné s akoukoľvek podmienkou;
  • porovnania na (ne)rovná sa a akékoľvek podpísané sú kompatibilné s akýmkoľvek povoleným prvým príkazom;
  • porovnania na (ne)nosných a akýchkoľvek nepodpísaných nie sú kompatibilné s INC a DEC;
  • iné porovnania (znamienko, pretečenie, parita a ich negácie) sú povolené len pre TEST a AND.

Hlavnou zmenou vo frontoch uops je, že zlúčené uops typu , ktorých prístup do pamäte vyžaduje čítanie registra indexu, (a niekoľko ďalších zriedkavých typov) sa pri zápise do IDQ rozdelia do párov. Aj keď sú 4 takéto mopy, potom všetkých 8 finálnych bude zaznamenaných v IDQ. Je to spôsobené tým, že mop (IDQ), dispečer (ROB) a rezervačné fronty teraz používajú skrátený formát mopu bez 6-bitového indexového poľa (samozrejme, aby sa ušetrili peniaze pri presúvaní mopu). Predpokladá sa, že takéto prípady budú ojedinelé, a teda rýchlosť to veľmi neovplyvní.

Históriu výskytu režimu blokovania cyklu v tejto vyrovnávacej pamäti popíšeme nižšie, ale tu uvedieme iba jednu maličkosť: prechod na začiatok cyklu predtým trval 1 ďalší cyklus, čím sa medzi odčítaniami hodnoty koniec a začiatok cyklu, ale teraz je to preč. Avšak posledné ups z aktuálnej iterácie a prvé z nasledujúceho nemôžu byť v štyroch ups prečítaných za cyklus, takže v ideálnom prípade by mal byť počet ups v slučke deliteľný 4. Kritériá na jeho blokovanie majú moc sa nezmenilo:

  • slučkové mopy musia byť generované nie viac ako 8 32-bajtovými časťami zdrojového kódu;
  • tieto časti musia byť uložené do vyrovnávacej pamäte v L0m (v Nehalem, samozrejme, v L1I);
  • povolených je až 8 nepodmienených skokov, ktorých vystrelenie sa predpokladá (vrátane posledného);
  • volanie a vrátenie nie sú povolené;
  • nepárové prístupy do zásobníka nie sú povolené (najčastejšie pri nerovnakom počte PUSH a POP príkazov) – viac o tom nižšie.

zásobníkový motor

Existuje ešte jeden mechanizmus, ktorého prácu sme v predchádzajúcich článkoch nezohľadnili - zásobníkový stroj (sledovač ukazovateľa zásobníka, „sledovač ukazovateľa (na vrchol) zásobníka“), ktorý sa nachádza pred IDQ. Objavil sa v Pentiu M a dodnes sa nezmenil. Jeho podstatou je, že úprava ukazovateľa zásobníka (registra ESP / RSP pre 32/64-bitový režim) s príkazmi na prácu s ním (PUSH, POP, CALL a RET) sa vykonáva samostatnou sčítačkou, výsledok sa uloží v špeciálnom registri a vrátil sa do mopu ako konštantný - namiesto toho, aby sa po každej inštrukcii upravil ukazovateľ na podľa potreby a ako to bolo v prípade procesorov Intel pred Pentiom M.

Deje sa to dovtedy, kým nejaká inštrukcia priamo nepristúpi k ukazovateľu (a v niektorých iných zriedkavých prípadoch) - zásobníkový modul porovná tieňový ukazovateľ s nulou a ak je hodnota nenulová, vloží uops do prúdu predtým, než sa inštrukcia volajúca ukazovateľ zosynchronizuje uop ktorý zapíše do ukazovateľa aktuálnu hodnotu zo špeciálneho registra (a samotný register sa vynuluje). Keďže je to zriedka potrebné, väčšina prístupov k zásobníkom, ktoré iba implicitne modifikujú ukazovateľ, používa jeho tieňovú kópiu, ktorá sa upravuje súčasne s inými operáciami. To znamená, že z hľadiska potrubných blokov sú takéto príkazy kódované jedným zlúčeným mopom a nelíšia sa od bežných prístupov do pamäte, bez toho, aby vyžadovali spracovanie v ALU.

Pozorný čitateľ (dobré popoludnie!) si všimne súvislosť: keď sa fronta uops pretáča, nespárované prístupy do zásobníka sú neprijateľné práve preto, že zásobníkový modul je v procese predtým IDQ - ak sa po ďalšej iterácii ukáže, že hodnota tieňového ukazovateľa je nenulová, bude potrebné vložiť synchromop do novej iterácie a v cyklickom režime to nie je možné (uops sa čítajú iba z IDQ). Okrem toho je zásobníkový motor vo všeobecnosti vypnutý, aby sa šetrila energia, ako všetky ostatné časti prednej časti.

Tajný život nopsov

Ďalšia zmena bola vykonaná na diaľkomere, ale toto puzdro trochu vyčnieva. Najprv si pripomeňme, čo sú a prečo sú potrebné. V architektúre x86 bol nop iba 1-bajtový. Keď bolo potrebné posunúť kód o viac ako 1 bajt alebo nahradiť príkazy dlhšie ako 1 bajt, jednoducho ich viackrát vložili. Ale napriek tomu, že tento príkaz nič nerobí, jeho dekódovanie stále trvá určitý čas a je úmerné počtu uzlov. Aby výkon „opraveného“ programu neklesol, nop sa môže predĺžiť. V CPU 90-tych rokov však rýchlosť dekódovania príkazov s počtom prefixov nad určitú hodnotu (ktorá je oveľa menšia ako maximálna povolená dĺžka x86 príkazu 15 bajtov) prudko klesla. Okrem toho, konkrétne pre nopa, sa predpona používa spravidla jedného typu, ale mnohokrát sa opakuje, čo je povolené len ako nežiaduca výnimka, ktorá komplikuje meradlo dĺžky.

Na vyriešenie týchto problémov, keďže procesory Pentium Pro a Athlon rozumejú "dlhé nie" s byte modR/M pre "oficiálne" predlžovanie príkazov pomocou registrov a offsetu adries. Prirodzene nedochádza k žiadnym operáciám s pamäťou a registrami, ale na určenie dĺžky sa používajú rovnako dlhé bloky ako pri bežných viacbajtových príkazoch. Používanie dlhých nopov teraz oficiálne odporúčajú návody na optimalizáciu softvéru na nízkej úrovni od Intelu aj AMD. Mimochodom, preddekodér SB znížil na polovicu (zo 6 na 3 cykly) penalizáciu pre prefixy 66 a 67, ktoré menia dĺžku konštanty a offsetu adries - ale podobne ako v Nehaleme, penalizácia nie je uvalená na príkazy, kde tieto prefixy áno. v skutočnosti nemenia dĺžku (napríklad ak sa predpona 66 použije na inštrukciu bez okamžitého operandu) alebo nie sú súčasťou zoznamu prepínačov (čo sa často používa vo vektorovom kóde).

Maximálna dĺžka správne naformátovaného dlhého nop nepresahuje 9 bajtov pre Intel a 11 bajtov pre AMD. A preto pri zarovnaní na 16 alebo 32 bajtov môže stále existovať niekoľko nopov. Keďže je však tento príkaz jednoduchý, jeho dekódovanie a „spustenie“ nezaberie viac prostriedkov ako spracovanie najjednoduchších operačných príkazov. Preto bolo dlhé roky testovanie dlhých uzlov štandardnou metódou na určenie parametrov čela dopravníka, najmä dĺžkového merača a dekodéra. A tu Sandy Bridge predstavil veľmi zvláštne prekvapenie: testovanie výkonu bežných programov neodhalilo žiadne oneskorenia a spomalenia, no syntetická kontrola parametrov dekodéra v službe nečakane ukázala, že jeho výkon sa rovná jednej inštrukcii na takt! Intel zároveň neposkytol žiadne oficiálne oznámenia o takýchto radikálnych zmenách v dekodéri.

Postup merania fungoval na Nehalem dobre a ukázal správne 4 . Môžete zvaliť vinu na nový a „nad“ aktívny Turbo Boost 2.0, ktorý kazí namerané takty, ale pre testy bol deaktivovaný. Vylúčené je aj prehrievanie s frekvenčným škrtením. A keď sa konečne zistil dôvod, stal sa ešte zvláštnejším: ukázalo sa, že dlhé nopy na SB spracováva iba prvý jednoduchý prekladač, hoci 1-bajtové nopy s ľubovoľným počtom predpôn a podobnými „nečinnými“ príkazmi (napr. napríklad skopírovanie registra do seba) sa dajú ľahko akceptovať všetky štyri. Nie je jasné, prečo sa tak stalo, ale minimálne jedna nevýhoda takéhoto technického riešenia sa už jasne ukázala: náš výskumný tím strávil desať dní, aby zistil príčiny záhadnej pomalosti dekodéra ... plány istého spoločnosť I. zmiasť naivných udatných spracovateľov výskumníkov. :)

Mimochodom, ako sa ukázalo, prekladateľ č. 1 už bol medzi ostatnými „rovnejší“. V Nehaleme boli pokyny cyklického rolovania (ROL a ROR) s explicitným konštantným operandom tiež dekódované iba v prvom prekladači a štvrtý bol v rovnakom cykle vypnutý, takže hodnota IPC klesla na 3. Zdalo by sa – prečo tu uvádzať taký vzácny príklad? Ale práve kvôli tomuto úlovku, aby sa dosiahla maximálna rýchlosť na hashovacích algoritmoch, ako je SHA-1, bolo potrebné veľmi presné plánovanie inštrukcií, s ktorým si kompilátory nevedeli poradiť. V SB sa však takéto inštrukcie jednoducho stali 2-cestnými, takže pri obsadení zložitého prekladača (ktorý už jeden je) sa pre CPU správajú takmer na nerozoznanie, no pre človeka a kompilátora predvídateľnejšie. S nopasom to bolo naopak. Mop cache

Ciele a predchodcovia

Nie nadarmo sme túto kapitolu oddelili od zvyšku popisu prednej strany – pridanie mop cache jasne demonštruje, akú cestu zvolil Intel pre všetky svoje procesory, počnúc Core 2. Prvýkrát (pre Intel) , bol pridaný blok, ktorý súčasne dosiahol dva, zdá sa, protichodné ciele: zvýšenie rýchlosti a úsporu energie. Hovoríme o fronte príkazov (IQ) medzi preddekodérom a dekodérom, v ktorom je potom uložených až 18 príkazov až do celkovej veľkosti 64 bajtov. Ak by to len vyrovnalo rozdiel v rýchlosti prípravy a dekódovania príkazov (ako bežná vyrovnávacia pamäť), prínos by bol malý. Intel však uhádol, že k IQ pripojí malý blok LSD (je nepravdepodobné, že by chalani niečo „akceptovali“, majú len taký humor) – Loop Stream Detector, „detektor cyklického toku“. Po zistení cyklu, ktorý sa zmestí do 18 inštrukcií, LSD deaktivuje všetky predchádzajúce fázy (prediktor, vyrovnávacia pamäť L1I a preddekodér) a vyradí inštrukcie cyklu do dekodéra, kým sa nedokončí alebo kým sa nevykoná prechod za ním (hovory a návraty sú nie je povolené). Dočasne nečinné bloky sa teda ušetria a výkon sa zvýši vďaka zaručenému toku 4 inštrukcií/cyklov pre dekodér, aj keď boli „opatrené“ tými najnevhodnejšími predponami.

Intelu sa tento nápad očividne páčil, a tak bola schéma optimalizovaná pre Nehalem: IQ bolo duplikované (pre dva streamy) a medzi dekodérom a dispečerom (t. j. presne na hranici prednej a zadnej časti boli vytvorené dve IDQ fronty po 28 uops). každý bol umiestnený a blok LSD bol prenesený do nich. Teraz, keď je cyklus zablokovaný, dekodér je tiež vypnutý a výkon sa zvýšil, a to aj vďaka zaručenému prílevu nie 4 príkazov, ale 4 uops za takt, aj keď boli generované s minimom (pre Core 2 /i) v tempe 2 uop/takt. Rozzúrení fanúšikovia Opposite Camp, ktorí sa na chvíľu odtrhnú od svojej obľúbenej činnosti, okamžite vložia sponku do vlasov: ak je LSD taká dobrá vec, prečo nebolo zabudované do Atomu? A vlásenka je pravdivá - s 32-up frontom za dekodérom, Atom nie je schopný zablokovať cyklus v ňom, čo by bolo veľmi užitočné pre úsporu vzácnych miliwattov. Napriek tomu sa Intel nemienil vzdať tohto nápadu a pripravil aktualizáciu pre nové CPU a aká aktualizácia!

Oficiálny interný názov pre uop cache je DSB (decode stream buffer), hoci nie je taký presný ako odporúčaný výraz DIC (decoded inspection cache). Napodiv nenahrádza, ale dopĺňa IDQ fronty, ktoré sú teraz pripojené k dekodéru alebo s skrýšou mopov. Pri ďalšej predikcii vetvenia sa cieľová adresa súčasne kontroluje v inštrukčnej a uop cache. Ak posledný funguje, vychádza z neho ďalšie čítanie a zvyšok prednej časti je vypnutý. To je dôvod, prečo je uop cache vyrovnávacia pamäť úrovne 0 pre uop, t.j. L0m.

Je zaujímavé, že v tejto myšlienke sa dá pokračovať volaním IDQ cache „mínus prvá“ úroveň. :) Ale nie je taká zložitá hierarchia v rámci ani nie celého jadra, ale len jedného frontu zbytočná? Nech Intel ako výnimku nešetrí priestorom, ale prinesie pár IDQ značné dodatočné úspory, keďže počas ich prevádzky je teraz deaktivovaná iba vyrovnávacia pamäť uops, pretože zvyšok prednej časti (okrem prediktora) je už spí? A napokon, nedosiahnete ani špeciálne zvýšenie rýchlosti, pretože vyrovnávacia pamäť uop je tiež nastavená na generovanie 4 uop / cyklus. Inžinieri Intelu sa zrejme rozhodli, že 3-úrovňová hra stojí za miliwattové sviečky.

Okrem úspor zrýchľuje mop cache výkon, a to aj znížením trestu za falošnú predikciu vetvy: v Nehalem, keď bol nájdený správny kód v L1I, trest bol 17 cyklov, v SB - 19, ale ak bol kód nájdených v L0m - potom len 14. Navyše toto sú maximálne čísla: pri falošne predpovedanom prechode musí plánovač stále spustiť a dokončiť predchádzajúce ups v poradí programu a počas tejto doby môže mať L0m čas načerpať správne uops, aby ich plánovač mohol spustiť hneď po odstúpení príkazov pred prechodom. V Nehaleme táto technika fungovala s IDQ a prednou stranou, ale v prvom prípade je pravdepodobnosť, že správna cieľová adresa bude aj vo vnútri 28-mopového cyklu veľmi malá, a v druhom prípade je pomalosť prednej strany vo väčšine prípadov. prípady neumožnili znížiť meškanie na nulu. SB má takých šancí viac.

Zariadenie

Topologicky sa L0m skladá z 32 x 8 riadkov (8- ). Každý riadok ukladá 6 uopov (v celej vyrovnávacej pamäti - 1536, t.j. "jeden a pol kiloope"), pričom vyrovnávacia pamäť môže zapisovať a čítať po jednom riadku. Prediktor poskytuje adresy 32-bajtových blokov a je to práve táto veľkosť, ktorá funguje pre L0m, preto ďalej pod pojmom "chunk" rozumieme 32-bajtový blok kódu zarovnaný a predpovedaný ako vykonávajúci 32-bajtový blok. kódu (a nie 16-bajtového, ako v prípade dekodéra). Pri dekódovaní ovládač L0m čaká na spracovanie časti až do konca alebo kým sa v ňom nespustí prvý prechod (samozrejme, pravdepodobne - ďalej predpokladáme, že predpovede sú vždy správne), pričom akumuluje uops súčasne s ich odoslaním dozadu. Potom opraví vstupné a výstupné body bloku podľa správania prechodov. Zvyčajne je vstupným bodom cieľová adresa prechodu spusteného v predchádzajúcom bloku (presnejšie spodných 5 bitov adresy) a výstupným bodom je vlastná adresa spusteného prechodu v tomto bloku. V extrémnom prípade, ak ani predchádzajúca, ani aktuálna časť nespustí jediný prechod (t. j. časti sa nielen vykonajú, ale aj uložia do radu), potom sa vykonajú obe v celom rozsahu – ich zápis bude na nulový mop a prvý bajt prvého úplne prispôsobeného v tejto časti príkazu a výstupom je posledný mop posledného úplne prispôsobeného príkazu a jeho počiatočný bajt.

Ak je v časti viac ako 18 ups, neukladá sa do vyrovnávacej pamäte. Toto nastaví minimálnu priemernú (v rámci kúsku) veľkosť inštrukcie na 1,8 bajtu, čo vo väčšine programov nebude predstavovať vážne obmedzenie. Môžeme si pripomenúť druhý bod IDQ obmedzení – ak sa cyklus zmestí do porcie, ale trvá od 19 do 28 uops, L0m cache ani IDQ front to neopravia, hoci veľkosťou by sa zmestil všade. V tomto prípade by však mala byť priemerná dĺžka príkazov 1,1–1,7 bajtov, čo je pri dvoch desiatkach príkazov za sebou extrémne nepravdepodobné.

S najväčšou pravdepodobnosťou sú časti uop súčasne zapísané do vyrovnávacej pamäte, pričom zaberajú 1-3 riadky jednej sady, takže pre L0m je porušený jeden z hlavných princípov fungovania vyrovnávacej pamäte asociatívnej s množinami: zvyčajne sa spustí jeden riadok sady. . Okamžite môžu štítky do troch riadkov dostať adresu rovnakej časti, ktorá sa líši iba sériovými číslami. Keď predikovaná adresa vstúpi do L0m, čítanie prebieha rovnakým spôsobom - spustí sa 1, 2 alebo 3 cesty požadovanej množiny. Je pravda, že takáto schéma je plná nevýhod.

Ak je spustiteľný program vo všetkých kúskoch dekódovaný na 13–18 uops, čo zaberie 3 L0m riadkov pre všetky chunky, nájde sa nasledovné: ak je aktuálna množina už obsadená dvoma 3-riadkovými chunkmi a tretí je pri pokuse o zápis (čo nebude stačiť na jeden riadok) budete musieť nahradiť jeden starý a vzhľadom na jeho konektivitu všetky 3 staré. Viac ako dve časti kódu „small-command“ v sade by sa teda nemali zmestiť. Pri testovaní tohto predpokladu v praxi sa stalo toto: porcie s veľkými príkazmi, ktoré si vyžadovali menej ako 7 uops, boli zabalené do L0m s číslom 255 (z nejakého dôvodu nevyšlo zobrať ešte jeden), zmestili sa takmer 8 KB. kódu. Stredné kusy (7 – 12 uops) zaplnili všetkých 128 možných pozícií (každý 2 riadky), uložili do vyrovnávacej pamäte presne 4 KB. Malé príkazy sa zmestia do 66 častí, čo je o dve viac ako očakávaná hodnota (2112 bajtov oproti 2048), čo sa zjavne vysvetľuje hraničnými účinkami nášho testovacieho kódu. Nedostatok na tvári - ak by sa 256 6-mop liniek podarilo naplniť úplne, stačili by na 85 plných trojíc s celkovou veľkosťou kódu 2720 bajtov.

Možno Intel nepredpokladá, že v niektorom kóde bude toľko krátkych a jednoduchých príkazov, že viac ako 2/3 z nich bude spadať do 3-riadkových častí, ktoré sa navzájom vopred vytlačia z L0m. A aj keď sa s takýmto kódom stretnete - vzhľadom na jednoduchosť jeho dekódovania si zvyšok predných blokov ľahko poradí s úlohou dodať 4 uops/cyklus potrebný pre zadnú časť (avšak bez sľúbenej úspory vo wattoch a penalizácie cyklov v prípade nesprávnej predpovede). Kuriózne, keby mal L0m 6 ciest, nebol by problém. Intel sa rozhodol, že veľkosť vyrovnávacej pamäte o tretinu väčšia kvôli asociativite je dôležitejšia ...

Rozmery

Pripomeňme, že myšlienka ukladania veľkého počtu uops namiesto x86 inštrukcií nie je nová. Prvýkrát sa objavil v Pentiu 4 vo forme vyrovnávacej pamäte uop traces - sekvencií uopov po rozvinutí slučky. Okrem toho vyrovnávacia pamäť sledovania nedopĺňala, ale nahradila chýbajúce L1I - príkazy pre dekodér sa čítali okamžite z . Napriek zabudnutiu architektúry NetBurst je rozumné predpokladať, že inžinieri Intelu použili minulé skúsenosti, aj keď bez odvíjania slučky a prediktora venovaného vyrovnávacej pamäti. Porovnajme staré a nové riešenia (nové CPU sa tu nazývajú Core i 2, pretože čísla takmer všetkých modelov s architektúrou SB začínajú dvojkou):

* - pravdepodobne

Tu potrebujeme vysvetlenie. Po prvé, priepustnosť pre L0m je založená na limite celkovej šírky potrubia 4 uop. Vyššie sme predpokladali, že L0m dokáže čítať a zapisovať 18 uops za cyklus. Pri čítaní sa však nedá poslať všetkých 18 (keby ich bolo pri dekódovaní pôvodnej časti len toľko) po hodine a odosielanie prebieha cez niekoľko hodín.

Ďalej, veľkosť mopu v bitoch vo všeobecnosti odkazuje na veľmi chúlostivé informácie, ktoré výrobcovia buď nezverejňujú vôbec, alebo až keď sú pritlačené k stene (hovoria, že ste už všetko vypočítali, tak buďte - my potvrdiť to). Pre procesor Intel je posledným spoľahlivo známym údajom 118 bitov pre Pentium Pro. Je jasné, že odvtedy sa veľkosť zväčšila, ale tu sa začína hádať. 118 bitov pre 32-bitový x86-CPU možno získať, ak má mop polia pre adresu inštrukcie, ktorá ho vygenerovala (32 bitov), ​​okamžitý operand (32 bitov), ​​posun adresy (32 bitov), ​​operandy registra (3 o 3 bity + 2 bity na stupnicu pre indexový register) a operačný kód (11 bitov, v ktorých je zakódovaná špecifická verzia príkazu x86, berúc do úvahy prefixy). Po pridaní , a SSE2 sa pole operačného kódu pravdepodobne zväčšilo o 1 bit, z čoho sa získalo číslo 119.

Po prechode na (Prescott a ďalej) by sa teoreticky mali všetky 32-bitové polia zvýšiť na 64 bitov. Ale sú tu jemnosti: 64-bitové konštanty v x86-64 sú povolené len po jednej (to znamená, že obe konštanty v príkaze určite nezaberú viac ako 8 bajtov) a potom a teraz to stojí 48 bitov . Na zväčšenie veľkosti mopu teda stačí len 16 bitov adresy a 3 ďalšie bity čísel registrov (z ktorých je 16) – dostaneme (približne) 138 bitov. No, v SB sa mop zjavne rozrástol o ďalší 1 bit v dôsledku pridania ďalších niekoľko stoviek príkazov od posledného P4 a ďalších 8 - zvýšením maximálneho počtu explicitne špecifikovaných registrov v príkaze na 5 (keď pomocou AVX). To druhé je však pochybné: predstavte si, že do architektúry x86 nebol pridaný ani jeden jediný ako i386. Nový príkaz, ktorý vyžaduje aspoň 4 bajty konštanty (s jedinou nedávnou a mimoriadne jemnou výnimkou v SSE4.a od AMD, o ktorej ani väčšina programátorov nevie). A keďže Intel AVX a AMD aktualizovali kódovanie iba vektorových inštrukcií, bity ďalších čísel registrov sa zmestia do hornej polovice čiastočne nevyužitého (pre tieto inštrukcie) 32-bitového poľa okamžitého operandu. Navyše v samotnom príkaze x86 je 4. alebo 5. register zakódovaný iba štyrmi bitmi konštanty.

Je zrejmé, že skladovanie a odosielanie takýchto „monštrá“ v akomkoľvek veľkom množstve je veľmi nákladné. Preto aj pre P4 prišiel Intel so skrátenou verziou mopu, v ktorom je len jedno pole pre obe konštanty a ak sa tam nezmestia, tak chýbajúce bity sa umiestnia do rovnakého poľa susedného mopu. . Ak tam však už ukladá svoje konštanty, tak je potrebné vložiť nop ako donora-nosiča dodatočných bitov ako suseda. Kontinuita takejto schémy sa pozoruje aj v SB: extra uzly sa nevkladajú, ale príkazy s 8-bajtovými konštantami (alebo so súčtom veľkostí konštanty a posunu adresy 5–8 bajtov) majú dvojnásobnú veľkosť. v L0m. Vzhľadom na dĺžku takýchto príkazov sa ich však do porcie nezmestí viac ako 4, takže obmedzenie obsadeného mopu je zjavne nekritické. Napriek tomu uvádzame: SB má na rozdiel od predchádzajúcich CPU až 3 formáty uop – dekódovateľný (najkompletnejší), uložený v uop cache (s neustálym zmenšovaním) a hlavný (bez poľa indexového registra), používaný ďalej v pipeline. . Väčšina uopov však zostáva nedotknutá od dekódovania až po odchod do dôchodku.

Obmedzenia

Špeciálnym formátom mopu sa „Pravidlá používania vyrovnávacej pamäte“ nekončia. Je zrejmé, že taký pohodlný blok ako L0m nemôže byť úplne bez obmedzení jedného alebo druhého stupňa závažnosti, o ktorých sme v propagačných materiáloch nehovorili. :) Začnime tým, že všetky uopy preloženého príkazu sa musia zmestiť do jedného riadku, inak sa prenesú na ďalší. Vysvetľuje to skutočnosť, že adresy uops riadku sú uložené oddelene (aby sa ušetrilo 48 bitov v každom uop) a všetky uops vygenerované príkazom musia zodpovedať adrese jeho prvého bajtu uloženého v tagu. iba jedného riadku. Aby sa obnovili pôvodné adresy, značky ukladajú dĺžky príkazov, ktoré vygenerovali ups. "Netolerancia" uops trochu kazí efektivitu používania L0m, pretože občas sa vyskytujúce príkazy, ktoré generujú niekoľko uopov, majú značnú šancu nezmestia sa do ďalšieho riadku.

Navyše, uops najzložitejších inštrukcií sú stále uložené v mikrokóde ROM a do L0m sa dostanú len prvé 4 ups sekvencie plus odkaz na pokračovanie, takže všetko spolu zaberá celý riadok. Z toho vyplýva, že v časti sa nemôžu vyskytnúť viac ako tri inštrukcie mikrokódu a vzhľadom na priemernú veľkosť inštrukcie budú pravdepodobnejším limitom dve. V skutočnosti sa však stretávajú oveľa zriedkavejšie.

Ďalší dôležitý bod - L0m nemá svoj vlastný . Zdá sa, že by to malo urýchliť overovanie adries (ktoré sú tu len virtuálne) a znížiť spotrebu energie. Všetko je však oveľa zaujímavejšie – nie nadarmo majú všetky moderné kešky . Virtuálne adresné priestory programov vykonávaných v OS sa môžu prekrývať, preto pri prepínaní kontextu úlohy, aby sa nečítali staré dáta alebo kód na rovnakých adresách, je potrebné vynulovať virtuálne adresovateľnú vyrovnávaciu pamäť (toto bolo presne v prípade P4 vyrovnávacia pamäť sledovania). Samozrejme, jeho účinnosť bude v tomto prípade nízka. V niektorých architektúrach tzv. ASID (identifikátor adresného priestoru, identifikátor adresného priestoru) ​​- jedinečné čísla priradené OS každému vláknu. x86 však nepodporuje ASID, pretože je to zbytočné - vzhľadom na prítomnosť fyzických značiek pre všetky vyrovnávacie pamäte. Ale potom prišiel L0m a rozbil obraz. Okrem toho nezabudnite, že vyrovnávacia pamäť uop, ako väčšina zdrojov jadra, je zdieľaná medzi dvoma vláknami, takže obsahuje uop z rôznych programov. A ak k tomu pridáte prepínanie medzi virtuálnymi operačnými systémami v príslušnom režime, potom sa mopy dvoch programov môžu zhodovať v adresách. Čo robiť?

Problém so závitmi sa dá ľahko vyriešiť - L0m sa jednoducho rozdelí na polovicu množinami, takže číslo vlákna udáva najvýznamnejší bit z nastaveného čísla. Okrem toho má L1I politiku uchovávania vo vzťahu k L0m. Preto, keď je kód vyradený z L1I, jeho uops sú tiež odstránené z L0m, čo vyžaduje kontrolu dvoch susedných častí (veľkosť riadkov všetkých moderných CPU cache, nepočítajúc L0m samotnú, je 64 bajtov). Virtuálna adresa z uops uložených vo vyrovnávacej pamäti môže byť teda vždy kontrolovaná v značkách L1I pomocou jej TLB. Ukazuje sa, že hoci L0m má virtuálne adresovanie, požičiava si fyzické značky pre kód z L1I. Existuje však situácia, v ktorej sa L0m úplne resetuje - ako výmena v L1I TLB, tak aj jeho úplný reset (vrátane prepínania prevádzkových režimov CPU). L0m je tiež úplne zakázaný, ak základná adresa selektora kódu (CS) je nenulová (čo je v moderných operačných systémoch extrémne nepravdepodobné).

Práca

Hlavným tajomstvom uop cache je algoritmus, ktorý nahrádza prácu frontu na spracovanie príkazov do uop čítaním z L0m. Začína sa použitím bitov 5–9 adresy cieľa skoku (alebo bitov 5–8 plus číslo toku v prípade 2-vlákna) na výber množiny L0m. Tagy sady obsahujú vstupný bod do časti, ktorej uops sú napísané v riadku zodpovedajúcom tagu a poradové číslo tohto riadku v rámci časti. Môžu sa zhodovať 1-3 riadky, ktoré sa (s najväčšou pravdepodobnosťou) súčasne čítajú do 18-mopovej vyrovnávacej pamäte. Odtiaľ sa do IDQ posielajú štvorky uopov, kým sa nedosiahne výstupný bod – a všetko sa opakuje od začiatku. Navyše, keď v porcii zostanú neodoslané 1-3 posledné upy, sú odoslané s prvými 3-1 ups z novej porcie, čo celkovo predstavuje obvyklé štyri. To znamená, že z pohľadu prijímacej fronty IDQ sú všetky prechody vyhladené do jednotného toku kódu - ako v P4, ale bez vyrovnávacej pamäte sledovania.

A teraz kuriózny moment - v riadku nie sú povolené viac ako dva prechody a ak je jeden z nich bezpodmienečný, potom bude posledný pre riadok. Náš pozorný čitateľ si uvedomí, že pre celú časť je prípustných až 6 podmienených skokov (každý z nich môže fungovať bez toho, aby bol výstupným bodom), alebo 5 podmienených a 1 nepodmienený, čo bude posledný príkaz časti. Prediktor vetvy v CPU Intel je navrhnutý tak, aby si nevšimol podmienenú vetvu, kým sa aspoň raz nespustí a až potom bude predpovedané jej správanie. Ale aj „večné“ prechody tiež podliehajú obmedzeniam. V skutočnosti to znamená, že je povolené dokončiť vykonanie časti mopu a predtým jeho výstupné body.

Ale podobný trik s viacerými vstupmi nebude fungovať - ​​ak dôjde k prechodu na už uloženú časť, ale v inom posune v nej (napríklad keď je viac ako jeden nepodmienený prechod), potom L0m opraví chybu, otočí na prednú stranu a zapíše prijaté uops do novej časti. To znamená, že vo vyrovnávacej pamäti sú povolené kópie pre časti s rôznymi vstupmi a rovnakým, presne známym výstupom (okrem niekoľkých ďalších možných). A keď je kód vytlačený z L1I na L0m, vymažú sa všetky riadky, ktorých vstupné body spadajú do ktoréhokoľvek zo 64 bajtov dvoch častí. Mimochodom, kópie boli možné aj vo vyrovnávacej pamäti sledovania P4 a výrazne znížili efektivitu ukladania kódu ...

Takéto obmedzenia znižujú dostupnosť priestoru L0m. Skúsme si vypočítať, koľko z nej zostáva na reálne použitie. Priemerná veľkosť x86-64 inštrukcie je 4 bajty. Priemerný počet upov na tím je 1,1. To znamená, že s najväčšou pravdepodobnosťou budete mať 8–10 mopu na porciu, čo sú 2 riadky. Ako už bolo predtým vypočítané, L0m bude môcť uložiť 128 takýchto párov, čo stačí na 4 KB kódu. Ak však vezmeme do úvahy neideálne využitie reťazcov, reálne číslo bude pravdepodobne 3-3,5 KB. Zaujímalo by ma, ako to zapadá do celkovej rovnováhy objemov subsystému vyrovnávacej pamäte?

  • 1 (v skutočnosti súčasť L3, v priemere na jadro) - 2 MB;
  • L2 - 256 KB, 8-krát menej;
  • obe L1 – každá 32 KB, 8-krát menej;
  • objem vo vyrovnávacej pamäti v L0m je asi 10-krát menší.

Je zvláštne, že ak v jadre nájdete inú štruktúru, v ktorej je uložených veľa inštrukcií alebo príkazov, potom sa ukáže, že ide o front ROB dispečera, do ktorého sa zmestí 168 uops generovaných približne 650 – 700 bajtmi kódu, čo je 5-krát menej ako efektívny ekvivalentný objem L0m (3– 3,5 KB) a 9-krát menší ako plný objem (6 KB). Týmto spôsobom uop cache dopĺňa dobre usporiadanú hierarchiu rôznych úložísk kódu s rôznymi, ale dobre vyváženými parametrami. Intel tvrdí, že v priemere 80 % prístupov končí v L0m. To je výrazne pod hodnotou 98 – 99 % pre 32 KB L1I cache, ale stále – v štyroch prípadoch z piatich ospravedlňuje svoju prítomnosť vyrovnávacia pamäť uop.

Porovnanie s mobilnými a desktopovými procesormi

V polovici januára sme uskutočnili prvú systémovú štúdiu na novej platforme Intel Sandy Bridge. Tento test zahŕňal prototyp notebooku Toshiba A665-3D s novou grafickou kartou NVIDIA a technológiou NVIDIA Optimus. Ako sa však hovorí, boli príliš šikovní: na notebooku nebola zahrnutá externá grafika. Preto aplikácie, ktoré využívajú grafiku (v prvom rade hry), jednoducho nemalo zmysel testovať. A vo všeobecnosti sa niektoré veci nedajú dostatočne otestovať na skorej a slabo fungujúcej vzorke.

Preto bolo rozhodnuté znova otestovať iný systém a prípad na seba nenechal dlho čakať. Otestovali sme ďalší notebook Hewlett-Packard DV7 na novej platforme a s novou generáciou grafiky od AMD. Pravda, keď už boli testy ukončené, objavili sa informácie o neslávne známej chybe na južnom moste, kvôli ktorej sú predávané zariadenia (vrátane mobilných) stiahnuté z trhu. Výsledky v pravom slova zmysle teda nie sú celkom oficiálne (aspoň Hewlett-Packard požiadal o vrátenie notebooku), ale chápeme, že chyba (a aj tak „teoretická“) nemôže ovplyvniť výsledky testu.

Napriek tomu sa neoplatilo vydať samostatný materiál, len aby sme merania ešte raz zopakovali a označili ich za konečné. Preto sme si v tomto prehľade stanovili niekoľko úloh:

  • skontrolovať výsledky nového systému v „mobilnej“ metodike;
  • skontrolujte fungovanie systému pretaktovania Intel Turbo Boost na inom systéme s iným chladením;
  • porovnať mobilné a desktopové verzie procesora Sandy Bridge v desktopovej metóde na testovanie počítačových systémov.

No prejdime k testovaniu.

Konfigurácia účastníkov testu podľa metodiky pre mobilné systémy

Ako už bolo uvedené, je oveľa ťažšie porovnávať výkon mobilných počítačových subsystémov, pretože sú poskytované na testovanie vo forme hotových výrobkov. Je ťažké robiť závery, pretože rozdiel vo výkone môže ovplyvniť viacero komponentov.

Pozrime sa na konkurentov, presnejšie na zmenu ich zloženia oproti predchádzajúcemu testovaniu. Najprv sme sa rozhodli z porovnania odstrániť model Core i5-540M. Patrí do slabšej dvojjadrovej rady a v rade Sandy Bridge jej budú zodpovedať aj ostatné modely. Ak sú výsledky tohto procesora také dôležité, možno ich prebrať z predchádzajúceho článku. Namiesto toho porovnanie zahŕňa Hewlett-Packard Elitebook 8740w, tiež na procesore Core i7-720QM a bol pridaný hlavný testovací systém pre dnešok - Hewlett-Packard Pavillon DV7 na procesore Sandy Bridge 2630QM.

Testu sa teda zúčastňujú dva modely na procesore Core i7-720QM a dva modely na procesore Core i7 2630QM. To vám umožní nielen porovnať výkon systémov na staršom a novšom procesore, ale tiež sa uistiť, že úroveň výkonu je rovnaká pre dva systémy na rovnakom procesore.

No, prejdeme k analýze konfigurácií notebookov, ktoré sa zúčastňujú testovania.

Názov notebookuVýkon HP 8740wASUS N53JqToshiba A665-3DHP DV7
CPUCore i7-720QMCore i7-720QMCore i7-2630QMCore i7-2630QM
Počet jadier4 (8 streamov)4 (8 streamov)4 (8 streamov)4 (8 streamov)
Menovitá frekvencia1,6 GHz1,6 GHz2 GHz2 GHz
Max. Frekvencia turbo boost2,6* GHz2,6* GHz2,9* GHz2,9* GHz
Veľkosť vyrovnávacej pamäte LLC6 MB6 MB6 MB6 MB
RAM10 GB10 GB4 GB4 GB
Video subsystémNVIDIA QUADROFX 2800MNVIDIA GT 425MIntegrácia Intel.ATI 6570

* frekvencia automatického pretaktovania je indikovaná, ak má procesor všetky štyri jadrá zaťažené. Ak sú pod zaťažením dve jadrá, frekvencia sa môže ešte zvýšiť (z 2,6 GHz na 2,8 GHz) a ak jedno - potom sa zvýši na maximálnu značku (z 2,6 GHz na 2,9 GHz).

Analyzujeme údaje o spracovateľoch potrebné na porovnanie. Po prvé, výrobca tvrdí, že vnútorná architektúra procesora bola optimalizovaná v rade Sandy Bridge, čo by malo priniesť určité zvýšenie celkového výkonu.

Počet hypertradingových jadier a vlákien je rovnaký pre všetkých účastníkov. Iný je však takt: 720QM má len 1,6 GHz, zatiaľ čo nové procesory bežia na 2 GHz. Maximálna taktovacia frekvencia sa však až tak nelíši. Faktom je, že pre 720QM je frekvencia uvedená, keď sú zapojené štyri jadrá, a pre 2630QM - keď je zapojené jedno. Ak má zaťažené štyri jadrá, tak maximálna frekvencia je rovnakých 2,6 GHz. Inými slovami, v „pretaktovanom“ stave by procesory mali bežať na rovnakej frekvencii (kým sa nespustí regulácia teploty). Sandy Bridge má ale pokročilejšiu technológiu pretaktovania Intel Turbo Boost, ktorá dokáže udržať zvýšenú frekvenciu dlhšie, takže môže mať výhodu. Nie je však možné presne predpovedať, ako sa bude pretaktovanie správať, pretože existuje príliš veľa závislostí na vonkajších faktoroch.

Poďme priamo k testom.

Porovnajte výkon radu procesorov Sandy Bridge s predchádzajúcou generáciou v sade aplikácií metodiky výskumu mobilného výkonu. Stanovenie opakovateľnosti výsledkov

Pri testoch sme použili metodiku testovania notebookov v reálnych aplikáciách vzorky z roku 2010. V porovnaní s desktopom má zmenšenú sadu aplikácií, ale ostatné sa spúšťajú s rovnakými nastaveniami (okrem hier boli nastavenia v tejto skupine vážne zmenené a parametre testovacej úlohy pre Photoshop). Preto je možné výsledky jednotlivých testov porovnať s výsledkami desktopových procesorov.

Výsledky hodnotenia jednotlivých skupín aplikácií z tohto materiálu nie je možné priamo porovnávať s údajmi hodnotenia desktopových systémov. Pri testovaní výkonu notebookov nie sú spustené všetky aplikácie metodiky, respektíve hodnotenie sa posudzuje inak. Výsledky hodnotenia desktopových systémov zúčastňujúcich sa testovania boli prepočítané.

Okamžite urobím rezerváciu, že pre každý systém boli testy vykonané dvakrát a medzi spusteniami bol systém preinštalovaný a znova nakonfigurovaný. Inými slovami, ak sa výsledky testov zdajú zvláštne, sú prinajmenšom opakovateľné: na dvoch rôznych čerstvo nainštalovaných systémoch s aktuálnou sadou ovládačov.

Začnime profesionálnymi aplikáciami.

3D vizualizácia

Táto skupina obsahuje aplikácie náročné na výkon procesora aj grafiky.

Výkon HP 8740w
Core i7-720QM
ASUS N53Jq
Core i7-720QM
Toshiba A665-3D
Core i7-2630QM
HP DV7
Core i7-2630QM
Svetelná vlna - práca20,53 22,97 24,87 16,17
Solidworks – práca52,5 58,83 133,12 60,45
Svetelná vlna - hodnotenie122 109 101 155
Solidworks - hodnotenie129 115 51 112
Skupina - hodnotenie126 112 76 134

Zaujímavé je, že oba systémy „druhej vlny“ výrazne prekonávajú systémy testované pred mesiacom a pol. Zaujímalo by ma, čo to je - vplyv vodičov? Iná, v oboch prípadoch výrazne výkonnejšia grafika? Dokonca okrem starých skóre Sandy Bridge sa rovnaká korelácia pozoruje pri porovnaní dvoch Core i7.

Teraz sa dá s istotou povedať, že nová generácia je rýchlejšia. S výnimkou podivných výsledkov SolidWorks, ale k nim sa vrátime v diskusii o výsledkoch desktopovej techniky.

3D vykresľovanie

Pozrime sa, ako sa veci majú v stvárnení záverečnej scény. Takéto vykresľovanie vykonáva CPU.

Výkon HP 8740w
Core i7-720QM
ASUS N53Jq
Core i7-720QM
Toshiba A665-3D
Core i7-2630QM
HP DV7
Core i7-2630QM
svetelná vlna138,58 131,56 269,89 90,22
3Ds Max0:10:04 0:10:06 00:21:56 0:07:45
Svetelná vlna - hodnotenie95 101 49 146
Hodnotenie 3Ds Max113 112 52 147
Skupina - hodnotenie104 107 51 147

Pripomínam, že vzorka Toshiby vykazovala v tomto teste veľmi zlé výsledky. Ale v plne funkčnom systéme vám procesor Sandy Bridge umožňuje dosiahnuť výraznú prevahu v oboch grafických balíkoch. V Lightwave, ako vidíte, je rozdiel medzi dvoma Core i7-720QM, ale v 3Ds MAX nie je takmer žiadny rozdiel.

Ale v oboch testoch je jasné, že procesor Core i7-2630QM je výrazne rýchlejší, výrazne prekonáva zástupcov predchádzajúcej generácie.

Výpočtový

Pozrime sa na výkon procesorov v aplikáciách súvisiacich s matematickými výpočtami.

Výkon HP 8740w
Core i7-720QM
ASUS N53Jq
Core i7-720QM
Toshiba A665-3D
Core i7-2630QM
HP DV7
Core i7-2630QM
Solidworks46,36 45,88 44,02 38,42
MATLAB0,0494 0,0494 0,0352 0,0365
Solidworks - hodnotenie111 112 117 134
MATLAB - rebríček113 113 159 153
Skupina - hodnotenie112 113 138 144

No, matematické testy necítia rozdiel medzi dvoma Core i7-720QM. Z toho môžeme vyvodiť predbežný záver, že tieto aplikácie minimálne reagujú na ostatné komponenty systému a softvérovú časť.

Procesor novej generácie je rýchlejší, no rozdiel tu nie je až taký veľký, je to zrejmé najmä z hodnotiacich čísel. Výkon DV7 v teste MATLAB je o niečo nižší ako A660.

Uvidíme, či v ďalších testoch bude rozdiel medzi novou generáciou a starou približne rovnaký.

Kompilácia

Test rýchlosti kompilácie programu pomocou kompilátora Microsoft Visual Studio 2008. Tento test dobre reaguje na rýchlosť procesora a vyrovnávaciu pamäť a môže využívať aj viac jadier.

Výkon HP 8740w
Core i7-720QM
ASUS N53Jq
Core i7-720QM
Toshiba A665-3D
Core i7-2630QM
HP DV7
Core i7-2630QM
Zostavte0:06:29 0:06:24 0:04:56 0:04:54
Zostavte - hodnotenie123 125 162 163

Rozdiel vo výsledkoch je malý, myslím, že to možno pripísať chybe. Výkonnostný rozdiel medzi týmito dvoma generáciami je značný.

Výkon Java aplikácie

Tento benchmark predstavuje rýchlosť vykonávania sady aplikácií Java. Test je rozhodujúci pre rýchlosť procesora a veľmi pozitívne reaguje na ďalšie jadrá.

Výkon HP 8740w
Core i7-720QM
ASUS N53Jq
Core i7-720QM
Toshiba A665-3D
Core i7-2630QM
HP DV7
Core i7-2630QM
Java79,32 83,64 111,8 105,45
Java - hodnotenie90 94 126 119

A tu sú výsledky o niečo, ale citeľne nižšie pre testované novšie notebooky. Nebudeme hádať, prečo sa tak stalo, ale zdôrazňujem, že výsledky sa opakovali dvakrát. Rozdiel medzi procesormi rôznych generácií je približne rovnaký ako v predchádzajúcom teste.

Prejdime k produktívnym domácim úlohám: práca s videom, zvukom a fotografiami.

2D grafika

Pripomínam, že v tejto skupine zostali len dva testy, dosť rôznorodé. ACDSee konvertuje súbor fotografií z formátu RAW do formátu JPEG a Photoshop vykoná sériu operácií spracovania obrazu - prekrytie filtrom atď. Aplikácie závisia od rýchlosti procesora, ale viacjadrové sa týka až doteraz.

Výkon HP 8740w
Core i7-720QM
ASUS N53Jq
Core i7-720QM
Toshiba A665-3D
Core i7-2630QM
HP DV7
Core i7-2630QM
ACDSee0:07:01 0:06:55 0:05:11 0:04:52
photoshop0:01:17 0:01:17 0:00:49 0:00:51
ACDSee - hodnotenie108 110 146 156
Photoshop - hodnotenie426 426 669 643
Skupina - hodnotenie267 268 408 400

ACDSee vykazuje určitú nestabilitu výsledkov, ale vo všeobecnosti je rozdiel medzi generáciami v súlade s trendom, dokonca je o niečo väčší.

Hodnotenia Photoshopu sa kvôli upravenej testovacej úlohe neoplatí venovať pozornosť. Rovnaké hodnotenia kazia celkové hodnotenie skupiny. Ak sa však pozriete na čas vykonania, môžete vidieť, že výhoda je približne rovnaká.

Kódovanie zvuku v rôznych formátoch

Kódovanie zvuku do rôznych zvukových formátov je pre moderné procesory pomerne jednoduchá úloha. Na kódovanie sa používa obal dBPowerAmp. Vie, ako používať viac jadier (spúšťajú sa ďalšie kódovacie streamy). Výsledkom testu sú jej vlastné body, ktoré sú prevrátenou hodnotou času stráveného kódovaním, t.j. čím viac, tým lepší výsledok.

Výkon HP 8740w
Core i7-720QM
ASUS N53Jq
Core i7-720QM
Toshiba A665-3D
Core i7-2630QM
HP DV7
Core i7-2630QM
jablko148 159 241 238
flac199 214 340 343
opice143 155 239 235
mp389 96 150 152
nero85 91 135 142
ogg60 65 92 90
jablko - hodnotenie90 97 147 145
flac-rating99 106 169 171
hodnotenie opice97 105 163 160
hodnotenie mp3103 112 174 177
nero-rating104 111 165 173
ogg-rating103 112 159 155
Skupina - hodnotenie99 107 163 164

Test je celkom jednoduchý, no zároveň vizuálny. Celkom nečakane sa tu objavil rozdiel medzi oboma procesormi Core i7-720QM a nie v prospech nedávno testovaného systému. Takmer rovnaký výkon predviedli procesory Sandy Bridge. Ako vidno, výhoda nových procesorov je veľmi výrazná, viac ako v predchádzajúcich skupinách testov.

Kódovanie videa

Tri zo štyroch testov kódujú videoklip do konkrétneho formátu videa. Test Premiere stojí mimo, v tejto aplikácii skript zabezpečuje vytvorenie videa vrátane nasadenia efektov, nielen kódovania. Bohužiaľ, Sony Vegas na niektorých systémoch nefungovalo, preto sme jeho výsledky pre tento článok odstránili.

Výkon HP 8740w
Core i7-720QM
ASUS N53Jq
Core i7-720QM
Toshiba A665-3D
Core i7-2630QM
HP DV7
Core i7-2630QM
DivX0:05:02 0:05:23 0:04:26 0:04:18
Premiéra0:05:04 0:04:47 0:03:38 0:03:35
x2640:10:29 0:10:01 0:07:45 0:07:35
Xvid0:03:31 0:03:34 0:02:34 0:02:30
Hodnotenie DivX86 80 98 101
Premiéra - hodnotenie101 107 140 142
x264 - hodnotenie100 105 135 138
XviD - hodnotenie87 86 119 123
Skupina - hodnotenie94 95 123 126

Výsledky kódovania v DivX sa líšia. Z nejakého dôvodu je v tomto teste veľmi veľký rozdiel v systémoch so 720QM a veľmi malý rozdiel medzi starou a novou generáciou.

V ostatných testoch je rozdiel výrazný a rozdiel medzi generáciami zhruba zodpovedá všeobecnému trendu. Zaujímavé je, že v Premiere je rozdiel približne rovnaký ako v jednoduchom kódovaní. Mimochodom, v tomto teste púta pozornosť aj veľký rozdiel medzi oboma systémami na báze 720QM.

A nakoniec niekoľko druhov domácich prác.

Archivácia

Archivácia je pomerne jednoduchý matematický problém, v ktorom aktívne pracujú všetky komponenty procesora. 7z je pokročilejší, pretože môže používať ľubovoľný počet jadier a vo všeobecnosti funguje efektívnejšie s procesorom. Winrar používa až dve jadrá.

Výkon HP 8740w
Core i7-720QM
ASUS N53Jq
Core i7-720QM
Toshiba A665-3D
Core i7-2630QM
HP DV7
Core i7-2630QM
7 zips0:01:57 0:01:55 0:01:30 0:01:27
WinRAR0:01:50 0:01:48 0:01:25 0:01:25
Rozbaliť (RAR)0:00:50 0:00:49 0:00:42 0:00:41
7-zip - hodnotenie115 117 149 154
WinRAR - hodnotenie135 138 175 175
Rozbaliť (RAR) - hodnotenie140 143 167 171
Skupina - hodnotenie130 133 164 167

Rozdiel medzi identickými procesormi je veľmi malý. Opäť môžeme vidieť, že v porovnaní dvoch systémov založených na 720QM, 8740 nie je oveľa, ale stabilne rýchlejší. Procesory novej generácie sú výrazne rýchlejšie, rozdiel medzi oboma generáciami je vo všeobecnosti rovnaký ako vo väčšine ostatných skupín.

Výkon v testoch prehliadača

Aj celkom jednoduché testy. Obidve merajú výkon v Javascripte, čo je možno výkonovo najnáročnejšia časť enginu prehliadača. Trik je v tom, že test V8 má výsledok v bodoch, zatiaľ čo Sunspider má výsledok v milisekundách. V súlade s tým, v prvom prípade, čím vyššie číslo, tým lepšie, v druhom - naopak.

Výkon HP 8740w
Core i7-720QM
ASUS N53Jq
Core i7-720QM
Toshiba A665-3D
Core i7-2630QM
HP DV7
Core i7-2630QM
Googlev8-chrome6216 6262 7414 7366
googlev8-firefox556 555 662 654
Googlev8-ie122 123 152 147
Googlev8-opera3753 3729 4680 4552
Googlev8-safari2608 2580 3129 3103
sunspider-firefox760 747 627 646
Slnečný pavúk - tj4989 5237 4167 4087
Opera Sunspider321 322 275 275
slnečnicové safari422 421 353 354
Googlev8 – hodnotenie134 134 162 160
Sunspider - hodnotenie144 143 172 172
Skupina - hodnotenie139 139 167 166

Porovnanie v HD Play

Tento test bol odstránený z rebríčka pre stolné systémy, no stále je relevantný pre mobilné zariadenia. Aj keď sa systém vyrovná s dekódovaním zložitého videa, v notebooku je stále veľmi dôležité, koľko zdrojov je potrebných na dokončenie tejto úlohy, pretože od toho závisí zahrievanie systému aj výdrž batérie ...

Výkon HP 8740w
Core i7-720QM
ASUS N53Jq
Core i7-720QM
Toshiba A665-3D
Core i7-2630QM
HP DV7
Core i7-2630QM
Hardvér H.2642,6 2,5 2,3 1,2
Softvér H.26419,7 18,9 13,4 14
Hodnotenie hardvéru H.264631 656 713 1367
Hodnotenie softvéru H.264173 180 254 243

V absolútnom vyjadrení rozdiel medzi dvoma 720QM nie je príliš veľký, aj keď v hodnoteniach sa môže zdať významný. Je zaujímavé vidieť rozdiel medzi dvoma procesormi Core i7-2630QM v hardvérovo akcelerovanom režime. Systém s grafikou AMD vykazuje nižšiu záťaž, no s adaptérom Intel boli výsledky veľmi dobré. V softvérovom režime odvádzajú oba systémy dobrú prácu pri dekódovaní, zaťaženie procesora je nízke. Pre procesory Sandy Bridge je zaťaženie systému predvídateľne nižšie.

Pozrime sa na priemerné skóre systémov, ktoré sa zúčastnili testov.

Výkon HP 8740w
Core i7-720QM
ASUS N53Jq
Core i7-720QM
Toshiba A665-3D
Core i7-2630QM
HP DV7
Core i7-2630QM
Celkové hodnotenie systému128 129 158 173

Aj keď rozdiel medzi oboma systémami s procesormi Intel Core i7-720QM bol v niektorých testoch badateľný, vo všeobecnosti ukázali takmer identické výsledky.

Výkon plne funkčného a funkčného systému s procesorom Core i7-2630QM je oveľa vyšší ako u vzorky, ktorú sme testovali skôr. Na základe týchto výsledkov je už možné vyvodiť závery o výkonnosti platformy.

A tieto závery sú také, že výkon novej platformy Sandy Bridge je asi o 35 % (v závislosti od použitých aplikácií) vyšší ako pri použitej platforme predchádzajúcej generácie. Samozrejme, závery stále nie sú konečné. Čipy majú minimálne rôzne frekvencie. A vo všeobecnosti sa vo vzťahu k novým procesorom Intel stal taký koncept ako „hodinová frekvencia“ celkom iluzórny, pretože máme technológiu Intel Turbo Boost.

Kontrola fungovania systému Intel Turbo Boost

Procesory série Sandy Bridge obsahujú novú verziu technológie Intel Turbo Boost, ktorá má oveľa väčšiu kontrolu nad taktovacou rýchlosťou procesora. Systém kontroly a riadenia sa stal oveľa komplexnejším a inteligentnejším. Teraz môže brať do úvahy veľa parametrov: aké jadrá a koľko sú zaťažené, teplotu procesora a jednotlivých komponentov (to znamená, že systém dokáže sledovať a predchádzať lokálnemu prehrievaniu).

Keďže riadenie teploty a záťaže sa stalo efektívnejším, procesor potrebuje menšiu mieru bezpečnosti, aby mohol pracovať stabilne a efektívne za akýchkoľvek vonkajších podmienok (predovšetkým teploty). To vám umožní efektívnejšie využívať jeho možnosti. V skutočnosti je tento systém riadeným pretaktovaním: frekvencia práce sa zvyšuje a ovládanie neumožňuje procesoru prekročiť bezpečné prevádzkové podmienky a stratiť stabilitu alebo sa pokaziť. Ak sa procesor bežiaci na zvýšenej frekvencii príliš zahreje, monitorovací systém automaticky zníži frekvenciu a napája napätie na bezpečné limity.

Nový systém riadenia zrýchlenia navyše dokáže zohľadňovať „efekt zotrvačnosti“. Pri studenom procesore môže krátkodobo stúpnuť frekvencia veľmi vysoko, procesor môže dokonca prekročiť výrobcom udávaný limit odvodu tepla. Ak je záťaž krátkodobá, procesor sa nestihne zahriať na maximálne teploty a ak bude záťaž trvať dlhšie, procesor sa zahreje a systém zníži teplotu na bezpečné hranice.

Procesor Sandy Bridge má teda tri prevádzkové polohy:

Aktivujú sa mechanizmy na úsporu energie, procesor pracuje na nízkej frekvencii a zníženom napájacom napätí. Aktivuje sa systém Intel Turbo Boost, procesor zrýchli na maximálnu povolenú frekvenciu pretaktovania (závisí to okrem iného aj od toho, koľko jadier a akou záťažou), zvýši sa napájacie napätie. Procesor beží na tomto takte, pokiaľ to teplota jadra dovolí. Procesor sa pri prekročení prahových hodnôt pre záťaž alebo zahrievanie vráti na taktovaciu frekvenciu, pri ktorej bude zaručene pracovať stabilne. Napríklad pre 2630QM je táto frekvencia špecifikovaná ako 2 GHz, táto frekvencia je uvedená v špecifikáciách a výrobca garantuje, že procesor bude schopný túto frekvenciu udržiavať po neobmedzenú dobu pri dodržaní špecifikovaných vonkajších podmienok. Intel Turbo Boost umožňuje zvýšiť frekvenciu prevádzky, ale parametre jej prevádzky a frekvencia prevádzky závisia od vonkajších podmienok, takže výrobca nemôže zaručiť, že tento systém bude fungovať vždy rovnako.

Tieto informácie však možno vyčítať z prvej recenzie. Pripomínam, že v prvom teste procesor v nečinnosti pracoval s nasledujúcimi parametrami:

  • Idle: 800 MHz, napájacie napätie 0,771 V.
  • Záťaž (všetky jadrá, maximum): frekvencia 2594 MHz (násobič 26), napájacie napätie 1,231 V.
  • Záťaž (po cca 5 minútach prevádzky) - buď 2594 MHz (násobič 26) alebo 2494 MHz (násobič 25).
  • Zaťaženie (asi po 7-8 minútach práce) - 1995 MHz (násobiteľ 20). Napätie je 1,071 V. Systém sa vrátil k stabilným prevádzkovým parametrom nastaveným výrobcom.

Uvidíme, ako dlho vydrží pretaktovaný Hewlett-Packard DV7.

Spúšťame programy na sledovanie stavu procesora.

Pracovná frekvencia a napätie sú rovnaké ako v predchádzajúcom teste. Pozrime sa na hodnoty teploty.

Všetko je tiché, teploty sú pomerne nízke – 49 stupňov. Na výkonný procesor to nie je veľa. Všimnite si teplotný rozdiel medzi prvým a štvrtým jadrom.

Spustíme záťažový test. Pripomínam, že zaťažuje všetky jadrá naraz, takže maximálne čísla (2,9 GHz) v Intel Turbo Boost neuvidíme.

Ako vidíte, napätie stúplo na 1,211 V, frekvencia sa zmenila na 2594 MHz kvôli zmenenému multiplikátoru, teraz je to 26. Procesor začne rýchlo získavať teplotu, ventilátor chladiaceho systému sa začne ozývať čoraz hlasnejšie.

No uvidíme, koľko vydrží procesor, keď sa prepne na akciovú frekvenciu.

Minúta prešla, je jasné, že teploty sa začínajú stabilizovať.

Prešlo päť minút a teploty sa ustálili. Z nejakého dôvodu sa teplota prvého a štvrtého jadra líši o 10 stupňov. Rozdiel teplôt je prítomný vo všetkých testoch, dokonca aj na voľnobeh je citeľný. Nebudem hovoriť, prečo sa to deje.

Od začiatku testu prešlo 15 minút. Teploty sú stabilné, chladiaci systém si poradí. Frekvencia hodín zostáva na 2,6 GHz.

Uplynulo 48 minút. Laptop pokračuje v prevádzke pri zaťažení, teploty sú stabilné (dobre, stúpli o stupeň). Frekvencia hodín je rovnaká:

Aspoň v zime a v nie príliš horúcej miestnosti môže DV7 pracovať na maximálnej dostupnej frekvencii donekonečna. Výkon chladiaceho systému stačí na to, aby Intel Turbo Boost bez problémov udržal maximálnu dostupnú frekvenciu „pretaktovania“. Teoreticky by bolo možné procesor trochu viac pretaktovať.

Tento záver sa líši od predchádzajúcich výsledkov. Teraz je jasné, že sa oplatí kúpiť kvalitný notebook: ak dizajnéri odviedli dobrú prácu pri vytvorení chladiaceho systému, dostanete dividendy nielen vo forme kvalitného a pevného puzdra, ale aj vo výkone!

No a prejdime k druhej veľmi zaujímavej časti článku: porovnanie mobilného procesora Core i7-2630QM s desktopovými procesormi radu Sandy Bridge v metodike testovania desktopov.

Porovnanie výkonu mobilného procesora Core i7-2630QM s desktopovými procesormi radu Sandy Bridge

Na porovnanie používame výsledky našej štúdie stolných procesorov Core i7 a Core i5 založených na Sandy Bridge.

Porovnajme konfigurácie účastníkov zahrnutím informácií o Core i7-2630QM do tabuľky.

CPUCore i5-2300Core i5-2400Core i5-2500/2500KCore i7-2600/2600KCore i7-2630QM
Názov jadraPiesočný mostPiesočný mostPiesočný mostPiesočný mostPiesočný most
Technológia výroby32 nm32 nm32 nm32 nm32 nm
Frekvencia jadra (std/max), GHz2,8/3,1 3,1/3,4 3,3/3,7 3,4/3,8 2,0/2,9
Počiatočný multiplikačný faktor28 31 33 34 20
Ako funguje Turbo Boost3-2-2-1 3-2-2-1 4-3-2-1 4-3-2-1 n/a
Počet výpočtových jadier/nití4/4 4/4 4/4 4/8 4/8
L1 cache, I/D, KB32/32 32/32 32/32 32/32 n/a
L2 cache, kB4×2564×2564×2564×256n/a
L3 cache, MiB6 6 6 8 6
RAM2× DDR3-1333
Grafické jadro GMA HD2000 2000 2000/3000 2000/3000 3000
Frekvencia grafického jadra (max), MHz1100 1100 1100 1350 1100
zásuvkaLGA1155LGA1155LGA1155LGA1155n/a
TDP95 W95 W95 W95 W45 W

Frekvencia hodín mobilného procesora je nižšia, čo je zrejmé. V maximálnom režime Turbo Boost mierne pretaktuje juniorský desktop Core i5, ktorý funguje aj bez Turbo Boost, ale nič viac. Ale tepelný balík je oveľa nižší - viac ako dvakrát. Navyše má menšiu vyrovnávaciu pamäť poslednej úrovne, len 6 MB. Z plusov stojí za zmienku, že mobilný procesor má štyri jadrá a osem výpočtových vlákien, pretože toto je Core i7. Aspoň nejaká výhoda oproti mladšiemu desktopovému Core i5. Pozrime sa, ako to dopadne v praxi.

Bohužiaľ, úplné porovnanie stále nefungovalo. Niektoré balíčky z desktopovej metodiky sa nespustili (napríklad Pro/Engineer stabilne visel na našom testovacom systéme), v dôsledku toho museli byť ich výsledky vyhodené z hodnotenia, čo znamená, že samotné hodnotenie sa zmenilo oproti hodnoteniam. z hlavného materiálu.

Prejdime k testom. Slovné spojenie „test sa nespustil“ znamená, že test sa na našom notebooku nespustil, takže výsledky všetkých účastníkov testu boli odstránené. Hodnotenia sú v tomto prípade prepočítané.

Podľa výsledkov je hneď jasné, že mobilný procesor na desktopový stráca dosť vážne – výkonnostne nedokáže dosiahnuť ani juniorský procesor novej desktopovej rady. Výsledky desktopového procesora Core i7 sú podľa mňa dosť slabé, napriek tomu by mal byť oveľa výkonnejší ako rad Core i5, podľa výsledkov sa zdá závislosť lineárna. Výsledky Solidworks sú vo všeobecnosti takmer rovnaké pre všetky desktopové systémy. Záleží pri tomto teste na frekvencii procesora?

Pozrime sa na rýchlosť vykresľovania 3D scén.

Core i5-2300Core i5-2400Core i5-2500/2500KCore i7-2600/2600KCore i7-2630QM
3ds max181 195 207 233 157
svetelná vlna153 168 180 234 161
Maya142 170 181 240 165
Vykresľovanie159 178 189 236 161

Tu je situácia o niečo zábavnejšia – mobilný systém predsa len dosiahol úroveň mladšieho desktopu. Desktopové Core i7 je však vo všetkých testoch ďaleko vpredu. Pre porovnanie uvádzame absolútne výsledky jedného z testov, Maya. Výsledkom tohto testu je čas strávený na projekte, ktorý je viditeľnejší ako skóre v iných testoch.

Core i5-2300Core i5-2400Core i5-2500/2500KCore i7-2600/2600KCore i7-2630QM
Maya00:08:47 00:07:20 00:06:52 00:05:11 00:07:34

Ako vidíte, aj pri nie príliš dlhom čase výpočtu projektu je rozdiel značný. V prípade zložitejších projektov by to malo byť ešte viac.

Prejdime k ďalšiemu testu.

Takmer všetky aplikácie používajú zložité matematické výpočty, takže línia desktopov s vyššou frekvenciou bude samozrejme popredu. Zároveň ma veľmi mätie príliš malý rozdiel medzi desktopovým Core i5-2500 a Core i7-2600, v niektorých aplikáciách výkonnejší procesor dokonca stráca. Je hyper-dreading v týchto aplikáciách skutočne taký neefektívny, že ani rozdiel v taktovacích rýchlostiach nedokáže kompenzovať spomalenie, ktoré spôsobuje? Je to o to zaujímavejšie, že konfigurácia jadra v mobilnom procesore je rovnaká ako v rade 2600 a vo všeobecnosti za mladším desktopovým procesorom až tak nezaostáva, vzhľadom na rozdiel v prevádzkových frekvenciách medzi nimi.

A prejdeme k menej odborným a bežnejším testom. A začnime rastrovou grafikou. Bohužiaľ, jeden z testov sa nespustil, čo opäť ovplyvnilo obraz testov.

A opäť, mobilný systém je stabilne na úrovni tesne pod najmladším desktopovým riešením. A to vďaka nečakane vysokému výsledku vo Photoimpact, inak by bol obraz ešte smutnejší. Pre názornosť uvediem výsledky za dve balenia v absolútnych číslach.

Core i5-2300Core i5-2400Core i5-2500/2500KCore i7-2600/2600KCore i7-2630QM
ACDSee00:04:20 00:03:59 00:03:46 00:03:34 00:04:57
photoshop00:03:36 00:03:15 00:03:07 00:02:58 00:04:00

Týmto spôsobom môžete odhadnúť konkrétny rozdiel v čase vykonania úlohy.

Prejdime k testom archivácie. Ide o jednoduché výpočty, z ktorých je dobrý pocit, pokiaľ ide o rýchlosť a prítomnosť ďalších jadier procesora (hoci o tom existujú otázky).

Core i5-2300Core i5-2400Core i5-2500/2500KCore i7-2600/2600KCore i7-2630QM
7 zips140 151 156 213 137
RAR191 207 216 229 173
Rozbaliť (RAR)179 194 206 219 167
Archivári170 184 193 220 159

A znova a znova... Ak sa pozriete na výsledky 7-zip, môžete vidieť, že viacjadrové (dokonca aj vo forme hyper-threadingu) prináša značné dividendy. Ale zdá sa, že rýchlosť hodín prináša aj značné dividendy, pretože mobilné Core i7 s ôsmimi jadrami opäť zaostávalo za mladším desktopovým procesorom. A rovnaká situácia pretrvávala aj v testoch Winrar. Ale desktopový Core i7-2600 v 7-zip teste ide veľmi ďaleko vpred.

Kompilačný test, opäť s využitím matematických možností procesora ...

V teste výkonu Java aplikácií sa trend v podstate potvrdzuje. No nevybavené mobilné procesory sú ešte väčšie.

Poďme sa pozrieť na výkon Javascriptu v moderných prehliadačoch.

Core i5-2300Core i5-2400Core i5-2500/2500KCore i7-2600/2600KCore i7-2630QM
Google V8161 176 190 191 148
slnečný pavúk156 162 167 170 198
Prehliadač159 169 179 181 173

Ak sa výsledky testov od Google približne zhodujú s tým, čo sme videli predtým, potom je so Sunspiderom zjavne niečo zlé. Aj keď v zásade vo všetkých prehliadačoch tento test fungoval na mobilnom procesore rýchlejšie ako na všetkých desktopových, vrátane desktopového Core i7 (ktorý sa však podľa výsledkov veľmi mierne líši od staršieho Core i5).

Vo všeobecnosti veľmi neočakávaný výsledok druhého testu, ktorý neviem vysvetliť. Možno niečo v softvéri fungovalo inak?

Zanechajme internetové aplikácie a prejdime k práci s videom a zvukom. Je to tiež pomerne populárny typ aktivity, a to aj pre mobilné počítače.

Core i5-2300Core i5-2400Core i5-2500/2500KCore i7-2600/2600KCore i7-2630QM
Strata Apple135 149 154 206 126
FLAC145 159 171 233 144
Opičí zvuk150 165 174 230 139
MP3 (LAME)162 179 191 258 152
Nero AAC154 171 179 250 148
Ogg Vorbis164 179 191 252 147
Zvuk152 167 177 238 143

Kódovanie zvuku nám nerobí žiadne prekvapenia. Mobilný Core i7-2630QM je o niečo slabší ako všetky testované desktopové procesory, desktopový Core i7 výrazne zaostáva. A čo kódovanie videa?

Core i5-2300Core i5-2400Core i5-2500/2500KCore i7-2600/2600KCore i7-2630QM
DivX146 160 170 157 96
Hlavná koncepcia (VC-1)153 167 175 187 133
Premiéra155 169 178 222 132
Vegas164 177 185 204 131
x264152 165 174 225 136
Xvid166 180 190 196 133
video156 170 179 199 127

Backlog mobilného procesora sa zvýšil, desktopový Core i7 je stále výrazne pred všetkými ostatnými procesormi, aj keď rozdiel sa zmenšil.

No, jedno z „najskutočnejších“ testov: hry!

Core i5-2300Core i5-2400Core i5-2500/2500KCore i7-2600/2600KCore i7-2630QM
Batman131 134 135 134 40
pohraničia142 149 157 160 234
DiRT 2109 110 110 110 36
Far Cry 2200 218 232 237 84
Fritz šach142 156 166 215 149
GTA IV162 164 167 167 144
rezidentné zlo125 125 125 125 119
S.T.A.L.K.E.R.104 104 104 104 28
UT3150 152 157 156 48
Crysis: Bojová hlavica127 128 128 128 40
svet v konflikte163 166 168 170 0
Hry141 146 150 155 84

Núti ma to povedať „och“. Všetky hry sú prehľadne rozdelené na procesorovo závislé a grafické. Inštaláciou výkonnejšieho procesora môžete výrazne zvýšiť rýchlosť v hrách Borderlands, Far Cry 2 a Fritz Chess. Niektoré hry reagujú na výkonnejšie procesory veľmi málo, niektoré nereagujú vôbec. Ak z úvahy odstránime World in Confict, kde mobil Core i7 dostal 0, tak celkové hodnotenie vyzerá takto.

Výsledky boli pre mobilný systém sklamaním a väčšinou to nie je chyba procesora. Pred vyvodením záverov sa pozrime na absolútne čísla výkonu v hrách.

Core i5-2300Core i5-2400Core i5-2500/2500KCore i7-2600/2600KCore i7-2630QM
Batman205 209 210 209 63
pohraničia75 79 83 85 124
DiRT 276 77 77 77 25
Far Cry 276 83 88 90 32
Fritz šach8524 9368 9982 12956 8936
GTA IV63 64 65 65 56
rezidentné zlo128 128 128 128 121,6
S.T.A.L.K.E.R.62,9 62,9 63 62,9 17,2
UT3166 169 174 173 53
Crysis: Bojová hlavica57,4 57,6 57,7 57,7 18,1
svet v konflikte62,6 63,5 64,3 65

Ako vidíte, ak desktopové procesory takmer vždy vykazujú celkom dobré výsledky, tak mobilný systém je na mnohých miestach na prahu hrateľnosti alebo pod ním.

Pre takmer všetky hry sú procesory príliš rýchle, konečný výsledok závisí hlavne od výkonu grafickej karty. Zároveň je úroveň výkonu mobilného systému výrazne nižšia, čo nám umožňuje vyvodiť určité závery o veľmi veľkom rozdiele medzi desktopovými a mobilnými video riešeniami. Rozdiel na príklade našich testov je v priemere trojnásobný. Samostatne stoja GTA IV a Resident Evil, ktoré vykazujú podobné výsledky na všetkých systémoch vrátane mobilných.

V šachovom programe náročnom na procesor sa mobilnému Core i7 darí medzi lacnými stolnými modelmi.

No zhrňme si to.

Core i5-2300Core i5-2400Core i5-2500/2500KCore i7-2600/2600KCore i7-2630QM
Celkové hodnotenie157 170 180 203 141

Celkový výsledok potvrdzuje trend: jeden z najvýkonnejších mobilných procesorov, Core i7-2360QM, sa výkonom nemôže rovnať juniorskému desktopovému procesoru v slabšom rade Core i5. Desktopový procesor Core i7 z hľadiska výkonu ďaleko zaostáva aj za desktopovými procesormi z mladšieho radu, o mobilnej verzii ani nehovoriac.

Záver

Je teda čas robiť unáhlené závery. Dovoľte mi pripomenúť niektoré výsledky z predchádzajúceho materiálu.

Sandy Bridge je na prvý pohľad skutočne veľmi vydarený procesor. Po prvé, bol výrazne vylepšený, boli odstránené nelogické riešenia (rovnaké dva samostatné kryštály vyrobené podľa rôznych technických postupov), štruktúra čipu sa stala logickou a dobre optimalizovanou. Vylepšené komponenty komunikačnej zbernice vo vnútri procesora (ktorý teraz obsahuje video jadro!). Po druhé, bola optimalizovaná štruktúra jadier procesora, čo by malo zlepšiť aj výkon. Prax potvrdzuje teóriu: procesor, ktorý sme mali v teste, ide v porovnaní so súčasnou platformou vo výkone ďaleko dopredu.

V praktickom testovaní Core i7-2630QM, ktorý by mal byť najmladším v novej mobilnej línii Core i7, skutočne vážne prekonáva Core i7-720QM, najbežnejší z najproduktívnejších (alebo najproduktívnejší z bežných) Intel Core. mobilné procesory prvej generácie. Zdá sa, že 2630QM by mal zaujať jeho miesto, teda stať sa mainstreamovým produktívnym procesorom v rade Core 2. generácie.

Vo všeobecnosti môžeme konštatovať, že druhá generácia mobilných procesorov Core z hľadiska výkonu je dobrým krokom vpred. Čo sa týka ďalších výhod radu, myslím, že sa oplatí počkať na vydanie mladších radov a práve veľkého množstva modelov na nových procesoroch a už vtedy hodnotiť také kvality novej rady, ako je vykurovanie, energetická účinnosť atď.

V porovnaní s novými desktopovými procesormi Sandy Bridge Core i5 a i7 však nový mobilný Core i7-2630QM stále stráca. Mobilná platforma je navyše slabšia a stabilná vo všetkých skupinách testov. Ide o bežnú situáciu, pretože pri vytváraní mobilných pravítok je prioritou nielen výkon, ale aj nízka spotreba energie (pre dlhšiu výdrž batérie) a nízka spotreba energie (kvôli kompaktnejším a slabším chladiacim systémom). Stojí za to pozrieť sa aspoň na tepelný balík nového mobilného procesora, ktorý je viac ako dvakrát (!) nižší ako pri desktopových verziách. Musíte za to zaplatiť, vrátane nižšej nominálnej frekvencie a výkonu vo všeobecnosti.

Mimochodom, ak hovoríme o frekvenciách. Hewlett-Packard DV7 v tomto smere príjemne prekvapil (aj keď je možné, že v horúcom lete to nebude také ružové). Procesor s dobrým chladiacim systémom môže pracovať neobmedzene dlho na maximálnej frekvencii Turbo Boost 2,6 GHz, takže je celkom schopný preukázať vyššiu úroveň výkonu ako podľa štandardných špecifikácií. Samozrejme, neexistuje žiadna záruka, že chladiaci systém si v lete poradí, a ak nie, potom úroveň skutočného výkonu v porovnaní s desktopovými systémami môže byť výrazne nižšia ako v našich testoch. Preto sa do popredia dostáva prítomnosť kompetentného chladiaceho systému v notebooku s novým mobilným procesorom Core i7.

“, publikovanom asi pred rokom, sme hovorili o mikroarchitektúre Nehalem, ktorá nahradila Core koncom roka 2008. Táto recenzia sa zameria na architektúru Sandy Bridge, ktorá by mala vo veľmi blízkej budúcnosti úplne nahradiť Nehalem.

K dnešnému dňu sú čipy založené na Sandy Bridge zastúpené vo všetkých radoch procesorov Intel, vrátane serverových Xeon, desktopových a mobilných Core i3 / 35 / i7, Pentium a Celeron a "extrémnych" Core i7 Extreme. Krátko pred uverejnením tohto článku, 22. mája 2011, bolo predstavených ďalších sedem nových procesorov založených na Sandy Bridge.

Aké sú zásadné rozdiely medzi Sandy Bridge a Nehalem a aké sú vlastnosti a výhody novej mikroarchitektúry Intel? Stručne povedané, tieto rozdiely sú nasledovné: aktualizované grafické jadro ako súčasť „systémového agenta“ sa nachádza na rovnakom čipe ako výpočtový, nová vyrovnávacia pamäť mikroinštrukcií L0, zdieľaná vyrovnávacia pamäť L3, vylepšená technológia Turbo Boost, K dispozícii je rozšírená inštrukčná sada SIMD AVX a prepracovaný dvojkanálový radič DDR3 1333 MHz RAM. Spolu s novou architektúrou sa objavila aj nová pätica procesora LGA 1155.

Jedným z hlavných konštrukčných rozdielov medzi Sandy Bridge a Nehalem je umiestnenie výpočtových jadier a severného mostíka (systémového agenta) na rovnakom čipe. Pripomeňme, že v Nehalem bol samotný CPU a severný most umiestnený pod spoločným krytom, ale v skutočnosti boli umiestnené na nezávislých čipoch, ktoré boli navyše vyrobené podľa rôznych technologických štandardov: CPU - pri 32nm a severný most - pri 45 nm. V Sandy Bridge ide o jednu matricu vyrobenú podľa 32-nm procesnej technológie, na ktorej sú výpočtové jadrá, grafické jadro, radiče RAM, PCI Express, napájací zdroj (Power Control Unit, PCU) a video výstup. jednotka.

Nová sada inštrukcií SIMD v čipoch Sandy Bridge sa nazýva AVX – Advanced Vector Extensions, teda „rozšírené vektorové inštrukcie“. V skutočnosti ide o ďalšiu generáciu inštrukcií SIMD (Single Instruction, Multiple Data – „single instruction stream, multiple data stream“ SSE5, alternatíva k x86 sade vyvinutej AMD. Šírka registrov XMM v inštrukciách AVX sa zdvojnásobila od 128 do 256 bitov, 12 nových 4-operandových inštrukcií Podporuje technológiu hardvérového šifrovania Advanced Encryption Standard (AES) a virtualizačný systém Virtual Machine Extensions (VMX).

Napriek podobnému dizajnu majú čipy Sandy Bridge viac výkonných jednotiek ako Nehalem: 15 oproti 12 (pozri blokovú schému). Každá vykonávacia jednotka je pripojená k plánovaču inštrukcií cez 128-bitový kanál. Dve vykonávacie jednotky sa používajú súčasne na vykonávanie nových inštrukcií AVX obsahujúcich 256-bitové dáta.

Čipy Sandy Bridge sú schopné spracovať až štyri inštrukcie na takt vďaka štyrom dekodérom zabudovaným do jednotiek na načítanie inštrukcií. Tieto dekodéry konvertujú x86 inštrukcie na jednoduché mikroinštrukcie podobné RISC.

Najdôležitejšou novinkou v procesoroch Sandy Bridge je takzvaná „nulová vyrovnávacia pamäť“ L0, ktorá v predchádzajúcej generácii procesorov v podstate chýbala. Táto vyrovnávacia pamäť je schopná uložiť až 1536 dekódovaných mikroinštrukcií: jej význam spočíva v tom, že keď spustiteľný program vstúpi do kruhovej slučky, to znamená, že opakovane vykonáva tie isté inštrukcie, nie je potrebné znova dekódovať tie isté inštrukcie. Táto schéma môže výrazne zlepšiť výkon: podľa odborníkov Intelu sa L0 používa v 80 % strojového času, teda v drvivej väčšine prípadov. Navyše, pri použití L0 sú dekodéry a vyrovnávacia pamäť prvej úrovne deaktivované a čip spotrebúva menej energie a generuje menej tepla.

V súvislosti s objavením sa „nulovej vyrovnávacej pamäte“ v čipoch Sandy Bridge si človek často spomenie na trace cache „veteránov gigahertzových pretekov“ – procesorov Pentium 4 založených na architektúre NetBurst. Medzitým tieto vyrovnávacie pamäte fungujú inak: v trace cache sú inštrukcie zapísané presne v poradí, v akom boli vykonané, takže rovnaké inštrukcie sa v nej môžu opakovať niekoľkokrát. Jednotlivé inštrukcie sú uložené v L0, čo je, samozrejme, racionálnejšie.

Blok predikcie vetvenia prešiel výraznými zmenami, pretože dostal cieľovú vyrovnávaciu pamäť vetvy s dvojnásobnou veľkosťou. Okrem toho je teraz vo vyrovnávacej pamäti použitý špeciálny algoritmus kompresie dát, vďaka ktorému je blok schopný pripraviť veľké množstvo inštrukcií, čím sa zvýši výkon výpočtov.

Pamäťový subsystém v Sandy Brigde bol tiež optimalizovaný na spracovanie 256-bitových inštrukcií AVX. Pripomeňme, že Nehalem používal vyhradené porty na sťahovanie, ukladanie adries a ukladanie údajov viazané na samostatné porty dispečerov, čo znamená, že z vyrovnávacej pamäte L1 je možné načítať 128 bitov údajov za hodinu. V Sandy Brigde môžu byť porty na načítanie a pridržanie priradené podľa potreby a fungujú súčasne ako pár portov na načítanie alebo pridržanie, čo umožňuje 256 bitov dát na hodiny.

Na prepojenie komponentov čipu, teda výpočtových jadier, vyrovnávacej pamäte L3, grafického jadra a systémového agenta (radiče pamäte, PCI Express, napájanie a displej), Sandy Bridge využíva kruhovú zbernicu (ring interconnect). Ako základ bola vzatá rýchla QPI zbernica (Quick Path Interconnect, šírka pásma až 6,4 GB/s pri 3,2 GHz), prvýkrát implementovaná v čipoch Nehalem Lynnfield (Core i7 9xxx pre Socket LGA1366), adresovaná nadšencom.

V podstate kruhová zbernica v Sandy Bridge pozostáva zo štyroch 32-bajtových kruhov: dátové zbernice, dotazovacie zbernice, potvrdzovacie zbernice a monitorovacie zbernice. Požiadavky sú spracovávané na frekvencii výpočtových jadier, pričom pri taktovacej frekvencii 3 GHz dosahuje šírka pásma zbernice 96 GB za sekundu. Systém zároveň automaticky určí najkratšiu cestu prenosu dát, čím zabezpečí minimálnu latenciu.

Použitie kruhovej zbernice umožnilo implementovať pamäť cache L3 iným spôsobom, ktorý sa v Sandy Bridge nazýval LLC (Last Level Cache, teda „vyrovnávacia pamäť poslednej úrovne“). Na rozdiel od Nehalem tu LLC nie je spoločné pre všetky jadrá, ale môže byť distribuované medzi všetky jadrá, ako aj grafiku a systémového agenta, ak je to potrebné. Je dôležité poznamenať, že hoci každé výpočtové jadro má svoj vlastný segment LLC, tento segment nie je pevne zviazaný s „vlastným“ jadrom a jeho objem je možné rozdeliť medzi ostatné komponenty prostredníctvom kruhovej zbernice.

Pri prechode na Sandy Bridge pridelil Intel všetkým komponentom centrálneho procesora, ktoré nepatria k skutočným výpočtovým jadrám, spoločný názov System Agent, teda „systémový agent“. V skutočnosti sú to všetky komponenty takzvaného "severného mostíka" systémovej logiky, ale tento názov je stále vhodnejší pre samostatný mikroobvod. Pri aplikácii na Nehalem sa použil zvláštny a zjavne nešťastný názov „Uncore“, teda „nekernel“, takže „systémový agent“ znie oveľa vhodnejšie.

Medzi hlavné prvky „systémového agenta“ patrí vylepšený dvojkanálový radič DDR3 RAM až do 1333 MHz, radič PCI Express 2.0 s podporou jednej x16 zbernice, dvoch x8 zberníc alebo jednej x8 zbernice a dvoch x4. Čip má špeciálnu jednotku správy napájania, na základe ktorej je implementovaná technológia automatického pretaktovania Turbo Boost novej generácie. Vďaka tejto technológii, ktorá zohľadňuje stav výpočtových aj grafických jadier, dokáže čip v prípade potreby výrazne prekročiť svoj tepelný obal až na 25 sekúnd bez poškodenia procesora a zníženia výkonu.

Sandy Bridge využíva grafické procesory Intel HD Graphics 2000 a HD Graphics 3000 novej generácie, ktoré môžu pozostávať zo šiestich alebo dvanástich exekučných jednotiek (EU) v závislosti od modelu procesora. Nominálny takt grafiky je 650 alebo 850 MHz, pričom sa dá v režime Turbo Boost zvýšiť na 1100, 1250 alebo 1350 MHz, čo po novom platí aj pre video akcelerátor. Grafika podporuje Direct X 10.1 API – vývojári považovali za zbytočné podporovať Direct X 11, oprávnene sa domnievali, že fanúšikovia počítačových hier, kde je toto API skutočne žiadané, by aj tak uprednostnili oveľa produktívnejšiu samostatnú grafiku.

Označenie procesorov Sandy Bridge je celkom jednoduché a logické. Rovnako ako predtým pozostáva z číselných indexov, ktoré sú v niektorých prípadoch doplnené o abecedné. Sandy Bridge od Nehalemu môžete rozlíšiť podľa názvu: index nových žetónov je štvormiestny a začína dvoma („druhá generácia“) a staré sú trojmiestne. Máme napríklad procesor Intel Core i5-2500K. Tu "Intel Core" znamená značku, "i5" je séria, "2" je generácia, "500" je index modelu a "K" je index písmen.

Čo sa týka písmenových indexov, jeden z nich je známy z čipov mikroarchitektúry Nehalem – je to „S“ (procesory i5-750S a i7-860S). Je priradený čipom zameraným na domáce multimediálne stroje. Procesory s rovnakým číselným indexom sa líšia v tom, že modely s písmenovým indexom „S“ pracujú s o niečo nižšou nominálnou taktovacou frekvenciou, no „turbo frekvencia“ dosiahnutá automatickým pretaktovaním Turbo Boost je pre ne rovnaká. Inými slovami, v normálnom režime sú hospodárnejšie a ich chladiaci systém je tichší ako u „štandardných“ modelov. Všetky nové desktopové jadrá druhej generácie bez indexov spotrebujú 95 W a s indexom "S" - 65 W.

Modifikácie s indexom „T“ pracujú na ešte nižšej taktovacej frekvencii ako tie „základné“, pričom nižšia je aj ich „turbo frekvencia“. Tepelný balík takýchto procesorov je iba 35 alebo 45 W, čo je celkom porovnateľné s TDP moderných mobilných čipov.

A nakoniec, index „K“ znamená odomknutý multiplikátor, ktorý vám umožňuje ľubovoľne pretaktovať procesor zvýšením jeho taktovacej rýchlosti.

Oboznámili sme sa so všeobecnými technickými riešeniami implementovanými v „desktopových“ procesoroch s architektúrou Sandy Bridge. Ďalej budeme hovoriť o vlastnostiach rôznych sérií, preštudujeme si aktuálny modelový rad a poskytneme odporúčania, ktoré konkrétne modely možno považovať za najlepšie nákupy vo svojej triede.

Jeho podrobnú recenziu nájdete na našom webe (podpora pre hlboký spánok C6 a nízkonapäťové pamäte LV-DDR3 sa však objavili až vo Westmere). A čo sa objavilo v SB?

Prvý - druhý typ snímačov teploty. Známa tepelná dióda, ktorej údaje „vidí“ BIOS a utility, meria teplotu, aby upravila otáčky ventilátora a chránila pred prehriatím (obmedzenie frekvencie a ak to nepomôže, núdzové vypnutie CPU) . Jeho plocha je však veľmi veľká, pretože v každom jadre (vrátane GPU) a v systémovom agentovi je len jeden z nich. K nim bolo v každom veľkom bloku pridaných niekoľko kompaktných analógových obvodov s tepelnými tranzistormi. Majú menší prevádzkový rozsah merania (80–100 °C), ale sú potrebné na spresnenie údajov tepelnej diódy a vytvorenie presnej mapy ohrevu kryštálu, bez ktorej nie je možné implementovať nové funkcie TB 2.0. A čo viac, regulátor napájania môže dokonca použiť externý snímač, ak ho výrobca základnej dosky umiestni a pripojí - aj keď nie je úplne jasné, ako to pomôže.

Pribudla funkcia prečíslovania C-stavov, pri ktorej sa pre každé jadro sleduje história prechodov medzi nimi. Prechod trvá dlhšie, čím väčšie je „číslo spánku“, do ktorého jadro vstupuje alebo vystupuje. Regulátor určuje, či má zmysel uspávať jadro, pričom berie do úvahy pravdepodobnosť jeho „prebudenia“. Ak sa to čoskoro očakáva, potom namiesto požadovaného OS sa jadro prenesie do C3 alebo C1, t.j. do aktívnejšieho stavu, ktorý sa rýchlo uvedie do prevádzky. Napodiv, aj napriek vyššej spotrebe energie v tomto spánku to nemusí byť ovplyvnené celkovou úsporou, pretože sa skrátia obe prechodné obdobia, počas ktorých procesor vôbec nespí.

Pri mobilných modeloch prepnutie všetkých jadier na C6 spôsobí resetovanie vyrovnávacej pamäte L3 a jej deaktiváciu pomocou vypínačov bežných pre banky. To ešte viac zníži spotrebu pri nečinnosti, ale je spojené s dodatočným oneskorením pri prebudení, pretože jadrá budú musieť vynechať L3 niekoľko sto alebo tisíckrát, kým sa tam nenačerpajú potrebné dáta a kód. Je zrejmé, že v spojení s predchádzajúcou funkciou sa to stane iba vtedy, ak je radič istý, že CPU zaspí na dlhú dobu (podľa štandardov procesorového času).

Core i3/i5 predchádzajúcej generácie boli nejakými šampiónmi z hľadiska zložitosti systému napájania CPU na základnej doske, ktoré vyžadovali až 6 napätí - presnejšie všetkých 6 bolo predtým, ale nie všetky viedli k procesoru. . V SB sa nezmenili číslom, ale použitím:

  • x86-jadrá a L3 - 0,65–1,05 V (v Nehalem je L3 oddelený);
  • GPU - podobné (v Nehaleme je takmer celý severný most, ktorý, ako si spomíname, druhým CPU čipom, napájaný spoločnou zbernicou);
  • systémový agent s pevnou frekvenciou a konštantným napätím 0,8, 0,9 alebo 0,925 V (prvé dve možnosti sú pre mobilné modely), alebo dynamicky nastaviteľným 0,879–0,971 V;
  • - konštantné 1,8 V alebo nastaviteľné 1,71-1,89 V;
  • ovládač pamäťovej zbernice - 1,5 V alebo 1,425–1,575 V;
  • Ovládač PCIe - 1,05 V.

Regulované verzie napájacích koľajníc sa používajú v odomknutých typoch SB s písmenom K. Stolové modely zvýšili nečinnú frekvenciu jadra x86 z 1,3 na 1,6 GHz, zjavne bez obetovania hospodárnosti. Súčasne 4-jadrový procesor spotrebuje 3,5-4 wattov pri plnom nečinnosti. Mobilné verzie sú nečinné na 800 MHz a pýtajú si ešte menej. Modely a čipsety

Výkon

Čo robí táto kapitola v teoretickom prehľade mikroarchitektúry? A to, že existuje jeden všeobecne uznávaný test, ktorý sa už 20 rokov (v rôznych verziách) používa na hodnotenie nie teoretickej, ale programovo dosiahnuteľnej rýchlosti počítačov - SPEC CPU. Dokáže komplexne vyhodnotiť výkon procesora a v lepšom prípade aj vtedy, keď sa zdrojový kód testu skompiluje a zoptimalizuje pre testovaný systém (t. j. mimochodom sa kontroluje aj kompilátor s knižnicami). Touto cestou, užitočné programy budú rýchlejšie iba s ručne písanými prílohami v assembleri, čo sú dnes vzácni odvážlivci s množstvom času. SPEC možno pripísať polosyntetickým testom, pretože nepočíta nič užitočné a nedáva žiadne konkrétne čísla (IPC, prepadáky, časovanie atď.) - „papagáje“ jedného CPU sú potrebné iba na porovnanie s ostatnými. .

Spoločnosť Intel zvyčajne poskytuje výsledky pre svoje CPU takmer v rovnakom čase, ako sú uvoľnené. Ale u SB došlo k nepochopiteľnému 3-mesačnému meškaniu a čísla prijaté v marci sú zatiaľ predbežné. Čo presne ich zdržuje, nie je jasné, no stále je to lepšie ako situácia, keď AMD vôbec nezverejňuje oficiálne výsledky svojich najnovších CPU. Nasledujúce údaje pre Opteron uvádzajú výrobcovia serverov, ktorí používajú kompilátor Intel, takže tieto výsledky môžu byť nedostatočne optimalizované: čo Softvérový nástroj Intel si vystačí s kódom bežiacim na „cudzom“ CPU. ;)


Porovnanie systémov v testoch SPEC CPU2006. Tabuľku zostavil David Kanter k marcu 2011.

V porovnaní s predchádzajúcimi CPU vykazuje SB vynikajúce (v doslovnom zmysle) výsledky v absolútnom vyjadrení a dokonca rekordné výsledky pre každé jadro a gigahertz. Povolenie HT a pridanie 2 MB k L3 dáva +3 % reálnej rýchlosti a +15 % celočíselnej rýchlosti. 2-jadrový model má však najvyššiu špecifickú rýchlosť, a to je poučný postreh: Intel samozrejme použil AVX, no keďže celočíselný zisk zatiaľ nie je možné získať, môžeme očakávať prudké zrýchlenie iba skutočných ukazovateľov. Ale ani pre nich nie je skok, čo ukazuje porovnanie 4-jadrových modelov – a výsledky pre i3-2120 odhaľujú dôvod: s rovnakými 2 ICP kanálmi každé jadro dostáva dvojnásobnú šírku pásma pamäte, čo je odráža 34% zvýšenie špecifickej skutočnej rýchlosti. Zjavne je 6-8 MB L3 cache príliš malá a škálovanie vlastného PS pomocou kruhovej zbernice už nepomáha. Teraz je jasné, prečo spoločnosť Intel plánuje vybaviť servery Xeon 3- a dokonca 4-kanálovými ICP. Len teraz je už 8 jadier a nestačia na to, aby sa otočili naplno ...

Doplnenie: Dostavili sa konečné výsledky SB - čísla (očakávane) trochu narástli, ale kvalitatívne závery sú rovnaké. Vyhliadky a výsledky

O 22nm nástupcovi Sandy Bridge, Ivy Bridge, ktorý vyjde na jar 2012, sa vie veľa. Jadrá na všeobecné použitie budú podporovať mierne aktualizovanú podmnožinu AES-NI; je celkom možné a "bezplatné" kopírovanie registrov v štádiu premenovania. Vylepšenia v Turbo Boost sa neočakávajú, no GPU (ktoré bude mimochodom fungovať na všetkých verziách čipsetu) zvýši maximálny počet FU na 16, bude podporovať pripojenie nie dvoch, ale troch obrazoviek a konečne bude získať normálnu podporu pre OpenCL 1.1 (spolu s DirectX 11 a OpenGL 3.1) a zlepšiť možnosti hardvérového spracovania videa. S najväčšou pravdepodobnosťou už v desktopových a mobilných modeloch bude ICP podporovať frekvenciu 1600 MHz a PCIe radič bude podporovať zbernicu verzie 3.0. Hlavnou technologickou inováciou je, že vyrovnávacia pamäť L3 bude využívať (prvýkrát v masovej mikroelektronickej výrobe!) tranzistory s vertikálne umiestnenou multilateral gate-fin (FinFET), ktoré majú radikálne vylepšené elektrické charakteristiky (podrobnosti - v jednom z pripravovaných článkov ). Hovorí sa, že verzie GPU sa opäť stanú viacčipovými, ale tentoraz sa k procesoru pridá jeden alebo viac rýchlych čipov videopamäte.

Ivy Bridge sa pripojí k novým čipsetom (t. j. južným mostom) 70. série: Z77, Z75 a H77 pre domácnosť (nahradia Z68/P67/H67) a Q77, Q75 a B75 pre kanceláriu (namiesto Q67/Q65/B65). Ona je(teda fyzický čip pod rôznymi názvami) stále nebude mať viac ako dva porty SATA 3.0 a podpora USB 3.0 sa konečne objaví, no o rok neskôr ako konkurent. Zabudovaná podpora PCI zmizne (po 19 rokoch je čas, aby si zbernica oddýchla), ale radič diskového subsystému v Z77 a Q77 dostane technológiu Smart Response na zvýšenie výkonu pomocou cachovania diskov pomocou SSD. Najvzrušujúcejšou správou však je, že napriek starý dobrý Tradične budú desktopové verzie Ivy Bridge nielen umiestnené v rovnakej pätici LGA1155 ako SB, ale budú s nimi aj spätne kompatibilné – teda moderné dosky budú pasovať do nového CPU.

No a pre nadšencov bude už v 4. kvartáli tohto roka pripravený oveľa výkonnejší čipset X79 (do 4-8-jadrového SB-E pre „extrémny server“ konektor LGA2011). Zatiaľ nebude mať USB 3.0, ale bude k dispozícii 10 zo 14 portov SATA 3.0 (plus podpora pre 4 typy RAID) a 4 z 8 liniek PCIe sa môžu pripojiť k CPU paralelne s DMI, čím sa CPU zdvojnásobí. -prepojenie čipsetu PS. Bohužiaľ, X79 nebude fungovať s 8-jadrovým Ivy Bridge.

Ako výnimku (a možno nové pravidlo) neuvedieme zoznam toho, čo by sme chceli v Sandy Bridge vylepšiť a opraviť. Už teraz je zrejmé, že akákoľvek zmena je zložitým kompromisom – striktne podľa zákona zachovania hmoty (vo formulácii Lomonosova): ak niekde niečo dorazilo, niekde sa to isté množstvo zníži. Ak by sa Intel ponáhľal opraviť chyby starej v každej novej architektúre, potom by počet rozbitého palivového dreva a lietajúcich triesok mohol prekročiť získané výhody. Preto je namiesto extrémov a nedosiahnuteľného ideálu ekonomicky výhodnejšie hľadať rovnováhu medzi neustále sa meniacimi a niekedy aj opačnými požiadavkami.

Napriek niektorým miestam by nová architektúra mala nielen jasne zažiariť (čo podľa testov aj svieti), ale aj zažiariť všetky predchádzajúce – jej vlastné aj rivala. Avizované ciele v oblasti výkonu a hospodárnosti boli dosiahnuté, s výnimkou optimalizácie pre zostavu AVX, ktorá sa čoskoro objaví v nových verziách obľúbených programov. A potom bude Gordon Moore opäť prekvapený svojim postrehom. Intel je podľa všetkého plne pripravený na Epic Battle medzi architektúrami, ktorý uvidíme tento rok.

Poďakovanie je vyjadrené:

  • Maximovi Loktyukhinovi, rovnakému „zástupcovi spoločnosti Intel“, zamestnancovi oddelenia optimalizácie softvéru a hardvéru, za zodpovedanie mnohých objasňujúcich otázok.
  • Markovi Buxtonovi, vedúcemu softvérovému inžinierovi a vedúcemu optimalizácie, za jeho odpovede a tiež za možnosť získať nejakú oficiálnu odpoveď.
  • Agner Fog, programátor a výskumník procesorov, za nezávislé nízkoúrovňové testovanie SB, ktoré odhalilo veľa nových a záhadných vecí.
  • Pozorný čitateľ - pre pozornosť, vytrvalosť a hlasné chrápanie.
  • Rozzúrení fanúšikovia Opačného tábora - do kopy.