Core i7が登場。

 週末から店頭にi7Coreのデモ機が並び、年末商戦には間に合うようだ。パフォーマンスクラスというとで、家庭用ではないけどi7Coreの性質はわかる。ベンチマークもあちこちで出始めていてC2Qtとの比較がされている。特に4gamerベンチマークテストが初発としては良いできだった。定番になったかな。まだ、HTの比較とかクロック/L3$とか比較してほしい点があるけど、L3$の性能、共有データ、ループディテクタの転送速度など重要な点は押さえている。

 x86ではとても重要なL1$の性能が落ちたのは意外だった。L3$が加わった事でレイテンシのバランスが大きく変わっている。その結果としてL3$が加わったにもかかわらず、全体の性能はさほど変わっていない。データ量が16〜64MBあたりの時の性能がかなり良くなっているので、キャッシュから溢れるような大量のデータなら高性能なAMDと似た性質のCPUになった。ダイサイズの増加を考えるとL3$を加えたことが現段階ではプラスになっていない。まだ改善の余地がありそう。

 ループディテクタの性能は短ループでは大幅に低下している。と言う事は2スレッドで半分づつx86命令の展開を分け合っていて、C2Qほど命令を実行できなくなっている可能性がある。(命令$がx2とか)そんな短いループは少ないだろうから、実際のプログラムの性能にはさほど影響しないだろう。

最新のx86系列のCPUのボトルネックが明らかにデコーダから実行器までにあるだろうな。HTで性能を出したければ、スレッド毎にデコーダを付けないとならなそうだ。

追記

SPECベンチマークを見ると、C2Qの1.5倍以上の処理能力になっている。その割には市販ソフトのベンチマークが伸びない。おそらく、並列実行できる命令の組み合わせが増えたこととL2$の高速化の恩恵を受けて、単純な計算に関してはC2Qより早くなっている。一方、市販プログラムではL2$が小さくなったことで$ミスが増えて性能向上を相殺してしまっている。一般向けじゃないし、サーバーにもベストではない感じで、ちょっと微妙だ。

将来はL3$のレイテンシを40 clock台から30 clock台へ向上する/$容量を増やすらしいのでバランスが良くなりそう。同じプロセスで設計すると旧来のCPUがバランスが良くなるのは仕方がないのかも。