Sun Rockのアーキテクチャ

http://www.geocities.jp/andosprocinfo/wadai07/20070120.htm
4issue, 6 pipeline, 2 user thredで16コアらしい。 命令発行が実行エンジンより多すぎる気がする。更に変なのは4コアで1つのL1キャッシュを共有していて命令、データキャッシュはともに32kBと小さい。他スレッドで共有されているキャッシュが、普通のスレッドだとアクセスでパンクしてしまうらしい。ヘルパースレッド用が含まれているか、情報に間違いがあるのではという考察。
1 coreで2 thredsなので、どちらかでヘルパースレッドを走らせればよいのか思っていたのだけど、L1キャッシュを共有しているのは分らない。どういったプログラムを想定しているのだろう?
L1命令キャッシュが共有されていることを考えると8つのスレッドが同じ処理をしていることを仮定しないとおかしい。とするとGPUのようなストリームプロセッサとCPUのあいの子のようなプロセッサなんだろう。

20070204追記

http://www.geocities.jp/andosprocinfo/wadai07/20070203.htm
で、平均5命令に1つがWrite命令であったのが、平均5命令に1つがRead/Write命令、そのうち1/3がWite命令と訂正された。そのあとL1キャッシュL2キャッシュの説明が追加されている。(L1データキャッシュはWrite throughなので、writeが57%ビジーというのは違うのではないか)
L2キャッシュのアクセスがかなり厳しいことになっている。どこがボトルネックになるかはバランスの問題なので、たしかに設計として有りだと思うけど、どこまでシュミレートした結果だろうか?Niagaraで必要以上に浮動少数点演算ユニットを削ってしまったり、新しいアーキテクチャを開発する割に検討は甘い気がする。

20070813追記

Niagara IIが発表された。SPECの結果は1チップ比較で同世代のIntel, IBMと比較しても良い。スループットを狙ったプロセッサだから当然か。

12mm2×8 = 96mm2 4M キャッシュメモリ/tatal 342mm2
65ナノメートル 1コアあたり4スレッド×2グループ

なので1コアのサイズが極端に小さい。8スレッドも管理していることを考えるとin-oederになっているのかな。Core 2 Duoなどと比較するとトータルダイサイズに対するコアサイズの比は同程度で、極端な構成ではなさそう。しかし、キャッシュが4Mなら70-80mmくらいなので、ダイの半分以上がその他のIO回路となる。やっぱり、マルチコアになるとIO回路の割合が大きくなってしまうようだ。
1コアのスレッドも使い方も特徴的で、2つのグループに分けてスケジュールしている。Niagaraと較べてキャッシュがさほど増えていないのもあわせて考えると、4スレッドは同じプログラムを動かすようになっているだろう。ますますストリームプロセッサっぽくなっている。スレッドのクラスタ化はマルチスレッドを動かすハードからみると重要なポイントになりそうだ。アプリケーションプログラムやOS側のスレッドの割振りをハードウェアを意識する必要があるだろうし、SUNならではのメリットがありそうだ。あとは、比較的高価なSUNのハードのデメリットを相殺できるほど効率的なのかだろう。