後藤さんの記事によると

基本的にはどちらも正しい。Nehalemでは、既存のCoreマイクロアーキテクチャのピースを取り入れており、その中で4ワイドのエグゼキューションエンジンは大きなパートを占めている。我々は、何年もかけて開発したマイクロアーキテクチャを活用する。しかし、その上に、Simultaneous Multithreading(SMT)のような大きな新フィーチャを被せている。そのため、(Nehalemの)全体の設計は基本的にはフロムスクラッチとなっている。

らしいからNehalemはフロント側を大幅に変更したものらしい。もし2coreがあればノートPCとして理想的かもしれない。
0403追記
後藤さんの記事によると、実行器は変わらずμOPを6つまで同時発行、デコード後にループ判定するように変更らしい。システム側を変更してメモリアクセスのレイテンシも減っているらしい。来年の後半にノート用CPUは4 coreで登場するらしい。ベースのアーキテクチャを変更せずに、サーバー向けに改良したという気がする。CPUの開発は徐々にμOP実行数をワイド化していく方向のようだ。

Intelの次世代CPUについて語ろうより

Core MAの発行ポート数もport0〜port5の計6ポートだよ。
IntelのOptimization Reference Manualに書いてあることなのだが…。
Core MAの図ではStore addressとStore dataを分けて書かずに
1つのStoreと書いてあるものがあるけど、これは単に簡略化して描いているだけ。

内部的には、ほとんど変わっていないらしい。一方で

Ando's Processor Information Pageでは"ユニットの分担が変わっているので正確でないのですが,おおまかには,Store用のアドレス計算パイプが追加されたという感じです。"とのこと。

大原さんのレポートでは、ALU*3,load, Address Store, Data Storeでstoreが分離、強化されているとしている。

なので、store unitが機能毎にで2つに分離したようだ。loadでなくてstore unitを分離するメリットが良くわからない。