认识Barcelona架构:
Barcelona是AMD首款四核心处理器,采用65nm制造工艺,和Intel的四核Kentsfield处理器由两个双核心组成的架构不同,Barcelona是单处理器集成四个核心的架构是真正的原生四核处理器。不过,尽管在技术上要优于Intel的Kentsfield,我们还是不确信Barcelona在现实中的性能会大幅超越Kentsfield。
Barcelona的设计比K8要复杂的多,需要多达11个金属层,而K8和Core 2 Duo分别只有9个和8个。而更多的金属层只会使制造过程更为复杂增加成本,对于最终的用户来说并没有太大意义。Barcelona拥有463百万个晶体管,比Kentsfield少了119百万个。晶体管数量少是因为缓存减少的原因,Barcelona上的每个核心都拥有128KB一级缓存和512MB二级缓存,再加上四个核心共享的2MB三级缓存,缓存的总量为4.5MB。而Kentsfield的缓存总量达到了8.25MB,比Barcelona多了80%。不过Barcelona的缓存仍然远远要比四核心K8要多,如果不计算缓存晶体管,一个双核Athlon 64 X2处理器的晶体管数量大约为94百万个,而Barcelona的晶体管数量大约为247百万个。即使两个双核Athlon 64 X2处理器的晶体管数量也没有Barcelona多。

SSE128:
在从K8到Barcelona的众多改进中有一个非常重要的改变,AMD把它称为SSE128。在K8架构中可以同时执行两个SSE指令,但是SSE的执行带宽仅仅只有64-bit。在K8中执行一个128-bit的SSE指令,必须要分成两个64-bit指令来执行。这意味着执行一个128-bit的SSE指令需要占用一个额外的解码通道。Barcelona把K8的64-bit SSE的执行带宽提高到了128-bit,因此执行一个128-bit的SSE指令不用再进行分解。这样一来不但可以获得更多可用的解码带宽,而且指令的执行效率也大大提高。增加SSE指令的执行带宽也会造成核心内部的很多改变。由于获得了更多的解码带宽,在执行128-bit的SSE指令时有出现了一个新的瓶颈,那就是指令取得带宽。Barcelona的指令取得带宽已经从K8的每周期16byte提高到了32byte。32byte的指令取得带宽不仅仅有益于SSE编码,对整数编码也同样非常有好处。更大的指令取得带宽会明显推进处理器性能。

在Barcelona上你可以取得和解码更多的指令,这意味着你需要获得更多的数据到执行核心,因此AMD加宽了L1缓存和SSE寄存器之间的传输界面。现在Barcelona可以每周期执行两个来自L1-D缓存的128-bit SSE指令,原理和K8每周期执行两个64-bit指令一样。加上AMD同时加宽了L2缓存可内存控制器之间的传输界面,从而解决了指令取得带宽的瓶颈。事实上SSE128的改进非常类似于Yonah到Merom的改进。在Conroe/Merom之前Yonah的FP/SSE性能还不如K8。这在Yonah和K8的性能对比测试中有很明显的表现,虽然两者在大多数应用程序、3D渲染和游戏性能中的性能表现非常接近,但是在视频编码性能测试中K8明显要优于对手。但是Core 2处理器的出现使这种情况发生了逆转,视频编码性能大幅度超越K8。也许SSE128的改进会使这种情况有所改变。
上一页 [1] [2] [3] [4] 下一页 |