amd吧 关注:789,339贴子:18,120,587

AMD复仇之剑,Bulldozer推土机预览及展望

只看楼主收藏回复

一楼度娘。


IP属地:河南1楼2011-05-24 22:26回复
    ◆ 梦断SSE5,Bulldozer的开场序曲  早在Bulldozer这个名字未被人们熟知之前,AMD就已经为它做准备了新一代X86指令集。指令集是CPU架构的的关键所在,使用什么样的指令集也决定了一款CPU的先进程度。在X86架构中,SSE(Streaming SIMD Extensions,流式单指令多数据扩展)指令集当之无愧地成为绝对主角,作为X86架构的当家人,Intel也一直牢牢掌控着SSE指令集的发展方向,从SSE、SSE2、SSE3再到分批问世的SSE 4.1和SSE 4.2都是Intel首先发布的。
    2007年8月AMD抢先宣布了SSE5指令集扩展,并表示将之用于2009年发布的Bulldozer架构处理器上(AMD当时画了好大一个饼)。SSE5依然是128位指令集,一共有170条指令,旨在解决先前SSE指令集的一些缺陷和不足,充分发挥多核心及多媒体的性能。其中最主要的是新增的3操作数指令(3-Operand Instructions)和熔合乘法累积(Fused Multiply Accumulate,FMAC)指令,这两条指令都可以大幅提高操作效率,简化代码。
      作为老大的Intel当然不会那么容易就范,直接弃用SSE名称,于08年推出了AVX(Advanced Vector Extensions,高级矢量扩展)指令集规范(详细情况可点击这里)。AVX支持256位指令,理论性能可比当前128位CPU提高一倍,另外AVX在思路上与SSE5有异曲同工之妙,同样支持3操作甚至4操作数指令,乘加指令以及一些置换指令,而且还有SSE5没有的特性,比如SIMD浮点指令长度加倍,为旧版SSE指令增加3操作数支持等。由于Intel的强势,软件厂商大都倒向支持AVX指令。
    AMD眼看大势已去,也于09年5月份宣布支持AVX指令集,但是SSE5中的一些特色指令并未完全弃用,而是利用AVX规范重写,其中的FMA4、XOP和CVT16指令都将在Bulldozer架构上得到支持,这也是泄露的Bulldoerz处理器的CPU-Z截图上会显示超多指令的原因。
      这场指令集之争也对Bulldozer的上市造成了一定影响,前面提到AMD最初打算在2009年发布Bulldozer,但是因为要重新设计一些功能单元以支持AVX,Bulldozer的上市时间也是一拖再拖(AVX的影响也只是部分原因,Bulldozer的延期还有其他因素)。
      谈到指令集的问题,其实Bulldozer身上不仅加新,而且也有除旧,它不再支持AMD独家的3DNow!指令,去年的时候AMD就已放言未来的处理器不再支持这一指令集,而Bulldozer的一些文档上已经看不到3DNow!指令集的身影了。由于目前单独针对这一指令优化的软件不再是主流,放弃3DNow!指令也不会有什么影响,不过其中的PREFETCH、PREFETCHW两条指令将会保留。
      Bulldozer未出世就已遭遇险境,AMD除了在X86-64位指令上令Intel低过一次头之外,指令集方面还是要跟在Intel后面。乐观点看,这并非什么坏事,指令集统一对软件开发是一件好事,双方指令集不兼容更容易导致软件应用层面出现问题。虽然在指令集上落了下风,不过Bulldozer的革新重点不在指令集上,而是革命性的架构设计,故事才刚刚开始。
    


    IP属地:河南3楼2011-05-24 22:28
    回复
      据AMD称,目前CPU中超过80%的运算都是整数运算,增加一个整数单元的好处是显而易见的,用增加5%的核心面积的微小代价即可换来80%的整数性能提升。
        最终设计出来的Bulldozer架构如何呢?

      这张图来自chip-architect.com,也是目前最为详细的揭**ulldozer架构的一张图,结合AMD官方公布的一些消息可以确认图中的大部分信息还是很准确的。
        上图中显示每MB L3缓存的面积为3.85mm2,对此结果笔者存疑,因为缓存通常都要占用很大面积,不过09年的时候AMD曾和T-RAM公司达成合作,未来的32nm工艺将会使用T-RAM作为缓存,如果Bulldozer上使用了技术先进的T-RAM缓存,那么缓存的占用面积会更小,上述缓存面积还有可信度。
        Bulldozer每个模块的核心面积为18.0mm2(不含L2缓存),包含2MB L2缓存的情况下每个模块核心面积则为30.9mm2,集成2.13亿个晶体管。与之对比的是SNB架构每个核心的面积为18.4mm2,同时集成512KB L2缓存。那么由此估算下,Bulldozer的每个核心可以看作集成1MB L2缓存的同时面积约为15.5mm2,核心面积要小于SNB。AMD的Bulldozer在新工艺的支持下,同等级别下的核心面积已经接近Intel的水平(甚至更低),远高于K10时代的水准。
        这里只考虑了CPU部分的核心面积,还要注意到SNB和Bulldozer都会集成了GPU核心,它们对核心面积的大小也有重要影响。SNB中GPU分为HD 2000和HD 3000系列,双核CPU的核心面积分别为131mm2和149mm2,不过Bulldozer目前集成的GPU消息不明,所以这个无从对比。
      


      IP属地:河南5楼2011-05-24 22:30
      回复
        ◆ 高度共享,弹性浮点单元解析 前文提到的性能提升80%是有条件的,运算是整数型的才可能有如此幅度的提升,虽然浮点运算只占20%左右,一旦遇到技术与商业领域中常用到的浮点计算,一组浮点单如何满足性能需要也成了关键,对此AMD给出的解决方式是增强浮点单元的弹性,运算指令可拆分可合并以适应不同情况。
         按照AMD官方博客指出的那样,Bulldozer的Flex FP虽然为两组整数单元共享,但是它拥有独立的浮点调度器,并不依赖整数单元的调度器来分配指令,同时也不占用整数单元的资源来排定256位的执行方式。相比之下,Intel的CPU架构中整数单元和浮点单元共用一组调度器,需要同时分配整数和浮点运算的指令。  Bulldozer的Flex FP单元也会支持SSE3、SSE4.1/4.2、AES、AVX以及AMD演化自SSE5的FMA4、XOP和PCLMULQDQ等多种指令,前面的几种早已得到支持,AVX则是最新的指令集,Intel也只是在刚刚发布的SNB架构CPU上首次使用。
          Intel改进了SNB的浮点单元,将16个XMM寄存器改为256位的YMM寄存器,并去掉了现有架构中只能载入/储存128位指令的限制,因此每周期可以执行一个256位FP ADD(浮点加)或者FP Multiply(浮点乘)指令,同时配以更大的缓冲器(Buffer)以匹配位宽提升。
        Bulldozer同样支持256位AVX指令,但是支持方式与SNB有所不同。它的浮点单元由两个128位FMAC(Fused Multiply-accumulate )单元组成,这个浮点单元通用性很强,每周期可以执行任意一个FAMC(Floating-Point Multiply-Accumulators,浮点累积乘)、FADD(Floationg Point Addition,浮点加)或者FMUL(Floationg Point Multiplication,浮点乘)计算,相比之下Intel的浮点单元功能较为专一,FADD和FMUL计算需要专用的FADD及FMUL管线。AMD的浮点单元的好处是针对不同的浮点计算有充足的弹性空间,如果指令是256位的,那么两个FAMC单元可以合并为一个256位浮点单元计算,如果指令不是256位的而是128位的,那么FAMC单元可以同时执行两个同样的FADD或FMUL指令。
          对于另一个AES(Advanced Encryption Standard,高密度加速标准)指令,只要是符合FIPS 197标准的,Flex FP也能提供硬件加速,而且每周期可以操作16B指令。AES加速功能主要针对商用市场,现有的八核Xeon至强处理器拥有8个浮点单元,Bulldozer的的服务器版Interlagos最多会有16个Flex FP单元,其运算带宽会两倍于现有产品。
          Flex FP浮点单元拥有高弹性、高通用性的优点,Bulldozer因此可以少设计一组浮点单元,这样不仅减少了核心面积,同时也降低了功耗,因为在不执行256位AVX指令的时候(目前支持AVX指令的应用尚且不多)大多只用到一个128位FMAC单元,其空闲功耗可以降至峰值功耗的2%。
        


        IP属地:河南7楼2011-05-24 22:32
        回复
          ◆ 继承与发扬,Bulldozer的HT总线及内存设计 如果说Bulldozer的模块化设计和Flex FP弹性浮点单元是一种技术创新,那么Bulldozer的HT总线和内存控制器部分则是对传统的继承与发扬,技术规格没有多大变化,只是HT总线提升至3.1规范,而内存控制器最多可以支持四通道DDR3。
            HT总线是AMD研发的一种高速点对点单双工数据总线,主要用于芯片级的数据传输,包括CPU与CPU、CPU与芯片组、芯片组南桥与北桥等。HT总线支持2、4、8、16和32bit等五种通道模式,并采用了DDR双倍数据传输,目前Phenom II X4 900系列使用的HT 3.0最高频率为2.6GHz,其余型号大多只有1.8-2.0GHz。

          Bulldozer上将会使用最新的HT 3.1总线,最高频率提升至3.2GHz,数据传输率可达6.4GT/s,已经追平了Intel QPI总线的最高6.4GT/s速度,双向32bit通道下理论带宽可达51.2GB/s(3.2G*2*2*32/8)。
            K8时代AMD将内存控制器集成在CPU内,这样可以降低读写延迟,再结合双通道模式其内存性能大幅超越当时的P4以及Core架构的C2D处理器。自Nehalem架构开始Intel也开始集成内存控制器,i7 900系列甚至支持三通道DDR3模式,Intel处理器的内存性能也逐渐甩开AMD一条街。
          这种局面有望在Bulldozer上得到改观,据目前的消息来看,16核的interlagos会支持四通道DDR3内存,而桌面级的zambezi依然是双通道DDR3,但是内存带宽会有大幅提升。首先是搭配的内存规格升级,K10时代默认支持的是双通道DDR3 1333MHz(速率1.33GT/s),Bulldozer默认支持的则是DDR3 1866MHz(1.86GT/s),双通道理论带宽为29.8GB/s,虽然暂时还没有实测内存带宽,但是Bulldozer的内存性能值得期待,至少也应该达到SNB架构的主流水准(期望如此)。
            假设Bulldozer的内存性能真有如此提升,那到底是什么带来的进步呢?AMD的官方博客只说Bulldozer可以降低本地以及远程访问内存的时间,并没有详谈。对此我们只能猜测:第一是内部架构的改变,每模块有两个内核,每个内核又有2个ALU和2个AGU单元,每周期可以执行四个内存操作,高于目前的CPU水平。第二则是HT 3.1总线提高了芯片内部的传输带宽,外部的内存带宽也因此受益,第三则是支持的内存标准提高,从DDR3 1333到1866标准的提高对内存带宽提升还是很明显的。
          


          IP属地:河南8楼2011-05-24 22:33
          回复
            ◆ 有关Bulldozer的几个疑问Bulldozer什么时候发布?
               AMD从来没有官方宣布过Bulldozer的正式发布日期,所以不存在什么延期一说,但是事实是从早期流传的2009年发布一直到现在也没有见到Bulldozer的身影。目前比较准确的消息是今年第二季度发布,但是还没有确定日期,有消息说会在4月发布,不过最早发布的会是服务器版的,桌面级可能还得等等。
               之前有可靠消息称桌面版Bolldozer会在6月11日发布,批量上市时间为6月20-24日,不过最新的消息不容乐观,消费者恐怕还要继续等等,6月份的台北电脑展上Bolldozer会露面展示,但是最终的发布时间可能要延后到第三季度,耐心等吧。
            · Bulldozer的具体参数有没?多高频率多高电压啊
              这个也没有准确的消息,据悉Bulldozer的工作电压在0.8-1.3V之间,比目前的Phenom II略低一些,频率方面应该会达到3.5GHz,再加上Turbo Core 2.0的500MHz加速,那么实际运行频率超过4GHz也说不定。如果消息属实,其频率要明显领先当前的AMD处理器,比Intel目前的旗舰i7-2600K也要高。
              超频性能方面,得益于新的功耗管理和32nm SOI工艺,Bulldozer的超频空间会比目前的K10有提升,而且Intel的SNB架构在超频方面趋向保守,倍频锁定,外频超频空间非常小,因此这也是Bulldozer的反攻机会。
            · Bulldozer使用什么接口,我们需要换主板吗?
              服务器版的Bulldozer将会沿用C32/G34插槽,可以兼容现有的服务器主板。桌面级的Bulldozer则会升级为AM3+接口,针脚数由AM3的938针提高到942针,因此Bulldozer处理器不能用在现在的主板上,但是未来的AM3+主板可以向下兼容Phenom II处理器(不过估计没人会买新主板只为用Phenom II处理器吧)。
              AMD之前明确说AM3主板不能支持Bulldozer处理器,需要AM3+接口。不过这个问题也被厂商破解了,华硕的8系AM3主板就可以支持新一代处理器,微星的部分AM3主板也可以通过刷新BIOS的方式支持Bulldozer,至于技嘉和华擎,他们目前新出的8系主板插座已经换成AM3+,可以支持Bulldozr处理器,以前的型号估计没戏了。
              Bulldozer配套的芯片组将是AMD 9系列,北桥分别有990FX、990X、980G(整合型号)和970四款,南桥则有SB950和SB920,具体技术规格变化不大,而且也没有原生USB 3.0支持。Bulldozer将和9系主板、HD 6000系列显卡组成新一代天蝎(Scorpio)3A平台。
              AMD的APU平台已经开始原生支持USB 3.0,目前有A75和A70M两款,它们其实就是原来的Hudson-D3和Hudson-M3,我们在微星E350主板的评测中已经介绍过。不过Bullodzer的桌面芯片组还是传统的南北桥结构,9系主板上依然没有原生USB 3.0支持。
            · Bulldozer的性能是否能超越Intel的SNB处理器?
              这个问题毫无疑问是最为人关注的,本来可以放到第一个提问,笔者特意将它放到最后,因为笔者的回答恐怕是一盆凉水,寄希望Bulldozer的性能超越SNB的想法是不现实的。
              Bulldozer的设计目标是提高CPU的多线程能力,去年的Hot Chips 22会议上,Bulldozer的总设计师Mike Butler做的主题演讲就是:AMD "Bulldozer" Core - a new approach to multithreaded compute performance for maximum efficiency and throughput,重点讲述的就是bulldozer的多线程处理能力,虽然这不意味着Bulldozer的单核性能没有提升,但是还要看到SNB并非泛泛之辈。
              Intel的SNB架构历经Core、Nehalem两代架构磨炼现在已经非常出色,性能也在稳步提高,而且新的AVX指令集、256位浮点设计也不乏新意,在传统弱项—集成GPU性能方面进步也非常明显,SNB的综合实力不容小觑。
              之前虽有消息说Bulldozer的性能领先Core i7-950有50%之多,但是也要看到,消息来源中使用的是4模块8核心Bulldozer,i7-950只是4核心8线程,在多线程应用中8核心战胜4核心是理所应当,面对更高端的对手产品,Bulldozer并没有什么胜算。
              根据多方评估,笔者认为Bulldozer的多线程性能可以超过上代的Core i5/i7,与SNB有的一拼,但是单核性能不如SNB,游戏性能要看具体游戏优化,多核支持较好的游戏可能反超SNB。当然,具体的性能对比还要等到产品最终发布,而且还要看AMD用什么等级什么价位的Bulldozer与SNB对阵,市场策略得当的话Bulldozer一样可以大受欢迎。
              这段时间以来有关Bulldozer性能的泄密越来越多,无论是领先Core i7 50%还是SuperPi只要7.8秒(已被证实为假)等等,仿佛又回到了K10上市前各种传闻秒杀Core的时代,各种小道消息满天飞,AMD官方从未证实或者否认过(它是受益者,肯定不会否认),越是这样越让笔者相信自己的判断,Bulldozer的性能不会带来奇迹,这不是说它没有进步,而是理性的预期。当然了,笔者也非常希望自己错了,希望看到Bulldozer的性能一鸣惊人,反过来能压制Intel,如果真是这样,我也愿意在Bulldozer的正式评测出来后对它说声对不起,一切由后来的评测做个评判吧。
            


            IP属地:河南12楼2011-05-24 22:38
            回复
              ◆ 总结:Bulldozer前途光明,道路曲折 从07年K10架构的Phenom处理器发布之后,有关Bulldozer架构的消息就已经开始流传,到现在为止已经有四年多的时间了。在此期间,Intel相继完成了Core到Nehlaem再到Sandy Bridge三代架构升级,45nm到32nm两次工艺升级,今年底甚至要开始试产22nm工艺。相比之下,这几年中AMD一直在用K10架构苦苦支撑,期间只升级了一次45nm工艺,K10架构也只在09年有过一次微小升级,并没有实质意义上的新产品发布。
                Bulldozer的难产是有多方面原因的,AVX指令集的转换、GF的工艺良率以及Bulldozer架构自身的创新性都带来了一定影响。越是难产,它对AMD的意义愈发重要,AMD急需新鲜血液以提振目前动荡不安的管理层士气和消费者的信心。
              Bulldozer的架构设计堪称十年来的一大变革,它不只是内部增加了一个整数单元这么简单,其实质是CMP多核心与SMT多线程技术之外的第三条路,由于目前CPU任务中80%的都是整数型,增加一个整数单元可以分担计算负载,从另一方面来看这就相当于同时运行两个线程,变相提高了CPU的多线程性能。
                浮点单元的设计也颇有新意,两个128位FMAC单元可以为两组整数单元共享,256位AVX指令也可以拆分为两个128位指令分别计算,而且浮点单元拥有独立的调度器,无需占用整数单元的资源。但从整体来看,浮点单元的份量在整个CPU中有所弱化,而且Bulldozer的Flex FP单元虽然弹性高,但是实际浮点性能恐怕很难匹敌SNB架构。
                AMD之所以这么设计,有可能是考虑到APU的存在,因为除了Bulldozer架构之外,AMD还有Llano这样的高性能APU产品存在。目前基于K10架构的Bobcat山猫架构APU已经问世,它的性能表现值得表扬。一旦Llano处理器问世,那么整合的GPU核心浮点性能远高于目前的CPU,未来不排除AMD将CPU的浮点功能转移到GPU核心上,这样才真正实现Fusion熔合的理念。
                Bulldozer的设计富有新意,但是AMD要想靠它翻盘,还有许多工作要做。首先是确保Bulldozer及时发布,如果拖到6月份才发布,那么批量上市、形成产品线就需要等到下半年了,而Intel的22nm工艺Ivy Bridge架构也将在年末试产,到时Bulldozer的处境就会更艰难。第二,Bulldozer的双整数单元设计要想发挥威力,还需要软件和游戏厂商的优化支持,相信AMD已经在做这个工作,但是这还需要花费大量时间。
                回头来看,数年的磨砺使得Bulldozer已经足够锋利,即使不能将Intel一举击溃,但是只要策略运用得当,AMD一样可以扭转当前的不利局面。对Bulldozer来说,它的前途是光明的,但道路是曲折的,套用一句俗话——革命尚未成功,Bulldzoer仍需努力。
                PS:本文写于数月前,这段时间以来Bolldozer的消息满天飞,不管是上市时间还是性能爆料都会引起大家的围观,由此可见大家对Bulldozer还是非常期待的,毕竟AMD的桌面CPU已经有两年没有架构更新了,面对Intel的一轮又一轮的进攻只能防守,无力反击。
                目前有关Bulldozer的小道消息纷飞,不过Bulldozer的架构介绍主要还是去年的Hot Chips 22会议上披露的,AMD对Bulldozer的性能一直守口如瓶,只能靠一些流言来管中窥豹。本文只能简单介绍一下Bulldozer的架构思路、设计特点等,可能会比较枯燥,最终的性能还要等未来的评测才能知晓,期望能早日揭开Bulldozer的神秘面纱。
              


              IP属地:河南13楼2011-05-24 22:39
              回复
                果断删掉插楼层


                IP属地:北京14楼2011-05-24 22:41
                回复
                  咦,居然看不到了。老范要不再来说一次?


                  IP属地:北京15楼2011-05-24 22:42
                  回复
                    之前有传言AMD在搞的是逆线程(anti-HT),可以将多个线程合并为一个线程,这个技术的存在与否并没有谁来证实,不过看看现在的Bulldozer架构,两个整数单元可以同时运算一个任务,从模块的角度看就相当于把两个线程合并为一个,与逆线程的思路有异曲同工之妙。


                    IP属地:广东16楼2011-05-24 23:31
                    回复
                      会不会出现图拉丁时代那种转接口。Socket 938 to Socket 942.毕竟看其他厂商的做法应该只是供电方式的微调。bios提取个推土机code加上.....


                      来自手机贴吧17楼2011-05-25 07:32
                      回复
                        你确认两个整数单元能执行一个任务么?浮点单元倒是有这个可能


                        IP属地:北京18楼2011-05-25 09:10
                        回复
                          惊现小吧删大吧帖子!!!


                          19楼2011-05-25 10:19
                          回复
                            。。。


                            IP属地:江苏来自手机贴吧20楼2011-05-25 10:42
                            回复
                              唉 这就是差距,看看国内的那些文章,服了


                              21楼2011-05-25 11:11
                              回复