‖浅谈 Cache Memory‖【囹狐冲吧】

除了才华，只有梦想。才华与梦想恰能改变整个世界。
_sailing_新浪博客

送TA礼物

来自手机贴吧1楼2016-05-21 03:49回复

Cache Controller的基本组成部件

来自手机贴吧2楼2016-05-23 21:45

在 Opteron 微架构中， L1 和 L2 Cache Controller 将与 LSU 共同完成一次存储器读写操作。在 L1 和 L2 Controller 中含有各类 Buffer ，和连接这些 Buffer 的通路。一次存储器访问指令，在通过指令流水后，将首先到达 LSU ，并由 LSU 将其请求转发至 L1 和 L2 Cache Controller ，并由这些 Cache Controller 完成剩余的工作。
Cache Controller 需要在保证 Memory Consistency 的前提下，将数据重新传递给 LSU ，完成一次存储器读写的全过程。在一个微架构中， Cache Controller 是一个较为复杂的功能，由其管理的 Cache 流水线是整个微架构的精华。

来自手机贴吧3楼2016-05-23 21:46

在一个处理器系统中，存储器子系统是一个被动部件，由来自处理器的存储器读写指令和外部设备发起的 DMA 操作触发。虽然在存储器子系统中并无易事， DMA 操作依然相对较易处理。在多数设计中，一个设备的 DMA 操作最先看到的是 LLC ，之后在于其他 Cache 进行一致性操作。通常处理器系统的 LLC 控制器将首先处理这些 DMA 操作。
在一个 ccNUMA 处理器系统中， Cache Controller 由 FLC/MLCs /LLC Cache Controller ， DMA Controller 和 Directory Controller ，共同组成。

来自手机贴吧4楼2016-05-23 21:47

其中 FLC Cache Controller 与 LSU 和指令流水线直接相连，管理第 1 级分离的指令与数据 Cache ； MLCs Cache Controller 可能由多级 MLC Controller 组成，上接 FLC 下接 LLC Controller ，管理中间层次的 Cache 。在多数 CMP 处理器中， FLC 与 MLCs Controller 在一个 CPU Core 之内，属于私有 Cache ，并且与 CMP 处理器中的其他处理器的 FLC/MLCs 保持一致。
一个实际的 CPU Core 与其下的存储器子系统间的连接异常复杂。不同的处理器架构其存储器子系统的实现也有较大的差别。但是对于一个存储器子系统而言，其所担负的主要任务依然明晰。
存储器子系统的首要任务是将所访问的数据经由各级 Cache ，最后传递到距离 CPU Core 最近的一级缓冲，即进行数据传送；另外一个任务是使用合适的机制管理与这些数据相关的状态信息，包括 Cache 的 Tag ， MSHR 和其他复杂状态信息；最后可能也是需要额外关注的是，存储器子系统需要考虑本系统所使用的 Consistency Model 和 Coherence Protocol 。

来自手机贴吧5楼2016-05-23 21:48

在一个存储器子系统中，依然存在若干级子系统。其中每一个子系统大体由数据单元包括 Data Array 和相关 Buffer ， Cache 控制器和连接通路这三大部分组成。这个子系统与其上和其下的子系统通过各类 Buffer 进行连接，协调有序地完成存储器子系统的三大任务。
在一个实际的处理器系统中，进一步考虑到多级 Cache Controller 和外部设备，这几大类数据请求与消息会进一步分为更多的子类，以维护 Cache 协议与状态机的正常运行。不同的处理器系统使用了不同的 Cache 协议与状态机，使用了不同的组成结构，进一步加大了 Cache Controller 的设计难度。

来自手机贴吧6楼2016-05-23 21:48

在 L1 Cache 与 L2 Cache 之间， Athlon 微架构设置了专用的 Buffer ，暂存从 L1 Cache 中淘汰的 Cache Block ，这个 Buffer 也被称之为 Victim Buffer 。
从一个工程师的角度上看， NI/NE Cache 带来的最大优点莫过于简化了 Cache Hierarchy 的设计。与使用 Inclusive 和 Exclusive Cache 结构相比，采用这种方式使得 Inner Cache 和 Outer Cache 间的耦合度得到了较大的降低，也因此降低了 Cache Hierarchy 的设计难度。
耦合度的降低有助于 Inner 和 Outer Cache Controller 设计团队在一定程度上的各自为政。这种各自为政的结果不仅仅提高了 Cache Controller 的效率，更重要的是提高了设计人员的工作效率。但是这种各自为政只是在一定程度上的， Inner 是 Outer Cache 的 Inner 这个事实决定了 Inner Cache 和 Outer Cache 无论采用何种方式进行互联，依然存在大的耦合度。

来自手机贴吧7楼2016-05-25 22:37

Intra-CMP Coherence 的复杂程度超过了初学者的想象。其中各级 Cache 之间的关系，及为了处理这些关系而使用的 Cache Block 状态和总线协议均较为复杂。仅是其中使用的 Cache Coherency Protocol 也复杂到了需要使用专门的语言才能将其简约地进行描述。这个语言即 SLICC(Specification Language for Implementing Cache Coherence) ，这个语言是有志于深入了解 Cache Coherency Protocol 所需要了解的基础知识。

来自手机贴吧8楼2016-05-25 22:38

从总线带宽的角度上看， Load 比 Store 重要一些，在进行 Cache 优化时，更多的人关心读的效率。
在一个程序的执行过程中不可能不使用 Write 操作。如何在保证 Memory Consistency 的前提下，有效降低 Write 操作对 Performance 的影响，如何减少 Write Traffic ，是设计的重中之重。在一个处理器系统中， Write 操作需要分两种情况分别讨论，一个是 Write Hit ，另一个是 Write Miss 。

来自手机贴吧9楼2016-05-25 22:38

Write Through 方法指进行写操作时，数据同时进入当前 Cache ，和其下的一级 Cache 或者是主存储器； Write Back 方法指进行写操作时，数据将直接写入当前 Cache ，而不会继续传递，当发生 Cache Block Replace 时，被改写的数据才会更新到其下的 Cache 或者主存储器中。
很多人认为 Write-Back 在降低 Write Traffic 上优于 Write- Though 策略，只是 Write-Back 的实现难于 Write-Though ，所以有些低端处理器使用了 Write-Though 策略，多数高端处理器采用 Write-Back 策略。
这种说法可能并不完全正确，也必将引发无尽的讨论。

来自手机贴吧11楼2016-05-25 22:39

采用 Write-Though 策略最大的缺点是给其他 Cache 层次带来的 Write Traffic ，而这恰恰是在一个 Cache Hierarchy 设计过程中，要努力避免的。为了降低这些 Write Traffic ，几乎所有采用 Write- Though 策略的高端处理器都使用了 WCC(Write Coalescing Cache) 或者其他类型的 Store-Though Queue ，本节仅关注 WCC 。
所有 CPU Core ， LLC Slice ， QPI Agent ， iMC ， PCIe Agent ， GT(Graphics uniT) 通过 Ring Bus 连接在一起 [1] [99] 。 Ring Bus 是 Sandy Bridge EP 处理器的设计核心，也意味着 GT 可以方便的与 CPU Core 进行 Cache Coherence 操作。

来自手机贴吧12楼2016-05-25 22:40

处理器与存储器子系统运行速度的失配，使得存储器层次结构多次引起关注，处理器系统使用了更大规模的 Cache 。在很多处理器系统中， LLC 的大小已达十几兆字节。随着工艺的提高，使用更大规模的 Cache 容量，并非遥不可及。只是 Cache 容量依然远不能与主存储器容量增加的速度相比。
Prefetch 指在处理器进行运算时，提前通知存储器子系统将运算所需要的数据准备好，当处理器需要这些数据时，可以直接从这些预读缓冲中，通常指 Cache ，获得这些数据，不必再次读取存储器，从而实现了存储器访问与运算并行，隐藏了存储器的访问延时。 Prefetch 的实现可以采用两种方式， HB(Hardware-Based) 和 SD(Software-Directed)

来自手机贴吧13楼2016-05-25 22:40

除了预读时机之外，需要进一步考虑，预读的数据放置到 Cache Hierarchy 的哪一级， L1 ， L2 还是 LLC ，所预读的数据是私有数据还是共享数据。需要进一步考虑预读数据的 Granularity ，是 By Word, Byte ， Cache Block ，还是多个 Cache Block ；需要进一步考虑是否采用 HB 和 SD 的混合方式。这一切增加了 Prefetch 的实现难度。

来自手机贴吧14楼2016-05-25 22:41

软件预读指令可以由编译器自动加入，但是在很多场景，更加有效的方式是由程序员主动加入预读指令。这些预读指令在进行大规模向量运算时，可以发挥巨大的作用。在这一场景中，通常含有大规模的有规律的 Loop Iteration 。这类程序通常需要访问处理较大规模的数据，从而在一定程度上破坏了程序的 Temporal Locality 和 Spatial Locality ，这使得数据预读成为提高系统效率的有效手段。

来自手机贴吧15楼2016-05-25 22:41

无论是软件还是硬件 Prefetch 的实现方式，都不可避免地出现 Prefetch 得来的数据并没有被及时使用，从而会在一定程度上一定程度上的重复，这种重复会进一步提高系统功耗，对于有些功耗敏感的应用，需要慎重使用 Prefetch 机制。 Prefetch 机制除了对系统有较大影响之外，还会引发一定程度的 Cache Pollution 。这使得 Stream buffer [20] 机制因此引入。

来自手机贴吧16楼2016-05-25 23:02

日	一	二	三	四	五	六

‖浅谈 Cache Memory‖

登录百度账号

扫二维码下载贴吧客户端