'논문/메모리 분리' 카테고리의 글 목록

논문/메모리 분리

Rcmp - TACO'24 2024.04.22
TPP - ASPLOS'23 2024.03.19 1
POND - ASPLOS'23 2024.02.26

Rcmp - TACO'24

choiish98 2024. 4. 22. 16:15

2024. 4. 22. 16:15

Reconfiguring RDMA-based Memory Disggregation via CXL

Authors: Zhonghua Wang, Yixing Guo, Kai Lu, Jiguang Wan, Daohui Wang, Ting Yao, Huatao Wu

Groups: Huazhong University, Huawei Cloud

Keywords: Memory Disaggregation, RDMA, CXL

#1 Motivations

1-1. RDMA-based memory disaggregation

데이터를 관리하는 기법에 따라 RDMA 기반의 메모리 분리는 두 종류로 나뉜다. 페이지 기반의 기법에서는 가상 메모리 메커니즘을 이용하여 페이지 폴트가 발생하였을 때 로컬 메모리와 원격 메모리 페이지를 스와핑함으로써 원격 메모리 상의 페이지를 로컬 메모리로 캐싱한다. 이 방법은 응용의 수정 없이 적용이 가능하다는 장점이 있다. 오브젝트 기반의 기법에서는 메모리 관리를 조금 더 세밀한 단위(객체)로 하며 객체의 시맨틱을 이용하여 컴퓨팅 리소스를 최적화 한다. 하지만 RDMA 기법은 다음과 같은 단점들이 있다.

High latency: 로컬 메모리와 비교하여 20배 이상 느린 지연시간을 제공한다.
High overhead: 페이지 기반서는 페이지 폴트 오버헤드를 동반하고, 오브젝트 기반에서는 코드 수정이 필요하다는 단점이 있다.

1-2. CXL-based memory disaggregation

CXL 기반의 메모리 분리는 캐시 일관성을 보장하는 공유 메모리 풀을 제공하며, 캐시 라인 접근이 가능하게 한다. 이는 응용의 수정이 필요 없으며 낮은 지연시간과 좋은 확장성을 보인다. 그러나 CXL 기반의 메모리 분리는 다음과 같은 단점을 가진다.

Physical distance limitation: CXL 디바이스는 PCIe를 기반으로 하기 때문에 랙 레벨에서의 결합으로 제한되며, 이는 대규모 데이터센터에 바로 적용되기 어렵다.

1-3. Hybrid memory disaggregation

따라서 논문에서는 CXL의 물리적 한계를 보완하고 RDMA의 높은 지연시산과 오버헤드를 보완하기 위해 RDMA와 CXL 기법을 결합하여 하이브리드로 동작하는 새로운 기법을 제안한다. 로컬 랙에서는 CXL의 장점을 이용하여 낮은 지연시간을 보이며, 서로 다른 랙을 RDMA를 통해 연결하여 확장성을 보장한다.

그림 1. Comparison of Memory Disaggregation Approaches

#2 Design

2-1. Archtiecture

Rcmp 랙은 응용을 위한 여러 개의 컴퓨팅 노드와 CXL, 컴퓨팅 노드의 요청을 처리하기 위한 데몬으로 이루어져 있다. 메모리 노드를 두지 않고 데몬을 통해 요청을 처리하는 구조는 컴퓨팅 노드와 메모리 노드가 분리된 구조에서 발생하는 메모리 일관성을 유지 오버헤드를 없애는 장점이 있다. 그리고 컴퓨팅 노드의 요청에서 발생하는 블로킹을 없애기 동적으로 데몬의 수를 늘릴 수 있다. 랙의 컴퓨팅 노드는 CXL을 통해 메모리 풀을 할당하고, 서로 다른 랙의 컴퓨팅 노드들은 RDMA를 통해 연결된다.

Rcmp는 서로 다른 랙에 존재하는 메모리들을 관리하기 위해 전역 메모리 주소를 사용하며, Metadata Server(MS)를 통해 전역 주소 할당 및 메타데이터 관리를 수행한다. MS는 페이지 단위로 메모리를 할당하며, 전역 주소는 페이지의 id와 CXL 메모리의 페이지 오프셋으로 이루어져 있다. Rcmp는 2개의 해시 테이블을 이용하여 주소 매핑을 관리한다. MS의 page directory는 페이지 id와 랙 id의 매핑을 관리하고, 데몬의 page table은 페이지 id와 페이지 오프셋의 매핑을 관리한다. 메모리 공간은 크게 3가지로 CXL 메모리와 컴퓨팅 노드의 로컬 메모리, 데몬으로 다음과 같은 역할을 한다.

CN: Local page hotness와 local page table 메타데이터를 캐싱
Daemon: Local page table과 원격 메모리의 hotness를 저장, MS의 page directory와 remote page table을 캐싱
CXL: 큰 캐시 일관성 보장 공유 메모리 공간과 컴퓨팅 노드에게 제공되는 메모리 공간

그림 3. Global memory and ddress management

2-2. Workflow

컴퓨팅 노드의 응용이 메모리 풀에 접근하는 것은 다음의 플로우를 따른다.

페이지가 로컬 메모리의 page table에서 발견된다면, load/store 명령어를 통해 CXL 메모리 페이지에 직접 접근
로컬 메모리에서 페이지를 찾지 못 하면, MS의 page directory를 참조하여 페이지가 존재하는 랙을 조회
페이지가 로컬 랙에 존재하면, 로컬 데몬의 page table을 통해 해당 페이지의 오프셋을 얻은 후 CXL 메모리 노드에 접근
페이지가 원격 랙에 존재하면, 원격 데몬에게 요청하여 원격 page table을 통해 해당 페이지의 오프셋을 얻어 RDMA를 통해 CXL 메모리 페이지에 접근 (이때 접근하는 페이지가 hot page인 경우, 스왑 메커니즘을 트리거)

#3 Rcmp

데몬은 랙의 중앙화된 관리 노드로 CXL 및 RDMA 요청 뿐만 아니라 페이지 스와핑, 슬랩 할당 관리, CXL 메모리를 관리하는 역할을 한다. 데몬은 각 랙에 하나 이상 실행되며 컴퓨팅 노드와 같이 취급된다. 또한 Rcmp의 모든 컴포넌트는 user-level에서 구현되어 컨텍스트 스위치 오버헤드가 없다.

3-1. Intra-rack communication

로컬 랙과 원격 랙에 접근하는 지연 시간의 차이가 커, 블로킹으로 인한 성능 하락을 초래할 수 있다. 이를 해결하기 위해 Rcmp는 각각의 상황에 맞추어 두 가지 링버퍼를 사용한다. 로컬 랙의 접근을 관리하기 위한 링버퍼는 CXL에 접근하는 지연 시간은 매우 짧아 블로킹이 발생하지 않기 때문에 일반적인 링버퍼를 사용한다. 따라서 컴퓨팅 노드의 모든 스레드가 공유하는 하나의 링버퍼를 유지한다.

원격 랙에 접근하기 위한 링 버퍼는 동시성 보장을 위해 두 개의 링버퍼로 이루어져 있다. 첫 번째 링버퍼는 폴링을 위한 링버퍼로 메시지 메타데이터와 메시지 데이터를 보관하는 두 번째 링버퍼를 가리키는 포인터를 저장한다. 폴링 버퍼의 데이터는 고정된 크기의 데이터 규격을 가지며, 데이터 버퍼의 요청이 하나 완료되면 하나의 폴링 버퍼 요청을 추가할 수 있다. 그리고 데몬은 메시지를 처리하기 위해 폴링 버퍼를 폴링 한다. 폴링 버퍼는 lock-free KFIFO 큐를 이용하여 구현하였으며, 데이터 버퍼는 일반적인 링버퍼를 통해 구현하였다.

3-2. Hot-page identification and Swapping

Rcmp는 원격 랙 접근 오버헤드를 줄이기 위해, hot page를 로컬에 위치시키려 한다.

Hot-page identification

Rcmp는 read/write 연산의 횟수, last time 세 가지 팩터로 hotness를 측정한다. 먼저 페이지에 접근할 때 Δt를 측정하는데, 이는 현재 시간으로부터 마지막으로 read 연산을 수행한 시간을 뺀 것이다. 만약 Δt가 valid lifetime threshold T를 넘어가면, 해당 페이지에 대한 hotness는 만료되고 현재 read/write 연산의 횟수가 0으로 초기화된다. 페이지의 hotness는 아래의 공식을 통해 계산한다. hotness가 threshold H를 넘어가면 페이지가 hot하다고 판단하며, (Curr/Curw)가 threshold Rrw를 넘어가면 read hot이라고 판단한다.

α × (Curr + Curw ) + 1
α = e−λΔt, where λ is a decay constant

Hot-page Swapping and Caching

Rcmp는 기존 페이지 기반의 메커니즘이 페이지 폴트를 이용하여 스왑 매커니즘을 수행한 것과 다르게 user-level swap mechanism을 사용한다. Rcmp의 hot 페이지 스왑 알고리즘을 아래의 절차를 따른다.

R1의 스왑 요청이 MS의 FIFO 큐에 큐잉된다.
R1은 스왑 될 free page를 선택한다. Free page가 없다면, cold page를 선택한다. Cold page도 없다면, 6단계로 넘어간다.
R2는 스왑될 페이지들의 hotness를 R1의 hotness와 비교한다. R2의 hotness가 더 높으면 swap을 거부한다. Read hot인 경우에는 R1의 CXL에 캐싱한다. 캐싱된 페이지는 read-only이며, write 될 때 삭제된다.
R2의 스왑될 페이지의 metadata에 대해 disable 하고 page table을 업데이트한다.
Hot page를 one-sided RDMA를 통해 스왑 한다.
R1의 page table을 업데이트하고, MS의 요청을 dequeue 한다.

3-3. RRPC

Rcmp에서 진행한 RPC와 hybrid(RPC + one-sided RDMA)의 throughput 비교 실험에서 512B를 기준으로, 데이터의 사이즈가 512B보다 작을 때는 hybrid 방식보다 RPC의 처리량이 더욱 높은 것으로 나타났다.

이런 특성을 이용하여 Rcmp에서는 데이터의 사이즈를 기준으로 전송 방식을 바꿔가며 communication을 수행하여 throughput을 올리는 framework를 제시하였다. 데이터 사이즈에 따른 전송 방식은 아래와 같다.

Pure RPC mode: 512B보다 작은 데이터의 communication에 사용 (데이터 요청 -> 데이터 반환)
RPC and one-sided mode: unstructred big data의 communication에 사용 (주소 요청 -> 사이즈 전달 -> RDMA read)
RPC zero-copy mode: structured big data의 communication에 사용 (데이터 요청 -> RDMA write)

그림 7. Different communication mode in RRPC

'논문 > 메모리 분리' 카테고리의 다른 글

TPP - ASPLOS'23 (1)	2024.03.19
POND - ASPLOS'23 (0)	2024.02.26

TPP - ASPLOS'23

choiish98 2024. 3. 19. 16:42

2024. 3. 19. 16:42

Transparent Page Placement for CXL-Enabled Tiered Memory

Authors: Hasan AI Maruf, Hao Wang, Abhishek Dhanotia, etc

Groups: Univ of Michigan, NVIDIA, Meta

Keywords: Memory management, CXL, Dense storage

#1 Background

1-1. Memory

최근 데이터센터에서는 저지연 서비스를 제공하기 위해 in-memory computation이 표준이 되고 있다. 이러한 경향은 메모리의 수요를 계속해서 증진시키고 있으며, 데이터센터에서 메모리의 cost와 power가 계속해서 증가하고 있는 이유이다. 현재의 아키텍쳐에서 메모리 서브시스템은 CPU와 완전히 독립되어 있으며, 이는 아래 제약사항들을 초래하며 효율적인 메모리 계층 구조 설계를 제한한다.

Support a single generation of memory
Memory capacity comes at power of two granularity which limits finer grain memory capacity sizing
Limited bandwidth vs capacity points per DRAM generation which forces higer memory capacity in order to get more bandwidth

1-2. CXL

CXL은 PCIe를 통해 디바이스와 CPU가 소통하는 구조로 기존의 DRAM과는 다르게 heterogenous 한 구성이 가능하다. PCIe를 통해 연결되기 때문에 bandwidth가 socket bandwidth에 제한되지 않으며, PCIe의 발전에 따라 더욱 증가할 가능성이 있다. 또한, latency도 기존 RDMA 방식과 비교하여 NUMA latency와 비슷하며 50~100ns 밖에 차이 나지 않는다.

그림 1. CXL-System compared to dual-socket server

#2 Chameleon

TPP는 메모리를 CXL을 활용한 메모리 계층 구조를 통해 cold page를 낮은 단계의 메모리에 할당하고 hot page를 메모리에 할당하여 애플리케이션의 성능을 향상하고자 한다. 이를 위해서 데이터센터 어플리케이션에 메모리 티어 시스템을 적용하기 위해 메모리 패턴을 파악하고 메모리 페이지 타입에 따른 메모리 티어 오프로딩 정량화가 필요하다. TPP는 자체 성능 분석 툴인 Chameleon을 개발하여 각 워크로드들의 특성을 파악하였다. ~~(Chameleon에 대한 설명은 생략하고 실험을 통한 인사이트를 살펴보겠음)~~

2-1. Workload overview

Web: Virtual Machine for serving web requests
- Web1: HipHop Virtual Machine-based web service
- Web2: Python-based web service
Cache: large distributed-memory object caching service lying between the web and database tiers for low-latency data-retrieval
Data Warehouse: unified computing engine for parallel data processing on compute clusters.
Ads: compute heavy workloads that retrieve in-memory data and perform machine learning computations

2-2. The needs of tiered memory system

워크로드들은 시스템 메모리 전체 용량의 95~98%를 할당하지만 많은 양의 메모리를 cold 상태로 가지고있고, 짧은 주기 안에서 전체 메모리의 22~80%만 사용한다. 또한 anonymous page를 자주 접근하며, file page는 cold한 특정이 있었다. 이러한 특성은 메모리 계층화 구조를 통해 cold memory를 더 낮은 티어의 메모리로 옮겨감으로써 메모리를 더욱 효과적으로 사용할 수 있음을 기대할 수 있다.

그림 2. Application memory usage over lasn N mins

2-3. Smart page placement mechanism

어플리케이션들은 실행 시간 동안에 특정 패턴을 계속해서 유지하려는 특성이 있으며, Smart page placement mechanism은 결정을 내릴 때 page type을 아는 것이 성능에 중요한 영향을 끼칠 것이다. 특히, anoymous page의 memory utilization이 상승하게 되면, 어플리케이션의 전체 throughput이 상승하게 되는 효과를 볼 수 있다.

그림 4. Wokload's sensitivity toward anons and files vaires

요약하자면, 위의 그림 2의 실험을 통해 논문에서는 cold page가 메모리에 많이 존재함을 강조함으로써 tier memory system의 필요성을 강조한다. 그리고 그림 3의 실험을 통해 어플리케이션은 보통 일정한 패턴을 띄며, 이것을 이용하는 page placement mechanism이 성능을 상승시킬 것이라 한다. 그 주장에 뒷받침되는 실험으로 그림 4를 통해 anonymous page들의 memory utilization이 상승할수록 어플리케이션의 throughput이 상승하는 것을 보여주고 있다.

#3 TPP

효율적인 page placement mechanism을 위해 TPP는 다음과 같은 목표를 지향한다.

Hot page를 fast memory tier에 위치시키도록 함 => latency 최소화
CXL node에 page를 할당하는 것을 최소화 => page promotion/demotion 오버헤드 최소화
응용의 sensitivity에 따른 page type에 맞는 메모리 티어에 page 할당 => cold page의 로컬 메모리 pollution 최소화

3-1. Design

Implementation

Application-transparent한 page placement algorithm은 user space, kernel space 모두 위치할 수 있다. User space에서 구현하려면, Chameleon 같은 툴을 사용하여 page temperature를 측정하고, NUMA migration을 통해 page placement algorithm을 구현해야 한다. 하지만 이런 방식은 user space에서 page list와 history management를 관리하고 있어야 하는 점과 컨텍스트 스위칭이 발생한다는 점에서 오버헤드가 크다. 따라서 TPP는 kernel space에서 구현되었다.

Page temperature detection

Page temperature를 측정하는 방법은 PEBS, Page Poisoning, NUMA Balancing과 같은 방법들이 있다. PEBS는 kernel-space에서 측정할 수 있으나 CPU vendor에 따라 사용하지 못 하기도 하며, temperature를 user-space에 전달해야하고, kernel에 상시로 동작하기에는 오버헤드가 크다는 단점이 있다.

따라서 TPP는 sampling 방식을 사용하였는데, Sampling을 통해 page temperature를 측정하는 방식은 hot/cold page를 찾기에는 적합하나, page가 evict될 때 page accessed bit를 clear하고 TLB entry를 flush 해야하는 오버헤드가 크다. 이러한 문제를 해결하기 위해 Thermostat에서 채택한 방식인 2MB granularity의 huge-page로 sampling을 진행하였다.

CXL-memory abstraction

state-of-art 연구에서는 cold page를 보관하기 위해 swap space를 이용하였으며, swap-based mechanism을 활용하여 cold page를 찾았다. 하지만 swap mechanism을 이용할 경우 major page fault가 발생하며, CXL의 cache-line granularity를 활용하지 못 한다는 측면에서 TPP는 CXL 메모리를 swap device로 사용하지 않았다.

하지만 swap space 기반의 feedback-driven reclamation은 효율적이며 TPP와는 독립적으로 동작할 수 있기 때문에 TPP와 같이 동작한다. 따라서 TPP의 구조에서 TMO는 user-space에서 memory reclamation을 동작하며, TPP는 kernel-space에서 page placement를 동작한다.

3-2. Decoupling Allocation and Reclamation

커널은 메모리 관리를 위해 min, low, high 3가지 워터마크를 사용한다. NUMA 노드의 free page 수가 high 워터마크를 넘어가게 되면, 커널은 메모리가 부족하다고 판단하고 low 워터마크까지 page reclamation을 진행하게 된다. 이때 메모리 노드에 대한 새로운 페이지 할당 요청이 들어오면, 커널이 high 워터마크 아래까지 page reclamation을 완료하기 전까진 페이지 할당은 중지된다. 새로운 페이지 할당 요청이 많은 상황에서는 page reclamation이 page allocation보다 느리기 때문에 메모리 노드 공간 확보에 실패하여 응용의 성능이 많이 하락하게 된다.

TPP에서는 multi-NUMA 시스템 상황에서 미리 free memory headroom을 확보하여 allocation burst를 모두 로컬 메모리에 할당하려 하며, CXL node에 있는 hot page도 local memory로 잘 가져올 수 있도록 한다. 이를 위해 TPP는 demotion, allocation 두 가지 워터마크로 allocation과 reclamation의 동작을 분리시켰다. 백그라운드 프로세스는 free page의 수가 demotion 워터마크 아래가 될 때까지 page reclamation을 비동기적으로 수행하며, 이 때 page allocation 요청은 free page 수가 allocation 워터마크 아래이면 수행 가능하다. (추가로 워터마크는 user-space process로 분석을 통해 동적으로 조절이 가능하다.)

그림 5. TPP decouples the allocation and reclamation

3-3. Page Type-Aware Allocation

Production 응용은 보통 초기 구동 단계에서 많은 파일 I/O를 수행하고, 드물게 접근하는 파일 캐시를 생성한다. Cold 파일 캐시는 로컬 노드에 위치하게 되고, 비활성 파일 캐시로 인해 로컬 메모리 노드가 점유되면 비활성화된 파일 캐시가 나중에 다시 promotion 되어야 하는 오버헤드가 있다. 이러한 불필요한 페이지 이동을 해결하기 위해 TPP는 CXL 노드에 캐시를 할당하고, 응용에서 생성된 페이지 캐시는 초기에 CXL 노드에 할당한다. 이후 페이지 캐시가 promotion candidates로 선택될만큼 충분히 hot 해진 경우 로컬 노드로 promotion 된다.

3-4. Migration for Lightweight Reclamation

새로운 페이지를 할당하려 할 때 free page가 부족하면 커널은 CXL-node에서 새로운 페이지를 할당한다. reclamation이 느릴 수록 CXL 노드에 새로 할당되는 수가 많아지며, 이것은 응용의 성능을 하락시키는 요소가 된다. 하지만 TPP는 커널의 LRU-based mechanism을 통해 reclamation-candidates를 찾고 CXL node로 비동기적으로 이동시키는 방법으로 이 문제를 해결하였다. 또한 swap mechanism과 다르게 CXL node의 cold page는 여전히 in-memory page이기 때문에 page fault handling 오버헤드가 없다. 만약 CXL 노드의 메모리가 부족하여 demotion이 실패하면, 기존 커널의 로직으로 다시 돌아가게 된다.

3-5. Page Promotion for CXL-Node

로컬 메모리가 pressure 되는 상황에서 새로운 페이지의 할당은 CXL 메모리에서 이루어지게 된다. 게다가 demoted된 page 또한 재접근을 통해 로컬 메모리로 다시 promote되기도 한다. 효율적인 promotion 알고리즘이 없으면 hot page는 계속해서 CXL node로 demote되고 이는 결국 응용의 성능 저하로 나타나게 된다.

NUMA Balancing 구조에서 커널은 프로세스의 메모리 접근 패턴을 분석하기 위해 일정 용량을 샘플링한다. CPU가 샘플링 된 페이지에 접근하면 (NUMA hint fault), minor page fault가 발생하게 된다. 그리고 remote CPU가 접근하게 되면 해당 page를 remote node로 promote하게 된다. 하지만 로컬 hot page를 다른 노드로 옮기는 것은 합리적이지 않으며, 로컬 hot page 샘플링으로 인하여 발생하는 NUMA hint fault는 오버헤드가 크기 때문에 TPP에서는 CXL 노드에서만 샘플링을 수행한다.

CXL 노드에서 발생하는 NUMA hint fault는 CXL 노드에 있는 페이지를 로컬 노드로 promote 하도록 한다. 하지만 재접근 비율이 낮거나 cold page를 로컬 노드로 가져오는 경우에 이것은 또 성능 하락으로 이어질 수 있는 여지가 있기 때문에 TPP에서는 active list에 존재하는 페이지의 경우에만 로컬 노드로 가져오게 되고, inactive list에 존재하는 페이지는 active list로 가져오도록 하여 promote traffic을 줄였다.