HPE Superdome Flex 서버 아키텍처 및 RAS · HPE Superdome Flex 관리 기능에 대한...

HPE Superdome Flex 서버 아키텍처 및 RAS 모든 크기의 인메모리 워크로드에 대한 탁월한 확장성, 유연성 및 안정성

기술 백서

기술 백서

목차 소개 ..................................................................................................................................................................................................................................................................................................................................................................... 3

안정성, 가용성, 서비스 가용성 .................................................................................................................................................................................................................................................................................. 4

관리 효율성 ........................................................................................................................................................................................................................................................................................................................................ 5

시스템 아키텍처 ................................................................................................................................................................................................................................................................................................................................ 5

HPE Superdome Flex 섀시 - 모듈형 빌딩 블록 ............................................................................................................................................................................................................................................ 6

HPE Superdome Flex 섀시 관리 .................................................................................................................................................................................................................................................................................. 12 HPE Superdome Flex Rack Management Controller .................................................................................................................................................................................................................................... 13

RAS ................................................................................................................................................................................................................................................................................................................................................................... 13 장애 관리 전략 ........................................................................................................................................................................................................................................................................................................................... 13

펌웨어 우선 .................................................................................................................................................................................................................................................................................................................................... 14

RAS 차별화 요소 ....................................................................................................................................................................................................................................................................................................................... 14

관리 ................................................................................................................................................................................................................................................................................................................................................................. 22

내장된 관리 기능 .................................................................................................................................................................................................................................................................................................................... 22

추가 관리 리소스 .................................................................................................................................................................................................................................................................................................................... 24

결론 ................................................................................................................................................................................................................................................................................................................................................................. 26

관련자료 ............................................................................................................................................................................................................................................................................................................................................ 26

기술 백서 3페이지

소개

HPE Superdome Flex 서버는 규모에 상관없이 모든 비즈니스에 적합한 인메모리 컴퓨팅을 가능하게 하는 탁월한 모듈성, 유연

성, 확장성, 안정성을 제공합니다.

HPE Superdome Flex는 비즈니스 데이터 양이 엄청나게 늘어나더라도 유연하게 처리할 수 있는 강력한 미션 크리티컬 플랫폼입

니다. 이 플랫폼의 인메모리 설계와 탁월한 규모 덕분에 디지털 코어에서 인텔리전트 에지에 이르기까지 데이터를 실시간으

로 정확하게 분석할 수 있습니다. 모듈형 클라우드 지원 인프라는 어떤 크기의 비즈니스에도 적합합니다.

고유한 모듈형 설계를 통해 진화하는 인메모리 컴퓨팅 요구사항을 충족할 수 있으며 소규모로 시작하여 필요에 따라 확장하

고 유연하게 확장 또는 축소할 수 있습니다. 탁월한 RAS 및 엔드 투 엔드 보안으로 HPE Superdome Flex는 중요한 워크로드를 안

전하게 보호합니다. 당사의 다양한 서비스 포트폴리오, 파트너 에코시스템 및 미션 크리티컬 전문 지식을 통해 데이터를 인사

이트로 바꿀 수 있고 이 인사이트는 실행 가능한 행동으로 이어져 이 모든 것들이 성공의 기반이 되기 때문에 귀하의 비즈니스

를 안심하고 상시 운영할 수 있습니다.

• 다른 표준 플랫폼에서 제공되지 않는 입증된 RAS 기능은

• 운영자의 도움 없이 하드웨어 결함을 예측하고 자체 복구를 시작하는 업계 최고 수준의 예측형 결함 처리 오류 분석 엔진

• 로그 분석을 통해 OS 계층에서 중단 문제가 발생하기 전에 메모리 오류를 비롯하여펌웨어 수준의 오류 억제를 보장하는 펌웨어 우선 접근 방식

• 프로세서 RAS 기능의 엔드 투 엔드 구현부터 주요 시스템 구성요소의 이중화, 고급 시스템 소프트웨어에 이르는 미션 크리티컬 복원력

• 칩셋에서 최대 99.999%의 단일 시스템 가용성을 제공하도록 설계됨

HPE Superdome Flex는 모든 크기의 비즈니스를 고려하여 쉽고 저렴한 비용으로 확장할 수 있는 고유의 모듈형 설계로 된 유연

한 인메모리 컴퓨팅 솔루션입니다. 신뢰할 수 있는 HPE Superdome의 안정성과 표준 x86 기반 설계가 결합된 제품입니다. 이 문

서에서는 HPE Superdome Flex 아키텍처를 비롯하여 미션 크리티컬 환경을 고려한 성능, 관리 효율성, 안정성에 대한 중요한 이

점을 설명합니다.

그림 1. HPE Superdome Flex 시스템


그림 1에서 볼 수 있듯이 HPE Superdome Flex는 4소켓에서 최대 32소켓(또는 64소켓 이상도 전문 고객의 요구를 고려할 수 있

음)까지 HPE Superdome Flex Grid라는 케이블 크로스바 상호 연결 패브릭을 통해 4소켓 단위로 확장할 수 있는 5U 모듈형 빌딩

블록을 중심으로 설계되었습니다. HPE Superdome Flex 고객은 이와 같이 유연한 모듈형 설계를 통해 현재 필요한 시스템 규모

를 초과하는 인프라 비용(예: 전력 용량, Flex Grid 케이블 등)을 지불하지 않아도 향후 애플리케이션 변경이 필요할 경우 시스템

용량을 늘릴 수 있습니다. 시스템에 대한 서비스 액세스는 전방 및 후방 슬라이딩 레일을 통해 인클로저 전면 또는 후면으로

제한되고, 대량 전원 공급장치(BPS), 팬 어셈블리, 부팅 드라이브와 같은 구성요소는 모두 미션 크리티컬 워크로드 및 운영 환

경이 계속 실행되는 동안에도 정비를 받을 수 있습니다. HPE Superdome Flex Grid는 사용 가능한 최적의 대기 시간 경로를 통해

트래픽을 라우팅하여 성능을 개선하도록 특수 설계된 적응형 라우팅 기능을 제공하고, 고장난 구성요소 주변의 트래픽을 자

동으로 라우팅하여 가동 시간을 극대화합니다.

안정성, 가용성, 서비스 가용성

RAS로 통칭되는 안정성(Reliability), 가용성(Availability) 및 서비스 가용성(Serviceability)은 구성요소 오류 또는 복구 중 시스템을

계속 실행할 수 있는 기능을 제공하므로 서비스 담당자가 와서 수리할 때까지 기다리지 않고 장애로부터 자동으로 빨리 미션

크리티컬 워크로드를 다시 시작할 수 있기 때문에 HPE Superdome 서버에서 미션 크리티컬 워크로드를 배포하는 가장 큰 이유

중 하나입니다. 강력한 RAS는 항상 HPE Superdome 서버의 설계 철학으로 자리매김해 왔고 HPE Superdome Flex는 다음과 같은

RAS 기능을 갖춘 전략을 토대로 구축되었습니다.

• 맞춤형 참조 코드 수정을 통한 인텔® 제온® 확장 가능한 RAS 기능의 선택적 확장 구현

– 예를 들어, 적응형 DDDC의 HPE Superdome Flex 구현은 더 많은 오류 수정 영역을 사용하고 인텔® 표준 참조 코드에서 제공되는 것보다 세분화된 단계를 가지고 있습니다. 따라서 다른 벤더의 플랫폼보다 우수한 연간 서비스를 받을 수 있고 메모리 교체율도 더 낫습니다.

• 적응형 라우팅이 적용된 케이블식 HPE Superdome Flex Grid:

– 성능을 극대화하기 위해 크로스바 패브릭을 통해 최적의 대기 시간 경로를 자동으로 선택하고 재부팅할 필요 없이 장애 주변의 트래픽을 탐지 및 라우팅합니다.

– HPE nPar 지원(출시 예정)은 케이블 연결이 제대로 된 경우 완전한 워크로드 격리 및 독립적인 서비스 가용성을 제공합니다.

• 8소켓 이하 시스템용 RMC(Rack Management Controller) 또는 eRMC(embedded RMC)는 서버 관리 명령줄 인터페이스를 제공하고, 오류 처리/수정, 자가 복구 및 시스템 상태 모니터링을 제공하는 HPE Superdome Flex 오류 분석 엔진을 포함합니다.

• 핫스왑 가능 전력 및 냉각 구성요소.

RAS에 대한 자세한 내용은 이 문서의 RAS 섹션에 나와 있습니다.


관리 효율성

HPE Superdome Flex에는 항상 구동 중이고 미션 크리티컬 고가용성을 고려한 시스템 구성요소, 패브릭 및 인프라를 모니터링

및 관리하는 고급 관리 시스템이 있습니다. 최고의 HPE Integrity Superdome X RAS 및 관리 기술과 HPE MC990 X 플랫폼의 탁월한

성능 및 모듈성을 결합하여 탁월한 확장성, 향상된 유연성, 극한의 가용성, 간소화된 사용자 경험을 제공합니다. 설계 팀은 시

스템의 주요 개발 영역인 관리에 중점을 두었습니다. 업계 표준인 Redfish® API를 사용하여 업계 표준 및 HPE 관리 제품군에 완

벽하게 통합되도록 설계되었습니다. 또한 HPE Superdome X와 유사한 향상된 오류 분석 엔진은 향상된 자가 진단 및 자동 복구

기능을 제공합니다. 관리자는 포괄적인 SSH 명령줄 인터페이스를 사용하여 반복적인(스크립트 가능한) 방식으로 가장 세분

화된 기능을 사용할 수 있습니다.

주요 관리 구성요소 및 리소스에는 다음이 포함됩니다.

• HPE Superdome Flex RMC(Rack Management Controller)

• HPE OneView

• HPE Insight Remote Support

• Smart Update Manager

HPE Superdome Flex 관리 서브시스템은 업계 표준인 Redfish API를 사용하여 데이터 센터 솔루션 관리 구성요소에 통합됩니다.

따라서 OpenStack®과 같은 표준 솔루션뿐만 아니라 간단한 스크립팅을 사용하여 정보를 얻고 시스템을 제어할 수 있습니다.

HPE Superdome Flex 관리 기능에 대한 자세한 내용은 이 문서의 관리 섹션을 참조하십시오.

시스템 아키텍처

HPE Superdome Flex는 가장 유연한 x86 서버 솔루션을 제공하는 인텔 제온 아키텍처와 새로운 HPE Superdome Flex ASIC 칩셋의

가장 좋은 장점만 결합했습니다. 이 시스템은 4소켓에서 32소켓까지 4소켓 단위로 성능과 확장성을 제공할 수 있고, 애플리케

이션 가용성이 가장 중요한 미션 크리티컬 환경에서 작동하는 데 필요한 RAS 기능을 제공합니다. 그림 2는 서버 솔루션용 기

본 모듈형 빌딩 블록으로 구성된 HPE Superdome Flex 기본 섀시의 아키텍처를 나타냅니다. 각 HPE Superdome Flex 시스템은 하나

이상의 기본 섀시 외에 소켓을 최대 32개까지 확장하거나 워크로드를 격리하거나 여러 개의 워크로드를 단일 관리 컴플렉스로

통합하기 위해 시스템을 하드 파티션(HPE nPar)으로 나눌 수 있게 해주는 약 7개의 추가 확장 섀시로 구성됩니다. HPE Superdome

Flex ASIC를 사용하면 여기에 나열된 주요 이점을 제공하는 HPE Superdome Flex Grid 케이블을 통해 기본 및/또는 확장 섀시를 함

께 연결할 수 있습니다.

• 적응형 라우팅: 최적의 대기 시간과 함께 사용 가능한 경로를 활용하고 고장난 리소스 주변으로 라우팅하여 패브릭의 로드 균형을 조정하고 성능 이점을 얻습니다.

• 구성 유연성: 고정된 백플레인/미드플레인 연결은 더 작은 HPE nPar 구성에서 포트를 사용하지 않는 경우가 자주 있지만 애플리케이션을 변경해야 할 때마다 성능을 극대화하기 위해 현장에서 케이블을 신속하게 재구성할 수 있습니다.

• 신호 무결성 이점: 케이블은 신호 전파 속도가 더 빠르기 때문에 지연이 적고 대기 시간이 짧으며 혼선이 적은 채널과 인쇄 회로 기판의 구리 회로에서 얻을 수 있는 신호 대 잡음비가 더 높습니다.

• 미래에 대비: 오늘날의 외부 구리 케이블은 향후 광 케이블링 기술에 보다 쉽게 적용할 수 있는 인프라를 제공합니다. 데이터 전송 속도가 구리 케이블의 용량을 초과하고 광 케이블을 구현하는 비용이 저렴해지면 HPE Superdome Flex ASIC 어셈블리의 새 버전을 연결하는 것만큼 쉽게 HPE Flex Grid를 광섬유로 전환할 수 있습니다.

• 낮은 진입 비용: 모듈형 섀시를 케이블로 연결하면 필요에 따라 전원 및 냉각 인프라를 비롯한 하드웨어를 구입하고 필요할 때까지 더 많은 확장성을 확보하기만 하면 됩니다.


그림 2. HPE Superdome Flex 모듈형 섀시 아키텍처

HPE Superdome Flex 섀시 - 모듈형 빌딩 블록

각 HPE Superdome Flex 섀시에는 프로세서 소켓당 약 28개의 코어를 제공할 수 있는 2개의 인텔 제온 확장 가능한 81xx 또는 61xx

시리즈 프로세서가 장착됩니다. 하이퍼스레딩을 활성화하면 112코어 HPE Superdome Flex 섀시는 224개의 논리 프로세서를 제

공합니다. 4개의 프로세서는 10.4GT/s Intel UPI(Ultra Path Interconnect) 링크를 통해 링 방식으로 함께 연결됩니다. 또한 각 프로세

서는 Intel UPI 링크를 통해 2개의 맞춤 설계된 HPE Superdome Flex ASIC 중 하나에 연결되어 8소켓 이상의 HPE nPar에서 원격 섀

시로 원격 대상 캐시 일관성 데이터 트래픽을 전송합니다. HPE Superdome Flex 아키텍처는 각 프로세서에 32GB, 64GB 또는 용량


이 더 큰 DDR4 DIMM을 수용할 수 있는 12개의 HPE DDR4 DIMM 슬롯에 직접 연결할 수 있게 해줄 뿐 아니라 PCIe 3.0 x8 및 x16 스

탠드업 카드 슬롯에 직접 연결할 수 있게 해줍니다.

또한 2개의 HPE Superdome Flex ASIC는 시스템에 81xx Platinum 및 61xx Gold 시리즈 프로세서를 모두 지원하면서 4소켓에서 최대

32소켓까지 확장성을 계속 제공하는 고유의 기능을 구현하기 위해 교차 연결되었습니다. 인텔 제온 확장 가능한 프로세서는

이전 세대 프로세서와 비교했을 때 다음과 같은 이점을 제공합니다.

• 소켓당 최대 28개의 코어(56개의 로직 프로세서, 인텔 제온 하이퍼스레딩 기술 사용 시)

• 10.4GT/s로 실행되는 새로운 UPI 링크는 QPI보다 향상된 대역폭과 성능을 제공하고 향상된 메시징 효율성을 포함하며 패킷당 여러 요청을 지원합니다.

• 중간 수준 캐시를 최적화 및 확장하는 리밸런스드 캐시 계층 구조로 최대 38.5MB의 최종 수준 공유 캐시 용량을 계속 제공합니다.

• 이중 통합식 완전 독립형 메모리 컨트롤러는 2667MT/s 데이터 전송 속도로 실행되는 12개의 DDR DIMM 슬롯에 직접 연결되는 완전 독립형 6개의 메모리 컨트롤러(메모리 컨트롤러당 3개)로 분리됩니다. 경로에 확장 가능한 메모리 버퍼가 없기 때문에 대기 시간과 대역폭이 크게 향상됩니다.

• x16 또는 x8 슬롯을 쉽게 지원할 수 있도록 48개의 분할된 레인을 제공하고, 멀티 세그먼트 PCIe 어드레싱을 기본 지원하는 새로운 MCTP 조정을 통해 PCIe 3.0 대역폭을 50% 이상 사용할 수 있습니다.

• AVX2보다 최대 2배 더 높은 최대 부동 소수점 성능을 제공하는 새로운 Intel AVX-512(512비트) 명령 세트를 통해 이 프로세서는 오늘날까지 사용 가능한 최고의 고성능 컴퓨팅 엔진이라고 할 수 있습니다.

HPE Superdome Flex ASIC

HPE Superdome Flex ASIC는 인텔 제온 확장 가능한 프로세서와 직접 상호 작용하는 HPE 맞춤형 ASIC로, HPE Superdome Flex Grid

라는 캐시 일관성 패브릭에서 HPE Superdome Flex 섀시를 최대 8개까지 연결할 수 있는 기능을 시스템에 제공합니다. HPE Flex

ASIC는 한 쪽에 2개의 인텔 제온 확장 가능한 프로세서와 상호 작용하는 2개의 UPI 링크를 제공하고, 다른 쪽에는 HPE Flex Grid

케이블을 통해 동일 섀시 및 외부 섀시의 HPE Flex ASIC와 상호 작용하는 16개의 그리드 포트를 제공합니다. Flex ASIC는 ASIC 자

체에 내장된 디렉토리 캐시에 있는 HPE nPar 내의 모든 프로세서 소켓에 걸쳐 캐시 라인 상태와 소유권을 추적하여 일관성을

유지합니다. 이 일관성 계획은 HPE Superdome Flex가 4소켓에서 최대 16소켓 이상까지 거의 선형으로 확장할 수 있는 능력에 있

어 중요한 요소입니다. 반면 전형적인 글루리스(glueless) 아키텍처 설계는 브로드캐스트 스누핑으로 인해 이미 약 4-8개 소켓

으로 제한된 성능 확장을 보이고 있습니다.


HPE Superdome Flex ASIC의 특징은 다음과 같습니다.

• 캐시 일관성 도메인당 최대 64TB의 기본 메모리에 대한 실제 주소 지원

• 캐시 라인 상태를 추적하고 연결된 모든 프로세서 소켓에 걸쳐 일관성을 유지하는 매우 큰 디렉토리 캐시

• 적응형 라우팅 기능은 장애 복원력과 패브릭의 로드 균형을 조정합니다.

– 최적의 대기 시간 데이터 경로를 선택하여 성능을 최적화

– 고장난 구성요소를 자동으로 탐지 및 라우팅

• 최대 Flex Grid 대역폭에 대해 각각 13.3GB/s 데이터 속도(HPE MC990 X보다 80% 더 빠름)가 가능한 16개의 Flex Grid 포트 제공

– 210GB/s 이상의 이중 단면 크로스바 그리드 대역폭(8소켓에서) 및 각 ASIC 간 4개의 Flex Grid 링크 연결



HPE Superdome Flex Grid - 크로스바 패브릭

HPE Superdome Flex Grid는 HPE 확장 가능 시스템 설계의 근본적인 차별화 요소입니다. 맞춤형 HPE Superdome Flex ASIC에서 지

원하는 이 기능을 통해 HPE가 표준 Intel 참조 아키텍처에서 제공하는 8소켓 제한보다 더 뛰어난 확장성을 갖춘 시스템을 제공

할 수 있습니다. 맞춤형 Flex ASIC 및 HPE Flex Grid 케이블링은 각 HPE nPar에서 정의된 모든 프로세서 사이에 낮은 대기 시간과

높은 대역폭의 캐시 일관성 경로를 제공합니다. 또한 한 nPar의 데이터 트래픽이 다른 nPar에 영향을 줄 수 없도록 HPE nPar 간

케이블로 연결된 Flex Grid 링크를 완전히 비활성화하여 진정한 하드 파티셔닝(전체 워크로드 격리)을 구별하는 것이 중요합니

다. 출고 시 통합 시스템의 경우와 같이 HPE nPar이 특정 HPE nPar 크기에 대해 개별적으로 케이블로 연결되었을 경우 각 HPE

nPar은 독립적으로 그리고 동일 컴플렉스 내에 상주하는 다른 HPE nPar을 중단시키지 않고 서비스를 진행할 수 있습니다.

최대 32소켓의 시스템 확장을 제공함으로써 HPE Superdome Flex만으로도 오늘날 사용 가능한 가장 큰 캐시 일관성 솔루션을

제공하기 때문에 고객이 이전에는 상상할 수 없었던 워크로드를 처리할 수 있습니다. 32소켓 HPE nPar용 HPE Flex Grid 상호 연

결 구성표의 예가 그림 3에 나와 있습니다.


그림 3. 32소켓 HPE Superdome Flex Grid 상호 연결

그림 3에서 볼 수 있듯이 HPE Superdome Flex Grid 링크는 대기 시간을 최소화하고 성능을 극대화하기 위해 모든 ASIC 간에 단일

홉, 직접 상호 연결을 제공합니다. 케이블로 연결된 HPE Superdome Flex Grid의 탁월한 유연성 덕분에 HPE Superdome Flex ASIC가

더 이상 싱글 홉 직접 연결을 제공할 수 없는 32소켓 이상에서도 멀티 홉 링크를 허용함으로써 더 높은(64소켓 이상) 싱글 홉

직접 연결을 수용할 수 있습니다. 따라서 특별한 요구가 있는 고객도 이전에는 상상할 수 없었던 규모의 진정한 캐시 일관성

시스템 솔루션이 전에 시도하지 못했던 컴퓨팅 문제를 해결할 수 있음을 알 수 있습니다.


메모리 서브시스템

각 HPE Superdome Flex 섀시에는 섀시당 최대 용량인 6TB용으로 32GB RDIMM, 64GB LRDIMM 또는 128GB TSV RDIMM(향후)을 수

용할 수 있는 48개의 DDR4 DIMM 슬롯이 있습니다. 따라서 완전히 확장된 32소켓 HPE Superdome Flex에 가장 집중적인 인메모

리 애플리케이션을 지원하는 48TB의 총 메모리 용량을 제공할 수 있습니다. 그림 4는 메모리 서브시스템 아키텍처의 다이어

그램을 나타낸 것입니다.

그림 4. HPE Superdome Flex 섀시 메모리 서브시스템

그림 4에 표시된 것처럼 메모리 서브시스템의 특징은 다음과 같습니다.

• 각 인텔 제온 확장 가능한 프로세서는 2개의 완전 독립형 통합 메모리 컨트롤러(MC)를 제공하고, 이 프로세서는 섀시당 3개의 대기 시간 수준(로컬, 직접 연결, 간접 연결)을 제공하는 캐시 일관성 링 아키텍처로 함께 연결됩니다.

• 각 메모리 컨트롤러는 3개의 완전 독립형 메모리 채널을 제공합니다.

• 각 메모리 채널은 2개의 DDR4 DIMM 슬롯에 직접 연결됩니다.

• 외부 섀시 연결부(그림에 없음)가 제공됩니다.


이 메모리 채널은 완전 독립형이기 때문에 최대 2667MT/s의 DRAM 데이터 전송 속도로 동시에 실행하여 각 4소켓 HPE Superdome

Flex 섀시에 360GB/s 이상의 로컬 메모리 대역폭(STREAM TRIAD)을 제공할 수 있습니다. 즉, HPE Superdome X의 16소켓 최대 nPar

크기에서 1.4TB/s까지 선형 확장이 가능한 것입니다. 또한 HPE Superdome Flex를 사용할 경우 16소켓의 절반 용량에 불과하고

동일한 선형 메모리 대역폭으로 가장 까다로운 워크로드를 실행하는 인텔 제온 확장 가능한 프로세싱 성능을 최대 896개 코

어까지 유지하려면 놀라운 메모리 용량과 성능이 필요한 32소켓까지 동일한 선형 메모리 대역폭을 사용하십시오.

I/O 서브시스템

오랫동안 HPE 미션 크리티컬 서버 설계의 특징으로 자리매김했던 것처럼 획기적인 시스템 성능을 달성한다는 것은 프로세싱

성능, 메모리 용량/성능, 크로스바 상호 연결성 및 시스템 I/O 기능 간의 균형을 유지하는 것이 가장 중요하다는 것을 의미합니

다. 각 HPE Superdome Flex 섀시에 16슬롯 또는 12슬롯 I/O 벌크헤드가 장착되어 무수히 많은 스탠드업 PCIe 3.0 카드 옵션을 제공

하고 모든 워크로드에 대해 매우 중요한 시스템의 균형을 유지할 수 있습니다. 16슬롯 I/O 벌크헤드는 9개의 로우 프로파일 x8 및

7개의 로우 프로파일 x16 PCIe 3.0 카드 슬롯을 제공합니다. I/O 벌크헤드는 사용 가능한 I/O 대역폭의 섀시당 최대 110GB/s의 속

도로 프로세서당 사용 가능한 48개의 PCIe 레인을 활용합니다. 12슬롯 I/O 벌크헤드는 4개의 전체 높이 x8, 4개의 전체 높이 x16, 3개

의 로우 프로파일 x8 및 1개의 로우 프로파일 x16 PCIe 3.0 카드 슬롯을 제공합니다. I/O 벌크헤드는 매우 까다로운 고성능 컴퓨

팅/HPTC 워크로드 또는 궁극의 신경망 교육 엔진으로 기계 학습을 고려하여 최대 300W 전체 높이, 두 배 폭 GPU 카드를 지원할

정도로 충분한 추가 전력 용량을 제공합니다. I/O 설계는 I/O 벌크헤드 선택을 통해 대기 시간을 추가하거나 대역폭을 줄일 수 있

는 버스 중계기 또는 리타이머 없이 프로세서와 카드 슬롯을 직접 연결합니다. 따라서 HPE Superdome Flex 고객은 최상의 카드

성능을 얻을 수 있다는 확신을 가질 수 있습니다. 그림 5는 16슬롯 및 12슬롯 I/O 벌크헤드 옵션의 레이아웃을 나타낸 것입니다.

그림 5. HPE Superdome Flex I/O 벌크헤드 옵션


최상의 기본 I/O 벌크헤드 옵션을 애플리케이션 니즈에 맞게 선택할 수 있으며 HPE Superdome Flex 시스템의 I/O 서브시스템 설

계는 기본 I/O 기능도 제공합니다. 또한 쉬운 배포와 비용 최소화를 위한 내장형 핫스왑 가능 부팅 드라이브도 제공합니다.(물

론 SAP HANA®에서 자주 권장되는 것처럼 고객은 SAN에서 부팅하는 것을 선택할 수도 있지만 PXE를 통해 네트워크 부팅을 선

택할 수도 있습니다.)

그림 6. HPE Superdome Flex Base I/O

그림 6에 예시된 HPE Superdome Flex Base I/O는 HPE Superdome Flex 컴플렉스의 기본 섀시에 다음과 같은 기능을 제공합니다.

• 핫스왑 가능 2.5" HDD/SSD를 통해 제공되는 내장형 부팅 저장 장치 4개

• OS/드라이버 설치용 DVD-ROM/RW 드라이브 1개

• 범용 10GbE LAN 포트 2개

• 범용 1GbE LAN 포트 2개

• USB 3.0 포트 4개

• OS 콘솔 직렬, VGA 및 KVM LAN 포트

• 관리 LAN에 연결하는 RMC(LAN Management Controller) LAN 포트 1개

• 초기 시스템 설정, 암호 복구, 디버그를 위한 단일 BMC(Board Management Controller) 콘솔 포트 1개

각 HPE Superdome Flex 시스템에는 HPE nPar monarch 역할을 하는 하나 이상의 기본 섀시가 있으며 고객 구성에 따라 확장 섀시

를 최대 7개까지 포함할 수 있습니다. 시스템을 여러 HPE nPar(최초 릴리스에서는 사용할 수 없음)으로 나눈다면 각 HPE nPar에

는 하나 이상의 기본 섀시가 필요합니다. 그러나 장애 조치를 목적으로 두 가지를 선택하면 드물지만 섀시 구성 해제 이벤트가

발생할 경우 자동 재구성과 재부팅을 허용하여 전체 시스템 가용성을 높일 수 있습니다.

HPE Superdome Flex 섀시 관리

각 HPE Superdome Flex 섀시에는 섀시를 HPE Superdome Flex 서버 관리의 주요 구성요소인 RMC(Rack Management Controller)에 연

결하는 데 필요한 모든 기능을 제공하는 PCH(Platform Controller Hub) 칩과 BMC(Baseboard Management Controller)가 있습니다. PCH

칩은 초기 리셋 기능과 실시간 클럭 기능을 제공합니다. BMC는 대량의 하드 파티셔닝 기능과 오류 처리 기능을 제공합니다.

BMC 하드웨어 및 펌웨어도 이더넷 관리 네트워크를 통해 원격 서버 관리 기능을 제공합니다. 각 섀시의 BMC는 HPE Superdome

Flex처럼 크고 유연한 시스템을 관리하는 데 필요한 처리 능력을 제공하기 위해 RMC와 직접 상호 작용합니다.


HPE Superdome Flex Rack Management Controller HPE Superdome Flex는 HPE Superdome Flex RMC(Rack Management Controller)를 통해 관리됩니다. HPE Superdome Flex RMC는 HPE

MC990 X RMC에 기반하며 HPE Superdome X 제품의 확장된 기능이 통합되었습니다. 시스템 및 구성요소 인벤토리, 상태의 분할

을 관리할 수 있는 기능을 제공합니다. 각 섀시에는 자체 BMC(Baseboard Management Controller)가 있지만 HPE Superdome Flex RMC는

각 섀시 BMC를 통해 모든 섀시와 시스템 패브릭을 공동으로 관리하므로 개별 노드를 관리할 때 드릴다운하지 않아도 됩니다.

HPE Superdome Flex RMC의 내장형 분석 엔진은 모든 하드웨어를 지속적으로 분석하여 오류를 탐지하고, 장애를 예측하며, 자동

복구 작업을 시작하고 관리자에게 HPE Insight Remote Support 및 HPE OneView에 대한 알림을 보내기 시작합니다. HPE Insight Remote

Support는 HPE Superdome Flex RMC에 연결하여 문제를 모니터링하고 해결합니다. 분석 엔진과 함께 작동하며 HPE 백엔드에 연

결하고 HPE 지원에 자동 통보하여 시스템 문제를 해결할 수 있습니다.

RAS HPE Superdome Flex 서버는 프로세서, 메모리 및 I/O와 같은 주요 하드웨어 서브시스템에 RAS 기능을 제공하고, 미션 크리티컬

Linux® 및 VMware® 운영 환경을 위한 이상적인 토대를 제공합니다. x86 운영 환경을 실행하는 HPE의 미션 크리티컬 Superdome

Flex는 애플리케이션, 파일 시스템 및 운영 체제 보호를 제공하는 계층화된 접근 방식을 통해 비즈니스가 항상 운영되고 가용

성을 제공함으로써 가용성 측면이 점차 강조되고 있음을 반영합니다. HPE의 미션 크리티컬 Superdome Flex 인프라와 x86 운영

환경은 애플리케이션부터 하드웨어에 이르는 모든 계층을 포괄하는 종합적인 RAS 전략을 제공합니다.

장애 관리 전략

HPE Superdome Flex 서버는 해당될 경우 탐지, 기록, 분석, 복구의 4단계 RAS 전략을 구현하는 미션 크리티컬 워크로드를 처리하

는 시스템에 대한 HPE의 설계 전략을 완벽하게 구현합니다(그림 7).

그림 7. HPE 하드웨어 RAS 전략

이 전략은 장애가 있는 경우에도 고객 워크로드를 그대로 유지하고 데이터를 사용할 수 있게 해줍니다. 드문 경우지만 복구할

수 없는 오류가 발생해도 네트워크 및 영구 스토리지에 손상된 데이터가 저장되지 않도록 탐지 및 억제 기능을 제공합니다.


지원 조치를 필요로 하는 장애가 발생했을 경우, 장애의 정확한 진단은 무엇이 문제인지 그리고 처음부터 올바른 해결책을 결

정하는 데 중요합니다. 모든 HPE Superdome Flex 서버에 내장된 진단 기능의 설계 핵심 중 일부는 다음과 같습니다.

• 복구 시간 최소화

• 처음부터 장애를 진단할 정도의 충분한 데이터 수집

• 전체 오류 로깅을 위해 장애 발생 후 시스템 실행 허용

• 전체 오류 로깅을 통해 모든 시스템 구성요소(소프트웨어, 펌웨어, 하드웨어)를 진단하는 기능

• 복구를 위한 FRU(Field-Replaceable Unit) 수준 세분화

• 자가 복구를 위한 구성요소 수준 세분화

펌웨어 우선

HPE Superdome Flex의 종합적 장애 관리 전략에는 펌웨어 우선 문제 진단이 포함됩니다. 펌웨어 우선 기능을 통해 HPE Superdome

Flex 시스템에 대한 상세한 지식이 있는 펌웨어는 문제 지점에서 가장 먼저 무엇이 문제인지와 문제를 해결하는 방법을 빨리

결정합니다. 인텔 제온 확장 가능한 프로세서의 EMCA2(Enhanced Machine Check Architecture Gen 2)는 OS 및 상위 수준 소프트웨

어가 관여하기 전에 펌웨어가 문제를 진단하고 플랫폼에 대해 적절한 조치를 취할 수 있도록 오류 로그를 먼저 검토할 수 있게

합니다. 펌웨어 우선 기능은 수정 가능 오류와 수정 불가 오류를 다루고, 시스템 프로세서의 기능이 제한되었어도 펌웨어에서

오류 데이터를 수집하고 오류를 진단할 수 있게 해줍니다. 이 기능을 사용하면 시스템 메모리, CPU, I/O 및 상호 연결에 대한 예

측 오류 분석을 포함하여 장애에 대한 많은 플랫폼별 작업을 수행할 수 있습니다.

RAS 차별화 요소

핫스왑 N+1 전원 공급장치 및 싱글/멀티 비트 메모리 오류 수정과 같은 기능은 업계에서 가장 많이 사용되지만, 많은 RAS 차별

화 요소를 통해 HPE Superdome Flex 서버는 타 업계 표준 서버들과 완전히 다릅니다. HPE Superdome Flex 서버의 여러 RAS 차별

화 요소는 다음과 같습니다.

• 자가 복구 기능

• 프로세서 RAS

• 메모리 RAS

• 플랫폼 RAS

• 애플리케이션 RAS

• OS RAS


자가 복구

장애가 발생하면 HPE Superdome Flex는 갑작스러운 가동 중단 시간을 피하기 위해 수행되는 몇 가지 메커니즘을 제공합니다.

가동 중단 시간을 피하기 위한 기본 수단으로 부트 시 고장난 구성요소를 사용 불가로 설정하고 실행 시 고장난 구성요소에 대

해 복구를 시도하는 동작이 있습니다. 고장이 발생한 하드웨어를 오프라인으로 전환하면 시스템 서비스 전까지 정상적인 하

드웨어로 시스템을 계속 구동할 수 있습니다. 이와 같은 자가 복구 기능으로 갑작스러운 가동 중단 시간을 피할 수 있습니다.

고장이 발생한 구성요소의 구성 해제

HPE Superdome Flex에서는 모든 단일 하드웨어 오류를 허용할 수 있도록 구성요소의 구성을 해제할 수 있습니다.

• 메모리 DIMM 및 CPU 코어 구성 해제: 반응 및 예측 오류 분석을 사용하면 메모리 DIMM과 CPU 코어에 고장이 발생한 경우 구성을 해제하여 사용 중인 정상 메모리 DIMM과 CPU 코어에 대해서만 시스템을 계속 사용할 수 있도록 할 수 있습니다.

고장 전 구성요소의 런타임 비활성화

HPE Superdome Flex 서버의 여러 영역에서 고장이 발생하면 런타임에 리소스가 비활성화되어 고장이 발생한 구성요소가 계속

사용되지 않습니다. 이 수준의 자가 복구에서는 가동 중단 시간을 0으로 유지하고 다음 예정된 가동 중단 이벤트에서 복구 조

치를 허용합니다. 시스템 상호 연결과 메모리 서브시스템은 필요한 경우 자가 복구 기능을 제공하여 고장이 발생한 리소스를

비활성화합니다.

• 링크 폭 감소, 온라인 포트 비활성화 및 패브릭 연결의 대체 라우팅과 함께 HPE Superdome Flex Grid 링크 자가 복구

• 런타임 시 UPI 링크 폭 감소

• DIMM에서 고장난 장치 2개를 허용하는 ADDDC(Adaptive Double Device Data Correction)

• 고성능 애플리케이션에 대한 SDDC 및 MEMlog™ 메모리 기능

프로세서 RAS

HPE Superdome Flex 서버는 인텔 제온 확장 가능한 프로세서를 사용합니다. 이 프로세서에는 하드 오류와 소프트 오류를 탐지,

수정 및 보고하는 다양한 기능이 있습니다. 이 RAS 기능은 플랫폼에서 펌웨어 지원이 필요하기 때문에 타 업계 표준 서버에서

는 지원되지 않는 경우가 있습니다. HPE Superdome Flex는 제온 확장 가능한 프로세서 시리즈에서 제공되는 RAS 기능을 구현합

니다.

• 손상된 데이터 억제

• PCIe Live Error Recovery 억제

• 포이즌 오류 억제

• 프로세서 상호 연결 장애 복원력

• 고급 MCA 복구

손상된 데이터 억제

인텔 제온 확장 가능한 프로세서가 탑재된 HPE Superdome Flex 서버는 수정 불가 오류를 탐지하고 복구를 가능하게 하는 손상

된 데이터 억제 모드를 활성화합니다. 손상된 데이터 억제 모드가 활성화되면 수정되지 않은 데이터의 생산자는 기계 점검 예

외(Machine Check Exception)를 알리지 않습니다. 대신, 손상된 데이터는 오류 억제 비트와 함께 플래그가 표시됩니다. 데이터 소

비자가 오류 억제 비트가 설정된 데이터를 수신하면 해당 오류는 펌웨어 및 운영 체제에 의해 신호가 보내지고 처리됩니다.

UCNA(uncorrected no action), SRAO(software recovery action) 옵션 및 SRAR(software recovery action required) 등 여러 복구 흐름이 가능

합니다. 미션 크리티컬 HPE Superdome Flex 인프라와 x86 운영 환경은 이 모든 손상 데이터 오류 흐름을 지원하고, 가능한 경우

엔드 투 엔드 하드웨어, 펌웨어 또는 소프트웨어 오류 복구를 제공합니다.


PCIe Live Error Recovery 억제

서버의 PCIe 서브시스템에서 수정 불가 오류가 잠재적으로 다른 구성요소로 전파되어 전체 서버가 아닌 경우 파티션이 손상

될 수 있습니다. HPE Superdome Flex 서버에서 이러한 위험을 최소화하기 위해 HPE는 오류 전파를 방지하는 루트 포트에서 오

류를 트래핑하는 방법을 제공하는 인텔의 LER(Live Error Recovery) 메커니즘을 활용하는 특정 펌웨어 기능을 구현했습니다. LER

억제를 통해 플랫폼은 인바운드 및 아웃바운드 PCIe 경로에서 고급 오류 보고(AER) 및 독점 기반 PCIe 오류의 서브세트를 탐지

할 수 있습니다. PCIe 오류가 발생하면 LER은 손상된 데이터가 네트워크 및/또는 영구 스토리지에 도달하지 않도록 I/O 전송을

중지하여 오류를 억제할 수 있습니다. LER 억제는 또한 오류 전파와 기계의 즉각적인 충돌을 피할 수 있게 해줍니다. 이 오류

억제와 병행하여 HPE 펌웨어에 정보가 제공되고 OS와 상위 계층 장치 드라이버는 오류를 인식하게 됩니다. 고급 오류 보고

PCIe 구현의 향상에 대한 HPE의 기여로 인해 Linux는 Linux syslog 파일에서 해당 오류에 대해 상세히 보고하는 것은 물론 장치

드라이버와 협력하여 복구 가능한 PCIe 오류에서 다시 시작할 수 있습니다. HPE Superdome X 및 HPE Superdome Flex의 혁신적인

Live Error Recovery 솔루션은 일반 제온 프로세서 기반 시스템에서 사용할 수 없습니다.

포이즌 오류 억제

HPE Superdome Flex 서버는 프로세서와 확장 가능한 서버 칩셋의 포이즌 데이터에 태그를 지정하여 고객 데이터가 손상되지

않게 보호합니다. 포이즌 데이터는 I/O에서 전송되거나 I/O에 수신되지 않습니다. 이론적으로 읽을 수 있지만 전혀 소모되지 않

는 포이즌 데이터는 프로세서 또는 I/O에서 절대 사용되지 않습니다.

프로세서 상호 연결 장애 복원력

UPI, 메모리 상호 연결 및 PCIe를 포함한 모든 프로세서 상호 연결은 해당 버스에서 데이터 통신 오류를 수정하는 광범위한 CRC(Cyclic

Redundancy Check)를 사용합니다. 또한 끊긴 링크와 같은 심각한 장애가 발생해도 계속 작동할 수 있도록 하는 자가 복구 메커

니즘을 갖추고 있습니다.

UPI를 사용하면 영구 오류가 UPI 링크에서 인식되었을 경우 전폭 링크가 절반 너비로 자동 축소됩니다. 이 기능은 복구가 완료

될 때까지 작업을 계속할 수 있음을 의미합니다. PCIe 링크는 전폭 또는 전속 작동이 불가능할 때 폭 감소와 대역폭 감소도 지

원합니다.

고급 MCA 복구

고급 MCA 복구는 프로세서, 펌웨어 및 운영 체제 기능을 결합한 기술입니다. 이 기술은 운영 체제에서 선택적으로 복구할 수

있는 하드웨어 내에서만 수정할 수 없는 오류를 허용합니다. MCA 복구를 사용하지 않으면 시스템은 강제로 중단됩니다. 운영

체제는 MCA 복구를 통해 오류를 검사하고 애플리케이션, 스레드 또는 OS 인스턴스에 포함되었는지 확인합니다. 그런 다음 OS

는 해당 오류에 대한 대응 방법을 결정합니다.

제온 확장 가능한 프로세서는 이전 제온 E7 프로세서 기능을 확장하여 고급 오류 복구를 지원합니다. 제온 확장 가능한 프로세

서는 이제 비실행 경로의 수정 불가 메모리 오류(소프트웨어 복구 동작 옵션 [SRAO])를 처리할 수 있는 기능과 명령 및 데이터

실행 경로(소프트웨어 복구 작업 필수 [SRAR])에서 수정 불가 메모리 오류를 복구할 수 있는 기능을 제공합니다. SAP HANA 애

플리케이션 복구(인텔, 2011년) 등 E7 프로세서 메모리 오류 복구 확장 과정에서 HPE는 실행 경로 복구에 대한 각종 개발 및 테

스트를 수행했습니다. 이 기능의 HPE Superdome X 데모는 vrp.glb.itcs.hpe.com/SDP/Content/ContentDetails.aspx?ID=4407을 참조하십

시오.

특정 수정 불가 오류가 탐지되면 프로세서는 OS 또는 가상 시스템을 중단하고 오류 주소를 해당 운영 체제 또는 가상 시스템

으로 전달합니다. OS는 오류 상태를 재설정한 후 다시 사용되지 않도록 오류 위치를 불량으로 표시하고 작업을 계속합니다.

https://vrp.glb.itcs.hpe.com/SDP/Content/ContentDetails.aspx?ID=4407


메모리 RAS

기본 메모리 오류는 하드웨어 가동 중단의 중요한 원인이 되었습니다. HPE Superdome Flex 서버는 능동적 메모리 스크러빙,

ADDDC(adaptive double device data correction) 또는 SDDC(single device data correction)와 같은 메모리의 안정성을 개선하는 여러 가

지 기술을 사용합니다. 또한 HPE 메모리 DIMM은 성능과 품질을 모두 보증합니다. 고성능 컴퓨팅 애플리케이션은 SDDC 및

MEMlog 메모리 RAS 처리를 이용할 수 있습니다.

능동적 메모리 스크러빙

메모리를 보다 잘 보호하기 위해 HPE Integrity Superdome 2, HPE Superdome X 및 HPE Superdome Flex와 같은 시스템은 메모리 패

트롤 스크러버를 구현합니다. 메모리 스크러버는 오류를 찾는 메모리를 통해 능동적으로 스캔합니다. 오류가 발견되면 스크

러버는 올바른 데이터를 메모리에 다시 기록하고, 이 스크러빙 작업은 ECC와 결합하여 멀티비트의 일시적 오류들이 누적되지

않도록 합니다. 그러나 오류가 지속되면 메모리는 여전히 멀티비트 오류의 위험이 있는 것입니다. 누적 메모리 DIMM 오류로

인해 수정할 수 없는 멀티비트 오류가 발생하고 데이터가 손상될 수 있습니다. 능동적 메모리 스크러빙은 오류가 누적되기 전

에 메모리 오류를 찾는 HPE Superdome X 서버에 포함된 하드웨어 기능입니다.

단일 장치 데이터 수정

메모리 보호에 대한 업계 표준은 데이터 오류의 단일 오류 수정 및 이중 오류 탐지(SECDED)입니다. 또한 판매 중인 많은 서버

에서는 칩 스페어링(chip sparing) 또는 칩킬(chipkill)이라고도 하는 단일 장치 데이터 수정 기능을 제공합니다.

단일 장치 데이터 수정 기능은 방사형 공격과 같은 일시적 이벤트에서 발생하든 또는 악성 DRAM(dynamic random access memory) 장

치 등 지속적 오류에서 발생하든 관계없이 메모리 장치 내의 모든 싱글비트 데이터 오류로부터 시스템을 보호합니다. 그러나

단일 칩 스페어링은 일반적으로 고장난 DRAM 및 싱글비트 오류로부터 시스템을 보호하지 않습니다. 이런 오류가 탐지된 경우

에도 시스템 중단을 일으킵니다.

ECC는 메모리 스크러빙과 결합하여 멀티비트의 일시적 오류들이 누적되지 않도록 합니다. 그러나 오류가 지속되면 메모리는

여전히 멀티비트 오류의 위험에 노출될 수 있습니다. SDDC 옵션은 메모리 오류에 보다 관대한 고성능 고객을 위해 남아 있습

니다. OS 기반 데몬 MEMlog는 수정된 메모리 오류가 발생하면 보고합니다.

HPE Superdome Flex 서버의 ADDDC(Adaptive Double Device Data Correction)는 이 문제를 해결합니다. ADDDC 기술은 순위의 첫 번째

DRAM에 언제 오류가 발생했는지 확인하고, 데이터를 수정하며, 데이터를 순위의 스페어 비트로 이동하여 DRAM을 사용 불가로

매핑합니다. 이 작업이 완료되었으면 수정된 순위에 대해 여전히 단일 장치 데이터 수정을 사용할 수 있습니다. 따라서 DIMM(Dual

In-Line Memory Module) 순위의 총 2개의 전체 DRAM에서 오류가 발생할 수 있고 메모리는 여전히 ECC로 보호됩니다. 이는 모든

DIMM에서 DRAM 오류를 근본적으로 허용하는 시스템에 해당합니다. 두 번째 고장난 DRAM이 탐지되면 데이터 손상을 방지하

기 위해 OS가 종료됩니다.

고장난 DIMM을 교체해야 할 횟수가 줄어들기 때문에 ADDDC는 시스템 가동 시간을 대폭 개선합니다. 이 기술은 단일 칩 스페

어링 기술만 사용하는 시스템에 비해 DIMM 교체 횟수를 최대 17배까지 개선합니다. 또한 ADDDC는 단일 칩 스페어링 기능만

사용하는 시스템에 비해 메모리 관련 충돌 가능성을 상당히 줄여줍니다.


ADDDC는 인텔 제온 프로세서의 E7 프로세서 기능을 기반으로 하지만, HPE Superdome Flex는 특정 펌웨어 및 하드웨어 알고리

즘에 대해 이 기능을 개선했습니다. ADDDC는 인텔 기본 코드 이상의 메모리 RAS 개선을 제공하고 표준 x86 제품보다 메모리

중단 비율을 33% ~ 95%까지 줄여줍니다.

2개의 DRAM에 오류가 발생한 후에도 메모리 내용은 손상될 수 있습니다. 펌웨어는 데이터 손상을 방지하기 위해 OS 종료를 시

작합니다.

인텔 제온 확장 가능한 프로세서에 도입된 새로운 메모리 RAS

인텔 제온 확장 가능한 프로세서와 해당 DDR4 메모리 서브시스템은 새로운 메모리 RAS 기능을 제공하고 이전 E7 버전에서는

사용할 수 없었던 두 가지 메모리 RAS 기능을 유지합니다. 이 새로운 기능은 다음과 같이 설명됩니다.

멀티 순위 스페어링

고장은 DRAM 순위에 영향을 미칠 수 있습니다. 이 기능을 사용하여 고장 순위에서 데이터를 이동할 수 있습니다. 이것은 DDDC

와 비교하여 ADDDC의 새로운 기능입니다.

DRAM 뱅크 스페어링

DRAM 수준에서 가장 가능성 있는 메모리 오류 모드를 보다 효과적으로 겨냥하기 위해 DRAM 뱅크 스페어링은 고장난 뱅크에

서 데이터를 멀리 이동할 수 있는 기능을 제공합니다. DRAM 뱅크 스페어링은 ADDDC의 일부로 자동 활성화되고 E7 v2의 향상

된 DDDC에 비해 최대 33%의 오류 복원력을 제공합니다.

DDR4 명령/주소 패리티 오류 재시도

DDR4 명령/주소 버스는 패리티 보호되며 E7 v4/v3 통합 메모리 컨트롤러 및 메모리 버퍼는 패리티 오류 탐지 및 로깅을 제공합

니다. 이전 E7 플랫폼에서는 모든 명령/주소 버스 패리티 오류가 치명적인 이벤트였기 때문에 OS 충돌을 일으켰습니다. ADDDC

는 명령/주소 패리티 오류 재시도 기능을 통해 모든 메모리 인터페이스 및 구성요소의 오류에 대한 복원력을 제공합니다.

플랫폼 RAS

HPE Superdome Flex는 시스템 패브릭 RAS와 내결함성 패브릭 RAS 등의 내장 RAS 기능을 제공합니다.

시스템 패브릭 RAS

HPE Superdome Flex Grid는 적응형 라우팅 기능과 함께 유연한 솔루션을 제공하는 HPE MC990 X와 모양 및 느낌면에서 유사한

새롭고 향상된 상호 연결 체제입니다. 이 시스템은 성능 상의 이유로 최적의 대기 시간 경로를 따라 트래픽을 라우팅할 뿐만

아니라 그리드에서 고장난 구성요소 주변의 트래픽을 라우팅하고 대부분의 패브릭 고장 발생 시에도 계속 작동할 수 있게 해

줍니다. HPE의 혁신적인 확장형 엔터프라이즈 시스템 칩셋에는 광범위한 자가 복구, 오류 탐지 및 오류 수정 기능이 포함되어

있습니다.

내결함성 패브릭 달성 목표로 설계

HPE Superdome Flex Grid는 내결함성 패브릭 복원력을 제공하도록 설계되었습니다. 패브릭의 기본은 다중 경로를 제공하는 고

대역폭 링크와 패브릭을 통한 패킷 전달을 보장하는 패킷 기반 전송 계층입니다. 물리적 링크에는 고장난 구성요소 주변의 트

래픽을 가동 중단 없이 동적으로 라우팅할 수 있는 적응형 라우팅 기능이 있습니다. 강력한 CRC는 데이터 무결성을 보장하는

데 사용됩니다. 케이블 연결식 패브릭 상호 연결 자체에는 고장을 일으킬 활성 구성요소가 없으므로 향후 HPE nPar 재부팅 없

이 교체 및 링크 재활성화를 포함하여 케이블 자체를 서비스할 수 있다고 생각할 수 있습니다.


파티셔닝 및 오류 격리

복원력은 진정한 하드 파티션을 위한 전제 조건입니다. HPE nPar은 다중 섀시 서버 컴플렉스를 하나의 대형 서버 또는 여러 개

의 소형 독립 서버로 구성할 수 있게 해주는 완전한 워크로드 격리 기능을 제공하는 하드 파티션 기술입니다. 각 HPE nPar에는

파티션을 구성하는 블레이드로 이루어진 독립형 프로세서, 메모리, I/O 리소스가 있습니다. 그리드가 적절히 배선되면 하드웨

어를 물리적으로 조작하지 않고 시스템 관리 인터페이스의 일부인 명령을 사용하여 리소스를 하나의 파티션에서 제거하고

다른 파티션에 추가할 수 있습니다. 그러나 HPE nPar의 배선은 독립적 서비스 가용성을 유지하도록 해당 정의에 맞게 다시 조

정하는 것이 좋습니다.

많은 시스템들은 모든 백플레인이 동일한 전기 리소스를 두고 경쟁하는 공유 백플레인을 사용하기 때문에 다수의 공유 실패

모드가 발생할 수 있습니다. 예를 들어, 높은 큐 지연 및 공유 크로스바 리소스의 포화가 성능 확장을 제한할 수 있거나, 전원이

공유되는 시스템에서 인클로저 전원 장애로 인해 여러 파티션이 동시에 장애를 일으킬 수 있습니다. HPE Superdome Flex 시스

템에서 서브시스템은 케이블을 통해 직접 연결되고, 각 섀시는 보다 유연하고 안정적인 확장 가능한 시스템을 고려하여 대량

전원을 자체적으로 변환하게 합니다.

애플리케이션 수준 RAS

HPE SGLX(Serviceguard for Linux)는 데이터베이스, 표준 애플리케이션, 맞춤형 애플리케이션 등 중요한 IT 서비스의 가용성과 액

세스 가능성을 모니터링합니다. 애플리케이션과 애플리케이션 기능 실행에 필요한 모든 요소에서는 하드웨어, 소프트웨어,

운영 체제, 가상화, 스토리지 또는 네트워크 상의 오류가 세심하게 모니터링됩니다. 장애 또는 임계값 위반이 탐지되면 HPE

SGLX는 높은 성능을 보장하는 적합한 위치에서 적합한 방식으로 해당 서비스를 재시작함으로써 몇 초 만에 정상 작동을 자동

으로 투명하게 재개합니다.

HPE Serviceguard SMS(Storage Management Suite)를 사용하면 향상된 관리성 및 확장성을 통해 애플리케이션의 가용성과 뛰어난

성능을 극대화하는 클러스터링된 파일 시스템을 사용할 수 있습니다. 또한 HPE SGLX(Serviceguard for Linux)의 포괄적 보호 기능

을 데이터 센터 이상으로 확장할 수 있습니다. HPE Serviceguard Metrocluster for Linux 및 HPE Serviceguard Continentalclusters for Linux

는 지리적으로 분산된 클러스터를 위한 강력한 복구 메커니즘을 제공하고 재해 복구 솔루션과 함께 심각한 이벤트가 발생한

후에도 비즈니스를 온라인 상태로 유지할 수 있도록 합니다.

OS 수준 RAS

HPE의 미션 크리티컬 Superdome Flex 환경은 장애를 탐지하고 복구할 수 있는 탁월한 기능을 제공합니다. 프로세서, 펌웨어, OS

및 애플리케이션 설계 팀 간의 오랜 협력을 통해 여러 가지 고급 오류 복구 기능이 구현되었습니다. 메모리 및 PCIe 오류에 대

한 OS 오류 복구에 대한 자세한 내용은 RAS 차별화 요소 섹션에 기술되어 있습니다.


RAS 기능 요약 섀시 수준 기능 • 펌웨어 우선 오류 처리

• 이중화, 핫스왑 가능 전원 공급장치(N+N 또는 N+1) 및 팬

• HPE Superdome Flex Grid 링크 장애 조치, 링크 수준 재시도, 동적 링크 튜닝 및 대역폭 협상

• 적응형 라우팅은 잘못된 패브릭 링크를 찾아 장애 주변으로 트래픽 라우팅

• 마이크로 패킷당 CRC(Cyclic Redundancy Check) 보호 및 일시적 오류에 대한 빠른 재시도

• 시스템의 일시적 오류, 재시도 또는 복구 시도 실행

• HPE Superdome Flex Grid 링크 장애 조치

• 부팅 시 소켓 오류 보고(indictment)가 제한될 수 있음(출시 예정)

• 부팅 시 섀시 구성 해제(출시 예정)

• HPE nPar(출시 예정)

프로세서 적용 범위 • EMCA2 아키텍처 및 복구

• 정수 파이프라인 또는 명령 파이프라인 재시도 기능

• 모든 내부 캐시 및 캐시 태그에 대한 오류 수정 코드(ECC) 적용 범위

• 레지스터 또는 TLB 패리티 보호

• 시스템 생존 가능성을 지원하는 향상된 오류(바이러스) 억제

• UPI 링크 수준 재시도, 재시작 또는 재보정

• 일시적 오류에 대한 UPI 롤링 CRC 검사

• 부팅 시 코어 비활성화 및 코어 수준의 손상된 데이터 억제

• 데이터 억제(포이즌)

메모리 기능 • 능동적 메모리(패트롤 및 요구) 스크러빙

• 적응형 DDDC, 미션 크리티컬 및 고성능 컴퓨팅 요구에 적합한 SDDC(HPE Superdome X 임계값 사용)

• 주소 또는 명령 패리티 오류 복원력

• 고온에서 재생률 2배 향상

• 부팅 시 DIMM 구성 해제

• 관리 펌웨어에서 메모리 오류 로깅 또는 기록

• OS 수준 페이지 할당 취소

• 메모리 오류 스톰 응답(출시 예정)

• DRAM 포스트 패키지 복구(출시 예정)

• 순위 및 뱅크 스페어링


I/O 기능 • PCIe LER(Live Error Recovery), PCIe 루트 포트 억제 및 카드 오류 복구

• PCIe 중지 및 경고, PCIe 루트 포트 손상된 데이터 억제

• PCIe 엔드 투 엔드 CRC 검사(출시 예정)

• PCIe 손상된 데이터 억제(데이터 포이즈닝)

• PCIe 링크 CRC 오류 검사 및 재시도

• PCIe 링크 재교육 및 복구

• 루트 포트 및 카드 수준 구성 해제(출시 예정)

관리 • 분석 엔진

• 온보드 분석기

• 가상 KVM

• IRS 및 Proactive Care 지원

• SUM(출시 예정)

• HPE OneView(출시 예정)

• 온보드 오류 로깅 서비스

HPE Superdome Flex: 표준 x86보다 RAS 우위의 주요 영역 • 펌웨어 우선

• 자동 오류 로깅

• 자동 자가 복구(분석 엔진)

• 고장난 FRU의 비활성화 및 구성 해제

• 온보드 오류 분석기

• 자동 재시작

• 고급 프로세서 오류 처리(EMCA2)

• 고급 메모리 복원력(ADDDC)

• 향상된 패브릭 복원력(Flex Grid 적응형 라우팅)

• 고급 PCIe 오류 복구(LER)

• 하드 파티션(HPE nPar)


관리

HPE Superdome Flex는 내장된 관리 기능과 추가 관리 리소스 모두를 통해 폭넓은 관리 기능을 제공합니다.

내장된 관리 기능

HPE Superdome Flex 관리는 다음과 같은 내장된 관리 구성요소를 제공합니다.

• HPE Superdome Flex Rack Management Controller

• HPE Superdome Flex BMC

HPE Superdome Flex Rack Management Controller(RMC 또는 eRMC)

관리 서브시스템의 주요 구성요소는 물리적으로 안전한 사설 LAN을 통해 모든 시스템 섀시에 연결되는 RMC(Rack Management

Controller)입니다(그림 8. N 섀시 시스템 참조). 또한 각 섀시는 해당 섀시의 하드웨어를 구성 및 관리하고 vMedia 및 vKVM 기능을

제공하는 BMC(Baseboard Management Controller)에 의해 관리됩니다.

그림 8. RMC(Rack Management Controller) 옵션


BMC 관리 프로세서 중 하나에서 RMC 기능을 실행하고 2개의 섀시를 함께 연결하는 HPE Superdome Flex의 섀시 구성 1 ~ 2개에 대

한 옵션이 있습니다. 이를 임베디드 RMC 또는 eRMC 구성이라고 합니다. 기능은 더 큰 구성과 동일하지만 추가 1U RMC 어플라이

언스가 필요하지 않습니다. 섀시가 3개 이상이거나 해당 규모로 확장할 계획이 있다면 RMC 어플라이언스를 사용하십시오.

HPE Superdome Flex RMC는 다음과 같은 주요 기능을 제공합니다.

• 오류 분석 엔진

• 펌웨어 관리자

• 파티션 관리

• SSH 기반 명령줄 인터페이스

• 각 HPE nPar용 콘솔

• Redfish 인터페이스

오류 분석 엔진은 모든 하드웨어의 오류를 지속적으로 분석합니다. 이 분석 엔진은 탐지된 오류를 기준으로 관리자와 HPE OneView

및 HPE Insight Remote Support에 대한 알림뿐만 아니라 장애를 예측하고 자동 복구 작업을 시작할 수 있습니다.

Onboard Firmware Manager는 비호환 펌웨어 버전으로 파티션을 스캔하고 구성요소를 보고할 수 있습니다. 단일 HPE nPar 또는

전체 HPE Superdome Flex에 대해 일치하지 않는 펌웨어(부품 교체 또는 시스템 업그레이드로 인한)는 버튼 클릭만으로 펌웨어

를 일관된 수준으로 업데이트할 수 있습니다. 일관된 펌웨어 수준에 대한 파티션은 시스템 개발자가 가장 신뢰할 수 있는 운영

에 대해 완전히 검증됩니다. HPE Superdome Flex 펌웨어는 서버 BIOS와 유사한 HPE nPar 펌웨어 버전을 포함하는 복합 펌웨어의

한 버전으로 관리됩니다. 복합 펌웨어는 하드웨어의 RMC, BMC, FPGA 및 CPLD와 시스템의 BIOS 이미지를 포함한 인클로저의 모

든 인프라 구성요소입니다. 업그레이드 가능한 단일 설치 및 버전을 사용하면 펌웨어 관리가 대폭 간소화되고 플랫폼 안정성

이 향상됩니다.

파티션 관리는 전적으로 펌웨어에서 구현됩니다. 추가 소프트웨어 툴에 의존하지 않아도 되고, 원하는 파티션 구성을 만들기

위해 외부 관리 스테이션이나 특수 하이퍼바이저가 필요하지 않습니다. 따라서 파티션 구성과 파티션 시작 또는 중지를 더 쉽

고 빠르게 수행할 수 있습니다. HPE nPar은 서로 완전히 전기적으로 절연되어 독립적으로 실행되고, 모두 RMC에서 제어 및 모

니터링됩니다. HPE nPars에 대한 지원은 HPE Superdome Flex 제품에 곧 제공될 예정이지만, 기본 아키텍처는 이미 마련되어 있

습니다. 이 시스템은 처음부터 HPE nPar 구성 가능성을 염두에 두고 설계되었습니다.

RMC SSH 기반 명령줄 인터페이스는 시스템의 각 HPE nPar에 대한 콘솔 액세스는 물론 RMC, 분석 엔진 로그, 시스템 제어의 모든

기능에 대한 액세스를 제공합니다.

RMC의 Redfish 인터페이스를 통해 HPE 툴로 모두 시스템을 관리할 수 있으며, https를 통한 최신의 보안 RESTful 인터페이스에서

간단한 Python, curl 또는 다른 메서드를 사용하여 스크립트를 쉽게 작성할 수 있습니다. HPE는 시작 단계부터 Redfish 표준을 기

반으로 작업했기 때문에 HPE Superdome Flex RMC와 같은 단일 집계 컨트롤러로 관리되는 대형 파티션 시스템을 이미 지원합니

다. 따라서 많은 섀시, 여러 HPE nPar 등이 있는 시스템을 표시하고 제어할 수 있는 기능은 모두 표준에 의해 이해되므로

OpenStack과 같은 소프트웨어와의 통합이 더 쉽습니다.


HPE Superdome Flex BMC

각 섀시는 해당 섀시에서 하드웨어를 구성 및 관리할 뿐 아니라 가상 미디어 및 가상 키보드, 비디오 또는 마우스(KVM) 기능을

제공하는 BMC(Baseboard Management Controller)에 의해 관리됩니다. 시스템 제어 및 인벤토리는 HPE nPar과 전체 시스템에 걸쳐

조정을 보장하기 위해 RMC와 함께 유지됩니다. BMC는 RMC의 명령을 수행하고 RMC에 문제를 보고하는 각 섀시를 독립적으로

모니터링합니다. 가상 미디어(vMedia) 및 vKVM 기능은 활성 기본 I/O가 있는 섀시에서 HPE nPar에 대해 하나의 BMC에서 직접 제

공됩니다.

추가 관리 리소스

HPE Insight Remote Support, HPE Insight Online, HPE OneView 및 Smart Update Manager와 같은 추가 관리 리소스를 통해 어디서든지

HPE Superdome Flex를 효율적이고 포괄적으로 모니터링 및 제어할 수 있습니다.

HPE Insight Remote Support

HPE Superdome Flex 분석 엔진은 HPE Insight Remote Support와 직접 연동되도록 업그레이드되었습니다. Remote Support(RS)에 의

한 모니터링 또는 인벤토리 수집을 위해 HPE Superdome Flex에서 OS LAN에 연결하지 않아도 됩니다. 모니터링과 문제 해결은

인벤토리 수집뿐만 아니라 RMC를 통해 전적으로 수행됩니다. HPD Superdome Flex Foundation Software의 소프트웨어 패키지인

DCD는 펌웨어가 쉽게 탐지할 수 없는 I/O 및 디스크 등에 대한 몇 가지 오류를 모니터링하여 RMC의 분석 및 인벤토리 범위를

보완합니다. DCD는 시스템 내부에서 RMC와만 통신하고 OS에서 구성이나 연결을 필요로 하지 않습니다. 분석 엔진은 시스템

에서 문제가 발생했는지 또는 발생할지 확인하기 위해 시스템 전체에서 DCD, BMC, UEFI 및 기타 센서의 모든 정보를 사용합니

다. HPE 백엔드에 연결할 수 있는 HPE Insight Remote Support에 서비스 이벤트 및 정기 평가 보고서를 보내 시스템의 문제에 대

한 HPE Pointnext 자동 알림을 제공합니다. HPE Superdome Flex에 대한 다양한 지원 계약 수준을 사용할 수 있습니다. 자세한 내

용은 hpe.com/services/getconnected를 참조하십시오.

HPE Insight Online

HPE Insight Online은 표준 보증 및 계약 서비스와 함께 HPE Superdome Flex를 지원하는 데 필요한 정보에 한 번에 안전하게 액세

스할 수 있게 합니다. HPE Pointnext를 통해 HPE에 의해 원격으로 모니터링되는 장치를 자동으로 표시할 수 있습니다. HPE Insight

Online에서는 쉽게 서비스 이벤트 및 지원 사례를 추적하고 장치 구성을 확인하며 HPE 계약 및 보증을 사전에 모니터링할 수

있습니다. 따라서 회사 담당자나 HPE 공인 서비스 파트너는 더욱 효율적으로 HPE 환경을 지원할 수 있습니다. 또한 시간과 장

소에 구애받지 않고 이 모든 작업들을 수행할 수 있습니다. HPE Insight Online은 HPE Proactive Care 서비스에서 제공하는 보고서

에 대한 온라인 액세스도 제공합니다. HPE Superdome Flex 서버에 구축된 임베디드 관리 기능은 HPE Insight Online 및 HPE Insight

Remote Support와 완벽하게 통합되도록 설계되었습니다.

http://www.hpe.com/services/getconnected


HPE OneView

HPE OneView와의 통합은 해당 구성요소의 세부 인벤토리 및 최신 상태에 대한 알림 및 상태 정보 수신 기능을 포함하여 HPE

Superdome Flex 시스템의 GUI 모양과 느낌을 그대로 반영합니다. 펌웨어 및 HPE OneView의 향후 릴리스에는 HPE OneView에서

지원하는 모든 제품과 유사한 방식으로 시스템의 모든 측면을 제어하고 HPE Superdome Flex 시스템에서만 볼 수 있는 고급 기

능을 지원하는 기능이 추가됩니다.

그림 9. HPE OneView 스크린샷

Smart Update Manager

SUM(Smart Update Manager)은 엔터프라이즈 환경을 위한 HPE의 펌웨어 관리 및 업데이트 툴입니다. 타 HPE 제품의 펌웨어뿐 아

니라 모든 HPE 펌웨어를 원격으로 업데이트할 수 있습니다. SUM은 업데이트가 필요한 펌웨어에 대한 권장 사항을 제공하고

CLI 및/또는 GUI를 통해 보고 기능, 종속성 검사 및 올바른 순서로 업데이트 설치를 제공하는 사용하기 쉬운 웹 사용자 인터페

이스를 제공합니다.

기술 백서

지금 업데이트 받기

© Copyright 2017 Hewlett Packard Enterprise Development LP. 본 안내서의 내용은 사전 통지 없이 변경될 수 있습니다. Hewlett

Packard Enterprise 제품 및 서비스에 대한 보증의 경우, 해당 제품 및 서비스와 함께 제공된 보증문에 명시된 내용만이 적

용됩니다. 본 문서에는 어떠한 추가 보증 내용도 들어 있지 않습니다. Hewlett Packard Enterprise는 본 안내서의 기술상 또

는 편집상의 오류나 누락에 대해 책임지지 않습니다.

인텔 및 인텔 제온은 미국 및 기타 국가에서 인텔사의 상표입니다. SAP HANA는 독일 및 다른 나라에서 SAP SE의 등록 상

표입니다. OpenStack 단어 마크는 미국 및 기타 국가에서 OpenStack Foundation의 상표/서비스표 또는 등록 상표/서비스표

이며, OpenStack Foundation의 허가 하에 사용됩니다. HPE는 OpenStack Foundation 또는 OpenStack 커뮤니티에 소속되어 있

지 않으며 관련 보증 또는 후원을 받지 않습니다. Linux는 미국 및 기타 국가에서 Linus Torvalds의 등록 상표입니다. VMware

는 미국 및 기타 국가에서 VMware, Inc.의 등록 상표 또는 상표입니다. 기타 모든 타사 상표는 해당 소유주의 자산입니다.

a00036491KOP, 2017년 11월

결론

프로세서 개발 과정에서 인텔과의 긴밀한 협력을 통해 HPE Superdome Flex로 CPU에 내장된 성능 및 RAS 기능을 완전히 활용할

수 있었습니다. Linux Foundation의 Platinum 멤버십은 OS 수준에서 확장성, 안정성 및 성능을 보장하는 높은 커널 수준을 제공합

니다. 그 결과, HPE Superdome Flex를 미션 크리티컬 환경을 위한 x86 확장 솔루션으로 차별화하는 획기적 성능, 강력한 RAS, 유

연한 관리성이 구현됩니다.

관련자료

HPE Superdome Flex 정보

hpe.com/servers/superdomeflex

HPE Insight Remote Support hpe.com/services/getconnected

Smart Update Manager hpe.com/info/hpsum

자세히 알아보기: hpe.com/superdome

http://www.hpe.com/info/getupdated

http://www.facebook.com/sharer.php?u=http://www.hpe.com/h20195/V2/GetDocument.aspx?docname=a00036491ENW

http://twitter.com/home/?status=HPE%20Superdome%20Flex%20server%20architecture%20and%20RAS+@+https://www.hpe.com/h20195/V2/GetDocument.aspx?docname=a00036491ENW

http://www.linkedin.com/shareArticle?mini=true&ro=true&url=https://www.hpe.com/h20195/V2/GetDocument.aspx?docname=a00036491ENW&title=HPE%20Superdome%20Flex%20server%20architecture%20and%20RAS+&armin=armin
















http://www.hpe.com/servers/superdomeflex

http://www.hpe.com/services/getconnected

http://www.hpe.com/info/hpsum

http://www.hpe.com/superdome

HPE Superdome Flex 서버 아키텍처 및 RAS · HPE Superdome Flex 관리 기능에 대한...

Documents

Transcript of HPE Superdome Flex 서버 아키텍처 및 RAS · HPE Superdome Flex 관리 기능에 대한...