AI 칩 열 관리

Aug 02, 2024

현재 Microsoft, Google, Meta와 같은 다른 기술 대기업들도 인공 지능 모델을 훈련하고 실행하기 위해 데이터 센터를 확장하고 있습니다. 보고서에 따르면 Microsoft와 OpenAI는 수백만 개의 전용 서버 칩을 갖춘 슈퍼컴퓨터를 포함하는 데이터 센터 프로젝트를 구축할 계획이며, 현재 프로젝트에는 2028년에 출시될 것으로 예상되는 Stargate라는 인공 지능 슈퍼컴퓨터를 포함하여 1,150억 달러가 소요될 수 있습니다. Meta CEO인 Mark Zuckerberg도 올해 1월 회사의 컴퓨팅 인프라에 2024년 말까지 30000개의 H100 그래픽 카드가 포함될 것이라고 밝혔습니다. 그는 또한 '다른 GPU를 포함하면 약 600000개의 H100 상당 컴퓨팅이 가능합니다'라고 덧붙였습니다.

AI computing

AIGC는 빅모델과 빅데이터를 기반으로 합니다. 대형 모델은 대규모의 광범위한 데이터를 학습한 후 다운스트림 작업에 적응할 수 있는 모델을 의미합니다. 대형 모델이 출현한 후 (1) 모델 매개변수의 크기가 증가합니다. (2) 다양화된 수요는 컴퓨팅 파워의 다양한 업그레이드를 가속화합니다. 컴퓨팅 파워는 수요 매칭에 따라 기본 컴퓨팅 파워, 지능형 컴퓨팅 파워, 슈퍼컴퓨팅 파워로 나눌 수 있습니다. 2021년 글로벌 컴퓨팅 장치의 총 컴퓨팅 성능은 44%의 성장률로 615EFlops에 도달했습니다. 2030년에는 CAGR 65%로 56ZFlops까지 증가할 것으로 예상됩니다. 지능형 컴퓨팅 성능은 232EFlops에서 52.5ZFlops로 증가하며 CAGR은 80%를 초과합니다. 빅 모델 등장 이후 컴퓨팅 파워의 평균 2배 증가 시간은 9.9개월로 새로운 컴퓨팅 파워 성장 추세를 가져왔습니다.

AIGC chip cooling

컴퓨팅 파워의 향상 이면에 칩은 더 높은 컴퓨팅 효율성을 갖고 더 짧은 시간에 더 많은 계산을 완료해야 하며, 이는 필연적으로 칩 에너지 소비의 증가로 이어집니다. 슈퍼컴퓨팅 센터에 있는 데이터 센터의 고밀도 및 높은 전력 소비 특성으로 인해 방열 문제가 점점 더 두드러지고 있습니다. 최신 데이터 센터, 특히 슈퍼컴퓨팅 센터에는 일반적으로 작동 중에 상당한 양의 열을 생성하는 수많은 고전력 장치가 포함되어 있습니다. 열이 적시에 효과적으로 방출되지 않으면 장치 성능에 영향을 미칠 뿐만 아니라 하드웨어 오류로 이어질 수도 있습니다. IDC 보고서에 따르면 데이터센터 에너지 소비의 약 40%가 냉각 시스템에 사용되며, 이는 효과적인 냉각 솔루션이 데이터센터 운영에 매우 중요함을 나타냅니다.

data canter liquid cooling

기존의 공기 냉각 시스템은 더 이상 현재 슈퍼컴퓨터의 냉각 요구 사항을 충족할 수 없으므로 액체 냉각 기술이 점차 업계에서 주류 선택이 되었습니다. 액체 냉각 기술을 적용하면 데이터 센터에서 동일한 공간에 더 많은 컴퓨팅 장치를 수용하는 동시에 냉각 시스템의 에너지 소비를 줄일 수 있습니다. 액체 냉각 기술을 적용하면 계산 효율성이 향상될 뿐만 아니라 에너지 소비 및 운영 비용도 크게 절감됩니다. 액체 냉각 기술은 보다 효율적인 열 전도를 통해 동일한 에너지 소비로 더 많은 컴퓨팅 작업을 처리할 수 있습니다.

data center immersion liquid cooling

AI 교육 및 고성능 컴퓨팅에 대한 수요가 증가함에 따라 액체 냉각 기술은 미래 슈퍼컴퓨팅 센터에서 더욱 중요한 역할을 할 것입니다. 증가하는 컴퓨팅 수요와 열 방출 문제를 해결하기 위해 액체 냉각 기술이 향후 슈퍼컴퓨팅 센터와 대규모 데이터 센터의 표준 구성이 될 것으로 예상됩니다.

이전: 액체 냉각 시스템의 물에 적합한 온도는 얼마입니까?

다음: 액체 냉각 서버 애플리케이션 도입

지식

AI 칩 열 관리