خنک کننده AWS برای پردازنده‌های انویدیا: راهکار اختصاصی

خنک کننده AWS؛ راهکاری برای مقیاس‌پذیری

خنک کننده AWS پس از رد راهکارهای خنک کننده مایع موجود، برای مقیاس‌بندی، خنک‌کاری سفارشی انویدیا را ایجاد کرد.

این سیستم IRHX بدون تغییر در زیرساخت‌های موجود در رک‌های AWS قرار میگیرد. آمازون میتواند این رویکرد خنک کننده را در آینده به تراشه‌های Graviton نیز گسترش دهد. آمازون و سرویس‌های وب (AWS) یک سیستم خنک کننده اختصاصی ساخته است تا نیازهای جدیدترین پردازنده‌های گرافیکی Nvidia را برطرف کند.

مبدل حرارتی درون ردیفی یا IRHX در پاسخ به افزایش توان و نیازهای حرارتی سخت‌افزارهایی مانند Nvidia GB200 NVL72 توسعه یافته است. AWS راهکارهای خنک کننده مایع موجود را ارزیابی کرد اما دریافت که آنها با نیازهای این شرکت مطابقت ندارند.

دیو براون، معاون محاسبات و خدمات ML در AWS، در یک ارائه که در یوتیوب منتشر شده است، گفت: «آنها فضای زیادی از کف مرکز داده را اشغال میکردند، همچنان نیاز به تغییرات اساسی در مراکز داده داشتند یا مصرف آب را به میزان قابل توجهی افزایش میدادند. و در حالی که برخی از این راهکارها میتوانند برای حجم‌های کمتر در سایر ارائه دهندگان کارساز باشند، اما به سادگی ظرفیت خنک کننده مایع کافی برای پشتیبانی از مقیاس ما را ندارند.»

سیستم IRHX شامل یک واحد پمپاژ، یک کابینت توزیع آب و کویل‌های فن است. مایع، تراشه‌ها را از طریق یک صفحه سرد که توسط AWS و انویدیا طراحی شده است، خنک میکند و سپس از طریق IRHX باز میگردد، جایی که خنک شده و آزاد میشود.

براون گفت: «با IRHX نیازی نیست که مرکز داده را حول رک طراحی کنیم.»

این سیستم از قدرتمندترین نمونه EC2 AWS، یعنی P6e UltraServer پشتیبانی میکند که شامل GB200 NVL72 است. این تنظیمات در مقیاس رک، به 72 پردازنده گرافیکی Blackwell اجازه میدهد تا به عنوان یک واحد با هم کار کند.

براون گفت GB200 NVL72 “به 72 پردازنده گرافیکی انویدیا Blackwell اجازه میدهد تا به عنوان یک پردازنده گرافیکی عظیم عمل کند.”

آمازون قبلاً سخت‌افزار سفارشی از جمله تراشه‌ها و سیستم‌های شبکه‌سازی ساخته است. IRHX این استراتژی را به خنک‌سازی گسترش میدهد و به AWS اجازه میدهد تا رک‌های GPU جدید را بدون طراحی مجدد تأسیسات خود مستقر کند.

این شرکت گفت که این سیستم با ابعاد و زیرساخت‌های رک موجود مطابقت دارد و آن را در مراکز داده جهانی مقیاس‌پذیر میکند.

در حالی که IRHX در حال حاضر با سیستم‌های مبتنی بر Blackwell Nvidia متصل شده است، به احتمال زیاد در صورت افزایش نیازهای خنک کننده، با تراشه‌های Graviton خود آمازون نیز استفاده خواهد شد.

در حال حاضر، این سیستم از حجم‌کاری‌های هوش مصنوعی پشتیبانی میکند که هم به مقیاس و هم به سرعت نیاز دارند.