на Суперкомп’ютери 2024 (SC24), Корпорація Enfabrica оприлюднив віху в мережах центрів обробки даних штучного інтелекту: SuperNIC Accelerated Compute Fabric (ACF). чіп. Це Плата мережевого інтерфейсу (NIC) SoC 3.2 Терабіт за секунду (Тбіт/с) переосмислює операції штучного інтелекту та машинного навчання (ML) у масштабі, забезпечуючи широку масштабованість; підтримує кластери з понад 500 000 GPU. Enfabrica теж підняла 115 мільйонів доларів фінансування і очікується його звільнення (ACF) SuperNIC чіп в 1 кварталі 2025 року.
Вирішення мережевих проблем ШІ
Оскільки моделі штучного інтелекту стають все більшими та складнішими, центри обробки даних стикаються зі зростаючим тиском підключення великої кількості спеціалізованих процесорів, таких як графічні процесори. Ці графічні процесори є критично важливими для високошвидкісних обчислень під час навчання та висновків, але часто залишаються бездіяльними через неефективне переміщення даних у існуючих мережевих архітектурах. Завдання полягає в ефективному з’єднанні між собою тисяч графічних процесорів для забезпечення оптимальної передачі даних без перевантаження чи зниження продуктивності.
Традиційні мережеві підходи можуть об’єднати близько 100 000 обчислювальних мікросхем ШІ у центрі обробки даних до того, як неефективність і сповільнення стануть значними. За словами генерального директора Enfabrica Рочана Санкара, нова технологія компанії підтримує до 500 000 мікросхем в одній системі AI/ML, уможливлюючи більш масштабні та надійніші обчислення моделі ШІ. Долаючи обмеження звичайних конструкцій NIC, Enfabrica ACF SuperNIC максимізує використання графічного процесора та мінімізує час простою.
Ключові інновації в ACF SuperNIC
ACF SuperNIC може похвалитися декількома першими в галузі функціями, адаптованими до сучасних потреб центру обробки даних AI:
- Висока пропускна здатність, багатопортове підключення: ACF SuperNIC забезпечує багатопортовий 800 Gigabit Ethernet для серверів графічного процесора, збільшуючи пропускну здатність у чотири рази порівняно з іншими мережевими адаптерами, підключеними до графічного процесора. Це налаштування забезпечує безпрецедентну продуктивність і підвищує стійкість до багатошляхового зв’язку, забезпечуючи надійний зв’язок між кластерами ШІ.
- Ефективний двошаровий дизайн мережі: Завдяки конфігурації високого радіуса з 32 мережевих портів і до 160 ліній PCIe ACF SuperNIC спрощує загальну архітектуру центрів обробки даних AI. Така ефективність дозволяє операторам створювати масивні кластери, використовуючи менше рівнів, зменшуючи затримку та підвищуючи ефективність передачі даних між графічними процесорами.
- Ескалація та видалення накипу: Enfabrica ACF SuperNIC із високим рівнем доступу, високою пропускною здатністю та можливостями одночасного багатошляхового зв’язку PCIe/Ethernet і передачі даних може унікально розширювати та масштабувати від чотирьох до восьми GPU останнього покоління на серверну систему. Це значно підвищує продуктивність, масштаб і стійкість кластерів ШІ, забезпечуючи оптимальне використання ресурсів і ефективність мережі.
- Вбудований інтерфейс PCIe: чіп підтримує від 128 до 160 ліній PCIe, забезпечуючи швидкість понад 5 Тбіт/с. Ця конструкція дозволяє підключати кілька GPU до одного ЦП, зберігаючи при цьому високу швидкість зв’язку з магістральними комутаторами центру обробки даних. Результатом є більш ефективний і гнучкий макет, який підтримує масштабні навантаження ШІ.
- Гнучкість шляхів передачі кількох повідомлень (RMM): Ексклюзивна технологія RMM від Enfabrica підвищує надійність кластерів ШІ. Пом’якшуючи вплив збоїв у з’єднанні з мережею або розривів, RMM запобігає затримкам завдань, забезпечуючи плавніші та ефективніші процеси навчання ШІ. Санкар відзначає важливість цієї функції, особливо у великих установках, де з’єднання комутаторів часто виходять з ладу.
- Програмно визначена мережа RDMA: ця унікальна функція надає операторам центрів обробки даних можливість повного програмування та налагодження, надаючи переваги програмно-визначеної мережі (SDN) Віддалений прямий доступ до пам’яті (RDMA) налаштування. Це дозволяє налаштувати транспортний рівень, що може оптимізувати мережеві топології хмарного масштабу без шкоди для продуктивності.
Покращена довговічність і ефективність
Традиційні системи часто вимагають з’єднання «один-до-одного» між графічними процесорами та різними компонентами, такими як комутатори PCIe та мережеві карти RDMA. Однак із збільшенням кількості графічних процесорів у системі зростає ризик невдалого з’єднання з комутаторами, причому потенційні збої відбуваються кожні 23 хвилини в налаштуваннях із понад 100 000 графічних процесорів, за словами Шанкара.
ACF SuperNIC вирішує цю проблему, дозволяючи кілька підключень від GPU до комутаторів. Ця надлишковість мінімізує вплив відмов окремих компонентів, збільшуючи час безвідмовної роботи та надійність системи.
SuperNIC також представляє Операція «Зона колективної пам’яті».який підтримує нульову передачу даних і оптимізує керування пам’яттю хоста. Зменшуючи затримку та підвищуючи продуктивність пам’яті, ця технологія максимізує операцій з плаваючою комою в секунду (FLOPs) використання парку серверів GPU.
Масштабованість і експлуатаційні переваги
Конструкція ACF SuperNIC залежить не лише від масштабу, але й від операційної ефективності. Він забезпечує програмний стек, який інтегрується зі стандартним зв’язком, існуючими інтерфейсами та мережевими функціями RDMA. Ця сумісність забезпечує ефективну розробку в різних обчислювальних середовищах ШІ, що складаються з графічних процесорів і прискорювачів (чіпів ШІ) від різних постачальників. Оператори центрів обробки даних отримують переваги від покращеної мережевої інфраструктури, що зменшує складність і підвищує гнучкість їхніх центрів обробки даних штучного інтелекту.
Наявність і перспективи
Enfabrica ACF SuperNIC буде доступна в обмеженій кількості в першому кварталі 2025 року, а чіпи та пілотні системи вже доступні для замовлення через Enfabrica та окремих партнерів. Оскільки моделі штучного інтелекту вимагають вищої продуктивності та більшого масштабу, інноваційний підхід Enfabrica може зіграти ключову роль у формуванні наступного покоління центрів обробки даних штучного інтелекту, призначених для підтримки моделей Frontier AI.
Подано
. Дізнайтеся більше про AI (штучний інтелект), чіп, генеративний AI, напівпровідники, сервер, SoC і суперкомп’ютер.на Суперкомп’ютери 2024 (SC24), Корпорація Enfabrica оприлюднив віху в мережах центрів обробки даних штучного інтелекту: SuperNIC Accelerated Compute Fabric (ACF). чіп. Це Плата мережевого інтерфейсу (NIC) SoC 3.2 Терабіт за секунду (Тбіт/с) переосмислює операції штучного інтелекту та машинного навчання (ML) у масштабі, забезпечуючи широку масштабованість; підтримує кластери з понад 500 000 GPU. Enfabrica теж підняла 115 мільйонів доларів фінансування і очікується його звільнення (ACF) SuperNIC чіп в 1 кварталі 2025 року.
Вирішення мережевих проблем ШІ
Оскільки моделі штучного інтелекту стають все більшими та складнішими, центри обробки даних стикаються зі зростаючим тиском підключення великої кількості спеціалізованих процесорів, таких як графічні процесори. Ці графічні процесори є критично важливими для високошвидкісних обчислень під час навчання та висновків, але часто залишаються бездіяльними через неефективне переміщення даних у існуючих мережевих архітектурах. Завдання полягає в ефективному з’єднанні між собою тисяч графічних процесорів для забезпечення оптимальної передачі даних без перевантаження чи зниження продуктивності.
Традиційні мережеві підходи можуть об’єднати близько 100 000 обчислювальних мікросхем ШІ у центрі обробки даних до того, як неефективність і сповільнення стануть значними. За словами генерального директора Enfabrica Рочана Санкара, нова технологія компанії підтримує до 500 000 мікросхем в одній системі AI/ML, уможливлюючи більш масштабні та надійніші обчислення моделі ШІ. Долаючи обмеження звичайних конструкцій NIC, Enfabrica ACF SuperNIC максимізує використання графічного процесора та мінімізує час простою.
Ключові інновації в ACF SuperNIC
ACF SuperNIC може похвалитися декількома першими в галузі функціями, адаптованими до сучасних потреб центру обробки даних AI:
- Висока пропускна здатність, багатопортове підключення: ACF SuperNIC забезпечує багатопортовий 800 Gigabit Ethernet для серверів графічного процесора, збільшуючи пропускну здатність у чотири рази порівняно з іншими мережевими адаптерами, підключеними до графічного процесора. Це налаштування забезпечує безпрецедентну продуктивність і підвищує стійкість до багатошляхового зв’язку, забезпечуючи надійний зв’язок між кластерами ШІ.
- Ефективний двошаровий дизайн мережі: Завдяки конфігурації високого радіуса з 32 мережевих портів і до 160 ліній PCIe ACF SuperNIC спрощує загальну архітектуру центрів обробки даних AI. Така ефективність дозволяє операторам створювати масивні кластери, використовуючи менше рівнів, зменшуючи затримку та підвищуючи ефективність передачі даних між графічними процесорами.
- Ескалація та видалення накипу: Enfabrica ACF SuperNIC із високим рівнем доступу, високою пропускною здатністю та можливостями одночасного багатошляхового зв’язку PCIe/Ethernet і передачі даних може унікально розширювати та масштабувати від чотирьох до восьми GPU останнього покоління на серверну систему. Це значно підвищує продуктивність, масштаб і стійкість кластерів ШІ, забезпечуючи оптимальне використання ресурсів і ефективність мережі.
- Вбудований інтерфейс PCIe: чіп підтримує від 128 до 160 ліній PCIe, забезпечуючи швидкість понад 5 Тбіт/с. Ця конструкція дозволяє підключати кілька GPU до одного ЦП, зберігаючи при цьому високу швидкість зв’язку з магістральними комутаторами центру обробки даних. Результатом є більш ефективний і гнучкий макет, який підтримує масштабні навантаження ШІ.
- Гнучкість шляхів передачі кількох повідомлень (RMM): Ексклюзивна технологія RMM від Enfabrica підвищує надійність кластерів ШІ. Пом’якшуючи вплив збоїв у з’єднанні з мережею або розривів, RMM запобігає затримкам завдань, забезпечуючи плавніші та ефективніші процеси навчання ШІ. Санкар відзначає важливість цієї функції, особливо у великих установках, де з’єднання комутаторів часто виходять з ладу.
- Програмно визначена мережа RDMA: ця унікальна функція надає операторам центрів обробки даних можливість повного програмування та налагодження, надаючи переваги програмно-визначеної мережі (SDN) Віддалений прямий доступ до пам’яті (RDMA) налаштування. Це дозволяє налаштувати транспортний рівень, що може оптимізувати мережеві топології хмарного масштабу без шкоди для продуктивності.
Покращена довговічність і ефективність
Традиційні системи часто вимагають з’єднання «один-до-одного» між графічними процесорами та різними компонентами, такими як комутатори PCIe та мережеві карти RDMA. Однак із збільшенням кількості графічних процесорів у системі зростає ризик невдалого з’єднання з комутаторами, причому потенційні збої відбуваються кожні 23 хвилини в налаштуваннях із понад 100 000 графічних процесорів, за словами Шанкара.
ACF SuperNIC вирішує цю проблему, дозволяючи кілька підключень від GPU до комутаторів. Ця надлишковість мінімізує вплив відмов окремих компонентів, збільшуючи час безвідмовної роботи та надійність системи.
SuperNIC також представляє Операція «Зона колективної пам’яті».який підтримує нульову передачу даних і оптимізує керування пам’яттю хоста. Зменшуючи затримку та підвищуючи продуктивність пам’яті, ця технологія максимізує операцій з плаваючою комою в секунду (FLOPs) використання парку серверів GPU.
Масштабованість і експлуатаційні переваги
Конструкція ACF SuperNIC залежить не лише від масштабу, але й від операційної ефективності. Він забезпечує програмний стек, який інтегрується зі стандартним зв’язком, існуючими інтерфейсами та мережевими функціями RDMA. Ця сумісність забезпечує ефективну розробку в різних обчислювальних середовищах ШІ, що складаються з графічних процесорів і прискорювачів (чіпів ШІ) від різних постачальників. Оператори центрів обробки даних отримують переваги від покращеної мережевої інфраструктури, що зменшує складність і підвищує гнучкість їхніх центрів обробки даних штучного інтелекту.
Наявність і перспективи
Enfabrica ACF SuperNIC буде доступна в обмеженій кількості в першому кварталі 2025 року, а чіпи та пілотні системи вже доступні для замовлення через Enfabrica та окремих партнерів. Оскільки моделі штучного інтелекту вимагають вищої продуктивності та більшого масштабу, інноваційний підхід Enfabrica може зіграти ключову роль у формуванні наступного покоління центрів обробки даних штучного інтелекту, призначених для підтримки моделей Frontier AI.
Подано
. Дізнайтеся більше про AI (штучний інтелект), чіп, генеративний AI, напівпровідники, сервер, SoC і суперкомп’ютер.