Aнoнс прoцeссoрa Cerebras ― Cerebras Wafer Scale Engine (WSE) или движкa Cerebras мaсштaбa крeмниeвoй плaстины ― сoстoялся в рaмкax eжeгoднoй кoнфeрeнции Hot Chips 31. Глядя нa этoгo крeмниeвoгo монстра удивляет даже не то, что его смогли выпустить во плоти. Удивляет смелость замысла и труд разработчиков, рискнувших разработать кристалл площадью 46 225 квадратных миллиметров со сторонами 21,5 см. На изготовление одного процессора уходит целая 300-мм пластина. При малейшей ошибке уровень брака составляет 100 %, а цену вопроса даже трудно представить.
Выпуском Cerebras WSE занимается компания TSMC. Техпроцесс ― 16 нм FinFET. Этот тайваньский производитель тоже заслужил памятник за выпуск Cerebras. Производство подобного чипа потребовало высшего мастерства и решения массы проблем, но оно того стоило, уверяют разработчики. Чип Cerebras ― это фактически суперкомпьютер на чипе с невероятной пропускной способностью, минимальным потреблением и фантастическим параллелизмом. В настоящий момент это идеальное решение для машинного обучения, которое позволит исследователям начать решать задачи чрезвычайной сложности.
Каждый кристалл Cerebras WSE содержит 1,2 трлн транзисторов, организованных в 400 000 ИИ-оптимизированных вычислительных ядер и 18 Гбайт локальной распределённой памяти SRAM. Всё это связано ячеистой сетью с общей производительностью 100 петабит в секунду. Пропускная способность памяти достигает 9 Пбайт/с. Иерархия памяти одноуровневая. Кеш-памяти нет, перекрытия нет, задержки обращения минимальные. Это идеальная архитектура для ускорения задач, связанных с ИИ. Голые цифры: в сравнении с самыми современными графическими ядрами чип Cerebras обеспечивает в 3000 раз больший объём памяти на кристалле и в 10 000 большую скорость обмена с памятью.
Вычислительные ядра Cerebras ― SLAC (Sparse Linear Algebra Cores) ― полностью программируемые и могут быть оптимизированы для работы с любыми нейронными сетями. Более того, архитектура ядер изначально фильтрует данные, представленные нулями. Это освобождает вычислительные ресурсы от необходимости проводить холостые операции умножения на ноль, что для нагрузки разрежёнными данными означает ускорение расчётов и предельную энергоэффективность. Тем самым процессор Cerebras оказывается в сотни или даже тысячи раз эффективнее для машинного обучения в терминах задействованной площади кристалла и его потребления, чем актуальные решения для ИИ и машинного обучения.
Изготовление чипа подобного размера потребовало массу уникальных решений. Его даже упаковывать в корпус пришлось едва ли не вручную. Возникли проблемы с подводом питания к кристаллу и его охлаждением. Отвод тепла стал возможен только жидкостью и лишь с организацией зональной подачи с вертикальной циркуляцией. Тем не менее, все проблемы были решены и чип вышел рабочим. Будет интересно узнать о его практическом применении.
Источники: