생산 품질 저하로 출시가 한 차례 늦춰졌던 엔비디아의 최신 인공지능(AI) 반도체 ‘블랙웰’이 이번에 과열 문제에 부딪힌 것으로 전해졌다. 최악의 경우 블랙웰의 본격 출시가 당초 올해 말에서 내년 중순으로 미뤄질 가능성이 제기된다.
17일 미국 IT 전문매체 디인포메이션은 소식통을 인용해 엔비디아가 블랙웰 서버 랙(여러 개의 서버를 적재하는 특수 선반)의 과열 문제를 잡기 위해 공급업체들에 디자인 변경을 요청하고 있다고 전했다. 엔비디아는 AI의 훈련과 운영을 더 빠르게 하기 위해 72개의 블랙웰 칩을 탑재한 ‘거대 서버’를 구상하고 있다. 완성품의 무게는 3000파운드(약 1.5t)에 달하며, 냉장고에 맞먹을 정도로 크다. 서버 랙에는 칩과 칩 사이를 연결하는 무수한 케이블과 스위치가 탑재돼 있는데, 설계가 잘못되거나 냉각이 원활하지 않으면 칩이 과열되는 현상이 발생한다.
디인포메이션은 “계속되는 문제로 실제 블랙웰이 탑재된 서버를 사용할 수 있는 시기가 또 늦춰질 것이라는 불안감이 커지고 있다”며 “엔비디아는 이 같은 문제를 아직 고객사에 알리지 않았지만, 서버 랙 제조 업체들은 최악의 경우 내년 6월 말쯤에야 제품을 공급할 수 있을 것으로 보고 있다”고 전했다.
‘괴물 AI 칩’이라고 불리는 블랙웰은 엔비디아가 설계해 대만 TSMC에 위탁 생산을 맡긴다. 1대 가격이 5000만원 정도로 비싸지만, 빅테크들이 구매를 위해 줄을 서야 할 만큼 인기가 높다. 당초 지난 2분기 나올 예정이었지만, TSMC 생산 과정에서 문제가 발견돼 출시가 올해 말로 미뤄졌다. 책임 소재를 두고 엔비디아와 TSMC 간의 불화설이 불거졌지만, 젠슨 황 엔비디아 최고경영자(CEO)는 지난 10월 “블랙웰의 설계 결함은 100% 엔비디아의 잘못이고 이미 해결됐다”며 진화했다.
엔비디아는 이날 “(서버 랙의 디자인을 변경하는 등) 엔지니어링을 되풀이하는 것은 최고의 제품 품질을 추구하는 과정에서 정상적이고 예상 가능한 범주의 일”이라고 설명했다. 하지만 실제 블랙웰 출시가 늦어지면, 이를 구매하려던 빅테크와 엔비디아에 HBM을 공급하는 SK하이닉스도 영향을 받을 수밖에 없다.