세계 정치 경제 주식 정보 동향

DeepSeek, 엔비디아 GPU 대신 화웨이 칩 도입: 중국 AI의 전환점일까?

장실장YB 2025. 2. 8. 23:43
728x90

Huawei Ascend 910C는 추론 분야에서는 좋은 성과를 보이지만, 대규모 AI 모델을 훈련시키기에는 성능이 아직 충분하지 않습니다.

DeepSeek의 AI 모델은 Nvidia의 GPU를 완전히 사용하는 대신, Huawei가 개발한 Ascend 910C 칩에서 실행됩니다. 이러한 움직임으로 인해 중국이 점차 미국 기술에 대한 의존도를 줄일 수 있다는 우려가 제기되었고, 이는 AI 경쟁에서 국내 경쟁자들이 부상할 수 있는 길을 열었습니다.

중국 AI 회사인 DeepSeek는 Huawei Ascend 910C 칩을 활용하여 추론을 수행합니다. 추론은 훈련된 모델을 기반으로 반응을 생성하는 프로세스입니다. 한편, DeepSeek R1 모델 학습 단계에서는 여전히 Nvidia H100 GPU를 사용합니다. 이를 통해 DeepSeek는 성능을 최적화하고 운영 단계에서 값비싼 Nvidia 하드웨어의 필요성을 줄일 수 있습니다.

@Dorialexander 계정은 중국 플랫폼의 게시물에서 DeepSeek에 Huawei 칩이 사용된다는 정보를 발견했습니다. 따라서 Ascend 910C 칩은 모델 학습 프로세스에는 참여하지 않고 추론에만 활용됩니다. 추론은 컴퓨팅 파워가 덜 필요한 단계입니다. 이러한 전략은 중국이 미국 기술에 대한 의존도를 줄이고자 하는 상황에서 DeepSeek이 효율성을 유지하는 데 도움이 됩니다.

DeepSeek, Nvidia GPU를 버리고 Huawei 칩을 채택

Ascend 910C는 추론 분야에서는 좋은 성과를 보이지만, 대규모 AI 모델을 훈련시키기에는 성능이 아직 충분하지 않습니다. 이러한 한계를 극복하기 위해 Huawei는 Ascend 920C 칩 시리즈를 개발 중이라고 합니다. 이 칩은 AI 가속 분야에서 Nvidia의 트럼프 카드인 Nvidia Blackwell B200과 직접 경쟁하게 될 것으로 예상됩니다. 화웨이가 성공한다면 중국은 더욱 강력한 AI 하드웨어를 손에 넣을 수 있으며, 장기적으로 엔비디아의 시장 점유율을 떨어뜨릴 수도 있습니다.

Ascend 910C 칩은 ByteDance와 Tencent 등 중국 주요 기술 대기업의 관심도 끌고 있습니다. 이는 이 칩 라인이 국내 시장에서 엔비디아를 대체할 수 있는 잠재력을 보여준다. 이 계획에 따르면, 화웨이는 2025년 1분기에 Ascend 910C의 양산을 시작할 예정이다.

DeepSeek은 자사의 AI 모델이 미국 경쟁사에 비해 비용 효율적이라고 주장합니다. 이는 회사의 오픈소스 챗봇이 51개국 앱 스토어에서 빠르게 1위를 차지한 것에서 입증됩니다.

하지만 미디어에 나온 DeepSeek에 대한 정보 중 일부는 오해의 소지가 있습니다. 예를 들어, "OpenAI를 이기기 위한 500만 달러"라는 수치는 실제로는 최종 모델을 실행하는 데 드는 비용일 뿐, 전체 교육 비용은 아닙니다.

또한 Scale AI의 CEO인 알렉산더 왕은 DeepSeek이 50,000개가 넘는 Nvidia H100 GPU를 이용할 수 있을 것이라고 추측하면서, 이 회사가 여전히 다른 대규모 AI 모델과 비슷한 수준의 컴퓨팅 리소스를 필요로 한다는 것을 암시했습니다. 그러나 이 수치의 타당성은 의심스럽습니다. 특히 엘론 머스크의 xAI 등 시장의 다른 AI 기업과 비교했을 때 더욱 그렇습니다.

DeepSeek이 화웨이 칩을 사용한다는 것은 중국이 점차 독립적인 AI 생태계를 구축하고 있으며, AI 칩 시장에서 엔비디아의 지배력을 약화시키고 있다는 신호일 수 있습니다. Ascend 910C가 Nvidia의 GPU를 완전히 대체할 수는 없지만, Ascend 920C가 출시되면 앞으로 직접적인 대결이 시작될 수도 있습니다.

Ascend 910C에 관심을 보이는 중국 주요 기술 기업이 많기 때문에 Nvidia가 우려할 만한 이유가 있습니다. 만약 화웨이가 이 칩 라인의 성능을 계속해서 업그레이드하고 확장한다면, AI 분야에서 엔비디아의 지배력이 흔들릴 수도 있다.


H100 GPU와 A100 GPU의 성능 차이는 다음과 같습니다.

1. 아키텍처 및 제조 공정

  • H100: NVIDIA Hopper 아키텍처(4nm TSMC 공정)
  • A100: NVIDIA Ampere 아키텍처(7nm TSMC 공정)
  • 차이점: H100은 더 발전된 4nm 공정을 사용하여 성능과 전력 효율이 향상됨.

2. 연산 성능 (TFLOPS)

연산 유형
H100 (FP8 지원)
A100
FP64
60 TFLOPS
19.5 TFLOPS
FP64 Tensor
120 TFLOPS
19.5 TFLOPS
FP32
60 TFLOPS
19.5 TFLOPS
TF32 Tensor
1000 TFLOPS
156 TFLOPS
BF16 / FP16 Tensor
2000 TFLOPS
312 TFLOPS
FP8 Tensor
4000 TFLOPS
지원 안 함
  • 차이점: H100은 FP8(8비트 부동소수점)을 지원하여 AI 훈련 및 추론 성능이 크게 향상됨.
  • H100은 A100 대비 FP32, TF32, FP16, BF16 연산에서 6~13배 더 높은 성능을 제공.

3. 메모리 (HBM)

항목
H100
A100
메모리 크기
80GB HBM3
40GB 또는 80GB HBM2e
메모리 대역폭
3.35 TB/s
2.0 TB/s
  • 차이점: H100은 더 빠른 HBM3 메모리를 사용하여 메모리 대역폭이 67% 증가함.

4. NVLink 및 PCIe

항목
H100
A100
NVLink 대역폭
900GB/s
600GB/s
PCIe 버전
PCIe 5.0
PCIe 4.0
  • 차이점: H100은 PCIe 5.0과 NVLink 4를 지원하여 GPU 간 데이터 전송 속도가 증가.

5. 활용 분야

  • A100: 딥러닝 훈련, HPC, 클라우드 컴퓨팅
  • H100: 초대형 AI 모델 훈련 (GPT-4, LLaMA 3 등), 고성능 HPC, 대규모 데이터 처리

결론

H100은 A100 대비 AI 훈련/추론 성능이 최대 9배 이상 향상되었으며, 메모리 속도, 대역폭, NVLink, PCIe 등 여러 측면에서 개선됨. 특히, FP8 지원과 3.35TB/s의 메모리 대역폭으로 대규모 AI 모델 훈련과 추론에 최적화되어 있음.

즉, AI 연구 및 고성능 컴퓨팅 환경에서는 H100이 압도적으로 뛰어난 성능을 제공하지만, 가격이 매우 높기 때문에 A100은 여전히 가성비 좋은 옵션이 될 수 있음.

 

DeepSeek, 엔비디아 GPU 대신 화웨이 칩 도입: 중국 AI의 전환점일까?

Huawei Ascend 910C는 추론 분야에서는 좋은 성과를 보이지만, 대규모 AI 모델을 훈련시키기에는 성능...

blog.naver.com

 

 

728x90