CUDA 대신 PTX로 하드웨어 한계 돌파
비싼 장비 대신 소프트웨어 최적화 선택
업계 “중국 AI 육성 정책이 거둔 성과”
인공지능(AI) 기술이 급속하게 발전하면서, 고성능 하드웨어에 대한 요구가 높아지는 가운데, 저성능을 기반으로 훌륭한 성과를 거둔 중국의 AI 스타트업 딥시크(DeepSeek)에 대한 관심이 뜨겁다.
딥시크는 오픈소스 방식을 채택해 자신들이 개발한 모델과 관련 기술을 누구나 자유롭게 사용할 수 있도록 공개했다. 분석결과 딥시크가 하드웨어의 한계를 깬 방법은 기술에 대한 높은 이해를 바탕으로 소프트웨어와 알고리즘에서 혁신을 이룬 것이다. 자동차 경주에서 고성능 엔진 대신, 차량의 구조를 변경해 속도를 높여 우승을 차지하는 것이 바로 딥시크의 방식이었다.
PTX로 GPU 성능 극대화한 딥시크의 기술력
2일 관련 업계에 따르면 딥시크는 AI 기술 개발에 있어 하드웨어의 성능보다 소프트웨어와 알고리즘 최적화가 더 중요하다는 것을 입증했다. 미국의 수출규제로 고성능의 AI 칩 확보가 어려운 상황에서 어쩔 수 없는 선택이기도 했다.
딥시크가 성능을 개선시킨 방법은 하드웨어보다는 소프트웨어에 의존했다는 설명이다. 요리사가 값비싼 식재료를 쓰는 게 아니라 저렴한 식재료로 최고의 기술을 사용해 훌륭한 요리를 만들어내는 방식이다.
딥시크는 엔비디아가 만든 PTX(Parallel Thread Execution) 라는 저수준 프로그래밍 언어를 활용해 GPU의 연산 능력을 극대화했다.
PTX는 GPU 하드웨어를 세밀하게 제어할 수 있게 해주는 언어지만 개발이 힘들고 사용이 까다롭다. 마치 기계어나 어셈블리어 처럼 최고 수준의 개발자만 사용할 수 있다는 설명이다.
보통 엔비디아의 GPU를 제어하기 위해 AI업계가 사용하는 언어는 CUDA다.
CUDA는 개발이 편리하고 대부분의 개발자가 쉽게 배워 익힐 수 있지만 작동을 위해 GPU의 자원을 PTX보다 더 많이 사용해야 한다.
딥시크는 PTX를 이용해 AI를 구현하면서 GPU의 코어, 메모리, 캐시 등을 원하는 대로 조절해 필요한 연산을 효율적으로 수행할 수 있도록 했다.
PTX를 통해 GPU의 코어들을 각각의 역할에 맞춰 세밀하게 배치하고, 메모리 접근 방식을 최적화하여 데이터 처리 속도를 높이는 등 하드웨어 효율성을 극대화했다. 예를 들어 GPU의 코어 중 일부는 AI 모델의 연산에 집중시키고, 다른 일부는 데이터 전송에만 활용하는 방식이다.
중국의 탄탄한 AI 인재 양성이 혁신 원동력
그 결과 딥시크는 막대한 투자가 들어간 기존 AI 대비 훨씬 저렴한 비용으로 훌륭한 성과를 냈다. 막대한 자본력을 가진 대기업만이 AI 기술을 주도할 수 있다는 기존의 통념을 깨뜨리면서 관련 업체들의 주가가 출렁일 정도였다.
딥시크의 성공을 분석한 개발자들과 업계에서는 중국 개발자들의 실력이 엄청나다는 것을 인정하는 분위기다.
보스턴컨설팅그룹에 따르면 현재 중국은 41만 명이 넘는 AI 연구자를 보유하고 있다. 세계 상위 2% AI 연구자 중 26%가 중국 출신이다. 이는 28%를 차지하는 미국에 근접한 수준이다.
중국의 AI 인재 양성은 교육 시스템 전반에 걸쳐 이뤄진다. 초중고 교육과정에 AI 교육을 의무화했으며, '국가 청소년 AI 혁신 인재 양성 기지' 프로그램을 통해 우수 학교를 선정하고 지원하고 있다. 대학에서는 디지털 경제 관련 새로운 전공을 도입하고, 학제간 교육을 강화하는 등 미래 지향적 교육 체계를 구축했다.
지방정부 차원에서도 AI 인재 확보를 위해 주택 지원, 창업 투자 지원, 자녀 교육 지원과 배우자 취업 기회 제공 등 실질적인 혜택을 준다고 전해졌다.
한종목 미래에셋증권 연구원은 “엄청난 자원 압박에도 그들은 방법론을 알고 있고 이대로 밀어붙일 것"이라며 “AI 하드웨어 시장의 지속적인 성장을 전망하면서 딥시크과 같은 기업들의 혁신적인 행보에 주목해야 한다"고 조언했다.