2013년에 개봉한 영화 HER에는 2025년 미래를 그리며 인공지능 서비스를 묘사하는데요. 2024년 GPT-4o의 등장으로 영화 속 상상이 현실이 되었습니다.
영화 'HER'에 나오는 AI, 사만다는 주인공 테오도르와 대화를 나누며 교감할 수 있는 존재로 묘사됩니다. 그런데 GPT-4o 또한 개발 현장에서 발표자들과 대화를 나누며 농담까지 하는 모습으로 충격을 보여줬는데요.
지연시간이 거의 없어 실제 대화와 흡사한 모습을 보인 GPT-4o,
빠른 응답시간으로 각광 받은 온디바이스 AI와 거의 차이가 없을 정도입니다.
GPU를 기반으로 만들어진 GPT-4o가
NPU를 중심으로 신드롬을 일으키고 있는 온디바이스 AI를 무너뜨릴 수 있을지
퓨처링이 GPU와 NPU에 대해 조금 더 자세히 풀어드릴게요.
Chat GPT가 사용한 GPU 수는 무려 3만개
Open AI가 Chat GPT를 상용화하기 위해 수많은 GPU 서버를 구성해 사용한 사실은 널리 알려져 있습니다. 그런데 시장조사기관 트렌드포스에 따르면 Chat GPT 상용화에 들어간 GPU 수는 A100을 기준으로 3만개에 달할 것으로 추정했습니다. 메타의 생성형 AI 라마도 2000개가 넘는 A100을 투입해 사용하고 있을 정도로 GPU 서버는 끝없는 수요를 보이고 있습니다.
그러나 그동안 Chat GPT와 같은 거대언어모델(LLM)은 투입된 GPU에 비례해 다양한 기능과 정확도를 향상할 수 있었으나, 속도 개선은 어려움을 겪고 있었습니다. GPT3.5의 답변시간은 평균 2.8초, 이후에 등장한 GPT-4의 답변시간이 5.4초인 것을 보면 속도가 오히려 늘어난 것을 알 수 있지요.
그렇다면 왜 더 많은 GPU를 투입했음에도 시간을 단축시키지 못했을까요? 거대언어모델이 정확한 답변을 생성하기 위한 프로세스의 차이가 주된 이유이나, 클라우드에서 작업이 진행되는 만큼 지연 시간이 존재하기 때문입니다. 게다가 A100, H100 처럼 AI 개발과 관련된 성능을 강화한 GPU가 등장했음에도 불구하고 태생이 그래픽처리가 목적인 GPU(Graphics Processing Unit)로는 효율이 좋다고 할 수 없습니다.
AI 개발, GPU 말고 NPU 들어보셨나요?
NPU(Neural Processing Unit)는 신경처리를 목적으로 하는 장치입니다. NPU는 AI개발에서 학습과 추론을 더 빠르게 진행하기 위해 설계되었습니다. 덕분에 NPU는 GPU보다 더 낮은 전력으로 작업을 더 빠르게 할 수 있어 높은 효율을 지니게 되었지요. 다만 GPU가 게임 및 그래픽 작업 등에도 사용될 수 있는 반면, NPU는 AI 학습, 추론 외에 다른 용도로는 사용할 수 없습니다.
NPU는 AI 개발 환경에 맞춰 새로운 알고리즘과 모델에 따라 발전해왔습니다. 초기에는 카메라, 음성과 관련한 아키텍처가 발전했으며, LLM의 등장과 sLLM으로 확대까지 다양한 AI 개발에 사용되고 있습니다.
최근 NPU는 온디바이스에서 작동할 수 있는 저전력 엣지용보다 데이터센터 등에서 사용에서 집중 사용할 수 있는 고성능 서버용으로 개발되고 있습니다. 따라서 GPU가 차지하고 있는 AI 반도체 시장을 NPU가 차지할 것이라는 전망도 속속 나오고 있습니다.
AI 개발, GPU vs NPU 승자는?
앞으로 GPU와 NPU의 미래는 어떻게 될까요? 일반적으로는 AI 개발 시장에서 NPU가 GPU를 대체할 것으로 보는 시각이 우세합니다.
1️⃣ GPU보다 높은 효율성
NPU는 GPU보다 같은 작업을 수행하는데 낮은 전력으로 더 많은 작업을 진행할 수 있습니다. 또한 GPU보다 적은 수의 칩으로도 동일한 수준의 연산 성능(TOPS)를 제공할 수 있습니다. 따라서 NPU 사용이 더 대중화 될 것입니다.
2️⃣ NPU 양산으로 인한 공급 안정화
NPU는 AI에 맞춰 개발된 장치로 GPU보다 늦게 개발되었습니다. 대부분 NPU 생산기업들은 2024년 중 양산을 목표로 두고 있습니다. 양산에 성공하면, 현재보다 낮은 가격으로 더 많은 양을 공급하여 안정화가 이뤄질 것입니다.
3️⃣ 온디바이스 AI 적합성
고성능의 AI용 GPU는 스마트폰처럼 작은 기기에 적용하기 어렵습니다. 스마트폰을 넘어 AI가 탑재된 가전제품의 출시가 늘어나고 있는 현재, 앞으로 NPU가 더 많이 사용될 것으로 예상됩니다.
그럼에도 기술은 모르니까
그동안 GPU로 만든 GPT를 비롯한 생성형 AI는 3~5초 사이의 느린 응답으로 실시간 사용이라고 하기에는 조금 거리가 멀었어요. 그래서 NPU를 활용하여 온디바이스에 AI를 탑재해 빠른 사용을 추구해 왔어요. 하지만 5월 14일 등장한 GPT-4o는 다시 NPU를 위협할 수 있는 기술로써의 면모를 보여줬어요. 클라우드에서 작동하는 AI가 답변하는데 시간이 0.23초면 충분하다니, 인간 응답 시간인 0.32초를 상회하는 속도를 보여줬기 때문이에요.
그러면 장비를 만들 때 아직 초기 단계인 NPU와 결과가 보장되지 않은 생성형 AI를 제작하기보다 단순히 Chat GPT 같은 확실한 AI를 사용할 수 있게 하면 그만이 아닌가요? 하는 물음도 떠오르실 거예요. AI 개발을 위한 환경은 GPU 환경이 더 최적화 되어있기도 하니까요.
그럼에도 NPU와 GPU는 각자가 특화된 분야가 존재하기에 당분간은 완전히 대체하기보다 서로 보완하는 형태로 기술발전이 이뤄질 것입니다. 특히 인텔 코어 Ultra 프로세서, RISC-V 마이크로 프로세서 등 NPU와 GPU가 협력하는 하이브리드 아키텍처가 등장하고 있어 AI 개발 생태계가 더욱 발전할 것으로 기대됩니다.