![[쿠키과학]](https://kuk.kod.es/data/kuk/image/2025/07/04/kuk20250704000038.300x169.0.jpg)
[쿠키과학] "생성형AI에서 실행형AI로"… KAIST, NPU 핵심기술 개발
생성형AI의 추론성능을 60% 이상 높이는 신경망처리장치(NPU) 핵심기술이 나왔다. AI시스템이 처리해야 하는 요청의 수와 길이가 점차 증가하고 있으며, 궁극적으로 생성형AI 모델의 추론 과정에서 생성되고 사용되는 KV캐시(Key-Value Cache)가 커지는 결과를 낳는다. KV 캐시는 매 요청, 매 토큰마다 생성 누적되기 때문에 대규모 시스템에서는 메모리 용량과 대역폭 사용량의 대부분을 차지하며 시스템 성능의 병목을 유발한다. 현재 메모리 기술로는 이런 용량과 대역폭 요구를 동시에 충족하기 어려워 대규모 서비스를 구축하기 ... [이재형]