ai 모델 학습1 ZeRO: 대규모 모델 학습을 위한 메모리 최적화 기법 분석 2020년 마이크로소프트의 연구진은 논문 "ZeRO: Memory Optimization Towards Training Trillion Parameter Models"(arXiv:1910.02054)을 통해 대규모 모델 학습의 병목 요소였던 GPU 메모리 사용 문제를 혁신적으로 해결하는 분산 학습 프레임워크 ZeRO를 제안했습니다. 이 글에서는 ZeRO의 핵심 개념, 세 가지 분해 방식(Optimizer State, Gradient, Parameter Partitioning), 수식 기반 메모리 분석, 그리고 DeepSpeed와의 통합 구조를 설명합니다.** You can find the English verion of this content at this page (https://markbyun.blo.. 2025. 5. 27. 이전 1 다음