AI42 ZeRO: 대규모 모델 학습을 위한 메모리 최적화 기법 분석 2020년 마이크로소프트의 연구진은 논문 "ZeRO: Memory Optimization Towards Training Trillion Parameter Models"(arXiv:1910.02054)을 통해 대규모 모델 학습의 병목 요소였던 GPU 메모리 사용 문제를 혁신적으로 해결하는 분산 학습 프레임워크 ZeRO를 제안했습니다. 이 글에서는 ZeRO의 핵심 개념, 세 가지 분해 방식(Optimizer State, Gradient, Parameter Partitioning), 수식 기반 메모리 분석, 그리고 DeepSpeed와의 통합 구조를 설명합니다.** You can find the English verion of this content at this page (https://markbyun.blo.. 2025. 5. 27. FlashAttention: Transformer의 메모리 효율적 고속 Attention 메커니즘 분석 Transformer 아키텍처는 자연어 처리와 컴퓨터 비전 분야에서 표준이 되었지만, Attention 연산의 연산량과 메모리 소비는 특히 긴 시퀀스 처리에서 성능 병목의 원인이 됩니다. 2022년 발표된 FlashAttention은 GPU 아키텍처의 특성을 활용하여 정확한(Exact) Attention을 제공하면서도 속도와 메모리 효율성을 극적으로 개선한 알고리즘입니다.** You can find the English verion of this content at this page (https://markbyun.blogspot.com/2025/05/flashattention-high-speed-memory.html)1. 기존 Attention의 병목Transformer의 핵심 연산인 Attention.. 2025. 5. 27. RoFormer와 Rotary Position Embedding: Transformer 위치 인코딩의 혁신 Rotary Position Embedding(RoPE)은 2021년 발표된 RoFormer 논문(https://arxiv.org/pdf/2104.09864)에서 제안된 위치 인코딩 기법입니다. 이 기술은 기존의 절대적 위치 인코딩 방식의 한계를 극복하고, Transformer 모델의 시퀀스 인식 능력을 한층 강화합니다.** You can find the English version of this content at this page (https://markbyun.blogspot.com/2025/05/roformer-and-rotary-position-embedding.html)1. 기존 위치 인코딩 방식의 한계Transformer는 입력 토큰 간 순서를 인식하지 못하기 때문에, 위치 인코딩(Posit.. 2025. 5. 27. 대규모 언어 모델의 KV 캐시: 설계, 최적화 및 추론 가속 대규모 언어 모델의 KV 캐시: 설계, 최적화 및 추론 가속Transformer는 대규모 언어 모델(LLM)의 핵심 구조이지만, 긴 컨텍스트를 처리하는 추론 과정은 많은 계산 (시퀀스 길이의 제곱) 비용이 듭니다. KV 캐시—Key/Value Cache는 자기회귀(autoregressive) 디코딩 과정에서 이전에 계산된 Key, Value의 값을 캐싱하여 재사용함으로써 추론 속도를 선형으로 줄여주는 핵심 최적화 기법 중 하나입니다. 이 글에서는 Efficiently Scaling Transformer Inference 논문을 바탕으로 KV 캐시의 구조, 동작 원리, 구현 방식, 최적화 전략에 대해 심층 분석합니다.** You can find the English verion of this content.. 2025. 5. 26. SmolVLM: 허깅페이스의 작고 효율적인 멀티모달 모델 SmolVLM은 HuggingFace와 Stanford가 주도한 최신 연구로, 수억 개의 파라미터 수준에서도 대형 모델에 필적하는 성능을 발휘하는 초경량 멀티모달 모델 시리즈입니다. Qwen25-VL 모델의 경우 성능은 뛰어나나 기본적으로 약 15G의 VRAM을 요구하고 GPU에서의 사용을 전제로 하고 있습니다. 물론 Intel의 OpenVINO를 이용하여 Int4로 경량화된 모델을 사용하여 Intel CPU에서 실행을 시킬 수 있으나 이 경우 대략 20초가 넘는 응답 시간을 보여주고 있어 CPU혹은 휴대폰과 같은 에지디바이스에서 동작하는 빠른 경량 모델이 요구되고 있습니다. 반면 SmolVLM은 동일한 Int4 경량 모델을 CPU에서 실행했을 때 대략 5초의 응답 시간을 보여주고 있습니다. 이 블로그에.. 2025. 5. 14. XGBoost 알고리즘: 상세 설명 및 Python 구현 XGBoost는 "Extreme Gradient Boosting"의 약자로, 기계 학습 분야에서 널리 사용되는 강력한 알고리즘입니다. 특히 회귀 및 분류 문제에서 높은 성능을 자랑하며, 데이터 과학 대회에서 자주 사용됩니다. 이 글에서는 XGBoost의 주요 특징과 Python을 사용한 기본 구현 방법, 그리고 Scikit-learn 라이브러리를 활용한 학습 예제를 소개합니다.** You can find the English verion of this content at this page (https://markbyun.blogspot.com/2025/05/complete-guide-to-xgboost-algorithm.html)XGBoost의 주요 특징Gradient Boosting: 여러 약한 학습기.. 2025. 5. 13. 이전 1 2 3 4 5 ··· 7 다음