영상 인식1 SmolVLM: 작고 효율적인 멀티모달 모델의 재정의 SmolVLM: 작고 효율적인 멀티모달 모델의 재정의SmolVLM은 HuggingFace와 Stanford가 주도한 최신 연구로, 수억 개의 파라미터 수준에서도 대형 모델에 필적하는 성능을 발휘하는 초경량 멀티모달 모델 시리즈입니다. Qwen25-VL 모델의 경우 성능은 뛰어나나 기본적으로 약 15G의 VRAM을 요구하고 GPU에서의 사용을 전제로 하고 있습니다. 물론 Intel의 OpenVINO를 이용하여 Int4로 경량화된 모델을 사용하여 Intel CPU에서 실행을 시킬 수 있으나 이 경우 대략 20초가 넘는 응답 시간을 보여주고 있어 CPU혹은 휴대폰과 같은 에지디바이스에서 동작하는 빠른 경량 모델이 요구되고 있습니다. 반면 SmolVLM은 동일한 Int4 경량 모델을 CPU에서 실행했을 때 대략.. 2025. 5. 14. 이전 1 다음