본문 바로가기

인공지능2

LLaMA 3.2-1B-Instruct 모델 한국어 파인튜닝 가이드 Meta의 LLaMA 3.2-1B-Instruct 모델을 한국어 지시문 데이터셋으로 Hugging Face와 LoRA를 활용해 파인튜닝하는 상세 튜토리얼입니다.1. LLaMA 3.2-1B-Instruction 모델 한국어 파인 튜닝이 필요한 이유LLaMA 3.2-1B-Instruct는 Meta에서 출시한 경량 인스트럭션 튜닝 언어 모델로, 비교적 적은 자원으로도 다양한 지시문 기반 태스크에 응답할 수 있도록 설계되었습니다. 비록 이 모델이 다중 언어를 지원하도록 학습은 되었으나 몇 몇 주요 언어들에 대해서만 학습이되어 한구어와 같이 직접 학습에 사용되지 않은 언어에 대해서는 제대로 동작하지 않는 문제가 있습니다. 따라서 이 문서에서는 Hugging Face Transformers와 PEFT(특히 LoRA.. 2025. 5. 29.
SentencePiece 완전 정복: AI 엔지니어를 위한 언어 독립형 토크나이저 자연어 처리(NLP) 시스템에서 텍스트를 모델 입력으로 전처리할 때 필수적으로 수행해야 하는 단계가 바로 토크나이징(tokenization)입니다. 하지만 기존의 대부분 토크나이저는 언어별 규칙이나 사전 정의된 단어 사전을 기반으로 작동하며, 사전 토크나이징된 텍스트를 필요로 하는 경우도 많습니다. 이런 방식은 특히 다국어를 처리할 때 제약이 많고, 비표준 문자를 포함한 데이터에 취약할 수 있습니다.SentencePiece는 이러한 제약을 극복하기 위해 Google에서 개발한 언어 독립적 토크나이저입니다. 문장 단위의 raw 텍스트를 그대로 입력받아 서브워드 단위로 나누며, 특히 신경망 기반 자연어 처리 모델에 최적화된 전처리 방식으로 각광받고 있습니다.** You can find the English .. 2025. 5. 28.