본문 바로가기

nlp3

Byte Pair Encoding (BPE) 토크나이저 완전 정복 Byte Pair Encoding (BPE)는 자연어 처리에서 널리 사용되는 서브워드 토크나이저 알고리즘으로, 특히 희귀 단어 처리와 어휘 확장성 측면에서 강력한 성능을 보여줍니다. 이 문서에서는 BPE의 작동 원리, 구현 방법, 다른 토크나이저와의 비교, 그리고 실제 LLM 개발에의 적용 방법을 상세히 다룹니다.** You can find the English version of this content at this page (https://markbyun.blogspot.com/2025/05/mastering-byte-pair-encoding-bpe.html) 1. BPE의 개요BPE는 원래 1994년에 데이터 압축을 위해 제안된 알고리즘으로, 가장 자주 나타나는 문자 쌍을 반복적으로 병합하여 데이터.. 2025. 5. 28.
SentencePiece 완전 정복: AI 엔지니어를 위한 언어 독립형 토크나이저 자연어 처리(NLP) 시스템에서 텍스트를 모델 입력으로 전처리할 때 필수적으로 수행해야 하는 단계가 바로 토크나이징(tokenization)입니다. 하지만 기존의 대부분 토크나이저는 언어별 규칙이나 사전 정의된 단어 사전을 기반으로 작동하며, 사전 토크나이징된 텍스트를 필요로 하는 경우도 많습니다. 이런 방식은 특히 다국어를 처리할 때 제약이 많고, 비표준 문자를 포함한 데이터에 취약할 수 있습니다.SentencePiece는 이러한 제약을 극복하기 위해 Google에서 개발한 언어 독립적 토크나이저입니다. 문장 단위의 raw 텍스트를 그대로 입력받아 서브워드 단위로 나누며, 특히 신경망 기반 자연어 처리 모델에 최적화된 전처리 방식으로 각광받고 있습니다.** You can find the English .. 2025. 5. 28.
Retrieval-Augmented Generation(RAG) 설명 Retrieval-Augmented Generation(RAG): 아키텍처, 변형, 실전 적용 전략Retrieval-Augmented Generation(RAG)은 대규모 언어 모델(LLM)과 외부 지식 검색 시스템을 결합한 하이브리드 접근 방식입니다. 기존의 LLM이 내부 파라미터에 내재된 지식에 의존하는 반면, RAG는 외부 소스를 동적으로 참조하여 보다 정확하고 사실 기반의 응답을 생성할 수 있게 합니다. 이 과정에서 가장 핵심적인 역할을 수행하는 기술이 벡터 데이터베이스 기반의 문서 검색입니다.가장 간단한 형태의 RAG는 생성형 AI를 사용하는 사용자가 특정한 도메인 지식을 참고하기 위해 URL 정보나 PDF 파일과 같은 외부 자료를 직접 프롬프트에 첨부하여 질문하는 방식이라고 볼 수 있습니다. .. 2025. 5. 8.