본문 바로가기

BPE2

Byte Pair Encoding (BPE) 토크나이저 완전 정복 Byte Pair Encoding (BPE)는 자연어 처리에서 널리 사용되는 서브워드 토크나이저 알고리즘으로, 특히 희귀 단어 처리와 어휘 확장성 측면에서 강력한 성능을 보여줍니다. 이 문서에서는 BPE의 작동 원리, 구현 방법, 다른 토크나이저와의 비교, 그리고 실제 LLM 개발에의 적용 방법을 상세히 다룹니다.** You can find the English version of this content at this page (https://markbyun.blogspot.com/2025/05/mastering-byte-pair-encoding-bpe.html) 1. BPE의 개요BPE는 원래 1994년에 데이터 압축을 위해 제안된 알고리즘으로, 가장 자주 나타나는 문자 쌍을 반복적으로 병합하여 데이터.. 2025. 5. 28.
SentencePiece 완전 정복: AI 엔지니어를 위한 언어 독립형 토크나이저 자연어 처리(NLP) 시스템에서 텍스트를 모델 입력으로 전처리할 때 필수적으로 수행해야 하는 단계가 바로 토크나이징(tokenization)입니다. 하지만 기존의 대부분 토크나이저는 언어별 규칙이나 사전 정의된 단어 사전을 기반으로 작동하며, 사전 토크나이징된 텍스트를 필요로 하는 경우도 많습니다. 이런 방식은 특히 다국어를 처리할 때 제약이 많고, 비표준 문자를 포함한 데이터에 취약할 수 있습니다.SentencePiece는 이러한 제약을 극복하기 위해 Google에서 개발한 언어 독립적 토크나이저입니다. 문장 단위의 raw 텍스트를 그대로 입력받아 서브워드 단위로 나누며, 특히 신경망 기반 자연어 처리 모델에 최적화된 전처리 방식으로 각광받고 있습니다.** You can find the English .. 2025. 5. 28.