자연어 처리2 Byte Pair Encoding (BPE) 토크나이저 완전 정복 Byte Pair Encoding (BPE)는 자연어 처리에서 널리 사용되는 서브워드 토크나이저 알고리즘으로, 특히 희귀 단어 처리와 어휘 확장성 측면에서 강력한 성능을 보여줍니다. 이 문서에서는 BPE의 작동 원리, 구현 방법, 다른 토크나이저와의 비교, 그리고 실제 LLM 개발에의 적용 방법을 상세히 다룹니다.** You can find the English version of this content at this page (https://markbyun.blogspot.com/2025/05/mastering-byte-pair-encoding-bpe.html) 1. BPE의 개요BPE는 원래 1994년에 데이터 압축을 위해 제안된 알고리즘으로, 가장 자주 나타나는 문자 쌍을 반복적으로 병합하여 데이터.. 2025. 5. 28. 코사인 유사도와 코사인 거리 개념 및 딥러닝에서의 활용 | PyTorch 예제 포함 1. 코사인 유사도(Cosine Similarity)란?코사인 유사도는 두 벡터 간의 방향 유사도를 측정하는 지표로, 주로 텍스트 유사도 분석, 문장 임베딩 비교, 이미지 임베딩 비교 등에서 활용됩니다. 벡터의 크기보다는 방향성에 초점을 맞추는 것이 특징입니다.공식:cos_sim(A, B) = (A · B) / (||A|| * ||B||)A와 B는 각각의 벡터이며, ·는 내적(dot product), ||A||는 A의 놈(norm, 길이)입니다. 값의 범위는 -1 ~ 1입니다. 1에 가까울수록 방향이 유사하고 반대로 -1에 가까울 수록 두 벡터의 방향이 서로 다름을 의미합니다.2. 코사인 거리(Cosine Distance)란?코사인 거리란 코사인 유사도를 거리 개념으로 변환한 것으로, 다음과 같이 정의됩.. 2025. 4. 30. 이전 1 다음