본문 바로가기

자연어 처리2

Byte Pair Encoding (BPE) 토크나이저 완전 정복 Byte Pair Encoding (BPE)는 자연어 처리에서 널리 사용되는 서브워드 토크나이저 알고리즘으로, 특히 희귀 단어 처리와 어휘 확장성 측면에서 강력한 성능을 보여줍니다. 이 문서에서는 BPE의 작동 원리, 구현 방법, 다른 토크나이저와의 비교, 그리고 실제 LLM 개발에의 적용 방법을 상세히 다룹니다.** You can find the English version of this content at this page (https://markbyun.blogspot.com/2025/05/mastering-byte-pair-encoding-bpe.html) 1. BPE의 개요BPE는 원래 1994년에 데이터 압축을 위해 제안된 알고리즘으로, 가장 자주 나타나는 문자 쌍을 반복적으로 병합하여 데이터.. 2025. 5. 28.
코사인 유사도와 코사인 거리 개념 및 딥러닝에서의 활용 | PyTorch 예제 포함 1. 코사인 유사도(Cosine Similarity)란?코사인 유사도는 두 벡터 간의 방향 유사도를 측정하는 지표로, 주로 텍스트 유사도 분석, 문장 임베딩 비교, 이미지 임베딩 비교 등에서 활용됩니다. 벡터의 크기보다는 방향성에 초점을 맞추는 것이 특징입니다.공식:cos_sim(A, B) = (A · B) / (||A|| * ||B||)A와 B는 각각의 벡터이며, ·는 내적(dot product), ||A||는 A의 놈(norm, 길이)입니다. 값의 범위는 -1 ~ 1입니다. 1에 가까울수록 방향이 유사하고 반대로 -1에 가까울 수록 두 벡터의 방향이 서로 다름을 의미합니다.2. 코사인 거리(Cosine Distance)란?코사인 거리란 코사인 유사도를 거리 개념으로 변환한 것으로, 다음과 같이 정의됩.. 2025. 4. 30.