본문 바로가기

AI42

PyTorch 예제로 배우는 머신러닝 거리 함수 완벽 가이드 머신러닝에서 거리 함수(Distance Metric)는 데이터 간의 유사도 또는 차이를 수치적으로 표현하는 중요한 도구입니다. 이러한 거리 함수는 군집화 알고리즘(K-Means), 최근접 이웃 분류(KNN), 추천 시스템, 이상치 탐지 등 다양한 AI 분야에서 핵심적으로 활용됩니다. 본 글에서는 머신러닝과 데이터 과학 분야에서 가장 많이 사용되는 주요 거리 함수 9가지(코사인, 유클리드, 마할라노비스, 헬링거, 자카드, 맨해튼, 상관계수, 다이스, 해밍 거리)에 대해 개념 설명과 PyTorch를 활용한 실습 예제를 통해 체계적으로 학습해 보겠습니다.1. 코사인 거리 (Cosine Distance)코사인 거리는 두 벡터 사이의 방향(각도)에 기반하여 유사도를 측정하는 방식으로, 벡터의 크기보다는 방향성이 .. 2025. 6. 15.
관계형 데이터베이스를 위한 Relational Deep Learning (RDL): GNN 기반 머신러닝 혁신 Relational Deep Learning (RDL)은 GNN을 사용해 다중 테이블 데이터베이스를 모델링하는 통합 그래프 기반 방식을 제안합니다. 이를 통해 관계 의미를 유지하고, 조인을 피하며, 시계열 추론을 지원합니다. 이는 머신러닝과 데이터베이스 간의 간극을 연결하는 패러다임 전환입니다.1. 동기: 테이블에서 그래프로전통적 설정관계형 데이터베이스는 다수의 정규화된 테이블에 구조화된 데이터를 저장하며, 각 테이블은 사용자, 주문, 상품 등 다양한 엔티티 유형을 캡처합니다. 이러한 테이블들은 외래 키(FK)와 기본 키(PK) 제약을 통해 연결됩니다.머신러닝 모델을 학습하기 위해, 이 데이터베이스는 일반적으로 조인을 통해 단일 테이블로 평탄화되고, 도메인 전문가가 수동으로 특징을 선택하고 엔지니어링합니.. 2025. 6. 13.
UV·Python·mcp-use로 구현하는 MCP Agent Model Context Protocol (MCP)은 AI 에이전트가 외부 도구·데이터와 표준 방식으로 상호작용하도록 설계된 개방형 프로토콜입니다. MCP는 server, client, host 세 가지 구성요소로 나뉩니다.MCP hostMCP host는 사용자와 Agent사이의 인터페이스 (Claude Desktop 혹은 IDE) 역활을 하며 MCP client와 server들을 이용하여 외부 툴 혹은 데이터에 접속하는 역할을 수행합니다. 과거에는 Anthropic Claude Desktop을 host로 쓰는 방식이 소개되었으나, 별도 데스크톱 앱·라이선스·API 키 관리가 필요하고 Claude 생태계에 종속되는 문제가 있었습니다. mcp-use는 오픈소스 Python/Node 패키지로, LangCha.. 2025. 6. 12.
LLaMA 3.2-1B-Instruct 모델 한국어 파인튜닝 가이드 Meta의 LLaMA 3.2-1B-Instruct 모델을 한국어 지시문 데이터셋으로 Hugging Face와 LoRA를 활용해 파인튜닝하는 상세 튜토리얼입니다.1. LLaMA 3.2-1B-Instruction 모델 한국어 파인 튜닝이 필요한 이유LLaMA 3.2-1B-Instruct는 Meta에서 출시한 경량 인스트럭션 튜닝 언어 모델로, 비교적 적은 자원으로도 다양한 지시문 기반 태스크에 응답할 수 있도록 설계되었습니다. 비록 이 모델이 다중 언어를 지원하도록 학습은 되었으나 몇 몇 주요 언어들에 대해서만 학습이되어 한구어와 같이 직접 학습에 사용되지 않은 언어에 대해서는 제대로 동작하지 않는 문제가 있습니다. 따라서 이 문서에서는 Hugging Face Transformers와 PEFT(특히 LoRA.. 2025. 5. 29.
Byte Pair Encoding (BPE) 토크나이저 완전 정복 Byte Pair Encoding (BPE)는 자연어 처리에서 널리 사용되는 서브워드 토크나이저 알고리즘으로, 특히 희귀 단어 처리와 어휘 확장성 측면에서 강력한 성능을 보여줍니다. 이 문서에서는 BPE의 작동 원리, 구현 방법, 다른 토크나이저와의 비교, 그리고 실제 LLM 개발에의 적용 방법을 상세히 다룹니다.** You can find the English version of this content at this page (https://markbyun.blogspot.com/2025/05/mastering-byte-pair-encoding-bpe.html) 1. BPE의 개요BPE는 원래 1994년에 데이터 압축을 위해 제안된 알고리즘으로, 가장 자주 나타나는 문자 쌍을 반복적으로 병합하여 데이터.. 2025. 5. 28.
SentencePiece 완전 정복: AI 엔지니어를 위한 언어 독립형 토크나이저 자연어 처리(NLP) 시스템에서 텍스트를 모델 입력으로 전처리할 때 필수적으로 수행해야 하는 단계가 바로 토크나이징(tokenization)입니다. 하지만 기존의 대부분 토크나이저는 언어별 규칙이나 사전 정의된 단어 사전을 기반으로 작동하며, 사전 토크나이징된 텍스트를 필요로 하는 경우도 많습니다. 이런 방식은 특히 다국어를 처리할 때 제약이 많고, 비표준 문자를 포함한 데이터에 취약할 수 있습니다.SentencePiece는 이러한 제약을 극복하기 위해 Google에서 개발한 언어 독립적 토크나이저입니다. 문장 단위의 raw 텍스트를 그대로 입력받아 서브워드 단위로 나누며, 특히 신경망 기반 자연어 처리 모델에 최적화된 전처리 방식으로 각광받고 있습니다.** You can find the English .. 2025. 5. 28.