Relational Deep Learning (RDL)은 GNN을 사용해 다중 테이블 데이터베이스를 모델링하는 통합 그래프 기반 방식을 제안합니다. 이를 통해 관계 의미를 유지하고, 조인을 피하며, 시계열 추론을 지원합니다. 이는 머신러닝과 데이터베이스 간의 간극을 연결하는 패러다임 전환입니다.
1. 동기: 테이블에서 그래프로
전통적 설정
관계형 데이터베이스는 다수의 정규화된 테이블에 구조화된 데이터를 저장하며, 각 테이블은 사용자, 주문, 상품 등 다양한 엔티티 유형을 캡처합니다. 이러한 테이블들은 외래 키(FK)와 기본 키(PK) 제약을 통해 연결됩니다.
머신러닝 모델을 학습하기 위해, 이 데이터베이스는 일반적으로 조인을 통해 단일 테이블로 평탄화되고, 도메인 전문가가 수동으로 특징을 선택하고 엔지니어링합니다.
문제점:
- 조인은 비용이 많이 들고 스키마 변경 시 파이프라인이 깨질 수 있습니다.
- 수작업 특징 엔지니어링은 시간이 많이 소요되며 관계 인식이 부족합니다.
- 엔티티 간 관계 정보가 손실됩니다.
2. 핵심 아이디어: 스키마 위에서 직접 학습
이 논문은 Relational Deep Learning (RDL)을 제안합니다 — 이 패러다임은 다음과 같습니다:
- 데이터베이스를 자동으로 그래프로 변환하고 (이를 Relational Entity Graph라 부릅니다).
- Graph Neural Network (GNN)이 이 그래프 위에서 엔드 투 엔드(end-to-end)로 학습합니다.
즉:
- 수동 조인이나 특징 설계가 필요 없습니다.
- 멀티 홉 관계 (예: 고객 → 거래 → 상품 → 공급자)가 보존됩니다.
- 시계열 신호를 활용한 동적 예측 (예: 이탈, 사기)이 가능합니다.
3. Relational Entity Graph (REG): 기반 구조
구성 방식
관계형 데이터베이스가 주어지면:
- 노드 = 테이블의 각 행 (예: 고객, 주문, 상품 각각 하나의 노드).
- 엣지 = FK–PK 연결 (예: 주문은 특정 고객에 속함).
이 구조는 이질적인 그래프를 형성합니다:
- 노드 유형: 고객, 상품, 거래 등.
- 엣지 유형: “구매”, “리뷰” 등.
선택적 추가 요소
- 노드 특징: 행의 속성 (예: 나이, 가격, 날짜).
- 타임스탬프: 동적 또는 시계열 GNN에서 사용됩니다.
이 그래프는 평면 특징 벡터로는 버려지던 관계 및 구조 정보를 보존합니다.
4. 딥러닝 파이프라인
전체 머신러닝 파이프라인은 다음과 같이 구축됩니다:
(1) 과제 정의
- 사용자는 대상 레이블이 포함된 훈련 테이블을 정의합니다.
- 이 테이블은 일반적으로 관심 있는 엔티티 (예: 이탈을 위한 사용자, 사기를 위한 거래)와 연결됩니다.
(2) 그래프 구성
- 스키마와 키를 기반으로 REG를 자동 생성합니다.
(3) 특징 인코딩
- 데이터베이스의 원시 특징을 텐서 표현으로 변환합니다:
- 범주형 → 임베딩
- 숫자형 → 정규화
- 타임스탬프 → 시간 인식 특징
(4) 메시지 패싱
- GraphSAGE, GAT 등의 GNN 레이어를 그래프에 적용합니다.
- 각 노드는 이웃으로부터 메시지를 집계하고 표현을 업데이트합니다.
- 멀티 홉 추론을 가능하게 합니다: 사용자의 노드는 구매한 상품과 다른 사용자들의 행동을 학습합니다.
(5) 예측
- 과제에 따라 MLP 레이어를 추가해 분류 또는 회귀를 수행합니다.
- 백프로파게이션을 통해 메시지 패싱과 임베딩 전반의 가중치가 업데이트됩니다.
5. AI 엔지니어가 알아야 할 관련 개념
A. 관계형 데이터베이스
- 정규화: 중복을 줄이고, 많은 테이블로 분리합니다.
- 외래 키: 한 테이블의 행을 다른 테이블의 대응 행에 연결합니다.
- 조인: 여러 테이블 데이터를 결합하는 SQL 연산입니다.
참고 문헌:
B. 그래프 신경망 (GNN)
- 메시지 패싱 네트워크는 이웃으로부터 정보를 집계하여 노드 상태를 업데이트합니다.
- 주요 아키텍처:
- GCN (Kipf & Welling): 기본 스펙트럴 방식
- GraphSAGE: 이웃 정보를 학습하여 집계
- GAT: 이웃에 대한 어텐션 사용
참고 문헌:
- Battaglia et al. “Relational inductive biases...” (2018)
- Wu et al. “Comprehensive Survey on GNNs” (2020)
C. 시계열 그래프 학습
- 인터랙션의 시간 정보가 중요한 과제에서 사용됩니다.
- TGAT, TGN 등의 시간 인식 GNN은 다음에 활용됩니다:
- 동적 추천
- 사기 탐지
- 이탈 예측
참고 문헌:
6. 벤치마크와 도구
저자들은 RelBench라는 관계형 데이터셋과 예측 과제를 포함한 벤치마크 스위트를 소개했습니다:
- Stack Exchange Q&A 스레드
- Amazon 상품 리뷰
- 온라인 소매 및 클릭스트림
또한 다음 도구를 제공합니다:
- SQL → REG 그래프 변환 도구
- PyTorch Geometric 기반 GNN 학습 파이프라인
References
- 논문: arXiv:2312.04615
- 저자: Matthias Fey 외
- 코드: https://github.com/snap-research/RelationalDeepLearning
- 벤치마크: RelBench
'AI' 카테고리의 다른 글
PyTorch 예제로 배우는 머신러닝 거리 함수 완벽 가이드 (2) | 2025.06.15 |
---|---|
UV·Python·mcp-use로 구현하는 MCP Agent (2) | 2025.06.12 |
LLaMA 3.2-1B-Instruct 모델 한국어 파인튜닝 가이드 (1) | 2025.05.29 |
Byte Pair Encoding (BPE) 토크나이저 완전 정복 (0) | 2025.05.28 |
SentencePiece 완전 정복: AI 엔지니어를 위한 언어 독립형 토크나이저 (2) | 2025.05.28 |