본문 바로가기
AI

정보 이론과 정보 병목 완벽 가이드

by markbyun 2025. 4. 21.

정보 이론(Information Theory)란 무엇인가?

정보 이론(Information Theory) 은 1940년대 클로드 섀넌(Claude Shannon)이 개발한 수학적 프레임워크로,
정보를 어떻게 측정하고, 전송하고, 압축할 수 있는지를 이해하기 위해 만들어졌습니다. 이 글에서는 정보 이론의 핵심 개념인 엔트로피(Entropy) 와, 딥러닝과 밀접한 관련이 있는 정보 병목(Information Bottleneck) 원리에 대해 자세히 설명합니다.

정보 이론은 다음과 같은 질문을 다룹니다:

  • 하나의 메시지에는 얼마만큼의 정보가 담겨 있을까?
  • 그 정보를 얼마나 효율적으로 표현할 수 있을까?
  • 정보를 전송할 때 노이즈(잡음)를 어떻게 줄일 수 있을까?

핵심 개념: 엔트로피(Entropy)

엔트로피는 어떤 사건의 불확실성 또는 예측 불가능성을 수치로 나타낸 것입니다.

쉽게 설명하면:

  • 공정한 동전(앞면 50%, 뒷면 50%) 은 어느 쪽이 나올지 예측할 수 없으므로 높은 엔트로피를 가집니다.
  • 앞면만 나오는 동전은 결과가 항상 같아 엔트로피가 0입니다.
딥러닝에서는 엔트로피를 통해 모델의 예측에 대한 불확실성을 측정할 수 있습니다.

예를 들어, 모델이 어떤 입력에 대해 다양한 결과를 예측한다면 엔트로피가 높고, 한 가지 결과에 대해 확신한다면 엔트로피가 낮습니다.


정보 병목 원리(Information Bottleneck Principle)란?

정보 병목(Information Bottleneck) 은 필요한 핵심 정보만 남기고 불필요한 정보를 제거하는 원리입니다.

쉽게 이해하기 위해 예를 들어 보겠습니다:

인터넷으로 이미지를 전송할 때, 배경 잡음은 제거하고 사람 얼굴 같은 핵심 정보만 유지하려고 합니다.

딥러닝 관점에서는:

  • 신경망은 입력(X)으로부터 출력(Y)을 예측하려고 학습합니다.
  • 정보 병목 원리는 다음을 요구합니다:
    • 입력 X를 압축하여 숨겨진 표현(hidden representation) T로 만든다.
    • T는 X에 대한 불필요한 정보는 버리고, Y를 예측하는 데 필요한 정보만 남겨야 한다.

이 과정은 모델이 핵심 정보에 집중하고 불필요한 노이즈를 무시하도록 강제합니다.


예시: MNIST 손글씨 숫자 분류

MNIST 데이터셋을 사용해 숫자(0~9)를 분류하는 신경망을 생각해봅시다.

  • 입력 (X): 손글씨 숫자 이미지의 픽셀 값
  • 출력 (Y): 해당 숫자 레이블
  • 숨겨진 표현(T): 숫자를 정확히 분류하는 데 필요한 정보(예: 숫자의 모양)

여기서 정보 병목은 다음을 목표로 합니다:

  • 숫자의 형태(Shape) 같은 중요한 특징은 유지
  • 개인적 필기 스타일(Handwriting style) 이나 획의 두께 같은 불필요한 세부사항은 제거

이렇게 하면 모델은 더 잘 일반화(Generalize) 할 수 있습니다.


정보 병목과 신경망 학습의 관계

Illustration of Information Bottleneck

정보 병목 원리를 적용하지 않으면, 숨겨진 표현(T)이 입력(X)의 모든 세부사항을 기억하려고 할 수 있습니다.
이 경우 발생할 수 있는 문제는 다음과 같습니다:

  • 과적합(Overfitting): 훈련 데이터의 노이즈까지 암기해서 테스트 데이터 성능 저하
  • 일반화 성능 저하: 새로운 데이터에 대한 예측력이 떨어짐

딥러닝에서 엔트로피가 어떻게 손실 함수로 이용되고 있는지에 대한 내용은 '딥러닝에서 엔트로피와 크로스 엔트로피 손실 함수 완벽 이해' 페이지에서 확인 할 수 있습니다.


참고문헌

  1. Tishby et al. (2000) – The Information Bottleneck Method
    https://arxiv.org/abs/physics/0004057
  2. Tishby and Zaslavsky (2015) – Deep Learning and the Information Bottleneck Principle
    https://arxiv.org/abs/1503.02406
  3. Alemi et al. (2016) – Deep Variational Information Bottleneck
    https://arxiv.org/abs/1612.00410