훈련 예제 Lie Bracket

발행: 3주 전 (2026년 4월 10일 오전 06:59 GMT+9)

6 분 소요

Source: Hacker News

훈련 예제는 벡터 필드

신경망을 (\theta \in \Theta = \mathbb{R}^{\text{num params}})와 같은 파라미터로 학습하고 있다면, 각 훈련 예제를 벡터 필드로 간주할 수 있습니다. 특히, (x)가 훈련 예제이고 (\mathcal{L}^{(x)})가 그 훈련 예제에 대한 개별 손실이라면, 이 벡터 필드는

[ v^{(x)}(\theta) = -\nabla_{\theta} \mathcal{L}^{(x)} ]

와 같습니다.

다시 말해, 특정 훈련 예제에 대해 결과 벡터 필드의 화살표는 파라미터가 업데이트되어야 할 방향을 가리킵니다.

이 관점에서, 그래디언트 업데이트는 기본적으로 학습률 (\epsilon)만큼 벡터 필드의 방향으로 이동하는 것과 같습니다.

[ \theta’ = \theta + \epsilon , v^{(x)}(\theta). ]

The Training Example Lie Bracket

벡터 필드로 할 수 있는 일 중 하나는 그들의 Lie bracket을 계산하는 것입니다. 따라서 (x, y)가 훈련 예제라면 우리는 다음을 계산할 수 있습니다

[ [v^{(x)}, v^{(y)}] = (v^{(x)}!\cdot!\nabla_\theta) , v^{(y)} - (v^{(y)}!\cdot!\nabla_\theta) , v^{(x)} . ]

우리는 (\Theta) 위의 任意 두 벡터 필드에 대한 Lie bracket을 계산할 수 있으며, 따라서 두 훈련 예제로부터 발생하는 벡터 필드들의 Lie bracket도 계산할 수 있습니다. 두 훈련 예제의 Lie bracket은 그 예제들에 대한 학습 순서 의존성을 알려줍니다. 벡터 필드의 Lie bracket 자체도 벡터 필드이며, 따라서 gradient와 마찬가지로 각 파라미터 텐서와 동일한 형태를 가진 파라미터 텐서마다 Lie‑bracket 텐서를 얻습니다.

Lie 괄호가 순서 의존성에 대해 알려줍니다

우리는 이 양을 (x)를 먼저 업데이트하고 (y)를 나중에 업데이트하는 경우와 그 반대 경우의 차이로 해석할 수 있습니다. (\epsilon)을 학습률이라고 두고, (O(\epsilon^{2}))까지 전개합니다.

[ \theta’ = \theta + \epsilon , v^{(x)}(\theta) ]

[ \theta” = \theta’ + \epsilon , v^{(y)}(\theta’) = \theta + \epsilon v^{(x)}(\theta) + \epsilon v^{(y)}(\theta) + \epsilon^{2}\bigl(v^{(x)}(\theta)!\cdot!\nabla_\theta\bigr) v^{(y)}(\theta). ]

(x, y)를 반대 순서로 업데이트하면, 결과 파라미터 (\theta”)의 (O(\epsilon^{2})) 차이는

[ \Delta \theta” = \epsilon^{2}\Bigl[ \bigl(v^{(x)}(\theta)!\cdot!\nabla_\theta\bigr) v^{(y)}(\theta) - \bigl(v^{(y)}(\theta)!\cdot!\nabla_\theta\bigr) v^{(x)}(\theta) \Bigr] = \epsilon^{2},v^{(x)}, v^{(y)}. ]

따라서 Lie 괄호는 두 훈련 예제가 제시되는 순서에 따라 최종 파라미터가 어떻게 달라지는지를 정량화합니다. 선형성을 이용하면, 두 미니배치의 순서를 바꾸는 효과는 모든 예제 쌍에 대해 평균을 취한 것과 동일합니다.

이전 연구

훈련 예제의 Lie 괄호에 관한 연구를 문헌에서 검색할 때, 우리가 찾은 가장 초기의 설명은 Dherin (2023)이며, 이 논문은 괄호가 업데이트의 교환성을 측정하는 능력을 신경망 훈련에서의 암묵적 편향과 연결시킨다.

우리는 실제 컨볼루션 신경망의 훈련 과정에서 여러 체크포인트에서 괄호 값을 명시적으로 계산함으로써 여기서 더 나아간다.

실험 세부 사항

우리는 MXResNet architecture (attention 레이어 제외)를 재현하고, 이를 CelebA dataset에서 배치 크기 32로 5 000 스텝 동안 학습시킨 뒤, 가중치 체크포인트를 주기적으로 저장합니다. 옵티마이저는 다음 파라미터를 가진 Adam입니다:

lr = 5e-3
betas = (0.8, 0.999)

CelebA 데이터셋은 40개의 이진 속성(예: Male, Black_Hair)을 가지고 있습니다. 네트워크는 각 속성을 독립적이며 동시에 예측합니다(이진 분류 손실을 평균).

우리는 각 체크포인트를 32개의 테스트 예제 배치에 대해 평가했습니다. 디스크 사용량을 제한하기 위해, 각 개별 Lie bracket가 전체 체크포인트와 동일한 크기를 가지므로 첫 번째 여섯 개 테스트 예제 사이에서만 Lie bracket를 계산했습니다. 각 bracket(두 예제를 교환하는 것을 나타냄)마다, 두 예제가 교환될 때 32개의 테스트 예제에 대한 모든 40개의 로짓이 어떻게 변동되는지를 보여줍니다.

Results

우리는 결과에 대해 몇 가지 관찰을 했지만, 직접 탐색해 볼 수 있습니다. 슬라이더는 훈련 과정에서 어느 체크포인트를 검사할지 제어하고, 버튼은 특정 Lie brackets에 대한 데이터를 볼 수 있게 합니다. ([u_i, u_j] = -[u_j, u_i]) 이므로, 대각선에 대해 대칭인 괄호들은 서로 부호가 반대입니다.

훈련 예제 Lie Bracket

훈련 예제는 벡터 필드

The Training Example Lie Bracket

Lie 괄호가 순서 의존성에 대해 알려줍니다

이전 연구

실험 세부 사항

Results

관련 글

Multilayer Perceptron (MLP): 신경망을 이해하는 실용적인 방법

Optimization and Regularization — 모델이 학습하는 방식 (그리고 학습이 실패하는 이유)

마스터 알고리즘

인간 편집으로부터 학습하는 AI 챗봇 구축 (피드백만이 아니라)