훈련 예제 Lie Bracket

발행: (2026년 4월 10일 오전 06:59 GMT+9)
6 분 소요
원문: Hacker News

Source: Hacker News

훈련 예제는 벡터 필드

신경망을 (\theta \in \Theta = \mathbb{R}^{\text{num params}})와 같은 파라미터로 학습하고 있다면, 각 훈련 예제를 벡터 필드로 간주할 수 있습니다. 특히, (x)가 훈련 예제이고 (\mathcal{L}^{(x)})가 그 훈련 예제에 대한 개별 손실이라면, 이 벡터 필드는

[ v^{(x)}(\theta) = -\nabla_{\theta} \mathcal{L}^{(x)} ]

와 같습니다.

다시 말해, 특정 훈련 예제에 대해 결과 벡터 필드의 화살표는 파라미터가 업데이트되어야 할 방향을 가리킵니다.

이 관점에서, 그래디언트 업데이트는 기본적으로 학습률 (\epsilon)만큼 벡터 필드의 방향으로 이동하는 것과 같습니다.

[ \theta’ = \theta + \epsilon , v^{(x)}(\theta). ]

The Training Example Lie Bracket

벡터 필드로 할 수 있는 일 중 하나는 그들의 Lie bracket을 계산하는 것입니다. 따라서 (x, y)가 훈련 예제라면 우리는 다음을 계산할 수 있습니다

[ [v^{(x)}, v^{(y)}] = (v^{(x)}!\cdot!\nabla_\theta) , v^{(y)} - (v^{(y)}!\cdot!\nabla_\theta) , v^{(x)} . ]

우리는 (\Theta) 위의 任意 두 벡터 필드에 대한 Lie bracket을 계산할 수 있으며, 따라서 두 훈련 예제로부터 발생하는 벡터 필드들의 Lie bracket도 계산할 수 있습니다. 두 훈련 예제의 Lie bracket은 그 예제들에 대한 학습 순서 의존성을 알려줍니다. 벡터 필드의 Lie bracket 자체도 벡터 필드이며, 따라서 gradient와 마찬가지로 각 파라미터 텐서와 동일한 형태를 가진 파라미터 텐서마다 Lie‑bracket 텐서를 얻습니다.

Lie 괄호가 순서 의존성에 대해 알려줍니다

우리는 이 양을 (x)를 먼저 업데이트하고 (y)를 나중에 업데이트하는 경우와 그 반대 경우의 차이로 해석할 수 있습니다. (\epsilon)을 학습률이라고 두고, (O(\epsilon^{2}))까지 전개합니다.

[ \theta’ = \theta + \epsilon , v^{(x)}(\theta) ]

[ \theta” = \theta’ + \epsilon , v^{(y)}(\theta’) = \theta + \epsilon v^{(x)}(\theta) + \epsilon v^{(y)}(\theta) + \epsilon^{2}\bigl(v^{(x)}(\theta)!\cdot!\nabla_\theta\bigr) v^{(y)}(\theta). ]

(x, y)를 반대 순서로 업데이트하면, 결과 파라미터 (\theta”)의 (O(\epsilon^{2})) 차이는

[ \Delta \theta” = \epsilon^{2}\Bigl[ \bigl(v^{(x)}(\theta)!\cdot!\nabla_\theta\bigr) v^{(y)}(\theta) - \bigl(v^{(y)}(\theta)!\cdot!\nabla_\theta\bigr) v^{(x)}(\theta) \Bigr] = \epsilon^{2},v^{(x)}, v^{(y)}. ]

따라서 Lie 괄호는 두 훈련 예제가 제시되는 순서에 따라 최종 파라미터가 어떻게 달라지는지를 정량화합니다. 선형성을 이용하면, 두 미니배치의 순서를 바꾸는 효과는 모든 예제 쌍에 대해 평균을 취한 것과 동일합니다.

이전 연구

훈련 예제의 Lie 괄호에 관한 연구를 문헌에서 검색할 때, 우리가 찾은 가장 초기의 설명은 Dherin (2023)이며, 이 논문은 괄호가 업데이트의 교환성을 측정하는 능력을 신경망 훈련에서의 암묵적 편향과 연결시킨다.

우리는 실제 컨볼루션 신경망의 훈련 과정에서 여러 체크포인트에서 괄호 값을 명시적으로 계산함으로써 여기서 더 나아간다.

실험 세부 사항

우리는 MXResNet architecture (attention 레이어 제외)를 재현하고, 이를 CelebA dataset에서 배치 크기 32로 5 000 스텝 동안 학습시킨 뒤, 가중치 체크포인트를 주기적으로 저장합니다. 옵티마이저는 다음 파라미터를 가진 Adam입니다:

lr = 5e-3
betas = (0.8, 0.999)

CelebA 데이터셋은 40개의 이진 속성(예: Male, Black_Hair)을 가지고 있습니다. 네트워크는 각 속성을 독립적이며 동시에 예측합니다(이진 분류 손실을 평균).

우리는 각 체크포인트를 32개의 테스트 예제 배치에 대해 평가했습니다. 디스크 사용량을 제한하기 위해, 각 개별 Lie bracket가 전체 체크포인트와 동일한 크기를 가지므로 첫 번째 여섯 개 테스트 예제 사이에서만 Lie bracket를 계산했습니다. 각 bracket(두 예제를 교환하는 것을 나타냄)마다, 두 예제가 교환될 때 32개의 테스트 예제에 대한 모든 40개의 로짓이 어떻게 변동되는지를 보여줍니다.

Results

우리는 결과에 대해 몇 가지 관찰을 했지만, 직접 탐색해 볼 수 있습니다. 슬라이더는 훈련 과정에서 어느 체크포인트를 검사할지 제어하고, 버튼은 특정 Lie brackets에 대한 데이터를 볼 수 있게 합니다. ([u_i, u_j] = -[u_j, u_i]) 이므로, 대각선에 대해 대칭인 괄호들은 서로 부호가 반대입니다.

0 조회
Back to Blog

관련 글

더 보기 »

마스터 알고리즘

마스터 알고리즘 – 2015 → 2025 2015년에 AI 연구자 Pedro Domingos가 저술한 책이 출판되었습니다: **The Master Algorithm: How the Quest for the Ultimate Learning**.