처음부터 시작: 30M 토폴로지 트랜스포머 학습
발행: (2026년 1월 18일 오후 08:39 GMT+9)
1 분 소요
원문: Hacker News
ReLU 활성화 함수를 사용하기 이전 기사들에서는 역전파(back‑propagation)를 사용하고 그래프를 그려 값을 정확히 예측했습니다. 모든 예제는 …
SKU를 네트워크로 모델링하면 전통적인 예측이 놓치는 부분을 드러냅니다. 게시물: 시계열만으로는 충분하지 않다: 그래프 신경망이 수요 예측을 어떻게 바꾸는가…
딥넷의 Hessian의 역(inverse)을 벡터에 적용하는 것이 쉽다는 것이 밝혀졌다. 이를 단순히 수행하면 레이어 수 s에 대해 연산량이 세제곱으로 증가한다.
신경망 훈련 중 표현 불안정성 관찰 신경망 훈련 행동을 실험하면서, 나는 반복되는 패턴을 발견했다.