[Paper] Mixture of Space Experts를 이용한 LLM의 파라미터 효율적 파인튜닝
대규모 언어 모델(LLMs)은 눈부신 진전을 이루었으며, Parameter‑Efficient Fine‑Tuning(PEFT)이 다운스트림 작업 적응을 위한 핵심 기술로 떠오르고 있습니다.
대규모 언어 모델(LLMs)은 눈부신 진전을 이루었으며, Parameter‑Efficient Fine‑Tuning(PEFT)이 다운스트림 작업 적응을 위한 핵심 기술로 떠오르고 있습니다.
Transformer 아키텍처는 현대 딥러닝의 기반이 되었지만, 그 핵심인 self‑attention 메커니즘은 이차적인 계산 복잡도…
인쇄된 영어의 엔트로피 속도는 유명하게도 문자당 약 1비트로 추정되며, 이는 현대 대형 언어 모델(LLMs)이 아직 겨우 받아들인 기준이다...
대형 언어 모델(LLM) 언러닝은 훈련된 모델에서 특정 지식을 제거하는 것을 목표로 하지만, 실제 배포에서는 종종 사후 훈련 양자화를 필요로 한다.
언어 식별(LID)은 웹 데이터에서 고품질 다국어 데이터셋을 구축하는 데 필수적인 단계입니다. 기존 LID 도구(예: OpenLID 또는 GlotLID)…
대규모 언어 모델(LLMs)은 비용이 많이 드는 인간 선호 라벨을 대체하기 위해 쌍별 평가에서 판사 역할을 점점 더 많이 사용되고 있습니다. 실용성에도 불구하고, LLM j...
NLP를 사용하여 실제 학습자 언어를 분석하면 자동화된 평가 및 피드백 도구를 구축하는 데 도움이 됩니다. 또한 개발에 대한 새롭고 광범위한 통찰을 제공합니다.
Memory-efficient backpropagation (MeBP)은 1GB 미만의 메모리로 모바일 디바이스에서 대규모 언어 모델(LLMs)의 1차 미세조정을 가능하게 했습니다. 그러나...
대형 언어 모델(LLMs)이 어떻게 그리고 왜 실패하는지를 이해하는 것이 모델이 빠르게 진화하고 정적 평가가 뒤처지는 상황에서 핵심 과제가 되고 있다. While a...
Context distillation은 언어 모델이 인-컨텍스트 지식을 파라미터에 내재화하도록 합니다. 우리 연구에서는 On-Policy Context Distillation을 제안합니다 (...).
Diffusion large language models (DLLMs)은 여러 토큰을 병렬로 디코딩함으로써 빠른 텍스트 생성을 가능하게 할 잠재력을 가지고 있습니다. 그러나 실제로는, 그들의 i...
표준 벤치마크에서 낮은 word error rates를 달성한 speech recognition systems라도, 실제 배포 환경에서 짧고 high-stakes utterances에 대해서는 종종 실패한다.