[Paper] 풍부한 피드백을 활용한 강화 학습과 Distributional DAgger
추론 모델은 빠르게 발전했지만, 검증 가능한 보상으로부터의 강화 학습(RLVR)이라는 지배적인 레시피는 놀라울 정도로 좁은 범위에 머물고 있다: 많은 r을 샘플링한다.
추론 모델은 빠르게 발전했지만, 검증 가능한 보상으로부터의 강화 학습(RLVR)이라는 지배적인 레시피는 놀라울 정도로 좁은 범위에 머물고 있다: 많은 r을 샘플링한다.
Individual-level mobility prediction은 urban simulation, transportation planning 및 policy analysis의 핵심이다. Supervised sequence models는 강력한 정확도를 달성한다.
우리는 강력하지만 일반적인 비전 파운데이션 모델을 특수 과학 분야에 적용하기 위해 라벨이 없는 접근 방식을 제안한다. 표준 감독식 파인튜닝은 …
AI 에이전트가 API를 호출하고 validation error가 발생하면, 무엇이 잘못됐는지에 대한 정보만으로는 충분하지 않습니다 — 다음에 무엇을 해야 하는지가 필요합니다. self‑reflective API는 validation error 시, …
프로그래밍용 AI 도구는 이제 단순히 autocomplete나 chat assistants에 그치지 않는다: 이들은 process, roles, artifacts와 함께 development frameworks로 스스로 조직된다.
기후 적응을 위한 도시 레이아웃 최적화는 건물 밀도와 차가운 공기 환기의 균형을 맞추는 것을 필요로 합니다. 물리 기반 기후 시뮬레이션은 com...
Offline multi-objective optimization (Offline MOO)은 비용이 많이 드는 환경 상호작용 없이 static datasets를 기반으로 새로운 Pareto-optimal 설계를 발견하는 것을 목표로 합니다.
부호 스파이킹 뉴런은 표준 스파이킹 뉴런보다 더 풍부한 정보를 전달합니다. 이 연구는 부호를 위한 컴팩트한 자기 터널 접합(MTJ) 기반 뉴런을 제안합니다.
Equilibrium Propagation (EP)은 물리 기반 훈련 프레임워크로, 주로 연속 Hopfield 네트워크를 포함한 에너지 기반 모델에 사용되어 왔습니다.
AI 에이전트는 도구인가, 공동 저자인가, 아니면 연구자인가? 우리는 정량화된 사례 연구(N=1)를 제시한다: 물리학자가 AI 코딩 에이전트(Claude Code, Sonnet 및 O…)를 감독한다.
Long-rollout causal video diffusion은 고정 크기의 슬라이딩 윈도우 KV 캐시로 수렴했으며, 최근의 진전은 이 레이아웃 내에서 어떤 것을 변경함으로써 혁신을 이루고 있다.
로봇 조작은 장면의 action‑relevant 측면을 보존하는 perception에 크게 의존합니다. 그러나 대부분의 robot learning pipelines는 visual…
대규모 언어 모델(Large Language Models, LLMs)의 사전 학습 데이터 혼합은 그들의 ‘digital DNA’를 구성하며, 모델의 행동, 능력 및 실패 모드를 형성합니다. 그러나 이것은…
Printed circuit board (PCB) 회로도 설계는 거의 모든 전자 하드웨어를 정의하지만, 여전히 수동적이며 전문 지식이 많이 필요합니다. While generative AI has adva...
최근 Vision-Language Models (VLMs)의 발전은 많은 작업에서 인상적인 성능을 달성했지만, 이전 연구들은 만족스럽지 못한 성능을 보고했습니다.
대형 언어 모델의 추론 능력을 향상시키기 위해, test-time compute는 일반적으로 final answer 전에 intermediate tokens를 생성함으로써 확장됩니다....
시각 생성 모델링을 위한 확장 가능한 방법을 연구하려면 크고 접근 가능하며 안정적인 데이터셋이 필요합니다. 우리는 GPIC, 즉 Giant Permissive Image Corpus를 소개합니다.
Test-time finetuning (TTFT)은 각 프롬프트에 대해 관련 시퀀스를 검색하고 모델을 업데이트함으로써 언어 모델을 적응시키는 빠르게 진화하는 패러다임입니다.
다중 구성 요소 LLM 에이전트는 공동 문제의 일부만 보는 각 구성 요소로부터 확률적 주장을 조합합니다; 이러한 조합은 기본 확률을 위반할 수 있습니다…
Diffusion models는 자연 데이터의 복잡한 분포를 모델링하는 뛰어난 능력을 가지고 있어, posterior sampling에 있어 인기 있고 효과적인 선택이 되었습니다.
Autonomous AI research agents는 가설 생성부터 동료 검토까지 연구 파이프라인을 자동화함으로써 과학적 발견을 가속화하는 것을 목표로 합니다. 그러나 ex...
Frontier reasoning models는 posttraining된 base language models에 reinforcement learning을 적용하여 생성됩니다. 최근 연구는 샘플링…
우리는 bounded memory 하에서 limit에 따른 language generation을 연구한다. 이 작업에서 learner는 unknown target language의 예시를 하나씩 관찰하고 must...
Reinforcement Learning from Human Feedback (RLHF)는 일반적으로 정적 보상 모델에 의존하여 대형 언어 모델(Large Language Models)을 인간 선호에 맞추도록 합니다. 그러나 인간…
두 개의 공개 LLM leaderboards 전반에 걸쳐, 실제 paired evaluation에서 많은 표시된 pairwise rankings가 기존의 paired-test resolution target을 충족하지 못합니다.
대형 언어 모델(LLMs)은 임상 추론 및 의사결정 지원에 대한 가능성을 보여주지만, 현실적인 전자 건강 기록에 부합하는 환경에서의 평가가 필요합니다...
Survival analysis는 사건이 발생할 때까지의 시간을 예측하는 작업과 관련됩니다. 주로 의료 분야에서 사용되는 Survival analysis는 불완전한 데이터(예: 검열된 데이터)를 다룹니다.
대형 언어 모델(LLM)은 많은 소프트웨어 엔지니어링(SE) 작업에서 소프트웨어 아티팩트를 생성하는 데 점점 더 많이 사용되고 있지만, 의미적 타당성을 보장하는 것은…
One-shot Program-of-Thought (PoT)는 원시 행동 계획을 출력하는 Python 프로그램을 생성합니다; 하나의 잘못된 행동이 트래젝터리를 조용히 무효화합니다. 우리는 …
Random Gradient 하이퍼휴리스틱은 최근 Rand…를 통해 LeadingOnes 벤치마크를 최적화할 때 최적의 neighbourhood size를 학습할 수 있음이 보여졌다.
중소기업(SMEs)은 대부분의 경제에서 기업의 대다수를 차지하며, 종종 재정적 제약과 재무적 취약성에 더 높은...
RamAIn은 Shourya Vir Jain CEO와 Vansh Ramani CTO가 설립했으며, 두 사람은 IIT Delhi에서 만나 중퇴하고 기업 업무를 위한 AI‑native automation을 구축하기 위해 회사를 시작했습니다.
소개 이 기사에서는 머신러닝 맥락에서 텐서(tensors)의 개념을 탐구합니다. 신경망(neural network)을 구축하는 사람의 관점에서, t...
Parameter-efficient finetuning (PEFT)은 대형 언어 모델을 적응시키는 표준 접근 방식이 되었지만, 평가에서는 주로 다운스트림 정확도에 초점을 맞추고 있다.
자율적인 계획과 확장된 환경 상호작용이 가능한 Agentic AI 시스템은 근본적인 제어 문제를 제기한다: 인간이 의미 있는 …
시각적 결과는 멀티모달 대형 언어 모델에서 점점 더 중심적인 역할을 차지하고 있으며, 신뢰할 수 있고 세밀한 검증이 범용 기반 모델을 확장하는 데 필수적입니다.
On-policy self-distillation (SD)은 teacher-side privileged information (PI)를 사용하여 sparse verifier outcomes를 dense token-level로 전환함으로써 LLM reasoning을 개선합니다.
Vision classifiers는 spurious correlations를 활용하여 in-distribution 정확도가 높지만 distribution shift 상황에서는 실패한다. 기존의 bias에 대한 접근 방식은 …
Computer-use agents (CUAs)는 최근 상당한 진전을 이루었지만, 각 소프트웨어 도메인마다 별도의 대형 전문가를 배치하는 것은 여전히 비용이 많이 듭니다. 작은 오픈…
기존의 memory-augmented LLM agents는 종종 메모리를 사전 정의된 표현과 고정된 retrieval pipelines를 가진 정적 저장소로 취급하는데, 이는 brittle합니다 ...
거대한 양의 컴퓨팅(GPU 사이클, 개인 워크스테이션, 유휴 추론 서버, 작업 사이의 엣지 디바이스 등)이 인센티브에 맞는 p... 때문에 사용되지 않는다.
이 논문은 베이지안 다목적 최적화를 위한 preference-shaped expected improvement 기준을 연구한다. 우리는 종종 …인 두 가지 indicator families를 고려한다.
본 논문은 베이지안 다목적 최적화를 위한 preference‑shaped expected improvement 기준을 연구한다. 우리는 종종 사용되는 두 가지 indicator families를 고려한다.
대형 언어 모델(LLMs)은 특히 에이전시 기능이 등장하면서 소프트웨어 개발의 필수 요소가 되었습니다. 그러나 많은 최첨단 LLM들은 ...
코드 완성 및 생성용 대형 언어 모델(LLMs)은 소프트웨어 개발에서 점점 더 많이 사용되고 있지만, 훈련 예시를 그대로 재현할 수 있습니다.
Industrial Prognostics and Health Management (PHM)는 응용 머신러닝에서 더 넓은 과제인, 출판된 연구를 실제 적용으로 전환하는 것을 위한 대표적인 사례 연구를 제공합니다.
Cartesian Genetic Programming은 전통적으로 변이를 주요하고 종종 유일한 유전 연산자로 사용하여 진화적 탐색을 진행해 왔습니다. 발전에도 불구하고...
REST API가 소프트웨어 시스템에서 점점 더 중요한 부분이 되면서, 그 검증이 더욱 중요해지고 있습니다. 따라서 테스트와 근본적인 i...