[Paper] 그라디언트가 충돌할 때: LLM 판사를 위한 Multi-Objective Prompt Optimization의 실패 모드
LLM 판사를 특정 작업이나 도메인에 맞게 맞춤화하려면 종종 프롬프트를 여러 평가 기준에 걸쳐 동시에 최적화해야 합니다. Textual gradient ...
1354 posts from this source
LLM 판사를 특정 작업이나 도메인에 맞게 맞춤화하려면 종종 프롬프트를 여러 평가 기준에 걸쳐 동시에 최적화해야 합니다. Textual gradient ...
Activation oracles aim to make the activations of other models legible to humans and yield promising results compared to white-box interpretability techniques. ...
우리는 고의적으로 최소화된 지식 그래프 도구 API인 네 개의 Freebase 탐색 동사를 사용하여 표준 RLVR 도구‑사용 레시피인 GRPO를 Qwen2.5-7B-Instruct에 적용해 테스트합니다.
We introduce CausaLab, a scalable environment for evaluating interactive causal discovery by LLM agents. Unlike prior evaluations, CausaLab evaluates both wheth...
자연어 요구사항으로부터 코드를 생성하는 것은 LLM 지원 소프트웨어 개발의 주요 경로가 되었습니다. LLM은 성공적으로 작은 ... 를 완수할 수 있습니다.
현대 atomistic spin simulations는 긴 stochastic trajectories, thermodynamic sampling, static optimization, 그리고 multi-image transition‑path workflows를 결합한다, a...
Generative AI tools are rapidly transforming software development practice, prompting unprecedented research interest. However, existing studies have predominan...
Federated edge learning (FEEL)은 최근 협업 모델 훈련을 가능하게 함으로써 edge intelligence (EI)를 달성하기 위한 유망한 패러다임으로 부상하고 있습니다.
Agentic AI coding assistants can edit files, run commands, and access the internet on behalf of developers. However, their reliance on unvetted external artifac...
일반적인 Proof of Stake 체인의 검증인들은 attestation 작업을 올바르게 수행하든 선택적으로 검열하든 동일한 수수료를 받습니다. 주요 …
Dynamic multi-objective optimization with a changing number of objectives has recently attracted increasing attention due to its relevance to real-world problem...
Retrieval-Augmented Generation (RAG) empowers LLMs with external knowledge, making cross-institutional domain-specific knowledge base integration a highly promi...
대규모 언어 모델(LLMs)은 에지-클라우드 컴퓨팅 전반에 걸친 에이전트 AI를 위한 content-based publish/subscribe broker의 semantic-matching engine으로 활용될 수 있다.
임베디드 엣지 디바이스에 걸쳐 Transformer 추론을 분산시키면 개별 메모리 및 연산 제약을 완화할 수 있지만, 실제 하드웨어에서의 실질적인 이점은 …
AI-native 소프트웨어 개발은 종종 개별 모델, 프롬프트, 혹은 생성된 아티팩트 수준에서 평가됩니다. 이러한 프레이밍은 프로덕션에 충분하지 않습니다.
Large language model (LLM) inference is limited by high computational cost and memory bandwidth demands, making deployment on heterogeneous many-core processors...
대형 기반 모델(LFMs)로 구동되는 멀티 에이전트 시스템은 자연어를 통해 산업용 로봇을 제어하기 위해 점점 더 많이 배치되고 있으며, 배포...
We present the first end-to-end demonstration of fine-tuning and serving Google's Gemma 4 31B model on TPU hardware, providing an empirical comparison of TPU an...
Diffusion-based generation is increasingly powering production content pipelines; however, deploying these models at scale remains a significant challenge. Mode...
Context. Large language models (LLMs) are increasingly applied to code-generating tasks (CGTs) in software engineering. While reported results are promising, th...
Responsive Layout Failures (RLFs) typically arise from CSS properties that hinder proper layout behavior in different screen sizes. To find an accurate and effe...
The rapid evolution of large language models (LLMs) has made geographically distributed training necessary due to GPU scarcity within a single cloud region. In ...
우리는 대칭 다항식 (displaystyle prod_{alphain A_{n,d}}bigl(1+alpha_{1}x_{1}+cdots+alpha_{n}x_{n}bigr))를 연구한다. 여기서 (A_{n,d}:={alphainmathbb{Z}_{ge 0}^{n}mid |alpha|=d})이며, 이는 total Chern class이다.
Spatial and temporal resource constraints are critical for both biological and artificial intelligent systems. Here we define differentiable cost terms for brea...
Particle Swarm Optimization (PSO) frequently suffers from premature convergence. This paper introduces a family of problem-informed diversity-enhancing strategi...
The dominant artificial intelligence paradigm trains neural architectures via gradient descent against proxy objectives and reinforcement learning from human fe...
Sampling-based algorithms for robot path planning offer probabilistic completeness and strong empirical convergence properties across environments with diverse ...
우리는 동적 시스템의 단기 기억 능력을 하한으로 제한하는 부등식을 제시한다. 이는 … 사이의 불확정성 관계로 해석될 수 있다.
현재 에이전트 스킬은 수작업으로 제작되거나, 원샷으로 생성되거나, 느슨하게 제어된 self-revision을 통해 진화하지만, 이들 중 어느 것도 deep-learning 최적화처럼 동작하지 않는다…
Camera-controlled video generation은 최근 몇 년간 눈에 띄는 진전을 이루었습니다. 그러나 기존의 video-to-video re-rendering 방법은 주로 Sup...
대부분의 실용적인 고해상도 텍스트‑투‑이미지 시스템은 latent diffusion 및 autoregressive 모델을 포함하여, 컴팩트한 latent space에서 생성을 수행하며, 그리고 ...
대규모 언어 모델(Large Language Models, LLMs)에 대한 기존 스케일링 법칙은 주로 단조적인 멱법칙이며, 재앙적인 비단조 현상 등을 설명하지 못한다.
언어 에이전트는 과거 경험에서 추출된 구조화된 절차적 아티팩트를 재사용함으로써 점점 더 향상됩니다. 특히, 도메인 수준 및 모델‑...
Vision-Language Models (VLMs)는 점점 더 구현된 환경에 배치되고 있으며, 이들 환경에서는 행동 크기와 공간적 ...와 같은 수치 출력을 생성해야 합니다.
Multimodal Large Language Models는 visual reasoning을 발전시켰지만, 순수 텍스트 기반 chain of thought는 fine‑grained 정보를 필요로 하는 질문에 여전히 병목 현상으로 남아 있다.
시각적 개념을 인간 뇌에서 어떤 brain regions가 나타내는지를 식별하는 것은 neuroscience의 핵심 과제이다. 기존 접근법들은 coarse …
우리는 Complete-muE라는 프레임워크를 제안한다. 이 프레임워크는 transformer 블록의 dense FFN과 모든 Mixture-of-Experts (MoE) 설정 간의 하이퍼파라미터 전이를 목표로 한다. Exist...
Visual geometry transformers는 다중 뷰 3D 재구성을 위한 강력한 아키텍처가 되었으며, 피드-...에서 여러 3D 속성을 공동으로 예측할 수 있게 합니다.
Mask-free video object insertion은 도전적인 과제로 부상했으며, 레퍼런스 객체를 소스 비디오에 조화롭게 통합해야 합니다. 그러나 기존 …
온라인 3D 재구성은 엄격한 인과성 및 제한된 메모리 제약 하에서 카메라 포즈와 씬 기하학을 추정해야 합니다. 기존 방법들은 종종 fr...
우리는 다중 시점 RGB 이미지에서 고충실도 3D 씬 재구성을 수행하는 새로운 접근법을 소개합니다. 이 접근법은 재구성을 강력한 generative 3D와 긴밀히 결합합니다.
Temporal knowledge-graph 데이터 마켓플레이스는 정적 설계에서 세 가지 결합된 실패에 직면한다: 하이브리드 인덱스 바로가기가 오래되어 엣지가 진화함에 따라 리콜이 감소하고, 정적인…
교차 언어 지식 전이는 훈련 데이터가 충분하지 않은 언어들을 위한 고성능 다국어 언어 모델을 구축하는 데 필수적입니다. When targe...
Multimodal Large Language Models (MLLMs)의 눈부신 진전에도 불구하고, 이러한 모델들은 여전히 세밀한 이해 작업에서 어려움을 겪는다. 본 연구에서 우리는 ...
Gradient-flow sampling은 Gibbs 분포를 확률 측도 위의 에너지 함수의 최소화자로 해석하고, t에 수렴하는 동역학을 생성한다.
Modern video generators는 시각적으로 매력적인 클립을 생성하지만, physical 및 motion consistency에서 여전히 어려움을 겪어, reliable world simulator로서의 활용이 제한됩니다.
우리는 training-free looped transformers를 소개합니다. 여기서 lightweight inference-time wrapper가 frozen checkpoint의 연속적인 mid-stack block 레이어들을 루프합니다.
우리는 정규화된 Muon에 의해 유도된, 행렬값 파라미터에 정의된 확률 측도 공간 위의 gradient flow를 개발한다. 이는 분석적으로 스무딩된 버전이다.