[Paper] 불확실성 인식 구조화 데이터 추출 전체 CMR 보고서에서 증류된 LLM을 통해
자유 텍스트 형태의 심장 자기공명(CMR) 보고서를 감사 가능한 구조화된 데이터로 변환하는 것은 코호트 구성, 장기 큐레이션, 그리고 …에 있어 여전히 병목 현상으로 남아 있습니다.
자유 텍스트 형태의 심장 자기공명(CMR) 보고서를 감사 가능한 구조화된 데이터로 변환하는 것은 코호트 구성, 장기 큐레이션, 그리고 …에 있어 여전히 병목 현상으로 남아 있습니다.
최근 바이트 수준 언어 모델(LM)은 서브워드 어휘에 의존하지 않으면서 토큰 수준 모델의 성능과 일치하지만, 그 유용성은 slo...
텍스트-투-이미지 모델이 visual fidelity에서 큰 진전을 이루었지만, complex visual intents를 충실히 구현하는 것은 여전히 어려운 과제이다. 많은 요구사항이…
사이트 특화 전파 모델을 구축하려면 일반적으로 상세한 3D 지도에 대한 ray-tracing이나 밀집 측정 캠페인 중 하나가 필요합니다. 두 접근 방식 모두 비용이 많이 듭니다.
Distributional treatment effects는 평균값(means)으로는 보이지 않을 수 있다: 처치는 average outcomes를 유지하면서도 tails, modes, dispersion, 혹은 rare‑event 확률을 변화시킬 수 있다.
Vision-language models (VLMs)는 프라이버시, 저작권 및 편향에 대한 우려가 커지고 있어, 민감한 지식을 제거하기 위한 머신 언러닝을 촉진하고 있습니다. 그러나, e...
Learning-to-defer (L2D)는 어려운/불확실한 사례를 인간에게 전달함으로써 glaucoma screening을 보다 안전하게 만들 수 있지만, 기존의 공식들은 expert availability를 간과한다.
Spiking Neural Networks (SNNs)는 기존의 Artificial Neural Networks (ANNs)에 대한 생물학적으로 타당하고 에너지 효율적인 대안으로 제안되었습니다.
AI 코딩 에이전트가 브랜치를 열고 풀 리퀘스트(PR)를 제출할 때, 감독 설계를 공동으로 결정하는 두 가지 질문이 있습니다: 누가 작업을 시작하는가(운영 주체)와 …
Mechanistic interpretability 논문들은 점점 인과적 어휘를 사용하고 있다: circuits, mediators, causal abstraction, monosemanticity. 이러한 주장들은 명시적인 i...
툴을 호출하는 에이전트가 잘못된 툴을 선택하면, 실패는 실행될 때까지 보이지 않는다: 이메일이 전송되고, 회의가 놓치게 된다. Probing 12 instruction-t
대규모 언어 모델에서 안전하고 정책을 준수하는 출력을 보장하려면 여러 안전 차원에 걸쳐 확장 가능한 실시간 콘텐츠 검토가 필요합니다. Howev...
성능 평가는 머신 러닝(ML) 모델의 품질을 평가하고 배포 결정을 안내하는 데 필수적입니다. 연합 학습(FL)에서는 ...
소프트웨어 오류는 현대 소프트웨어 개발에서 여전히 주요 과제이며, 오류의 원인이 되는 코드 요소를 식별하는 것은 시간 소모가 큰 디버깅 작업이다.
Stencil computations은 과학 컴퓨팅에서 기본적인 kernel이며, 유체 역학 및 기후 모델링과 같은 분야의 시뮬레이션에 필수적입니다. 그러나,…
시스템 설계와 구현은 개발 팀 내에서 서로 다른 사람이 수행하는 경우가 많으며, 몇 주 또는 몇 달 차이로 이루어질 수 있다.
분산 머신러닝은 종종 신뢰할 수 없는 워커 노드에 그래디언트 평가와 같은 계산을 외주하는 데 의존합니다. 기존의 강인한 집계 방법은...
Model Context Protocol (MCP)은 LLM 에이전트와 외부 도구 사이의 인터페이스 계층으로 빠르게 자리 잡았지만, 동시에 존재하는 안전하지 않은 데이터 흐름을 도입하기도 합니다...
코드 수준 취약점(예: 자동 분석기에 의해 발견된 경우)을 평가할 때는 잠재적 영향을 해당 상황의 맥락에서 고려하는 것이 필수적이다.
Automated vulnerability detection in critical‑infrastructure software는 근본적인 장벽에 직면합니다: industrial software는 일반적으로 stripped, sy… 형태로 배포됩니다.
에이전시 AI 시스템은 점점 도구, 서브 에이전트, 외부 서비스 등을 통해 작동하지만, 거버넌스 제어는 여전히 프롬프트와 대시보드 등에 일반적으로 연결되어 있다.
AI 중심 가속기에 대한 투자가 증가하고 슈퍼컴퓨팅 시설에 대한 배치가 확대됨에 따라, 이러한 아키텍처가 효율적으로 …
대규모 언어 모델(LLMs)의 장기 컨텍스트 학습은 일반적으로 Context Parallelism(CP)와 Head Parallelism(HP)으로 분산되지만, 기존 학습 시스템은…
대형 언어 모델(LLMs)은 추천을 순위 매기기에서 생성 작업으로 전환하고 있지만, 산업 현장 배포는 높은 지연 시간 때문에 제한되고 있습니다.
뇌전도(EEG)는 뇌-컴퓨터 인터페이스와 임상 신경과학의 핵심이지만, 딥러닝 모델은 일반적으로 훈련되고 평가됩니다.
우리는 정확한 의미에서, 광범위한 클래스의 피드포워드 신경망이 PAC 모델에서 학습한다(유한 샘플 복잡도를 가진다)는 것을 보여준다: 모든 고정된 유한 피드포워드 신경망…
현대 Mixture-of-Experts (MoE) 아키텍처는 전문가 용량을 엄격한 레이어별 규칙을 통해 할당한다: 각 transformer 레이어는 별개의 전문가 집합을 가진다. 이 c...
Large language models은 일반적으로 monolithic 시스템으로 배포되며, 애플리케이션이 좁은 범위의 기능만 필요하더라도 전체 모델을 요구합니다, 예를 들어…
대형 언어 모델(LLMs)은 과학 및 수학 문제를 해결하는 데 강력한 능력을 보여주지만, 유효하고 도전적인 …
최근 연구에 따르면 large-scale video diffusion models를 먼저 비디오를 intrinsic scene representations로 분해함으로써 neural renderers로 재활용할 수 있음이 밝혀졌다.
쌍별 인간 피드백을 통한 LLM 순위 매기기는 창의적 글쓰기와 문제 해결과 같은 개방형 작업에 대한 현재 리더보드의 기반이 됩니다. 우리는 약 89K comp...
Optimizers는 대규모 언어 모델(LLMs)을 학습할 때 사전 학습(pretraining) 및 미세 조정(finetuning) 단계 모두에서 중요한 역할을 합니다. 본 논문에서는 관찰을 제시합니다.
많은 배포에서는 관련 언어, 분야, 혹은 규제 체계에 대한 라벨이 붙은 benchmark가 존재하기 전에 후보 candidate language model들의 안전성을 비교해야 합니다. 우리는...
우리는 AI co-mathematician을 소개합니다, 이는 수학자들이 AI agents를 인터랙티브하게 활용하여 open-ended research를 수행할 수 있는 워크벤치입니다. AI co-mathematician ...
검증 가능한 보상을 이용한 강화 학습(RLVR)은 결정론적 검증 덕분에 추론 능력을 향상시키는 주요 패러다임이 된다.
Retrieval-augmented agents는 대규모 조직 지식 베이스에 대한 인터페이스로 점점 더 많이 사용되고 있지만, 대부분은 여전히 retrieval을 블랙 박스로 취급합니다: they issue exp...
Venn‑Abers predictors는 유효성의 매력적인 특성을 갖는 확률적 예측기이지만, 주요 제한점은 오직 t…에만 적용 가능하다는 것이다.
형광 단백질 quantum yield (QY)는 서열 정체성만이 아니라 성숙한 chromophore와 그 three-dimensional microenvironment에 의해 결정됩니다. Pro...
멀티모달 도메인 일반화(MMDG)가 모델 견고성을 향상시키기 위해 점점 인기를 얻고 있음에도 불구하고, 보고된 성능 향상이 실제로 ...
Large language models (LLMs)은 점점 더 인터랙티브 에이전트로 사용되고 있지만, 장기 의사결정을 위해 이를 최적화하는 것은 현재… 때문에 여전히 어렵다.
세라믹 유약을 개발하는 것은 복잡한 화학 때문에 비용이 많이 들고 시간도 많이 소요되는 시행착오 과정이며, 이는 독립 아티스트에게 큰 부담을 줍니다. ...
우리는 Recursive Agent Optimization (RAO)이라는 강화 학습 접근법을 도입한다. 이는 재귀 에이전트(recursive agents)를 훈련하기 위한 방법으로, 재귀 에이전트는 하위 작업을 spawn하고 delegate할 수 있다.
사람 재식별(person re-identification)이 눈에 띄는 진전을 이루었지만, 장애물에 의해 발생하는 가림(occlusion)은 실제 적용에서 아직 해결되지 않은 문제로 남아 있다. 어려움은...
대규모 언어 모델(LLMs)은 수백 개의 웹 소스에서 정보를 종합하여 인용된 보고서로 만드는 딥 리서치 에이전트를 구동하지만, 이러한 인용은 …
우리는 두 개의 domain-adapted 모델 간의 agreement를 활용하여 제2언어(L2) 한국어 morphosyntactic annotation을 위한 간소화된 human-in-the-loop 워크플로우를 제안한다.
대규모 언어 모델(LLM) 기반 멀티에이전트 시스템(MAS)은 복잡한 협업 작업을 해결하는 데 가능성을 보여주었으며, 여기서 에이전트는 일반적으로 조정됩니다.
Sparse Autoencoders (SAEs)는 메커니즘 해석에서 중요한 도구가 되었으며, Large Language Models (LLMs)에서 내부 표현을 분석하는 데 도움을 줍니다.
Contrastive language-image pretraining (CLIP)은 두 가지 구조적 약점이 있다: 대칭적인 InfoNCE loss는 일치하지 않는 쌍들 사이의 상대적 순서를 무시한다...