[Paper] Squint: 시뮬레이션-실제 로보틱스를 위한 빠른 비주얼 강화학습
시각 강화 학습은 로봇공학에 매력적이지만 비용이 많이 듭니다 — 오프-폴리시 방법은 샘플 효율적이지만 느리고, 온-폴리시 방법은 병렬화가 잘 되지만…
시각 강화 학습은 로봇공학에 매력적이지만 비용이 많이 듭니다 — 오프-폴리시 방법은 샘플 효율적이지만 느리고, 온-폴리시 방법은 병렬화가 잘 되지만…
우리는 모든 모달리티에서 late interaction을 위한 효율적인 multi-vector retrieval을 연구한다. late interaction은 정보 검색에서 지배적인 패러다임으로 부상했다.
Embodied LLMs는 로봇에 고수준 작업 추론 능력을 부여하지만, 무엇이 잘못됐는지 혹은 그 이유를 반성할 수 없으며, 이로 인해 배포가 일련의 독립적인 …
Transformer 모델을 사용하여 긴 시퀀스를 효율적으로 처리하려면 일반적으로 컨텍스트 병렬성을 통해 가속기들 간에 계산을 분할해야 합니다. The domin...
Cryo-electron tomography (cryo-ET)는 막과 membrane proteins를 포함한 생물학적 구조의 고해상도 three-dimensional reconstruction을 가능하게 한다.
대규모 언어 모델의 terminal capabilities에 대한 최근의 급속한 진전에도 불구하고, 최첨단 terminal agents 뒤에 있는 training data strategies는 여전히…
우리는 최근 ~cite{CKKMS24}에 의해 도입된 smoothed agnostic learning의 복잡성을 연구한다. 여기서 learner는 목표 …에서 가장 좋은 classifier와 경쟁한다.
Pass@k는 수학적 추론, 코드 생성, 짧은 답변 추론 등을 포함한 검증 가능한 대규모 언어 모델 작업에 널리 사용되는 성능 지표입니다.
Vision-Language Models (VLMs)는 뛰어난 2D 시각 이해를 보여주지만, 3D 공간을 이해하고 추론하는 능력—공간 인식의 핵심—은 아직 제한적이다.
Uniform-state discrete diffusion models는 자체 교정 능력 덕분에 few-step generation 및 guidance에서 뛰어나며, autoregressive 모델보다 선호됩니다.
아일랜드 영화감독 루아리 로빈슨이 Seedance 2.0—TikTok 개발사 ByteDance의 최신 video‑generation mode로 만든 일련의 짧은 클립을 업로드하기 시작했을 때...
그래프 기반 의료 영상 분할은 경계 그래프를 사용하여 해부학적 구조를 나타내며, 고정 토폴로지 랜드마크와 고유한 인구 수준…
Deep learning은 자동 뇌종양 진단을 크게 향상시켰지만, 임상 적용은 interpretability와 computational constraint 때문에 여전히 제한적이다.
텍스트-이미지 검색은 비전-언어 학습에서 기본적인 작업이지만, 실제 상황에서는 짧고 불명확한 사용자 질의 때문에 종종 어려움을 겪는다.
Vision-Language-Action (VLA) 모델은 모듈식 파이프라인을 통합된 엔드투엔드 아키텍처로 대체함으로써 자율 주행을 발전시키고 있다. 그러나 현재 VLAs…
Counterfactual inference은(는) 임상의가 환자 결과에 대해 ‘what if’ 질문을 할 수 있게 해 주지만, 표준 방법은 특성 독립성과 동시성을 가정합니다…
환자가 직접 생성한 텍스트인 secure messages, surveys, interviews 등은 patient voice (PV)의 풍부한 표현을 담고 있으며, 의사소통 행동을 반영한다...
안전이 중요한 분류에서는 실패 비용이 종종 비대칭적이지만, Bayesian deep learning은 epistemic 불확실성을 단일 스칼라인 μ로 요약한다.
Large language models (LLMs)은 점점 더 다단계 의사결정 에이전트로 배치되고 있으며, 효과적인 보상 설계는 학습을 안내하는 데 필수적입니다. Al...
소개 안녕하세요 HN! 저는 Prithvi입니다—공동 창업자인 Frances와 저는 거의 1년 전 여기서 Promptless를 시작했습니다: . 이것은 여러분의 workflows—code 등을 감시하는 AI teammate입니다.
Selective state space models (SSMs)은 특히 long-context workloads에 대해 large language models의 강력한 백본으로 빠르게 부상하고 있습니다. Yet in deploymen...
고급 추론은 일반적으로 Chain-of-Thought 프롬프트를 필요로 하는데, 이는 정확하지만 과도한 latency와 상당한 test-time inference 비용을 초래합니다.
생성형 AI 음악 도구 ProducerAI가 Google Labs의 일부가 될 것이라고 회사가 화요일에 발표했습니다. The Chainsmokers가 지원하는 ProducerAI 플랫폼 l...
의료 영상 처리는 고차원 부피 데이터, 이질적인 파일 형식, 그리고 도메인 특화 훈련을 처리할 수 있는 특수 소프트웨어를 요구합니다.
Oura는 화요일에 자체 최초 AI 모델을 출시하여 AI 챗봇인 Oura Advisor가 여성 관련 맞춤형 인사이트를 제공하도록 할 것이라고 발표했습니다.
AI agents의 역량을 software development에 완전히 활용하려면 software ecosystem 자체에 대한 재고가 필요합니다. 이를 위해 이 논문은 …
Internet measurement은 두 가지 과제에 직면해 있습니다: 복잡한 분석은 도구들의 expert-level orchestration을 필요로 하지만, 구문적으로 올바른 implementations이라 하더라도 …
라벤더 배경의 Oura 앱
공지: 우리는 Arvind KC를 OpenAI의 Chief People Officer로 맞이하게 되어 기쁩니다. KC는 engineering 깊이와 people leadership이라는 드문 조합을 가지고 있습니다....
확산 모델이 어떻게 작동하는지 궁금해 본 적 있나요? 프롬프트를 입력하면 마법처럼 몇 초에서 몇 분 안에 사진이나 비디오가 생성됩니다. Forward Diffusion Di...
TL;DR - Google이 NotebookLM에서 배너 이미지 기능을 테스트하고 있습니다.
‘What is an Interpretable LLM and Why It Matters?’의 표지 이미지 https://media2.dev.to/dynamic/image/width=1000,height=420,fit=cover,gravity=auto,format=auto/ht...
AI 사전은 계속해서 커져만 가고 있다 작성자: Alex Perry https://mashable.com/author/aperry – Tech Reporter 2026년 2월 24일 게시! Alex Perry – M...
표지 이미지: PromptPromptCache Part I: 동일한 LLM 답변에 대해 두 번 지불하지 않기 https://media2.dev.to/dynamic/image/width=1000,height=420,fit=cover,gravity=...
번역할 텍스트를 제공해 주시겠어요? 텍스트를 알려주시면 한국어로 번역해 드리겠습니다.
!소상공인 매장 업무 효율화 AI 솔루션 ‘모코플렉스’, AI 헤어 스타일링 ‘스타일싱크’ 출시https://besuccess.com/wp-content/uploads/2026/02/%EC%9D%B4%EB%AF%88%EC%A7%80-%EB%A8%8C%EC%86%8C...
AI 헤어 스타일링 솔루션 ‘스타일싱크’ 출시 소상공인 매장 업무 효율화 AI 솔루션 기업 모코플렉스가 AI 기반 헤어 스타일링 솔루션 ‘스타일싱크’를 정식...
Federated Learning (FL)은 다수의 클라이언트가 협력하여 전역 Machine Learning (ML) 모델을 ...
markdown 2026년 1월 29일
작성자: Guide Labs Team 게시일: 2026년 2월 23일 우리는 Steerling‑8B를 발표합니다. 이는 생성하는 모든 토큰을 해당 토큰의 i…에 추적할 수 있는 최초의 해석 가능한 모델입니다.
AI‑Generated Code의 거버넌스 과제 > 에이전시 코딩 웨이브를 지켜보는 모든 엔지니어링 리더는 결국 같은 질문에 직면하게 될 것이다: 만약 AI…
Foundation Models는 기본 도구가 필요합니다. LLM은 모든 일을 할 수 없으며—할 수 없습니다. 그들이 하는 일은 매우 인상적이고 유용합니다: 범위가 넓고, 종종 인간과 유사하며, 강력합니다.
퍼스널 어시스턴트를 고용할 수 있었던 것이 경영진과 연예인들만의 특권이었을 때를 기억하시나요? 그 시절은 빠르게 사라지고 있습니다. AI가 조용히 …
TL;DR: PromptBuilder AI Prompt Engineer Pro Plan의 평생 구독으로 AI 워크플로우를 혁신하세요—현재 $99에 판매 중입니다. PromptBuilder가 무엇인가요? PromptBu...
통합 멀티모달 모델은 단일 아키텍처 내에서 시각적 콘텐츠를 이해하고 생성할 수 있습니다. 기존 모델들은 그러나 여전히 data-hungry하고 너무 …
우리는 tttLRM이라는 새로운 대형 3D 재구성 모델을 제안한다. 이 모델은 Test-Time Training (TTT) 레이어를 활용하여 장기간 컨텍스트와 자동 회귀(autoregressive) 3D 재구성을 가능하게 한다.
LLM 에이전트는 코드 실행, 도구, 그리고 최근에 도입된 에이전트 스킬 기능에 의해 빠르게 진화하고 있습니다. 스킬은 사용자가 LLM 애플리케이션을 확장할 수 있게 합니다.