[Paper] 학습 없이 시맨틱 멀티-오브젝트 트래킹 with Vision-Language Models
Semantic Multi-Object Tracking (SMOT)은 비디오 요약, 인스턴스 수준 캡션, 상호작용 라벨과 같은 의미론적 출력을 제공함으로써 다중 객체 추적을 확장합니다.
Semantic Multi-Object Tracking (SMOT)은 비디오 요약, 인스턴스 수준 캡션, 상호작용 라벨과 같은 의미론적 출력을 제공함으로써 다중 객체 추적을 확장합니다.
참조를 해결하고 재작성하는 것은 프로그래밍 언어에서 기본적인 작업입니다. 실제 디컴파일 작업에서 영감을 받아, 우리는 참조 재작성을 t…
Human-Object Interaction (HOI) detection은 인간과 객체 간의 상호작용을 예측하는 것을 목표로 하는 오랜 컴퓨터 비전 문제입니다. 현재…
알고리즘 기반 의사결정에서의 공정성은 종종 예측 공간에서 정의되며, 여기서 예측 성능은 의사결정자(DM) 효용의 대리 지표로 사용된다.
최근 Generative Artificial Intelligence의 발전, 특히 Large Language Models (LLMs)은 자동화 또는 지원에 대한 관심을 크게 높이고 있습니다.
문제: AI 시스템을 24/7로 14개월 동안—이메일 확인, 감정 상태 유지, 창의적 작업 생산—운영하면, 그것이 무언가를 개발하게 되는가...
자동화된 코드 생성은 소프트웨어 엔지니어링에서 지속적인 과제로 남아 있으며, 기존의 multi-agent frameworks는 종종 정적 planning에 의해 제한됩니다.
배경: 메타가 AI 리더보드가 언론에 유출된 소식 이후 내부 “tokenmaxxing” 대시보드를 폐쇄한 지 며칠 뒤, LinkedIn 공동 창업자이자 v…
소프트웨어 공학에서 감성 분석은 소프트웨어 아티팩트에 표현된 감정을 이해하는 데 초점을 둡니다. 이전 연구는 ...의 한계를 강조했습니다.
!GettyImages-1458045238https://content.presspage.com/uploads/1369/3c19652c-e1d6-4b8d-b8cf-f792bbba3da0/1920_gettyimages-1458045238.jpg > “점점 커져가는 …”
ibm-research/VAKRA Viewer • 15일 전 업데이트됨 • 1.33k • 1.35k • 41...
지속적인 외부 입력이 없는 상태에서 self-sustained neural activity는 신경계 역학의 근본적인 특징이며, 그 조건은 ...
소개 우리는 개발자에게 표준화된 인프라스트럭처를 제공하는 Agents SDK(https://developers.openai.com/api/docs/guides/agents)에 새로운 기능을 도입하고 있습니다.
TL;DR - Google이 Gemini Enterprise 내부에 “Agent” 탭을 테스트하고 있습니다. - 새로운 설정을 통해 다양한 워크플로에 맞는 여러 AI 에이전트를 생성, 관리 및 배포할 수 있습니다.
우리는 세계에서 가장 강력한 컴퓨터 활용 AI 중 하나를 구축하고 이를 브라우저에서 직접 접근할 수 있게 만들었습니다. 3월 31일에 우리는 Holo3를 출시했습니다 https://huggin...
본 연구는 단일 누수 적분‑발화(LIF) 뉴런과 학습된 스파이킹 신경망 모두에 대한 가산 노이즈와 곱셈 노이즈의 영향을 조사한다.
강력한 기술을 책임감 있게 사용하는 것은 누가 사용하고 있는지를 아는 것에서 시작됩니다. Identity verification은 남용을 방지하고, 사용 정책을 시행하며, 그리고 …
개요: 온‑디바이스 AI는 수년간 화제였지만, 구글의 최신 움직임은 이를 무시하기 어렵게 만들었습니다. Gemma 4, 구글의 오픈‑소스 모델 패밀리는 이제…
우리는 새로운 end-to-end privacy-preserving 프레임워크를 제안한다. 이 프레임워크는 서로 다른 배포 시나리오에 맞춘 세 가지 효율적인 프로토콜로 구현되며, 입력 …
Travelling thief problem (TTP)은 두 구성 요소 간의 상호 의존성을 포착하는 잘 알려진 다중 구성 요소 최적화 문제이며, tour across…
새롭게 도입된 Orbax와 MaxText의 continuous checkpointing 기능은 모델 … 동안 신뢰성과 성능 사이의 균형을 최적화하도록 설계되었습니다.
대형 언어 모델(LLMs)은 고정된 지식을 가지고 있으며, 특정 시점에 학습됩니다. 소프트웨어 엔지니어링 관행은 빠르게 진행되고 자주 변하며, ...
개요: Agent Development Kit ADK SkillToolset은 AI 에이전트가 필요에 따라 도메인 전문 지식을 로드할 수 있도록 하는 'progressive disclosure' 아키텍처를 도입합니다.
Open-pit mine scheduling은 불확실한 경제적 가치와 동적으로 변하는 자원 용량을 포함하는 복잡한 실제 최적화 문제입니다. Evol...
소개 우리는 13개의 AI 에이전트를 동시에 실행합니다. 소모된 토큰 하나하나는 비용이 듭니다. 일주일 동안 토큰 수가 증가하는 것을 지켜본 후, 우리는 모든 것을 감사하고 disc...
현대 GPU 워크로드, 특히 대형 언어 모델(LLM) 추론은 커널 실행 오버헤드와 거친 동기화 때문에 인터‑커널 ...
LLM API 소개 LLM API는 클라우드 기반 서비스로, 사전 학습된 언어 모델에 대한 접근을 제공하여 개발자가 AI 기능을 통합할 수 있게 합니다...
최근 비디오 생성 분야의 발전은 3D 씬 제작을 위한 새로운 패러다임을 가능하게 합니다: 씬을 탐험하는 것을 시뮬레이션하는 카메라 제어 비디오를 생성하고, 그 후…
대형 언어 모델(LLMs)과 비전-언어 모델(VLMs)은 레이아웃 및 씬 그래프와 같은 중간 구조를 통해 실내 장면을 점점 더 생성하고 있다.
확산 모델이 시각 생성 분야를 장악하고 있지만, 이들은 계산 효율성이 낮아 확산 여부와 관계없이 균일한 계산 노력을 적용한다.
Direct Preference Optimization (DPO)의 효과는 멀티모달 작업에서 중요한 품질 차이를 반영하는 선호 데이터에 달려 있습니다. Exist...
도시 지역은 급속한 urbanization과 climate change에 의해 야기되는 thermal extremes에 점점 더 취약해지고 있습니다. 전통적으로, thermal extremes는 모니터링되어 왔습니다...
시스템 로그의 폭발적인 증가로 스트리밍 압축이 필수적이지만, 기존 로그 이상 탐지(LAD) 방법은 심각한 전처리 오버헤드를 초래한다.
Energy Conserving Descent (ECD) 알고리즘은 최근 (De Luca & Silverstein, 2022)에서 전역 비볼록 최적화 방법으로 제안되었습니다. 기존의 gradient…
Computed tomography (CT) enterography는 염증성 장질환(IBD)을 평가하기 위한 주요 영상 촬영 방법이지만, 가장 적절한 표현 선택은 …
Computer Use Agents (CUAs)는 근본적으로 그래픽 사용자 인터페이스 (GUI) grounding을 사용하여 언어 명령을 실행 가능한 화면 동작으로 변환하지만…
자율 AI 연구는 빠르게 발전했지만, 장기적인 ML 연구 엔지니어링은 여전히 어렵습니다: 에이전트는 작업 이해 전반에 걸쳐 일관된 진전을 지속해야 합니다…
AI-driven 교육 플랫폼은 개인화에서 어느 정도 진전을 이루었지만, 대부분은 정적 적응에 제한됩니다—미리 정의된 퀴즈, 균일한 속도 등.
On-policy distillation (OPD)은 대형 언어 모델의 사후 훈련에서 핵심 기술이 되었지만, 그 훈련 역학은 아직 충분히 이해되지 않는다. This...
On-policy distillation (OPD)는 대형 언어 모델을 위한 효율적인 사후 학습 패러다임으로 부상했습니다. 그러나 표준 OPD는 실시간 교사 추론을 필요로 합니다...
Instruction-tuned large language models는 유용하고 구조화된 응답을 생성하지만, 사소하게 제한될 때 이 유용성이 얼마나 견고한가? 우리는 simpl...
대형 언어 모델(LLMs)은 공공 정책 분야를 포함한 실제 의사결정에 점점 더 통합되고 있습니다. 그러나 그들의 이해 능력은…
소프트웨어의 논리적 취약점은 프로그램 로직의 결함에서 비롯되며, 메모리 안전성보다 더 큰 문제를 일으켜 critical security failures를 초래할 수 있다. Although existing ...
시계열 데이터에서 반사실 결과를 예측하는 것은, 순차적인 치료 결정이 변화하는 환자 상태에 크게 의존하는 경우에 매우 중요하지만 난제이다.
Execution Accuracy (EX)는 자연어를 SQL(NL2SQL)로 변환하는 솔루션의 효과를 평가하는 데 널리 사용되는 지표이며, 점점 신뢰성이 떨어지고 있다.
자율 AI 에이전트는 실험적 도구에서 운영 인프라로 빠르게 전환하고 있으며, 기업 애플리케이션의 80%가 ...
Optical character recognition (OCR)은 비전‑언어 모델의 부상과 함께 빠르게 발전했지만, 평가는 여전히 소수의 클러스터에 집중되어 왔습니다.
Multimodal federated learning은 의료 기관 전반에 걸쳐 프라이버시를 보호하는 협업 모델 학습을 가능하게 합니다. 그러나 근본적인 도전 과제가 발생합니다.