[Paper] Seedance 2.0: 세계 복잡성을 위한 비디오 생성의 진보
Seedance 2.0는 2026년 2월 초에 중국에서 공식 출시된 새로운 네이티브 멀티모달 오디오-비디오 생성 모델입니다. 이전 모델들과 비교했을 때, Seed...
Seedance 2.0는 2026년 2월 초에 중국에서 공식 출시된 새로운 네이티브 멀티모달 오디오-비디오 생성 모델입니다. 이전 모델들과 비교했을 때, Seed...
멀티모달 대형 언어 모델(MLLMs)을 기반으로 하는 기존 세그멘테이션 모델, 예를 들어 LISA와 같은 모델은 새로운 또는 떠오르는 엔터티에 대해 종종 어려움을 겪는다. 이는 그들의 능력 부족 때문이다.
3차원 장면에 대한 Spatial reasoning은 embodied intelligence의 핵심 역량이지만, 지속적인 model improvement는 여전히 computational cost 때문에 병목 현상이 발생한다.
강화 학습과 검증 가능한 보상(RLVR)은 조건부 분포 P(y|x)를 최적화함으로써 LLM 추론을 크게 향상시키지만, 그 잠재력은…
스트리밍 3D 재구성은 비디오 스트림으로부터 카메라 포즈와 포인트 클라우드와 같은 3D 정보를 복원하는 것을 목표로 하며, 이는 기하학적 정확성을 필요로 한다, t...
language models가 복잡한 autonomous tasks에 점점 더 많이 배치됨에 따라, 더 긴 horizon에 걸쳐 정확하게 reasoning할 수 있는 능력이 중요해지고 있습니다. An essentia...
LLM을 평가하는 것은 어려운 일이며, 벤치마크 점수는 모델의 실제 활용도를 포착하지 못하는 경우가 많다. 대신 사용자들은 종종 “vibe‑testing”에 의존한다: 비공식적인…
우리는 풀에서 발생하는 블록 위드홀딩 공격, 특히 최신 기술인 Power Adjusting Withholding (PAW) 공격을 고려한다. 우리는 일반화를 제안한다.
최근 몇 년간 Audio-Visual Language Models (AVLMs)는 눈에 띄는 진전을 이루었지만, 그 신뢰성은 cross-modal hallucination에 의해 병목 현상이 발생하고 있다.
수사적 질문은 정보를 얻기 위해서가 아니라 설득하거나 입장을 표시하기 위해 제기됩니다. 대규모 언어 모델이 이를 내부적으로 어떻게 표현하는지는 아직 명확하지 않습니다. 우리는...
엔드-투-엔드 Vision-Language-Action (VLA) 모델은 로봇 매니퓰레이션을 위한 유망한 패러다임을 제공하지만, 좁은 제어 데이터에 대해 파인튜닝을 하면 종종 …
요약 게시일: 2026년 4월 15일 오전 10시 46분 PDT · !Glydways autonomous pod https://techcrunch.com/wp-content/uploads/2026/04/Glydways-autonomous.jpeg?w=1024 이미지...
개요: Google이 새로운 네이티브 macOS 앱으로 Gemini를 Mac에 도입합니다. 오늘부터 이용 가능하며, Gemini for Mac은 키보드 단축키로 활성화할 수 있습니다.
2024년 9월, Amandla Thomas‑Johnson은 학생 비자를 가지고 미국에서 공부하고 있는 박사 과정 후보였으며, 짧게 친팔레스타인 시위에 참석했습니다. In Ap...
LLM 추론 트레이스는 복잡한 결함을 겪는다 — *Step Internal Flaws* (논리적 오류, 환각 등)와 *Step-wise Flaws* (과도한 사고, 부족한 사고…)
Android 게임 딜 - Armed Emeth RPG - This Ain’t Even Poker - Ya Joker - RPG Dragon Takers - Psychofunk - Sentinels of Earth‑Prime - Dragon Spira - …그리고 더 많은 게임
Large Language Models (LLMs)가 AI 연구 에이전트에게 고립된 과학 작업을 수행할 수 있는 힘을 부여했지만, LLM과 같은 복잡하고 실제적인 워크플로우를 자동화하는 데는…
Sequential recommendation은 학계와 산업계 모두에서, 특히 전자상거래 분야에서 점점 더 두드러지고 있습니다. 주요 목표는 사용자 선호…
업데이트 – 2024년 4월 15일 오후 2시 08분 ET 최근 Claude 상태 페이지 https://mashable.com/article/antropic-pulls-mythos-ai-security-flaws 업데이트에서 “Thi...
GUI grounding은 자연어 쿼리를 제공받아 스크린샷에서 인터페이스 요소를 위치 지정하는 작업으로, 작은 아이콘과 밀집된 레이아웃에서는 여전히 어려움을 겪는다. Test-t...
대형 언어 모델(LLMs)은 이제 매우 유창하고 인간과 같은 텍스트를 생성할 수 있습니다. 이들은 많은 응용 프로그램을 가능하게 하지만, 대규모 …
최근 연구에 따르면 (stochastic) gradient descent가 불안정성 경계 근처에서 자체 조직화되어 최적화와 발견된 솔루션 모두를 형성한다. Momentum...
가격 인상은 $200에서 $300 사이이며, Microsoft는 이제 $1,000 이하의 Surface를 판매하지 않는다. 소비자 기술 비용 상승은 2026년의 공통된 주제다.
!https://www.androidauthority.com/wp-content/uploads/2025/12/samsung-galaxy-s25-iphone-16-hero-scaled.jpg Joe Maring / Android Authority TL;DR - 갤럭시 폰 ow...
개요: Emergent(https://app.emergent.sh/landing/)는 인도 스타트업으로, vibe‑coding 플랫폼으로 알려져 있으며 Wingman이라는 메시징‑first 자율 AI를 출시했습니다.
언어 모델의 사후 적응은 일반적으로 parameter updates 또는 fine-tuning, parameter-efficient adaptation과 같은 입력 기반 방법을 통해 이루어집니다.
개요: Google은 Gemini AI 어시스턴트를 데스크톱 컴퓨터로 확장하고 있습니다. Gemini Windows 앱을 출시한 후, 회사는 m용 네이티브 Gemini 앱을 출시했습니다.
우리는 UMI-3D를 소개한다. 이는 Universal Manipulation Interface(UMI)의 다중모달 확장으로, 구현된 조작에서 견고하고 확장 가능한 데이터 수집을 위해 설계되었다. While ...
프론트엔드가 복잡하게 느껴졌던 이유 - 여러 개의 뚜렷한 파트 - 각 레이어는 명확한 책임을 가짐 - 경계가 쉽게 식별됨 현대 프론트엔드에서 무엇이 바뀌었는가...
공지: Allbirds가 오늘 아침 깜짝 발표를 했습니다. 지속 가능한 신발 사업에서 AI 컴퓨트 인프라로 전환하며, NewBird AI로 리브랜딩합니다.
상원은 2025년 트럼프 행정부에 의해 폐지된 무료 세금 신고 서비스인 IRS Direct File을 부활시킬 법안에 대한 투표를 준비하고 있다. On W...
개요: 나는 지난주에 비잔틴 결함 허용성에 관한 기사를 읽었다. 세 번째 단락에서 “quorum‑based consensus”라는 구절을 마주했는데, 이는 손짓으로는 표현할 수 있지만 정확히 이해하기는 어려웠다.
배경: 저는 달리기 레이스를 위한 소셜 + 이벤트 플랫폼인 RunHop을 공개적으로 구축하고 있습니다. 오늘은 Reactions 모듈, 즉 게시물에 대한 likes 기능을 작업했습니다. 모듈 자체는…
On-policy knowledge distillation (OPD)은 교사로부터 토큰 수준의 감독 하에 학생이 자신의 롤아웃에서 학습하도록 합니다. 모든 토큰 위치가 동일하게 중요한 것은 아닙니다.
기사 - URL: https://wherethefuckdidmytaxesgo.com/ - 점수: 63 - 댓글: 94 - 토론: https://news.ycombinator.com/item?id=47781864...
개요: Magento / Adobe Commerce의 스코프 상속은 강력하지만, 일상적인 관리자 워크플로우에서는 하위 스코프 오버라이드가 쉽게 놓칠 수 있습니다. 팀은 종종 값을 저장…
!https://www.androidauthority.com/wp-content/uploads/2026/04/tiny-e-reader-.jpg YouTube / Paul Lagier TL;DR - 한 YouTuber가 3D‑printer를 사용해 tiny e‑reader를 제작했습니다.
우리는 Multistage Conditional Compositional Optimization (MCCO)를 불확실성 하에서 의사결정을 위한 새로운 패러다임으로 소개한다. 이 접근법은 다단계…
Semantic Multi-Object Tracking (SMOT)은 비디오 요약, 인스턴스 수준 캡션, 상호작용 라벨과 같은 의미론적 출력을 제공함으로써 다중 객체 추적을 확장합니다.
참조를 해결하고 재작성하는 것은 프로그래밍 언어에서 기본적인 작업입니다. 실제 디컴파일 작업에서 영감을 받아, 우리는 참조 재작성을 t…
Human-Object Interaction (HOI) detection은 인간과 객체 간의 상호작용을 예측하는 것을 목표로 하는 오랜 컴퓨터 비전 문제입니다. 현재…
!https://9to5google.com/wp-content/uploads/sites/4/2026/04/X300-Ultra-1.jpg?quality=82&strip=all&w=1600 중국 출시 이후, Vivo X300 Ultra가 이제 공식 출시되었습니다.
TL;DR - YouTube의 최신 실험은 더 많은 게시물을 …
!https://9to5google.com/wp-content/uploads/sites/4/2026/03/motorola-razr-fold-5.jpg?quality=82&strip=all&w=1600 Motorola는 첫 번째 책‑시리즈를 출시할 준비를 하고 있습니다.
나는 10년 넘게 self‑driving cars에 대해 보도해 왔으며, 그 기술이 수많은 기복을 겪는 것을 목격했습니다. 하지만 한 가지는 변하지 않았습니다.
해고 개요: Snap은 약 1,000명의 직원을 해고하고 있으며, 이는 전체 인력의 16%에 해당합니다. 이 인원은 AI로 대체될 것으로 보입니다. 이번 감원은 발표되었습니다.
개요: Gemini가 이제 네이티브 Mac 앱을 제공하며, markin…
아마존은 작은 위성 회사에 110억 달러 이상을 지불하고 있습니다....