[Paper] SCRAPL: 머신러닝을 위한 랜덤 경로 기반 Scattering Transform
wavelet scattering transform 계수(경로라고도 함) 사이의 Euclidean distance는 perceptual quality assessment를 위한 informative gradients를 제공합니다.
wavelet scattering transform 계수(경로라고도 함) 사이의 Euclidean distance는 perceptual quality assessment를 위한 informative gradients를 제공합니다.
Unified Multimodal Models (UMMs)는 시각 생성에서 눈에 띄는 진전을 보여주었습니다. 그러나 기존 벤치마크는 주로 Crystallized Intelligence를 평가하며, w...
Projections (또는 dimensionality reduction) 방법 P는 고차원 데이터를 일반적으로 2D scatterplots으로 매핑하여 visual exploration을 목표로 합니다. Inverse projection 메...
Tabular foundation models(예: TabPFNv2 및 TabICL)는 최근 예측 벤치마크에서 gradient-boosted trees를 제치고 최고 자리를 차지했으며, 그 가치를 입증하고 있습니다.
대형 언어 모델(LLM) 개발에서 지배적인 패러다임은 베이스 모델을 사전 학습(pretrain)한 뒤, 성능과 모델을 개선하기 위해 추가 학습을 수행하는 것입니다.
Diffusion 언어 모델은 텍스트를 반복적인 정제 과정을 통해 생성합니다. 이 과정은 많은 토큰이 안정 상태에 도달하기 전까지 여러 번 업데이트가 필요하기 때문에 계산 효율성이 낮은 경우가 많습니다. 기존 방법에서는 각 토큰이 완전히 수렴할 때까지 여러 단계의 디퓨전 과정을 거치며, 이는 전체 생성 시간과 비용을 크게 증가시킵니다. 최근 연구들은 이러한 비효율성을 완화하기 위해 토큰 수준에서의 동적 스케줄링, 조기 종료 전략, 그리고 부분적인 샘플링 기법을 도입하고 있습니다. 예를 들어, 토큰이 일정 기준 이상의 확신도를 보이면 해당 토큰에 대한 추가 디퓨전 단계를 건너뛰고, 남은 불확실한 토큰에만 집중하는 방식이 제안되었습니다. 또한, 모델이 학습 단계에서 다양한 노이즈 레벨에 대한 복원 능력을 동시에 습득하도록 설계함으로써, 추론 시에 한 번의 전방 패스로 여러 디퓨전 단계의 효과를 모방할 수 있는 방법도 연구되고 있습니다. 이러한 접근법들은 전통적인 디퓨전 기반 텍스트 생성의 계산 복잡성을 크게 낮추면서도, 품질 면에서는 기존 방법과 비슷하거나 더 나은 성능을 보이는 결과를 보여주고 있습니다.
대규모 멀티모달 모델의 급속한 발전과 함께, 신뢰할 수 있는 judge 및 critic 모델은 개방형 평가와 preference alignment에 필수적이 되었습니다.
자동으로 에이전트 워크플로우를 생성하는 것—추론, 검증 및 수리를 조정하는 실행 가능한 연산자 그래프 또는 코드—은 실용적인…
Misinformation detection은 외부 지식의 통합으로부터 크게 이익을 얻을 수 있는 중요한 작업이며, 이는 manual fact‑checking과 매우 유사합니다. In this w...
제가 만든 Archlyze는 브라우저 전용 SPA로, Google Gemini를 사용해 Rust, Python, JS/TS, Go 등 다양한 소스 코드를 분석합니다. 이는 컴포넌트와 의존성을 추출합니다.
명시적 체인오브생각(예: GRPO)을 위한 강화학습(RL) 기반 사후 학습은 멀티모달 대규모 추론 모델의 추론 능력을 향상시킨다.
Biometric footstep recognition은 걷는 동안 발 아래에 나타나는 사람 고유의 압력 패턴을 기반으로 하는 생체인식 기술로, 응용 분야가 확대되고 있는 신흥 분야입니다.
대규모 언어 모델(LLMs)은 강력한 일반 추론 및 언어 이해를 보여주지만, 그들의 성능은 엄격한 형태…
우리는 경량이면서 효율적인 프레임워크인 PuriLight를 제안한다. 이는 self-supervised monocular depth estimation을 위한 것으로, 계산 효율성의 이중 과제에 대응한다.
Multi-task policy search는 정책이 훈련 사례를 넘어 일반화해야 하기 때문에 어려운 문제입니다. Curriculum learning은 효과적인 것으로 입증되었습니다.
모든 RecSys 작업이 동일하게 만들어진 것은 아니다. 업계의 아웃라이어들이 우리에게 추천 시스템에 대한 정의를 왜곡시켰다. TikTok, Spotify, 그리고 Netflix는 하이브리드…
프로젝트 개요 James J. Collins, MIT의 Termeer Professor of Medical Engineering and Science이며 Abdul Latif Jameel Clinic for Mac…
최근 연구에 따르면, LLM을 적절히 프롬프트하고 구성하면 혼합된 결과를 보여줍니다. 이러한 결과는 종종 기준을 충족하거나 초과합니다...
소프트웨어 취약점 탐지(SVD)는 현대 시스템에서 중요한 과제입니다. 대형 언어 모델(LLMs)은 자연어 설명을 제공하면서 사전...
제가 만든 MemCP는 Claude Code에 연결되는 MCP 서버입니다. /compact 명령을 사용할 때 컨텍스트 손실을 방지하고 구조화된 메모리 시스템을 제공합니다. N...
우리는 모두 그런 경험을 해봤습니다. 프롬프트를 다듬는 데 45분을 보냅니다. 다음과 같이 추가합니다: - “Think step by step.” - “Be logically consistent.” - “Double‑check your reasoning.” You...
소개 우리가 AI 시스템에 대해 이야기할 때, 우리는 종종 모델, training data, 그리고 performance metrics에 초점을 맞춥니다. 그 모든 것 아래에는 더 근본적인 것이 있습니다...
대규모 언어 모델(LLM) 에이전트는 교육 개발에 대한 체계적인 접근법인 교육 시스템 설계(ISD)를 자동화하는 데 유망한 잠재력을 보여주었습니다.
{ 'title': 'Machine Learning 기본 마스터하기', 'content': ' 소개nMachine learning은 빠르게 발전하는 분야로, ...' }
대다수의 뇌‑컴퓨터 인터페이스 연구가 신경 신호를 행동이나 의도로 해독하는 데 초점을 맞춘 반면, 반대 과제인 제어된 자극을 사용하여…
Hierarchical Agglomerative Clustering (HAC)은 가장 가까운 클러스터 쌍을 반복적으로 병합하는 방식에 기반한 널리 사용되는 클러스터링 방법으로, 클러스터 간 거리…
 https://www.koreatec...
Retrieval‑Augmented Generation(RAG) 개요 RAG는 단일 청사진에서 시작해, 각각 특정 성능에 맞게 조정된 다양한 아키텍처 생태계로 성장했습니다.
개요 구글은 Fitbit의 AI 개인 건강 코치 공개 프리뷰가 현재 미국의 iOS 사용자에게 롤아웃되고 있으며, 또한 양쪽...
Realfood.gov 사이트는 Elon Musk의 Grok 챗봇을 사용해 영양 정보를 제공하는데, 그 중 일부는 정부의 새로운 가이드라인과 모순됩니다....
Solid State Drives (SSDs)는 데이터센터, 소비자 플랫폼 및 미션 크리티컬 시스템에 필수적입니다. 그러나 그들의 성능과 신뢰성을 진단하는 것은 dif...
LLM 기반 진화 계산의 최근 발전, 특히 AlphaEvolve는 새로운 수학적 구조를 발견하는 데 놀라운 성공을 보여주었습니다.
대형 언어 모델(LLMs)은 종종 설득력 있게 보이는 사고 흐름(chain-of-thought, CoT) 추론 흔적을 제공하지만, 내부 편향을 숨길 수 있습니다. 우리는 이를 *unverbali...
실제 세계에서 embodied agents를 위한 데이터 수집은 비용이 많이 들고 위험하기 때문에 확장 가능하고 현실적이며 simulator-ready 3D environments가 필요합니다. 그러나 기존…
Multiple rotation averaging (MRA)는 3D 비전 및 로보틱스 분야에서 전역적으로 일관된 절대 회전을 복구하는 것을 목표로 하는 기본적인 최적화 문제입니다.
액션 라벨의 부족으로 인해 action-controllable world models의 확장이 제한됩니다. latent action learning은 제어 인터페이스를 u...
라벨이 없는 비디오 데이터에서 transferable knowledge를 학습하고 이를 새로운 환경에 적용하는 것은 intelligent agents의 기본적인 능력이다. This work prese...
Data privacy와 eXplainable Artificial Intelligence (XAI)는 현대 Machine Learning 시스템에 있어 두 가지 중요한 측면입니다. Data privacy를 강화하기 위해, 최근 ...
표현 인코더(representation encoders)를 활용한 생성 모델링(generative modeling)은 효율적이고 고충실도(high-fidelity) 합성을 위한 경로를 제공합니다. 그러나 표준 디퓨전 트랜스포머(diffusion transformers)는 …
인터넷 규모의 비디오에서 Vision‑Language‑Action (VLA) 정책을 사전 학습하는 것은 매력적이지만, 현재의 latent‑action 목표는 종종 잘못된 것을 학습한다: they r...
우리는 개별 학습 예제가 루프된 트랜스포머의 내부 연산을 어떻게 형성하는지 연구한다. 여기서 공유 블록이 τ 반복적인 반복에 적용되어 e…
Language models는 기술 논문을 요약하고 이론적 개념을 설명하는 등 양자 컴퓨팅 교육 및 연구에 실용적인 도구가 되었습니다.
우리는 Forensim이라는 attention‑based state‑space 프레임워크를 도입하여 이미지 위조 탐지에서 조작된(타깃) 영역과 소스 영역을 동시에 위치 지정한다....
Out-of-distribution (OOD) detection은 machine learning 시스템을 안전하게 배포하기 위해 중요합니다. 기존의 post-hoc detectors는 일반적으로 model confidence에 의존합니다.
도전 과제: 수백만 개의 엔터티를 가진 대규모 지식 그래프를 효율적으로 처리할 수 있는 Temporal Graph Neural Network(T‑GNN) 아키텍처를 설계하십시오.
대형 언어 모델(LLMs)은 종종 불필요하게 장황한 Chain-of-Thought (CoT) 추론을 생성하여 계산 비용과 지연 시간을 증가시키지만, ...
효율적인 탐색은 특히 보상이 희소한 환경에서 강화학습(RL)의 중심 과제로 남아 있습니다. 우리는 Optimistic World Mode…
RAG TREC Instrument for Multilingual Evaluation (RAGTIME) 트랙의 주요 목표는 다국어 소스 문서에서 보고서 생성을 연구하는 것입니다.