[Paper] TICON: 슬라이드 수준 타일 컨텍스추얼라이저를 이용한 조직병리학 표현 학습
대형 전체 슬라이드 이미지(WSI)에서 작은 타일을 해석하려면 종종 더 큰 이미지 컨텍스트가 필요합니다. 우리는 트랜스포머 기반 타일 표현인 TICON을 소개합니다.
3232 posts from this source
대형 전체 슬라이드 이미지(WSI)에서 작은 타일을 해석하려면 종종 더 큰 이미지 컨텍스트가 필요합니다. 우리는 트랜스포머 기반 타일 표현인 TICON을 소개합니다.
Abstraction and Reasoning Corpus (ARC)와 ARC-AGI와 같은 추론 벤치마크는 인공지능의 발전을 평가하는 데 널리 사용되며 종종 ...
신호와 잡음을 구분하는 것은 실험 과학의 핵심이다. 잘 확립된 통계 방법을 LLM evals에 효과적으로 적용하려면 고려가 필요하다.
우리는 언어 모델에서 병렬 시퀀스 생성을 위한 보편적인 프레임워크인 Parallel Token Prediction (PTP)을 제안한다. PTP는 여러 종속 토큰을 동시에 예측한다.
PDE-잔차 손실을 최소화하는 것은 신경 연산자에서 물리적 일관성을 촉진하는 일반적인 전략입니다. 그러나 표준 공식은 종종 변분 c...
이 논문은 ‘Scaling Laws for Economic Impacts’를 도출한다 — 대규모 언어 모델(Large Language Models, LLMs)의 훈련 컴퓨트와 전문 …
Data processing inequality은 정보 이론적 원칙으로, 신호의 정보 내용은 관측을 처리함으로써 증가시킬 수 없다고 명시한다.
형상 위에서 편미분 방정식(PDE)을 푸는 것은 많은 형상 분석 및 공학 작업의 기반이 됩니다; 그러나 기존 PDE 솔버는 다각형/…
그래픽 사용자 인터페이스(GUI) 에이전트는 모바일 기기에서 자주 실행되는 장시간 지연 작업을 자동화함으로써 생산성을 크게 향상시킬 수 있습니다. 그러나, ex...
급성 골수성 백혈병(AML)은 극도의 분자 이질성과 높은 재발률 때문에 임상적 도전 과제로 남아 있습니다. 정밀 의학이 도입...
Model merging은 joint multi-task learning (MTL)에 대한 가벼운 대안으로 등장했지만, 병합된 모델의 일반화 특성은 아직 크게 알려지지 않았습니다.
표에서의 Structured data extraction은 스캔된 문서와 디지털 아카이브의 document image analysis에서 중요한 역할을 합니다. 많은 방법들이 …
현대 외과 시스템은 지능형 장면 이해에 점점 더 의존하여 향상된 수술 중 안전을 위한 시기적절한 상황 인식을 제공합니다. Within...
Engineering Manuals(EM)의 사용자는 EM이 길고, 서면 문서와 단계별 절차를 포함하는 조밀한 형식 때문에 읽기 어렵다고 느낍니다.
현대 딥러닝 방법은 일반적으로 이미지 시퀀스를 순차적으로 쌓인 프레임들의 대형 텐서로 취급합니다. 그러나 이 직관적인 표현이 …
산업용 추천 시스템은 로그 기반 패러다임 하에서 두 가지 근본적인 제한에 직면합니다: (1) ID 기반 아이템 표현에서 지식 빈곤으로 인해…
교육에서 AI 도구의 통합이 증가함에 따라 기존 연구에서는 이들의 학습 과정에 대한 영향을 탐구하게 되었습니다. 그럼에도 불구하고, 대부분의 기존 연구는 …
Large Language Models (LLM)을 플래너로 활용한 구현된 지시 수행 작업 방법이 널리 보급되었습니다. 작업을 성공적으로 완료하기 위해, LL...
hard-label black-box 적대적 공격에서는 top‑1 예측 라벨만 접근 가능하기 때문에, 과도한 query 복잡성이 실용적인 적용에 큰 장애물이 된다.
대형 언어 모델(LLMs)은 소프트웨어 개발에 점점 더 많이 활용되고 있지만, 이들의 소프트웨어 보안 전문성 수준은 아직 명확하지 않다. 이 연구는 체계적으로…
대규모 언어 모델(LLMs)은 AI 지원 코딩 도구를 통해 소프트웨어 개발에 혁신을 일으켰으며, 제한된 프로그래밍 전문 지식을 가진 개발자들이 t...
인간 영아는 단 몇 백 시간의 언어 노출만으로 새로운 언어의 기본 단위를 습득하며, 이는 data와 비교했을 때 눈에 띄는 효율성 격차를 강조한다.
우리는 분산 알고리즘을 선언적 공리 이론(declarative axiomatic theories)으로 모달 논리(modal logic)에서 형식적으로 지정하는 방법을 보여준다. 우리는 간단한 투표 프로토콜(voting protocol)에 이 방법을 적용한다.
대규모 언어 모델(LLM)은 개방형 도메인, 다중 턴 설정에서 대화형 어시스턴트로 점점 더 많이 배치되고 있으며, 사용자는 종종 불완전하거나...
현재 대형 언어 모델(Large Language Models, LLMs) 안전 접근 방식은 명시적으로 유해한 콘텐츠에 초점을 맞추면서 중요한 취약점인 이해력 부족을 간과한다.
헬스케어 AI는 대규모이고 다양한 데이터셋이 필요하지만, 엄격한 프라이버시와 거버넌스 제약으로 인해 기관 간에 원시 데이터를 공유할 수 없습니다. Federated learning (FL)…
Large Language Models (LLMs)은 자동 코드 생성에 널리 사용되고 있지만, 그 겉보이는 성공은 종종 사전 학습 목표와 … 사이의 긴장을 가린다.
대규모 복잡 네트워크에서 pairwise 관계를 넘어서는 higher‑order 상호작용은 종종 hypergraphs로 모델링됩니다. hypergraph 특성, 예를 들어 tria…을 분석하는 것은.
Distributed attention은 Large Language Models(LLMs)의 컨텍스트 윈도우를 확장하는 데 있어 근본적인 문제입니다. 최신 방법인 Ring-Attention은 …
foundation models가 규모가 커짐에 따라 fine-tuning 비용이 점점 더 많이 듭니다. GPU spot instances는 on-demand resources에 대한 저비용 대안을 제공합니다.
대규모 오픈소스 소프트웨어(OSS) 저장소에서 수정이 필요한 파일과 함수를 찾는 것은 규모와 구조적 복잡성 때문에 어렵습니다.
대규모 언어 모델(LLMs)의 급속한 성장과 새로운 GPU 제품의 지속적인 출시로 인해 분산 학습에 대한 수요가 크게 증가했습니다.
Free-viewpoint video (FVV)는 사용자가 임의의 시점에서 장면을 볼 수 있게 하여 몰입형 시청 경험을 가능하게 합니다. 주요 reconstruction 기술로서…
잘 구조화된 전이 시스템에 확률적 스케줄링 규칙을 도입하여, 우리는 새로운 클래스의 stochastic well-structured transition system을 정의한다.
Hybrid AI-HPC 워크플로우는 대규모 시뮬레이션, 학습, 고처리량 추론, 그리고 긴밀하게 결합된 에이전트 기반 제어를 단일 실행 내에서 결합합니다...
LLM이 물리적 세계에 대한 추론 능력을 향상시킴에 따라, 과학적으로 … 생성하는 능력을 평가하기 위한 엄격한 벤치마크가 부재하다.
Ethereum은 동적 가용성(dynamic availability)과 안전성(safety)을 성공적으로 달성했지만, 트랜잭션 실행(transaction execution)과 불변 최종성(immutable finality) 사이에 근본적인 지연이 남아 있다.
최첨단 비디오 생성 모델은 일반적으로 VAE 공간에서 비디오 잠재 변수의 분포를 학습하고 이를 VAE 디코더를 사용해 픽셀로 매핑합니다. While th...
최근 멀티모달 LLM과 도구를 활용한 장시간 비디오 QA 시스템의 발전은 시간 단위 에피소드를 추론할 수 있는 가능성을 보여줍니다. 그러나 많은 방법...
인지 과학은 공간 능력이 인식에서 추론 및 상호작용으로 점진적으로 발달한다고 제안합니다. 그러나 멀티모달 LLMs(MLLMs)에서는 이 계층…
현재 video avatar generation 방법은 identity preservation과 motion alignment에서 뛰어나지만, genuine agency가 부족하고 장기적인 목표를 자율적으로 추구할 수 없습니다.
최근 연구에 따르면 대형 언어 모델(LLMs)을 직접 파인튜닝하여 dense retrieval을 수행하면 강력한 성능을 얻을 수 있지만, 그들의 상당한 파라미터 수...
본 논문은 연합 학습에서 학습 효율성과 통신 비용을 최적화하기 위해 FedPOD (Proportionally Orchestrated Derivative)를 제안한다.
Neural networks가 gradient descent로 훈련될 때, 시간에 따라 복잡도가 증가하는 해결책을 학습하는 경우가 많으며, 이는 simplicity bias라고 알려진 현상이다. Despite being wid...
포인트 트래킹은 비디오 프레임 간에 대응되는 포인트를 위치 지정하는 것을 목표로 하며, 4D 재구성, 로보틱스 및 비디오 편집을 위한 기본 작업이다. Exis...
다음 토큰 예측을 사전 학습하고 강화 학습(RL)으로 미세 조정된 대규모 자동회귀 모델은 많은 분야에서 전례 없는 성공을 거두었습니다.
우리는 MoE‑DiffuSeq를 제시한다. 이는 mixture of experts 기반 프레임워크로, 긴 문서 생성에서 diffusion 모델을 향상시키기 위한 것이다. 기존 diffusion 기반 텍스트 생성…
우리는 Cube Bench를 소개합니다. 이는 Rubik's-cube 벤치마크로, 멀티모달 대형 언어 모델(MLLMs)의 공간 및 순차적 추론을 평가하기 위해 설계되었습니다. 이 벤치마크는 ...