[Paper] VideoSketcher: Video Models Prior가 다목적 순차 스케치 생성을 가능하게 함
스케치 작업은 본질적으로 순차적인 과정으로, 스트로크가 의미 있는 순서대로 그려져 아이디어를 탐색하고 다듬는다. 그러나 대부분의 생성 모델은...
3058 posts from this source
스케치 작업은 본질적으로 순차적인 과정으로, 스트로크가 의미 있는 순서대로 그려져 아이디어를 탐색하고 다듬는다. 그러나 대부분의 생성 모델은...
최근 딥 강화학습(RL)의 발전은 고차원 제어 작업에서 강력한 성과를 거두었지만, RL을 도달 가능성 문제에 적용하는 것은 ...
흉부 방사선 사진 분류기( chest radiograph classifiers )의 임상 배포를 위해서는 새로운 데이터셋(datasets)이 제공될 때 이전에 관찰된 데이터에 대해 재학습 없이 모델을 업데이트할 수 있어야 합니다.
Fine-tuning aligned language models를 benign 작업에 적용하면, safety guardrails가 예측할 수 없이 약화되고, 훈련 데이터에 해로운 콘텐츠가 없으며 개발자들이 ...
Computing Continuum (CC)은 Edge에서 Cloud까지 다양한 처리 인프라 계층을 통합하여, 어디서나 이용 가능한 서비스 품질을 최적화합니다. ...
점점 늘어나는 문헌에서는 대형 언어 모델(LLMs)을 합성 참가자로 활용하여 사회과학에서 비용 효율적이고 거의 즉각적인 응답을 생성한다.
전통적인 에너지에 대한 대안으로 재생 가능 에너지, 특히 태양광 에너지의 사용이 증가함에 따라, 이에 대한 연구 관심이 높아지고 있다.
대규모 언어 모델(LLMs)의 성공은 모델 용량과 데이터셋 규모를 동시에 늘리는 방식으로 컴퓨팅을 확장하는 것이 주요 동인임을 입증했습니다.
Endoscopy는 의료 영상에서 필수적이며, 진단, 예후 및 치료에 사용됩니다. 견고한 dynamic 3D reconstruction pipeline을 개발하는 것은 endoscopic vi...
멀티모달 모델에 대한 현재 연구는 generative capabilities를 향상시키면 understanding이 희생되는 경우가 많고, 그 반대도 마찬가지인 핵심적인 과제에 직면해 있습니다.
멀티모달 대형 언어 모델(mLLMs)은 종종 마크다운, JSON, 이미지와 같은 구조화된 데이터의 표에서 질문에 답하는 데 사용됩니다. 이러한 모델은 …
이 논문은 RaCo라는 경량 신경망을 소개한다. 이 신경망은 다양한 3D 컴퓨터 비전 작업에 적합한 견고하고 다목적 키포인트를 학습하도록 설계되었다. Th...
Low-resource languages는 Natural Language Processing 작업, 예를 들어 lemmatization 및 part-of-speech (POS) tagging과 같은 작업에서 지속적인 도전을 제기합니다. 이 논문은 ...
기존 3D 오픈-보카뷸러리 씬 언더스탠딩 방법들은 주로 2D 파운데이션 모델에서 언어 특징을 추출해 3D 특징 필드에 증류하는 데 중점을 두지만, 대규모...
Visual analogy learning은 텍스트 설명이 아니라 시연을 통해 이미지 조작을 가능하게 하며, 사용자가 복잡한 변환을 지정할 수 있도록 합니다.
대형 언어 모델은 많은 복잡한 추론 작업에서 강력한 성능을 달성하지만, 구성적 추론을 요구하는 벤치마크에서는 정확도가 급격히 감소합니다.
비즈니스 플랜(BP) 작성은 기업가 정신 교육에서 학습자들이 아이디어를 구축하고 평가하며 반복적으로 다듬는 데 핵심적인 역할을 합니다. 그러나, ...
Software-Defined Vehicles에서 기능을 테스트하는 것은 요구사항이 자연어로 작성되고, 사양이 텍스트, 표 및 …
본 연구는 truncation을 통한 latent spaces의 regularization이 deep learning classifiers를 위한 생성된 테스트 입력의 품질에 미치는 영향을 조사한다.
우리는 기본적인 분산 컴퓨팅 문제에 대한 새로운 분산 양자 알고리즘을 제시한다, 즉, 리더 선출, 브로드캐스트, Minimum Spanning Tree (MST), a...
Federated Learning(FL)은 중앙 집중식 데이터 공유 없이 여러 클라이언트에 걸쳐 분산 학습을 가능하게 하며, Graph Neural Networks(GNN)는 관계를 모델링합니다.
수학적 형태학(MM)은 이미지 처리에서 강력하고 널리 사용되는 프레임워크입니다. 집합론적 및 이산 기하학적 원리를 통해, MM 연산은…
우리는 SecCodeBench-V2를 소개합니다. 이는 공개적으로 출시된 벤치마크로, Large Language Model (LLM) 코파일럿의 보안 코드를 생성하는 능력을 평가합니다. SecCodeB...
Large Language Models (LLMs)는 코딩 패러다임을 변화시키고 있으며, 이를 vibe coding이라고 부르지만, 알고리즘적으로 정교하고 견고한 코드를 합성하는 일은 여전히 남아 있다.