[Paper] 최적화 방법의 진화: 알고리즘, 시나리오, 및 평가
수렴 속도, 일반화 능력, 그리고 계산 효율성의 균형을 맞추는 것은 딥러닝 최적화에서 핵심 과제로 남아 있습니다. First-order gradient…
수렴 속도, 일반화 능력, 그리고 계산 효율성의 균형을 맞추는 것은 딥러닝 최적화에서 핵심 과제로 남아 있습니다. First-order gradient…
딥러닝에서 가장 많이 인용되는 캘리브레이션 결과인 CIFAR‑100에서의 post‑temperature‑scaling ECE 0.012 (Guo et al., 2017)는 통계적 노이즈 변동보다 낮다.
전통적인 고정‑깊이 아키텍처는 일반적으로 파라미터 수를 늘려 훈련 FLOPs를 증가시킴으로써 품질을 확장하지만, 그 대가로 더 높은 메모리를 요구한다.
Speech-to-speech language models는 최근 대화형 AI의 자연스러움을 향상시키기 위해 등장했습니다. 특히, full-duplex models는 …
Metonymy와 metaphor는 자연어에서 자주 동시에 발생하지만, computational 연구는 이를 주로 별도로 연구해 왔습니다. 우리는 변환하는 framework를 소개합니다.
Multilingual benchmarks는 frontier models의 개발을 안내합니다. 그러나 frontier models가 보고하는 multilingual evaluations는 popular rea와 유사하게 구조화되어 있습니다.
Neural Cellular Automata(NCAs)에 관한 문헌 전반에서, 시스템이 어트랙터를 학습한다는 것이 당연하게 받아들여진다. 이는 진화하는 …을 통해 보여진다.
대형 언어 모델(LLMs)은 코딩 작업을 해결하기 위해 명시적 추론에 점점 더 의존하고 있지만, 이러한 추론의 품질을 평가하는 것은 여전히 어려운 과제입니다. Ex...
Streaming Data-Driven Optimization (SDDO) 문제는 데이터가 지속적으로 도착하고 최적화 환경이 시간에 따라 변하는 많은 응용 분야에서 발생합니다....
비브 코딩의 등장은, 비전문가가 자연어를 통해 대형 언어 모델(LLMs)에게 실행 가능한 코드를 생성하도록 지시하는 패러다임으로, ...
우리는 작은 로컬 모델이 프런트 엔드에서 triage layer 역할을 할 수 있을 때, cloud LLM 토큰 사용량을 줄이기 위한 일곱 가지 전술에 대한 체계적인 측정 연구를 제시합니다.
대형 언어 모델(LLM)은 자연어로부터 코드를 생성할 수 있지만, 의도된 프로그램 동작을 얼마나 잘 포착하는지는 아직 명확하지 않다. Executable…
우리는 데이터가 중앙 코디네이터 없이 노드에 분산된 네트워크에서의 분산 학습을 연구한다. 랜덤 워크 학습은 토큰 기반 접근 방식이다…
Deep neural networks는 높은 정확도에도 불구하고 신뢰도 보정이 부족한 경우가 많아 고위험 응용 분야에서 신뢰성을 제한합니다. Current ad...
우리는 (Experience‑Modulated Biologically‑inspired Emergent Reasoning)이라는 하이브리드 인지 아키텍처를 제시한다. 이 아키텍처는 대형 언어 모델과의 관계를 재구성한다.
현대 머신러닝 방법은 외계 시료에서 생명을 탐지하기 위해 제안되었으며, 이 방법은 생물학적(biotic)과 비생물학적(abiotic) 샘플을 구별하는 능력을 활용합니다.
이미지 간에 매칭되는 keypoints를 찾는 것은 3D computer vision의 핵심 문제입니다. 그러나 최신 matchers는 큰 in-plane rotations에 어려움을 겪습니다. A straightfo...
자율 오프그리드 태양광 시스템의 안정적인 운영은 대기 열역학을 고려한 태양 예측 알고리즘에 의존하도록 요구한다.
본 연구에서는 Human-Object Interaction Video Generation (HOIVG)을 연구합니다. 이는 텍스트에 조건화된 고품질 인간‑객체 상호작용 비디오를 합성하는 것을 목표로 합니다.
Big Five와 같은 심리학적 구성요소를 사용하여, 대형 언어 모델(LLMs)은 특정 성격 프로파일을 모방하고 사용자의 성격을 예측할 수 있다. Wh...
우리는 복원된 장면의 diffusion-based refinement 과정에서 cross-view consistency를 강제하는 프레임워크인 SyncFix를 제시한다. SyncFix는 정제를…
Tool-augmented Large Language Model (LLM) agents는 복잡하고 다단계의 실제 작업을 자동화하는 데 인상적인 능력을 보여주었지만, 여전히 취약…
High dynamic range (HDR) 이미지는 장면 복사광을 풍부하고 충실하게 표현하지만, 그 불일치 때문에 생성 모델에게는 여전히 도전 과제입니다...
대규모 멀티모달 모델(LMMs)은 범용 비전‑언어 이해에서 눈에 띄는 진전을 이루었지만, 여전히 p...
오픈플레이 축구 전술을 모델링하는 것은 게임의 stochastic하고 multi-agent적인 특성 때문에 어려운 과제입니다. 기존의 computational approaches는 일반적으로 p...
언어 변화는 사회적 과정을 반영하고 형성하며, 기본 개념들의 semantic evolution은 역사적 및 사회적 과정의 측정 가능한 흔적을 제공한다.
Kullback-Leibler (KL) divergence는 정보 이론에서 두 확률 분포 사이의 차이를 정량화하는 기본 개념입니다. In the co...
General first-order methods (GFOM)는 상태 벡터를 행렬‑벡터 곱과 원소별 비선형 연산으로 업데이트하는 유연한 클래스의 반복 알고리즘이다.
Spiking Transformers는 Transformers의 확장성과 Spiking Neural Networks (SNNs)의 희소하고 에너지 효율적인 특성을 결합하여 ...를 달성했습니다.
고성능 컴퓨팅 및 AI 워크로드가 GPU에 점점 더 의존하게 되면서, 빠르게 진화하는 하드웨어 세대에 걸쳐 높은 성능을 유지하는 것이 ...
클라우드 네이티브 아키텍처는 클라우드 환경을 최대한 활용하기 위해 확장 가능한 마이크로서비스 애플리케이션을 구축하고 실행하는 것을 의미합니다. Managed Kubernetes ...
대형 언어 모델 LLMs은 고정된 지식을 가지고 있으며, 특정 시점에 학습됩니다. 소프트웨어 엔지니어링 실무는 빠르게 변화하고 자주 바뀌며, ...
배경: Harvard‑trained 신경과학자이자 전 Harvard Medical School 교수인 Gideon Kreiman이 인간에게 “perfect and...”를 제공하는 것을 목표로 하는 스타트업을 이끌고 있다.
문제: 지능 ≠ 공감 현대 AI는 방대한 데이터셋으로 학습되고 인간 피드백을 통한 강화 학습(reinforcement learning)과 같은 기술로 정제됩니다. Mo...
사진을 수동으로 측정하고, 자재 가격을 찾아보고, 견적을 계산하는 데 몇 시간을 보내는 것이 지겹나요? 핸디맨 사업자에게 이 백오피스 작업은 큰 문제점입니다…
Agent Development Kit ADK SkillToolset은 AI 에이전트가 필요에 따라 도메인 전문 지식을 로드하도록 하는 ‘progressive disclosure’ 아키텍처를 도입하여 줄이는…
Orbax와 MaxText에 새롭게 도입된 continuous checkpointing 기능은 모델 학습 중 신뢰성과 성능 사이의 균형을 최적화하도록 설계되었습니다.
이전 기사 https://dev.to/rijultp/understanding-transformers-part-4-introduction-to-self-attention-45bg에서 우리는 self‑attention 개념을 탐구했습니다.
보안 구실 Mythos 마케팅 캠페인의 핵심은 ‘zero‑trust’ 보안 아키텍처입니다. Anthropic은 모델이 설계된 목적이 …
이미지 분류는 컴퓨터가 “객체”를 절대 보지 않는다는 점을 기억할 때까지는 쉬워 보입니다. 컴퓨터는 오직 픽셀 배열만을 봅니다. 이 게시물은 그것이 k‑NN을 …
MLP = A Function Not Layers 대부분의 사람들은 neural networks가 layers의 스택이라고 생각한다. 그들은 틀렸다. MLP는: y = f(x); θ 👉 A learnable function. Start Simple...
개요: 매번 내가 ChatGPT에 간단한 질문을 하면, 그것은 깔끔하고 직접적이며 자신감 있는 답변을 준다. 나는 이것이 매우 의심스럽다. 진정한 사고는 …
실제 문제: 낮은 훈련 손실 ≠ 좋은 모델. 진정한 목표: 일반화. 최적화 = 학습. 최적화는 매개변수를 업데이트하여 손실을 감소시킨다. Witho...
The New Yorker의 OpenAI CEO Sam Altman 프로필 일러스트는 jump scare이다. Altman은 파란 스웨터를 입고 무표정하게 서 있다. 그의 머리 주변에…
!Building Igris 표지 이미지: 나만의 AI Agent 및 Knowledge Codex 만들기 https://media2.dev.to/dynamic/image/width=1000,height=420,fit=cover,gravity=auto...
“우리가 평가한 모든 프론티어 모델은 시즌 동안 손실을 보았으며, 많은 모델이 파산에 이르렀다,” 라고 논문 저자들은 결론지었다. AI가 “체계적으로 …”
OpenAI는 Anthropic의 Claude와 가격을 맞추는 $100짜리 새로운 Pro 구독을 출시했습니다.
Large language models LLMs는 특정 시점에 학습되어 고정된 지식을 가지고 있습니다. 소프트웨어 엔지니어링 실무는 빠르게 변화하고 자주 바뀌며, ...