[Paper] LLMs는 단어보다 더 많이 안다: Syntax, Metaphor & Phonetics를 활용한 장르 연구
대규모 언어 모델(LLMs)은 다양한 언어 관련 작업에서 놀라운 잠재력을 보여주지만, 그들이 더 깊은 언어적 특성을 포착하는지 여부는…
3272 posts from this source
대규모 언어 모델(LLMs)은 다양한 언어 관련 작업에서 놀라운 잠재력을 보여주지만, 그들이 더 깊은 언어적 특성을 포착하는지 여부는…
환경과의 다중 상호작용을 통해 복잡한 작업을 수행할 수 있는 에이전트가 인기 있는 연구 방향으로 떠올랐습니다. 그러나 이러한 …
대형 언어 모델(LLMs)은 복잡한 추론 작업을 해결하는 데 매우 효과적인 것으로 입증되었습니다. 놀랍게도, 그들의 능력은 종종 i...
이 논문은 개별 뉴런 수준에서 하드웨어 중복성을 활용하여 신경망의 기능적 안정성을 보장하는 혁신적인 접근법을 제시한다. 기존의...
현대 소프트웨어 생태계의 규모, 복잡성, 상호 연결성 및 자율성의 증가는 전례 없는 불확실성을 초래하며, 기반을 위협한다...
Self-adaptive systems (SASs)는 변화와 불확실성을 처리하도록 설계되었으며, 네 가지 핵심 기능인 모니터링, 분석, pla...을 포함하는 피드백 루프를 통해 동작합니다.
대규모 언어 모델(LLMs)은 일반 자연어 처리와 코드 합성, 법률 추론과 같은 도메인 특화 응용 분야 모두에 혁신을 가져왔습니다.
Proof-of-Vulnerability (PoV) 입력 생성은 소프트웨어 보안에서 중요한 작업이며, 경로 생성 및 검증과 같은 하위 애플리케이션을 지원합니다.
함수 수준에서 리포지토리 수준까지의 code completion 작업은 대규모 codebases의 contextual information을 활용하는 것이 핵심 과제가 됩니다. 그러나,…
본 연구에서는 mixed-cell-height legalization 작업을 위한 FPGA-CPU accelerator인 FLEX를 제시한다. 우리는 다음과 같은 관점에서 도전 과제들을 다룬다. 첫째, w...
그래프에 대한 머신러닝은 최근 분자 특성 예측 및 칩 설계와 같은 다양한 분야에서 인상적인 진전을 이루었습니다. 그러나 벤치...
로그 파싱은 원시 로그를 상수와 변수를 포함하는 구조화된 템플릿으로 변환합니다. 이는 이상 탐지, 장애 진단 및 기타 AIOps의 기반이 됩니다.
CXL 기반 컴퓨테이셔널 메모리(CCM)는 확장된 원격 메모리 내에서 근접 메모리 처리를 가능하게 하여 데이터 이동 비용을 해결할 기회를 제공합니다…
Workflow automation은 일상적인 문서 관련 작업에서 상당한 생산성 향상을 약속합니다. 기존의 agentic systems는 개별 명령을 실행할 수 있지만, t...
Spiking Neural Networks (SNNs)는 희소한 이진 활성화 덕분에 기존 신경망에 대한 유망하고 에너지 효율적인 대안을 제공합니다. How...
Hallucinations은 Foundation models (FMs)에 의존하는 애플리케이션을 만들 때 주요 우려 사항입니다. 이러한 미묘한 실패가 어디에서 어떻게 발생하는지 이해하는 것은 …
희소 LU 분해에서, 기호 분해 후의 비제로 요소들은 희소 행렬의 대각선 및 오른쪽 아래 영역에 분포하는 경향이 있습니다. 그러나, re...
현대 GPU 소프트웨어 스택은 개발자에게 커널을 실행하기 전에 성능 병목 현상을 예측할 수 있는 능력을 요구한다; 부동소수점 워크로드를 잘못 판단하면 …
현대 parallel machines의 복잡성과 규모가 계속 증가함에 따라, 프로그래머들은 software libraries의 구성에 점점 더 의존하여 …
Parameter-efficient fine-tuning (PEFT)은 대규모 사전 학습 모델에서 소수의 파라미터만 업데이트함으로써 전체 모델 적응에 대한 확장 가능한 대안을 제공합니다.
2024년에 Argonne National Laboratory에 배치된 Aurora 슈퍼컴퓨터는 현재 Top500 리스트에서 전 세계 세 대의 Exascale 머신 중 하나입니다.
우리는 tritonBLAS를 제시합니다. 이는 캐시 계층 구조와 같은 아키텍처 파라미터 및 코드와 데이터의 상대적 배치를 활용하는 빠르고 결정론적인 분석 모델입니다.
Normalizing Flows (NFs)는 데이터와 Gaussian distribution 사이의 가역 매핑을 학습합니다. 기존 연구들은 보통 두 가지 제한점을 가지고 있습니다. 첫 번째로, 그들은 추가합니다...
우리는 ‘single-life’ 학습 패러다임을 소개합니다. 이 패러다임에서는 한 개인이 촬영한 egocentric 비디오에만 전용 vision model을 학습시킵니다. 우리는 …
Graphic design는 현대 시각 커뮤니케이션의 초석을 이루며, 문화 및 상업 행사 홍보를 위한 중요한 매체 역할을 합니다. 최근의 진보는…
우리는 radiance meshes를 소개한다. 이는 Delaunay tetrahedralization으로 생성된 constant density tetrahedral cells를 사용하여 radiance fields를 표현하는 기술이다.
Reasoning models가 긴 사고 사슬(long chains of thought)을 활용하면 답변 검증, 역추적, 대안적인 재시도와 같은 다양한 인지 기술을 사용합니다.
Vision Language Models (VLMs)은 강력한 정성적 시각 이해를 보여주지만, 구현된 …에 필요한 계량적으로 정확한 공간 추론에 어려움을 겪는다.
불명확하거나 모호한 질의를 처리하기 위해, AI 어시스턴트는 불확실성을 관리하는 정책이 필요하며, (a) 언제 사용자 의도를 추측하고 답변을 제공할지, (b) …
오늘날 점점 복잡해지는 세상에서, Ola, Uber, Rapido와 같은 좋은 호출 서비스가 매우 중요합니다. 이는 우리 일상 교통에 필수적이기 때문입니다.
벤치마크의 급속한 확산은 재현성, 투명성 및 정보에 기반한 의사결정에 큰 도전을 야기하고 있습니다. 그러나 데이터셋과는 달리...
벨이 발견한, 고전적으로 재현될 수 없는 양자 상관관계가 존재한다는 사실은 양자 역학의 기초에서 가장 중요한 것 중 하나이다.
Network Interface Cards(NICs)는 현대 인터넷의 핵심 촉진 요소 중 하나입니다. 이들은 컴퓨팅 장치를 네트워크에 연결하기 위한 게이트웨이 역할을 합니다.
현대 딥러닝 모델은 막대한 계산 자원을 필요로 하며, 이는 low-precision training에 대한 연구를 촉진한다. Quantised training은 이를 …
Sign Language Production (SLP)은 복잡한 입력 텍스트를 실제 비디오로 변환하는 과정이다. 대부분의 이전 연구들은 Text2Gloss, Gloss2Pose 등에 초점을 맞추었다.
민주주의에서는 주요 정책 결정이 일반적으로 다수 혹은 합의를 필요로 하므로, 엘리트는 통치를 위해 대중의 지지를 확보해야 합니다. 역사적으로 엘리트는 …
워터마킹은 비밀 키에 접근할 수 있을 때 신뢰할 수 있게 감지될 수 있는 숨겨진 신호를 생성된 텍스트에 삽입하는 것을 목표로 합니다. Open-weight language models는 ...
진정으로 인터랙티브한 세계 모델은 세 가지 핵심 요소가 필요합니다: real-time long-horizon streaming, consistent spatial memory, 그리고 precise user control. 그러나, ...
이 논문은 두 가지 주요 영역에서 새로운 기여를 제시합니다: 생성 모델, 특히 normalizing flows의 효율성을 향상시키고, gener...
왜 state-of-the-art OOD detection methods가 모델이 single-domain datasets로 학습될 때 catastrophic failure를 보이는가? 우리는 최초의 theoretical …
우리는 Jina-VLM을 소개합니다. 2.4B 파라미터를 가진 비전-언어 모델로, 오픈 2B 규모 VLM 중에서 최첨단 다국어 시각 질문 응답을 달성합니다. The ...
본 연구는 대규모 언어 모델(LLMs)이 전통적인 신경망에 비해 천문 데이터 처리에서 이점을 제공하는지, ... regimes with ... 에서 조사한다.
Attention mechanisms는 foundation models의 핵심이지만, 그들의 quadratic complexity는 스케일링을 위한 중요한 bottleneck으로 남아 있습니다. 이 도전 과제는 …
Quantum key distribution (QKD) 보안은 근본적으로 진정한 양자 상관관계와 고전적인 도청자 시뮬레이션을 구별하는 능력에 의존한다,…
외부 도구를 갖춘 증강 대형 언어 모델(LLMs)이 웹 애플리케이션에서 점점 더 인기를 얻음에 따라, 증강 LLM 추론 서비스 효율성을 향상시키는 것이...
차등 프라이버시(DP)를 사용한 학습은 데이터셋의 구성원에게 릴리스된 모델의 사용자가 해당 구성원을 식별할 수 없다는 보장을 제공합니다. 그러나 …
Tokenizer adaptation은 사전 학습된 언어 모델을 새로운 도메인이나 언어로 전이하는 데 중요한 역할을 합니다. 이 연구에서는 두 가지 상보적인…
대규모 언어 모델(LLMs)을 저자원 언어에 적용하는 것은 데이터 부족과 교차 언어 드리프트 때문에 여전히 큰 과제이다. 이 연구는 두…