benchmark — Page 2

1개월 전 · software

중복된 Markdown 파싱 제거: 일반적으로 2-10배 빠른 AI 스트리밍

Incremark – AI 스트리밍을 위한 Incremental Markdown Parsing 어제 나는 주말에 만든 프로젝트인 Incremark(https://incremark-docs.vercel.app/)를 공개했습니다....

#markdown #parser #performance #AI streaming #incremental parsing #open source #benchmark
1개월 전 · software

LLM 채팅 UI에서 240 FPS를 추구하기

요약: 나는 React UI에서 스트리밍 LLM 응답을 위한 다양한 최적화를 테스트하기 위해 벤치마크 스위트를 구축했다. 주요 요점: 1. 먼저 적절한 상태를 구축하고, 그 다음에 최적화를 적용한다…

#LLM #chat UI #performance #React #benchmark #FPS #streaming #Zustand #frontend optimization
1개월 전 · ai

CoreWeave의 AI 클라우드 플랫폼에서 NVIDIA H100 GPU가 기록적인 Graph500 실행을 달성한 방법

세계 최고 성능을 자랑하는 대규모 그래프 처리 시스템은 상용 클러스터 위에 구축되었습니다. NVIDIA는 지난달 https://blogs.nvidia.c... 를 발표했습니다.

#NVIDIA #H100 #GPU #CoreWeave #Graph500 #benchmark #BFS #high‑performance computing #AI cloud platform
1개월 전 · software

WebAssembly가 JavaScript를 죽일까? 직접 확인해보자 (+ 라이브 데모) 🚀

적어도 8년 전부터 프론트엔드—또는 최소한 JavaScript—의 임박한 종말에 대한 이야기를 들어왔습니다. 이를 없앨 것이라고 하는 도구 중 하나는…

#webassembly #javascript #frontend #performance #wasm #benchmark #rust #go
1개월 전 · it

Intel Arc B370 Xe3 iGPU가 Furmark 2에 등장 — Panther Lake 그래픽, 이전 세대 Xe2 Arc 140V보다 14% 뒤처져

인텔의 차세대 B370 Xe3 iGPU에 대한 Furmark 2 벤치마크가 X에 공개됐지만 기대에 못 미치는 결과를 보였습니다. 인텔의 기존 Arc 140V Xe2 iGPU가 B370보다 14% 앞섭니다.

#intel #arc #gpu #benchmark #furmark
1개월 전 · it

Splave's Cave: Asus RTX 5090 Astral 오버클럭 및 3DMark Port Royal 세계 기록 설정

오버클러커 Splave는 Asus의 RTX 5090 Astral을 오버클럭하는 과정에서 겪은 시련과 고난을 기록했으며, 그 결과 3DMark 세계 기록을 세웠다.

#RTX 5090 #overclocking #3DMark #benchmark #GPU
1개월 전 · ai

[Paper] EvilGenie: 보상 해킹 벤치마크

우리는 프로그래밍 환경에서 보상 해킹을 위한 벤치마크인 EvilGenie를 소개합니다. 우리는 LiveCodeBench에서 문제를 가져와 에이전트가 사용할 수 있는 환경을 만들고...

#reward hacking #code generation #benchmark #LLM evaluation #AI safety
1개월 전 · ai

[Paper] 정확도를 넘어: 임퓨테이션에서 불확실성 추정에 관한 실증 연구

결측 데이터 처리는 데이터 기반 분석에서 핵심적인 과제입니다. 최신 imputation 방법은 정확한 복원을 목표로 할 뿐만 아니라 ...

#imputation #uncertainty estimation #calibration #deep generative models #benchmark
1개월 전 · ai

[Paper] Bangla Sign Language Translation: 데이터셋 생성 과제, 벤치마킹 및 전망

Bangla Sign Language Translation (BdSLT)은 언어 자체가 매우 low-resource이기 때문에 지금까지 크게 제한되어 왔습니다. Standard sentence level dataset을 만들…

#sign-language #dataset #translation #computer-vision #benchmark
1개월 전 · ai

[Paper] LLM이 인간과 같은 세밀한 증거를 추출하여 증거 기반 사실 검증에 활용할 수 있을까?

온라인 뉴스 기사 아래 사용자 댓글에서 허위 정보가 자주 퍼지며, 사실적으로 잘못된 정보를 탐지하기 위한 효과적인 방법의 필요성을 강조한다.

#LLM #evidence extraction #fact-checking #multilingual dataset #benchmark
1개월 전 · ai

[Paper] CodeFuse-CommitEval: 커밋 메시지와 코드 변경 불일치 탐지에서 LLM의 성능 벤치마킹을 향하여

Version control은 코드 변경의 이유를 전달하기 위해 commit messages에 의존하지만, 이러한 메시지는 종종 품질이 낮고, 더 중요한 것은 일관성이 부족합니다 …

#LLM #benchmark #commit-message inconsistency #software engineering #code review

Newer posts

Older posts