benchmark — Page 2

1个月前 · software

消除冗余的 Markdown 解析：通常提升 2‑10 倍的 AI Streaming

Incremark – 增量 Markdown 解析用于 AI 流式传输昨天我发布了 Incremark https://incremark-docs.vercel.app/，这是我在周末构建的项目……

#markdown #parser #performance #AI streaming #incremental parsing #open source #benchmark
1个月前 · software

在 LLM 聊天 UI 中追求 240 FPS

TL;DR 我构建了一个 benchmark suite 来测试在 React UI 中 streaming LLM responses 的各种优化。关键要点：1. 首先构建合适的 state，然后再进行优化……

#LLM #chat UI #performance #React #benchmark #FPS #streaming #Zustand #frontend optimization
1个月前 · ai

如何 NVIDIA H100 GPU 在 CoreWeave 的 AI 云平台上实现创纪录的 Graph500 运行

全球规模化图处理性能最强的系统是基于商用集群构建的。NVIDIA 上月宣布 https://blogs.nvidia.c...

#NVIDIA #H100 #GPU #CoreWeave #Graph500 #benchmark #BFS #high‑performance computing #AI cloud platform
1个月前 · software

WebAssembly 会杀死 JavaScript 吗？让我们找出答案（+ Live Demo） 🚀

至少八年来，我一直在听说前端——或至少是 JavaScript——即将消亡的言论。所谓将要抹去它的工具之一是……

#webassembly #javascript #frontend #performance #wasm #benchmark #rust #go
1个月前 · it

Intel Arc B370 Xe3 iGPU 在 Furmark 2 上出现 — Panther Lake 图形性能落后上一代 Xe2 Arc 140V 14%

在 X 上出现了对英特尔即将推出的 B370 Xe3 iGPU 的 Furmark 2 基准测试，结果令人失望。英特尔即将淘汰的 Arc 140V Xe2 iGPU 的性能比 B370 高出 14%。

#intel #arc #gpu #benchmark #furmark
1个月前 · it

Splave's Cave：超频 Asus RTX 5090 Astral 并创下 3DMark Port Royal 世界纪录

超频玩家 Splank 记录了对华硕 RTX 5090 Astral 超频的种种艰辛与挑战，最终创下了 3DMark 世界纪录....

#RTX 5090 #overclocking #3DMark #benchmark #GPU
1个月前 · it

AMD 即将推出的 Ryzen 7 9850X3D 芯片在 Geekbench 上出现，提升至 5.6 GHz 加速时钟——多核测试得分略低于 9800X3D，单核测试得分更高

两条来自十一月中旬的全新 Geekbench 列表显示，即将推出的 Ryzen 7 9850X3D 处理器在单核性能上取得了更高的分数。

#AMD #Ryzen 7 9850X3D #CPU #Geekbench #benchmark #5.6GHz #hardware #performance
1个月前 · ai

【论文】EvilGenie：奖励劫持基准

我们介绍 EvilGenie，一个用于编程环境中 reward hacking 的基准。我们从 LiveCodeBench 获取问题，并创建一个环境，使得 agents …

#reward hacking #code generation #benchmark #LLM evaluation #AI safety
1个月前 · ai

[Paper] 超越准确性：对 Imputation 中 Uncertainty Estimation 的实证研究

处理缺失数据是数据驱动分析中的核心挑战。现代 imputation 方法不仅旨在实现精确重建，而且在 … 方面也有所不同。

#imputation #uncertainty estimation #calibration #deep generative models #benchmark
1个月前 · ai

[Paper] Bangla 手语翻译：数据集创建挑战、基准测试与前景

Bangla Sign Language Translation (BdSLT) 迄今为止受到严重限制，因为该语言本身资源极其匮乏。标准的句子级数据集创建……

#sign-language #dataset #translation #computer-vision #benchmark
1个月前 · ai

[Paper] LLM 能否提取类似人类的细粒度证据用于基于证据的事实核查？

误信息经常在在线新闻文章下的用户评论中传播，这凸显了需要有效的方法来检测事实错误的信息。

#LLM #evidence extraction #fact-checking #multilingual dataset #benchmark
1个月前 · ai

[Paper] CodeFuse-CommitEval：面向提交信息和代码变更不一致检测的LLM能力基准测试

Version control 依赖 commit messages 来传达代码更改的原因，但这些 messages 往往质量低下，更关键的是不一致……

#LLM #benchmark #commit-message inconsistency #software engineering #code review

Newer posts

Older posts