transformers

1天前 · ai

什么是LLM？ChatGPT、GPT 与 AI 语言模型的真实工作原理（初学者指南）

如何 Large Language Models（LLMs）工作 — 适合初学者的指南 =================================================================== 了解 Large Language Models 的工作原理

#large language models #LLM #ChatGPT #GPT #transformers #tokens #AI basics #beginner guide
4天前 · ai

👀 Attention 像5岁小孩一样解释

什么是 AI 中的 Attention？Attention 的作用类似于语言模型的高亮笔。当你学习时，你会在文本中划出对重要部分的标记……

#attention mechanism #transformers #natural language processing #deep learning #AI basics
5天前 · ai

注意力矩阵中的故障

Transformer 人工制品的历史以及最新的修复研究。《注意力矩阵中的故障》首次发表于 Towards Data Science....

#transformers #attention mechanism #deep learning #machine learning research #model artifacts
1周前 · ai

[TIL] 与 Manus 首席科学家季亦超的三小时访谈（被Meta收购）

2026年1月5日完整视频 https://www.youtube.com/watch?v=UqMtkgQe-kI 这段三小时访谈的受访者是Ji Yichao，Manus的首席科学家，后被Met收购。

#AI #LLM #AI agents #Transformers #Manus #Meta acquisition #AI entrepreneurship #AI interview
1周前 · ai

代码如何击破 Transformers 的数学之谜

为什么变形金刚在没有人要求的情况下更喜欢秩序而不是混沌……？Spoiler: 他们已经被要求了。

#transformers #geometric memorization #deep learning research #arXiv paper #sequence models
1周前 · ai

了解 DLCM：深入探讨其核心架构与因果编码的力量

现代语言模型与动态潜在概念模型 DLCM 现代语言模型已经超越了简单的逐标记处理，且动态 L…

#DLCM #causal encoding #language models #model architecture #deep learning #transformers #hierarchical modeling
1周前 · ai

我在尝试（并大多失败）理解 Attention Heads 时学到的东西

我最初的信念在深入研究之前，我隐含地相信了几件事： - 如果一个 attention head 持续关注（attend）特定的 token，那么该 token 是……

#attention #transformers #language models #interpretability #machine learning #neural networks #NLP
1周前 · ai

层次自回归建模用于内存高效的语言生成

请提供您希望翻译的文章摘录或摘要文本，我将为您翻译成简体中文。

#hierarchical modeling #autoregressive #language generation #memory-efficient #large language models #transformers #AI research #arXiv
2周前 · ai

TTT-E2E：在阅读时学习的 AI 模型（告别 KV 缓存？）

想象一下，一个 AI 不仅仅把信息存储在 static memory bank 中，而是随着处理长文档而实际提升其 internal understanding。

#test-time training #long-context modeling #transformers #KV cache #continual learning #TTT-E2E #Stanford #NVIDIA #UC Berkeley
3周前 · ai

第2部分：为什么 Transformer 仍然会遗忘

第2部分 – 为什么长上下文语言模型仍然在记忆方面挣扎（共三部分系列的第二部分）在第1部分 https://forem.com/harvesh_kumar/part-1-long-context-...

#transformers #long-context #memory #language-models #deep-learning #AI-research
3周前 · ai

Hugging Face Transformers 实战：学习如何利用 AI 进行 NLP

一本关于 Hugging Face Transformers 的实用指南，以及如何使用 AI 在几秒钟内分析你的简历情感的指南。文章标题：Hugging Face Transformers in Action:...

#huggingface #transformers #nlp #sentiment-analysis #resume-analysis #practical-guide
3周前 · ai

机器学习“降临节日历”第24天：Excel 中的文本 Transformers

对 Transformers 如何使用自注意力将静态词嵌入转化为上下文表示进行直观、一步步的讲解，并通过简单的例子进行说明。

#transformers #self-attention #text embeddings #excel #machine learning #nlp #advent calendar

Newer posts

Older posts