language models

1주 전 · ai

LLM이 다음 토큰을 선택할 때 실제로 일어나는 일🤯

LLM 출력은 때때로 안정적으로 느껴집니다. 때때로 갑자기 무작위가 됩니다. 종종 바뀐 것은 매개변수 하나뿐입니다. 그렇다면 실제로 순간에 무슨 일이 일어나는 걸까요...

#LLM #token sampling #probability distribution #language models #inference #temperature #top‑k #top‑p
1주 전 · ai

LLM 시와 “위대함” 질문: Gwern과 Mercor의 실험

번역하려는 텍스트를 직접 제공해 주시겠어요? 해당 내용을 알려주시면 한국어로 번역해 드리겠습니다.

#LLM #poetry #AI creativity #Gwern #Mercor #language models #generative AI
1주 전 · ai

LLM에 대한 Task-free 지능 테스트

번역할 텍스트를 제공해 주시겠어요?

#LLM #intelligence testing #evaluation #benchmark #language models
1주 전 · ai

DLCM 이해하기: 핵심 아키텍처에 대한 심층 탐구 및 인과 인코딩의 힘

현대 언어 모델과 동적 잠재 개념 모델 DLCM 현대 언어 모델은 단순한 토큰‑바이‑토큰 처리 방식을 넘어 진화했으며, 동적 L...

#DLCM #causal encoding #language models #model architecture #deep learning #transformers #hierarchical modeling
1주 전 · ai

AI 모델이 스스로에게 질문을 하며 학습하기 시작한다

인간의 입력 없이 스스로 흥미로운 질문을 제기하며 학습하는 AI 모델은 superintelligence로 가는 길을 제시할 수도 있다....

#self-supervised learning #self-questioning AI #meta-learning #language models #artificial general intelligence
1주 전 · ai

GPT-2를 부숴버렸다: Geometry를 이용해 Semantic Collapse를 증명한 방법 (The Ainex Limit)

TL;DR 저는 GPT‑2가 자체 출력으로부터 20세대에 걸쳐 학습하도록 강제했습니다. 20세대가 되자 모델은 의미적 볼륨의 66 %를 잃었고, 상태를 hallucinating 시작했습니다.

#GPT-2 #semantic collapse #synthetic data #language models #AI safety #model degradation #geometry analysis
1주 전 · ai

Attention Heads를 이해하려고 (대부분 실패) 시도하면서 배운 것

제가 처음에 믿었던 것 깊이 파고들기 전에, 저는 몇 가지를 암묵적으로 믿고 있었습니다: - 만약 attention head가 특정 token에 지속적으로 주의를 기울인다면, 그 token은…

#attention #transformers #language models #interpretability #machine learning #neural networks #NLP
2주 전 · ai

미국이 베네수엘라를 침공하고 니콜라스 마두로를 포획했다. ChatGPT는 동의하지 않는다.

일부 AI 챗봇은 최신 뉴스를 놀라울 정도로 잘 파악합니다. 다른 챗봇은 전혀 그렇지 않죠....

#ChatGPT #AI fact-checking #misinformation #news verification #language models
2주 전 · ai

재귀 언어 모델

번역할 텍스트(발췌 또는 요약)를 제공해 주시겠어요?

#language models #recursive models #machine learning #deep learning #arxiv
2주 전 · ai

명령어는 제어가 아니다

‘Instructions Are Not Control’ 표지 이미지 https://media2.dev.to/dynamic/image/width=1000,height=420,fit=cover,gravity=auto,format=auto/https%3A%2F%2Fdev-to-u...

#prompt engineering #LLM #jailbreak #AI safety #language models
3주 전 · ai

나는 앵무새를 요청했지만, AI는 까마귀를 주고 풀어줬다.

나는 AI 모델에게 앵무새를 생성해 달라고 요청했다. 그 모델은 자신 있게 까마귀를 생성했다. 그리고 나서—비유적으로—그것을 자유롭게 놓아 주었다. > “Maine bola tota bana, isne kavva bana ke uda...”

#prompt engineering #AI alignment #language models #model behavior #creativity vs correctness
3주 전 · ai

파트 2: 왜 Transformers는 여전히 잊어버리는가

파트 2 – 왜 장기 컨텍스트 언어 모델은 여전히 메모리와 씨름하는가 (3부 시리즈 중 두 번째) 파트 1에서 https://forem.com/harvesh_kumar/part-1-long-context-...

#transformers #long-context #memory #language-models #deep-learning #AI-research

Newer posts

Older posts