런치 HN: General Instinct (YC P26) – 엣지 디바이스용 최첨단 모델
Source: Hacker News
안녕하세요 HN, 저희는 General Instinct(https://general-instinct.com/)의 관밍과 빌입니다.
수년간 로봇공학 분야에서 일하면서 우리는 같은 문제에 계속 부딪혔습니다. 최고의 모델조차도 실제로 가지고 있는 하드웨어에 맞지 않았습니다.
가장 성능이 좋은 모델들은 보통 데이터센터를 전제로 설계되었습니다: 대형 GPU, 풍부한 메모리 대역폭, 안정적인 네트워크 접근 등. 하지만 대부분의 물리 시스템은 이와 반대되는 제약을 가지고 있습니다.
그래서 우리는 최첨단 모델을 어느 정도 보존하면서도 엣지 하드웨어에서 실용적으로 실행할 수 있는 방법을 모색하게 되었습니다.
그 일환으로 최근 InstinctRazor(https://github.com/General-Instinct/InstinctRazor)를 오픈소스로 공개했습니다.
우리가 특히 흥미롭게 생각하는 결과 중 하나는 약 245 GB BF16 MoE 모델인 Qwen3.5-122B-A10B를 48 GiB GGUF로 압축한 것입니다. 이 모델은 실제로 Gemma-4-26B-A4B보다 작으면서 MMLU‑Pro, GPQA‑D 등 벤치마크에서 더 높은 성능을 보입니다.
우리는 항상 활성화되는 부분(라우터, 정규화, Gated‑DeltaNet/SSM 레이어, 비전 경로 등)을 보존하고, 라우팅된 전문가들을 훨씬 더 공격적으로 양자화합니다. 이후 양자화 과정에서 손실된 능력을 회복하기 위해 온‑폴리시 증류를 사용합니다.
이 모델은 전문가들을 시스템 RAM에서 스트리밍하는 “소형 GPU” 구성에서도 실행할 수 있습니다. 8 k 컨텍스트 윈도우를 사용할 경우, 최대 VRAM 사용량은 약 7.6~8 GB입니다.
기술적인 세부 사항에 관심이 있다면, 여기(https://general-instinct.com/blog/frontier-moe-sub-4-bit)에서 접근 방식을 정리했습니다.
특히 로봇이나 기타 엣지 디바이스에 모델을 배포하고 있는 분들의 이야기를 듣고 싶습니다. 현재 로컬에서 실행하려는 모델은 무엇인가요? 이를 프로덕션에 적용하는 데 가장 큰 걸림돌은 무엇이었나요?
Comments URL: https://news.ycombinator.com/item?id=48414869
Points: 10