네트워크 분석 분야에서 나와 동료들을 위한 로컬 AI 모델 선택

발행: 2개월 전 (2026년 2월 17일 오후 01:20 GMT+9)

4 분 소요

원문: Dev.to

Source: Dev.to

C++로 개발했으며, 고객 현장에서 직접 작업하는 경우가 많았습니다. 오프라인 작업이라 ChatGPT, Claude, Gemini 등에 접근할 수 없었습니다. 그 공백을 메우기 위해 몇 가지 로컬 LLM을 실험해 보았습니다. 아래는 (아직 개인적인) 시도 내용, 성공 여부, 그리고 실패한 점에 대한 요약입니다.

테스트 방법

프롬프트 만들기 – 먼저 모델에게 시키고 싶은 작업을 결정해야 했습니다.
랭킹 추출 – 분석기에서 “랭킹”을 가져와 각 열에 대한 짧은 설명을 작성하고, 표를 해석하는 방법에 대한 지시를 추가했습니다.
모델 실행 – 프롬프트와 표 데이터를 LLM에 입력하고 출력물을 평가합니다.

Google에서 “오픈 세서미”까지

모델	첫인상	결과 품질	비고
Gemma‑3 (Google)	다재다능하고 빠르며 가볍다 (내 기준)	좋지만 때때로 세부 사항을 놓침	가끔 부정확하거나 과도하게 변경된 답변 때문에 결국 포기함.
Qwen‑3 (thinking model)	Gemma‑3보다 느리지만 품질이 훨씬 좋음	일관되게 정확함	사용 가능해지자 인스트럭트 버전으로 전환함.
DeepSeek‑R1	실패 – 보고서가 의미가 없었음.	—	—
LG EXAOne	괜찮음 (Qwen‑3‑Instruct와 동등함)	상업적으로 사용 불가 (라이선스 제한)	—

“와, 너무 너무 느려요” – Mistral 등장

Qwen‑3 사고 모델은 훌륭한 답변을 제공했지만 생성하는 데 시간이 오래 걸렸습니다. “사고” 모드를 비활성화하려 했지만 스위치가 작동하지 않았습니다. Qwen‑3‑Instruct 모델이 드디어 나오자, 저는 Mistral AI에 주목했습니다.

모델	경험
Mistral Small (years ago)	실망적이었음.
Mistral‑3	견고한 보고서를 생성하며, (Gemma‑3와 달리) 지시 세부 사항을 거의 놓치지 않음.
DevStral‑Small 3.2	짧은 코드 스니펫에 좋지만 FIM(중간 채우기)이 없어도 여전히 유용함.
Qwen‑3‑Coder	코드를 100 % 환각함 (존재하지 않는 STL‑유사 호출).
Qwen‑3‑Coder‑Next	정확하지만 지나치게 장황함 – 작은 프로젝트에 가치가 없는 “문학적” C++.

Note: 현재 한국은 설날 연휴라서 당분간 쉬겠습니다. 모두가 새로운 설정을 마음에 들어 주시길 바랍니다!

네트워크 분석 분야에서 나와 동료들을 위한 로컬 AI 모델 선택

테스트 방법

Google에서 “오픈 세서미”까지

“와, 너무 너무 느려요” – Mistral 등장

관련 글

디지털 주권의 환상: 벤더 스와핑은 컴플라이언스 전략이 아니다

따뜻한 소개

Visual Studio Weekly: Copilot Memories, AI 기반 테스트, 맞춤형 에이전트

언어 학습의 과학: 연구가 실제로 말하는 것