SEMNR: 왜 나는 'Clean' 이미지들을 신뢰하지 않게 되었는가 (그리고 Metrics를 Guardrails로 다루게 된 이유)

발행: 1주 전 (2025년 12월 17일 오후 03:49 GMT+9)

11 min read

Source: Dev.to

이 작업은 Applied Materials와 Extra‑Tech 부트캠프의 집중 과정의 일환으로 수행되었으며, 여기서 도전 과제는 “올바른” 디노이징 모델을 선택하는 것을 훨씬 넘어섰습니다.

Applied Materials의 멘토 Roman Kris와 Mor Baram에게 기술적인 지도, 중요한 질문, 그리고 실용적이고 프로덕션 수준의 사고를 지속적으로 독려해 주신 것에 감사드리며, Extra‑Tech의 Shmuel Fine와 Sara Shimon에게도 과정 전반에 걸친 지원과 가르침에 감사드립니다.

왜 “클린”만으로는 SEM 디노이징에 충분하지 않은가

고전 이미지 처리에서 clean은 칭찬이다.
반도체 SEM 디노이징에서는 clean이 종종 거짓이다.

디노이저의 명백한 목표는 잡음을 제거하는 것이지만, 과학 및 산업 현장의 이미징에서는 증거 보존이 진정한 목적이다. 전도체의 미세한 가장자리, 실리콘 표면의 섬세한 질감, 혹은 작은 결함—이러한 신호들은 중요한 의미를 담고 있다.

디노이저는 인간의 눈에 보기 좋게 이미지를 만들면서도, 전체 분석을 뒤바꾸는 아주 중요한 세부 사항들을 조용히 지워버릴 수 있다.

SEMNR을 구축하면서 나는 힘든 교훈을 얻었다: 표준 평가 방법은 함정이었다. 나는 자랑할 리더보드가 필요하지 않았다; 엔지니어링 가드레일이 필요했다. 아래는 높은 점수를 쫓는 것에서 내 데이터에 대한 신뢰 프로필을 구축하게 된 과정이다.

높은 점수 vs. 높은 신뢰

가운데 이미지는 PSNR 점수가 더 높지만 웨이퍼 라인의 중요한 가장자리를 흐리게 만든다. 오른쪽 이미지(SEMNR)는 덜 “클린”해 보이더라도 날카로운 구조와 원래의 질감을 보존한다.

내가 잃지 않겠다고 정의한 것

단일 모델을 학습하기 전에, 나는 정확히 무엇을 잃지 않을지 정의했다. 메트릭 선택은 이제 기본 도구를 수동적으로 받아들이는 것이 아니라, 적극적인 엔지니어링 결정이 되었다.

나는 공격적인 노이즈 감소가 구조 보존과 직접적으로 충돌하는 경우가 많다는 것을 발견했다:

부드러움을 보상하는 메트릭(예: 표준 PSNR)은 적극적으로 **과도한 부드러움(over‑smoothing)**을 장려한다. 모델은 픽셀 오차를 최소화해 더 좋은 점수를 얻기 위해 텍스처를 흐리게 학습한다.
텍스처를 무시하는 메트릭은 본질적으로 모델에게 존재하지 않는 디테일을 환상하도록 허용하거나, 더 나아가 품질 관리에 중요한 실제 결함을 지워버리는 권한을 부여한다.

이를 검증하기 위해 나는 SEM 샘플에 대해 “스트레스 테스트”(인공 블러, 과도한 샤프닝, 인공 아티팩트 추가)를 수행하고 어떤 메트릭이 문제를 표시하는지 관찰했다. 결과는 매우 일관성이 없었다: PSNR은 종종 향상되었지만 이미지의 분석적 유용성은 감소했다. 이때 나는 “단일 영웅 수”라는 생각을 즉시 포기했다.

Source: https://dev.to/your-original-article-link

스택: 점수보다 프로파일

완벽한 하나의 수치를 쫓는 대신, 메트릭 프로파일을 만들었습니다 — 각 메트릭마다 구체적인 직무 설명이 있는 QA 툴킷입니다.

메트릭 프로파일 개요

목표는 차트 전체 면적을 최대화하는 것이며, 하나의 스파이크만을 늘리는 것이 아닙니다. PSNR(충실도)을 높이면 텍스처 현실감(DISTS)이 직접적으로 감소하는 경우가 많다는 점에 주목하세요.

Metric	Role	What It Captures
PSNR	앵커	픽셀 수준의 충실도(원본과 원시 픽셀 값이 얼마나 가까운가). 기본 지표이지만 단독으로는 신뢰하지 않음.
SSIM	구조 엔지니어	거시적 구조(예: 접촉 구멍, 비아)의 보존 여부.
FSIM	에지 가디언	재료 간의 급격한 전이; 흐릿한 가장자리를 표시—SEM에 매우 중요.
DISTS	텍스처 전문가	딥러닝 기반 텍스처 현실감; “플라스틱” 같은 외관을 방지하고 자연스러운 입자를 유지.
CNR	실용주의자	실용적인 대비‑대‑노이즈 검출 가능성; 컴퓨터 비전 알고리즘이 여전히 결함을 식별할 수 있는지를 평가.

메트릭이 불일치할 때 – 디버그 신호 찾기

가장 가치 있는 엔지니어링 인사이트는 메트릭이 서로 다를 때 얻어졌다. 나는 이러한 충돌을 모델 동작에 대한 별개의 디버깅 신호로 읽는 법을 배웠다:

PSNR ⬆️ / FSIM ⬇️ – 과도한 스무딩: 모델이 노이즈를 적극적으로 제거하지만 고주파 에지 정보를 지워버린다.
SSIM Stable / DISTS ⬇️ – 텍스처 드리프트: 전체 구조는 괜찮지만 표면이 본래의 재질 특성을 잃어간다.
PSNR ⬆️ / CNR ⬇️ – 대비 손실: 픽셀 값은 실제값에 더 가까워지지만, 로컬 대비가 감소해 특징을 해석하기 어려워진다.

충돌 해결 흐름도

실패를 표시하고 디버깅 결정을 안내하기 위해 사용한 흐름도.

Takeaways

하나의 지표 ≠ 진실 – 단일 수치(예: PSNR)에만 의존하면 중요한 저하를 놓칠 수 있습니다.
프로파일 구축 – 충실도, 구조, 가장자리 보존, 질감, 실용적인 탐지 가능성을 포착하기 위해 보완적인 지표들을 결합합니다.
갈등에 귀 기울이기 – 지표 간 불일치는 가장 유익한 신호이며, 모델이 도입하는 아티팩트 유형을 직접 가리킵니다.
점수보다 신뢰 – 과학적 영상에서 목표는 높은 점수가 아니라 현실을 신뢰할 수 있게 표현하는 것입니다.

SEM이나 다른 과학적 영상 파이프라인에서 작업한다면, 다중 지표 신뢰 프로파일을 채택하는 것을 고려하십시오. 이는 필요로 하는 증거를 조용히 잃어버린 “깨끗한” 이미지의 허위 안도감에서 벗어나게 해줄 것입니다.

마무리: 아름다움에서 신뢰로 전환

SEMNR에서 이 과정은 내 지침 질문을 *“이 이미지가 깨끗한가?”*에서 **“이 이미지가 신뢰할 수 있는가?”**로 바꾸었습니다.

특정 실패(예: 가장자리 흐림)를 방지하기 위해 구체적인 메트릭을 가드레일로 사용하는 평가 스택을 구축함으로써, 모델 진화를 미용 대회에서 엔지니어링 안전 시스템으로 전환했습니다.

과학 및 산업 데이터의 세계에서 내 역할은 현실을 아름답게 만드는 것이 아니라 최소한의 간섭으로 드러내는 것입니다. 때때로 이는 자연스러운 *“노이즈”*를 약간 남겨두는 것을 의미합니다—진실이 이미지에 남아 있도록 하기 위해서입니다.

차이는 미세한 디테일에 있습니다: 구조물 가장자리 결함을 확대한 모습.
왼쪽: 일반 모델이 결함과 함께 노이즈를 지워버렸습니다.
오른쪽 (SEMNR): 노이즈는 제거되었지만, 중요한 결함은 선명하게 보존됩니다.

SEMNR: 왜 나는 'Clean' 이미지들을 신뢰하지 않게 되었는가 (그리고 Metrics를 Guardrails로 다루게 된 이유)

왜 “클린”만으로는 SEM 디노이징에 충분하지 않은가

높은 점수 vs. 높은 신뢰

내가 잃지 않겠다고 정의한 것

스택: 점수보다 프로파일

메트릭 프로파일 개요

메트릭이 불일치할 때 – 디버그 신호 찾기

충돌 해결 흐름도

Takeaways

마무리: 아름다움에서 신뢰로 전환

관련 글

폰 중독을 실제 프로젝트 구축으로 대체하기

창고 활용에 대한 종합 가이드

CinemaSins: 레드 원의 모든 잘못을 18분 이내에

1억 개의 심장 박동 수집: 파산 없이 Wearable Tech 확장