Day 2 | πŸŽ… κ·ΈλŠ” 당신이 μ°©ν–ˆλŠ”μ§€ λ‚˜λΉ΄λŠ”μ§€ μ•Œκ³  μžˆμ–΄μš”... ν•˜μ§€λ§Œ κ·Έκ°€ 틀릴 μˆ˜λ„ μžˆλ‹€λ©΄?

λ°œν–‰: (2025λ…„ 12μ›” 10일 μ˜€μ „ 05:21 GMT+9)
9 min read
원문: Dev.to

Source: Dev.to

μ†Œκ°œ

β€œμ–΄λ¦΄ 적 μš°λ¦¬λŠ” 산타가 우리λ₯Ό μ°©ν•˜κ±°λ‚˜ λ‚˜μ˜κ²Œ ν–‰λ™ν–ˆλŠ”μ§€ μ•Œκ³  μžˆλ‹€λŠ” λ§ˆλ²•μ„ λ°›μ•„λ“€μ˜€μŠ΅λ‹ˆλ‹€. 2025λ…„μ˜ μ—”μ§€λ‹ˆμ–΄λŠ” κ·Έ β€˜μ°©β€‘λ˜λŠ”β€‘λ‚˜μ¨β€™ μ‹œμŠ€ν…œ 뒀에 μžˆλŠ” λ©”μ»€λ‹ˆμ¦˜μ„ μ΄ν•΄ν•˜κ³ , λ¬Έμ œκ°€ λ°œμƒν–ˆμ„ λ•Œ 이λ₯Ό κ΄€μ°°ν•  수 μžˆμ–΄μ•Ό ν•©λ‹ˆλ‹€.”

μ‚°νƒ€μ˜ AI μ•„ν‚€ν…μ²˜

μ‚°νƒ€μ˜ μš΄μ˜μ€ 3계측 AI μ‹œμŠ€ν…œμœΌλ‘œ 생각할 수 μžˆμŠ΅λ‹ˆλ‹€:

λ ˆμ΄μ–΄μ±…μž„
Inputμ•½ 20μ–΅ λͺ…μ˜ μ•„μ΄λ“€λ‘œλΆ€ν„° 행동 데이터λ₯Ό 포인트 μ‹œμŠ€ν…œμœΌλ‘œ μˆ˜μ§‘ (예: β€œν˜•μ œμ™€ μž₯λ‚œκ° κ³΅μœ β€β€―+10, β€œκ°€κ²Œμ—μ„œ 떼쓰기” ‑5).
Processingμ—¬λŸ¬ AI μ—μ΄μ „νŠΈλ₯Ό μ‹€ν–‰:
β€’ Data Agent – 이벀트λ₯Ό μˆ˜μ§‘ν•˜κ³  정리.
β€’ Context Agent – νŽΈμ§€, κ³Όκ±° 행동, κ°€μ • 상황을 검색.
β€’ Judgment Agent – μ°©/λ‚˜μ¨ 점수λ₯Ό 계산.
β€’ Gift Agent – 결정에 따라 선물을 μΆ”μ²œ.
Integrationμž₯λ‚œκ° 재고, μ„ λ¬Ό μ„ ν˜Έλ„, 배솑 경둜, μ˜ˆμ‚° 좔적을 μœ„ν•œ MCP μ„œλ²„μ™€ μ—°κ²°.

μ‹œμŠ€ν…œμ€ ν™•μž₯ κ°€λŠ₯ν•˜μ§€λ§Œ, κ³ μž₯이 λ‚˜λ©΄ 디버깅이 μ•…λͺ½μ΄ λ©λ‹ˆλ‹€.

μ‹€νŒ¨ μ‹œλ‚˜λ¦¬μ˜€

크리슀마슀 이브, μ˜€ν›„ 11μ‹œ 47λΆ„ – ν•œ λΆ€λͺ¨κ°€ ν™”κ°€ λ‚˜μ„œ μ „ν™”λ₯Ό κ²λ‹ˆλ‹€. 7μ„Έ μ—λ§ˆλŠ” λͺ¨λ²”적인 μ•„μ΄μ˜€μœΌλ©° μš”μ²­ν•œ μžμ „κ±°λ₯Ό λ°›μ•„μ•Ό ν•˜μ§€λ§Œ, μ‹œμŠ€ν…œμ€ λ‚˜μœ 아이 리슀트 – μ„ λ¬Ό μ—†μŒμ„ λ°˜ν™˜ν•©λ‹ˆλ‹€.

둜그 발췌:

Emma's judgment: 421 NICE points vs 189 NAUGHTY points
Gift Agent checks bicycle inventory β†’ TIMEOUT
Gift Agent retries β†’ TIMEOUT
Gift Agent retries again β†’ TIMEOUT
Gift Agent checks inventory again β†’ Count changed
Gift Agent reasoning: "Inventory uncertain, cannot fulfill request"
Gift Agent defaults to: NAUGHTY LIST

Toy Inventory MCPκ°€ κ³ΌλΆ€ν•˜λ˜μ–΄ νƒ€μž„μ•„μ›ƒμ΄ λ°œμƒν–ˆμŠ΅λ‹ˆλ‹€. Gift AgentλŠ” μ—°μ†λœ μ„Έ 번의 νƒ€μž„μ•„μ›ƒμ„ β€œμš”μ²­μ„ 이행할 수 μ—†μŒβ€μœΌλ‘œ ν•΄μ„ν•˜κ³ , μ΅œμ•…μ˜ 결과인 λ‚˜μœ 아이 리슀트둜 κΈ°λ³Έ μ„€μ •ν–ˆμŠ΅λ‹ˆλ‹€. μ‹€μ œλ‘œ μ—λ§ˆλŠ” λ‚˜μœ 아이가 μ•„λ‹ˆμ—ˆμŠ΅λ‹ˆλ‹€.

전톡적인 디버깅이 λΆ€μ‘±ν•œ 이유

  • κΈ°μ‘΄ APIμ—μ„œλŠ” νŠΉμ • λΌμΈμ—μ„œ 버그λ₯Ό μ°Ύμ•„ μˆ˜μ •ν•˜κ³  μž¬λ°°ν¬ν•©λ‹ˆλ‹€.
  • AI μ—μ΄μ „νŠΈμ—μ„œλŠ” β€œλ²„κ·Έβ€κ°€ λͺ¨λΈμ˜ μΆ”λ‘ (700μ–΅ νŒŒλΌλ―Έν„°) μ•ˆμ— μ‘΄μž¬ν•˜λ©°, λͺ…μ‹œμ μΈ μ½”λ“œμ— μžˆμ§€ μ•ŠμŠ΅λ‹ˆλ‹€.

μž…λ ₯κ³Ό 좜λ ₯만 λ³Ό 수 있고, λ‚΄λΆ€ 신경망 좔둠은 뢈투λͺ…ν•©λ‹ˆλ‹€. μ˜¨λ„ μ„€μ •κ³Ό μƒ˜ν”Œλ§ λ¬΄μž‘μœ„μ„± λ•Œλ¬Έμ— λ™μΌν•œ 결정을 μž¬ν˜„ν•˜λŠ” 것이 μ‹ λ’°ν•  수 μ—†μŠ΅λ‹ˆλ‹€.

비결정적 κ²°κ³Ό μ˜ˆμ‹œ

μ‹€ν–‰κ²°κ³Ό
1NICE LIST, μ„ λ¬Όβ€―=β€―μžμ „κ±° βœ“
2NICE LIST, μ„ λ¬Όβ€―=β€―λΉ„λ””μ˜€ κ²Œμž„ βœ“
3NICE LIST, μ„ λ¬Όβ€―=β€―λ―Έμˆ μš©ν’ˆ βœ“
4NAUGHTY LIST, μ„ λ¬Ό μ—†μŒ βœ—

AI κ΄€μ°°μ„±μ˜ 핡심 과제

  1. λΈ”λž™λ°•μŠ€ μΆ”λ‘  – 무엇이 λ°˜ν™˜λλŠ”μ§€λΏ μ•„λ‹ˆλΌ μ™œ 그런 결정을 λ‚΄λ ΈλŠ”μ§€ 이해해야 함.
  2. μž¬ν˜„μ„± – 동일 μž…λ ₯이 λ‹€λ₯Έ 좜λ ₯을 λ‚Ό 수 μžˆμœΌλ―€λ‘œ, 관찰성은 μΆ”λ‘  경둜λ₯Ό 포착해야 함.
  3. ν’ˆμ§ˆ 평가 – νŒλ‹¨μ΄ λΉ„μ¦ˆλ‹ˆμŠ€ κ°€μΉ˜(예: β€œμ΄ 아이가 λ‚˜μœκ°€ μ°©ν•œκ°€?”)와 μΌμΉ˜ν•˜λŠ”μ§€ νŒλ‹¨.
  4. λΉ„μš© 관리 – 토큰 μ‚¬μš©λŸ‰μ„ ν†΅μ œν•˜μ§€ μ•ŠμœΌλ©΄ 폭증(예: 15β€―k‑단어 에세이가 ν•œ 아이당 53β€―500 토큰 μ†Œλͺ¨).
  5. 연쇄 μ‹€νŒ¨ – ν•˜λ‚˜μ˜ μ‹€νŒ¨(νƒ€μž„μ•„μ›ƒ)κ°€ 연쇄적인 좔둠을 μœ λ°œν•΄ λ°”λžŒμ§ν•˜μ§€ μ•Šμ€ κΈ°λ³Έκ°’μœΌλ‘œ 이어짐.

κ΄€μ°°μ„± λ ˆμ΄μ–΄ ꡬ좕

1. κΈ°λ³Έ (λΆ„μ‚° 좔적 & λ©”νŠΈλ¦­)

  • μ—μ΄μ „νŠΈ κ°„ μš”μ²­μ„ 좔적: Data β†’ Context β†’ Judgment β†’ Gift.
  • μ§€μ—° μ‹œκ°„ λΆ„ν•΄, μš”μ²­λ‹Ή 토큰 μ‚¬μš©λŸ‰, μ—μ΄μ „νŠΈλ³„ λΉ„μš© ν• λ‹Ή, 툴 호좜 성곡λ₯ μ„ 캑처.
  • MCP μ„œλ²„ μƒνƒœ λ¬Έμ œμ™€ λΉ„μš© 급증에 μ•Œλ¦Ό μ„€μ •.

2. 의미둠적 κ΄€μ°°μ„±

  • 전체 ν”„λ‘¬ν”„νŠΈ, κ²€μƒ‰λœ μ»¨ν…μŠ€νŠΈ, 툴 호좜 및 κ²°κ³Ό, μΆ”λ‘  체인, 신뒰도 점수λ₯Ό λͺ¨λ“  결정에 λŒ€ν•΄ 둜그.
  • μ—λ§ˆ 사둀 μž¬μƒ κ°€λŠ₯: Gift Agentκ°€ μ„Έ 번의 νƒ€μž„μ•„μ›ƒμ„ 보고 β€œμž¬κ³  λΆˆν™•μ‹€β€μ„ β€œμš”μ²­ 이행 λΆˆκ°€β€λ‘œ 해석해 NAUGHTY LIST둜 κΈ°λ³Έ 섀정함을 확인.

3. 온라인 평가

  • ν”„λ‘œλ•μ…˜μ—μ„œ μ§€μ†μ μœΌλ‘œ κ²°μ • ν’ˆμ§ˆμ„ 평가.
  • LLM‑as‑a‑judgeλ₯Ό ν™œμš©ν•΄ μƒ˜ν”Œλ§λœ κ²°μ •μ˜ μ •ν™•μ„±, 곡정성 등을 μ μˆ˜ν™”ν•˜κ³ , μž„κ³„κ°’ 초과 μ‹œ μžλ™ λ‘€λ°± λ“± 쑰치λ₯Ό 트리거.

평가 νŽ˜μ΄λ‘œλ“œ μ˜ˆμ‹œ

{
  "accuracy": {
    "score": 0.3,
    "reasoning": "Timeouts should trigger retry logic, not default to worst‑case outcome. System error conflated with behavioral judgment."
  },
  "fairness": {
    "score": 0.4,
    "reasoning": "Similar timeout patterns resulted in NICE determination for other children. Inconsistent failure handling."
  }
}

평가 없이: β€œλ‚΄μΌ λ§Œλ‚˜μ„œ μ—λ§ˆ 사둀λ₯Ό κ²€ν† ν•©μ‹œλ‹€.”
평가와 ν•¨κ»˜: β€œβ€˜νƒ€μž„μ•„μ›ƒ 연쇄가 NAUGHTY 둜 κΈ°λ³Έ 섀정’ νŒ¨ν„΄μ—μ„œ 정확도가 0.7 μ΄ν•˜λ‘œ λ–¨μ–΄μ‘ŒμŠ΅λ‹ˆλ‹€. μžλ™ 둀백이 νŠΈλ¦¬κ±°λ˜μ—ˆμŠ΅λ‹ˆλ‹€. 23건이 영ν–₯을 λ°›μ•˜μŠ΅λ‹ˆλ‹€.”

LaunchDarkly μ†”λ£¨μ…˜

LaunchDarklyλŠ” AI κ΄€μ°°μ„±, 온라인 평가, κΈ°λŠ₯ 관리 λ₯Ό κ²°ν•©ν•΄ λ‹€μŒμ„ μ œκ³΅ν•©λ‹ˆλ‹€:

  • μ¦‰μ‹œ μ‚¬μš© κ°€λŠ₯ν•œ 좔적 – μ—μ΄μ „νŠΈ λ„€νŠΈμ›Œν¬μ™€ MCP μƒν˜Έμž‘μš©μ„ 좔적.
  • 의미둠적 둜그 – ν”„λ‘¬ν”„νŠΈ, μ»¨ν…μŠ€νŠΈ, 툴 호좜, μΆ”λ‘ , 신뒰도λ₯Ό 캑처.
  • 지속적인 평가 – 결정에 점수λ₯Ό λ§€κΈ°κ³  ν’ˆμ§ˆ μž„κ³„κ°’μ„ κ°•μ œ.
  • Feature flag – 둀아웃을 λ³΄ν˜Έν•˜κ³  μƒˆλ‘œμš΄ μΆ”λ‘  νŒ¨ν„΄μ„ μ•ˆμ „ν•˜κ²Œ μ‹€ν—˜.

μ΄λŸ¬ν•œ λ ˆμ΄μ–΄λ₯Ό 겹쳐 μ μš©ν•˜λ©΄ AI μ—μ΄μ „νŠΈκ°€ 무엇을 ν–ˆλŠ”μ§€λΏ μ•„λ‹ˆλΌ μ™œ ν–ˆλŠ”μ§€λ₯Ό λ””λ²„κΉ…ν•˜κ³ , λΉ„μš©μ„ μ œμ–΄ν•˜λ©°, ν”„λ‘œλ•μ…˜ μ‹œμŠ€ν…œμ—μ„œ μ‹ λ’°λ₯Ό μœ μ§€ν•  수 μžˆμŠ΅λ‹ˆλ‹€.

κ²°λ‘ 

AI μ—μ΄μ „νŠΈμ— λŒ€ν•œ 관찰성은 κΈ°μ‘΄ 둜그λ₯Ό λ„˜μ–΄μ„œλŠ” 것이 ν•„μš”ν•©λ‹ˆλ‹€. 좔적, 좔둠에 λŒ€ν•œ 의미둠적 μΈμ‚¬μ΄νŠΈ, μžλ™ν™”λœ ν’ˆμ§ˆ 평가가 ν•„μˆ˜μ΄λ©°, κΈ°λ³Έ, 의미둠적 κ΄€μ°°μ„±, 온라인 ν‰κ°€μ˜ 3계측 접근법을 톡해 μ‹ λΉ„λ‘œμš΄ AI 행동을 μ‹€ν–‰ κ°€λŠ₯ν•œ, μž¬ν˜„ κ°€λŠ₯ν•œ μΈν…”λ¦¬μ „μŠ€λ‘œ μ „ν™˜ν•  수 μžˆμŠ΅λ‹ˆλ‹€. μ΄λŠ” μ‚°νƒ€μ˜ μž‘μ—…μž₯이 λͺ¨λ“  μ•„μ΄μ—κ²Œ λ§ˆλ²•μ„ μ‹ λ’°ν•  수 있게 μœ μ§€ν•˜λŠ” 데 ν•„μš”ν•œ 방식과 κ°™μŠ΅λ‹ˆλ‹€.

Back to Blog

κ΄€λ ¨ κΈ€

더 보기 Β»

우리 μ‚¬μ΄νŠΈκ°€ 싱가포λ₯΄μ—μ„œλŠ” 느리고 μœ λŸ½μ—μ„œλŠ” μ™„λ²½ν–ˆλŠ”λ°, κ·Έ μ΄μœ λŠ”.

문제: μš°λ¦¬λŠ” λͺ¨λ“  것을 μ œλŒ€λ‘œ ν•˜κ³  μžˆλ‹€κ³  μƒκ°ν–ˆμŠ΅λ‹ˆλ‹€. 우리의 APIλŠ” Cloudflare 뒀에 μœ„μΉ˜ν•˜κ³  μ—£μ§€ 캐싱을 μ‚¬μš©ν–ˆμœΌλ©°, λŒ€μ‹œλ³΄λ“œμ—μ„œλŠ” p95 응닡 μ‹œκ°„μ΄ 100 ms λ―Έλ§Œμž„μ„ λ³΄μ—¬μ£Όμ—ˆμŠ΅λ‹ˆλ‹€. Af...

λ‚˜λŠ” Game Boyλ₯Ό ChatGPT μ•ˆμ— λ„£μ—ˆλ‹€ (ChatGPT Apps)

μ†Œκ°œ: ChatGPT 앱은 아직 BETA λ‹¨κ³„μ΄μ§€λ§Œ, μ–΄μ œλΆ€ν„° λͺ¨λ“  κ°œλ°œμžκ°€ μžμ‹ μ˜ 앱을 λ ˆμ§€μŠ€νŠΈλ¦¬μ— μ œμΆœν•  수 있게 λ˜μ—ˆμŠ΅λ‹ˆλ‹€. μ €λŠ” Game Boy μ•ˆμ— λ§žμΆ”μ–΄ 보렀고 ν–ˆμŠ΅λ‹ˆλ‹€.