Show HN: AI 지식 작업을 위한 오픈소스 SDK
Source: Hacker News
개요
GitHub:
대부분의 AI 에이전트 프레임워크는 코드를 대상으로 합니다: 코드를 작성하고, 테스트를 실행하고, 오류를 수정하고, 반복합니다. 이는 코드가 자연스러운 검증 신호를 가지고 있기 때문에 가능한데, 코드는 작동하거나 작동하지 않기 때문입니다.
Knowledge Work SDK는 지식 작업을 엔지니어링 문제처럼 다룹니다:
Task → Brief → Rubric (hidden from executor) → Work → Verify → Fail? → Retry → Pass → Submit
오케스트레이터는 서브‑에이전트, 웹 검색, 코드 실행, 파일 I/O를 조정한 뒤, 절대 조작할 수 없는 기준(루브릭은 별도 호출에서 생성되고 실행자는 직접 보지 못함)에 따라 자신의 작업을 검증합니다.
이 SDK는 원래 지식 작업에 대한 RL 훈련용 하니스로 구축되었습니다. 루브릭은 보상 함수 역할을 하여, 일반적으로 보상이 없는 작업에 구조화된 보상 신호를 제공합니다.
지식 작업이 코드와 다른 점은?
SDK는 현재 많은 에이전트가 지식 작업에 대해 부족한 기능을 추가합니다:
탐색 모드
- 해결 공간을 매핑하고, 집합 수준의 격차를 식별하며, 여러 옵션을 제시합니다.
- N개의 서로 다른 접근 방식을 생성하고, 각각 명시적인 가정과 반사실(예: “X일 때는 작동하고 Y일 때는 실패”)을 포함합니다.
- 집합 수준의 격차 요약으로 마무리합니다—전체 집합이 놓친 관점은 무엇인지.
- 전략, 설계, 창의적 문제 등 트레이드‑오프가 중요한 경우에 유용합니다.
예시 저장소를 확인하면 이 차이를 이해할 수 있습니다.
체크포인팅
- 다중 에이전트 워크플로우를 일시 중지하고, 어디서 잘못됐는지 검사한 뒤 특정 단계에서 재개하거나 포크할 수 있습니다.
- 롤아웃, 검색 단계 이후 여러 탐색, 혹은 특정 구간을 다시 실행할 때 유용합니다.
검증 루프
검증 단계가 주요 레버리지를 제공합니다:
- 루브릭에 따라 자신의 작업을 정확히 평가할 수 있는 모델은 단순히 더 나은 초안을 만드는 모델보다 더 가치 있습니다.
- 루브릭은 품질을 에이전트와 인간 모두에게 가시화하고, 잠재적으로 훈련 신호로 활용될 수 있게 합니다.
주요 기능
- 원격 실행 환경: Docker, e2b, 로컬 환경, 브라우저 샌드박스 등과 연동됩니다. 모델은 여러분의 컨텍스트에서 명령을 실행하고 피드백 루프를 기반으로 반복합니다. 코드 실행은 프로토콜로 취급됩니다.
- 툴 호출: 모델이 터미널 코드를 작성하고 피드백을 기반으로 반복할 수 있습니다. 컨텍스트에 함수나 문서를 전달하면, 모델이 필요한 코드를 생성하고 실행합니다(Anthropic의 프로그래밍 툴 호출과 유사). 세부 사항:
가이드 및 예시
- SDK 가이드:
- 확장 가능한 모드(맞춤 모드 예시):
- 파일 작업:
- CSV 예시:
- 원격 실행 예시:
라이선스
MIT 라이선스. 피드백을 환영합니다.
Comments URL:
Points: 4
Comments: 1