우리는 AI Calling Framework를 오픈소스화했습니다 (2~3개월을 낭비하지 않게)

발행: (2026년 1월 17일 오후 07:32 GMT+9)
6 min read
원문: Dev.to

Source: Dev.to

Siphon

3개월.
많은 팀이 AI 음성 에이전트를 위한 실제 대화 로직을 한 줄도 작성하기 전에 전화 인프라를 구축하는 데 이만큼의 시간을 소비합니다.

AI가 어려워서가 아니라.
왜냐하면 전화 통신은 가혹하기 때문입니다.

오늘, 우리는 같은 고통을 겪지 않도록 이 솔루션을 오픈소스화합니다.

AI 콜링 에이전트의 숨겨진 문제

AI 콜링 에이전트를 만드는 것은 간단해 보입니다:

  • LLM 사용
  • 음성‑텍스트 변환 추가
  • 텍스트‑음성 변환 추가
  • 전화번호에 연결

하지만 실제로는 대부분의 팀이 여기서 벽에 부딪힙니다. 실제 전화 통화를 만들려면 다음을 다루어야 합니다:

  • SIP 트렁크 및 PSTN 제공업체
  • 저지연, 양방향 오디오
  • STT, LLM, TTS의 실시간 오케스트레이션
  • 통화 상태, 중단, 전환
  • 스케일링, 모니터링, 녹음, 영속성

그 결과? 대부분의 팀은 인프라에 몇 주 또는 몇 달을 투자한 뒤에야 비로소 대화 자체에 손을 대게 됩니다.

우리도 그랬습니다. 그리고 결국 스스로에게 물었습니다:

“왜 음성 AI를 구축하는 것이 아직도 이렇게 어려운 걸까?”

Siphon 소개

Siphon은 텔레포니 복잡성을 대신 처리해 주는 오픈소스 Python 프레임워크로, 여러분은 훌륭한 대화 구축에 집중할 수 있습니다.

다음은 Siphon을 사용한 완전한 AI 리셉션스트의 예시입니다:

from siphon.agent import Agent
from siphon.plugins import openai, cartesia, deepgram

agent = Agent(
    agent_name="receptionist",
    llm=openai.LLM(model="gpt-4"),
    tts=cartesia.TTS(voice="helpful-assistant"),
    stt=deepgram.STT(model="nova-2"),
    system_instructions="""
    You are a friendly receptionist for Acme Corp.
    Help callers schedule appointments or route them correctly.
    """
)

if __name__ == "__main__":
    agent.start()

이를 실행하면, 여러분의 에이전트가 실제 전화 통화를 받아들일 수 있으며, Twilio, Telnyx 등 모든 SIP 제공자를 통해 작동합니다.

Siphon이 제공하는 기능

  • 🔌 SIP 및 PSTN 연결 – 모든 SIP 제공업체와 호환되며 FreeSWITCH 문제 없이 작동합니다.
  • 실시간 오디오 파이프라인 – LiveKit 기반 스트리밍 오디오와 500 ms 미만의 음성 간 지연을 제공합니다.
  • 🤖 AI 오케스트레이션 – LLM, STT, TTS에 대한 플러그‑앤‑플레이 지원.

한 줄만으로 제공업체를 교체하세요:

llm=anthropic.LLM(model="claude-3-5-sonnet")
  • 📈 기본적으로 프로덕션 준비 완료 – 자동 스케일링, 통화 녹음, 전사, 상태 관리 및 가시성 제공.

빠른 시작

패키지를 설치합니다:

pip install siphon-ai

에이전트를 생성합니다:

from siphon.agent import Agent
from siphon.plugins import openai, cartesia, deepgram

agent = Agent(
    agent_name="my_first_agent",
    llm=openai.LLM(),
    tts=cartesia.TTS(),
    stt=deepgram.STT(),
    system_instructions="You are a helpful assistant.",
)

agent.start()

이것으로 끝입니다. 에이전트가 실시간으로 활성화되어 전화를 받을 수 있습니다. (전체 설정, 발신 호출 및 고급 예제는 문서에 있습니다.)

왜 오픈소스화했는가

우리는 Siphon을 독점적으로 유지하거나 폐쇄형 SaaS로 전환할 수도 있었지만, 음성 AI는 방대한 인프라 구축 노력 뒤에 가두어서는 안 된다고 생각합니다.

Siphon은:

  • Apache 2.0 라이선스
  • 제공자에 구애받지 않음
  • 완전 자체 호스팅 가능
  • 벤더 종속 없음

상업적으로 사용하고, 수정하고, 그 위에 구축할 수 있습니다.

만들 수 있는 것

  • 📞 고객 지원 에이전트
  • 📅 예약 일정 관리
  • 💼 영업 자격 검증
  • 📊 설문 조사 및 피드백 수집
  • 🏥 의료 접수 시스템

전화 통화와 대화가 포함된다면, Siphon이 어려운 부분을 처리합니다.

참여하기

  • ⭐ GitHub:
  • 📖 Docs:
  • 🐛 이슈 및 기능 요청 환영
  • 🤝 PR(풀 리퀘스트) 권장

우리는 Siphon을 공개적으로 개발하고 있으며 커뮤니티의 피드백을 원합니다. 만약 “AI 호출 에이전트를 만드는 것이 더 간단했으면 좋겠어” 라는 생각을 해본 적이 있다면, Siphon을 사용해 보세요.

Back to Blog

관련 글

더 보기 »

Flowise를 배포하는 5가지 멋진 방법

Flowise 배포 가이드 2026 Flowise는 AI 에이전트를 시각적으로 구축하기 위한 강력한 오픈소스 플랫폼입니다. 올바른 배포 방법을 선택하는 것은 귀하의…

RASA에서 Entity Synonym Mapper 이해하기

우리 이전 블로그: Understanding RASA pipelines https://dev.to/aniket_kuyate_15acc4e6587/understating-the-whitespace-tokenizers-2ic7 이후에, 우리는 더 깊이 파고들 것입니다.