我们开源了我们的 AI 呼叫框架(让你省下 2-3 个月的时间)
Source: Dev.to

三个月。
这就是许多团队在为 AI 语音代理编写实际对话逻辑之前,用于构建电话基础设施的时间。
并不是因为 AI 难。
因为 电话系统非常残酷。
今天,我们将该解决方案开源,这样你就不必再经历同样的痛苦。
AI 呼叫代理的隐藏问题
构建一个 AI 呼叫代理听起来很简单:
- 使用大型语言模型(LLM)
- 添加语音转文本
- 添加文本转语音
- 将其连接到电话号码
实际上,这正是大多数团队遇到瓶颈的地方。要进行真实的电话通话,你需要处理:
- SIP 中继和 PSTN 提供商
- 低延迟、双向音频
- STT、LLM 和 TTS 的实时编排
- 通话状态、打断、转接
- 扩展性、监控、录音、持久化
结果是?大多数团队在真正接触对话之前,需要在基础设施上花费数周甚至数月的时间。
我们也经历了同样的过程。最终我们问自己:
“为什么构建语音 AI 仍然如此困难?”
介绍 Siphon
Siphon 是一个开源的 Python 框架,为您处理电话通信的复杂性,让您专注于构建出色的对话。
以下是使用 Siphon 构建的完整 AI 接待员示例:
from siphon.agent import Agent
from siphon.plugins import openai, cartesia, deepgram
agent = Agent(
agent_name="receptionist",
llm=openai.LLM(model="gpt-4"),
tts=cartesia.TTS(voice="helpful-assistant"),
stt=deepgram.STT(model="nova-2"),
system_instructions="""
You are a friendly receptionist for Acme Corp.
Help callers schedule appointments or route them correctly.
"""
)
if __name__ == "__main__":
agent.start()
运行此代码后,您的代理即可通过任何 SIP 提供商(如 Twilio、Telnyx 等)接听真实电话。
Siphon 为您提供的功能
- 🔌 SIP 与 PSTN 连接 – 支持任何 SIP 提供商,无需 FreeSWITCH 的麻烦。
- ⚡ 实时音频管道 – 基于 LiveKit 构建,支持流式音频和 小于 500 毫秒的端到端语音延迟。
- 🤖 AI 编排 – 即插即用支持大型语言模型(LLM)、语音转文字(STT)和文字转语音(TTS)。
只需一行代码即可切换提供商:
llm=anthropic.LLM(model="claude-3-5-sonnet")
- 📈 默认即生产就绪 – 自动扩展、通话录音、转录、状态处理以及可观测性。
快速入门
安装软件包:
pip install siphon-ai
创建一个代理:
from siphon.agent import Agent
from siphon.plugins import openai, cartesia, deepgram
agent = Agent(
agent_name="my_first_agent",
llm=openai.LLM(),
tts=cartesia.TTS(),
stt=deepgram.STT(),
system_instructions="You are a helpful assistant.",
)
agent.start()
就这样。你的代理已经上线并可以接听电话。(完整的设置、外呼以及高级示例请参见文档。)
为什么我们开源它
我们本可以将 Siphon 保持专有或转变为封闭的 SaaS,但我们相信 语音 AI 不应被巨大的基础设施投入所锁定。
Siphon 的特点:
- Apache 2.0 许可证
- 供应商无关
- 完全可自行托管
- 无供应商锁定
可用于商业用途,修改或在其基础上构建。
您可以构建的内容
- 📞 客户支持代理
- 📅 预约安排
- 💼 销售资格审查
- 📊 调查与反馈收集
- 🏥 医疗入院系统
如果涉及电话通话和对话,Siphon 负责处理繁琐的部分。
参与方式
- ⭐ GitHub:
- 📖 文档:
- 🐛 欢迎提交问题和功能请求
- 🤝 鼓励提交 PR
我们正在公开构建 Siphon,并期待社区反馈。如果你曾想过 “我希望构建 AI 呼叫代理更简单”——不妨试试 Siphon。