使用语音模式

您可以使用 Langflow 的语音模式通过麦克风和扬声器与您的流程进行语音交互。

先决条件

语音模式需要以下条件：

包含 聊天输入、语言模型 和 聊天输出 组件的流程。

如果您的流程有 智能体 组件，请确保流程中的工具具有准确的名称和描述，以帮助智能体选择使用哪些工具。

此外，请注意语音模式会覆盖 智能体 组件的 智能体指令 字段中的输入指令。
OpenAI 账户和 OpenAI API 密钥，因为 Langflow 使用 OpenAI API 来处理语音输入和生成响应。
可选：ElevenLabs API 密钥以启用 LLM 响应的语音选项。
麦克风和扬声器。

建议使用高质量麦克风和最小背景噪音以获得最佳语音理解效果。

在 游乐场 中，点击 麦克风 以启用语音模式，并通过麦克风和扬声器与您的流程进行语音交互。

以下步骤使用 简单智能体 模板来演示如何启用语音模式：

Langflow 为您的流程公开了两个与 OpenAI 实时 API 兼容的 websocket 端点。您可以像构建 OpenAI 实时 API websockets 一样构建基于这些端点的应用程序。

Langflow API 的 websockets 端点需要 OpenAI API 密钥进行身份验证，并且支持可选的 ElevenLabs 集成（需要 ElevenLabs API 密钥）。

此外，两个端点都要求您在端点路径中提供流程 ID。

/ws/flow_as_tool/$FLOW_ID 端点建立与 OpenAI 实时语音的连接，然后根据 OpenAI 实时模型将指定流程作为工具调用。

这种方法适用于低延迟应用程序，但确定性较低，因为 OpenAI 语音到语音模型决定何时调用您的流程。

/ws/flow_tts/$FLOW_ID 端点使用 OpenAI 实时语音转录将音频转换为文本，然后为每个转录直接调用指定的流程。

这种方法更具确定性，但延迟更高。

这是 Langflow 游乐场 中使用的模式。

两个端点都接受可选的 /$SESSION_ID 路径参数，为对话提供唯一 ID。如果省略，Langflow 使用流程 ID 作为会话 ID。

但是，请注意语音模式仅在当前对话实例中维护上下文。当您关闭 游乐场 或结束聊天时，语音聊天历史会被丢弃，不可用于未来的聊天会话。