跳到主要内容

Cleanlab

Cleanlab 为 AI 和 RAG 解决方案中输入的每个数据点和输出的每个预测增加了自动化和信任度。

使用 Cleanlab 组件将 Cleanlab 评估与 Langflow 集成,通过 Cleanlab 的评估和修复套件解锁值得信赖的智能体、RAG 和 LLM 管道。

您可以使用这些组件用 01 之间的分数量化任何 LLM 响应的可信度,并解释为什么响应可能是好的或坏的。对于带有上下文的 RAG/智能体管道,您可以通过定量分数评估上下文充分性、事实依据、有用性和查询清晰度。此外,您可以通过警告或后备答案修复低信任度的响应。

需要使用 Cleanlab API 密钥进行身份验证。

Cleanlab 评估器

Cleanlab 评估器组件使用 Cleanlab 评估和解释提示和响应对的可信度。有关分数工作原理的更多信息,请参阅 Cleanlab 文档

Cleanlab 评估器参数

某些 Cleanlab 评估器组件输入参数在可视化编辑器中默认隐藏。 您可以通过组件标题菜单中的 控制切换参数。

名称类型描述
system_promptMessage输入参数。预置到提示前的系统消息。可选。
promptMessage输入参数。用户面向的 LLM 输入。
responseMessage输入参数。要评估的模型响应。
cleanlab_api_keySecret输入参数。您的 Cleanlab API 密钥。
cleanlab_evaluation_modelDropdown输入参数。Cleanlab 使用的评估模型,如 GPT-4 或 Claude。这不需要与生成响应的模型相同。
quality_presetDropdown输入参数。评估速度和准确性之间的权衡。

Cleanlab 评估器输出

Cleanlab 评估器组件有三个可能的输出。

名称类型描述
scorenumber, float显示 0 到 1 之间的信任分数。
explanationMessage提供信任分数的解释。
responseMessage返回原始响应,便于链接到 Cleanlab 修复器组件。

Cleanlab 修复器

Cleanlab 修复器组件使用来自 Cleanlab 评估器组件 的信任分数来决定是否显示、警告或替换 LLM 响应。

该组件具有分数阈值、警告文本和后备消息的参数,您可以根据需要进行自定义。

输出是 修复响应 (remediated_response),这是一个包含应用修复逻辑后向用户显示的最终消息的 Message

Cleanlab 修复器参数

名称类型描述
responseMessage输入参数。要可能修复的响应。
scoreNumber输入参数。来自 CleanlabEvaluator 的信任分数。
explanationMessage输入参数。如果显示警告则附加的解释。可选。
thresholdFloat输入参数。不变传递响应的最小信任分数。
show_untrustworthy_responseBoolean输入参数。如果响应被认为不可信,是否显示或隐藏带有警告的原始响应。
untrustworthy_warning_textPrompt输入参数。不可信响应的警告文本。
fallback_textPrompt输入参数。如果隐藏响应的后备消息。

Cleanlab RAG 评估器

Cleanlab RAG 评估器组件使用 Cleanlab 的评估指标 评估 RAG 和 LLM 管道输出的可信度、上下文充分性、响应事实依据、有用性和查询简易性。

您可以将此组件与 Cleanlab 修复器组件 配对,以修复来自 RAG 管道的低信任度响应。

Cleanlab RAG 评估器参数

某些 Cleanlab RAG 评估器组件输入参数在可视化编辑器中默认隐藏。 您可以通过组件标题菜单中的 控制切换参数。

名称类型描述
cleanlab_api_keySecret输入参数。您的 Cleanlab API 密钥。
cleanlab_evaluation_modelDropdown输入参数。Cleanlab 使用的评估模型,如 GPT-4 或 Claude。这不需要与生成响应的模型相同。
quality_presetDropdown输入参数。评估速度和准确性之间的权衡。
contextMessage输入参数。从您的 RAG 系统检索的上下文。
queryMessage输入参数。原始用户查询。
responseMessage输入参数。基于上下文和查询的模型响应。
run_context_sufficiencyBoolean输入参数。评估上下文是否支持回答查询。
run_response_groundednessBoolean输入参数。评估响应是否基于上下文。
run_response_helpfulnessBoolean输入参数。评估响应的有用程度。
run_query_easeBoolean输入参数。评估查询是否模糊、复杂或对抗性。

Cleanlab RAG 评估器输出

Cleanlab RAG 评估器组件具有以下输出选项:

名称类型描述
trust_scoreNumber整体信任分数。
trust_explanationMessage信任分数的解释。
other_scoresDictionary可选启用的 RAG 评估指标字典。
evaluation_summaryMessage查询、上下文、响应和评估结果的 Markdown 摘要。
responseMessage返回原始响应,便于链接到 Cleanlab 修复器组件。

示例 Cleanlab 流程

以下示例流程展示了如何使用 CleanlabEvaluatorCleanlabRemediator 组件来评估和修复来自任何 LLM 的响应,以及如何使用 CleanlabRAGEvaluator 组件来评估 RAG 管道输出。

评估和修复来自 LLM 的响应

提示

您可以下载评估和修复流程,然后将其导入到您的 Langflow 实例中进行跟进。

此流程使用 CleanlabEvaluatorCleanlabRemediator 组件评估和修复来自任何 LLM 的响应的可信度。

评估响应可信度

连接任何 LLM 组件的 Message 输出到 CleanlabEvaluator 组件的 response 输入,然后连接 Prompt 组件到其 prompt 输入。

CleanlabEvaluator 组件从流程中返回信任分数和解释。

CleanlabRemediator 组件使用此信任分数来决定是否输出原始响应、警告或用后备答案替换它。

此示例显示了一个被确定为不可信(分数为 .09)并被 CleanlabRemediator 组件标记警告的响应。

CleanlabRemediator 示例

要隐藏不可信的响应,请配置 CleanlabRemediator 组件用后备消息替换响应。

CleanlabRemediator 示例

评估 RAG 管道

此示例流程包括添加了 CleanlabRAGEvaluator 组件的 Vector Store RAG 模板,用于评估流程的上下文、查询和响应。

要在流程中使用 CleanlabRAGEvaluator 组件,请将任何 RAG 管道的 contextqueryresponse 输出连接到 CleanlabRAGEvaluator 组件。

评估 RAG 管道

这是来自 CleanlabRAGEvaluator 组件的 Evaluation Summary 输出的示例。

评估 RAG 管道

Evaluation Summary 包括查询、上下文、响应和所有评估结果。在此示例中,Context SufficiencyResponse Groundedness 分数很低(分数为 0.002),因为上下文不包含有关查询的信息,并且响应不基于上下文。

Search