使用生成式 AI 实现聊天机器人的最佳实践指南

使用生成式 AI 实现聊天机器人的最佳实践指南

1.引言

在人工智能的巅峰时期,实现具有生成性人工智能的聊天机器人是提高公共管理效率和公民满意度的关键。这些聊天机器人代表着优化对公民和企业的关注、有效解决疑问并提供个性化和持续的体验的机会。

然而,为了保证正确实施,必须遵循一系列良好的实践,确保与现有系统的兼容性、法规遵从性和响应的质量。

本指南根据我们使用生成式 AI 创建聊天机器人的经验,提供了实现具有生成式 AI 的聊天机器人的实用建议。 [1]从选择合适的技术到其优化和维护。它还解决了安全、数据保护和持续监控等基本方面,以确保系统的不断发展。

本指南的目标是使公共管理部门能够部署聊天机器人,不仅可以响应当前的需求,还可以发展并适应未来的需求。

从这个意义上讲,我们提出本手册作为根据我们的经验创建具有生成式人工智能的聊天机器人的起点。在 AOC,我们也正在探索这项技术,这意味着可能有多个方面可以改进,并且有开发聊天机器人的不同方法。

同样,还必须考虑到这项技术在不断发展,这意味着无论是在短期还是长期,都会不断出现新的改进机会。这就是为什么必须考虑到该指南是一个动态指南,随着 AOC 在这方面的知识和经验的增加,它将被更新。

2. 背景

为了能够解释当前的聊天机器人是如何实现的,了解我们用来支持公民的 AOC 聊天机器人尤为重要。

2020 年,AOC 押注 1millionbot 公司 [2] 首次尝试实现传统的聊天机器人。 2021 年,合同 AOC-2021-99 授予:虚拟对话助理服务(聊天机器人) [3] 旨在提供聊天机器人服务,以促进与AOC服务相关的信息咨询和处理流程。

最后,在 2021 年 5 月/6 月期间,两个虚拟助手投入使用,为市民服务提供支持。idCAT 经认证且有效,在 2022 年和 2023 年平均每年达到 50.000 名用户。

尽管数量众多,但这些聊天机器人仍存在一些缺点:

  • 这些聊天机器人的响应意图非常僵化和不灵活,无法根据用户的响应进行调整。
  • 对公民面临的新问题的适应能力较弱,导致意向库过多。
  • 每项服务(在流量最大的服务中)都需要一个聊天机器人,这导致了非常昂贵的维护。
  • 需要进行昂贵的训练才能获得用户对一个意图到另一个意图的响应。
  • 由于必须分别训练两个机器人,并且每个机器人都使用其对应的两种语言(加泰罗尼亚语和西班牙语),因此花费了过多的时间来训练聊天机器人。
  • 对话的上下文没有得到维护,这意味着与用户的每次互动对于机器人来说都是一次新的“对话”。

这些困难和缺点,加上去年人工智能的爆炸式发展,促使 AOC 委托 1millionbot 开始研究人工智能聊天机器人。

3.找到一个既能满足组织当前目标,又不限制组织未来计划的AI解决方案。

为了确保有效实施具有生成性人工智能的聊天机器人,必须选择一种既符合组织当前目标又能实现长期发展和可扩展的解决方案。

在这种情况下,AOC 选择的聊天机器人可以同时管理大量查询,并轻松与组织提供的服务集成。

该聊天机器人使用 Google Tag Manager 集成到 AOC 的公司网页中,并专门部署在支持页面和服务上,它可以为用户提供答案。目前可从以下网址获取:

图 1 聊天机器人在 AOC 服务中的位置


3.1 组织需求评估

在选择人工智能解决方案之前,必须对组织的需求进行彻底的评估。

这一过程应包括以下关键问题和方面:

聊天机器人的目标和需求

    • 您希望通过实施聊天机器人实现哪些主要目标? (改善公民服务、减少团队工作量、实现内部流程自动化等)
    • 这项技术可以解决当前哪些问题?
    • 聊天机器人预计会对组织的运营和战略产生什么影响?

目标受众和用例

  • 聊天机器人的主要用户是谁? (公民、公司、组织内部用户等)。
  • 这个聊天机器人将会被集成到哪些渠道? (网站、移动应用程序、消息平台如 Whatsapp 或 Telegram 等)。
  • 聊天机器人需要处理哪些类型的查询? (频繁重复的查询、专门的技术支持等)。
  • 可以为该解决方案分配多少预算?必须考虑到必须有预算用于其实施和维护。
  • 实施聊天机器人可能存在哪些限制或风险?需要考虑的一些风险是安全性和数据保护合规性。
  • 该组织拥有哪些可用资源?重要的是确保该解决方案拥有足够的人力资源,不仅可以实施它,而且可以有效地维护它。培训建议可在本指南的第 6 点和第 7 点找到。

3.2 可扩展性和灵活性

至关重要的是,AI解决方案必须具有可扩展性和灵活性,以适应组织不断变化的需求。这意味着能够在不影响系统性能的情况下管理一年中特定时间(例如申请援助或补贴的时期)查询量的增加。

同样重要的是,随着组织的发展和演变,解决方案允许添加新的功能和改进。这就是为什么不仅需要拥有必要的内部资源,而且还需要为机器人本身提供专业的维护支持。

3.3 遵守安全和数据保护法规

安全和数据保护是实现生成式人工智能聊天机器人的关键方面。所选择的解决方案必须符合现行的信息安全和数据保护法规,例如欧盟的《通用数据保护条例》(GDPR)。其中包括:

  • 保证数据的机密性、完整性和可用性
  • 实施适当的安全措施,防止未经授权的访问和网络攻击
  • 个人数据匿名化
  • 设立对话保管期,以改善服务。

4. 确定聊天机器人是否满足实施要求

一旦选择了AI解决方案,就必须评估它是否满足实施和后续可扩展性所必需的技术和操作要求。该系统必须保证持续运行,提供全天候支持并保持高响应率。

4.1 性能和容量测试

在最终实施之前,建议执行:

  • 性能和容量测试以确保聊天机器人可以顺利处理预期的查询量。
  • 通过负载模拟来评估系统在不同交通条件下的行为,以避免可能出现的瓶颈或弱点。

4.2 试点

在全面实施之前或当您想要实施一项全新的服务时,试点测试对于在受控环境中评估聊天机器人的性能至关重要。

这些测试使我们能够识别可能存在的问题并调整系统以改善其功能。

就 AOC 而言,试点测试可能包括:

  • 不同使用场景的模拟。
  • 同一事件的剧情变化。
  • 分析结果并做出必要的调整。

 

4.2 安全可靠的基础设施

为了保证机器人的正确可用性和安全性,服务基础设施必须托管在欧洲经济区内安全可靠的服务器上,以符合数据保护和安全法规。

同时,如果希望这个虚拟代理有良好的安全性,这必须包括使用经过认证的数据中心和实施定期备份,以防止在发生事故时丢失数据。

5. 设计聊天机器人的步骤

5.1 使用说明

为了确保最佳运行,聊天机器人必须有一套明确的指令来指导AI模型与用户的交互。这些说明应包括如何构建响应以及如何优先考虑相关信息的具体指南。

从图中可以看出,说明如何解释如何管理复杂的查询以避免与公民发生冲突和混淆非常重要。

图3 AOC AI聊天机器人使用说明


必须定期审查和更新这些指令,不仅要确保聊天机器人适应组织的新需求,而且还能够纠正错误并预测未来的问题。

5.1.1 答复结构

聊天机器人的回答必须遵循清晰、连贯的结构,以便于用户理解。聊天机器人必须能够:

  • 使用简短、简单的句子。
  • 将信息分成段落或要点,以便于阅读。
  • 使用通俗易懂的语言。
  • 避免使用可能引起混淆的技术性术语或复杂术语。
  • 提供信息来源,以便公民查阅原始来源。

图4 结构清晰连贯并传递信息来源的示例


正如您在示例中看到的,当信息非常广泛或只是想扩展信息时,聊天机器人总是附加原始常见问题解答,这一点非常重要,因为它在响应中提供了附加价值和可靠性。

5.2 性格

聊天机器人必须具有明确的个性,以适应用户的需求,最重要的是,适应组织想要赋予的机构形象。同样,根据欧洲法规 (EU) 27/2024 第 1689 点 [4],这些人工智能系统必须以这样的方式开发和使用,让使用它们的人意识到他们正在与人工智能进行交流或交互。

建立一种亲密、自然、符合用户期望的适当的沟通基调至关重要。

图 5 AOC 机器人个性


该机器人必须维护:

  • 语言和响应风格的一致性可提供流畅且令人满意的体验。
  • 不仅要使用适当的语言,还要有在回应中表达同理心的能力,
  • 让用户感到被倾听和被重视。
  • 如果公民需要有关所提问题的更多信息,请随时继续对话。

图6 信息示例


 

图7 主动继续对话并提供更多信息


5.2.1 语调定义及聊天机器人适配

机器人的语气应该体现组织的价值观和文化。例如,来自金融机构的聊天机器人可能选择更正式和专业的语气,而来自公共管理部门的聊天机器人可能选择更平易近人和和解的语气。

在所有交互中,语气保持一致很重要,这样才能在用户之间建立信任和信誉。这种语气不仅必须稳定、平等对待所有人,而且还必须能够适应不同的情况,始终保持积极主动的态度,即使在用户出现冲突或不满的时刻。

聊天机器人必须能够适应不同类型的用户,同时考虑以下因素:

  • 年龄
  • 技术知识水平
  • 个人偏好
  • 他们需要帮助的服务/产品类型

为了实现这种适应性,并最终获得更令人满意和更相关的用户体验,通过生成意图来个性化响应至关重要。

图 8 让机器人适应缺乏技术知识的人


5.3 知识库

聊天机器人知识应该基于常见问题解答、文献数据库、最新信息系统和以前的用户事件等可靠来源的组合。这个知识库必须易于访问和导航,以便聊天机器人能够快速有效地找到必要的信息。

就AOC而言,聊天机器人的知识库包含以下信息:

  • 指向 AOC 支持门户上所有常见问题解答的链接。
  • 回答复杂问题的说明
  • 采用问答形式的真实用户事件

这些信息源的多样性使得机器人能够提供更完整、更有根据的答案。此外,使用来源还有助于确保聊天机器人能够响应各种查询并随时提供最新、准确的信息。

图 9 用户对问答格式的参与度


 

图10 复杂问题解答说明



该图像的 alt 属性为空;它的名字是 image-11.png

图 11 AOC 支持门户常见问题解答链接

必须不断更新这个知识库以确保答案的准确性和相关性。这意味着:

  • 定期审查信息来源
  • 在生成或修改新内容时将其纳入。
  • 建立信息验证流程,确保所使用数据的正确性和可靠性。

5.4 创建生成意图

为了确保聊天机器人能够灵活高效地理解用户问题,精准定义其主要意图至关重要。与传统聊天机器人不同,采用生成式人工智能的机器人必须能够理解以不同方式表达的查询。eres 并根据上下文调整回应。

创建生成意图与创建传统意图并无二致,主要区别在于可以添加小指令来引导机器人做出更加个性化的响应。

图 12 访问通知时出现生成意图错误


如图所示,首先定义一些训练短语(就像经典意图一样),然后编写一系列指令,以便机器人生成生成响应。值得注意的是,人工智能允许生成输入的训练短语的变体,而无需逐一创建它们。

必须明确而准确地定义这一点,以确保正确解释用户查询。为此,您需要确定用户最常问的问题和常见需求,并为每个问题和需求创建具体的意图。

需要实施过滤器来检测和管理服务范围之外的查询,并在必要时向用户提供替代建议。这可能包括重定向到其他护理渠道、建议额外资源或在必要时转介给人工代理。此外,聊天机器人必须能够识别查询是否过于复杂而无法自动解决。

这种现成的意图是关键,以便公民清楚聊天机器人的服务和知识的范围。重要的是不要产生错误的期望,并明确表示用户必须联系相应的管理部门,并始终提供有关 AOC 服务的更多信息。

图 13 超出 AOC 范围的意图以及对额外资源的建议


定期审查和更新意图以适应新的需求非常重要。必须考虑到,机器人必须能够在同一对话中同时管理多个意图,并始终提供连贯且相关的响应。

最后,拥有结构良好且清晰的意图将使您能够提供更令人满意的用户体验并避免挫败感。

5.4.1 适应性和灵活性

机器人必须能够适应不同的指令。eres 能够根据用户需求构建查询。这意味着需要具备识别同义词、语法变体和不同句式结构的能力。

同样重要的是,聊天机器人可以根据对话的上下文调整其响应,随时提供相关且准确的信息。同样,它必须能够从以前的交互中学习,并根据每个用户的特定偏好和需求调整其响应。

图14 变化和句子结构的灵活性示例


图15 变化和句子结构的灵活性示例


5.4.2 其他关注渠道

为了避免完全依赖自动化系统,提供个性化关注的替代渠道非常重要。

当聊天机器人无法提供足够的响应或需要更详细的关注时,用户可以获得人工支持。替代渠道可能包括电话支持、电子邮件或与人工代理的实时聊天。

图 16 提供替代联系渠道


6. 安全

6.1 数据保护、最小化和删除

聊天机器人必须保证数据最小化,避免收集不必要的个人信息。所有对话必须匿名化并在一定时间后删除,以避免数据保护风险。

对于 AOC 来说,对话会在 3 个月后被删除,因为认为已经有足够的时间来分析答复。用户始终可以透明地获知数据收集和改进的情况。

图 17 关于数据处理的欢迎信息


数据最小化是保护个人数据的一项基本原则。聊天机器人必须仅收集提供服务所必需的信息,避免收集敏感或不必要的数据。这有助于降低与数据保护相关的风险并遵守当前法规。

为了保证用户的隐私,所有对话都必须匿名,删除任何可识别用户个人身份的信息。

例如,在公民和企业层面的 AOC 中,当用户提供一些个人数据时,聊天机器人会告诉他们正在输入敏感数据,并了解这些数据对于执行程序至关重要。

当用户添加任何个人数据时,AOC 正在努力建立匿名机制。这很重要,因为对话会保存 3 个月,不存储用户输入的个人数据会增加额外的安全层。

 

图18 公民对个人数据的看法


6.2 数据保护、最小化和删除

为了遵守欧盟人工智能法规,聊天机器人必须被清楚地识别为虚拟助手,并且必须提供有关其运行的透明信息。

公布清单 transparència 算法允许用户了解系统训练所用的数据以及所使用的AI模型。此外,还必须确保系统在无人监督的情况下不会做出对用户产生重大影响的决策。

6.2.2 Transparència 算法

为了确保用户对人工智能系统的信心,AOC 建议并捍卫完整的 transparència 通过我们的个人资料了解技术 transparència 算法 [5]。值得注意的是,每当聊天机器人发生相关变化时,此表就会不断发展和更新。

这个 transparència 确保用户对人工智能系统的信任至关重要。这需要提供有关聊天机器人工作原理的详细信息,包括用于训练模型的数据和所使用的算法。

公布清单 transparència 算法使用户能够了解决策是如何做出的,以及哪些因素会影响聊天机器人的回复。

6.2.2 人工监督

这意味着在聊天机器人的决定可能对用户产生重要影响的情况下,建立审查和人工干预的机制。人为监督有助于确保决策公正、合乎道德且符合组织的价值观。

7. 记住聊天机器人的训练和改进

为了遵守欧盟人工智能法规,必须确保聊天机器人不会在没有人工监督的情况下做出对用户产生重大影响的决策。

具有生成式人工智能的聊天机器人必须不断发展,以提高其响应质量并适应新用户的需求。这需要一个持续的监控过程,包括:

  • 对话回顾
  • 检测错误模式
  • 生成意图的优化。
  • 确定需要改进的领域并将新知识添加到系统数据库中。

7.1 复习日常事务

7.1.1 回顾对话

定期检查聊天机器人生成的对话以识别错误的答案、不一致或理解问题至关重要。该审查必须包括随机样本的分析,以确保服务的整体质量。这些随机样本应考虑以下因素:

  • 星期几
  • 每日时刻
  • 服务类型
  • 按关键字搜索对话

用于这些审查的时间必须取决于组织可用的资源;就 AOC 而言,每天大约需要 1 小时用于第 6 点关于审查例行事务所暗含的所有内容。

记录检测到的错误和实施的纠正措施对于不断提高聊天机器人的性能非常重要。

7.1.2 错误模式分析

错误模式分析可以让您识别聊天机器人响应中反复出现的问题并制定特定的解决方案来纠正它们。为了检测这些错误模式,至关重要的是,一旦检测到错误的对话,就搜索其关键字,从而识别具有相同错误的其他对话。

通过这样做,以后将更容易调整相应的生成意图并将新信息纳入知识库。

7.1.3 优化生成意图并融入新知识

一旦检测到错误模式,就需要通过调整每个指令来优化生成意图,以确保它能够有效地响应各种各样的查询。

例如,最初的意图是续签idCAT 证书未附加链接以展开更多信息。一旦检测到错误,请在意图说明中添加“始终回复:” 我如何续订?idCAT 证书?” 并且一旦你再次询问机器人,它将始终附加来自常见问题解答的信息。

图19 在机器人指令中插入新信息

图 20 机器人响应并附有续订常见问题解答链接


将新知识纳入聊天机器人的库中对于保持其相关性和准确性也至关重要。例如,如果在其中一个支持门户上生成了新的常见问题解答,则必须更新现有信息并纳入这一新的知识源。

7.2 活动监控

7.2.1 统计信息收集

监控聊天机器人活动是了解其用途和检测用户交互中可能存在的瓶颈的关键。收集使用频率、平均对话时长、成功解决问题的百分比以及最常见查询的统计数据,可以做出明智的决策来改进系统。这些数据还可以帮助确定需求最大的时间并优化技术资源的可用性。

图21 AOC聊天机器人统计屏幕


这些分析还使我们能够识别机器人使用中的趋势和模式,特别是在最常见的查询和答案以及我们最难提供适当答案的领域。

7.3 用户评分

7.3.1 满意度调查和评分体系

关键在于,这个机器人或组织要实施评估用户反应的机制,比如满意度调查或评分系统。这允许:

  • 客观了解用户满意度
  • 对机器人的运行进行调整
  • 快速轻松地评价聊天机器人的响应

满意度调查可能包括有关回复质量的问题,或使用星星、分数或其他指标来表明对收到的回复的满意程度。

8. 评估你的聊天机器人

为了确保聊天机器人满足组织的期望,有必要建立一个持续的评估体系。这包括定义关键绩效指标(KPI),例如成功率、响应时间和支持票减少量。与其他客户服务渠道进行定期比较以评估聊天机器人是否提供附加值也很重要。

可以在一年中的不同时间进行试点测试,以确定其功能的可能改进,并确保用户体验始终令人满意。

为了补充此过程,必须创建以下内容:

  • 一种定期评估方法,通过审查真实用户对话来检测重复出现的错误。
  • 分析回应的质量(指南第 6 点)。
  • 实施调整以提高聊天机器人的整体性能(指南第 6 点)

8.1 减少支持单并定期与其他支持渠道进行比较

值得注意的是,具有人工智能的机器人也是一种拓展传统沟通渠道的支持机制。拥有人工智能机器人绝不会完全取代人工支持,而是为人工支持增加一个先前的(亲密和友好的)层面。

支持票的减少是衡量聊天机器人在无需人工干预的情况下解决查询的有效性的一个指标。支持票数量的显著减少表明聊天机器人正在为组织提供附加值,提高运营效率并减少人工代理的工作量。

就 AOC 而言,虽然不能说这完全归功于聊天机器人,因为还实施了其他支持改进,但 2024 年的支持请求已从 93.000 年的 2023 个减少到 65.000 年的 2024 个。同样,虽然支持请求减少了,但交易和查询数量在同一时期增加了一倍。[6].

图 22 支持请求的演变


定期与其他支持渠道(例如电话支持、电子邮件或与代理聊天)进行比较,可以让您识别聊天机器人的优势和劣势,并确定它是否与其他渠道相比提供了附加值。

这些比较还使我们能够识别是否发生了机器人未预料到的新事件,以便调整生成意图或改进知识库。

目标是确保聊天机器人提供令人满意的用户体验并符合组织的期望。

8.2 定期评估方法

8.2.1 真实对话回顾

为了确保聊天机器人满足组织的期望,必须建立定期评估方法,审查真实的用户对话。这样做可以让你检测到重复出现的错误,分析响应的质量,并实施调整以提高聊天机器人的整体性能。

记录这一方法以及分析这些对话的方式非常重要。就 AOC 而言,所遵循的方法如下:

  • 审查期:每月
  • 要审查的对话数量:150 次对话
  • 审核频率:每月 5 天,每天 30 次随机对话。
  • 每日审核时间段: 在早上、中午、下午、晚上和夜间时段内回顾 1 次随机对话。
  • 评价答案的问题:机器人是否正确解决了市民的问题? 是 / 否
    • 是:当机器人正确回答了用户提出的所有问题时。
    • 否:当机器人回答错误或没有响应用户的请求时。
  • 如果对话涉及多次互动,系统将评估机器人的响应总数,以判断机器人是否帮助了公民。如果机器人的某个互动不正确,则会被评分为 没有 对话。
  • 记录超出聊天机器人能力范围的交互非常重要,以量化机器人无法处理的查询数量。
  • 您必须指出聊天机器人提供帮助的服务/产品。

这些对话评论有助于识别新用户的需求并调整聊天机器人来满足这些需求。

9.参考书目

  1. AOC 博客 – AOC 使用生成式 AI 实现了领先的公民服务聊天机器人 (https://www.aoc.cat/blog/2024/xatbot-aoc-iagenerativa/)
  2. https://1millionbot.com/
  3. 虚拟对话助理服务(聊天机器人)(出版信息 – 公共采购服务平台)
  4. 欧洲议会和理事会 2024 年 1689 月 13 日第 (EU) 2024/300 号条例,制定人工智能协调规则并修订第 (EC) 2008/167 号条例、第 (EU) 2013/168 号条例、第 (EU) 2013/2018 号条例、第 (EU) 858/2018 号条例、第 (EU) 1139/2019 号条例和第 (EU) 2144/2014 号条例以及第 90/2016/EU 号指令、第 (EU) 797/2020 号指令和第 (EU) 1828/XNUMX 号指令(人工智能条例) https://www.boe.es/buscar/doc.php?id=DOUE-L-2024-81079
  5. Transparència 算法:采用 AOC 生成式人工智能的聊天机器人(https://www.aoc.cat/ia-transparencia-xatbots-amb-ia-generativa/)
  6. 创新的生成式 AI 聊天机器人使 AOC 能够将支持服务处理的请求数量增加一倍(https://www.aoc.cat/blog/2025/xatbot-ia-generativa-suport/)