用考试揭示分歧

深入使用机器人时,我们常常会遇到一个问题:如何确保机器人真正理解并遵循我们设定的行为指南?毕竟,就像我们无法直接了解他人的想法一样,我们也无法直接洞察机器人的"思维"。 为了解决这个问题,我们借鉴考试的方式,通过在正常语句之后直接询问某个细节,来揭示分歧。这一过程可以帮助我们发现机器人理解行为指南时存在的问题,并针对性地进行改进。
为理解本篇内容,您需要阅读完第一篇《附加行为指南》,以清晰如何书写行为指南。 本篇的案例,您可通过Gemini免费体验机器人来实现。下面的图片点击后可缩放。

案例说明

简单案例难寻

由于机器人基于大量数据学习,分歧通常在进入细节后才会出现,而这些场景依赖专业知识,不适合简单演示。

修改规则以便演示

为了便于演示,我们人为设定了不符合常识的规则。在第一篇的牙医售后服务案例中,我们规定"公正":是由医生来决定病人是否需要拔牙。

案例说明

《附加行为指南》篇章中,机器人扮演牙医做公正售后的案例,在上述新规则下,其回应被视为错误,下方的图展示了以考试揭示分歧,并修正的过程。

扩展练习

可以在修改完行为指南后,再次追加考试内容,这次机器人在界定医患责任时,与我们的新规则相同了,请自行验证。

请查看《附加行为指南》篇章中的案例,新规则下,其回应被视为错误。

在正文后直接提问
结果有分歧后,让机器人解释其理解,发现医生责任2与我们的新规则冲突
改进行为指南
给出概念定义来改进行为指南,然后机器人"公正"的将责任认定给患者

简单的实用案例

为了帮助您更好地理解,我们将通过一个简单的实用案例来展示。正如前文提到的,这样的例子通常需要一些专业知识。在下面的例子中,您需要了解关于“忆秦娥”这一词牌的格律知识。 因此,我们只展示例子,不进行练习。因不需要练习,我们使用GPT-4多模态,以简化行为指南撰写,向机器人 来源于网络。

命令机器人写忆秦娥
发现其写的词,其词牌格律并不是忆秦娥。这里也向您展示了,当任务简单时,可将行为指南及问题融为一句。
以考试来确认其能力欠缺点
发现机器人知道忆秦娥的名字及介绍,但不清楚具体格律要求。
改进行为指南
通过给例子的方式,简化了我们的行为指南描述。然后得到正确回应。

评估机器人能力

像人们会参加标准化考试一样,现在也有专门的机构对机器人进行评估。它们会定期发布主流机器人在各项测试中的成绩排名,供大家选择时参考。
下面,我们将简单介绍一下这些考试的名称及含义,方便您查阅相关文档。

BoolQ

考察机器人的判断能力。这门考试的全部题目都是判断题,“是”或“否”只在一念之间。

PIQA

考察机器人的推理能力。这门考试会考察机器人举一反三的能力,常识、逻辑、推断和概念理解都是考点。

HellaSwag

考察机器人的常识和因果推理能力。这门考试要求机器人根据句子片段中的上下文信息以及自身的常识进行推理,得出问题的答案。

WinoGrande

考察机器人对关联性的理解。这门考试中会给出一系列句子对,每对句子都有一个代词(如:“你”、“我”、“他”),机器人需要根据代词判断每对句子间的关系。

ARC-e/c

考察机器人的逻辑和常识推理能力。其中ARC-e是针对小学生水平的基础考试,ARC-c则是针对具备经验和技能的水平考试。

OBQA

考察机器人在开放领域的答题能力。这门考试开卷进行,要求机器人在一本百科全书中找到各种问题的答案。只有能理解利用各个领域知识的机器人才能高分通过。

机器人助手,效率新伙伴!

恭喜您掌握了机器人使用的诀窍!现在,您可以在机连世界这个机器人超市中,根据自己的需求,选择从免费到顶尖商业级别的机器人助手。 无论是工作还是学习,这些智能助手都将成为您效率提升的得力伙伴。赶快开始尝试吧,让机器人助手为您的生活和事业插上腾飞的翅膀!