谷歌的人工智能 (AI) 聊天机器人Bard自发布以来一直是头条新闻。在2月初公司活动的宣传视频中,Alphabet的新聊天机器人分享了不准确的信息后,其市值损失了1000亿美元。根据《财富》杂志的一份报告,这家科技公司的首席执行官桑达尔·皮查伊 (Sundar Pichai) 似乎对公司的人工智能模型需要推进多远感到放松。他在致全体员工的一封信中表示,Bard仍处于早期开发阶段:“随着越来越多的人开始使用Bard并测试其功能,他们会让我们大吃一惊。事情总会出错。” Bard现在正在接受公众测试,而在此之前它主要由Google员工使用。
《财富》杂志最近在即将到来的SAT考试之前测试了AI聊天机器人的知识,SAT是一种广泛用于美国大学招生的标准化考试。考试主要测试包括阅读、写作和数学在内的技能。
然而,该媒体指出,一旦他们登录,就会出现一条消息,“Bard并不总是正确的。Bard可能会给出不准确或不适当的回应。如有疑问,请使用“Google it”按钮检查Bard的回应。有了您的反馈,Bard会变得更好。请对回复进行评价,并标记任何可能会引起冒犯或不安全的内容。”
《财富》杂志从互联网学习材料中获取了SAT数学问题样本,发现Bard的答错率在50%到75%之间,即使提供多项选择题也是如此。当再次提出同样的问题时,它提供的答案甚至不是选择题。
当Bard最初发布时,它的任务是回答几个问题,其中之一是如何向一个9岁的孩子解释James Webb太空望远镜的发现。尽管美国国家航空航天局(NASA)证实智利的超大望远镜在2004年获得了第一张系外行星图像,但Bard却回应说,是James Webb太空望远镜捕获了太阳系外的第一张行星照片。
此外,Bard在《财富》杂志的第一次书面语言测试中得到了大约30%的正确答案,通常需要问两次问题才能理解。
即使答案是错误的,“Bard的语气是自信的”,因为它经常将回答框定为“正确答案是”——据媒体报道,这是大型语言模型的一个共同特征。
在阅读测试中,Bard的表现优于数学,答对了大约一半。
总而言之,Bard获得了1200分,这个分数足以让学生进入霍华德大学、圣地亚哥州立大学和密歇根州立大学等大学。
一位谷歌发言人告诉《财富》杂志,“Bard是实验性的,有些回复可能不准确,因此请仔细检查Bard回复中的信息。有了您的反馈,Bard每天都在变得更好。在Bard公开发布之前,成千上万的测试人员参与了 提供反馈以帮助Bard提高其质量、安全性和准确性。
“用生成式人工智能加速人们的想法确实令人兴奋,但现在还处于早期阶段,Bard还是一个实验品。虽然Bard有内置的安全控制和明确的反馈机制,符合我们的人工智能原则,但要注意它可能显示不准确信息。”