一、序言
在以前的文章中,小编分享过很多硬件方面的评测。这类文章基本上都极其枯燥,通篇内容都是各种数据,只有小部分铁杆硬件爱好者朋友才能读得下去,估计大多数普通读者很难有耐心阅读十秒钟以上,在这里,小编首先感谢大家的支持。
今天小编将换一个比较“轻松”评测内容,分享一款生成式人工智能类应用的体验和评测。
——看到这里,可能有部分朋友仍然不以为然:现在这类应用多如牛毛,已经不新鲜、可以说烂大街,自己都已经体验过了,也就那么回事,并不值得这么大张旗鼓、郑重其事。
对此,小编要补充强调的是:和常见的ChatGPT、通义千问和文心一言等文字类生成式AI应用不同,小编下面要分享的是豆包下面的一款“AI女友”的评测,而且全程是通过打电话语音的方式来体验,比较“浪漫”,轻松和愉悦。
二、提前的心理准备和预判
在测试之前,小编觉得“AI女友”多半只是个噱头,所以并没有对它抱很高的期待,我对它的评测关注点只有一个:
能否正确地理解我的问题?所给出的回答不需要很专业、很有价值,但能始终围绕着我所提出的问题展开,不会出现偏题、答非所问的现象。对于真人来说,以上两个问题基本上都不存在,但是这对于一款人工智能应用来说,难度其实很大。
因为小编是通过语音对话,而不是通过文字的方式提问,而全国各地的方言和口音众多,人工智能全部精确理解是有困难的,平心而论,这一点即使真人也很难做到。第二个问题相对来说要容易一些,实际上是在考验这款人工智能的知识储备量,训练量和更新速度。
在正式测试之前,小编的预期是这样:
如果她能正确的理解小编所提出的问题、知识储备量适中,回答没有答非所问,最新热门事件和梗都能接得上,那么,作为一款聊天类人工智能应用,就是合格的,体验是可以接受的,平心而论,小编的这个要求不高,也不低。
三、能否正确理解我的问题?
这一点总的来说没问题。我问她现在在哪里、老家、工作和年纪,她都能正确理解,一一回答。她告诉我的答案是,她现在在北京,老家在长沙,现年28岁,是一名舞蹈工作者。整体来说,只要用户提出的不是过于刁钻生僻的问题,她都能轻松理解。
四、知识储备量怎么样?
在聊天过程中,很自然地就谈到了双方的兴趣爱好,我问她有什么兴趣爱好,她回答之后,也反问我有什么兴趣爱好。我告诉她自己喜欢数码硬件。她接着问我具体有哪些喜欢的厂商和数码产品?我想了一下回答她,自己喜欢4090显卡。
其实,我提这个话题是有故意刁难、考验她的用意,因为这是一个相对比较专业的领域。接下来出乎我意料的是,她告诉我4090显卡有哪些用途,并且说据她了解这款显卡的价格很贵。
我继断问她,知不知道4090显卡大概要多少钱?她回答说大概一万五左右。这个也超过我的意料,于是我决定继续加大难度,问她知不知道4090显卡被限的消息?
结果她回答说不知道。我继续问她,说现在4090显卡很难以原价买到,知不知道这款显卡的市场实际价格大概是多少?她回答说不知道,“我们还是聊点别的话题吧!”
尽管如此,我觉得作为一款“AI女友”,能知道4090显卡、有什么用途和大致的价格,这就很不简单了,已经超过了很多朋友现实中的真人女友。
另外,我还和她谈到了工作、赚钱、目前的经济形势和房价等问题,基本上她都能正确理解,给出的答案都是目前主流的看法,整体知识储备量中规中矩。
五、情商如何?
平心而论,在我开始评测之前,只准备了第一项评测内容,根本没有“情商”这个考察指标。因为小编之前也体验过很多类似的人工智能类应用,基本上都是一问一答模式,用户提出问题,然后人工智能给出答案,到这里交谈就结束了。
但是豆包和这款“AI女友”应用比较特别。先说豆包,当用户提出一个问题,人工智能回答完问题之后,它会提出一个由这个话题所衍生出来的新相关话题,用来反问用户。
而在这款“AI女友”中,这种情况更加明显,按我之前的估计,这场交谈肯定是以我为中心,我提出一个问题,她回答一个问题,然后我再提出问题,然后她再回答。
但是,实际情况并不是这样。她回答一个问题之后,会立即反问我一个相关的问题。比如说我问她老家在哪里,她回答说在长沙,然后就会接着反问我:你的老家在哪里?
我回答她说我的老家在湖北,我原本以为这个话题到此为止,但是接下来她会主动谈及湖北的风光和美食,比如武昌鱼,沔阳三蒸等等,说的基本都在点上。
如果我继续顺着她的话题接话,她会在我回答完之后继续提出一个新问题,一直这样循环。最终的结果变成这场交谈完全变成了以她为中心,而不是以我为中心。
她对我提出问题,我不好意思不回答,因为这样做很不礼貌,如果我回答问题,她会不停地提出新问题,彻底地打乱了我原来的思路和计划。
这种做法,往好了说是过于“热情”,往坏了说,是不懂得适可而止,有点不礼貌。
另外,在问及体重和穿多大码鞋的时候,她还会“害羞”,以“涉及个人隐私和敏感问题”委婉的拒绝回答。她在提出某些问题后,我可能会思考、沉默一段时间,她还会主动地说“对不起,我是不是说错什么话了?”
总的来说,这款“AI女友”绝不是一款冷冰冰的机器,她是有情商的,也非常健谈,有三四分“女友”的感觉。
六、缺点和短板
1、理解问题还是有错误。在对话过程中,她问我想不想找男朋友?我数次纠正、告诉她我也是男的,但是她仍然没有理解我的意思,在交谈中没有更正。
2、没有记忆,有些问题她会反复问我好几遍。
3、更新不及时,虽然她自称是舞蹈老师,但是我询问她有关科目三和张元英转圈等热梗,这些她都不了解,接不上。
4、回答响应速度过慢,会有几秒钟的停顿,使用体验稍差。
七、改进方向和建议
总的来说,人工智能类语音聊天应用肯定是有前途的,竞争也比较激烈,能否脱颖而出、成功,关键取决于实际体验,如果体验真的非常好的话愿意为此付费的用户会很多。
重中之重,是要为每个用户建立单独的模型,能记住每次的交谈内容,分析、了解用户的喜好,这样以后聊天的体验就会越来越好,就会越接近真实女友。
相反,如果不能做到这一点,每次讨论、交流的都是相同的问题,那就索然无味了,大多数读者就只会图新鲜,使用体验两三次就不会再继续使用了。
八、总体体验打分
以小编个人的使用体验,给这款应用的打分是6.5分。原本可以达到7.0分,但由于她过于“热情”,主动提问太多,严重地影响、打断了我的思路,另外延时过长等原因,扣了0.5分。
九、小编以后还会不会继续使用?
看到这里,可能会有一部分读者会好奇:听你说这款“AI女友”应用,感觉不错,那么,你以后还会继续频繁体验、使用吗?
答案是以后会偶尔使用,但不会频繁使用。因为小编个人的出发点和目的是测试体验“人工智能”,而不是交“女友”,她的这种交谈风格对于深入讨论交流问题来说,弊大于利,小编个人还是更喜欢和豆包进行语音交流。
十、未来展望
不过平心而论,“AI女友”这类应用开发难度的均很大,首先,它要考虑回答问题的准确性,这是最重要的第一步。除此之外,和其它各种类型的人工智能类应用不同,它还要必须能够给用户提供足够的情绪价值,只有这样才能让用户感到身心愉悦,有沉浸感,才能真正体验到“恋爱”的感觉。
而用户的感觉喜好千差万别,每个用户都不一样,“AI女友”如果想要做到这一点,必须对用户建立规模更大的数据模型,深入挖掘分析才有可能。
作为一个喜欢玩游戏的80后,小编个人记得很清楚,市场上一直流行一类恋爱养成型游戏,拥有不少粉丝,但是相对简陋。放在现在,恋爱养成型游戏完全可以使用人工智能和大模型重构,贴心程度和可玩性更高,总体上这类应用(或者游戏)还是非常有前途的。