谷歌又一次公布了它的大模型Bard,并且免费的提供给大家使用。笔者发现Bard有一个其他免费的大模型所没有的能力,就是他可以上传图片并且识别图片。这实际上是大语言模型多模态能力,因为我们现实中大量的信息是用图片和视频的文字承载的,那么大模型要想真正的颠覆我们的行业,多模态是它必须要实现的一步。我们之前有看到chat-gpt 4.0是能够识别图片和视频的,但是chat-gpt 4.0需要收费,所以大部分人可能没有体验过。而Bard只要大家有科学上网的能力的话是可以免费使用的。我今天就来测试一下Bard它的识图能力到底怎么样,在我们现实的生活或者工作中是否可以直接拿来使用。
我这里先让它识别一下人物,第一张图给的是张毅,第二张图给的是埃隆马斯克。结果Bard给我的回复是目前无法对人物进行识别。不知道是要涉及到对于个人肖像权的保护还是什么原因。
既然不能识别人的话那能不能识别动物呢?首先我在网上找了一张狮子的照片给到Bard问这是什么动物?这次他给的答案是正确的:这是一只狮子。同时他也补充说这是狮子的脸部特写。之后我又喂给他一张河马的照片。这张河马的照片背后有斑马和长颈鹿的背影作为干扰。我们看它能不能识别出来。结果他也识别出来了。他告诉我:这只河马,这只河马是张着大嘴,露出了牙齿。但是他却说这是玩具河马,不知道他是怎么看出来的?
以上的这些呢都是娱乐。对于我们打工人来说,真正有用的还是我们平时工作中对于一些图片中数据的识别和提取,那么我们看看Bard是不是有识别数据和提取数据的这样一个能力呢?我首先给了他一张我在网上随便找的中文的图表。我问他这张图片的主要内容,他告诉我这是一张经济统计的图表,回答正确。然后我让他帮我把图表中的数据提取出来,他也很快的给我提取出了一个表格,但是可以明显看出它提取出来的表格中的数据跟我们原始表格中的数据是完全对不上的。我不知道他是因为识别错误,还是说他根本就没有识别,瞎编乱造了这些数据。
同时我也试了下给他一张英文的表格让他去识别和提取表格中的数据,结果同样提取出来的数据跟原表格想差十万八千里。
所以总体使用下来个人感觉Bard对于图片还是有一定的识别能力的。但是这种识别只是一种模糊的识别,它只能告诉你这个图片大概的内容是什么。但是如果说你需要它进行一些精细的识别他很有可能就会出错。因此Bard要真正应用到我们的实际工作中的话,在识别的准确性和精细度上需要有很大的提高。