感兴趣的读者可以从文末链接[3]下载RealWorldQA测试集。这个测试集包括765张webp格式的图片和包含了所有对应问题和答案的一个json文件。也就是说,一张图对应一个问题,然后测试集提供了一个标准答案。
根据瓦砾的初步查看,问题基本都是单选题、是非题,或者可以用一个词回答。而图片大致可分为两类:
A. 应该是通过车载摄像头拍摄的车道、路面、周边车辆、周围环境。这一类大概占70%,530多张。
对应的问题是:第二高的镜头是哪个?A. 中间的镜头 B. 左边第一个镜头 C. 右边第一个镜头
A类和B类的图片和问题,至少契合自动驾驶和家用机器人的使用场景下,AI对物理世界的感知和理解能力。
类似的题目,可能隔壁公司的FSD和Optimus同学,曾经甚至目前也在每天疯狂刷刷刷。期待看到Grok和所有基于真实物理世界的AI在这一基准题库上一较高下。
这里挑选2道A类和8道B类,一共10题。有兴趣的读者可以自己做一做,或者邀请家里的小朋友一起来刷,体会下Grok每天刷题的酸爽。
请拿一支笔记下题号和你的回答,最后在文末校对答案。欢迎在文末留言记录你的成绩和感受。