AI测试中的数据收集


人工智能,通俗来说就是让机器最大程度的接近于人,如人与人之间沟通,识别图像,奔跑,越障等,例如之前被刷屏的波士顿动力机器人,猎豹移动在世界机器人大会展出的研磨咖啡机器人。


图像识别是目前人工智能应用的一大类型,不断地收集,调整,完善测试数据来支撑AI测试,达到降低错误率,提高准确性和精确率的目的。


从哪入手收集数据?如何入手?两个词:泛化,量化。数据模型的初期建立,并不能给测试人员一个收集测试数据的准确方向,此时需要我们将测试数据泛型化,通过各种途径收集不同类型的测试视频或者图像。收集途径可以通过下载,二次拍摄,实际取景等方式。取景的目标也不局限于某一场景或行为,例如雨景,郊外,宠物,斗殴,人群,拥堵等等。


同时,测试数据要达到量化,并不是说同类视频只需要一个即可,同类视频从不同时间,地点,灯光等角度收集,在测试过程中观察这些数据呈现出的特性。例如雨景可以从白天,夜晚不同时间段,距离远近,迎光逆光等角度收集测试数据。


测试数据的调整是依据正式环境的数据,尽量覆盖,并不能做到完全一致。初期调研或线上某段时间内收集到的实际数据,要与测试数据成一定的比例。当数据量较少时,可以采取3:1真实数据和测试数据。尤其,当正式环境的某部分特征数据逐渐上涨,数据模型的准确率程逐渐下降趋势,这时就需要重新调整测试数据,训练新模型,重新部署上线。


AI上线只是完成了一部分测试,不同于当前的APP和web端的上线,它需要持续跟进,不断调整。



**