天津 - 联想百应 - 中/高级 AI评测工程师(外包)

天津 - 联想百应 - 中/高级 AI评测工程师(外包)

岗位职责

1.把大模型当“产品”测:从问答到Agent,设计case、跑评测、追指标,给结论,出报告。
2.搭评测体系:建数据集、定指标、写工具,让评测一键跑、结果一眼懂。[重点]
3.用代码提效:Python写脚本/平台,让重复评测高效完成,释放团队人力。
4.站在用户角度“挑刺”:体验流、Bad Case复盘,推动算法、产品一起闭环。
5.跟踪最新评测方法:LLM-as-a-Judge、多模态Benc h、Auto-Eval,能落地的第一时间引入。
6.把AI用在测试:探索“用AI测AI”,打造智能测试助手,让测试也更AI。

岗位要求

1.学历&年限:计算机/AI/数学等本科及以上;5年+测试开发,含2年+AI/大模型评测经验。
2.专业深度:
(1)具备大模型(LLM)、NLP、图像识别/CV、多模态或强化学习等至少一类算法的评测实战经验;
(2)熟练掌握标注质量指标(准确率、召回率、F1、置信度校准)的计算与分析方法;
(3)熟悉NLP/CV/多模态常用效果指标(Accuracy、Re call、F1、CIDEr、CLIP-Score等)。
3.工程落地能力:精通Python,可独立开发测试工具与自动化框(Pytest/Unittest/Playwright加分)。
4.素养&热情
(1)学习钻研强、沟通协同好;对质量与用户体验敏感,能发现问题并推动闭环解决
(2)有较强的自驱力和进取心,主动热情,善于独立思考、复盘总结;
(3)热衷追踪AI大模型前沿动态,有主动学习创新探索能力。

薪资范围

  • 13 - 16K

工作地点及福利

  • 天津东丽区联想(天津)有限公司e1-5f

投递方式