大数据测试框架,重构思路请教

目前业务需求:
专利解析项目,设计126个国家,有4种类型专利,申请、授权,实用新型、外观。源数据可能来自官网,也可能是买的,源数据类型是json、html、xml为主流。每个国家的结构都不同,标签都不同;这是数据源

需求是,专利有很多字段需要从源数据解析出来,比如公开日,申请日,申请人,标题,摘要,说明书等,从不同的标签处解析,并做标准化

目前测试框架是市面主流的测试方案,开发解析一遍后传给我数据,我们自己解析一遍,写了一套测试框架,包含查库,对比逻辑,输出报告等。也支持异步调用分布式。

经理让提效,目前我们改造了异步测试框架,只能从运行方面提效,但是仍然不理想只提升了40%左右。但是想要达到质的提效还很远,比如一个需求要做7天,3天开发,4天测试;这套异步框架做到了3天开发,2天测试;离想象的很遥远。我们想要改变测试思路,想要脱离目前的测试框架,不想自己也开发一遍,是否有很好的点子呢?我们愿意花时间重构

内部方案:
内部讨论了 写一套 模型自演练模型,能够识别万能标签 自动解析;但是技术方案困难,有些国家 标签都是自定义的显然是不靠谱的,只能适配一部分的国家

大佬们 ,麻烦出点点子呗,快被逼死了;难点在于 各个国家标签不同,源文件类型不同,各个国家的解析字段,标准化规则不同

标准化规则可以先放放。是否可以先实现,扔个文件过去,不同国家的,预解析出来想要的那些字段呢?

我的想法是配置驱动,可能会快一点,具体怎样,要看你们怎么去评估了。大概思路:比如从源数据取国家,可能大部分对应的key是country,如果还有其他的key的话,可能需要你去做个映射的配置,比如:当我取国家的时候,可能存在的key有哪些,然后遍历一下应该可以取出来,所以后续的维护就是维护一些key就好,当然有些层级可能不一样,所以可能需要一些遍历算法:递归等。可能有的坑就是,比如国家的key在另外一份源数据对应的是其他的内容,所以会可能导致脏数据,可以加个保险,对取出来的value值做个校验,包括但不限于:正则,三方API校验

1 个赞

数据源:

json/xml/html属于半结构化数据

我主要以下思路:

  1. 数据转换思路: 将半结构化数据转化成结构化数据,入库或者写入hdfs等

  2. 如果每个国家对应的数据结构比较稳定,不会出现变化的情况:

    1. 可以根据各个国家的数据体进行数据清洗,将从各个国家中提取的需要的标签数据进行聚合输出,形成一份或多份可信度高,数据质量过关的数据

    2. 基于以上:需要开发一套数据清洗规则脚本
      可能需要一定的时间,但后续数据可只需要维护清洗规则即可,公司的即可利用清洗之后的数据(入库的,或者hdfs中的)进行各方面使用