大数据测试框架，重构思路请教

shengang · 2022 年1 月 4 日 02:00

目前业务需求：
专利解析项目，设计126个国家，有4种类型专利，申请、授权，实用新型、外观。源数据可能来自官网，也可能是买的，源数据类型是json、html、xml为主流。每个国家的结构都不同，标签都不同；这是数据源

需求是，专利有很多字段需要从源数据解析出来，比如公开日，申请日，申请人，标题，摘要，说明书等，从不同的标签处解析，并做标准化

目前测试框架是市面主流的测试方案，开发解析一遍后传给我数据，我们自己解析一遍，写了一套测试框架，包含查库，对比逻辑，输出报告等。也支持异步调用分布式。

经理让提效，目前我们改造了异步测试框架，只能从运行方面提效，但是仍然不理想只提升了40%左右。但是想要达到质的提效还很远，比如一个需求要做7天，3天开发，4天测试；这套异步框架做到了3天开发，2天测试；离想象的很遥远。我们想要改变测试思路，想要脱离目前的测试框架，不想自己也开发一遍，是否有很好的点子呢？我们愿意花时间重构

内部方案：
内部讨论了写一套模型自演练模型，能够识别万能标签自动解析；但是技术方案困难，有些国家标签都是自定义的显然是不靠谱的，只能适配一部分的国家

大佬们，麻烦出点点子呗，快被逼死了；难点在于各个国家标签不同，源文件类型不同，各个国家的解析字段，标准化规则不同

shengang · 2022 年1 月 4 日 02:10

标准化规则可以先放放。是否可以先实现，扔个文件过去，不同国家的，预解析出来想要的那些字段呢？

911596230 · 2022 年1 月 4 日 02:24

我的想法是配置驱动，可能会快一点，具体怎样，要看你们怎么去评估了。大概思路：比如从源数据取国家，可能大部分对应的key是country，如果还有其他的key的话，可能需要你去做个映射的配置，比如：当我取国家的时候，可能存在的key有哪些，然后遍历一下应该可以取出来，所以后续的维护就是维护一些key就好，当然有些层级可能不一样，所以可能需要一些遍历算法：递归等。可能有的坑就是，比如国家的key在另外一份源数据对应的是其他的内容，所以会可能导致脏数据，可以加个保险，对取出来的value值做个校验，包括但不限于：正则，三方API校验

1473475365 · 2022 年1 月 24 日 05:46

数据源：

json/xml/html属于半结构化数据

我主要以下思路：

数据转换思路：将半结构化数据转化成结构化数据，入库或者写入hdfs等
如果每个国家对应的数据结构比较稳定，不会出现变化的情况：
1. 可以根据各个国家的数据体进行数据清洗，将从各个国家中提取的需要的标签数据进行聚合输出，形成一份或多份可信度高，数据质量过关的数据
2. 基于以上：需要开发一套数据清洗规则脚本
  可能需要一定的时间，但后续数据可只需要维护清洗规则即可，公司的即可利用清洗之后的数据(入库的，或者hdfs中的)进行各方面使用