【FFH】OpenHarmony啃论文成长计划---序列化技术发展及应用综述

做完就睡觉 2022-03-25 21:17:20
加精

大家好! 我是深圳技术大学FSR实验室的同学,在OpenHarmony成长计划啃论文俱乐部里,与华为、软通动力、润和软件、拓维信息、深开鸿等公司一起,学习和研究序列化相关技术
@

OpenHarmony啃论文成长计划---序列化技术发展及应用综述

  • 【简单回顾】
  • 【本期看点】
  • 除JSON/XML之外的序列化技术的诞生
  • JSON/XML的不足
  • 序列化技术蓬勃发展
  • 历年来序列化技术的发展时间线
  • 一图概览不同序列化技术的应用场景
  • 一图比较不同序列化技术位字符串包含的信息量大小
  • 参考文献

【简单回顾】

①.【FFH】OpenHarmony啃论文成长计划---为什么JSON将逐渐取代XML?
②.【FFH】OpenHarmony啃论文成长计划---几种常见的JSON解析器比较
③.【FFH】OpenHarmony啃论文成长计划---JSON-RPC
④.【FFH】OpenHarmony啃论文成长计划---浅谈序列化规范
⑤.【FFH】OpenHarmony啃论文成长计划---Flatbuffers应用于MQTT协议

【本期看点】

  • 除JSON/XML之外的序列化技术的诞生
  • 历年来序列化技术的发展时间线
  • 一图概览不同序列化技术的应用场景
  • 一图比较不同序列化技术位字符串包含的信息量大小

除JSON/XML之外的序列化技术的诞生

JSON/XML的不足

我们都知道JSON/XML拥有非常强大表达力跨平台能力的序列化技术,使用起来非常地方便,且没什么约束。不过随着各个平台数据量的飙升,方便且自由的JSON/XML序列化技术也展现出了非常多性能方面的不足,而这些问题恰巧是不能忽视的。

JSON和XML属于文本序列化规范,都是使用字符串表示所有的数据,但是像浮点数,布尔值,结构体等一些非字符类型的数据,为了解析出这些非字符类型的数据,在序列化过程中的是会对数据类型进行描述的,最后生成的字面量表达会占用很多额外的存储空间

在面对庞大的数据处理的时候,在这种序列化规范下,系统甚至有可能会overflow。。。

序列化技术蓬勃发展

就在刚刚说的那些序列化瓶颈下,程序员们怎么会妥协于此呢,就在JSON之后,越来越多的序列化技术出现在我们视野内。比如上一期谈到的几乎没有解析时间的Flatbuffers,还有分布式计算经常用到的Microsoft BondCap‘s Proto等等。

历年来序列化技术的发展时间线

image.png

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Fh6ZdJ1G-1648214099573)(序列化方案综述/image-20220325164428092.png)]

可以看到21世纪开始,因为世界在不断地网络信息化,其中对数据传输过程地要求也越来越高,序列化技术也在被人们不断迭代创新。

序列化技术也被从简单地字符分割值CSV文件,再到1996年,在SGML的基础之上,简化出一种规范,提出了一种标记型语言命名为XML(可扩展标记语言)。2006年现在依旧广受人们喜爱地JSON也出现在了我们的视野,随着技术的创新与发展,序列化技术也因为不同的场景需求,在近15年间,许多新序列化技术在不断地涌现出来。

一图概览不同序列化技术的应用场景

image.png

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-RXzvUSeJ-1648214099574)(序列化方案综述/image-20220325204725357.png)]

在上面这幅图我们可以直观地看到不同序列化技术地应用场景,可能这些技术还可以被应用于其他场景,但是相对于其他序列化技术,它们更多地被应用于特定地场景中。从80年代电子表格的出现,CSV被人们所熟知,再到同时期应用于远程通信ASN.1。再紧接着的就是象征着网络时代正式开始的web应用,从1996年采用XML,再到2006年开始JSON盛行,一直沿用至今。

软体架构中,使用着YAML还有TOML。近些年大火地大数据在使用Apache Avro;数据库技术也引入了序列化技术BSON;未来大势所趋地物联网使用着CBOR;再到我们现在的疯狂的网络游戏,应用着FlatBuffers ,后面更是基于FlatBuffers创新除了兼容性更佳的FlexBUffers。当然也离不开闹得沸沸扬扬的分布式计算,用于这个场景的序列化技术也是不断地再迭代,先后有Protocol Buffers,Apache Thrift,Message Pack,Cap'n Proto以及Microsoft Bond

一图比较不同序列化技术位字符串包含的信息量大小

image.png


上图中表示的是用不同的序列化技术,分别序列化相同数据后,对位字符串信息量大小进行排序。(越往右信息量越小)
我们可以根据上图直观地看到序列化后的位字符串包含的信息量,来比较无模式和模式驱动的序列化规范。

最左边的处理方法序列化后的位字符串的信息量是最大的,都是无模式序列化规范(Schema-less Serialization Specififications),比如BSON,Smile,FlexBuffers等,因为最大地保留了原始数据及其结构的信息描述。最右边的信息量是最小的,比如ASN.1,因为他们把非常多的结构信息已经在规范中提前约定,因此不需要写入序列化后的位字符串中。

参考文献

A Survey of JSON-compatible Binary Serialization Specifications

...全文
765 回复 打赏 收藏 转发到动态 举报
写回复
用AI写文章
回复
切换为时间正序
请发表友善的回复…
发表回复

177

社区成员

发帖
与我相关
我的任务
社区描述
啃论文俱乐部致力于用学术研究方法探索计算机科学,分享“啃论文(文献)—技术文章输出—开源代码提交—技术专家大咖”的成长路径。 此为各部门(兴趣小组)技术探索、文章输出的平台,知识沉淀、成果分享的阵地。
其他 企业社区
社区管理员
  • PaperResearch
  • 欣赏生活的美
  • weixin_53696017
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
  • 我们的愿景是实现技术自由的梦想!

  • 我们的使命是探索技术发展之道,为计算机行业、为开源社区及其生态贡献力量。

  • 我们的目标是成为计算机科学领域的技术专家、行业大咖。

     欢迎志同道合的朋友加入!

试试用AI创作助手写篇文章吧