cjson是一个超轻巧,携带方便,单文件,简单的可以作为ansi-c标准的json格式解析库。
那什么是json格式?这里照搬度娘百科的说法:
json(javascript object notation) 是一种轻量级的数据交换格式。它基于javascript(standard ecma-262 3rd edition – december 1999)的一个子集。json采用完全独立于语言的文本格式,但是也使用了类似于c语言家族的习惯(包括c, c++, c#, java, javascript, perl, python等)。这些特性使json成为理想的数据交换语言。易于人阅读和编写,同时也易于机器解析和生成。
更加详细的解释和示例请查看 http://www.json.org/ 主页。
其实简单说,json就是一种信息交换格式,而cjson其实就是对json格式的字符串进行构建和解析的一个c语言函数库。
可以在这个地址下载到cjson的源代码: http://sourceforge.net/projects/cjson/
__macosx目录是提供给mac os的源码,我的机器运行的是fedora 18,所以选择另外一个目录即可。
简单的阅读下readme文件,先学习cjson库的使用方法。若是连库都还不会使用,分析源码就无从谈起了。通过简单的了解,我们得知cjson库实际上只有cjson.c和cjson.h两个文件组成,绝对轻量级。
不过,代码风格貌似有点非主流,先用indent格式化一下代码吧。我个人喜欢k&r风格的代码,使用的indent命令行参数如下:
格式化之后,代码结构看起来清晰多了。
那么,从何处下手来分析呢?打开代码文件逐行阅读么?当然不是了,有main函数的程序大都是从main函数开始分析,那么没有main函数的纯函数库呢?那就自己写main函数呗。
cjson作为json格式的解析库,其主要功能无非就是构建和解析json格式了,我们先写一个构建json格式字符串的程序,尽可能的使其用到的类型多一点(事实上readme文件里提供了不错的示例代码,我们直接借鉴一下吧)。代码如下:
编译运行后(编译时注意要链接数学库,参数行要加 -lm),运行结果如下:
打开cjson.h这个头文件,我们可以看到每一个节点,实际上都是由cjson这个结构体来描述的:
结合这个结构体和上面相关api的调用,其实我们大概可以猜测出cjson对于json格式的描述和处理的方法了:
每一个cjson结构都描述了一项”键-值”对的数据,其中next和prev指针显然是指向同级前后的cjson结构,而child指针自然是指向孩子节点的cjson结构。type类型显然是为了区分值的类型而设置的,在cjson.h文件一开始就定义了这些类型的值:
很显然通过检测这里的type字段,就很容易知道该节点的类型以及其实际存储数据的字段了。其它的字段是什么意思呢?cjson.h文件里的注释说的很明白了,valueint,valuedouble以及valuestring保存的是相应的值,string存放的是本字段的名字。
接下来分析程序的执行过程,编译参数加上-g,使用gdb调试程序,画出整个构造过程的函数调用图。具体的调试过程就不细说了,我捡一些关键点说说:
调试过程中,我们发现cjson_addstringtoobject()等其实是宏定义,本质上调用的都是cjson_additemtoobject()函数,在cjson.h文件中可以看到如下定义:
另外cjson_createnull()等函数都是调用cjson_new_item()函数申请到初始化为0的空间构造相关的节点信息。构造过程中的函数调用图如下:
构造的json字符串最终在内存中形成的结构如下图所示:
构造过程相对来说比较简单,数组类型这里没有涉及到,但是分析起来也很简单。
我们最后调用cjson_print()函数生成这个结构所对应的字符串。生成说起来容易,遍历起整个结构并进行字符串格式控制却比较繁琐。这里相关的代码还有递归清理这个内存结构的函数不再赘述,有兴趣的同学请自行研究。
构造的过程我们就说到这里,明天我们研究下解析的过程。
========
昨天简单的分析了一下cjson对json格式的构造过程,今天仔细读了读readme文件,发现readme其实说的已经很详细了。重复造轮子就重复造轮子吧,今天我们再一起分析解析的过程。
继续用之前构造的json格式来进行解析,之前分析构造函数的时候,我们只是简单的分析了几个cjson结构的构造过程,并没有涉及到各种类型的数组等构造。因为我觉得理解了一般的构造过程,更复杂的类型自己再简单看看源码,画画图就很容易理解。
学习一个事物一定要先抓住主线,先掌握一个事物最常用的那50%,其他的边边角角完全可以留给实践去零敲碎打(孟岩语)。
闲话打住,先上一段解析使用的代码:
程序运行输出:
从这段代码中可以看到,解析过程就cjson_parse()一个接口,调用成功返回cjson结构体的指针,错误返回null,此时调用cjson_geterrorptr()可以得要错误原因的描述字符串。查看cjson_geterrorptr()的源码可以得知,其实错误信息就保存在全局字符串指针ep里。关键就是对cjson_parse()过程的分析了,我们带参数-g重新编译代码并下断点开始调试跟踪。
首先cjson_parse()调用cjson_new_item()申请一个新的cjson节点,然后使用函数对输入字符串进行解析(中间使用了skip()函数来跳过空格和换行符等字符)。
parse_value()函数对输入字符串进行匹配和解析,检测输入数据的类型并调用parse_string()、parse_number()、parse_array()、parse_object()等函数进行解析,然后返回结束的位置。
函数调用的关系如下图:
这些函数之间相互调用,传递待解析的字符串直到结束或者遇见错误便返回,最后会构建出一个和之前结构一样的json内存结构来,解析的过程就完成了。检索过程很简单cjson_getobjectitem()函数负责进行某个对象的自成员的名字比对和指针的返回。不过要注意这里采用了cjson_strcasecmp()这个无视大小写的字符串比较函数,因为json格式的键值对的名称不区分大小写。
这样cjson库的整个构建和解析过程的主干内容就总结出来了,剩下的边边角角可以在这个主线分析结束之后再继续下去,比如json格式化,解析出来的内存结构复制,从这个内存结构解析出字符串以及这个内存结构的递归删除等等留给大家自己进行吧。
p.s. cjson_inithooks()这个函数不过是cjson允许用户使用其它的内存申请和释放函数罢了(默认是malloc和free),另外啰嗦一下,这个接口也可以用来检测内存泄露。只要实现malloc和free的包装函数,在其中统计和打印内存申请释放操作就可以了。