以下主要是阅读zlib库时,对库函数的注释的翻译,也是为了帮助理解zlib在innodb压缩表中的应用
这里只考虑了innodb用到的函数,其他的具体参考zlib.h文件,里面的注释写的非常详细
————————-
1.主要用到的结构体是z_stream,定义在文件zlib/zlib.h中,我们需要去定义的字段包括
bytef *next_in
输入的源字符串
uint avail_in
输入源字符串长度,当avail_in下降到0时,必须更新next_in和avail_in
bytef *next_out
输出字符串
uint avail_out
在next_out中的可用空闲空间,当avail_out下降到0时,必须更新next_out
alloc_func zalloc
内存分配函数,innodb里对应的函数指针是page_zip_zalloc
如不指定需要设置为null
free_func zfree
内存释放函数,innodb里对应函数指针为page_zip_free
voidpf opaque
会被作为参数传递给zalloc和zfree,在innodb里使用的是mem_heap.
2.压缩函数(只涉及到innodb中的调用)
a.deflateinit2(strm, level, method, windowbits, memlevel, strategy)
参数
@1, z_stream对象
@2,压缩级别
@3,值为z_deflated,当前唯一的defalte压缩方法,用于以后扩展
@4,窗口比特数,范围在8~15,更大的值意味着消耗更多的内存来获得更好的压缩效果,如果使用deflateinit来初始化的话默认值为15
windowbits也可以在-8~-15间赋值,用于raw deflate(不理解?),这时候使用-windowsbits来决定窗口大小,deflate()会生成raw deflate data,没有zlib头和尾,并且也不会去调用adler32
当使用gzlib编码时,windowsbits也可以设置为大于15,但跟zlib的文件格式会有很大的不同。
在innodb中值为univ_page_size_shift,值为14(如果page size为默认16k的话)
@5,memlevel用于指定分配多少内存用于内部的压缩状态,值为1将使用最小的内存但更慢并降低压缩比;memlevel值为9时,会使用最大内存来获得最快的速度。默认值为8,在innodb里使用的值为max_mem_level,deflate需要的内存为:
(1 << (windowbits+2)) + (1 << (memlevel+9))
@6,用于调整压缩算法
包括以下值:
z_default_strategy, 用于普通数据
z_filtered,用于由filter(或者称为predictor)生成的数据.过滤的数据包含很多小的随机数据。这种情况下,压缩算法能够获得更好的压缩效果。该选项可以强制更多的哈夫曼编码和更少的字符匹配。有时候可以作为z_default_strategy和z_huffman_only的折衷。
z_huffman_only,用于强制哈夫曼编码(不做字符匹配)
z_rle,限制匹配长度为1(run-length encoding),用于设计的和z_huffman_only一样快速,但对png图片类型会获得很好的压缩效果
z_fixed,阻止使用动态哈夫曼编码,从而允许获得更简单的解码
strategy参数只影响压缩比,而不会影响到压缩输出的正确性,因此没有正确的设置也不要紧。
b.deflate(strm, flush)
deflate尽可能的进行数据压缩,如果输入缓存变空或者输出缓冲变慢了才会停止。除了需要强制刷新,可能会引入一些延迟(读取输入数据,而不产生输出)
-从next_in开始压缩更多的数据,并更新相应的next_in和avail_in。如果无法处理所有的输入(因为在输出缓存中没有足够的空间),next_in和avail_in会在当前点更新并在下次调用delfate时从当前点重新开始。 -从next_out开始产生更多的输出,并更新相应的next_out和avail_out。当flush参数为非0值时,上述行为会被强制执行,强制频繁的刷新会降低压缩比,所以该参数应该只在需要的时候才去设置它(例如交互式应用)。即使没有设置flush,也需要提供一些输出。
在调用deflate函数之前,应用需要确定以上至少有一个行为是可行的(通过提供更多的输入或消费更多的输出,并更新相应的avail_in活avail_out)。在调用deflate前,avail_out不可为空。应用能够在需要时候消费压缩数据输出,例如,在输出缓冲满时(avail_out==0),或者每次调用deflate函数之后。如果deflate返回值为z_ok并且avail_out值为0,在清空输出缓冲后,需要再次调用deflate,因为有可能还有更多未完成的数据。
通常情况下, flush参数被设置为z_no_flush,这允许deflate来决定在产生输出前积攒多少数据,以获得更好的压缩效果。
当flush被设置为:
z_sync_flush,所有pending的输出被刷新到输出缓冲,以字节边界对齐,这样解压器能够获得当前所有可用的输入数据。(特别是如果有足够的输出缓冲,在调用函数后,avail_in值为0)。flush操作可能会降低压缩效果,所以应该只在需要使用。在完成当前delfate块后,随后是一个空的存储块,在下个字节里有3个bit的留白,随后是4个字节(00 00 ff ff)
z_partial_flush,所有pending的输出被刷新到输出缓冲,但不以一个字节边界对齐,当设置为该值时,所有当前的输入数据对解压器而言是可用的。这确保了足够的字节按序输出给解压器,以在空的固定代码块之前完成block
z_block,如果一个deflate块结束并提交,但输出不做对其,并且当前块最多保留7个bits,在下一次deflate块完成后作为next byte写入。这种情况下,解压器可能无法提供足够的bit去完成数据解压以提供给压缩器。这需要下一个block提交后才能完成。
z_full_flush,所有的输出都被刷新,所有的压缩状态也被重置。这样如果当前压缩数据损坏或者需要随机访问时,解压操作可以从这个点重新开始。太频繁的使用z_full_flush会验证的降低压缩性。
如果deflate返回并且avail_out值为0,该函数必须再次使用相同的flush参数调用,并预留足够的输出空间,直到flush完成(defalte返回非0的avail_out)。当使用z_full_flush或z_sync_flush时,确保avail_out大于6以避免重复的flush标记。
z_finish,pending的输入被执行,pengding的输出被刷新,如果有足够的输出空间时,deflate返回值为z_stream_end。如果deflate返回z_ok,该函数必须再次调用一次。在返回z_stream_end之后,唯一可以进行的操作就是deflatereset或者deflateend。 如果所有的压缩可以在单独一步完成时,z_finish可以在defalteinit后立即使用。这种情况下,avail_out的值最少为deflatebound返回的值。这样deflate才能确保返回z_stream_end。
deflate()会在strm->adler上设置当前所有输入的adler32 checksum值;另外也可能更新strm->data_type值(如果能够猜测输入数据的类型,z_binary或者z_text)。
c. deflateend (strm)
所有动态分配的数据结构都被释放掉,并抛弃所有未完成的输入,也不会刷新任何pending的输出。
成功时返回z_ok,失败时返回z_stream_error
d.inflateinit2(strm, windowbits)
用于初始化解压z_streamp
跟deflateinit2类似,在调用该函数之前,同样需要先初始化next_in, avail_in, zalloc, zfree 以及 opaque
注意解压时提供的windowbits不能比压缩时的windowbits大,否则在解压时inflate会返回错误z_data_error。
e.inflate(strm, flush)
inflate与deflate相反,根据strm尽可能的解压数据。
flush参数可以是z_no_flush, z_sync_flush, z_finish,z_block, 或者 z_trees。z_sync_flush要求infalte尽可能的刷新到输出缓冲。z_block要求在获取下一个deflate 块的边界inflate需要停止。当解码zlib或gzip格式时,这会导致infalte在压缩数据头部和在第一个block之前会立刻返回。
z_block选项有助于在append或组合defalte stream是。inflate在返回时会设置strm->data_type为从strm->next_in中最后一个字节中未使用的bit数字。如果inflate正在解码最后一个block,值为64;如果在解码end-of-block code或者解码完整的头部
z_trees行为和z_block类似,但它也会在每次到达一个deflate块头的尾部,在该块上任何实际需要解码的数据之前返回。这允许调用者决定deflate块头的长度,用于随后在一个deflate块中的随机访问。当到达deflate块头尾部时,inflate返回,并设置strm->data_type值为256.
infalte()应该被反复调用,直到其返回值为z_stream_end或者返回一个错误。然而,如果所有的压缩操作可以单独一个步骤来完成(只调用一次inflate),flush应该被设置为z_finish。这种情况下,所有pending的输入被处理,所有pending的输出被刷新;avail_out必须足够大,来存储解压数据。z_finish也许不是必须的,但他可以用来告诉inflate去使用更快的方法来完成一次inflate调用。z_finish也告诉inflate如果stream完成了,无需维护一个滑动窗口,这减少了inflate的内存占用。如果stream没有完成,或者由于没有提供全部的stream,或者没有提供足够的输出空间,就会分配一个滑动窗口,inflate可以被再次调用去完成操作(就像使用z_no_flush那样)
f.inflateend(strm)
释放所有动态分配的内存