天天看点

经典算法题每日演练——第五题 字符串相似度

      这篇我们看看最长公共子序列的另一个版本,求字符串相似度(编辑距离),我也说过了,这是一个非常实用的算法,在dna对比,网

页聚类等方面都有用武之地。

一:概念

     对于两个字符串a和b,通过基本的增删改将字符串a改成b,或者将b改成a,在改变的过程中我们使用的最少步骤称之为“编辑距离”。

比如如下的字符串:我们通过种种操作,痉挛之后编辑距离为3,不知道你看出来了没有?

经典算法题每日演练——第五题 字符串相似度

二:解析

  可能大家觉得有点复杂,不好理解,我们试着把这个大问题拆分掉,将"字符串 vs 字符串“,分解成”字符 vs 字符串“,再分解

成”字符 vs 字符“。

<1> ”字符“vs”字符“

       这种情况是最简单的了,比如”a“与”b“的编辑距离很显然是1。

<2> ”字符”vs"字符串"

       ”a“改成”ab“的编辑距离为1,“a”与“aba”的编辑距离为2。

<3>“字符串”vs“字符串”

      “aba”和“bba”的编辑距离为1,仔细发现我们可以得出如下结论,”aba“是由23个子序列与”bba“字符串求的的编辑距离集

合中取出的最小编辑距离,也就是说在这种情况下我们出现了重复计算的问题,我在求子序列”ab“和”bba"的编辑距离时,我是由

子序列”a“和”bba“与”b“和”bba“之间的编辑距离中选出一个最小值,然而序列a和序列b早之前我已经计算过了,这种重复计算

的问题有点像”斐波那契”,正好满足“动态规划”中的最优子结构和重叠子问题,所以我们决定采用动态规划来解决。

三:公式

    跟“最长公共子序列”一样,我们采用一个二维数组来保存字符串x和y当前的位置的最小编辑距离。

现有两个序列x={x1,x2,x3,...xi},y={y1,y2,y3,....,yi},

设一个c[i,j]: 保存xi与yj的当前最小的ld。

①: 当 xi = yi 时,则c[i,j]=c[i-1,j-1];

②:当 xi != yi 时, 则c[i,j]=min{c[i-1,j-1],c[i-1,j],c[i,j-1]};

最终我们的c[i,j]一直保存着最小的ld。

四:代码

经典算法题每日演练——第五题 字符串相似度
经典算法题每日演练——第五题 字符串相似度

继续阅读