天天看点

C++BM算法

bm算法是一种非常著名的字符串查找算法:

在字符串查找算法中,最著名的两个是kmp算法(knuth-morris-pratt)和bm算法(boyer-moore)。两个算法在最坏情况下均具有线性的查找时间。但是在实用上,kmp算法并不比最简单的c库函数strstr()快多少,而bm算法则往往比kmp算法快上3-5倍。

下面我们介绍一下bm算法:

1,bm算法是boyer-moore算法的简称,由boyer 和moore提出. 

2,bm算法也是一种快速串匹配算法,bm算法与kmp算法的主要区别是匹配操作的方向不同。虽然bm算法仅把匹配操作的字符比较顺序改为从右向左,但匹配发生失败时,模式t右移的计算方法却发生了较大的变化. 

3,滑动距离函数: 

为方便讨论,bm算法的关键是,对给定的模式t="t0t1…tm"定义一个从字符到正整数的映射: 

dist :c->{1,2,…,m+1} 

函数dist称为滑动距离函数,它给出了正文中可能出现的任意字符在模式中的位置。函数dist定义如下: 

dist(c) = m-j  j为c在模式中的下标,以后面的为准 

dist(c) = m+1  若c不在模式中或c = tm 

例如,t="pattern",则dist(p)= 6 – 0 = 6, dist(a)= 6 – 1 =5, dist(t)=

6 – 3 =3,dist(e)= 2, dist(r)= 1, dist(n)= 6 + 1 = 7。 

4,bm算法的基本思想是:假设将主串中自位置i起往左的一个子串与模式进行从右到左的匹配过程中,若发现不匹配,则下次应从主串的i + dist(si)位置开始重新进行新一轮的匹配,其效果相当于把模式和主串向右滑过一段距离dist(si),即跳过dist(si)个字符而无需进行比较。 

如这样一个例子:

从findinahaystackneedleina中查找needle的过程:

i    j    00    01    02    03    04    05    06    07    08    09    10    11    12     13    14    15    16    17    18    19

   20    21    22    23

          f      i       n      d     i      n    

a      h     a      y    s      t      a       c     k      n    e      e

    d      l     e      i       n      a

0   5   n     e      e      d     l       e

5   5                                           n     e      e      d     l      e

11 4                                                                                           n       e       e     d    l

    e

15 0                                                                                                                             n

    e      e     d     l     e

排版不是很好排,请大家见谅

第一步:i=5,j=5失败 dist(n)= 5 所以右移到5+5=10处

第二步:i=10,j=5失败 无dist(s) 所以右移到10+6 =16处

第三步:i=15,j=4失败 dist(n) = 5 所以右移到15+5 = 20处匹配成功

实例代码: 

继续阅读