天天看点

SPOJ694 && SPOJ705 ——不同子串的总数

题意:给定字符串S,求S的不同子串的总数量。

求出SA数组与Height数组,每个子串必然是某个后缀的前缀。令S的长度为N,则后缀SA[i]可以贡献出N-SA[i]个前缀。但其中有Height[i]个与之前的是重复的,因此要减去。

另外,在套模板的时候,处理的字符串S实际上比源字符串多一个结束标记,因此计算出的不同子串数量比答案要多N(N为S的长度,非源的长度,实际上就是源长度加1)。

SPOJ694

//求不同子串的数量 
#include <cstdio>
#include <algorithm>
using namespace std;

int const SIZE = ;
//分隔符,多串连接时需要用到,第0个为结束符,肯定用到
char const DELIMETER[] = {'#'};
int const DELIMETER_CNT = ;
//字母表的字母个数
int const ALPHA_SIZE = DELIMETER_CNT + ;
//char转int
inline int tr(char ch){
    if ( DELIMETER[] == ch ) return ;
    return ch;
}
//辅助数组,以下划线开头
int _wa[SIZE],_wb[SIZE],_wv[SIZE],_ws[SIZE];
//辅助函数
int _cmp(int const r[],int a,int b,int l){return r[a]==r[b]&&r[a+l]==r[b+l];}
//求后缀数组的倍增算法
//r: 源数组,且除r[n-1]外,其余r[i]>0
//n: r的长度
//m: r中的元素取值的上界,即任意r[i]<m
//sa:后缀数组,即结果
void da(int const r[],int n,int m,int sa[]){
    int i,j,p,*x=_wa,*y=_wb,*t;
    for(i=;i<m;i++) _ws[i] = ;
    for(i=;i<n;i++) _ws[x[i] = r[i]]++;
    for(i=;i<m;i++) _ws[i] += _ws[i-];
    for(i=n-;i>=;i--) sa[--_ws[x[i]]]=i;
    for(j=,p=;p<n;j*=,m=p){
        for(p=,i=n-j;i<n;i++) y[p++]=i;
        for(i=;i<n;i++) if(sa[i]>=j) y[p++]=sa[i]-j;
        for(i=;i<n;i++) _wv[i]=x[y[i]];
        for(i=;i<m;i++) _ws[i]=;
        for(i=;i<n;i++) _ws[_wv[i]]++;
        for(i=;i<m;i++) _ws[i] += _ws[i-];
        for(i=n-;i>=;i--) sa[--_ws[_wv[i]]] = y[i];
        for(t=x,x=y,y=t,p=,x[sa[]]=,i=;i<n;i++)
            x[sa[i]]=_cmp(y,sa[i-],sa[i],j)?p-:p++;
    }
    return;
}

//计算rank数组与height数组
//r:  源数组
//sa: 后缀数组
//n:  源数组的长度
//rank: rank数组,即计算结果
//height: height数组,即计算结果
void calHeight(int const r[],int const sa[],int n,int rank[],int height[]){
    int i,j,k=;
    for(i=;i<n;i++) rank[sa[i]]=i;
    for(i=;i<n-;height[rank[i++]]=k)
    for(k?k--:,j=sa[rank[i]-];r[i+k]==r[j+k];k++);
    return;
}

void dispArray(int const a[],int n){
    for(int i=;i<n;++i)printf("%d ",a[i]);
    printf("\n");
}

int R[SIZE];
int SA[SIZE],Rank[SIZE],Height[SIZE];
int N,K;
char A[SIZE];
bool read(){
    scanf("%s",A);
    for(N=;A[N];++N) R[N] = tr(A[N]);
    R[N++] = ;
    return true;
}

int proc(){
    da(R,N,ALPHA_SIZE,SA);
    calHeight(R,SA,N,Rank,Height);

    /*
    dispArray(R,N);
    dispArray(SA,N);
    dispArray(Rank,N);
    dispArray(Height,N);
    //*/

    //查找不同的子串数量,即查找不同的前缀数量
    //每个后缀可以带入N-SA[i]个前缀,其中相同的有Height[i]个
    //最后的结束标记会带入N个,不应计入答案
    int r = -N;
    for(int i=;i<N;++i) r += N - SA[i] - Height[i];
    return r;
}

int main(){
    int nofkase;
    scanf("%d",&nofkase);
    while( nofkase-- ){
        read();
        printf("%d\n",proc());
    }
    return ;
}
           

SPOJ705

//DC3算法在这里慢于倍增
//不同子串的个数 
#include <cstdio>
#include <algorithm>
using namespace std;

int const SIZE = ;
//分隔符,多串连接时需要用到,第0个为结束符,肯定用到
char const DELIMETER[] = {'#'};
int const DELIMETER_CNT = ;
//字母表的字母个数
int const ALPHA_SIZE = DELIMETER_CNT + ;
//char转int
inline int tr(char ch){
    if ( DELIMETER[] == ch ) return ;
    return ch;
}
//辅助宏,以下划线开头
#define _F(x) ((x)/3+((x)%3==1?0:tb))
#define _G(x) ((x)<tb?(x)*3+1:((x)-tb)*3+2)
//辅助数组,以下划线开头
int _wa[SIZE],_wb[SIZE],_wv[SIZE],_ws[SIZE];
//辅助函数
int _c0(int const r[],int a,int b){
    return r[a] == r[b]
        && r[a+] == r[b+]
        && r[a+] == r[b+];
}
int _c12(int k,int *r,int a,int b){
    if(  == k ) return r[a]<r[b] || ( r[a]==r[b]&&_c12(,r,a+,b+) );
    return r[a]<r[b] || ( r[a]==r[b]&&_wv[a+]<_wv[b+] );
}
void _sort(int const r[],int *a,int *b,int n,int m){
    int i;
    for(i=;i<n;i++) _wv[i] = r[a[i]];
    for(i=;i<m;i++) _ws[i] = ;
    for(i=;i<n;i++) _ws[_wv[i]]++;
    for(i=;i<m;i++) _ws[i] += _ws[i-];
    for(i=n-;i>=;i--) b[--_ws[_wv[i]]] = a[i];
    return;
}
//后缀数组的dc3算法,使用此dc3算法一定要保证r与sa的最大长度不小于3倍原长度
//r: 源数组,且除r[n-1]外,其余r[i]>0
//n: r的长度
//m: r中的元素取值的上界,即任意r[i]<m
//sa:后缀数组,即结果
void dc3(int r[],int n,int m,int sa[]){
    int i,j,*rn=r+n,*san=sa+n,ta=,tb=(n+)/,tbc=,p;
    r[n] = r[n+] = ;
    for(i=;i<n;i++) if(i%!=) _wa[tbc++]=i;
    _sort(r+,_wa,_wb,tbc,m);
    _sort(r+,_wb,_wa,tbc,m);
    _sort(r,_wa,_wb,tbc,m);
    for(p=,rn[_F(_wb[])]=,i=;i<tbc;i++)
        rn[_F(_wb[i])] = _c0(r,_wb[i-],_wb[i])?p-:p++;
    if(p<tbc) dc3(rn,tbc,p,san);
    else for(i=;i<tbc;i++) san[rn[i]]=i;
    for(i=;i<tbc;i++) if(san[i]<tb) _wb[ta++] = san[i]*;
    if(n%==) _wb[ta++]=n-;
    _sort(r,_wb,_wa,ta,m);
    for(i=;i<tbc;i++) _wv[_wb[i] = _G(san[i])] = i;
    for(i=,j=,p=;i<ta&&j<tbc;p++)
        sa[p] = _c12(_wb[j]%,r,_wa[i],_wb[j]) ? _wa[i++] : _wb[j++];
    for(;i<ta;p++) sa[p] = _wa[i++];
    for(;j<tbc;p++) sa[p] = _wb[j++];
    return;
}
//计算rank数组与height数组
//r:  源数组
//sa: 后缀数组
//n:  源数组的长度
//rank: rank数组,即计算结果
//height: height数组,即计算结果
void calHeight(int const r[],int const sa[],int n,int rank[],int height[]){
    int i,j,k=;
    for(i=;i<n;i++) rank[sa[i]]=i;
    for(i=;i<n-;height[rank[i++]]=k)
    for(k?k--:,j=sa[rank[i]-];r[i+k]==r[j+k];k++);
    return;
}

void dispArray(int const a[],int n){
    for(int i=;i<n;++i)printf("%d ",a[i]);
    printf("\n");
}

int R[SIZE*],SA[SIZE*];//3倍
int Rank[SIZE],Height[SIZE];
int N,K;
char A[SIZE];
bool read(){
    scanf("%s",A);
    for(N=;A[N];++N) R[N] = tr(A[N]);
    R[N++] = ;
    return true;
}

int proc(){
    dc3(R,N,ALPHA_SIZE,SA);
    calHeight(R,SA,N,Rank,Height);

    /*
    dispArray(R,N);
    dispArray(SA,N);
    dispArray(Rank,N);
    dispArray(Height,N);
    //*/

    //查找不同的子串数量,即查找不同的前缀数量
    //每个后缀可以带入N-SA[i]个前缀(N为带结束标记的长度),其中相同的有Height[i]个
    //最后的结束标记会带入N个,不应计入答案
    int r = -N;
    for(int i=;i<N;++i) r += N - SA[i] - Height[i];
    return r;
}

int main(){
    int nofkase;
    scanf("%d",&nofkase);
    while( nofkase-- ){
        read();
        printf("%d\n",proc());
    }
    return ;
}