后缀自动机应用

历史记录

清除记录

猜你想搜

AcWing热点
App
登录/注册

后缀自动机应用

作者：

清风qwq , 2024-09-16 01:20:25 , 所有人可见 , 阅读 126

4

1

后缀自动机板子

$\dagger$ 约定 $S_{[l,r]}$ 表示字符串 $S$ 取出下标为 $[l,r]$ 的部分组成的字符串。

$\textrm{Example}\ 1$

NOI2008

题目描述

给定字符串 $S$ 以及 $Q$ 次询问。

每次询问给出串 $T$ 和下标 $l,r(1\leq l\leq r\leq |S|)$ ，设 $S’$ 为 $S$ 取下标 $[l,r]$ 的一段字符。

求满足在 $T$ 中出现且不在 $S’$ 中出现的字符串个数。

$|S|\leq 5\times 10^5, Q \leq 10^5, \sum |T| \leq 10^6$

题解

将答案拆为求 $T$ 本质不同子串个数和 $T$ 与 $S’$ 公共子串个数。

先假设 $l=1,r=\left | S \right |$ ，建出 $S$ 的后缀自动机，然后扫描字符串 $T$ 。

设 $h_j$ 表示满足 $T_{[j-len+1,j]}$ 为 $S$ 的子串的最大的 $len$ 。

定义 $p$ 表示现在在 $S$ 的后缀自动机上的哪个节点，扫描 $T$ 并依次进行如下操作：

$c := T_i$
重复执行 $p=link(p)$ ，直到 $p.to[c] \ne NULL$
$p\gets p.to[c]$

我们证明如上操作的复杂度，每次执行 $3$ 操作， $len$ 会加一，而执行 $2$ 操作， $len$ 会至少减一，所以均摊 $O(\left | T\right |)$ 。

得到 $h_i$ 后，我们在 $T$ 的后缀自动机上找到 $T_{[i-h_i+1, i]}$ 的等价类 $v$ ，则 $v$ 以及 $v$ 在后缀链接上的祖先节点中，所有 $len \leq h_i$ 的字符串都满足同时为 $S,T$ 的子串。

所以我们现在 $v$ 上更新 $g_v \gets \max(g_v, h_i)$ ，完成所有 $n$ 个更新后，对后缀链接建图， $dfs$ 一边这棵树即可。

时间复杂度 $O(|S|+\sum |T|)$ 。

接下来，我们需要求的是 $S_{[l,r]}$ 的后缀自动机，根据以上解法，我们需要的是：

爬父节点；
查询 $p.to[c]$ 。

先拿出整个串的后缀自动机，定义一些点为虚点，这些点满足没有任何一个串为 $T_{[l,r]}$ 的子串。

我们发现如果 $u$ 不为虚点，那么 $u$ 的后缀链接也不为虚点，于是我们只需要在整串的自动机基础上删除虚点即可。

但这样效率太低，所以我们只需要查询 $p.to[c]$ 时， $check$ 这个点，那么如何 $check$ ？

我们预处理出后缀自动机的 $endpos$ 集合，点 $u$ 的 $endpos$ 集合即为后缀树上 $u$ 的所有儿子节点 $endpos$ 集合的并集。

初始化为对于所有 $j$ ，找到前缀 $S_{[1,j]}$ 的等价类，然后这个节点将 $j$ 加入 $endpos$ ，当然这个节点不一定为叶子节点。

维护 $endpos$ 集合，我们需要用到线段树合并，并且需要在合并时加入可持久化。

$check$ 时，找到 $u$ 的第一个小于等于 $r$ 的 $endpos$ ，然后根据最小长度判断。

总复杂度 $O((|S| + \sum |T|) \log |S|)$ 。

总结

本题出现技巧主要有求两个串的公共子串个数和模拟某个子串的后缀自动机。

#include <bits/stdc++.h>
#define pb push_back
#define ll long long

using namespace std;

const int N = 4e6 + 10, B = 2e7 + 10;
char s[N / 4];
int n, h[N], e[N], ne[N], idx;

void add(int a, int b) {
    e[idx] = b, ne[idx] = h[a], h[a] = idx ++ ;
}

int treetot, root[N / 2];
struct Ciallo {
    int ans, l, r;
} tr[B];

void modify(int &u, int l, int r, int x) {
    if (!u) u = ++ treetot;
    tr[u].ans = max(tr[u].ans, x);
    if (l == r) return;
    int mid = l + r >> 1;
    if (x <= mid) modify(tr[u].l, l, mid, x);
    else modify(tr[u].r, mid + 1, r, x);
}

int query(int u, int l, int r, int s, int t) {
    if (!u) return 0;
    if (s <= l && r <= t) return tr[u].ans;
    int mid = l + r >> 1;
    if (s > mid) return query(tr[u].r, mid + 1, r, s, t);
    if (t <= mid) return query(tr[u].l, l, mid, s, t);
    return max(query(tr[u].l, l, mid, s, t), query(tr[u].r, mid + 1, r, s, t));
} 

int merge(int x, int y, int l, int r) {
    if (!x || !y) return x | y;
    if (l > r) return 0;
    int z = ++ treetot;
    tr[z].ans = max(tr[x].ans, tr[y].ans);
    int mid = l + r >> 1;
    tr[z].l = merge(tr[x].l, tr[y].l, l, mid);
    tr[z].r = merge(tr[x].r, tr[y].r, mid + 1, r);
    return z;
}

int tot = 0;
struct Node {
    int ch[26], fa, len;
} node[N];

int check(int u, int l, int r) {
    int rr = query(root[u], 1, n, 1, r);
    if (rr - node[node[u].fa].len >= l) return min(rr - l + 1, node[u].len);
    return 0;
}

struct suffix_automaton {
    int rt = ++ tot, last = rt;
    vector<int> vec = {rt};
    void extend(int c) {
        int p = last, np = last = ++ tot;
        node[np].len = node[p].len + 1;
        vec.pb(np);
        for (; p && !node[p].ch[c]; p = node[p].fa) node[p].ch[c] = np;
        if (!p) node[np].fa = rt;
        else {
            int q = node[p].ch[c];
            if (node[q].len == node[p].len + 1) node[np].fa = q;
            else {
                int nq = ++ tot;
                vec.pb(nq);
                node[nq] = node[q], node[nq].len = node[p].len + 1;
                node[q].fa = node[np].fa = nq;
                for (; p && node[p].ch[c] == q; p = node[p].fa) node[p].ch[c] = nq;
            }
        }
    }
    void addedge() {
        for (int i : vec) {
            if (node[i].fa)
                add(node[i].fa, i);
        }
    }
} S, T[100010];

int lmx[N];

long long dfs(int u) {
    long long ans = 0; 
    for (int i = h[u]; ~i; i = ne[i]) {
        int j = e[i];
        ans += dfs(j);
        lmx[u] = max(lmx[u], lmx[j]);
    }
    int l = node[node[u].fa].len + 1, r = node[u].len;
    if (lmx[u] >= l) ans += r - min(lmx[u], r);
    else ans += r - l + 1;
    return ans;
} 

void dfs2(int u) {
    for (int i = h[u]; ~i; i = ne[i]) {
        int j = e[i];
        dfs2(j);
        root[u] = merge(root[u], root[j], 1, n);
    }
}

int main() {
    node[0].len = -1;
    memset(h, -1, sizeof h); 
    scanf("%s", s + 1);
    n = strlen(s + 1);
    for (int i = 1; i <= n; i ++ ) S.extend(s[i] - 'a');
    S.addedge();
    int p = S.rt;
    for (int i = 1; i <= n; i ++ ) {
        int c = s[i] - 'a';
        p = node[p].ch[c];
        modify(root[p], 1, n, i);
    }
    dfs2(S.rt);
    int Q;
    scanf("%d", &Q);
    for (int id = 0; id < Q; id ++ ) {
        string t;
        cin >> t;
        int l, r;
        scanf("%d%d", &l, &r);
        for (int i = 0; i < t.size(); i ++ ) T[id].extend(t[i] - 'a');
        T[id].addedge();
        int p1 = S.rt, p2 = T[id].rt, le = 0;
        for (int i = 0; i < t.size(); i ++ ) {
            int c = t[i] - 'a';
            for (; p1; p1 = node[p1].fa) {
                if (node[p1].ch[c]) {
                    int q = node[p1].ch[c];
                    int h = check(q, l, r);
                    if (node[node[p1].fa].len + 2 <= h) {
                        le = min(le + 1, h);
                        break;
                    }
                }
                le = node[node[p1].fa].len;
            }
            if (!p1) p1 = S.rt, le = 0;
            else p1 = node[p1].ch[c];
            p2 = node[p2].ch[c];
            lmx[p2] = max(lmx[p2], le);
        }
        printf("%lld\n", dfs(T[id].rt));
    }
    return 0;
}