Алгоритмы поиска. Лекция 12

Сентябрь 4, 2022

Главная
Алгебра
Алгоритмы поиска. Лекция 12

Содержание

2. План лекции Поиск в массивах и списках Линейный поиск Бинарный поиск Поиск подстроки Наивный поиск подстроки
3. Поиск в массивах и списках Значения элементов массива (списка) делятся на ключ и произвольные данные struct
4. Последовательный просмотр ячеек Останов, если найден нужный ключ или кончились ячейки Число сравнений в худшем случае
5. place_t linear_search (list_t L, K key) { place_t p; for (p = begin(L); p != end();
6. Бинарный поиск в упорядоченном массиве На каждом шаге делим массив пополам и на следующем шаге продолжаем
7. Бинарный поиск в упорядоченном массиве int binary_search(const struct KeyData A[], int N, K key) { int
8. 4 10 17 19 20 28 25 2 33 45 40 42 39 35 46 64
9. План лекции Поиск в массивах и списках Линейный поиск Бинарный поиск Поиск подстроки Наивный поиск подстроки
10. abcdaaccbbssacbaszzzaaa cbbss s q Поиск подстроки Даны строка s из N элементов (текст) и строка q
11. Наивный (прямой) поиск подстроки Шаг 1 «Прикладываем» левый край образца к левому краю текста, К =
12. Прямой поиск подстроки int naive_substring_search( const char s[], int N, const char q[], int M) {
13. Алгоритм Рабина-Карпа Майкл Рабин р. 1932 Ричард Карп р. 1935 Karp, Richard M. Rabin, Michael O.
14. Алгоритм Рабина-Карпа Быстрый поиск нескольких образцов в одном тексте Уменьшение числа сравнений в наивном поиске подстроки
15. Алгоритм Рабина-Карпа Шаг 1 Прикладываем левый край образца к левому краю текста, К = 0 Вычисляем
16. Алгоритм Рабина-Карпа int rk_substring_search( const char s[], int N, const char q[], int M) { int
17. Простая хэш-функция // hs = s[0]+s[1]+…+s[M-1] // чем плоха такая хэш-функция? int rk_hash(const char s[], int
18. Улучшенная хэш-функция static const int rk_hash_p = "хорошее" простое число; static const int rk_hash_n = 256;
19. Анализ алгоритма Рабина-Карпа Число сравнений зависит от сочетания хэш-функции, текста и образца В худшем случае О((N
20. Алгоритм Бойера—Мура Robert Stephen Boyer Роберт Стивен Бойер р. ? J Strother Moore Джей Стротер Мур
21. Алгоритм Бойера—Мура Улучшение наивного поиска Сравнение текста и образца, начиная с q[М – 1] и s[k
22. Алгоритм Бойера-Мура со сдвигом по стоп-символам Шаг 1 Прикладываем левый край образца к левому краю текста,
23. Алгоритм Бойера-Мура без сдвига по суффиксам int bm_substring_search( const char s[], int N, const char q[],
24. Заполнение таблицы сдвигов по стоп-символам Для каждого символа x из образца Если q[M-1] != х (не
25. Пример заполнения таблицы сдвигов по стоп-символам Для образца q=“аbсаbеаbсе” (М = 10) d['a'] = 3 d['b']
26. а friend in need is a friend indeed indeed М = 6 d['i'] = 5 d['n']
27. Анализ алгоритма Бойера-Мура В лучшем случае O(N/M) сравнений Если последний символ образца всегда попадает на символ
28. Алгоритм Кнута-Морриса- Пратта Donald Knuth Дональд Кнут р. 1938 Воган Пратт р. 1944 Джеймс Моррис р.
29. Алгоритм Кнута-Морриса-Пратта Улучшение наивного поиска Каждый символ текста участвует в сравнении Сдвиг выбирается с учётом того,
30. Алгоритм Кнута-Морриса-Пратта На сколько позиций можно сдвинуть q относительно s, не пропустив вхождений q в s,
31. Префикс-функция КМП Префикс-функция prefix(q, j) строки q prefix(q,j) = max { x | q[0..x] = q[j-x..j],
32. Префикс-функция КМП Пример 1 j 0 1 2 3 4 5 6 q[j] a b a
33. Алгоритм Кнута-Морриса-Пратта Шаг 1 Прикладываем левый край образца к левому краю окна просмотра, К = 0,
34. Алгоритм Кнута-Морриса-Пратта int kmp_substring_search( const char s[], int N, const char q[], int M) { int
35. Алгоритм Кнута-Морриса-Пратта В худшем случае О(N) сравнений без учета построения префикс-функции Почему каждый символ текста участвует
36. Заключение Поиск в массивах и списках Линейный поиск списки, массивы, линейная сложность Бинарный поиск упорядоч. массивы,
37. При первом входе в цикл индексы указывают на начала строк и Eq(i,j) = Eq(1, 1), очевидно,
38. При несовпадении очередных символов надо сдвинуть образец так, чтобы некоторый dj-префикс q продолжал совпадать с dj-суффиксом
39. До сдвига pref (q, j–1) совпадает с suff (pref (s ,i—1), dj — 1). Чтобы сдвиг
40. Добавив теперь условие максимальности длины префикса dj, выразим зависимость dj от j cледующей префикс-функцией: d [j]
41. Выбором подходящего dj, с учетом всего сказанного, занимается внутренний цикл КМП-алгоритма. Ниже приведены значения префикс-функции и
42. - Eq(i,j): j = 6,d[j] = 4 pref(q,3) = suff(pref(s,i-1),3) d-1 = 3 – длина совпадения
43. Допустим, что для всех позиций k образеца, предшествующих и включая i, d[k] уже вычислены и d[i]
44. int seek_substring_KMP (char s[], char q[]){ int i, j, N, M; N = strlen(s); M =
45. Алгоритм Рабина -- Карпа поиска подстроки Майкл Рабин, Ричард Карп 1987 Уменьшение числа сравнений в наивном
46. По схеме Горнера значения tq и t1 можно вычислить за время, пропорциональное М Временно забудем о
47. Чтобы получить t[k+1] из t[k], надо удалить последнее слагаемое из формулы (10) ( т. е. вычесть
48. Вычислив все tk, мы можем по очереди сравнить их с tq, определив тем самым совпадение или
49. Рекуррентная формула (11) приобретает вид: где . Из равенства tq ≡ tk(mod p) еще не следует,
50. Алгоритм А5: • вход: q - образец, s - строка, М - длина образеца, N -
51. int Robin_Carp_Matcher(char s[], char q[], int d, int p) { int i, h, k, M, N,
52. вхождение образца холостое срабатывание … … … (б) mod 13 Цифра старшего разряда Цифра младшего разряда
53. Реализация алгоритма Бойера-Мура int seek_substring_BM(unsigned char s[], unsigned char q[]) { int d[256]; int i, j,
54. Алгоритм Бойера-Мура Будем последовательно сравнивать образец q с подстроками s[i – М + 1..i] (в начале
55. Здесь j = 6 символов строки, следующих за позицией k, уже известны, поэтому можно, не выполняя
56. КМП-алгоритм (Кнут, Моррис, Пратт) Алгоритм А4: • вход: q - образец, s - строка, М -
57. Индекс-указатель i пробегает строку s без возвратов (что обеспечивает линейность времени работы алгоритма). Индекс j синхронно
59. Скачать презентацию

Слайд 2

План лекции
Поиск в массивах и списках
Линейный поиск
Бинарный поиск
Поиск подстроки
Наивный поиск подстроки
Алгоритм

Рабина-Карпа
Алгоритм Бойера-Мура
Алгоритм Кнута-Мориса-Прата

Слайд 3

Поиск в массивах и списках
Значения элементов массива (списка) делятся на ключ

и произвольные данные struct KeyData { K key; T data; };
Ключ можно рассматривать как значение функции T -> K, которая вычисляет ключ key на основании (сколь угодно сложного) анализа данных data
Алгоритм поиска в массиве (списке) находит индекс элемента массива (адрес элемента списка), имеющего заданный ключ

Слайд 4

Последовательный просмотр ячеек
Останов, если найден нужный ключ или кончились ячейки
Число сравнений

в худшем случае О(число ячеек)
Условия применимости
Либо отсутствует линейный порядок на множестве ключей
Либо время поиска не существенно с точки зрения программиста (число ячеек заведомо невелико, 1-кратный поиск, и т.п.)
Многократный поиск в большом числе ячеек – либо сортировка + бинарный поиск для массива, либо ДДП

Линейный (последовательный) поиск

Слайд 5

$place_t linear_search (list_t L, K key) { place_t p; for (p$

place_t linear_search (list_t L, K key) { place_t p; for (p = begin(L); p

!= end(); p = next(p)) if (get_value(p).key == key) return p; return end(); // элемент не найден }
// Как для массива?

Линейный поиск в списке

Слайд 6

Бинарный поиск в упорядоченном массиве
На каждом шаге делим массив пополам

и на следующем шаге продолжаем поиск в той половине, которая должна содержать искомый элемент
Применяется к упорядоченным массивам
Число сравнений в худшем случае О(log2(размер массива))
Требуется линейный порядок на множестве ключей
Применяется к большим массивам

Слайд 7

Бинарный поиск в упорядоченном массиве
int binary_search(const struct KeyData A[], int N,

K key) { int L = 0, R = N-1; do { int M = (L+R)/2; if (key == A[M].key) return M; if (A[M].key < key) L = M + 1; else R = M - 1; } while (L <= R); return -1; } // Почему число сравнений O(log2(N))?

Слайд 8

4
10
17
19
20
28
25
2
33
45
40
42
39
35
46
64
71
77
85
89
99
X = 33
[
]
0 1 2 3 4 5 6 7

8 9 10 11 12 13 14 15 16 17 18 19 20

Бинарный поиск в упорядоченном массиве

Слайд 9

План лекции
Поиск в массивах и списках
Линейный поиск
Бинарный поиск
Поиск подстроки
Наивный поиск подстроки
Алгоритм

Рабина-Карпа
Алгоритм Бойера-Мура
Алгоритм Кнута-Мориса-Прата

Слайд 10

abcdaaccbbssacbaszzzaaa
cbbss
s
q
Поиск подстроки
Даны строка s из N элементов (текст) и строка

q из М <= N элементов (образец)
Требуется найти индекс k, указывающего на начало первого вхождения образца q в текст s q[0] = s[k], q[1] = s[k+1], ..., q[M−1] = s[k+M − 1]

Слайд 11

Наивный (прямой) поиск подстроки
Шаг 1
«Прикладываем» левый край образца к левому краю

текста, К = 0
Шаг 2
Проверяем, входит ли образец в текст, начиная с К-й позиции, последовательным сравнением символов образца q[j] с символами текста s[K+j] слева направо
Шаг 3
Если имеем M совпадений, то образец в тексте найден – конец работы
Если K+M >= N, то образец не найден – конец работы
Иначе K = K+1 и переходим к шагу 2
В худшем случае О((N - М)*М) сравнений

Слайд 12

Прямой поиск подстроки
int naive_substring_search(
const char s[], int N, const char

q[], int M) { int k; // смещение образца по тексту for (k = 0; k < N-M; ++k) { int j; // смещение по образцу for (j = 0; s[k+j]==q[j]; ++j) if (j == M-1) return k; // нашли } return -1; // не нашли }

Слайд 13

Алгоритм Рабина-Карпа
Майкл Рабин р. 1932
Ричард Карп р. 1935
Karp, Richard M. Rabin, Michael

O. Efficient randomized pattern-matching algorithms // IBM Journal of Research and Development Vol. 31 (2), pp. 249—260, March 1987

Слайд 14

Алгоритм Рабина-Карпа
Быстрый поиск нескольких образцов в одном тексте
Уменьшение числа сравнений в

наивном поиске подстроки за счёт использования хэш-функции (разновидность контрольной суммы)
Хэш-функции преобразуют строки (в общем случае – данные) в числовые значения – т.н. хэш-значения
Алгоритм Р.-К. использует тот факт, что одна и та же хэш-функция преобразует одинаковые строки в одинаковые хэш-значения

Слайд 15

Алгоритм Рабина-Карпа
Шаг 1
Прикладываем левый край образца к левому краю текста, К

= 0
Вычисляем хэш-значения hq и hs для q и для s[0…M-1]
Шаг 2
Если hq == hs, то проверяем, входит ли образец в текст, начиная с К-й позиции, последовательным сравнением символов образца q[j] с символами текста s[K+j] слева направо, j=0…M-1
Шаг 3
Если имеем M совпадений, то образец в тексте найден – конец работы
Если K+M >= N, то образец в тексте не найден – конец работы
Иначе вычисляем hs для s[K+1…K+M], используя hs для s[K…K+M-1], K = K+1 и переходим к шагу 2

Слайд 16

Алгоритм Рабина-Карпа
int rk_substring_search(
const char s[], int N, const char q[], int

M) { int k; // смещение образца по тексту int hs = rk_hash(s, M); int hq = rk_hash(q, M); for (k = 0; k < N-M; ++k) { int j; // смещение по образцу if (hs == hq) for (j = 0; s[k+j]==q[j]; ++j) if (j == M-1) return k; // нашли // время работы rk_hash_update должно быть O(1) hs = rk_hash_update(hs, s[k], s[k+M], M); } return -1; // не нашли }

Слайд 17

Простая хэш-функция
// hs = s[0]+s[1]+…+s[M-1] // чем плоха такая хэш-функция?
int rk_hash(const char

s[], int M) { int h = 0, i; for (i = 0; i < M; ++i) h += s[i]; }
int rk_hash_update(int h, char out, char in, int M) { return h-out+in; // M не используется }

Слайд 18

Улучшенная хэш-функция
static const int rk_hash_p = "хорошее" простое число;
static const int

rk_hash_n = 256; // число символов в алфавите
// hs = ( s[0]*n^0+s[1]*n^1+…+s[M-1]*n^(M-1) ) mod p
int rk_hash(const char s[], int M) { int h = 0, w = 1, i; for (i = 0; i < M; ++i) h += (w*s[i])%rk_hash_p, w = (w*rk_hash_n)%rk_hash_p; }
int rk_hash_update(int h, char out, char in, int M) { static int nM = 0; if (nM == 0) nM = (rk_hash_n M-1 ) mod rk_hash_p; return ((h-out)/rk_hash_n + in*nM)%rk_hash_p; }

Слайд 19

Анализ алгоритма Рабина-Карпа
Число сравнений зависит от сочетания хэш-функции, текста и образца
В

худшем случае О((N - М)*М)
Приведите пример хэш-функции
В "среднем" O(N) сравнений
Приведите сочетание хэш-функции и текста, для которых число сравнений = O(N) и не зависит от образца

Слайд 20

Алгоритм Бойера—Мура
Robert Stephen Boyer Роберт Стивен Бойер р. ?
J Strother Moore

Джей Стротер Мур р. ?
Имя из одной буквы!
Robert S. Boyer, J S. Moore A Fast String Searching Algorithm // Communications of the Association for Computing Machinery, Vol. 20, No. 10, pp. 762-772, 1977

Слайд 21

Алгоритм Бойера—Мура
Улучшение наивного поиска
Сравнение текста и образца, начиная с q[М

– 1] и s[k + М – 1] в обратном порядке
Сдвиг образца на расстояние >= 1
Таблица сдвигов по стоп-символам d[c] = безопасный сдвиг образца относительно текста при условии, что s[k+M-1] == c и s[k…k+M-1] != q
Таблица сдвигов по суффиксам suffix_shift[j] = min сдвиг образца относительно текста, совмещающий внутреннюю часть образца с просмотренным суффиксом

s: * * * * * * * * b * * * * *
q: * * * b * * *
----->* * * b * * *
размер сдвига = d[‘b’] – зависит только от q

Слайд 22

Алгоритм Бойера-Мура со сдвигом по стоп-символам
Шаг 1
Прикладываем левый край образца к

левому краю текста, К = 0
Заполняем таблицу сдвигов по стоп-символам d
Шаг 2
Проверяем, входит ли образец в текст, начиная с К-й позиции, последовательным сравнением символов образца q[j] с символами текста s[K+j] справа налево, j=M-1...0
Шаг 3
Если имеем M совпадений, то образец в тексте найден – конец работы
Если K+M >= N, то образец в тексте не найден – конец работы
Иначе K = K+d[s[K+M-1]] и переходим к шагу 2

Слайд 23

Алгоритм Бойера-Мура без сдвига по суффиксам
int bm_substring_search(
const char s[], int N,

const char q[], int M) { int k; // смещение образца по тексту int d[256]; // таблица сдвигов bm_init(d, q, M); for (k = 0; k < N-M; k+=d[s[k+M-1]]) { int j; // смещение по образцу for (j = M-1; s[k+j]==q[j]; --j) if (j == 0) return k; // нашли } return -1; // не нашли }

Слайд 24

Заполнение таблицы сдвигов по стоп-символам
Для каждого символа x из образца
Если q[M-1]

!= х (не последний символ), то d[x] есть расстояние от последнего вхождения х в образец до q[M-1]
Если q[M-1] == х (последний символ) и x входит в образец >= 2 раз, то d[x] равно расстоянию от предпоследнего вхождения х до q[M-1]
Если q[M-1] == х (последний символ) и x входит в образец 1 раз, то d[x] = М

Слайд 25

Пример заполнения таблицы сдвигов по стоп-символам
Для образца q=“аbсаbеаbсе” (М = 10)

d['a'] = 3
d['b'] = 2
d['c'] = 1
d['e'] = 4
d[x] = 10 для х, не входящих в образец

Слайд 26

а friend in need is a friend indeed
indeed
М = 6
d['i'] =

5
d['n'] = 4
d['d'] = 3
d['e'] = 1

Шаг 1 – сдвиг на 1
Шаг 2 – сдвиг на 4
Шаг 3 – сдвиг на 4
Шаг 4 – сдвиг на 1
Шаг 5 – сдвиг на 3
Шаг 6 – сдвиг на 6
Шаг 7 – сдвиг на 5
Шаг 8 – сдвиг на 5

indeed

Пример работы алгоритма Бойера – Мура без сдвигов по суффиксам

Слайд 27

Анализ алгоритма Бойера-Мура
В лучшем случае O(N/M) сравнений
Если последний символ образца всегда

попадает на символ текста, не входящий в образец
В худшем случае О((N - М)*М) сравнений
Приведите пример текста и образца для худшего случая

Слайд 28

Алгоритм Кнута-Морриса- Пратта
Donald Knuth Дональд Кнут р. 1938
Воган Пратт р. 1944
Джеймс

Моррис р. 1941
Knuth, Donald; Morris, James H., jr; Pratt, Vaughan "Fast pattern matching in strings" SIAM Journal on Computing Vol 6 (2), pp. 323–350, 1977

Слайд 29

Алгоритм Кнута-Морриса-Пратта
Улучшение наивного поиска
Каждый символ текста участвует в сравнении <=

одного раза
Сдвиг выбирается с учётом того, какой именно префикс образца совпал с префиксом текста в окне просмотра

Слайд 30

Алгоритм Кнута-Морриса-Пратта
На сколько позиций можно сдвинуть q относительно s, не

пропустив вхождений q в s, если до позиций i и j они совпадают, а в i и j различаются?

0 k i N-1
s: b a a b a b a b a c a b a t
q: a b a b a c a
0 j M-1

Слайд 31

Префикс-функция КМП
Префикс-функция prefix(q, j) строки q prefix(q,j) = max { x |

q[0..x] = q[j-x..j], x < j } prefix(q,0) = 0
Свойства префикс-функции
prefix(q,j) = длина самого длинного префикса строки q[0..j], который != q[0..j] и является суффиксом q[0..j]
j-prefix(q,j)+1 = размер безопасного сдвига образца, если q[0..j] совпал с текстом в окне просмотра
prefix(q,j) = число сравнений, которые можно не делать после такого сдвига окна просмотра

Слайд 32

Префикс-функция КМП
Пример 1
j 0 1 2 3 4 5 6 q[j] a b a

b a c a j-prefix(q,j)+1 1 2 2 2 2 6 6 prefix(q,j) 0 0 1 2 3 0 1
Пример 2 j 0 1 2 3 4 5 6 q[j] b a a a a a a j-prefix(q,j)+1 1 2 3 4 5 6 7 prefix(q,j) 0 0 0 0 0 0 0

Слайд 33

Алгоритм Кнута-Морриса-Пратта
Шаг 1
Прикладываем левый край образца к левому краю окна просмотра,

К = 0, j = 0
Вычисляем префикс-функцию образца
Шаг 2
Проверяем, входит ли образец в текст, начиная с К-й позиции, последовательным сравнением символов образца q[j] с символами текста s[K+j] слева направо, j=j...M-1
Шаг 3
Если имеем M совпадений, то образец в тексте найден – конец работы
Если K+M >= N, то образец в тексте не найден – конец работы
Иначе K = K+j-prefix[j-1], j = prefix[j-1]+1 и переходим к шагу 2

Слайд 34

Алгоритм Кнута-Морриса-Пратта
int kmp_substring_search(
const char s[], int N, const char q[], int

M) { int k = 0; // смещение образца по тексту int j = 0; // смещение по образцу int p[M+1], prefix = p+1; // таблица сдвигов, С99 kmp_init(prefix, q, M); for (k = 0; k < N-M; k+=j-prefix[j-1]) { for (j = j; s[k+j]==q[j] && j < M; ++j) if (j == M) return k; // нашли
j = prefix[j-1]+1; } return -1; // не нашли }

Слайд 35

Алгоритм Кнута-Морриса-Пратта
В худшем случае О(N) сравнений без учета построения префикс-функции
Почему каждый

символ текста участвует в сравнении <= 1 раз?
Опишите работу алгоритма КМП для текста «аааааа...аbaaaaaa» и образца «baaaaaa»
В чем отличие от работы алгоритма БМ?

Слайд 36

Заключение
Поиск в массивах и списках
Линейный поиск
списки, массивы, линейная сложность
Бинарный поиск
упорядоч. массивы,

логарифмическая сложность
Поиск подстроки
Наивный поиск подстроки
O(N) … O(M*N)
Алгоритм Рабина-Карпа
O(N) … O(M*N)
Алгоритм Бойера-Мура
O(N/M) … O(M*N)
Алгоритм Кнута-Мориса-Пратта
O(N) … O(N+M)

Слайд 37

При первом входе в цикл индексы указывают на начала строк и

Eq(i,j) = Eq(1, 1), очевидно, истинно.
На каждом проходе цикла указатель i сдвигается на одну позицию строки вперед без возвратов.
Пока очередные символы совпадают, внутренний цикл не выполняется и j просто увеличивается синхронно с i, что обеспечивает сохранение условия
Eq(iнов, jнов) = Eq(i+1,j+1)
без сдвига образеца относительно строки.

Слайд 38

При несовпадении очередных символов надо сдвинуть образец так, чтобы некоторый dj-префикс

q продолжал совпадать с dj-суффиксом просмотренной строки s [1 .. i] , тем самым сохраняя инвариант Eq (iнов, jнов) = Eq (i + 1, dj + 1) для следующей итерации цикла.
Изменение соответствия позиций с (i, j) на (i+1, dj+1) означает сдвиг q относительно s на D = j - dj > 0 позиций вперед.
Отсюда dj < j. Если таких dj-префиксов можно указать несколько, надо выбрать из них наибольший по длине, чтобы сдвиг D был кратчайшим.
Если таких префиксов нет, возьмем dj = 0, так как Eq(i+1, 1) всегда истинно. Это соответствует сдвигу образеца на D=j, к позиции s[i+l]; т. е. следующее сравнение начнется со следующей непрочитанной позиции
строки, имея «нулевую историю» совпадений.

Слайд 39

До сдвига pref (q, j–1) совпадает с suff (pref (s ,i—1),

dj — 1).
Чтобы сдвиг образеца на D=j – dj был перспективен, префикс
pref (q, j – D – 1) = pre f (q, dj – 1 ) должен совпадать с суффиксом
suff (pref (s, i – 1), dj – 1), с которым до сдвига совпадал
suff (pref (q, j–1), dj–1).
Отсюда pref(q, dj –1) = suff (pref (q, j –1), dj –1), т. е.

q[1...dj–1] = q[j–dj + 1 ... j–1]. (7)

Это условие необходимо для перспективности сдвига на D = j – dj,
но еще не достаточно;
из сравнения нам еще известно, что s[i] не совпадает с q[j].
Поэтому если q[dj] = q[j], то сдвиг бесперспективен.
Сделаем соответствующее уточнение в формуле (7):

q[1...dj –1] = q[j–dj + 1 ... j–1] и q[dj] ≠ q[j] (8)

Слайд 40

Добавив теперь условие максимальности длины префикса dj,
выразим зависимость dj от j

cледующей префикс-функцией:
d [j] = max{d ⎪ d < j и q [1...d –1] = q [j–d + 1 ... j–1] и q [d] ≠ q [j] }. (9)

Как можно видеть, префикс-функция зависит только от образеца q,
но не от строки s, поэтому она может быть вычислена ещё до начала
поиска и задана в алгоритме таблицей значений.

Однако зависимость dj от строки все же имеется:
если q[dj] ≠ s[i], то сдвиг тоже заведомо бесперспективен.
В этом случае вычисленное d[j] следует отвергнуть и
Так как j > dj, все длины перспективных префиксов q
образуют последовательность, убывающую до нуля:
d[j] > d[d[j]] > d[d[d[j]]] > ... > d[...d[j]...] = 0.

Слайд 41

Выбором подходящего dj, с учетом всего сказанного,
занимается внутренний цикл КМП-алгоритма.
Ниже

приведены значения префикс-функции и величины сдвига
для образеца аbаbаса из примера выше: - по формуле (9)

j: 1 2 3 4 5 6 7
q[j]: a b a b a c a
d[j]: 0 1 0 1 0 4 0 - по фломуле (9)
D=j-d[j]: 1 1 3 3 5 2 7

Слайд 42

- Eq(i,j): j = 6,d[j] = 4
pref(q,3) = suff(pref(s,i-1),3)
d-1 =

3 – длина совпадения
условие (8) выполнено и q[d] = s[i]
сдвиг на j-d = 2 совмещает префикс с суфиксом
d-префикс совпадает Eq(i+1,d+1)
продолжаем сравнение с (i+1,d+1)

Пример

Слайд 43

Допустим, что для всех позиций k образеца, предшествующих и включая i,

d[k] уже вычислены и d[i] = j+1.
Это означает, что pref (q, j) = suff (pref(q, i), j).
Сравним q [i + 1] и q [j + 1]:
если они равны, то pref(q, j + 1) = suff (pref (q, i+ 1), j + 1),
т. е. d[i + 1] = j +2;
если они не равны, то выберем для испытаний следующий по длине
префикс q, являющийся суффиксом pref (q, i ), т. е. d[j].

Слайд 44

$int seek_substring_KMP (char s[], char q[]){ int i, j, N, M;$

int seek_substring_KMP (char s[], char q[]){
int i, j, N, M;

N = strlen(s); M = strlen(q);
int *d =(int*)malloc(M*sizeof(int));/*динамический массив длины М+1*/
/* Вычисление префикс-функции */
i=0; j=-l; d[0]=-l;
while (i < M-l) {
while((j>=0) && (q[j]!=q[i]))
j = d[j];
i++; j++;
if(q[i]==q[j]) d[i] = d[j];
else d[i]= j;
}
/* поиск */
for(i=0,j=0;(i<=N-l)&&(j<=M-l); i++,j++)
while((j>=0)&&(q[j]!=s[i]))
j = d[j];
free (d); /* освобождение памяти массива d */
if (j==M) return i-j;
else /* i==N */ return -1;
}

Слайд 45

Алгоритм Рабина -- Карпа поиска подстроки
Майкл Рабин, Ричард Карп 1987
Уменьшение

числа сравнений в наивном поиске подстроки за счёт использования кольцевой хэш-функции (разновидность контрольной суммы)
Пусть строка и образец состоят из символов алфавита А.
Каждый символ этого алфавита будем считать d-ичной цифрой,
где d = A. Строку из k символов можно рассматривать как
запись d-ичного k-значного числа.
Тогда поиск образца в строке cводится к серии из N – М
сравнений числа, представляющего образец, с числами,
представляющими подстроки s длины М.
Cравнение чисел может быть выполнено за время,
пропорциональное М, и тогда эффективность поиска будет
O(N + М) .
Для начала предположим, что А = {0,1, ..., 9}. Число, десятичной
записью которого является образец q, обозначим через tq.
Аналогично, обозначим через tk число, десятичной записью
которого является подстрока s[k ... k + М – 1].
Подстрока s[k ... k + М – 1] совпадает с образцом q тогда и
Только тогда, когда tq = tk .

Слайд 46

По схеме Горнера значения tq и t1 можно вычислить за время,

пропорциональное М
Временно забудем о том, что вычисления могут привести к очень большим числам.
Из tk (1 < k <= N – М) за константное время можно вычислить tk+1 по схеме Горнера

Слайд 47

Чтобы получить t[k+1] из t[k], надо удалить последнее слагаемое из формулы

(10) ( т. е. вычесть 10M-1*s[k]), результат умножить на 10 и добавить к нему s[k+M]
В результате получим следующее рекуррентное соотношение:

k=2, M=4 s = 1 2 3 4 5 6 7
t2= 5+10·(4+10·(3+10·2)))= 2345
t3= 6+10·(5+10·(4+10·3)))= 3456
2345-103·2=2345-2000=345
345·10=3450
3450+6=3456

Слайд 48

Вычислив все tk, мы можем по очереди сравнить их с tq,

определив тем самым совпадение или несовпадение образца q
с подстроками s[k ... k + М – 1].
Время работы этого алгоритма пропорционально N-M.
До сих пор мы не учитывали того, что числа могут быть слишком
велики. С этой трудностью можно справиться следующим образом.
Надо проводить вычисления чисел tq и tk и вычисления
по формуле (11) по модулю фиксированного числа р.
Тогда все числа не превосходят р и действительно могут быть
вычислены за время порядка М.
Обычно в качестве р выбирают простое число, для которого d⋅р
помещается в машинное слово, все вычисления в этом случае
упрощаются.

Слайд 49

Рекуррентная формула (11) приобретает вид:
где .
Из равенства tq ≡ tk(mod p)

еще не следует, что tq = tk и, стало быть,
что q = s[k ... k + М – 1].
В этом случае надо для надежности проверить
совпадение образеца и подстроки.

Слайд 50

Алгоритм А5:
• вход: q - образец, s - строка, М -

длина образеца, N - длина строки,
М < N, d - число символов в алфавите.
По схеме Горнера вычислить числа t1 и tk по модулю р;
цикл по k от 1 до N – М + 1
если tq = tk то
сравнить образец q с подстрокой s[k ... k + М – 1];
если они совпадают, то
выдать k - результат сравнения;
по формуле (12) вычислить tk+1
конец цикла
• выход: k - позиция начала вхождения образеца в строку.
/* d - число символов в алфавите */
/* р - число, по модулю которого производятся вычисления */
/* возвращает смещение вхождения q в s относительно начала строки */

Слайд 51

$int Robin_Carp_Matcher(char s[], char q[], int d, int p) { int$

int Robin_Carp_Matcher(char s[], char q[], int d, int p) {

int i, h, k, M, N, t_q, t_k;
N = strlen(s); М = strlen(q);
/* вычисление h=(dM-l)mod p */
h=l; for(i=l; i h=(h*d)%p;
/* вычисление tl и tq по схеме Горнера */
t_q = 0; t_k = 0;
for(i=0; i t_q = (d*t_q + q[i])% p;
t_k = (d*t_k + s[i])% p;
}
/* сравнение образеца с подстроками и вычисления по формуле (12)*/
for (k=0; k<=N-M; k++) {
if (t_q==t_k) {
for (i=0;(i if (i==M) return k;
}
if (k t_k = (d*(t_k-s[k]*h)+ s[k+M])% p;
if (t_k < 0) t_k + = p;
}
}
return -1;
}

Слайд 52

вхождение образца
холостое срабатывание
…
…
…
(б)
mod 13
Цифра
старшего разряда
Цифра
младшего разряда
(в)
(mod 13)
(mod 13)
(mod 13)
Цифра

старшего разряда

Цифра
младшего разряда

Слайд 53

$Реализация алгоритма Бойера-Мура int seek_substring_BM(unsigned char s[], unsigned char q[]) {$

Реализация алгоритма Бойера-Мура
int seek_substring_BM(unsigned char s[], unsigned char q[])
{ int d[256];
int

i, j, k, N, M;
N = strlen(s);
M = strlen(q);
/* построение d */
for (i=0; i<256; i++)
d[i]=M; /* изначально М во всех позициях */
for (i=0; i d[(unsigned char)q[i]]= M-i-1;/* кроме последнего символа*/
/* поиск */
i= M-l;
do {
j = M-l; /* сравнение строки и образеца */
k = i; /* j – по образецу, k – по строке */
while ((j >= 0) && (q[j] == s[k])) {
k--; j--;
}
if (j < 0) return k+1; /* образец просмотрен полностью */
i+=d[(unsigned)s[i]];/*сдвиг на расстояние d[s[i]]вправо*/
} while (i < N);
return -1;
}

Слайд 54

Алгоритм Бойера-Мура
Будем последовательно сравнивать образец q с подстроками
s[i – М

+ 1..i] (в начале i = М).
Введем два рабочих индекса: j = М, М – 1, ... , 1 — пробегающий символы образеца, k = i, ... ,i – M+1 — пробегающий подстроку.
Оба индекса синхронно уменьшаются на каждом шаге.
Если все символы q совпадают с подстрокой (т. е. j доходит до 0), то образец q считается найденным в s с позиции k (k = i – M+1).
Если q[j]≠s[k] и k = i, т. е. расхождение случилось сразу же, в последних позициях, то q можно сдвинуть вправо так, чтобы последнее вхождение символа s[i] в q совместилось с s[i].
Если q[j] ≠ s[k] и k < i. т. е. последние символы совпали, то q сдвинется так, чтобы предпоследнее вхождение s[i] в q совместилось с s[i].
В обоих случаях величина сдвига равна d[s[i]], по построению.
В частности, если s[i] вообще не встречается в q, то смещение происходит сразу на полную длину образеца М.

Слайд 55

Здесь j = 6 символов строки, следующих за позицией k, уже

известны,
поэтому можно, не выполняя сравнений, установить, что некоторые
последующие сдвиги образеца заведомо бесперспективны.
Например, сдвиг на 1 позицию бесперспективен, так как при этом
q[1] ='a' сравнится с уже известным s[k+1] ='b' и совпадения не будет.
А вот сдвиг на 2 позиции сразу отвергнуть нельзя: q[1...4] совпадает с
уже известной подстрокой s[k+2 ... k+5].
Совпадут ли остальные М - 4 символа, станет известно только при
рассмотрении последующих символов s, причем сравнение можно
начинать сразу с 5-й позиции образеца. Таким образом, при неудаче
очередного сравнения надо сдвинуть образец вперед так, чтобы его
начало совпало с уже прочитанными символами строки. Если таких
сдвигов можно указать несколько, следует выбрать кратчайший из них.

Слайд 56

КМП-алгоритм (Кнут, Моррис, Пратт)
Алгоритм А4:
• вход: q - образец, s

- строка,
М - длина образеца, N - длина строки, М < N.
i := l; j := 1;
пока (i ≤ N) и (j ≤ М) цикл
пока (j > 0) и s([i] ≠ q[j]) цикл
j:=dj; /*0 ≤ dj < j */
конец цикла;
i := i + 1; j := j + 1;
конец цикла;
• выход: если j > М то образец q найден в позиции i - М;
иначе /* i > N */ образец q не найден.

Слайд 57

Индекс-указатель i пробегает строку s без возвратов
(что обеспечивает линейность

времени работы
алгоритма). Индекс j синхронно пробегает образец q,
однако может возвращаться к некоторым
предыдущим позициям dj. которые будут выбираться
так, чтобы обеспечить на всем протяжении алгоритма
инвариантность следующего условия Eq(i,j): «все
символы образеца, предшествующие позиции j,
совпадают с таким же числом символов строки,
предшествующих позиции i »:

Алгоритмы поиска. Лекция 12

Содержание

План лекцииПоиск в массивах и спискахЛинейный поискБинарный поискПоиск подстрокиНаивный поиск подстрокиАлгоритм

Поиск в массивах и спискахЗначения элементов массива (списка) делятся на ключ

Последовательный просмотр ячеекОстанов, если найден нужный ключ или кончились ячейкиЧисло сравнений

place_t linear_search (list_t L, K key) { place_t p; for (p = begin(L); p

Бинарный поиск в упорядоченном массиве На каждом шаге делим массив пополам

Бинарный поиск в упорядоченном массивеint binary_search(const struct KeyData A[], int N,

4101719202825233454042393546647177858999X = 33[] 0 1 2 3 4 5 6 7

План лекцииПоиск в массивах и спискахЛинейный поискБинарный поискПоиск подстрокиНаивный поиск подстрокиАлгоритм

abcdaaccbbssacbaszzzaaacbbsssqПоиск подстроки Даны строка s из N элементов (текст) и строка

Наивный (прямой) поиск подстрокиШаг 1«Прикладываем» левый край образца к левому краю

Прямой поиск подстроки int naive_substring_search( const char s[], int N, const char

Алгоритм Рабина-КарпаМайкл Рабин р. 1932 Ричард Карп р. 1935Karp, Richard M. Rabin, Michael

Алгоритм Рабина-КарпаБыстрый поиск нескольких образцов в одном текстеУменьшение числа сравнений в

Алгоритм Рабина-КарпаШаг 1Прикладываем левый край образца к левому краю текста, К

Алгоритм Рабина-Карпаint rk_substring_search( const char s[], int N, const char q[], int

Простая хэш-функция// hs = s[0]+s[1]+…+s[M-1] // чем плоха такая хэш-функция?int rk_hash(const char

Улучшенная хэш-функцияstatic const int rk_hash_p = "хорошее" простое число;static const int

Анализ алгоритма Рабина-КарпаЧисло сравнений зависит от сочетания хэш-функции, текста и образцаВ

Алгоритм Бойера—Мура Robert Stephen Boyer Роберт Стивен Бойер р. ? J Strother Moore

Алгоритм Бойера—Мура Улучшение наивного поискаСравнение текста и образца, начиная с q[М

Алгоритм Бойера-Мура со сдвигом по стоп-символамШаг 1Прикладываем левый край образца к

Алгоритм Бойера-Мура без сдвига по суффиксамint bm_substring_search( const char s[], int N,

Заполнение таблицы сдвигов по стоп-символамДля каждого символа x из образцаЕсли q[M-1]

Пример заполнения таблицы сдвигов по стоп-символамДля образца q=“аbсаbеаbсе” (М = 10)

а friend in need is a friend indeedindeedМ = 6d['i'] =

Анализ алгоритма Бойера-МураВ лучшем случае O(N/M) сравненийЕсли последний символ образца всегда

Алгоритм Кнута-Морриса- Пратта Donald Knuth Дональд Кнут р. 1938 Воган Пратт р. 1944 Джеймс

Алгоритм Кнута-Морриса-Пратта Улучшение наивного поискаКаждый символ текста участвует в сравнении <=

Алгоритм Кнута-Морриса-Пратта На сколько позиций можно сдвинуть q относительно s, не

Префикс-функция КМППрефикс-функция prefix(q, j) строки q prefix(q,j) = max { x |

Префикс-функция КМППример 1 j 0 1 2 3 4 5 6 q[j] a b a

Алгоритм Кнута-Морриса-ПраттаШаг 1Прикладываем левый край образца к левому краю окна просмотра,

Алгоритм Кнута-Морриса-Праттаint kmp_substring_search( const char s[], int N, const char q[], int

Алгоритм Кнута-Морриса-ПраттаВ худшем случае О(N) сравнений без учета построения префикс-функцииПочему каждый

ЗаключениеПоиск в массивах и спискахЛинейный поисксписки, массивы, линейная сложностьБинарный поискупорядоч. массивы,

При первом входе в цикл индексы указывают на начала строк и

При несовпадении очередных символов надо сдвинуть образец так, чтобы некоторый dj-префикс

До сдвига pref (q, j–1) совпадает с suff (pref (s ,i—1),

Добавив теперь условие максимальности длины префикса dj,выразим зависимость dj от j

Выбором подходящего dj, с учетом всего сказанного, занимается внутренний цикл КМП-алгоритма.Ниже

- Eq(i,j): j = 6,d[j] = 4pref(q,3) = suff(pref(s,i-1),3) d-1 =

Допустим, что для всех позиций k образеца, предшествующих и включая i,

int seek_substring_KMP (char s[], char q[]){ int i, j, N, M;

Алгоритм Рабина -- Карпа поиска подстроки Майкл Рабин, Ричард Карп 1987Уменьшение

По схеме Горнера значения tq и t1 можно вычислить за время,

Чтобы получить t[k+1] из t[k], надо удалить последнее слагаемое из формулы

Вычислив все tk, мы можем по очереди сравнить их с tq,

Рекуррентная формула (11) приобретает вид:где .Из равенства tq ≡ tk(mod p)

Алгоритм А5:• вход: q - образец, s - строка, М -

int Robin_Carp_Matcher(char s[], char q[], int d, int p) {

вхождение образцахолостое срабатывание………(б)mod 13Цифра старшего разрядаЦифра младшего разряда(в)(mod 13)(mod 13)(mod 13)Цифра

Реализация алгоритма Бойера-Мураint seek_substring_BM(unsigned char s[], unsigned char q[]){ int d[256]; int

Алгоритм Бойера-МураБудем последовательно сравнивать образец q с подстроками s[i – М

Здесь j = 6 символов строки, следующих за позицией k, уже

КМП-алгоритм (Кнут, Моррис, Пратт) Алгоритм А4:• вход: q - образец, s

Индекс-указатель i пробегает строку s без возвратов (что обеспечи­вает линейность

Похожие презентации

План лекции
Поиск в массивах и списках
Линейный поиск
Бинарный поиск
Поиск подстроки
Наивный поиск подстроки
Алгоритм

Поиск в массивах и списках
Значения элементов массива (списка) делятся на ключ

Последовательный просмотр ячеек
Останов, если найден нужный ключ или кончились ячейки
Число сравнений

Бинарный поиск в упорядоченном массиве
На каждом шаге делим массив пополам

Бинарный поиск в упорядоченном массиве
int binary_search(const struct KeyData A[], int N,

4
10
17
19
20
28
25
2
33
45
40
42
39
35
46
64
71
77
85
89
99
X = 33
[
]
0 1 2 3 4 5 6 7

План лекции
Поиск в массивах и списках
Линейный поиск
Бинарный поиск
Поиск подстроки
Наивный поиск подстроки
Алгоритм

abcdaaccbbssacbaszzzaaa
cbbss
s
q
Поиск подстроки
Даны строка s из N элементов (текст) и строка

Наивный (прямой) поиск подстроки
Шаг 1
«Прикладываем» левый край образца к левому краю

Прямой поиск подстроки
int naive_substring_search(
const char s[], int N, const char

Алгоритм Рабина-Карпа
Майкл Рабин р. 1932
Ричард Карп р. 1935
Karp, Richard M. Rabin, Michael

Алгоритм Рабина-Карпа
Быстрый поиск нескольких образцов в одном тексте
Уменьшение числа сравнений в

Алгоритм Рабина-Карпа
Шаг 1
Прикладываем левый край образца к левому краю текста, К

Алгоритм Рабина-Карпа
int rk_substring_search(
const char s[], int N, const char q[], int

Простая хэш-функция
// hs = s[0]+s[1]+…+s[M-1] // чем плоха такая хэш-функция?
int rk_hash(const char

Улучшенная хэш-функция
static const int rk_hash_p = "хорошее" простое число;
static const int

Анализ алгоритма Рабина-Карпа
Число сравнений зависит от сочетания хэш-функции, текста и образца
В

Алгоритм Бойера—Мура
Robert Stephen Boyer Роберт Стивен Бойер р. ?
J Strother Moore

Алгоритм Бойера—Мура
Улучшение наивного поиска
Сравнение текста и образца, начиная с q[М

Алгоритм Бойера-Мура со сдвигом по стоп-символам
Шаг 1
Прикладываем левый край образца к

Алгоритм Бойера-Мура без сдвига по суффиксам
int bm_substring_search(
const char s[], int N,

Заполнение таблицы сдвигов по стоп-символам
Для каждого символа x из образца
Если q[M-1]

Пример заполнения таблицы сдвигов по стоп-символам
Для образца q=“аbсаbеаbсе” (М = 10)

а friend in need is a friend indeed
indeed
М = 6
d['i'] =

Анализ алгоритма Бойера-Мура
В лучшем случае O(N/M) сравнений
Если последний символ образца всегда

Алгоритм Кнута-Морриса- Пратта
Donald Knuth Дональд Кнут р. 1938
Воган Пратт р. 1944
Джеймс

Алгоритм Кнута-Морриса-Пратта
Улучшение наивного поиска
Каждый символ текста участвует в сравнении <=

Алгоритм Кнута-Морриса-Пратта
На сколько позиций можно сдвинуть q относительно s, не

Префикс-функция КМП
Префикс-функция prefix(q, j) строки q prefix(q,j) = max { x |

Префикс-функция КМП
Пример 1
j 0 1 2 3 4 5 6 q[j] a b a

Алгоритм Кнута-Морриса-Пратта
Шаг 1
Прикладываем левый край образца к левому краю окна просмотра,

Алгоритм Кнута-Морриса-Пратта
int kmp_substring_search(
const char s[], int N, const char q[], int

Алгоритм Кнута-Морриса-Пратта
В худшем случае О(N) сравнений без учета построения префикс-функции
Почему каждый

Заключение
Поиск в массивах и списках
Линейный поиск
списки, массивы, линейная сложность
Бинарный поиск
упорядоч. массивы,

Добавив теперь условие максимальности длины префикса dj,
выразим зависимость dj от j

Выбором подходящего dj, с учетом всего сказанного,
занимается внутренний цикл КМП-алгоритма.
Ниже

- Eq(i,j): j = 6,d[j] = 4
pref(q,3) = suff(pref(s,i-1),3)
d-1 =

int seek_substring_KMP (char s[], char q[]){
int i, j, N, M;

Алгоритм Рабина -- Карпа поиска подстроки
Майкл Рабин, Ричард Карп 1987
Уменьшение

Рекуррентная формула (11) приобретает вид:
где .
Из равенства tq ≡ tk(mod p)

Алгоритм А5:
• вход: q - образец, s - строка, М -

вхождение образца
холостое срабатывание
…
…
…
(б)
mod 13
Цифра
старшего разряда
Цифра
младшего разряда
(в)
(mod 13)
(mod 13)
(mod 13)
Цифра

Реализация алгоритма Бойера-Мура
int seek_substring_BM(unsigned char s[], unsigned char q[])
{ int d[256];
int

Алгоритм Бойера-Мура
Будем последовательно сравнивать образец q с подстроками
s[i – М

КМП-алгоритм (Кнут, Моррис, Пратт)
Алгоритм А4:
• вход: q - образец, s

Индекс-указатель i пробегает строку s без возвратов
(что обеспечивает линейность