BOJ 14425, 문자열 집합

문제

총 N개의 문자열로 이루어진 집합 S가 주어진다.

입력으로 주어지는 M개의 문자열 중에서 집합 S에 포함되어 있는 것이 총 몇 개인지 구하는 프로그램을 작성하시오.

입력

첫째 줄에 문자열의 개수 N과 M (1 ≤ N ≤ 10,000, 1 ≤ M ≤ 10,000)이 주어진다.

다음 N개의 줄에는 집합 S에 포함되어 있는 문자열들이 주어진다.

다음 M개의 줄에는 검사해야 하는 문자열들이 주어진다.

입력으로 주어지는 문자열은 알파벳 소문자로만 이루어져 있으며, 길이는 500을 넘지 않는다. 집합 S에 같은 문자열이 여러 번 주어지는 경우는 없다.

출력

첫째 줄에 M개의 문자열 중에 총 몇 개가 집합 S에 포함되어 있는지 출력한다.

내 접근

[[BOJ 10815, 숫자 카드]]를 풀었던 방법의 개선점으로 제안된 unordered_set이나 정렬 + 이진 탐색을 사용해봐야겠다.
문제에서 집합 S에 같은 문자열이 여러 번 주어지는 경우는 없다고 했으니까 두 방법 모두 사용할 수 있을 것으로 보인다.
문자열 집합에 대한 정렬과 이진 탐색이 과연 효율적일까? N과 M이 최대 10,000개인데, 문자열의 길이가 500이다. 최악의 경우 문자열 하나 정렬할 때 10,000 x 500번의 비교가 발생할까?

구현

#include <iostream>
#define IO std::cin.tie(NULL), std::ios_base::sync_with_stdio(false)

#include <unordered_set>

void solve() {
  int n, m;
  std::cin >> n >> m;

  std::unordered_set<std::string> words;
  words.reserve(n);

  std::string x;
  for (int i = 0; i < n; i++) {
    std::cin >> x;
    words.insert(x);
  }

  int count = 0;
  for (int i = 0; i < m; i++) {
    std::cin >> x;
    count += words.count(x) ? 1 : 0;
  }

  std::cout << count;
}

int main() {
  IO;
  solve();
  return 0;
}

정렬 + 이진 탐색과 비교

접근 방식에서 물었던

최악의 경우 문자열 하나 정렬할 때 10,000 x 500 번의 비교가 발생하나?

정렬: O(N log N x L), L은 문자열 길이
탐색: O(M log N x L)

N, M이 10,000일 때: log_2(10000) ~= 14

접근 방법 A: 정렬 + 이진 탐색

언제 좋은가

메모리가 매우 제한적일 때
해시 충돌 리스크를 피하고 싶을 때

복잡도

시간: O((N + M) log N × L)
공간: O(N × L)

수도 코드

read N, M
read list S
sort S
count = 0
for each query q:
     if binary_search(S, q):
		  count++
print count

접근 방법 B: Trie (접두사 트리)

사고 방향이 완전히 다름

문자열을 “값”이 아니라 “경로”로 본다
문자 단위로 탐색

언제 좋은가

문자열이 매우 길고
접두사 중복이 많을 때
prefix query로 확장될 가능성이 있을 때

복잡도

삽입: O(N × L)
탐색: O(M × L)
공간: 문자 수에 비례 (상수 큼)

수도 코드

create trie
for s in S:
	insert s into trie
count = 0
for q in queries:
	if trie.contains(q):
		count++
print count