Why is MySQL FULLTEXT so slow?

MySQL FULLTEXT is slow because it stores indexes on disk using B-tree pages, requires disk I/O for every query, and uses uncompressed posting lists. MygramDB solves this with in-memory N-gram indexing delivering consistent sub-millisecond latency.

How does MygramDB sync with MySQL?

MygramDB uses GTID-based binlog replication to sync with MySQL in real-time. It acts as a MySQL replica, receiving changes via the binary log. No ETL pipelines or manual sync needed. Write to MySQL as usual, MygramDB updates automatically.

How much faster is MygramDB than MySQL FULLTEXT?

On a 1.1M Wikipedia article dataset, MygramDB delivers sub-millisecond search latency compared to MySQL FULLTEXT at 500ms-2.5s. COUNT queries are thousands of times faster. With verify_text enabled (v1.5.0), results are exact match with MySQL. Benchmarks are reproducible via make bench-up.

Does MygramDB support Japanese/Chinese/Korean text?

Yes, MygramDB has excellent CJK support using ICU-based Unicode normalization and N-gram tokenization. It handles Japanese, Chinese, and Korean text perfectly without additional plugins or configuration.

What is the difference between MygramDB and Elasticsearch?

MygramDB is a single-binary deployment with direct MySQL binlog sync, sub-millisecond latency, and low operational complexity. Elasticsearch offers distributed search and advanced features but requires cluster management, ETL pipelines, and JVM tuning. Choose MygramDB for simpler MySQL-based applications; Elasticsearch for large-scale distributed search.

仕組み

MygramDBはN-gramインデックスを中心に構築されたインメモリ全文検索エンジンです。このページでは、テキストのインデックス方法、検索の実行過程、キャッシュの整合性維持について解説します。

初めて読む場合

このページでは内部構造を説明します。まずは「文字列をN-gramに分ける」「N-gramから候補ドキュメントを探す」「必要なら原文で確認する」という3段階だけ押さえれば十分です。

N-gramインデックス

MygramDBはテキストをN-gram（重複する文字列の断片）に分割します。デフォルトのトークン化戦略はハイブリッド方式で、ASCIIテキストにはバイグラム（2文字）、CJK（中国語・日本語・韓国語）文字には**ユニグラム（1文字）**を使用します。

用語補足

トークン化は、検索しやすいようにテキストを小さな単位へ分ける処理です。MygramDBは辞書を使わず、文字の並びそのものをN-gramとして扱います。

例えば、searchという単語は以下のバイグラムに分割されます：

"search" → ["se", "ea", "ar", "rc", "ch"]

東京都のような日本語文字列はユニグラムになります：

"東京都" → ["東", "京", "都"]

各N-gramはポスティングリスト（そのN-gramを含むドキュメントIDのソート済みリスト）に対応します。ドキュメントが挿入されると、テキストがトークン化され、各N-gramのポスティングリストにドキュメントIDが追加されます。

ドキュメントIDはuint32_t型で、テーブルあたり最大40億件のドキュメントに対応します。

ポスティングリスト圧縮

N-gramの出現頻度は均一ではありません。MygramDBは2つのストレージ戦略を使い分け、密度に基づいて自動的に切り替えます：

戦略	使用条件	表現方法
デルタエンコーディング	疎な語（密度 < 18%）	ソート済みIDをvarintエンコードされた差分で格納
Roaringビットマップ	密な語（密度 >= 18%）	CRoaringライブラリによる圧縮ビットマップ

密度の定義：（そのN-gramを含むドキュメント数）/（テーブル内の全ドキュメント数）

18%の閾値には0.5倍のヒステリシスが設けられており、頻繁な切り替えを防止します。18%でRoaringに切り替わったポスティングリストは、密度が9%を下回るまでデルタエンコーディングには戻りません。

用語補足

ヒステリシスは、状態が頻繁に行ったり来たりしないように戻り条件をずらす考え方です。ここでは18%でRoaringへ切り替え、9%未満になるまで戻さないことで、更新のたびに形式が揺れるのを防ぎます。

デルタエンコーディングは出現頻度の低い語に対してコンパクトです。[100, 105, 200]を[100, 5, 95]として格納し、varint圧縮が効きます。Roaringビットマップは頻出語に対してより効率的で、検索時のSIMDアクセラレーションによる集合演算（積集合、和集合）を可能にします。

検索パイプライン

検索クエリは以下の段階を順に通過します：

各ステップの詳細：

クエリ解析 -- 検索語、NOT語、フィルタ条件、ソート順、ページネーションをクエリから抽出します。
N-gram生成 -- 各検索語はUnicode正規化（ICUによるNFKC）の後、N-gramに分割されます。語は推定結果サイズの昇順にソートされ（最小のポスティングリストから処理）、中間結果セットを最小化します。
ポスティングリストの積集合 -- 各語について、必要なN-gramポスティングリストの積集合を取ります（AND意味論）。次に、語間の結果を積集合します。最小のセットから開始することで、以降の積集合演算が高速になります。
NOTフィルタ -- NOT語にマッチするドキュメントを候補セットから除外します。
カラムフィルタ -- フィルタ条件（例：category = 'science'）を評価します。候補セットが小さい場合はドキュメントごとにフィルタを適用し、フィルタの選択性が高い場合はビットマップの直接積集合による高速パスを使用します。
verify_text -- 候補を原文と照合し偽陽性を除去するオプションのポストフィルタ（後述）。
ソートとページネーション -- 指定されたカラムでソートし、OFFSET/LIMITで結果を切り出します。

verify_text ポストフィルタ

N-gramインデックスは本質的に近似的です。"quantum"のクエリはバイグラム["qu", "ua", "an", "nt", "tu", "um"]を生成します。これらのバイグラムを含むドキュメントが候補になりますが、一部は偽陽性です：

用語補足

偽陽性は「候補には入ったが、実際には検索語を含んでいない結果」です。N-gram検索では高速化のためにまず広めに候補を集め、verify_text で必要に応じて正確に絞り込みます。

ドキュメントテキスト	全バイグラムを含む？	実際に"quantum"を含む？
"quantum mechanics"	はい	はい
"quantify antum"	はい（`qu`, `ua`, `an`, `nt`, `tu`は"quantify"から、`an`, `nt`, `tu`, `um`は"antum"から）	いいえ

検証なしの場合、110万件のWikipedia記事に対する"quantum"クエリは約58,000件の候補を返します。verify_text: allを有効にすると、原文照合で1,961件まで絞り込まれ、MySQL FULLTEXTの結果と一致します。

仕組み： verify_textが有効な場合、MygramDBは原文テキストをメモリに保持します。ポスティングリストの積集合で候補が得られた後、各候補の保存テキストに対して実際の部分文字列一致を確認し、偽陽性を破棄します。

トレードオフはメモリです。110万件のドキュメントのテキスト保存に約1.5 GBのRAMが追加で必要です。3つのモードが利用可能です：

off（デフォルト） -- テキスト保存なし、検証なし。最速・最小メモリ。
ascii -- ASCIIのみのクエリを保存テキストと照合して検証。メモリ使用量は中程度。
all -- すべての候補を検証。正確性を優先。

verify_text の選び方

正確な一致やハイライト、BM25 _score を重視する場合は verify_text: all が分かりやすい選択です。メモリを最小化したい場合や候補検索で十分な用途では off も選択肢になります。

キャッシュと無効化

MygramDBはクエリレベルで検索結果をキャッシュします。MySQLのクエリキャッシュとの決定的な違いは無効化の粒度です。MygramDBはテーブルレベルではなくN-gramレベルで無効化を行います。

キャッシュ無効化とは

データが更新されたとき、古い検索結果を返さないようにキャッシュを捨てる処理です。MygramDBは影響を受けるN-gramだけを見て、関係する検索結果だけを捨てます。

binlogレプリケーション経由でドキュメントが挿入・更新・削除されると：

変更されたドキュメントのテキストをN-gramに分割します。
変更されたN-gramと重複するN-gramセットを持つキャッシュエントリのみが無効化されます。
無関係なクエリはキャッシュに残ります。

quantum — N-gram が重複するため無効化
algorithm, database — 影響なし、キャッシュ維持

これにより、1行の更新は影響を受ける可能性のあるクエリのみを無効化します。数百万のキャッシュエントリがあるテーブルでも、更新で無効化されるのはわずか数件程度です。

無効化マネージャは逆引きインデックスを維持しており、各N-gramに依存するキャッシュエントリを追跡します。これにより無効化はO(影響を受けるエントリ数)で完了し、O(全キャッシュサイズ)にはなりません。

ベンチマーク結果はベンチマークを、アーキテクチャの詳細はアーキテクチャをご覧ください。

仕組み ​

N-gramインデックス ​

ポスティングリスト圧縮 ​

検索パイプライン ​

verify_text ポストフィルタ ​

キャッシュと無効化 ​

仕組み

N-gramインデックス

ポスティングリスト圧縮

検索パイプライン

verify_text ポストフィルタ

キャッシュと無効化