MySQL特集その1 mecabで分かち書き [2006/08/25]

MySQLには全文検索という機能があるが、
日本語では検索できない。

英語の文章は単語間がスペースで区切られているが、日本語文章だとプログラムで区切りを判別できないため。

・I have a dream.
→ スペース区切りなので区切りは明白
・私には夢があります。
→ どこが区切りかプログラムにはわからない・・

そこでそれを補うのが、Mecab
(1)mecabをダウンロードしてインストール。
./configure --prefix=/usr --with-charset=utf8
make
make install

(2)mecab 用の辞書をダウンロードしてインストール
./configure --prefix=/usr --with-charset=utf8
make
make install

(3)mecabを起動して、試す。
# mecab
私には夢があります。
私 名詞,代名詞,一般,*,*,*,私,ワタシ,ワタシ
に 助詞,格助詞,一般,*,*,*,に,ニ,ニ
は 助詞,係助詞,*,*,*,*,は,ハ,ワ
夢 名詞,一般,*,*,*,*,夢,ユメ,ユメ
が 助詞,格助詞,一般,*,*,*,が,ガ,ガ
あり 動詞,自立,*,*,五段・ラ行,連用形,ある,アリ,アリ
ます 助動詞,*,*,*,特殊・マス,基本形,ます,マス,マス
。 記号,句点,*,*,*,*,。,。,。
EOS

おお、すばらしい。
見事に区切ってくれます!