Googleの形態素解析の一端をかいま見る
[臼井 友章]
SEOを行う際に、検索エンジンがそのキーワードをどのように見ているかということは、考慮に入れておく必要があります。例えば、「SEO対策」というキーワードでSEOを行う場合、これが「SEO」と「対策」に分けられて認識されているのであれば、必ずしも「SEO対策」をワンフレーズとして並べる必要はなくなります。これに対して「SEO対策」で一語として認識されているのであれば、必ず「SEO対策」として記述する必要があります。
このように、単語をどのように分割するか、というアルゴリズムのことを「形態素解析」といいます。検索エンジンは、蓄積されたインデックスと入力された検索語をマッチングさせて検索結果を出力しますが、インデックスするWebサイトのコンテンツも検索語も単語に分割する必要があります。
英語の場合、単語と単語の間はスペースで区切られるので、あまり問題になりませんが、日本語や中国語、韓国語といった東アジアの言語は、単度と単語の切れ目がわかりません。ですから、形態素解析は、日本語を取り扱う際の「キモ」になる部分で、検索エンジン各社も技術を競っている部分だと思われます。今回はこの形態素解析のお話です。
検索エンジン各社のうち、Yahoo! Japanは、提供しているAPI のひとつとして「日本語形態素解析Webサービス」があり、これを利用することで、どのように形態素解析されているかがわかります(技術は日々進歩しているので、検索エンジンで実際に使われているものとは異なるかもしれませんが、近い解析方法を使っていると思われます)。
これに対して、Google は、自社の形態素解析について、情報を提供していません。ただ、そのヒントとなりそうなものを見つけましたので、こっそりと(?)お教えしようと思います。
…といっても、方法は簡単です。まず、解析してみたいキーワードを Google で検索してください。検索結果が表示されたら、そのソースを表示させます。そのソースの中で、<b> と </b> で囲まれた部分に注目してください。これが形態素解析の結果と思われます。例えば、「SEO対策」の場合、<b>SEO</b><b>対策</b>となっていると思います。つまり、「SEO対策」は「SEO」と「対策」の2語に分けられて認識されているというわけです。
これをシステム化できるとちょっと面白いかもしれませんが、Google へのアクセスが増えるので、嫌われるかなぁ…。