面白き こともなき世を 面白く



現在の階層


エンブリッジ・プロジェクトマネジャーブログ

Googleの形態素解析の一端をかいま見る
[臼井 友章]

 SEOを行う際に、検索エンジンがそのキーワードをどのように見ているかということは、考慮に入れておく必要があります。例えば、「SEO対策」というキーワードでSEOを行う場合、これが「SEO」と「対策」に分けられて認識されているのであれば、必ずしも「SEO対策」をワンフレーズとして並べる必要はなくなります。これに対して「SEO対策」で一語として認識されているのであれば、必ず「SEO対策」として記述する必要があります。

 このように、単語をどのように分割するか、というアルゴリズムのことを「形態素解析」といいます。検索エンジンは、蓄積されたインデックスと入力された検索語をマッチングさせて検索結果を出力しますが、インデックスするWebサイトのコンテンツも検索語も単語に分割する必要があります。

 英語の場合、単語と単語の間はスペースで区切られるので、あまり問題になりませんが、日本語や中国語、韓国語といった東アジアの言語は、単度と単語の切れ目がわかりません。ですから、形態素解析は、日本語を取り扱う際の「キモ」になる部分で、検索エンジン各社も技術を競っている部分だと思われます。今回はこの形態素解析のお話です。

 検索エンジン各社のうち、Yahoo! Japanは、提供しているAPI のひとつとして「日本語形態素解析Webサービス」があり、これを利用することで、どのように形態素解析されているかがわかります(技術は日々進歩しているので、検索エンジンで実際に使われているものとは異なるかもしれませんが、近い解析方法を使っていると思われます)。

 これに対して、Google は、自社の形態素解析について、情報を提供していません。ただ、そのヒントとなりそうなものを見つけましたので、こっそりと(?)お教えしようと思います。

 …といっても、方法は簡単です。まず、解析してみたいキーワードを Google で検索してください。検索結果が表示されたら、そのソースを表示させます。そのソースの中で、<b> と </b> で囲まれた部分に注目してください。これが形態素解析の結果と思われます。例えば、「SEO対策」の場合、<b>SEO</b><b>対策</b>となっていると思います。つまり、「SEO対策」は「SEO」と「対策」の2語に分けられて認識されているというわけです。

 これをシステム化できるとちょっと面白いかもしれませんが、Google へのアクセスが増えるので、嫌われるかなぁ…。

« Current News 20080330 | 社員ブログTOP | プレミアムビール紹介 ~『熟撰』(アサヒビール)~ »

トラックバック

このエントリーのトラックバックURL:

コメントを投稿

(いままで、ここでコメントしたことがないときは、コメントを表示する前にこのブログのオーナーの承認が必要になることがあります。承認されるまではコメントは表示されません。そのときはしばらくお待ちください。)


関連情報

Powered by
Movable Type 3.2-ja-2

有効な内部統制につながる内部通報窓口のつくり方

エンブリッジ社長ブログ

有用な「内部統制」を実現するために


ナビゲーション