データマイニング…商品レビューの分析から何かが見える!?

前記事では、アマゾンの商品レビューを「ユーザーローカル テキストマイニングツール」で分析してみました。

テキストマイニング無料ツールを利用。実は分析する多量のデータ整形が大変ですが「ユーザーローカル テキストマイニングツール」は、アマゾンや楽天などの商品レビュー用の整形ツールが用意されていて、そのデータをそのままテキストマイニングすることができます。

今回は、出力フォーマットの説明を中心に結果を見てみたいと思います。

なお、今回の内容は出力結果の図表についての説明で、分析結果の解説ではありませんので、ご了承ください。

こんなふうに出力される

前回の記事で取り上げたビタミン剤の商品レビューを分析した結果の図表を使いながら、各項目の表す内容の説明をしていきたいと思います。

わかりにくいようでしたら、あなたの実際に知っている商品のレビューで試してみると、きっとよく理解できると思います。

ワードクラウド

分析した文書中(商品レビュー)にある単語の中から、特徴的な単語を抽出して、それを品詞別に色分けして図で表したものです。

特徴的な単語程、中心部近く位置し、大きく表現されます。

単語出現頻度

分析する文書中にある品詞別単語の出現頻度と、スコアの一覧表です。

また、スコアとは、その単語の重要度を表す値であり、一般的な文章であまり出現しない特徴的な単語の重みを増し、一般的な文章によくでる単語の重み付けを軽くすることで、特徴的な重要単語を抽出する仕組み(TF-IDF法)です。

共起キーワード

分析した文章内の「一文中」に、セットで出現した単語について表した図であり、色の違いは、品詞による違いです。

単語の出現回数が多いほど大きい円になり、セットで出現する程度が強いほど太い線で表現されます。

この図の特徴として、各単語の円をマウスオーバーすると、共起するキーワードが強調されますので、理解しやすくなります。

2次元マップ

分析する文章について、単語の出現傾向を俯瞰することが可能で、出現傾向の似ている単語は近くに表示されます。

また、色は見やすくグルーピングするためで、前述(ワードクラウド、単語出現頻度、共起キーワード)のように品詞別ではありません。

階層的クラスタリング

出現傾向が似た単語を、近い順にまとめていくプロセスを、階層的に示しています。

左に近い部分でまとめているものほど、クラスタ間が近く、まとめやすい単語となっています。

分析結果から見えるもの

ワードクラウド、単語出現頻度、共起キーワードの3つを見ると、なんとなくその商品の評価がみえるような気がしませんか?

特に共起キーワードに出てくる単語をマウスオーバーして、特徴的な単語の関連するキーワードを見てみると、その商品についてどのような評価かを、具体的に理解できるかと思います。

また、単語の出現頻度のスコアをみると、商品に対する評価がなんとなく見て取れます。

今回の例はあまり良く無かったかもしれませんし、70件程度のデータでしたので、全部読んで理解することもできるレベルではありました。

今度は、もっとBIGなデータの塊で試してみると面白いかと思います。

まとめ

ユーザーローカル テキストマイニングツールで商品レビューを分析して、出力されるフォーマットについて見てみる

  • ワードクラウド:特徴的な単語程、中心部近く位置し、大きく表現されます。
  • 単語出現頻度:出現頻度とスコアの一覧表で、特徴的な重要単語を抽出する仕組み(TF-IDF法)です。
  • 共起キーワード:セットで出現した単語について表した図で、出現回数が多いほど大きい円、セットで出現する程度が強いほど太い線で表現されます。
分析結果から見えるものは?

ワードクラウド、単語出現頻度(スコア)、共起キーワードの3つを見ると、なんとなく全体像がみえてきました。

一部のレビューに惑わされずに、全体の意見がわかるような気がします。