前記事では、アマゾンの商品レビューを「ユーザーローカル テキストマイニングツール」で分析してみました。
今回は、出力フォーマットの説明を中心に結果を見てみたいと思います。
なお、今回の内容は出力結果の図表についての説明で、分析結果の解説ではありませんので、ご了承ください。
こんなふうに出力される
前回の記事で取り上げたビタミン剤の商品レビューを分析した結果の図表を使いながら、各項目の表す内容の説明をしていきたいと思います。
わかりにくいようでしたら、あなたの実際に知っている商品のレビューで試してみると、きっとよく理解できると思います。
ワードクラウド
分析した文書中(商品レビュー)にある単語の中から、特徴的な単語を抽出して、それを品詞別に色分けして図で表したものです。
特徴的な単語程、中心部近く位置し、大きく表現されます。
単語出現頻度
分析する文書中にある品詞別単語の出現頻度と、スコアの一覧表です。
また、スコアとは、その単語の重要度を表す値であり、一般的な文章であまり出現しない特徴的な単語の重みを増し、一般的な文章によくでる単語の重み付けを軽くすることで、特徴的な重要単語を抽出する仕組み(TF-IDF法)です。
共起キーワード
分析した文章内の「一文中」に、セットで出現した単語について表した図であり、色の違いは、品詞による違いです。
単語の出現回数が多いほど大きい円になり、セットで出現する程度が強いほど太い線で表現されます。
この図の特徴として、各単語の円をマウスオーバーすると、共起するキーワードが強調されますので、理解しやすくなります。
2次元マップ
分析する文章について、単語の出現傾向を俯瞰することが可能で、出現傾向の似ている単語は近くに表示されます。
また、色は見やすくグルーピングするためで、前述(ワードクラウド、単語出現頻度、共起キーワード)のように品詞別ではありません。
階層的クラスタリング
出現傾向が似た単語を、近い順にまとめていくプロセスを、階層的に示しています。
左に近い部分でまとめているものほど、クラスタ間が近く、まとめやすい単語となっています。
分析結果から見えるもの
ワードクラウド、単語出現頻度、共起キーワードの3つを見ると、なんとなくその商品の評価がみえるような気がしませんか?
特に共起キーワードに出てくる単語をマウスオーバーして、特徴的な単語の関連するキーワードを見てみると、その商品についてどのような評価かを、具体的に理解できるかと思います。
また、単語の出現頻度のスコアをみると、商品に対する評価がなんとなく見て取れます。
今回の例はあまり良く無かったかもしれませんし、70件程度のデータでしたので、全部読んで理解することもできるレベルではありました。
今度は、もっとBIGなデータの塊で試してみると面白いかと思います。
まとめ
ユーザーローカル テキストマイニングツールで商品レビューを分析して、出力されるフォーマットについて見てみる
- ワードクラウド:特徴的な単語程、中心部近く位置し、大きく表現されます。
- 単語出現頻度:出現頻度とスコアの一覧表で、特徴的な重要単語を抽出する仕組み(TF-IDF法)です。
- 共起キーワード:セットで出現した単語について表した図で、出現回数が多いほど大きい円、セットで出現する程度が強いほど太い線で表現されます。
分析結果から見えるものは?
ワードクラウド、単語出現頻度(スコア)、共起キーワードの3つを見ると、なんとなく全体像がみえてきました。
一部のレビューに惑わされずに、全体の意見がわかるような気がします。
コメント