UserLocal-テキストマイニングツール

Q&A : よくご質問いただく項目と回答

テキストマイニング分析結果の利用について

データに関する質問

困った時は?

テキストマイニング分析結果の利用について

テレビ番組や新聞・雑誌等の記事内で、分析した結果を掲載することはできますか?

まず、(1) 掲載概要を問い合わせフォームから通知していただき、(2) 掲載時のクレジット表記をしていただければ、メディア記事や番組中にてデータをご利用いただけます。利用料金はかかりません。

弊社窓口
-----------------------
【テキストマイニング利用通知】
以下の媒体にて、テキストマイニングの結果データを利用する予定です。
・貴社名・媒体名;
・媒体 URL;
・掲載予定日・放送予定日時;
・ご担当者氏名;
-----------------------

掲載時のクレジット表記は以下のようにお願いします。
【クレジット表記例】
※ユーザーローカル テキストマイニングツール( https://textmining.userlocal.jp/ )で分析
または、
※UserLocal テキストマイニングで分析

などの形式でお願いいたします。

テキストマイニング結果を、論文や学会発表、レポートに掲載していいですか?

はい。テキストマイニング結果は、許諾なく論文などで無料で使用いただけます。これまでも多くの学生・研究者の方にご利用いただいております。ご利用時は、論文中、脚注や参考文献等に、弊社ツール名とURLを記載してください。

【記述例】
※ユーザーローカル テキストマイニングツール( https://textmining.userlocal.jp/ )による分析

論文をWebで公開なさる場合、そのURLを弊社窓口にご一報いただけますと幸いです。今後のツール機能強化の参考とさせていただきます。

企業でテキストマイニングツールを利用したいのですが大丈夫ですか?

はい。ご利用いただけます。Twitterなどのクチコミデータを分析できるSocial Insightも提供しております。

入力したデータの内容が勝手に公開されることはありますか?

テキストマイニングツールでご入力いただいた情報は、お試しになったご本人様が結果URLを外部に公開しないかぎり勝手に公開されることはございません。ご安心いただければと思います。

データに関する質問

「共起」ってどんな意味ですか?

共起とは、一文(改行や「。」などで区切られた各文)の中に、単語のセットが同時に出現するという意味です。共起回数は、一緒に出現した回数を指します。たとえば、

「あのメーカーが作った自転車は、とても速いらしい」
「速いスピードで自転車が駆け抜けていった」
という2文をテキストマイニングした場合、「自転車(名詞)」と「速い(形容詞)」という単語がセットで出現する(=共起している)回数は、それぞれ2回です。

・結果サンプルURL
https://textmining.userlocal.jp/results/qj8G6ZsSWagsMTj2R4P1YV3Co7CFn9gJ

一緒に出てくる単語を線で結んだものを「共起ネットワーク」と呼んでいます。

「スコア」について詳しく教えてください。

スコアは、その単語の「重要度」を表す値です。以下で、スコアがなぜ必要なのかと、その算出方法についてご紹介します。

一般的な文書では、単語の出現回数だけでいえば「今日」や「思う」「ある」などといった、”ごく一般的な単語”が何度も出現してしまいます。ただ、このような単語は、どういった文書にも出現する単語であるため、たとえ出現回数が多いとしても、意味が薄い、あまり重要ではない単語といえます。単純に回数だけをランキング化しても、一般的な語が混じってしまいその文章の特徴をつかむことができません。

この問題を解決するため、テキストマイニングでは、「一般的な文書でよく出る単語は、重要ではないため、重み付けを軽くする」、いっぽう「一般的な文書ではあまり出現しないけれど、調査対象の文書だけによく出現する単語は重視する」仕組みを取り入れています。

こういった特徴語を抽出するためのロジックとして、一般的にTF-IDF法という統計処理をします。

・参考URL
https://ja.wikipedia.org/wiki/Tf-idf


この手法によって、出現回数だけでなく、重要度を加味した値が「スコア」です。スコアが高い単語は、そのテキストを特徴づける単語であるといえます。

「2次元マップ」は何を意味していますか?内部的には、どんな処理をしていますか?

2次元マップは、文章中に単語の出現傾向を全体的に俯瞰するためのもので、「近くにある単語同士は同じ場所で出てくる傾向が強い」ということを意味しています(単語の出現傾向が似た単語ほど近く、似ていない単語ほど遠く配置)。

内部的には、この文章中の単語の出現傾向を表すためにTF-IDFという手法を用い、2次元に図示するためにt-SNEという手法を用いています。

2次元マップでの、X・Y軸(縦軸・横軸)の数字はそれぞれ何を意味しているんですか?

2次元マップは単語間の相対的な距離を表しているだけですので、グラフ中のXY軸自体にはまったく意味がありません。近くの単語同士は出現傾向が似ていて、遠くの単語同士は出現傾向が近くない、ということだけを表しています。

2次元マップ中の単語の色は、何を意味しているんですか?

距離が近い単語を見やすくグルーピングするために色分けしています。同じ色の単語は近いグループに属しているといえます。

「階層的クラスタリング」とはなんですか?どのように読み取ればよいのですか?

出現傾向が似た単語を、近い順にクラスタ(=グループ)としてまとめていくプロセスを示したものが、階層的クラスタリングです。生物の進化などで使われる樹形図と同様、似たものは近く(左側)で枝分かれし、似ていないものは遠く(右側)で枝分かれしています。これにより、出現傾向が似た単語のまとまりを、階層的に読み取ることができます。

まとめる際の各単語・クラスタ間の近さ(出現傾向の似ている度合い)は、縦線の位置が左にあるものほど近く、右にあるものほど遠くなっており、線の結合通りに順番にまとめられます。たとえば、縦線の位置が大きく離れて右のほうでまとめられてる場所は、出現傾向が比較的に似ていないもの同士の結合となっているので、クラスタとして分かれていたほうがよいと考えることができます。

階層的クラスタリングの樹形図の色はどんな意味があるのですか?

クラスタとしてまとめていく際に、出現傾向が似ているもの同士は同じ色、あまり似ていない場合は別の色になっています。

階層的クラスタリングの下にある横軸の数字は何を意味しているんですか?

横軸の数字は、クラスタをまとめるときの出現傾向が似ている度合いを示しています。クラスタをまとめる際の縦線の位置と横軸が対応しています。

この数値自体は相対的な度合いなので、この数値が高いところ(右側)でまとめたクラスタより、低いところ(右側)でまとまっているクラスタのほうが、出現傾向が似た単語のクラスタとして、まとめやすいと言えます。

「係り受け解析」とはなんですか?

係り受け解析は、語句の「修飾 - 被修飾」関係を見つけるための解析方法です。 例えば、「このスマホの値段はそれほど高くない」という文の場合、各文節は以下のような「修飾 - 被修飾」関係になります。
係り受けサンプル
ここでは、矢印の開始地点の文節が、矢印の終了地点の文節を修飾しています。 係り受け解析では、この「修飾 - 被修飾」関係にあるそれぞれの文節から単語を抽出し、その単語ペアを集計します。
先程の例の場合だと、
「スマホの」と「値段は」という文節のペアから、【 スマホ(名詞) 】-【 値段(名詞) 】、
「値段は」と「高くない」という文節のペアから、【 値段(名詞) 】-【 高い(形容詞)+ ない(否定表現) 】
のような係り受けペアが得られます。 上記の「高くない」のように文節内に形容詞(高い)と否定表現(ない)が含まれている場合は、形容詞だけでなく否定表現も一緒に集計しています。

困った時は?

音声入力で「このブラウザは対応していません。」と表示される。

音声認識機能は Google Chrome Ver.33 以上でご利用いただけます。お手数ですが、Google Chrome Ver.33以上のブラウザで再度ご利用ください。

音声入力で「マイクが使用できません。」と表示される。

お使いのGoogle Chromeのマイクの許可設定を変更する必要があります。次の手順に従って、マイクの許可設定を「許可」に変更してください。

  1. 音声入力ページに移動してください。
  2. 「音声認識を開始」をクリックしてください。
  3. 画面右上に表示されるカメラアイコンをクリックしてください
  4. 「マイクがブロックされています」と表示されたことを確認してから、「https://textmining.userlocal.jp/がマイクへのアクセスを必要としているときは確認画面を表示する」にチェックを入れます。
  5. 再度「音声認識を開始」をクリックしてください