Twitterを使ったお手軽テキストマイニング

Twitter APIを使うと、特定の用語を含むツイート(直近100件)を抽出することができる。式はhttps://api.twitter.com/1.1/search/tweets.json?count=100&q=内閣改造のような形式だ。

本来なら、取得したデータを品詞ごとに分解してネットワーク解析を行う必要がある。Rを使うRMeCabというパッケージが有名だが、最近更新が止まっているらしい。いずれにせよ素人にはなかなかハードルが高い作業だ。そこで「無料ツール」を探したところ、オンラインで形態素解析をしてネットワーク図まで作ってくれるツールを見つけた。どの用語が使われているかを品詞ごとに分解してダウンロードすることもできる。

内閣改造を検索したところこのような結果が出た。もっぱらの噂は新しい農水大臣森山裕氏だ。どうやら暴力団絡みの黒い噂があるらしい。検索したところこのような記事が見つかった。河野太郎氏に期待が集っているように思えたので、ツイートを見てみると「生け贄として囲い込まれた」という記事が人気を集めているらしかった。何かと世知辛い。

他の政党に対するツイートの傾向は下記の通り。維新で検索すると西尾維新という小説家の名前の方が多くひっかかるという難点もある。

もっとも、Twitterで一度に取得できるツイート数の上限は100件なので、これくらいであれば手作業で見た方が早いのかもしれない。大雑把な傾向をテキストマイニングで見つけて、あとはコツコツと元データを当たるというのがいいのかもしれない。

このような記事もいかがですか