身近な日常をやんわりデータサイエンスしてみよう

身近な情報や現象からデータを取り出して解析してみます。

2023年冬ドラマの「大病院占拠」の初回を放送直後のツイートデータで振り返る

 2023年冬に放送されているドラマの「大病院占拠」を初回放送直後のツイートのデータで振り返ります。
www.ntv.co.jp

 TVドラマの放送中とその直後に多くの視聴者から数千から数十万のツイートが投稿されています。ツイッターには投稿者が共感したい感情と拡散したい情報が投稿されています。それらのツイートデータを解析することで、ドラマに対する視聴者の反応を知ることができます。
 このブログでは、視聴して気に入ったドラマの放送直後のツイートを数千収集し、自然言語処理することで、頻出単語を抽出して各ドラマのツイート分析しています。また、気になる頻出ワードの該当ドラマにおける関連ワードを、作成した機械学習モデルで算出してみます。
 プログラミング言語Pythonを使用し、各単語の分かち書きと品詞解析はJanomeで、出現頻度の可視化にはWordCloudで、出現頻度のランキングはCollectionsで、単語間の関連性算出の機械学習モデル作成はWord2Vecで行いました。いずれもプログラミング初心者にも使いやすい自然言語処理のライブラリです。各ドラマのメインキャストの名前と、役名、ドラマ題名などドラマ独自の語彙はJanomeのユーザー辞書に追加登録しています。

ツイートに出現した語彙を可視化

 WordCloudは出現頻度に応じた大きさのフォントサイズで表示してくれます。300の頻出単語を表示しています。気になる単語がありますでしょうか。
主役の「櫻井」「翔」と並んで「鬼」「風磨」「青鬼」と「主題歌」が目立っています。

名詞の出現頻度ランキング

 いきなり、HPのメインキャストには名前のない「菊池」「風磨」さんが再上位へ! また「主題歌」と「スノーマン」も、「来週」が「楽しみ」も上位です。

  1. 大病院占拠
  2. 菊池、風磨
  3. 櫻井、翔
  4. ドラマ
  5. 主題歌
  6. 青鬼
  7. 武蔵
  8. 楽しみ
  9. 来週
  10. スノーマン
  11. 最後
  12. トレンド
  13. ドキドキ

形容詞の出現頻度ランキング

「っぽい、ぽい」が気になります。 展開が「早い」「楽しい」でしょうか。「怖い」「やばい」はアクションドラマらしいです。

  1. 面白い、おもしろい、おもろい
  2. 良い、いい、よい
  3. かっこいい、かっこよい
  4. 嬉しい
  5. すごい、凄い
  6. っぽい、ぽい
  7. 早い
  8. 楽しい
  9. 怖い
  10. やばい

気になった単語の関連語を算出

 数千のツイートを自然言語処理して出現単語間の関係に関する機械学習モデルを作成すると、該当単語の関連語を計算させることができます。

櫻井翔

「櫻井」「翔」の関連語は、「♥」「主演」「先輩」「ボス」「ビジュ」「すごい」でした。♥は櫻井ファンでしょうね。先輩、ボス感がインパクトあったようです。
 役名の「武蔵」「三郎」の関連語は、「主任」「受賞」「刑事」「本部」「正義」などが、
 妻役の「比嘉」さんの関連語は、「愛」「ビジュ」、役名の「裕子」では「先生」「科」「集中」「精神」「キャラ」「緊迫」と両夫妻の役名では職業に関する関連語が多くなっています。

菊池風磨

「菊池」「風磨」の関連語は、「青鬼」「卍」「唇」「口元」です。青鬼の正体について盛り上がったようです。果たして視聴者の予想は当たっているのでしょうか。

主題歌

「主題歌」の関連語は、「新曲」「うれしい」「スノーマン」で、これはネタバレですね。

かっこいい

「かっこいい」「かっこよい」「カッコイイ」の関連語は、「ダンス」「ナンバー」「踊る」「疾走」「タイトル」でした。

っぽい

 「っぽい」の関連語を算出させると、なんと「小芝」「風花」「桃鬼」でした。桃鬼として小芝風花さんを推測した視聴者がいたようです。