身近な日常をやんわりデータサイエンスしてみよう

身近な情報や現象からデータを取り出して解析してみます。

2023年冬ドラマの「ブラッシュアップライフ」の初回、2回目、3回目をツイートデータで振り返る

 2023年冬に放送されているドラマの「ブラッシュアップライフ」の初回、2回目、3回目をツイートデータで振り返ります。
www.ntv.co.jp

 なぜ初回、2回目、3回目なのかというと、ツイート数が、初回より2回目(約1.4倍)、2回目より3回目(約1.2倍)と増加しているからです。これはかなり珍しい現象です。今冬の9時から10時代のTVドラマで初回より2回目が増加したのはこのブラッシュアップライフだけです。他は3割から6割減少しています。そこで増加した理由を探るべく、各回への視聴者の反応の違いをツイートから分析してみました。
 TVドラマの放送中と放送直後のツイッターには投稿者が共感したい感情と拡散したい情報が投稿されています。それらのツイートデータを解析することで、ドラマに対する視聴者の反応を知ることができます。
 このブログでは、視聴して気に入ったドラマの放送直後のツイートを数千収集し、自然言語処理することで、頻出単語を抽出して各ドラマのツイート分析しています。また、気になる頻出ワードの該当ドラマにおける関連ワードを、作成した機械学習モデルで算出することができ、該当単語のドラマのなかでの意味付けを推測することができます。
 プログラミング言語Pythonを使用し、各単語の分かち書きと品詞解析はJanomeで、出現頻度の可視化にはWordCloudで、出現頻度のランキングはCollectionsで、単語間の関連性算出の機械学習モデル作成はWord2Vecで行いました。いずれもプログラミング初心者にも使いやすい自然言語処理のライブラリです。各ドラマのメインキャストの名前と、役名、ドラマ題名などドラマ独自の語彙はJanomeのユーザー辞書に追加登録して自然言語処理に反映させています。

まず初回のツイートデータ全体をWordCloud 表示して眺める

 WordCloudは出現頻度に応じた大きさで各単語を表示してくれます。
 「面白い」「良い」「凄い」「楽しみ」「好き」などのポジティブな単語の出現率はツイート数の9割と、高評価でした。

初回、2回目、3回目で共通するドラマタイトル名の「ブラッシュアップライフ」や「面白い」「良い」などの頻出単語を除いてWordCloud表示を比べて、違いを調べる。

初回

バカリズム」「脚本」「伏線」「会話」「サクラ」「演技」「来週」「楽しみ」などが目立っています。シリーズの根幹をなすであろう単語と期待感を示す単語が並んでいます。

2回目

「懐かしい」「世代」「シール」が目立っています。その他、2回目で顕著に増加した単語に「私」「自分」がありました。 主人公の同世代の子供時代のあるあるネタが、多くの視聴者に「懐かしさ」を強く共感させたようです。

3回目

「黒木」「華」「水川」「あさみ」「バカリズム」が目立っています。作成した機械学習モデルでドラマでの関連語を算出させると、「黒木」+「華」の関連語は、「ブチ」「切れ」「最高」「かっこいい」でした。また「水川」+「あさみ」の関連語は「謎」「今後」でした。メインキャスト級の二人の俳優のキャラ設定が視聴者を惹きつけ、関心を高めたようです。

考察

 上記の分析からツイート数が増加した要因をかなり端折ってまとめると、①あるあるネタでの視聴者の強い共感、②サブキャストのキャラとストーリーへの視聴者の惹きつけ となります。 キャラと言えばメインキャストの予想外のキャラ変も昨年秋のドラマのツイートを騒がせていました。 データサイエンス的には次に、これらの要素が各回の脚本のどこかにあるかどうかの判定をする機械学習モデルの作成に繋げられれば、脚本作成のサポートツールになるかもしれません。 
 脚本と視聴者の反応を関連づける機械学習モデル(AIのコアのようなもの)の開発というのは自然言語処理の面白い課題です。