身近な日常をやんわりデータサイエンスしてみよう

身近な情報や現象からデータを取り出して解析してみます。

YOASOBI「夜に駆ける」の歌詞への感情分析をChatGPTにさせてみた

YOASOBI「夜に駆ける」 Official Music Video - YouTube
 2024年は昨年エポックメイキングして1年通して良く視聴していたYOASOBIを題材に楽曲分析を進めようと思っています。
 YOASOBIは小説を原作(漫画、アニメ含む)としてコンポーザー:AYASE、ボーカル:IKURAで楽曲化して、さらにYouTubeOfficial Music Videoではアニメーションとしてリリースされています。また多くは英語バージョンも作成されています。楽器隊のサポートメンバーも加えれば、YOASOBIと言う大きなプロジェクトと捉えられます。

 今回は、YOASOBIの「夜に駆ける」の歌詞に対する感情分析をChatGTP3.5にさせてみました。下記のサイトの記事を参考にしました。ChatGTPは基本的には無茶振りしても答えてくれますね。信頼性の確認に課題はありますが。
www.wizard-notes.com

「夜に駆ける」の原作小説はsony musicが運営するmonogatary.comに掲載された「タナトスの誘惑」です。
タナトスの誘惑 | 物語詳細 - monogatary.com

タナトスとはギリシャ神話に登場する死を擬人化した神で、フロイトの用語で、生の本能に対する、無機物の不変性に帰ろうとする死の本能(衝動)のことだそうです。バンドを解散してどん底を経験したAYASEがこの小説に共感して強い想いでこの曲を作ったのではないかと思われます。

ChatGTP3.5への入力と回答

入力

参考サイトの記事と同じく下記を入力しました。非常に簡便です。
 "あなたは、歌謡曲の歌詞および作曲の専門家です。
これから歌詞を与えるので、その歌詞を一般的なひとが見聞きしたときに感じる感情について、次の6つの感情特徴量を算出してください。特徴量はすべて1-10までの整数であり、その感情を強く感じる場合は10を、感じない場合は1を算出してください。
ー怒り
ー嫌悪
ー恐れ
ー幸福感
ー悲しみ
ー驚き
「夜に駆けるの歌詞」"

回答

"ー怒り    2
ー嫌悪    3
ー恐れ    4
ー幸福感   7
ー悲しみ   8
ー驚き    6
"

「夜に駆ける」の歌詞は悲しみや寂しさ、切なさ、驚き、そして希望が交錯していて、小説を反映した歌詞にもストーリー性があります。ChatGPTの分析は概ね納得です。
ちなみに、ChatGPTに分析した要素について尋ねると、1.別れと寂しさ、2.時の経過と記憶、3.希望と未来への期待、4.感情の変化、と回答しています。

ChatGPT3.5の感情分析結果でYOASOBI各曲の位置づけをUMAPで表示

 高次元データの次元削減や可視化の手法として、UMAPは非常に便利です。Pythonのプログラムで8項目の感情項目データから2次元のプロットで表示してみました。各曲の感情分析結果からの位置関係を視ることができます。
 「夜にかける」の側には、「優しい彗星」、「ハルジオン」、「ミスター」、「もしも命が描けたら」、「アンコール」などがあります。YOASOBIの曲のなかでは切なさの強い曲が並んでいるようです。

umap

YOASOBIの楽曲分析 - 初めに、下調べ -

www.yoasobi-music.jp

 2024年は昨年エポックメイキングして1年通して良く視聴していたYOASOBIを題材に楽曲分析を進めようと思っています。
 YOASOBIは小説を原作(漫画、アニメ含む)としてコンポーザー:AYASE、ボーカル:IKURAで楽曲化して、さらにYouTubeOfficial Music Videoではアニメーションとしてリリースされています。また多くは英語バージョンも作成されています。楽器隊のサポートメンバーも加えれば、YOASOBIと言う大きなプロジェクトと捉えられます。

分析の目標

 YOASOBIからリリースされている楽曲の位置付けをデータサイエンスで使う手法で分析してマトリックスで可視化してみる。

分析の進め方

 YOASOBIは非常に多くの構成からなっていてどのように分析を進めれば良いのか迷います。そこで

ChatGPT 3.5 に聞いてみた

 上記の文章を入力した回答です。
「それは素晴らしいアイデアですね!YOASOBIは日本の音楽シーンにおいて非常に注目を集めており、その独自のスタイルや構成には多くのファンがいます。プロジェクトに取り組む際には、以下のポイントを考慮すると良いでしょう。

1. **楽曲の構造分析:**
- YOASOBIの楽曲は小説を基にしているため、歌詞には物語性やストーリー性が強調されています。楽曲の構造を分析し、歌詞が物語の進行をどのように反映しているかを考察してみてください。

2. **音楽的要素の解析:**
- AYASEのコンポーズスタイルや楽曲の編曲に焦点を当て、どのような音楽的要素が使用されているかを分析しましょう。メロディ、ハーモニー、リズムの変化、楽器の選定などが注目すべきポイントです。

3. **ボーカルの特徴:**
- IKURAのボーカルスタイルや表現力に注目し、歌唱技術や感情表現の方法を分析してみてください。彼女の声が楽曲にどのような役割を果たしているかを理解することが重要です。

4. **アニメーションとの連携:**
- Official Music Videoにおけるアニメーションの要素も分析対象となります。楽曲とアニメーションがどのように統合されているか、両者がどのように相互に補完しているかを考察してみましょう。

5. **英語バージョンの比較:**
- 英語バージョンが存在する場合、日本語版との比較を行い、翻訳においてどのような工夫がなされているかを考えると興味深いでしょう。

6. **サポートメンバーの役割:**
- 楽器隊のサポートメンバーがどのように楽曲に参加しているかも分析の一環として取り入れましょう。

以上のポイントを元に、YOASOBIの楽曲をより深く理解し、その魅力を引き出す分析を進めていくと、プロジェクトがより豊かなものになるでしょう。頑張ってください!」

と、非常にポジティブで参考になる回答をしてくれました。

次にPythonによるプログラミングで実際にどんな分析ができそうか調べてみました。

Pythonによる楽曲分析のための手法

楽曲分析について以下のサイトを参考にしました。
www.wizard-notes.com
zenn.dev
zenn.dev

コード進行を自然言語処理でベクトル化して比較
qiita.com
コード譜はこちらのサイトがあります
「YOASOBI」のコード一覧(ギターコード / ピアノコード) | 楽器.me

またSpotifyの楽曲情報を取得できるSpotify Apiについて下記のサイトも参考にしました。
python-muda.com
python-muda.com

その他、歌詞、原作小説、YouTubeコメントの分析には自然言語処理の手法とChat AIを、YouTubeOfficial MVのアニメーションの分析には画像に分割してOpen CVを使ってみます。

かなり壮大なので、
とりあえず、各楽曲の各構成成分ごとに取り掛かりやすい手法から試して、最後に総括的な分析をしてみます(いつになることか?)。

YOASOBI「勇者」のYouTube Music Videoへの日本語コメントと外国語コメントの比較

はじめに

 Google Cloud の YouTube Data APIYouTubeの Music Video(以下 MV)の様々なデータの取得と分析を試しています。
今回は海外からも関心の高いミュージシャン YOASOBI の「勇者」の Official Music Video の日本語コメントと外国語コメントを比較してみました。このMVの視聴回数はリリースしてから一月半の11月18日現在で、既に3,000万を超えています。「アイドル」ほどではないですが、かなりのスピードで増えています。YouTube Japanウィークリー楽曲ランキングで3位、曲はBillboard Global 200 で最高位63位で7週チャートインを続けています。
 「勇者」は TVアニメ「葬送のフリーレン」のオープニングテーマ曲です。「葬送のフリーレン」は 魔王を倒した勇者一行の魔法使いフリーレンのその後の冒険を回想を織り込んで描いたファンタジー作品です。ドラゴンクエストの世界に慣れ親しんだ筆者の世代でも入り込みやすいストーリーになっています。「勇者」はアニメのストーリー展開と人間より遥かに長寿なエルフのフリーレンの心情が良くわかる曲になっていて、アニメが進むにつれて、あるいは原作を読み進めると曲とアニメ、原作への理解が深まる構成になっています。人間とエルフの寿命の大きな差異が重要なキーシチュエーションです。
また、MV、曲のみ視聴した人、アニメも視聴した人、原作マンガも読んだ人でコメントも変わってくるでしょう。
youtu.be


分析に入るに当たって、とりあえず、まず、

YouTube MVへの日本語コメントと外国語コメントを比較することで何がわかるかをチャットAIに聞いてみました

 GoogleのBard、OpenAIのChatGPT3.5 の回答を以下に纏めました。かなり参考になりますね。これらを意識して、分析してみます。

  1. 言語の違いによる表現の違い
  2. 文化の違いによる価値観の違い
  3. 感想の焦点・対象の違い
  4. 感情表現の差

コメントデータの収集

 筆者は Google の Colabo Pro で、pythonのプログラミングと実行を行っています。
コメントはGoogle Cloudが提供する YouTube Data API v3 から order: 'relevance' (高評価・人気順)で収集します。1,000〜1,500程度のコメントが得られましたが、ここではプログラムの実行環境のメモリ容量の制限から1,000コメを分析に供してます。コメント数1,000でもSentence Bart と言う大規模自然言語学習モデルを使うと50GB近くメモリを消費します。Colabo Proでもほぼ限界です。
日本語コメはそのまま、外国語コメはGoogle Translateで日本語に翻訳して比較しました。

日本語コメ数と外国語コメ数

 1,000のコメント中、日本語コメ数は851、外国語コメ数は141で外国語コメの割合は14%です。「アイドル」が40%ぐらいあるので、少ないですが、Google Trendsのデータからの推測では原作漫画、アニメの海外での認知の大きさの違いが影響しているかもしれません。

コメント分布を2次元分散図(Umap)で表示

 各コメントをSentence BERT(大規模汎用自然言語処理モデルのひとつ)を使用して768次元のベクトル化してから2次元に圧縮したUmap分散図にプロットしました。
赤が日本語コメで、グレーが外国語コメです。大雑把には日本語コメのみ、あるいは外国語のみのクラスターは認められずにほぼ均等に分布しているようです。つまり、全体的には日本語コメと外国語コメで大きな差異は無さそうです。

umap_02

名詞頻出ランクの比較 ー日本人は「勇者ヒンメル」に対しても

 頻出名詞を比較することで、感想の対象の違いがわかります。
「曲」、「フリーレン」、「アニメ」、「物語(原作)」はどちらでもランク上位で共通しています。外国語コメになく日本語コメでランク10位内に入ってきたのは、「歌詞」、「ヒンメル」、「勇者」です。「歌詞」は外国語ではランクインしてないのですが、日本語の歌詞と言う事もあるかもしれませんが、日本では歌詞全体への感想も述べるのに対して、海外では歌詞の具体的内容に対して感想を述べるのが多いのかもしれません。外国語で「ヒンメル」「勇者」への感想がランクに入らなかったのは、アニメ、原作漫画の知識、理解の差でしょうか。一方、外国語コメでランクインした「永遠」、「今」、「人々」はフリーレンの行動、心情に対する感想で出現しています。

頻度ランク 日本語頻出名詞 外国語頻出名詞
2 フリーレン アニメ
3 歌詞 フリーレン
4 アニメ
好き 大好き
物語
ヒンメル 永遠
勇者
原作 人々
10 物語 音楽

形容詞頻出ランクの比較 ー日本人は「切ない」、外国人は「ほろ苦い」

 頻出形容詞の違いからは、言語や地域、文化による感情表現の差異がわかります。
 日本語コメは「すごい、凄い」がトップですが、外国語コメでは「素晴らしい、美しい」が上位です。また、日本語コメでは「切ない」に対して外国語コメでは「ほろ苦い」がランクインしています。 
「切ない」は痛み的なニュアンスに対して「ほろ苦い」は味覚的なニュアンスです。感じ方の違いがあるのかもしれません。



頻度ランク
日本語頻出形容詞
外国語頻出形容詞
すごい 素晴らしい
良い 良い
凄い 美しい
素晴らしい 新しい
いい いい
短い 短い
切ない 大きい
優しい ほろ苦い
くだらない 長い
10 眩しい 優しい

簡易な機械学習モデルを作成して、コメントを生成させてみる

 日本語コメデータと外国語コメデータ其々からマルコフ連鎖による機械学習モデルを作成(Pythonではライブラリmarkovifyを使用)して、コメント風の文章を生成させてみました。変なコメントも生成されますが、まあまあそれらしいです。外国語コメ学習モデルは少ないデータで作成したために、生成した文章のバリエーションも少なかったです。

日本語コメデータ学習モデルが生成したコメント

  • 最初曲そこまでだなって思ったけど勇者もムッチャバズってるからほんと凄い。
  • こんなに素晴らしい曲を作ってくれてありがとう…叶わない片思いに胸が締め付けられるな…やっぱりYOASOBIのアニソンすげぇわ…。
  • また…なんて曲を作って下さってありがとうございます!
  • 素敵な曲です。
  • 推しの子の時もそうだけど、今回の曲微妙だなとか思ってて、しかも神曲なのすごい。
  • カラオケで歌いたくて聴きながら練習してみたけどなんか涙が出てきた。
  • この曲を聞くだけで作品に引き込まれてしまいました。
  • だからキャラクターの心情だけじゃなくて微笑みかけるなのが感じられて大好きです。
  • アニメ見れてないけど、書きます。
  • どの曲聴いても飽きなくて好き。
  • フリーレンの想いが歌詞にもちゃんと盛り込まれててすごい。
  • フリーレンってすごいですよね、でもこの気持ちを届ける相手とはもう会えないのが凄いよな。
  • フリーレンの想いが歌詞にもあるけど、ヒンメルのフリーレンへの愛情表現が美しすぎる。
  • フリーレンの年以上の話を題材にしたように何かを残した存在なんだけど、今回はサビが最高にかっこいいな。

外国語コメデータ学習モデルが生成したコメントデータ

  • 冗談ではなく、この曲はフリーレンに少し共感できます。
  • YOASOBIは常にアニメの人気を高めることに成功しているのかもしれない。
  • 歌のためにアニメを見るのをやめられません。
  • アニメを見て、なぜ私たちのことを知っている以上に私たちに会うのをそんなに興奮しているのが大好きです。
  • フリーレンの旅にぴったりです、この曲はフリーレンにぴったりです。

YOASOBIのYoutube動画のコメントと Google Trendsの地域別インタレストで視る国際性

背景

 YOASOBIは、2019年に結成された日本の音楽ユニット。ボーカルのikuraとコンポーザーのAyaseからなる2人組で、小説を原作にした楽曲を制作しています。ソニーミュージックが運営する小説&イラスト投稿サイト「monogatary.com」に投稿された小説を音楽にするプロジェクトから誕生しました。そのコンセプト、ローマ字でのユニット名、English versionのMVなどからは、小説、アニメ、J-Popsなどの日本のカルチャーを基盤として楽曲を制作して、世界へも発信して行こうと言う強い姿勢が伺えます。Official Music Videoはすべてアニメーションなのも大きな特徴です。

 2019年10月に1stシングル「夜に駆ける」をリリースし、今年の8月で通算15作が累積ストリーミング回数が1億回を超えていて、その人気は国内外へと広がっています。

 2023年4月20日にリリースされた最新曲の「アイドル」は、TVアニメ「推しの子」のオープニングテーマに起用されています。初めて視聴したときは、「何だこの曲は!?」、と思いました。様々な要素が目まぐるしく盛り込まれていて、でも時間にしてわずか3分46秒。リリースされると瞬く間に日本の各ミュージックチャートで首位を走り続けています。世界的にも、米ビルボードのグローバルチャート「Excl. U.S. top 10」(6月10日付)やYouTubeの「music charts TOP 100 songs Global(世界楽曲ランキング)で首位を獲得しています。

 楽曲の分析だけでなく(「アイドル」に関してはYouTubeに沢山楽曲の分析がアップされています)、YOASOBIに関する様々なデータが業界のみならず多くのシティズンデータサイエンティストが分析しているのではないかと思います。
例えば「アイドル」のリツイート分析については、詳細な分析が紹介されています。
note.com

 ここでは、YOASOBIの世界的なインタレストの広がりをGoogle Trendsの地域別インタレストとYouTubeのMVに投稿されているコメントの言語種で可視化してみました。

YouTubeデータの取得について

 筆者はデータサイエンスには安価なHPのChromBookを使ってGoogle Colaboratoryでプログラムの作成と実行を行っています。Google Colaboratory上で実行環境設定ができるので、大きなデータでDeep learningする場合でも趣味程度であればChromBookで十分です。
 Youtubeのデータの取得にはGoogle CloudのYoutube Data API v3を使用します。

 データの取得と分析の主なフローは下記のとおりです。プログラミングはPythonを使っています(プログラムはプログラミング交流サイトのqiitaに後日投稿予定)。

  1. YouTube Data API v3にアクセス
  2. チャンネルAyase / YOASOBI のチャンネルにある各動画データを取得
  3. 各動画のコメントを取得
  4. 取得した各コメントを言語判定
  5. 各動画の総コメント数と日本語以外の言語でのコメント数の比率を計算
  6. 適宜Plot

3つの「アイドル」MVコメントの言語

各MVの基本データ

 4月20日にリリースされた「アイドル」のMVには、以下のOfficial Music Video、English Ver.、Arena Tour live の3つのMVがあります。3MV合わせて3ヶ月少しですでに視聴回数3億回を超えています。まずこれらMVの以下の基本データを取得します。
viewCountは視聴回数、likeCountは”いいね”回数、commentCountはコメント数、publishedAtはMVの投稿日時、IDは動画IDです。動画IDでコメントの詳細データを取得することができます。

title viewCount likeCount comment
Count
publishedAt ID
YOASOBI「アイドル」 Official Music Video 267,474,693 3,344,778 111,348 2023-04-12T15:30:09Z ZRtdQ81jPUQ
YOASOBI「アイドル」(Idol) from 『YOASOBI ARENA TOUR 2... 28,388,917 512,401 11,286 2023-06-28T09:00:14Z RzXTe-QfWTw
YOASOBI / Idol (「アイドル」English Ver. ) 23,694,413 714,836 19,104 2023-05-25T15:00:08Z RkjSfZ30GM4





総コメント数に対する外国語比率

 Official MV とarena live MVでも外国語比率が40%程度とすでにかなり多いですね。海外からの視聴比率も40〜50%だそうですので、コメント数の比率と相応しています。
 English ver. では外国語のコメント比率が56%とOfficial MVの1.44倍増加しています。

コメント外国語内訳

 外国語でのコメントの内訳を見てみました。official MVと English ver. では約50%が英語で、中国語と韓国語が10%前後で続いています。Google Trendsでの各国の検索ボリュームデータから推測すると中国語は香港と台湾からのコメントと推測されます。スペイン語が5%程度あり、ロシア語もチラリと見えます。スペイン語は南米もありますが、フィリピンでも良く使われているそうです。arena liveではやや違う傾向で、英語の比率が69%と増え、中国語と韓国語の比率がスペイン語より低くなっています。理由が気になるところです。
* en:英語、ko:韓国語、zh:中国語、es:スペイン語、ru:ロシア語 (SO 639-1言語コード

各MVコメントの外国語内訳円グラフ

「アイドル」がリリースされた4月20日以降のGoogle Trendsの地域別のインタレス

 日本以外でインタレストの高い国の上位は、香港、台湾、韓国、シンガポール、フィリピンなどでした。Youtubeコメントの言語種と相応しています。埋め込んだ図の右下をクリックするとリスト表示に変わります。(ブラウザによっては表示されません)


Google Trendsに地域別インタレストで表示された国数の推移

 YOASOBIのデビュー以降の3ヶ月ごとのGoogle Trends地域別インタレストに表示される国数をプロットすると、2021年末には30カ国前後に拡大していて、「アイドル」の世界的なヒットの地盤ができていたことがわかります。

インタレスト国数推移
地域別インタレスト推移gif

YOASOBIの全てのOfficial Music Videoのコメント数と外国語比率を可視化

コメント数では、「夜に駆ける」と「アイドル」が圧倒的で10万を超えています。外国語率では「海のまにまに」が最も高く55%を超えています。

official MV コメント数に対する外国語比率

外国語比率の最も高い「海のまにまに」Official MV コメントの外国語内訳

 「海のまにまに」は四人の芥川賞作家による「はじめての」プロジェクトで辻村深月さんの小説「ユウレイ」をもとにした楽曲です。

 外国語のコメントの内訳は英語が約60%で以下、中国語、スペイン語、韓国語、インドネシア語と続いています。スペイン語はフィリピンからのコメントと推測されます。
 英語の評価の高いコメントでは、”the MV is top tier when you can use every frame as a wallpaper”、”Had the pleasure to do animation on this MV hope everyone enjoyed it! ” とあるようにアニメーションへの評価が大変高いです。

「海のまにまに」コメントの外国語内訳"

English ver.のMVについてコメント数と外国語比率を可視化

 「優しい彗星 English ver.」が73%と非常に高い外国語率でトップでした。

English ver. コメント数と外国語比率

外国語比率の最も高い「優しい彗星 English ver.」のMVの外国語内訳を見てみる

 なぜか、英語比率が73%と非常に高く、韓国語の比率が小さくなっています。Google Trendsの地域インタレストには韓国は入っておらず、何らかの制限があったのかもしれません。日本でのインタレスト100に対して香港と台湾でのインタレストがそれぞれ70、46と非常に高いのが、外国語比率、特に英語の比率が高い理由のようです。
 最も評価の高いコメントには、"The song itself describes how the story goes on." とあるように英語版は海外の方にはより分かり易くなったようです。アニメーションへの評価も高いです。

「優しい彗星 English ver.」の外国語コメント内訳

感想

 YouTubeにはGoogleの公式のAPIApplication Programming Interface)、YouTube Data API v3があります。今回このAPIを使ってYOASOBIのYouTube MVのコメントデータの分析をしてみました。Google Trendsのデータも併せて国際性に注目してみました。 コメントの内容については、自然言語処理を使えばさらに分析できるでしょう。
 YOASOBIのビジュアルを表に出さずに、Official MVにアニメーションを採用していること、それらのEnglish ver. も制作していることでJ-POP、アニメ、小説などのJ-カルチャーを海外へ発信するプロジェクトになっています。
 今後は海外でのライブに注目です。YOAOBIはアメリカを拠点とする、アジアのカルチャーシーンを世界中に発信するメディアプラットフォームである88risingが主催するイベント「Head in The Clouda」のジャカルタ公演とマニラ公演に昨年2022年12月出演していますが、今年は8月5日〜6日のロスアンゼルス公演に出場しているはずです。 米国では特に「アイドル」でYOASOBIへのインタレストが数倍高まっていますので注目です。

NHK大河ドラマ「どうする家康」第5回の伊賀の忍びのなかに嵐の大野くんはいたのか、視聴者のツイートデータから作成したAIで文章生成してみると

NHK大河ドラマ「どうする家康」第5回では、服部半蔵率いる伊賀の忍びが出ていました。
伊賀の忍び、家康役の松潤の嵐と言えば、映画「忍びの国」で主演していた嵐の大野くんがこっそりいたのではと期待してしまいます。
「どうする家康」のツイートを分析し、AIすなわち機械学習モデルを作成して大野くんに関するツイート風の文章を生成させてみました。

放送直後30分間の「どうする家康」で検索したツイートデータからAI(機械学習モデル)を作成して文章生成

「大野」くんが含まれているツイートを抽出

 放送直後の2,248のツイートのなかに「大野」を含むツイートは5件ありました。いずれも大野くんを連想したとのツイートですね。
抜粋すると

  • キレッキレ大野くんの忍者観たい!!
  • 同時代に家康(松本潤)と無門(大野智) がいたと思うと。。。 どこかで出会っていて欲しい
  • "忍び" "伊賀"のワードが出てきた 嵐ファンはこれを聞くと 忍びの国伊賀忍者大野智 になって沸く
  • 忍びたちが大野くんの「忍びの国」を彷彿とさせましたね
  • 大野くん出てた映画思い出しつつ観てた

AI(機械学習モデル)によるツイート風文章の生成

 AIはしっかり大野くんが出ているとのツイートを生成しています。面白いのは、大野くんと松山ケンイチ演じた胡散臭い本多正信と「信頼ない」で結びついた文章を生成しましたが、山田孝之演じた服部半蔵とは「かっこよさ」で結びついた文章を生成しています。大野くんが「忍びの国」で演じた無敵の忍者、無門のいい加減さとかっこよさの2面性がなぜか含まれているようです。

  • 大野くん出てたね。
  • 大野くん出てくるから本多正信信頼がないのでは?
  • 大野くん出てたよね…🥲#どうする家康。
  • 大野くん出てくるとそれなりに楽しみになって仕方がない。
  • 大野くん出てくるのだからなぁ。
  • 大野くん出てくるのか楽しみ#どうする家康。
  • 大野くん出てたけど服部半蔵かっこよすぎた...🥲✨山田孝之のお芝居を堪能した。
  • 大野くん出てくるの正気か………………。
  • 大野くん出てくることが多いけど、家康の生涯知ってなかったけど生き延びてくれて、、、#どうする家康。
  • 大野くん出てくるの面白かった。
  • 大野くん出てた映画思い出しつつ観てた😅来週が待ち遠しすぎる!!#どうする家康。
  • 大野くん出てくるキャスト陣が濃くなってきた…#どうする家康#松本潤
  • 大野くん出てくるたんびに株を下げていくな…どうやって軍議してるかも分かって良かったなぁ本多正信だしこの後も岡崎城に帰れたのでは。

もとにしたツイートデータに「大野」が含まれている文章が5つと少なかったためか、文章のバリエーションが狭いようです。
バリエーションを増やすために、大野くんに関するツイートデータをもう少し収集して新たな学習モデルを作成することにしました。

直近30日の「どうする家康」x「大野」で検索したツイートデータで作成したAIを結合して文章生成

放送直後のツイートデータには、「大野」を含むツイートは5件しかなかったので、生成させる文章のバリエーションを広げるために、30日間のツイートデータで「どうする家康」と「大野」を含む149件のツイートデータで機械学習モデルを作成して、前の放送直後のツイートデータで作成した機械学習モデルと結合して新たな機械学習モデルを作成し、文章を生成させてみました。

自由に文章生成

  • #Enjoy#松本潤#嵐#松本潤#嵐。
  • この服部組だったら、大野君が出てた映画思い出しつつ観てたよね。
  • ジャにのちゃんねるのニノも、SHOWチャンネルの翔くんも大野さんも見てるかな〜📺。
  • テレビでやってくんないかな〜絶対見てるよね!
  • #どうする家康#嵐#ARASHI。
  • 大野君、芸能界引退したのかな🌈#どうする家康#どうする家康反省会。
  • 元気かな❔っていつも思ってるよ😊#どうする家康#嵐#松本潤#大野智
  • #どうする家康昨日の放送で登場した忍者達を見て、たぶん大野くんは大喜びしてると思う。
  • 今日のどうする家康を見て、たぶん大野くんはこの流れで見てるのかしら〜🤣💙💜#どうする家康。
  • なんて思ってみてたら、会いたくて泣けてきた感じ✨次回は服部半蔵も?
  • 大野さん観てたよね。
  • nhk.jp/gp/video/detai…嵐の大野くんがいたら〜が並んでた。
  • #どうする家康昨日の放送で登場した忍者達を見て、無門殿#大野智
  • どうする家康観てる松潤ファンの皆さんが大野くんのダンスパートから先が特に素晴らしかったです。
  • ❤️見たよもちろん!
  • 感想教えてよ今なにしてるのかな〜📺。
  • #どうする家康伊賀忍者が出てきたら泣くけどなまああり得ないけど。
  • みんなそれぞれ活躍してるよ、大野君はのんびりしてるんだ、、、嵐でいる時がいちばんキラキラしてるんじゃないかな〜絶対見てるよね!
  • 大野アンリーっぽい人たちが話してるの、どうする家康の松潤も、今休んで楽しんでる大野さんもきっと見てるよね!
  • #松本潤#忍びの国思い出すなぁ🥺アマプラで観たくなってきたね。

「大野」を頭に設定して文章生成

  • 大野君おはよう🍀いよいよ今日『どうする家康』相葉ちゃんもにのくんも翔くんも、みんな嵐なんだと思うんだよな。
  • 大野くんの忍者観たい!!ってなったけどどんどん嵐の松本潤になってしまった😅。
  • 大野さん観てた#どうする家康。
  • 大野くんの忍びの国思い出すよね〜嵐ファン大野くんファンはやっぱり連想しちゃうんだね。
  • 大野くんの忍びの国がトレンドに😄どうする家康見た大野くんファンならそして大野くんが楽しく過ごせたら良いのよ。
  • 大野さんも、みんな嵐なんだと怖かった#どうする家康。
  • 大野さんの映画忍の国がトレンドにいて嬉しい大野担。
  • 大野さん観てた#どうする家康。
  • 大野くんの無門見たいな、、、、嵐でいる時がいちばんキラキラしてるんじゃないかな〜絶対見てるよね!
  • 大野くんの忍びの国があがってて、大野くん元気かな?
  • 大野アンリーっぽい人たちが話してるの、どうする家康の松潤も、今休んで楽しんでる大野さんもきっと見てるよね!
  • 大野さんも、みんな嵐なんだと思うのは私だけかなぁ#どうする家康#どうする家康反省会。
  • 大野くんの忍びの国#じいまご。
  • 大野さん観てたよね?
  • 大野さんもきっと観てた#どうする家康。
  • 大野さんも見てるかな〜〜🥹🤍#どうする家康。
  • 大野くん出ないかな〜📺。
  • 大野さんも、みんなの動物園の相葉ちゃんもにのくんも翔くんも大野さんも見てるかな〜〜🥹🤍#どうする家康。
  • 大野さん観てたよね。
  • 大野さんの忍びの国と大野くんの忍びの国🥷がトレンド入っててスゴイなぁ

大分バリエーションが広がったようです。
また、「大野くん出ていた」から、結合したAI(機械学習モデル)では「大野さん観ていた」に表現が変わっていますね。

プログラミングについて

  1. ツイートデータはYahoo リアル検索で収集しました。収集したデータから、アカウント、投稿日時を削除するために「どうする家康」を含む文章のみ抽出します。
  2. 抽出したツイート文章を結合してから、単語に分割してマルコフ連鎖による機械学習モデルを作成します。こちらの記事を参考にプログラミングしています。

[Python3] janomeとmarkovifyを使った文章の自動生成 - Qiita
GitHub - jsvine/markovify: A simple, extensible Markov chain generator.

2022年秋ドラマ「silent」ロスの低減に、小さなAIで新たなツイートを無限に自動生成!    

 人間は多くの人との共感を持ちたい生物です。TVドラマの視聴中・視聴後にツイート投稿したり、ツイートを調べたくなります。
 ツイートデータから自然言語処理により機械学習モデルを作成すると、新たなツイート風の文章を自動生成させることができます。
ドラマロスの低減にもなるかもしれません。
 今回は、SNSや見逃し配信の視聴数記録で大変話題になった昨年秋のドラマ「silent」で試してみました。
www.fujitv.co.jp

 汎用的な文章作成には大規模な機械学習モデル(AIのコア)が必要で、最近ではOpenAIが開発したChatGPTが話題になっています。わずか2ヶ月で月間1億ユーザーを達成して、マイクロソフトと独占的な提携も進めており、Googleの検索事業も大打撃を受ける可能性があるのではと言われたりしています。
 しかし、最近のドラマに関しての文章、特にツイートのような短い文章を作成させるには、対象のドラマに特化したもっと手軽で小さな機械学習モデルが適しています。
 データサイエンスで良く使うプログラミング言語Pythonのライブラリmarkovifyは「マルコフ連鎖」と呼ばれる手法を使って、文章を生成することができます。「マルコフ連鎖」は、文章のなかの単語と単語のかかり方・繋がりを確率的にとらえて、新しく文章を生成することができるアルゴリズムです。少ないデータで文章生成用の機械学習モデルを作ることができます。ひとつの短い文章を作るのに向いています。
プログラミングはこちらの記事を参考にしました。
qiita.com

作成手順

  1. 最終回直後のツイートをYahooリアルタイム検索からコピペで千件ぐらい収集します。10分ぐらいでできます。
  2. ツイート本文のみ抽出して、ライブラリmarkovifyで機械学習モデルを作成
  3. 作成した機械学習モデルを使って、文章を生成

何も指定せずに自由に生成させたり、文章の頭の単語を設定して生成させることができます。

自由に40の文章を生成させる

  • 湊斗誰よりも幸せになりましたsilent。
  • 物語の最後あるあるでしたね→何て言ったんだろ気になる~。割り込みたい笑silent。
  • 私の大好きになったからこそそういう考えに至ったことも珍しい。
  • 何より登場人物全てが素敵な人たちで溢れてて幸せを分け合っててとても素敵な最終回でしたsilent。
  • silent最終回silent最初っから最後まで泣きっぱなしだったし本当に素敵なドラマだったな……最終回まで、最後の耳元で話すシーンのハルナの涙にやられたsilent。
  • 最後みんな笑顔で幸せそうに笑いあってる空間で終わってよかったsilent。
  • きっと最後想は紬の名前呼ぶんだよ何言ってたけど、そこはサイレント。
  • silent終わっちゃったなぁ……silent。
  • 終わっちゃったよね?
  • チューして終わるんだろうなって思ってたけど、大好きな紬と想が交換しあって。
  • 考えさせられること、新しく知ることもあって、毎回幸せでした!
  • これからもお仕事頑張って色んな蓮見れるの楽しみにしても自然な場面、何度でも見返したくなる作品でしたキャスト、スタッフの皆お疲れ様でした!
  • 最後まで泣ける良いドラマを観れた。
  • ほんとに素敵な木曜日をありがとう。
  • 伝えようと思う気持ちと受け取ろうとするか、そして相手に受け止める気があるか。
  • 2人にしかわからない世界でもそれは同じたくのことを教えてくださいました。
  • 最後の最後もsilentで視聴者に何て言ったのーなんてツィート見たらほとんどの人が伝えてくれた人達にカスミソウ渡したい〜〜〜silent。
  • silent、終わってしまって寂しいけど、この話のラストでは無いかなって思ってたから待ってたけど序盤から泣かせに来るとは最後はみんな幸せになれ。
  • 終わっちゃったなぁ…silent。
  • 優しく素敵なドラマをありがとうございました既にロスがsilent。
  • 終わっちゃった…最後までめっちゃ良かった素敵なドラマでした1話から一気に録画見よ〜silentsilent最終回。
  • 週1回の素敵な時間を過ごせました。
  • silent最終回迎えたとこでもう一回1話みたくなる!
  • 最高なドラマでしたこれから何を楽しみにしたら良いのか分かりません…素敵な時間を過ごせました。
  • 本当によかった静かだけど、最高だなsilent。
  • ずーっとリアタイできて幸せな笑顔素敵な終わり方でよかったsilent。
  • 来年スペシャル番組でその後の2人で終わるのもなんか心が温かくなったsilent本当にお疲れ様!
  • なにより気づきがあったの最高だったあの終わり方してくれても良いんですよ?
  • 優しく素敵なドラマに出逢えて良かった最後なんて言ったのかめっちゃ気になるじゃんーもぉー!
  • silent紬と想がこれからも笑って過ごせますようにsilentsilent最終回。
  • そっかあプレゼントを使い回された気持ちになる終わり方でよかったsilentありがとうsilentsilent最終回。
  • それを最後に紬が幸せそうで嬉しかった。
  • これからはと伝えることはと伝える』事です。
  • 全ての登場人物に幸せになってって言ってたのかな…そんな訳ないsilent。
  • 最初から最後まで素晴らしいドラマだった〜円盤の購入を検討しますsilentメイキング川口春奈目黒蓮
  • 前半良かったのに最後の最後まで、よかった、よかったsilent。
  • 乗り越えて幸せな気持ちになる終わり方だった。
  • 周りに恵まれて想と紬最後何言ったか想像させていただきました。
  • ラウが視察した撮影現場は紬と想が交換しあって紬と想だけのもの。
  • 伏線をこんなに全部綺麗に回収してくれてsilent。

文章の初めの単語を主人公の名「紬」に設定して生成

  • 紬にこそこそ話した声は紬に何て言ったの紬かな3ヶ月でした主演のお二人がどんな言葉をささやいたのかなもう本当に感動しました買います!
  • 紬と想に出会えて本当に幸せですありがとうございましたキャストスタッフ本当にお疲れ様でした。
  • 紬と想が言いたいことと言えて良かったです、木曜日が楽しみで楽しみでsilentのためにこの曲書いたんかってぐらい!
  • 紬にだけ何言ったのすごくスッキリしたし、大切な時間だった!
  • 紬と想がカスミソウ渡し合った時に感情が馬鹿デカく爆発したsilent。
  • 紬にこそこそ話した声は紬に何て言ったのか気になったsilent本当にお疲れ様!
  • 紬って言っていいほど気持ちを揺さぶられる素晴らしいドラマやったぁぁぁ最終回が終わってしまったsilent。
  • 紬と想は幸せで泣いてってずっと思ってたけど、嬉しくて幸せで涙出てきた時に愛しくなる聴こえる世界でも聴こえない世界で、2人だけにしか聞こえないの天才か?
  • 紬の声はもう聴こえないけど、花って語りかけるよね生きてるものは尊いわ。
  • 紬の愛深くて素敵だった心があったかいsilent。

文章の初めの単語を最終回のキーアイテムのひとつ「カスミソウ」に設定して生成

  • カスミソウが雪の結晶…♪って歌詞がそのまま最後までsilentだったsilent。
  • カスミソウが雪の結晶をお裾分け、言葉もお裾分けしてくださいsilent。
  • カスミソウの花言葉みてまた泣いた行ってらっしゃいsilent。
  • カスミソウの花言葉調べた瞬間若干回線重くなったから、温かい気持ちになるドラマでしたsilent。
  • カスミソウが雪の結晶~ってリンクしてるところまぢで良かった続編or映画作って欲しい!
  • カスミソウの花言葉調べたよねsilent。
  • カスミソウのプレゼント交換から、言葉の結晶である花を交換した時と同じ言葉?
  • カスミソウにネガティブな花言葉は託されていても衣装のせいなのかがわからず…誰か教えて〜!
  • カスミソウの花言葉調べたよね声聞きたかったーーーーsilent。
  • カスミソウの花言葉、このドラマに出会えて良かった。

どうでしょうか、「silent」のツイートっぽいでしょうか。

最後にどのくらい新しい文章を生成できるのか調べてみました

  • 1万回生成させて、重複を除くと8,608の文章が生成されていました
  • 10万回生成させて、重複を除くと63,590の文章が生成されていました。
  • 100万回生成させて、重複を除くと412,570の文章が生成されていました。

さすがに100万回では効率が落ちますが、約40万もの新しいツイート風の文章を生成させることができました。
「silent」のツイートの解析はこちら
2022年秋ドラマの「silent」をデータで振り返る - 身近な日常をやんわりデータサイエンスしてみよう

2023年冬ドラマの「ブラッシュアップライフ」の初回、2回目、3回目をツイートデータで振り返る

 2023年冬に放送されているドラマの「ブラッシュアップライフ」の初回、2回目、3回目をツイートデータで振り返ります。
www.ntv.co.jp

 なぜ初回、2回目、3回目なのかというと、ツイート数が、初回より2回目(約1.4倍)、2回目より3回目(約1.2倍)と増加しているからです。これはかなり珍しい現象です。今冬の9時から10時代のTVドラマで初回より2回目が増加したのはこのブラッシュアップライフだけです。他は3割から6割減少しています。そこで増加した理由を探るべく、各回への視聴者の反応の違いをツイートから分析してみました。
 TVドラマの放送中と放送直後のツイッターには投稿者が共感したい感情と拡散したい情報が投稿されています。それらのツイートデータを解析することで、ドラマに対する視聴者の反応を知ることができます。
 このブログでは、視聴して気に入ったドラマの放送直後のツイートを数千収集し、自然言語処理することで、頻出単語を抽出して各ドラマのツイート分析しています。また、気になる頻出ワードの該当ドラマにおける関連ワードを、作成した機械学習モデルで算出することができ、該当単語のドラマのなかでの意味付けを推測することができます。
 プログラミング言語Pythonを使用し、各単語の分かち書きと品詞解析はJanomeで、出現頻度の可視化にはWordCloudで、出現頻度のランキングはCollectionsで、単語間の関連性算出の機械学習モデル作成はWord2Vecで行いました。いずれもプログラミング初心者にも使いやすい自然言語処理のライブラリです。各ドラマのメインキャストの名前と、役名、ドラマ題名などドラマ独自の語彙はJanomeのユーザー辞書に追加登録して自然言語処理に反映させています。

まず初回のツイートデータ全体をWordCloud 表示して眺める

 WordCloudは出現頻度に応じた大きさで各単語を表示してくれます。
 「面白い」「良い」「凄い」「楽しみ」「好き」などのポジティブな単語の出現率はツイート数の9割と、高評価でした。

初回、2回目、3回目で共通するドラマタイトル名の「ブラッシュアップライフ」や「面白い」「良い」などの頻出単語を除いてWordCloud表示を比べて、違いを調べる。

初回

バカリズム」「脚本」「伏線」「会話」「サクラ」「演技」「来週」「楽しみ」などが目立っています。シリーズの根幹をなすであろう単語と期待感を示す単語が並んでいます。

2回目

「懐かしい」「世代」「シール」が目立っています。その他、2回目で顕著に増加した単語に「私」「自分」がありました。 主人公の同世代の子供時代のあるあるネタが、多くの視聴者に「懐かしさ」を強く共感させたようです。

3回目

「黒木」「華」「水川」「あさみ」「バカリズム」が目立っています。作成した機械学習モデルでドラマでの関連語を算出させると、「黒木」+「華」の関連語は、「ブチ」「切れ」「最高」「かっこいい」でした。また「水川」+「あさみ」の関連語は「謎」「今後」でした。メインキャスト級の二人の俳優のキャラ設定が視聴者を惹きつけ、関心を高めたようです。

考察

 上記の分析からツイート数が増加した要因をかなり端折ってまとめると、①あるあるネタでの視聴者の強い共感、②サブキャストのキャラとストーリーへの視聴者の惹きつけ となります。 キャラと言えばメインキャストの予想外のキャラ変も昨年秋のドラマのツイートを騒がせていました。 データサイエンス的には次に、これらの要素が各回の脚本のどこかにあるかどうかの判定をする機械学習モデルの作成に繋げられれば、脚本作成のサポートツールになるかもしれません。 
 脚本と視聴者の反応を関連づける機械学習モデル(AIのコアのようなもの)の開発というのは自然言語処理の面白い課題です。

2023年冬ドラマの「大病院占拠」の初回を放送直後のツイートデータで振り返る

 2023年冬に放送されているドラマの「大病院占拠」を初回放送直後のツイートのデータで振り返ります。
www.ntv.co.jp

 TVドラマの放送中とその直後に多くの視聴者から数千から数十万のツイートが投稿されています。ツイッターには投稿者が共感したい感情と拡散したい情報が投稿されています。それらのツイートデータを解析することで、ドラマに対する視聴者の反応を知ることができます。
 このブログでは、視聴して気に入ったドラマの放送直後のツイートを数千収集し、自然言語処理することで、頻出単語を抽出して各ドラマのツイート分析しています。また、気になる頻出ワードの該当ドラマにおける関連ワードを、作成した機械学習モデルで算出してみます。
 プログラミング言語Pythonを使用し、各単語の分かち書きと品詞解析はJanomeで、出現頻度の可視化にはWordCloudで、出現頻度のランキングはCollectionsで、単語間の関連性算出の機械学習モデル作成はWord2Vecで行いました。いずれもプログラミング初心者にも使いやすい自然言語処理のライブラリです。各ドラマのメインキャストの名前と、役名、ドラマ題名などドラマ独自の語彙はJanomeのユーザー辞書に追加登録しています。

ツイートに出現した語彙を可視化

 WordCloudは出現頻度に応じた大きさのフォントサイズで表示してくれます。300の頻出単語を表示しています。気になる単語がありますでしょうか。
主役の「櫻井」「翔」と並んで「鬼」「風磨」「青鬼」と「主題歌」が目立っています。

名詞の出現頻度ランキング

 いきなり、HPのメインキャストには名前のない「菊池」「風磨」さんが再上位へ! また「主題歌」と「スノーマン」も、「来週」が「楽しみ」も上位です。

  1. 大病院占拠
  2. 菊池、風磨
  3. 櫻井、翔
  4. ドラマ
  5. 主題歌
  6. 青鬼
  7. 武蔵
  8. 楽しみ
  9. 来週
  10. スノーマン
  11. 最後
  12. トレンド
  13. ドキドキ

形容詞の出現頻度ランキング

「っぽい、ぽい」が気になります。 展開が「早い」「楽しい」でしょうか。「怖い」「やばい」はアクションドラマらしいです。

  1. 面白い、おもしろい、おもろい
  2. 良い、いい、よい
  3. かっこいい、かっこよい
  4. 嬉しい
  5. すごい、凄い
  6. っぽい、ぽい
  7. 早い
  8. 楽しい
  9. 怖い
  10. やばい

気になった単語の関連語を算出

 数千のツイートを自然言語処理して出現単語間の関係に関する機械学習モデルを作成すると、該当単語の関連語を計算させることができます。

櫻井翔

「櫻井」「翔」の関連語は、「♥」「主演」「先輩」「ボス」「ビジュ」「すごい」でした。♥は櫻井ファンでしょうね。先輩、ボス感がインパクトあったようです。
 役名の「武蔵」「三郎」の関連語は、「主任」「受賞」「刑事」「本部」「正義」などが、
 妻役の「比嘉」さんの関連語は、「愛」「ビジュ」、役名の「裕子」では「先生」「科」「集中」「精神」「キャラ」「緊迫」と両夫妻の役名では職業に関する関連語が多くなっています。

菊池風磨

「菊池」「風磨」の関連語は、「青鬼」「卍」「唇」「口元」です。青鬼の正体について盛り上がったようです。果たして視聴者の予想は当たっているのでしょうか。

主題歌

「主題歌」の関連語は、「新曲」「うれしい」「スノーマン」で、これはネタバレですね。

かっこいい

「かっこいい」「かっこよい」「カッコイイ」の関連語は、「ダンス」「ナンバー」「踊る」「疾走」「タイトル」でした。

っぽい

 「っぽい」の関連語を算出させると、なんと「小芝」「風花」「桃鬼」でした。桃鬼として小芝風花さんを推測した視聴者がいたようです。

2023年冬ドラマの「100万回 言えばよかった」の初回を放送直後のツイートデータで振り返る

 2023年冬に放送されているドラマの「100万回 言えばよかった」を初回放送直後のツイートのデータで振り返ります。
www.tbs.co.jp
 TVドラマの放送中とその直後に多くの視聴者から数千から数十万のツイートが投稿されています。ツイッターには投稿者が共感したい感情と拡散したい情報が投稿されています。それらのツイートデータを解析することで、ドラマに対する視聴者の反応を知ることができます。
 このブログでは、視聴して気に入ったドラマの放送直後のツイートを数千収集し、自然言語処理することで、頻出単語を抽出して各ドラマのツイート分析しています。また、気になる頻出ワードの該当ドラマにおける関連ワードを、作成した機械学習モデルで算出してみます。
 プログラミング言語Pythonを使用し、各単語の分かち書きと品詞解析はJanomeで、出現頻度の可視化にはWardCloudで、出現頻度のランキングはCollectionsで、単語間の関連性算出の機械学習モデル作成はWord2Vecで行いました。いずれもプログラミング初心者にも使いやすい自然言語処理のライブラリです。各ドラマのメインキャストの名前と、役名、ドラマ題名などドラマ独自の語彙はJanomeのユーザー辞書に追加登録しています。

ツイートに出現した語彙を可視化

 WordCloudは出現頻度に応じた大きさのフォントサイズで表示してくれます。300の頻出単語を表示しています。気になる単語がありますでしょうか。
 タイトルの「100万回」「言えばよかった」の次に、「ドラマ」、二人の主役の「佐藤」「健」と「井上」「真央」が大きく表示されていて出現頻度が高かったことがわかります。続いて、「面白い」「切ない」、3人めのメインキャストの「松山」「ケンイチ」が見えます。

名詞の出現頻度ランキング

 ドラマの題名、3人のメインキャストが上位で、 「直木」は佐藤健さんの役名、「来週」が「楽しみ」、「ハンバーグ」と続いています。「ハンバーグ」は今回のキーかもしれません。 「板倉」はインパルスの板倉さんです、キーになる役を演じる?

  1. 100万回言えばよかった
  2. 佐藤健
  3. 井上真央
  4. 松山ケンイチ
  5. 楽しみ
  6. 直木
  7. ハンバーグ
  8. 来週
  9. 好き
  10. 板倉
  11. 演技
  12. 展開
  13. 初回
  14. 事件
  15. ゴースト

気になった名詞の関連語を算出

佐藤健

 「佐藤健」での関連語は「タートルネック」「コート」「かっこいい」
 役名の「直木」の関連語は「真実」「存在」「向き合う」「覚悟」「受け入れる」「悠依」でした。

井上真央

 「井上真央」の関連語は「ジャケット」「詳しい」「可愛い」「バッグ」
 役名の「悠依」の関連語は「真実」「向き合う」「覚悟」「受け入れる」「直木」でした。
主人公二人の関連語は良く似ています。

松山ケンイチ演じる魚住譲

 姓の「魚住」の関連語は、「刑事」「死」ですが、名前の「譲」の関連ワードは「乗り移る」「コミカル」「やりとり」と使い分けられているのが面白いです。

ハンバーグ

 関連語は「お腹」「プリン」「テロ」「美味しい」「作る」「食べる」「最強」「出会い」で、ハンバーグがドラマのキーになっていることが想起されます。ぜひ視聴して確かめて欲しいですね。

形容詞の出現頻度ランキング

「面白い」、「良い」はどのドラマでも上位に出現します。「切ない」と「美味しい」は「ハンバーグ」と「プリン」に繋がっていいます。「切ない」が気になります。

  1. 面白い、おもしろい
  2. 切ない
  3. 良い、よい、いい
  4. 可愛い、かわいい
  5. すごい
  6. 多い
  7. 美味しい
  8. 早い
  9. 悲しい
  10. 上手い
  11. しょっぱい
  12. かっこよい

気になった形容詞の関連語を算出

切ない

 「キュン」「笑える」「泣ける」「忙しい」「涙」「しんどい」「感情」「死」「ラスト」とドラマのラストの入り混じった視聴者の感情の起伏を括ったワードになっています。

放送直前のツイートに特徴的なワード「温かい」の関連語

 「温かい」の関連ワードは「切ない」「ファンタジー」「ラブストーリー」「失う」「織りなす」「恋人」「幽霊」でした。このドラマのストーリーに関する事前情報のツイートから抽出されたようです。このドラマの番宣記事をこれらの言葉から作成できそうです。
 

2022年秋ドラマの「エルピス —希望、あるいは災い—」をデータで振り返る

 2022年秋に放送され大変話題になったドラマの「エルピス —希望、あるいは災い— 」をツイートとグーグルトレンドのデータで振り返ります。放送業界を舞台にしたサスペンス感の詰まった社会派ドラマでした。飲み込みきれない浅川さんと、大暴れの村井さん、最後に牛丼を美味そうに食べる岸本くんと浅川さんが印象的でした。 
www.ktv.jp

 ドラマ視聴の感想などは下記のブログに多くの方が寄せていますので、そちらを御覧ください。
note.com

"エルピス"のグーグルトレンド

 グーグルトレンドはグーグル検索された頻度データです。視聴者が視聴中、その前後に情報を調べたり、探したりする際の検索データが集積されていて、ドラマ「エルピス」への関心の高さが反映されています。検索キーワードは”エルピス”です。
 グーグルトレンドのウエブページから手動で、またはPythonなどで作成したプログラムでオートに下記の情報を取得することができます。

  • トレンド推移: 検索キーワード "エルピス" の検索頻度の時系列推移
  • 関心の高い関連キーワード: 該当のキーワード "エルピス" を検索するユーザーはこれらのキーワードも検索しています。

トレンド推移

 全放送回ごとに検索頻度のピークが発生しています。初回と最終回が特に高くなっています。折り返しの第6回の放送がやや高くなっています。

google trends

全放送通しての関心の高い関連キーワード検索頻度ランキング

 上位には主役の長澤さんが来ています。それからドラマの題名の意味、主題歌、キャスト、あらすじなどのドラマの基本情報が良く検索されていました。ドラマに対する他の人の感想や視聴率も氣になっています。ドラマの題名のエルピスの意味やドラマでの位置づけ、ドラマのなかでのタイトルの回収が最も気になったところのようです。

  1. エルピス 長澤 まさみ
  2. エルピス 意味
  3. エルピス 主題 歌
  4. エルピス キャスト
  5. エルピス 最終 回
  6. エルピス 感想
  7. エルピス 視聴率
  8. エルピス ネタバレ
  9. エルピス エンディング
  10. エルピス あらすじ
  11. エルピス 見逃し
  12. エルピス 鈴木 亮平
  13. エルピス 希望
  14. 岡部 たかし
  15. エルピス 三浦透子

"エルピス"のツイート

 ツイッターには視聴者の共感したい感情や共有したい情報などが投稿されています。
最終回の終了後15分ごろのツイート約1,000件ぐらいを収集して頻出したキーワードを調べました。
最終回及びドラマ全体を通しての視聴者の感想が取得されています。

WordCloudで表示

 ツイートに出現したキーワードを出現頻度に応じて大きく可視化する自然言語処理WordCloudで表しました。検索キーワードの”エルピス”は削除しています。”希望”が印象的です。

wordcloud

名詞の出現頻度ランキング

 検索キーワードのエルピスは削除しています。WordCloud表示で印象的な”希望”が上位に来ています。牛丼も上位に来ていて希望を象徴しているようです。

  1. 最終回、最後
  2. 希望
  3. 長澤まさみ
  4. 村井
  5. 浅川
  6. 牛丼
  7. 最高
  8. 斎藤
  9. 岸本
  10. チェリー
  11. 眞栄田郷敦

形容詞の出現頻度ランキング

 最終回とドラマ全体への視聴者の下記の感想が頻出しています。

  1. 良い、よい、いい
  2. 面白い、おもしろい
  3. すごい、凄い
  4. 素晴らしい
  5. 嬉しい
  6. ほしい、欲しい
  7. 美味しい
  8. 強い
  9. 正しい
  10. 多い
  11. 深い
  12. 怖い

関連キーワード

 Googleから公開された自然言語処理Word2Vecを用いたPythonのプログラムで、ドラマへのツイートのなかで該当キーワードに関連するワードを算出することができます。算出された関連ワードを眺めると、該当キーワードのこのドラマでの意味や位置づけが見えてきます。

  • 出現頻度上位の”希望”の関連ワードとして、”厄災、災い””パンドラ””持てる””選択””見える””信じる””難しい””光” が抽出されて、エルピスで視聴者が感じた希望の意味が表されています。
  • やはり出現頻度上位の”牛丼”の関連ワードは、”大盛り”“美味しい””もりもり””笑顔””後ろ姿””頬張る””拓郎” などでした。最終回最後の場面に対する投稿で出現したワードです。”牛丼”で”後ろ姿”とは誰の?

2022年秋ドラマの「城塚翡翠」をデータで振り返る

 2022年秋に放送され様々な仕掛けで大変話題になったドラマの「霊媒探偵 城塚翡翠」と「invert城塚翡翠倒叙集」をツイートとグーグルトレンドのデータで振り返ります。
3冊の原作の複雑な構成と多くの伏線をドラマでも再現し、かつドラマオリジナルな要素もあるミステリドラマです。テレビ局としては視聴者に騙されることを楽しんでもらうことを企画したのかもしれません。
www.ntv.co.jp

 ドラマ視聴の感想などは下記のブログに多くの方が寄せていますので、そちらを御覧ください。原作の読後感想や、原作者の相沢沙呼氏による城塚翡翠のエピローグ的なブログ「城塚翡翠の平穏」と「城塚翡翠の転倒」も投稿されています。
note.com

"城塚翡翠"のグーグルトレンド

 グーグルトレンドはグーグル検索された頻度データです。視聴者が情報を調べたり、探したりする際の検索行動が集積されていて、ドラマ「城塚翡翠への関心の高さが反映されています。検索キーワードは”城塚 翡翠"です。
 グーグルトレンドのウエブページから手動で、またはPythonなどで作成したプログラムでオートに下記の情報を取得することができます。

  • トレンド推移: 検索キーワード "城塚翡翠" の検索頻度の時系列推移
  • 関心の高い関連キーワード: 該当のキーワード "城塚翡翠" を検索するユーザーはこれらのキーワードも検索しています。

トレンド推移

 全放送回ごとに検索頻度のピークが発生していますが、「霊媒探偵 城塚翡翠」の第5話が飛び抜けて関心が高くなっています。これは最終話と予告されたことと、第1話から4話に張り巡らされた数多くの、そして大きな伏線が一挙に回収されて多くの視聴者が驚かされたためです。このようなトレンドの動きは大変めずらしいです。後半は「invert城塚翡翠倒叙集」と題名もかわり、ドラマのスタイルと雰囲気も大きく変わりました。

google trends

全放送回通しての関心の高い関連キーワード検索頻度ランキング

 上位にはドラマの前半の題名が来ています。ドラマと原作に関する関心の高さが現れています。ミステリドラマらしく3位に”城塚翡翠ネタバレ”が来ています。前半の5話が最終話と予告されたことから”打ち切り”がかなり検索されました。またミステリの1分野(刑事コロンボ古畑任三郎が有名です)でもありますが、耳慣れない"倒叙”も良く検索されました。

  1. 霊媒 探偵 城塚 翡翠
  2. 城塚 翡翠 ドラマ
  3. 城塚 翡翠 ネタバレ
  4. 城塚 翡翠 打ち切り
  5. 城塚 翡翠 invert
  6. 倒叙
  7. 城塚 翡翠 倒叙

"城塚翡翠"のツイート

 ツイッターには視聴者の共感したい感情や共有したい情報などが投稿されています。
最終回の終了後15分ごろのツイート約1,000件を収集して頻出したキーワードを調べました。
最終回及びドラマ全体を通しての視聴者の感想が取得されています。

WordCloud

 ツイートに出現したキーワードを出現頻度に応じて大きく可視化する自然言語処理WordCloudで表しました。検索キーワードの”城塚翡翠”は削除してあります。パートナーの名前の”真”と、”面白い”、”騙す”が印象的です。

wordcloud

名詞頻度ランキング

”城塚翡翠”は削除しています。主役の清原果耶さんとパートナーの役名の(千和崎)真さんが上位にあります。
”原作”についての情報や、原作者、TV局への”続編”の希望もあります。”先生”は結構人気になって最終回でも現れた香月先生でしょうか。ドラマ最終回のサブタイタイトル「信用ならない目撃者」の回収となる重要な目撃者役の”岩戸”さんと演じた”若月”さんも頻出しています。

  1. 果耶、清原
  2. 倒叙
  3. 原作
  4. 続編
  5. 霊媒探偵
  6. 最終話、最後
  7. 風花、小芝
  8. 最高
  9. 先生
  10. 日曜
  11. 好き
  12. 目撃者
  13. 若月、岩戸

形容詞頻度ランキング

 最終回とドラマ全体への視聴者の感想が頻出しています。”面白い”が最上位です。続編が”欲しい”も上位にきています。

  1. 面白い、おもしろ
  2. 良い、いい、よい
  3. 楽しい
  4. 可愛い、かわいい
  5. 欲しい、ほしい
  6. すごい、凄い
  7. 寂しい
  8. 素晴らしい
  9. 嬉しい
  10. 尊い
  11. 温かい

関連キーワード

 Googleから公開された自然言語処理Word2Vecを用いたPythonのプログラムで、ドラマへのツイートのなかで該当キーワードに関連するワードを算出することができます。算出された関連ワードを眺めると、該当キーワードのこのドラマでの意味や位置づけが見えてきます。

  • ヒロイン役の”清原果耶”に関連するワードには、”主演””、”最強””、パートナー役の小芝風花、話題となった”衣装、洋服””メイキングの収録”が算出されました。
  • パートナーの"(千ヶ崎)真"の関連ワードには、"清原果耶""眼福""やり取り"癒やす""似合いすぎる""コンビ" などが算出され、主人公とパートナーの翡翠、真のやり取りに癒やされた視聴者が多かったようです。
  • "最高"の関連ワードには、"やりとり""癒やす""コンビ""かわいい"が算出され、翡翠と真のやりとりに癒やされ、最高と投稿したようです。
  • "凄い"の関連ワードには、"俳優""演技""演出""ストーリー""ドキドキ""はまる" など演技や演出、ストーリーへの感動として使われたようです。
  • ”面白い”の関連ワードには、”今季””今期””一番””草”と、今季一番の面白さとの声が多かったようです。

2022年秋ドラマの「silent」をデータで振り返る

 2022年秋に放送され見逃し配信数の記録を作って大変話題になったドラマの「silent」をツイートとグーグルトレンドのデータで振り返ります。

www.fujitv.co.jp

 ドラマ視聴の感想などは下記のブログに多くの方が寄せていますので、そちらを御覧ください。 
 私は、無音での対話の場面がとても印象的でした。音を介せないコミュニケーションへの一瞬の絶望感とそこからの再構築に見えてくる微かな希望が胸に刺さりました。
note.com

"silent"のグーグルトレンド

 グーグルトレンドはグーグル検索された頻度データです。視聴者が情報を調べたり、探したりする際の検索行動が集積されていて、ドラマ「silent」への関心の高さが反映されています。検索キーワードは”silent”です。
 グーグルトレンドのウエブページから手動で、またはPythonなどで作成したプログラムでオートに下記の情報を取得することができます。

  • トレンド推移: 検索キーワード "silent" の検索頻度の時系列推移
  • 関心の高い関連キーワード: 該当のキーワード "silent" を検索するユーザーはこれらのキーワードも検索しています。

トレンド推移

 全11回の放送回ごとに検索頻度のピークが発生しています。視聴中、視聴直後に関心が高まり検索されています。初回から3回めの放映と特に最終回の放映で関心が高くなっています。ピークの谷間、最終回のピーク後も高いトレンドで、見逃し視聴やSNSでの盛り上がりによるものと思われます。

グーグルトレンド

全放送通しての関心の高い関連キーワード頻度ランキング

 1位から3位までは3人のメインキャストです。4位の"twiiter silent" はツイッターでの盛り上がりが氣になっているということでしょう。5位の"silent 無料"は見逃しやリピート視聴できる配信サイトを探しているのでしょう。主人公二人が好きだったスピッツの曲だったり、音がない言葉としての花言葉への関心が現れています。

  1. 目黒 蓮 silent
  2. 川口 春奈 silent
  3. silent 鈴鹿 央 士
  4. twitter silent
  5. silent 無料
  6. 手話
  7. ドラマ サイレント
  8. silent 映画
  9. スピッツ
  10. スピッツ silent
  11. silent 花 言葉

"silent"のツイート

 ツイートには視聴者が共感したい感情や共有したい情報などが投稿されています。
最終回の終了後15分ごろのツイート約1,000件を収集して頻出したキーワードを調べました。
最終回及びドラマ全体を通しての視聴者の感想が取得されています。

WordCloud

 頻出したキーワードを頻度に応じて大きく表示するWordCloudで表しました。
”最後”と”素敵”が印象的です。

wordcloud

名詞頻度ランキング

 ドラマの最終回なので ”ドラマ”、”最後”、”最終” が頻出しています。
 二人の主人公の名前、 ”紬”と"想” も頻出しています。また、 "幸せ”と”言葉” はドラマ全体のキーワードですね。

  1. ドラマ
  2. 最後
  3. 素敵
  4. 最終
  5. 幸せ
  6. 言葉

形容詞頻度ランキング

 最終回とドラマ全体への視聴者の感想が頻出しています。
”温かい”、”あったかい”、”温かい” が、ドラマ全体の雰囲気を表していますね。
”寂しい”、”悲しい”、”切ない” は最終回への心情ですね。

  1. 良い、よい、いい
  2. 優しい
  3. 素晴らしい
  4. すごい、凄い
  5. 温かい、あったかい、暖かい
  6. 可愛い
  7. 寂しい、悲しい、切ない
  8. 楽しい

関連キーワード

 Googleから公開された自然言語処理Word2Vecを用いたPythonのプログラムで、ドラマへのツイートのなかで該当キーワードに関連するワードを算出することができます。算出された関連ワードを眺めると、該当キーワードのこのドラマでの意味や位置づけが見えてきます。

  • ヒロインの名前””に関連するキーワードには、名字の"青羽”と”可愛い”が、ドラマのキーとなる、“”、””、”耳打ち”、”聞く”、”聞こえる”、”囁く”などの表現が、また相手役の名前の””、””が並びました。
  • 素敵”に関連するキーワードには、”最高”、"出逢う”、”良い”、”待ち遠しい”、”素晴らしい”がありました。
  • 温かい”に関連するキーワードには、”切ない”、”穏やか”、”暖かい”、”胸がいっぱい”、”苦しい”などの視聴者のやや入り混じった心情を示すワードが並びました。

中島みゆきと松任谷由実の歌詞を言葉の出現頻度と高頻出ワードの類似ワードで比較してみる

 自然言語処理テキストマイニングに関するプログラムのライブラリが多く公開されてきて、PythonやRなどによるプログラミングのスキルさえ習得すれば、大量の文章から言葉と言葉の関係、文章と文章の関係などを誰でも容易く分析することができるようになっています。

 データサイエンスは情報と情報を科学的(統計解析など)に比較する手法です。好きな、個性的なミュージシャンの曲を比較するのは面白くもあり、楽しいです。

 

歌詞の頻出ワードをwordcloud表示

 今回は、私と同年代(やや年上ですが)の中島みゆき600曲と松任谷由実415曲の歌詞を、出現するワードの頻度でwordcloud表示してみました。出現頻度が高いほど大きく表示されています。

f:id:yamtakumol:20210111090010j:plain

中島みゆき松任谷由実の歌詞の頻出ワードで大きな違いは"人"です。

中島みゆきは"人"を歌っていらっしゃるようです。

 

頻出ワードランキング

 頻出ワードランク5位までを記します。中島みゆきの"人"を除くと、両者ともに、"私"、"あなた"、"ゆく" が上位にランクインしていました。

中島みゆきでは

1. 人

2. 私

3. あなた

4. ゆく

5. 誰

 

松任谷由実では

1. あなた

2. 私

3. ゆく

4. 今

5. きみ

 

頻出ワード"人"、"あなた"とそれぞれ関係が強いワード

 自然言語処理のライブラリword2vecを使って、頻出単語の関係ワードを分析することができます。二人の関係ワードの違いから、同じ言葉の意味合いの違いを読み取ることができます。

 

"人"の関係ワードを関係性の強い順に5つ記載しました。

中島みゆきは、関係するワードランクから "人”は変わる、見知った"人"、すれ違った"二人"、出会った"二人"などのフレーズが思い浮かびます。

1. 変わり

2. 見知る

3. すれ違う

4. 二

5. 出会う

 

松任谷由実では"人"は"二人"として多く使われています。 "二人"、若い"二人"、"二人"に教える、"二人"のメモリー、など、"二人"としてのフレーズが思い浮かびます。

1. 二

2. 若い

3. 教える

4. メモリー

5. 間にあう

 

 

"あなた"の関係ワード 

中島みゆきの"あなた"と関係の強いワード

1. 切る

2. 写真

3. かくす

4. 間違える

5. イヤ

 

松任谷由実の"あなた"と関係の強いワード

1. 私

2. 陽気

3. 笑う

4. 話す

5. 顔

 

松任谷由実の"あなた"は陽気で親しい話し相手というイメージでわかりやすいですが、中島みゆきの"あなた"はなかなか複雑そうなイメージです。

 

各曲を歌詞の違いで2次元マップ表示

 最後に、中島みゆき600曲と松任谷由実415曲を歌詞の違いで2次元マップ表示してみました。中島みゆきさんの曲の分布の広がりが大きくて、松任谷由実さんのワールド(クラスター)にも結構入り込んでいます。中島みゆきでは飛び地のような小さなクラスターもいくつか見られます。奔放な曲作りをされているようです。松任谷由美は自分のワールドをしっかり作っていますが、サブワールドが図の左上に見られます。このサブワールドの特徴を分析するのも面白そうです。

 

f:id:yamtakumol:20210131093653p:plain

 

 嵐と米津玄師との比較もしてみました。

www.yanwari-data.com

www.yanwari-data.com

 

参考: 解析のために作成したプログラムの開発環境

OS: Windows10

プログラム開発言語と使用した主なライブラリ

 Python 3.7

              歌詞のスクレイピング(Beautiful Soup)

              自然言語解析(janome, Word2Vec, Doc2Vec, Wikipedia学習済みモデル)

   R 4.0.2

             頻出ワードのビジュアル化(wordcloud)

             多次元データの次元圧縮マップ表示(UMAP)

 

             

カイトが舞うのは嵐の真っただ中?、それとも米津玄師ワールドとの際か? テキストマイニングでビジュアル化

  2014年に公開されたdoc2vecや、最近では2018年に公開されたBERTなどの自然言語解析のプログラムライブラリの登場で、大量の文章や歌詞の解析が誰でもできるようになりました。

以前、嵐の歌詞と米津さんの歌詞の違いを各単語の出現頻度によるビジュアル化をワードクラウドというプログラムを用いて解析しました。

www.yanwari-data.com

 

 今回は、米津玄師ワールドと嵐ワールドは分かれているのか、分かれていた場合に、米津さんが2020年に嵐に提供した"カイト"はどこのポジションにあるのか、興味があったので、解析してみました。

昨年2020年の8月に収集した嵐347曲、米津玄師89曲の歌詞を単語に分けて、各曲の歌詞の300次元での座標(ベクトル)を計算します。そして、それらを2次元のマップに縮約してビジュアル化することで、各曲のポジションを見ることができます。

 

グラフ1で嵐の曲と米津玄師の曲の色を分けて表示しています。嵐は横に幅広く分布しており、嵐の分布の右側に米津さんの曲がクラスター(米津ワールド)を形成していました。嵐の曲はさらにいくつかのクラスターに分けることができるかもしれません。後日解析してみます。

 

       グラフ1.  嵐347曲と米津玄師89曲の歌詞によるポジション

f:id:yamtakumol:20210103200349p:plain

 

 それでは、"カイト"の色を変えてポジションを確認しました。

"カイト"は嵐ワールドと米津玄師ワールドの境に位置していました。嵐感と米津感が両立している歌詞ということができそうです。

        グラフ2.  グラフ1に"カイト"の色を変えて表示

f:id:yamtakumol:20210103200453p:plain

 

参考: 作成したプログラムの開発環境

OS: Windows10

プログラム開発言語と使用した主なライブラリ:

      Python 3.7

                歌詞スクレイピング(Beautiful Soup)

                自然言語解析(janome, Doc2Vec, Wikipedia学習済みモデル)

      R 4.0.2

                多次元データの次元圧縮マップ化(UMAP)

 

嵐に愛と感謝を込めて

f:id:yamtakumol:20210101095354j:plain

嵐の応援うちわ



妻が大ファンの嵐は2021年から活動を休止します。

 そこで、下図のように「嵐」の文字からマスクシェイプを作成し、ワードクラウドというプログラムを用いて、そこに世界中の言語で"愛"または"感謝"のワードを詰め込んでみました。実際は嵐のロゴからマスクを作成しています。

ワードクラウド(wordcloud)とはあたかも雲のように、数多くの言葉を配置してビジュアル化するプログラミング技術です。各ワードの大きさは使用している人口の大きさに比例しています。

 

f:id:yamtakumol:20210101145046j:plain

"嵐"の文字とマスク

 

"嵐”を型として、世界中の言語の"愛"を並べてました。そのつもりで見れば、嵐のかたちに見えるでしょうか。

 

f:id:yamtakumol:20210102081223p:plain

同様に世界中の"thank you"を並べると

f:id:yamtakumol:20210102081427p:plain

 参考:  使用したプログラムの開発環境とコード

データサイエンスで良く使用されているプログラム開発言語のR、あるいはPythonを使うと、単語やフレーズとそれらの発現頻度、使用頻度などのデータを整理、解析した結果をビジュアル化することができます。

OS:  windows 10

Rstudio:  R4.02

packages:  ggwordcloud

dataset:  ggwordcloudに含まれている、

        love_words:  147の言語での"love"というワードとそれらを話している人口

  thankyou_words:  133の言語での"thank you"というワードとそれらを話している人口

スクリプトのコードは下記のサイトにアップしてあります。

qiita.com