身近な日常をやんわりデータサイエンスしてみよう

身近な情報や現象からデータを取り出して解析してみます。

YOASOBI「勇者」のYouTube Music Videoへの日本語コメントと外国語コメントの比較

はじめに

 Google Cloud の YouTube Data APIYouTubeの Music Video(以下 MV)の様々なデータの取得と分析を試しています。
今回は海外からも関心の高いミュージシャン YOASOBI の「勇者」の Official Music Video の日本語コメントと外国語コメントを比較してみました。このMVの視聴回数はリリースしてから一月半の11月18日現在で、既に3,000万を超えています。「アイドル」ほどではないですが、かなりのスピードで増えています。YouTube Japanウィークリー楽曲ランキングで3位、曲はBillboard Global 200 で最高位63位で7週チャートインを続けています。
 「勇者」は TVアニメ「葬送のフリーレン」のオープニングテーマ曲です。「葬送のフリーレン」は 魔王を倒した勇者一行の魔法使いフリーレンのその後の冒険を回想を織り込んで描いたファンタジー作品です。ドラゴンクエストの世界に慣れ親しんだ筆者の世代でも入り込みやすいストーリーになっています。「勇者」はアニメのストーリー展開と人間より遥かに長寿なエルフのフリーレンの心情が良くわかる曲になっていて、アニメが進むにつれて、あるいは原作を読み進めると曲とアニメ、原作への理解が深まる構成になっています。人間とエルフの寿命の大きな差異が重要なキーシチュエーションです。
また、MV、曲のみ視聴した人、アニメも視聴した人、原作マンガも読んだ人でコメントも変わってくるでしょう。
youtu.be


分析に入るに当たって、とりあえず、まず、

YouTube MVへの日本語コメントと外国語コメントを比較することで何がわかるかをチャットAIに聞いてみました

 GoogleのBard、OpenAIのChatGPT3.5 の回答を以下に纏めました。かなり参考になりますね。これらを意識して、分析してみます。

  1. 言語の違いによる表現の違い
  2. 文化の違いによる価値観の違い
  3. 感想の焦点・対象の違い
  4. 感情表現の差

コメントデータの収集

 筆者は Google の Colabo Pro で、pythonのプログラミングと実行を行っています。
コメントはGoogle Cloudが提供する YouTube Data API v3 から order: 'relevance' (高評価・人気順)で収集します。1,000〜1,500程度のコメントが得られましたが、ここではプログラムの実行環境のメモリ容量の制限から1,000コメを分析に供してます。コメント数1,000でもSentence Bart と言う大規模自然言語学習モデルを使うと50GB近くメモリを消費します。Colabo Proでもほぼ限界です。
日本語コメはそのまま、外国語コメはGoogle Translateで日本語に翻訳して比較しました。

日本語コメ数と外国語コメ数

 1,000のコメント中、日本語コメ数は851、外国語コメ数は141で外国語コメの割合は14%です。「アイドル」が40%ぐらいあるので、少ないですが、Google Trendsのデータからの推測では原作漫画、アニメの海外での認知の大きさの違いが影響しているかもしれません。

コメント分布を2次元分散図(Umap)で表示

 各コメントをSentence BERT(大規模汎用自然言語処理モデルのひとつ)を使用して768次元のベクトル化してから2次元に圧縮したUmap分散図にプロットしました。
赤が日本語コメで、グレーが外国語コメです。大雑把には日本語コメのみ、あるいは外国語のみのクラスターは認められずにほぼ均等に分布しているようです。つまり、全体的には日本語コメと外国語コメで大きな差異は無さそうです。

umap_02

名詞頻出ランクの比較 ー日本人は「勇者ヒンメル」に対しても

 頻出名詞を比較することで、感想の対象の違いがわかります。
「曲」、「フリーレン」、「アニメ」、「物語(原作)」はどちらでもランク上位で共通しています。外国語コメになく日本語コメでランク10位内に入ってきたのは、「歌詞」、「ヒンメル」、「勇者」です。「歌詞」は外国語ではランクインしてないのですが、日本語の歌詞と言う事もあるかもしれませんが、日本では歌詞全体への感想も述べるのに対して、海外では歌詞の具体的内容に対して感想を述べるのが多いのかもしれません。外国語で「ヒンメル」「勇者」への感想がランクに入らなかったのは、アニメ、原作漫画の知識、理解の差でしょうか。一方、外国語コメでランクインした「永遠」、「今」、「人々」はフリーレンの行動、心情に対する感想で出現しています。

頻度ランク 日本語頻出名詞 外国語頻出名詞
2 フリーレン アニメ
3 歌詞 フリーレン
4 アニメ
好き 大好き
物語
ヒンメル 永遠
勇者
原作 人々
10 物語 音楽

形容詞頻出ランクの比較 ー日本人は「切ない」、外国人は「ほろ苦い」

 頻出形容詞の違いからは、言語や地域、文化による感情表現の差異がわかります。
 日本語コメは「すごい、凄い」がトップですが、外国語コメでは「素晴らしい、美しい」が上位です。また、日本語コメでは「切ない」に対して外国語コメでは「ほろ苦い」がランクインしています。 
「切ない」は痛み的なニュアンスに対して「ほろ苦い」は味覚的なニュアンスです。感じ方の違いがあるのかもしれません。



頻度ランク
日本語頻出形容詞
外国語頻出形容詞
すごい 素晴らしい
良い 良い
凄い 美しい
素晴らしい 新しい
いい いい
短い 短い
切ない 大きい
優しい ほろ苦い
くだらない 長い
10 眩しい 優しい

簡易な機械学習モデルを作成して、コメントを生成させてみる

 日本語コメデータと外国語コメデータ其々からマルコフ連鎖による機械学習モデルを作成(Pythonではライブラリmarkovifyを使用)して、コメント風の文章を生成させてみました。変なコメントも生成されますが、まあまあそれらしいです。外国語コメ学習モデルは少ないデータで作成したために、生成した文章のバリエーションも少なかったです。

日本語コメデータ学習モデルが生成したコメント

  • 最初曲そこまでだなって思ったけど勇者もムッチャバズってるからほんと凄い。
  • こんなに素晴らしい曲を作ってくれてありがとう…叶わない片思いに胸が締め付けられるな…やっぱりYOASOBIのアニソンすげぇわ…。
  • また…なんて曲を作って下さってありがとうございます!
  • 素敵な曲です。
  • 推しの子の時もそうだけど、今回の曲微妙だなとか思ってて、しかも神曲なのすごい。
  • カラオケで歌いたくて聴きながら練習してみたけどなんか涙が出てきた。
  • この曲を聞くだけで作品に引き込まれてしまいました。
  • だからキャラクターの心情だけじゃなくて微笑みかけるなのが感じられて大好きです。
  • アニメ見れてないけど、書きます。
  • どの曲聴いても飽きなくて好き。
  • フリーレンの想いが歌詞にもちゃんと盛り込まれててすごい。
  • フリーレンってすごいですよね、でもこの気持ちを届ける相手とはもう会えないのが凄いよな。
  • フリーレンの想いが歌詞にもあるけど、ヒンメルのフリーレンへの愛情表現が美しすぎる。
  • フリーレンの年以上の話を題材にしたように何かを残した存在なんだけど、今回はサビが最高にかっこいいな。

外国語コメデータ学習モデルが生成したコメントデータ

  • 冗談ではなく、この曲はフリーレンに少し共感できます。
  • YOASOBIは常にアニメの人気を高めることに成功しているのかもしれない。
  • 歌のためにアニメを見るのをやめられません。
  • アニメを見て、なぜ私たちのことを知っている以上に私たちに会うのをそんなに興奮しているのが大好きです。
  • フリーレンの旅にぴったりです、この曲はフリーレンにぴったりです。