身近な日常をやんわりデータサイエンスしてみよう

身近な情報や現象からデータを取り出して解析してみます。

2022年秋ドラマの「城塚翡翠」をデータで振り返る

 2022年秋に放送され様々な仕掛けで大変話題になったドラマの「霊媒探偵 城塚翡翠」と「invert城塚翡翠倒叙集」をツイートとグーグルトレンドのデータで振り返ります。
3冊の原作の複雑な構成と多くの伏線をドラマでも再現し、かつドラマオリジナルな要素もあるミステリドラマです。テレビ局としては視聴者に騙されることを楽しんでもらうことを企画したのかもしれません。
www.ntv.co.jp

 ドラマ視聴の感想などは下記のブログに多くの方が寄せていますので、そちらを御覧ください。原作の読後感想や、原作者の相沢沙呼氏による城塚翡翠のエピローグ的なブログ「城塚翡翠の平穏」と「城塚翡翠の転倒」も投稿されています。
note.com

"城塚翡翠"のグーグルトレンド

 グーグルトレンドはグーグル検索された頻度データです。視聴者が情報を調べたり、探したりする際の検索行動が集積されていて、ドラマ「城塚翡翠への関心の高さが反映されています。検索キーワードは”城塚 翡翠"です。
 グーグルトレンドのウエブページから手動で、またはPythonなどで作成したプログラムでオートに下記の情報を取得することができます。

  • トレンド推移: 検索キーワード "城塚翡翠" の検索頻度の時系列推移
  • 関心の高い関連キーワード: 該当のキーワード "城塚翡翠" を検索するユーザーはこれらのキーワードも検索しています。

トレンド推移

 全放送回ごとに検索頻度のピークが発生していますが、「霊媒探偵 城塚翡翠」の第5話が飛び抜けて関心が高くなっています。これは最終話と予告されたことと、第1話から4話に張り巡らされた数多くの、そして大きな伏線が一挙に回収されて多くの視聴者が驚かされたためです。このようなトレンドの動きは大変めずらしいです。後半は「invert城塚翡翠倒叙集」と題名もかわり、ドラマのスタイルと雰囲気も大きく変わりました。

google trends

全放送回通しての関心の高い関連キーワード検索頻度ランキング

 上位にはドラマの前半の題名が来ています。ドラマと原作に関する関心の高さが現れています。ミステリドラマらしく3位に”城塚翡翠ネタバレ”が来ています。前半の5話が最終話と予告されたことから”打ち切り”がかなり検索されました。またミステリの1分野(刑事コロンボ古畑任三郎が有名です)でもありますが、耳慣れない"倒叙”も良く検索されました。

  1. 霊媒 探偵 城塚 翡翠
  2. 城塚 翡翠 ドラマ
  3. 城塚 翡翠 ネタバレ
  4. 城塚 翡翠 打ち切り
  5. 城塚 翡翠 invert
  6. 倒叙
  7. 城塚 翡翠 倒叙

"城塚翡翠"のツイート

 ツイッターには視聴者の共感したい感情や共有したい情報などが投稿されています。
最終回の終了後15分ごろのツイート約1,000件を収集して頻出したキーワードを調べました。
最終回及びドラマ全体を通しての視聴者の感想が取得されています。

WordCloud

 ツイートに出現したキーワードを出現頻度に応じて大きく可視化する自然言語処理WordCloudで表しました。検索キーワードの”城塚翡翠”は削除してあります。パートナーの名前の”真”と、”面白い”、”騙す”が印象的です。

wordcloud

名詞頻度ランキング

”城塚翡翠”は削除しています。主役の清原果耶さんとパートナーの役名の(千和崎)真さんが上位にあります。
”原作”についての情報や、原作者、TV局への”続編”の希望もあります。”先生”は結構人気になって最終回でも現れた香月先生でしょうか。ドラマ最終回のサブタイタイトル「信用ならない目撃者」の回収となる重要な目撃者役の”岩戸”さんと演じた”若月”さんも頻出しています。

  1. 果耶、清原
  2. 倒叙
  3. 原作
  4. 続編
  5. 霊媒探偵
  6. 最終話、最後
  7. 風花、小芝
  8. 最高
  9. 先生
  10. 日曜
  11. 好き
  12. 目撃者
  13. 若月、岩戸

形容詞頻度ランキング

 最終回とドラマ全体への視聴者の感想が頻出しています。”面白い”が最上位です。続編が”欲しい”も上位にきています。

  1. 面白い、おもしろ
  2. 良い、いい、よい
  3. 楽しい
  4. 可愛い、かわいい
  5. 欲しい、ほしい
  6. すごい、凄い
  7. 寂しい
  8. 素晴らしい
  9. 嬉しい
  10. 尊い
  11. 温かい

関連キーワード

 Googleから公開された自然言語処理Word2Vecを用いたPythonのプログラムで、ドラマへのツイートのなかで該当キーワードに関連するワードを算出することができます。算出された関連ワードを眺めると、該当キーワードのこのドラマでの意味や位置づけが見えてきます。

  • ヒロイン役の”清原果耶”に関連するワードには、”主演””、”最強””、パートナー役の小芝風花、話題となった”衣装、洋服””メイキングの収録”が算出されました。
  • パートナーの"(千ヶ崎)真"の関連ワードには、"清原果耶""眼福""やり取り"癒やす""似合いすぎる""コンビ" などが算出され、主人公とパートナーの翡翠、真のやり取りに癒やされた視聴者が多かったようです。
  • "最高"の関連ワードには、"やりとり""癒やす""コンビ""かわいい"が算出され、翡翠と真のやりとりに癒やされ、最高と投稿したようです。
  • "凄い"の関連ワードには、"俳優""演技""演出""ストーリー""ドキドキ""はまる" など演技や演出、ストーリーへの感動として使われたようです。
  • ”面白い”の関連ワードには、”今季””今期””一番””草”と、今季一番の面白さとの声が多かったようです。

2022年秋ドラマの「silent」をデータで振り返る

 2022年秋に放送され見逃し配信数の記録を作って大変話題になったドラマの「silent」をツイートとグーグルトレンドのデータで振り返ります。

www.fujitv.co.jp

 ドラマ視聴の感想などは下記のブログに多くの方が寄せていますので、そちらを御覧ください。 
 私は、無音での対話の場面がとても印象的でした。音を介せないコミュニケーションへの一瞬の絶望感とそこからの再構築に見えてくる微かな希望が胸に刺さりました。
note.com

"silent"のグーグルトレンド

 グーグルトレンドはグーグル検索された頻度データです。視聴者が情報を調べたり、探したりする際の検索行動が集積されていて、ドラマ「silent」への関心の高さが反映されています。検索キーワードは”silent”です。
 グーグルトレンドのウエブページから手動で、またはPythonなどで作成したプログラムでオートに下記の情報を取得することができます。

  • トレンド推移: 検索キーワード "silent" の検索頻度の時系列推移
  • 関心の高い関連キーワード: 該当のキーワード "silent" を検索するユーザーはこれらのキーワードも検索しています。

トレンド推移

 全11回の放送回ごとに検索頻度のピークが発生しています。視聴中、視聴直後に関心が高まり検索されています。初回から3回めの放映と特に最終回の放映で関心が高くなっています。ピークの谷間、最終回のピーク後も高いトレンドで、見逃し視聴やSNSでの盛り上がりによるものと思われます。

グーグルトレンド

全放送通しての関心の高い関連キーワード頻度ランキング

 1位から3位までは3人のメインキャストです。4位の"twiiter silent" はツイッターでの盛り上がりが氣になっているということでしょう。5位の"silent 無料"は見逃しやリピート視聴できる配信サイトを探しているのでしょう。主人公二人が好きだったスピッツの曲だったり、音がない言葉としての花言葉への関心が現れています。

  1. 目黒 蓮 silent
  2. 川口 春奈 silent
  3. silent 鈴鹿 央 士
  4. twitter silent
  5. silent 無料
  6. 手話
  7. ドラマ サイレント
  8. silent 映画
  9. スピッツ
  10. スピッツ silent
  11. silent 花 言葉

"silent"のツイート

 ツイートには視聴者が共感したい感情や共有したい情報などが投稿されています。
最終回の終了後15分ごろのツイート約1,000件を収集して頻出したキーワードを調べました。
最終回及びドラマ全体を通しての視聴者の感想が取得されています。

WordCloud

 頻出したキーワードを頻度に応じて大きく表示するWordCloudで表しました。
”最後”と”素敵”が印象的です。

wordcloud

名詞頻度ランキング

 ドラマの最終回なので ”ドラマ”、”最後”、”最終” が頻出しています。
 二人の主人公の名前、 ”紬”と"想” も頻出しています。また、 "幸せ”と”言葉” はドラマ全体のキーワードですね。

  1. ドラマ
  2. 最後
  3. 素敵
  4. 最終
  5. 幸せ
  6. 言葉

形容詞頻度ランキング

 最終回とドラマ全体への視聴者の感想が頻出しています。
”温かい”、”あったかい”、”温かい” が、ドラマ全体の雰囲気を表していますね。
”寂しい”、”悲しい”、”切ない” は最終回への心情ですね。

  1. 良い、よい、いい
  2. 優しい
  3. 素晴らしい
  4. すごい、凄い
  5. 温かい、あったかい、暖かい
  6. 可愛い
  7. 寂しい、悲しい、切ない
  8. 楽しい

関連キーワード

 Googleから公開された自然言語処理Word2Vecを用いたPythonのプログラムで、ドラマへのツイートのなかで該当キーワードに関連するワードを算出することができます。算出された関連ワードを眺めると、該当キーワードのこのドラマでの意味や位置づけが見えてきます。

  • ヒロインの名前””に関連するキーワードには、名字の"青羽”と”可愛い”が、ドラマのキーとなる、“”、””、”耳打ち”、”聞く”、”聞こえる”、”囁く”などの表現が、また相手役の名前の””、””が並びました。
  • 素敵”に関連するキーワードには、”最高”、"出逢う”、”良い”、”待ち遠しい”、”素晴らしい”がありました。
  • 温かい”に関連するキーワードには、”切ない”、”穏やか”、”暖かい”、”胸がいっぱい”、”苦しい”などの視聴者のやや入り混じった心情を示すワードが並びました。

中島みゆきと松任谷由実の歌詞を言葉の出現頻度と高頻出ワードの類似ワードで比較してみる

 自然言語処理テキストマイニングに関するプログラムのライブラリが多く公開されてきて、PythonやRなどによるプログラミングのスキルさえ習得すれば、大量の文章から言葉と言葉の関係、文章と文章の関係などを誰でも容易く分析することができるようになっています。

 データサイエンスは情報と情報を科学的(統計解析など)に比較する手法です。好きな、個性的なミュージシャンの曲を比較するのは面白くもあり、楽しいです。

 

歌詞の頻出ワードをwordcloud表示

 今回は、私と同年代(やや年上ですが)の中島みゆき600曲と松任谷由実415曲の歌詞を、出現するワードの頻度でwordcloud表示してみました。出現頻度が高いほど大きく表示されています。

f:id:yamtakumol:20210111090010j:plain

中島みゆき松任谷由実の歌詞の頻出ワードで大きな違いは"人"です。

中島みゆきは"人"を歌っていらっしゃるようです。

 

頻出ワードランキング

 頻出ワードランク5位までを記します。中島みゆきの"人"を除くと、両者ともに、"私"、"あなた"、"ゆく" が上位にランクインしていました。

中島みゆきでは

1. 人

2. 私

3. あなた

4. ゆく

5. 誰

 

松任谷由実では

1. あなた

2. 私

3. ゆく

4. 今

5. きみ

 

頻出ワード"人"、"あなた"とそれぞれ関係が強いワード

 自然言語処理のライブラリword2vecを使って、頻出単語の関係ワードを分析することができます。二人の関係ワードの違いから、同じ言葉の意味合いの違いを読み取ることができます。

 

"人"の関係ワードを関係性の強い順に5つ記載しました。

中島みゆきは、関係するワードランクから "人”は変わる、見知った"人"、すれ違った"二人"、出会った"二人"などのフレーズが思い浮かびます。

1. 変わり

2. 見知る

3. すれ違う

4. 二

5. 出会う

 

松任谷由実では"人"は"二人"として多く使われています。 "二人"、若い"二人"、"二人"に教える、"二人"のメモリー、など、"二人"としてのフレーズが思い浮かびます。

1. 二

2. 若い

3. 教える

4. メモリー

5. 間にあう

 

 

"あなた"の関係ワード 

中島みゆきの"あなた"と関係の強いワード

1. 切る

2. 写真

3. かくす

4. 間違える

5. イヤ

 

松任谷由実の"あなた"と関係の強いワード

1. 私

2. 陽気

3. 笑う

4. 話す

5. 顔

 

松任谷由実の"あなた"は陽気で親しい話し相手というイメージでわかりやすいですが、中島みゆきの"あなた"はなかなか複雑そうなイメージです。

 

各曲を歌詞の違いで2次元マップ表示

 最後に、中島みゆき600曲と松任谷由実415曲を歌詞の違いで2次元マップ表示してみました。中島みゆきさんの曲の分布の広がりが大きくて、松任谷由実さんのワールド(クラスター)にも結構入り込んでいます。中島みゆきでは飛び地のような小さなクラスターもいくつか見られます。奔放な曲作りをされているようです。松任谷由美は自分のワールドをしっかり作っていますが、サブワールドが図の左上に見られます。このサブワールドの特徴を分析するのも面白そうです。

 

f:id:yamtakumol:20210131093653p:plain

 

 嵐と米津玄師との比較もしてみました。

www.yanwari-data.com

www.yanwari-data.com

 

参考: 解析のために作成したプログラムの開発環境

OS: Windows10

プログラム開発言語と使用した主なライブラリ

 Python 3.7

              歌詞のスクレイピング(Beautiful Soup)

              自然言語解析(janome, Word2Vec, Doc2Vec, Wikipedia学習済みモデル)

   R 4.0.2

             頻出ワードのビジュアル化(wordcloud)

             多次元データの次元圧縮マップ表示(UMAP)

 

             

カイトが舞うのは嵐の真っただ中?、それとも米津玄師ワールドとの際か? テキストマイニングでビジュアル化

  2014年に公開されたdoc2vecや、最近では2018年に公開されたBERTなどの自然言語解析のプログラムライブラリの登場で、大量の文章や歌詞の解析が誰でもできるようになりました。

以前、嵐の歌詞と米津さんの歌詞の違いを各単語の出現頻度によるビジュアル化をワードクラウドというプログラムを用いて解析しました。

www.yanwari-data.com

 

 今回は、米津玄師ワールドと嵐ワールドは分かれているのか、分かれていた場合に、米津さんが2020年に嵐に提供した"カイト"はどこのポジションにあるのか、興味があったので、解析してみました。

昨年2020年の8月に収集した嵐347曲、米津玄師89曲の歌詞を単語に分けて、各曲の歌詞の300次元での座標(ベクトル)を計算します。そして、それらを2次元のマップに縮約してビジュアル化することで、各曲のポジションを見ることができます。

 

グラフ1で嵐の曲と米津玄師の曲の色を分けて表示しています。嵐は横に幅広く分布しており、嵐の分布の右側に米津さんの曲がクラスター(米津ワールド)を形成していました。嵐の曲はさらにいくつかのクラスターに分けることができるかもしれません。後日解析してみます。

 

       グラフ1.  嵐347曲と米津玄師89曲の歌詞によるポジション

f:id:yamtakumol:20210103200349p:plain

 

 それでは、"カイト"の色を変えてポジションを確認しました。

"カイト"は嵐ワールドと米津玄師ワールドの境に位置していました。嵐感と米津感が両立している歌詞ということができそうです。

        グラフ2.  グラフ1に"カイト"の色を変えて表示

f:id:yamtakumol:20210103200453p:plain

 

参考: 作成したプログラムの開発環境

OS: Windows10

プログラム開発言語と使用した主なライブラリ:

      Python 3.7

                歌詞スクレイピング(Beautiful Soup)

                自然言語解析(janome, Doc2Vec, Wikipedia学習済みモデル)

      R 4.0.2

                多次元データの次元圧縮マップ化(UMAP)

 

嵐に愛と感謝を込めて

f:id:yamtakumol:20210101095354j:plain

嵐の応援うちわ



妻が大ファンの嵐は2021年から活動を休止します。

 そこで、下図のように「嵐」の文字からマスクシェイプを作成し、ワードクラウドというプログラムを用いて、そこに世界中の言語で"愛"または"感謝"のワードを詰め込んでみました。実際は嵐のロゴからマスクを作成しています。

ワードクラウド(wordcloud)とはあたかも雲のように、数多くの言葉を配置してビジュアル化するプログラミング技術です。各ワードの大きさは使用している人口の大きさに比例しています。

 

f:id:yamtakumol:20210101145046j:plain

"嵐"の文字とマスク

 

"嵐”を型として、世界中の言語の"愛"を並べてました。そのつもりで見れば、嵐のかたちに見えるでしょうか。

 

f:id:yamtakumol:20210102081223p:plain

同様に世界中の"thank you"を並べると

f:id:yamtakumol:20210102081427p:plain

 参考:  使用したプログラムの開発環境とコード

データサイエンスで良く使用されているプログラム開発言語のR、あるいはPythonを使うと、単語やフレーズとそれらの発現頻度、使用頻度などのデータを整理、解析した結果をビジュアル化することができます。

OS:  windows 10

Rstudio:  R4.02

packages:  ggwordcloud

dataset:  ggwordcloudに含まれている、

        love_words:  147の言語での"love"というワードとそれらを話している人口

  thankyou_words:  133の言語での"thank you"というワードとそれらを話している人口

スクリプトのコードは下記のサイトにアップしてあります。

qiita.com

 

2020年期待の食のヒットの種 - シュクメルリ -

f:id:yamtakumol:20200228192842j:plain

鶏モモ肉を細かく切りすぎたシュクメルリ

昨年の12月から松屋の一部の店舗で販売して、話題化したのがシュクメルリ。ジョージア料理だそうです。

グーグルトレンドで「バスク チーズケーキ」と比べて関心の高さを比較してみましょう。松屋で2月限定で全国発売が決定して大変な話題になったことが分かります。

f:id:yamtakumol:20200301182907p:plain

 

下記のクックパッドレシピを参考に調理してみました。 ホワイトソースは牛乳に、おろしにんにくたっぷり、バターたっぷり、溶けるスライスチーズたっぷり入れて作ります。とにかく濃厚で、美味しいです。家族に大好評でした。ごはんでも、パンでも。ハンバーグにかけても美味しそうです。

cookpad.com

 

グーグルニュースで検索されたニュースからいくつかピックアップしました。

松屋の公式レシピもクックパッドで公開されているそうです。

nlab.itmedia.co.jp

下記ニュースに松屋がシュクメルリにたどりついた経緯も記載されています。

松屋の【世界紀行メニュー】の第一弾。松屋といえば鶏肉がゴロゴロと入っている、ということで、鶏肉を使った世界の料理を探していて、シュクメルリにたどり着いた、とのことでした。

www.excite.co.jp

松屋では第二弾のメニュー「カチャトーラ」もテスト販売中とのことです。

こちらも注目ですね。

youpouch.com

 

美味しさの追求というだけでなく、新たな食体験をあの松屋が提供しようとする試みが注目される所以ですね。

 

グーグルトレンドのデータは下記のPyhonのスクリプトで取得しました。

qiita.com

 

 

 

2020年期待の食のヒットの種 -コーンフレークやないか! ハッシュドポテト-

f:id:yamtakumol:20200216154422j:plain

餡ボールとコーンフレーク・ハッシュドポテト

 昨年M-1グランプリを制した「ミルクボーイ」のネタで取り上げられ、現在も大ブレイク中の「コーンフレーク」。「コーンフレークやないか!」レシピがブレイクしないか注目しています。かつやが3月6日からコーンフレークのカツ丼を出すとツイッターで予告しているそうです。

「コーンフレーク」への関心の高まりをグーグルトレンドで確認してみました。M-1優勝の大きなピークの後も高い関心が継続しています。

f:id:yamtakumol:20200216161842p:plain

 

そこで、コーンフレークを衣にした揚げ物を検討してみることにしました。まずは簡単そうな揚げ物ということで、冷凍の「ハッシュドポテト」を溶き卵に潜らせてから、適当に砕いたコーンフレーク(プレーン)を衣にして揚げて「コーンフレークやないか!ハッシュドポテト」を作ってみました。ついでに、前回作ったチーズボールの白玉粉が残っているので、チーズならぬ餡子を入れた、「餡ボール」(揚げまんじゅう?)も揚げました。

 ポテトのほくほく感にカリッとした食感が加わってとても美味しかったです。塩コショウ、ケチャップ、ウスターソースなどをかけて楽しめました。「餡ボール」も浅草の揚げまんじゅうと張り合えそうな日本的なもちもち感と甘さがいっぱいの美味しさでした。

 ちなみに浅草の揚げまんじゅう

中富商店

浅草の揚げまんじゅうおすすめ店【金龍山浅草餅本舗】仲見世通り

あげまんじゅう 浅草九重 | 浅草寺から三軒目。あげまんじゅうの実演販売。

 

 

グーグルトレンドのデータは下記のPyhonのスクリプトで取得しました。

qiita.com

 

 

2020年期待の食のヒットの種 - チーズボール -

f:id:yamtakumol:20200209154651j:plain

チーズボール

主にグーグルニュースとグーグルトレンドを用いて、食のヒットの種を探索しています。

「チーズボール」はクックパッドの2020年トレンド予測に取り上げられていて、注目しました。

cookpad.com

 

グーグルトレンドで確認してみると、確かにトレンドが昨年急上昇しています。

f:id:yamtakumol:20200209160836p:plain

 

グーグルニュースを「チーズボール」で検索してみると、どうも新大久保発信のようです。

rocketnews24.com

isuta.jp

新大久保に足を延ばす暇がなかったので、クックパッドレシピを頼りに作ってみました。

cookpad.com

揚げあがりのチーズボール。一部、中のチーズが破裂していましましたが、簡単に作れます。

f:id:yamtakumol:20200209162040j:plain

もちもちの食感とモッツァレラチーズのとろ伸び感が最高。今回はサルサソースをたっぷりかけて食べましたが、

色々振りかけても合いそうです。

大変話題になっていますが、新大久保などに販売は限定されています。

コンビニのレジで揚げたてで、振りかけるものが選べると、売れそうですね。

期待しています。

 

グーグルニュースの検索結果とグーグルトレンドはPythonで作成したスクリプトで取得しました。

qiita.com

qiita.com

 

 

 

食のヒットの種を見つけだそう! - 2019年10月はスイートポテトパイ

f:id:yamtakumol:20191116094816j:plain

POGGのスイートポテトパイ

 

グーグルニュースとグーグルトレンドのデータを組み合わせて、"食のヒットの種"を見つけるシステムを検討しています。

 まだ大きなヒット商品が生まれる、あるいは大きなトレンドに育っていない前に、個々のニュースに対してそれを見た消費者の関心が高まれば、検索行動が多く発生し、グーグルトレンドの上昇またはピークが形成されるのでそれをヒットの前兆としてキャッチします。

 

10月にキャッチしたのは、

・スイートポテトパイ

タロイモボール

・せち焼き

 

スイートポテトパイ

 毎年、この季節になると話題になっています。今年はスイートポテトパイ専門店POGGの開店で昨年よりトレンドピークが大きくなったようです。新宿店で購入してみました。一人二個までということで、通常と紫芋の二種をひとつずつ購入しました。甘味は控えめ、HPにあるように、サクッ、ほくほく、とろりの3つの異なる食感が味わえます。和菓子のような趣もありました。

pogg-sweetpotatopie.com

 以下のニュースがありました。

www.ryutsuu.biz

 クックパッドから、家で手作りも良いですね。

mainichi.jp

 グーグルトレンドです。

f:id:yamtakumol:20191116102943p:plain

 

タロイモボール

Nextタピオカのひとつ。これも台湾ではお馴染みだそうです。

isuta.jp

タロ芋・さつま芋・紫芋を原料とした、お芋本来の甘みを味わうことができる「タロイモボール」。

もちもちの食感としっかりと感じられる芋の舌触り、風味が魅力的で、タピオカのようでタピオカとは違った

 

 とあります。

タピオカティーから、チーズティータロイモボールとドリンクの視覚、風味、食感の世界が広がっています。

グーグルトレンドでは、これからですね。

f:id:yamtakumol:20191116104130p:plain

 

せち焼き

実は下記レシピサイトに遭遇して、レシピの由来に興味を持ちました。

せち焼き|レシピ詳細|J-オイルミルズ


 

 下記のニュースが見つかりました。地域性、お店の個性たっぷりなのが良いですね。

www.asahi.com

 

mantan-web.jp

またこんなニュースがありました。

地域性、お店とレシピの個性を守る姿勢が迫ってきます。

お店で食べるなら和歌山御坊で、家で再現してみるのもまた良しですね。

www.sankei.com

 

参考

qiita.com

qiita.com

 

qiita.com

以上

 

 

嵐と米津玄師の歌詞の違いを自然言語解析してみた

 我が家は嵐とSMAP、米津玄師さんのファンです。 

 2020年一杯で休養に入る嵐のこれまでの歌詞の特徴をデータサイエンスして、米津さんの歌詞との違いを解析してみました。

 今は、日本語の文章を単語に分ける形態素解析のプログラムライブラリ(mecab, janome など)と、多数の文章から単語と単語の関係性や文章と文章の関係性を解析するライブラリ(Word2Vec, Doc2Vec)などが公開されていて誰でもフリーに使うことができます。

 歌詞サイトから嵐と米津玄師の曲の歌詞を取得(スクレイピング)して、以下の順で自然言語解析してみました。

  1.  単語の出現頻度ランキング
  2. 頻出単語と関係の強い単語リスト

1.嵐と米津玄師の単語の出現頻度ランキング比較

歌詞サイトから取得した嵐343曲、米津玄師79曲の歌詞をPythonというプログラミング言語で作成したプログラムのなかで、ライブラリjanomeを使って単語に分けます。分けた単語の出現頻度を比較しました。

wordcloudというライブラリでグラフィカルに表示してみました。頻度が高いほど大きく表示されます。

f:id:yamtakumol:20191104075623p:plain

嵐649曲の歌詞の単語出現頻度のワードクラウド

f:id:yamtakumol:20191104075913p:plain

米津玄師79曲の歌詞の単語出現頻度のワードクラウド

嵐や米津玄師の曲を頭の中で流しながらワードクラウドの図を眺めていると、何かイマジネーションが沸いてくるでしょうか。

 まず目立つのは、出現頻度の最も高い単語が嵐では「君」で、米津玄師では「あなた」と、ともに曲を聴いている皆さんに呼びかける言葉ですが大きな違いがありました。どちらも曲当たりの平均出現回数は約3回とほぼ同じでした。つまり、視聴している皆さんは曲あたり3回ぐらい嵐、あるいは米津さんから呼びかけられている感じを受けているのかもしれません。
 

2.1 嵐の歌詞頻出単語と関係が強い単語リスト

 嵐の歌詞の主な頻出単語「君」、「夢」、「明日」、「未来」について、それらと文章のなかで関係の強い言葉をWord2vecで解析しました。

「君」と関係が強い単語

  • いる、僕、守る、会える、くれる、今、いつ

「僕」と関係が強い単語

  • 君、いる、くれる、好き、守る、夕焼け、伝える、景色、笑顔

「夢」と関係が強い単語

  • いつか、今、星、世界、希望、譲れる、追いかける、抱える、朝日

「明日」と関係が強い単語

  • 未来、道、僕ら、景色、歩く、希望、先、どこ、旅行、時

「未来」と関係が強い単語

  • 明日、僕ら、景色、手、道、それぞれ、交差点、つなぐ、季節

 どうでしょうか。ここに挙がった言葉と言葉の関係を使って、それらに皆さんの個性と体験を加えてみることで、皆さん独自の嵐の歌詞をつくってみてはいかがでしょうか。

 

f:id:yamtakumol:20191104162906j:plain

家内作成の嵐コンサートグッズ


 

f:id:yamtakumol:20191104163022j:plain

義妹作成の大野君うちわ


 

2.2 米津玄師の歌詞頻出単語と関係が強い単語リスト

 米津さんの歌詞の主な頻出単語「あなた」、「僕」、「何」、「誰」、「笑う」、「心」について、それらと文章のなかで関係の強い言葉を解析しました。

「あなた」と関係が強い単語

  • 伝える、贈る、横顔、苦しい、プレゼント、不細工、足りる、鏡、目覚める、活ける

「僕」と関係が強い単語

  • 引き金、応える、手垢、弱い、まみれる、近づく、ひく、愛しい、守る、輝く

「何」と関係が強い単語

  • 何度、誓う、拒む、隣、求める、結末、繰り返す、癖、濁る

「誰」と関係が強い単語

  • 走り出せる、約束、届く、地球、コード、強まる、素面、隅っこ

「笑う」と関係が強い単語

  • つるし上げる、キス、悪戯、

「心」と関係が強い単語

  • 上手、留める、あなた、目覚める、さざめく、梅雨、激しい、嗄れる

  様々な言葉が出てきますが、ドキッとする言葉もありますね。

 

 嵐は甘さと、強さ、未来志向の歌詞が多いようです。米津玄師さんは強さと厳しさ、がうかがえますが、どちらも君、あるいはあなたへの思いの強さが感じられます。

 今後も嵐ロスを薄めるために様々な解析を継続したいですね。

 

こちらをアップしました(2021/01/03)。

カイトが舞うのは嵐の真っただ中?、それとも米津玄師ワールドとの際か? テキストマイニングでビジュアル化 - 身近な日常をやんわりデータサイエンスしてみよう

 

 

ヨーロッパ各国の食品消費量データの主成分分析結果をヨーロッパ地図上で分かり易く表現してみた!?


 主成分分析は変数の多いデータ全体の主な差異の構造を次元縮減して可視化するのに優れた多変量解析方法です。主成分分析の結果は、合成された主成分に対するデータサンプルのポジションをスコアプロットで、主成分に対する変数の重みづけ(関係)をローディングプロットで表示されます。しかしながら、これらのプロットだけでは直感的な把握が難しい場合もあります。主成分分析の結果を、普段見慣れている表現に反映できないか工夫してみることも大事です。

 統計解析に強みのあるプログラム開発言語Rのパッケージroplsのサンプルデータfoodsには、ヨーロッパ16ヶ国の20の食品の消費量データが含まれています。これを主成分分析した結果(第1成分と第2成分)をヨーロッパ地図上で可視化してみました。

  第1成分(データ全体の差異の31%の寄与)の各国のスコア値を各国の首都にサークルの大きさで表現しています。Rのパッケージleafletを用いました。第1成分の正方向の国は橙色のサークルで、負方向の国は青のサークルです。

f:id:yamtakumol:20191012105335p:plain

 

  第1成分の正方向が北ヨーロッパ各国に、負方向が南ヨーロッパ各国に分かれました。第1成分の正方向は缶スープ、フルーツ缶などの保存性の高い加工食品の消費量が高く、負方向はガーリックやオリーブオイルの消費量が高く地中海料理との関係がありそうです。このように、第1成分はヨーロッパ各国の食品の消費で南北に分ける軸でした。

 同様に第2成分(データ全体の差異の19%の寄与)をヨーロッパ地図に表示してみます。

f:id:yamtakumol:20191013002728p:plain

 第2成分はバルト海周辺国とヨーロッパ中央北部に分けているようです。

第2成分の正方向にはCrisp Bread、冷凍魚、冷凍野菜の消費が多く、負方向ではインスタントコーヒー、パスタスープ、ヨーグルトの消費が高くなっています。

ヨーロッパ地図上に主成分分析結果を表示してみた結果、第1成分、第2成分ともに地理的なあるいは地勢的な要因による食文化の違いを表しているようです。

元々のスコアプロットとローディングプロットは下図です。

データの差異の背景にある要因は見えにくいですね。 分析結果を他の様々な情報と組み合わせて表現してみることでさらに分かり易く見えてくることがあります。

f:id:yamtakumol:20191012102140j:plain

スコアプロット

 

f:id:yamtakumol:20191019082450p:plain

ローディングプロット

 

 

実行した主成分分析のスクリプトはこちらです。

qiita.com

 

ヨーロッパ地図上に主成分分析のスコア値を表示するスクリプトは近日qiitaに投稿する予定です。

以上

 

 

 

 

 

食のヒットの種を見つけだそう! (3) - 2019年9月はタピオカティーに続く台湾発の食 、特に「チーズティー」

f:id:yamtakumol:20191016171323j:plain

チーズティー

グーグルニュースとグーグルトレンドのデータを組み合わせて、"食のヒットの種"を見つけるシステムを検討しています。

 まだ大きなヒット商品が生まれる、あるいは大きなトレンドに育っていない前に、個々のニュースに対してそれを見た消費者の関心が高まれば、検索行動が多く発生し、グーグルトレンドの上昇またはピークが形成されるのでそれをヒットの前兆としてキャッチします。コントロールはローソンの「バスチー」の大ヒットに至る前の、「バスクチーズケーキ」の「バスチー」発売の約1年前に遡った2018年の5月から8月のトレンドのピークです。

 グーグルニュースはグーグル検索と同様に検索ワードや検索フレーズに対して正確にそのワードでなくても内容的に類似しているニュースを検索してくれます。どうも何らかの判定方法でニュースの重要性、話題性や、地方メディアのニュースもバランスをとって100件のニュースにAI的に絞りこんでいます。グーグルニュースを使うことですでにデータサイエンスを実行していると言えます。

 「食の話題」、「食の専門店」などの複数のフレーズで検索したグーグルニュースデータをPythonのプログラムで取得して、そのなかから9月リリースされたニュースを抽出して、グーグルトレンドにかけるキーワードの組み合わせを決めます。グーグルトレンドのデータ収集もPythonのプログラムで実行します。コントロールとして「バスク チーズケーキ」も同時にデータ取得します。

 グーグルニュースが絞り込んだ9月のニュースを概観すると、タピオカティーあるいはタピオカドリンクに続く台湾発食品系のニュースが目につきました。そこで、まずタピオカティーとタピオカドリンクについてグーグルトレンドを確認しておきましょう。

 

f:id:yamtakumol:20191010082152p:plain

「タピオカティー」と「タピオカドリンク」のグーグルトレンド

  今年の5月末から6月初旬がグーグルトレンドのピークだったことがわかります。バスクチーズケーキより大きなトレンドです。また、「タピオカドリンク」よりは「タピオカティー」での検索が多いこともわかります。2018年初めからいくつかの小さなピークが間歇的に発生を繰り返しながら徐々に大きな上昇トレンドになっています。

そしてニュースメディアは「台湾発の食」に次のタピオカティーを探しているようです。

 台湾系の食のニュースとしてグーグルニュースにピックアップされて、グーグルトレンドでピークが検出されたのは、

富錦樹台菜香檳(フージンツリー)

 9月27日にオープンした日本橋「COREDO室町テラス」2Fフロア全部に台湾発のカルチャー体験型店舗「誠品生活」が「書籍」「文具」「セレクト物販・ワークショップ」「レストラン・食物販」の4つのゾーンで出店し、そのなかにレストラン「富錦樹台菜香檳(フージンツリー)」があります。台湾では、2014年に「洗練された台湾料理をシャンパン共にスタイリッシュに楽しめる店」として、台北のおしゃれエリア、富錦街(フージンジェ)にオープンをしたそうです。

f:id:yamtakumol:20191010084225p:plain

「フージンツリー」のグーグルトレンド

 グーグルトレンドの2019年9月にピークが認められます。

「食の話題」でピックアップされたニュースへのリンクです。

www.jiji.com

 その他、フージンツリーでグーグルニュースを検索すると多数のリリースが見つかります。まだ予約でいっぱいということですが、日本橋なので会社帰りに寄ってみたいですね。

 

・チーズティー

  台湾発のドリンクのようです。これは「タピオカティー」の検索でピックアップされました。

f:id:yamtakumol:20191010093101p:plain

「チーズ ティー」のグーグルトレンド

  グーグルトレンドではかなり大きな上昇トレンドが継続しています。

どこまで上昇トレンドが継続するか注目です!

グーグルニュースで検索すると、続々と専門店オープンのリリースが出てきます。

ananweb.jp

www.fashion-press.net

 

getnews.jp

www.fashion-press.net

 

 横浜machimachiで味わった同僚からは、「チーズは甘塩ょっぱく美味しい。しつこくない。ミルクティーも美味しく、マッチしている。混ぜても美味しい、ほど良い甘さ」、「チーズ部分はチーズケーキに似ている。混ぜたほうが美味です。」との感想が届いています。

 

以上

食のヒットの種を見つけだそう! (2)   - 2019年6月~8月は「完全食」と「天気の子レシピ」-

 グーグルニュースとグーグルトレンドのデータを組み合わせて、"食のヒットの種"を見つけるシステムを検討しています。

 前記事では、今年3月末に発売されたローソンの大ヒット「バスチー」のヒットの兆候を前年2018年5月~8月に「バスクチーズケーキ」に関するニュースと対応したグーグルトレンドの推移で見つけることができました。

 今回は、今年の2019年6月から8月の3カ月間のグーグルニュースとグーグルトレンドから見つけ出したヒットの種「完全食」「天気の子レシピ」を紹介します。

グーグルニュースの検索ページでは、検索されたニュースのリリース日が明示されていないことが多いこと、日時順になっていない(おそらく関連度順も混ざっている)ことなどから特定の期間のニュースを見るには不便です。

 そこで、Pythonのプログラムを使い、いくつかの検索ワードの組み合わせやフレーズでグーグルニュースを検索して、対象とする期間のニュースを抽出して確認します。当初は、対象とする期間で増加したワードを抽出することを試みましたが、抽出されたワード数が数百にもなり、そこからさらに絞り込むプログラム作成のためのアルゴリズムを作れなかったので、結局、対象期間で抽出された数十のニュースタイトルを読んで、グーグルトレンドを確認する検索ワードを決めました。人間力の素晴らしさですが、ここをプログラムで置き換えることが大きな課題ですね。

同じくPythonのプログラムで決定した検索ワードを入力し、グーグルトレンドの時系列データを取得して、ニュースに応じたグーグルトレンド(すなわち関心)の上昇やピークが確認されれば、"食のヒットの種"にリストします。

リストアップされた"食のヒットの種"は1年間程度大きなヒット商品が生まれるかどうかを毎月プログラムでオートにグーグルトレンドの動きを追いかけます。

今回、そのままの検索ワード”食の話題"でグーグルニュースから見つけたのが「完全食」と「天気の子レシピ」でした。

もうすでに「知っているよ!」と言う方も多いでしょうが、プログラミングで自動的に誰でも、というところが検討の主旨ですので、ご理解ください。

「完全食」のニュースとグーグルトレンド

今回は6~8月のニュースを捕まえましたが、グーグルトレンドでは3月にも大きなピークがありました。

f:id:yamtakumol:20190907161809p:plain

「完全食」のグーグルトレンド(比較に「バスクチーズケーキ」)

 今回検出したニュースのリンクを記載します。なんと言っても日清食品の「ALL-in-PASTA」や「ALL-in Noodles」が通販で限定的とは言ってもインパクトがありました(そういう意味ではもはや"種”ではないかもしれませんが)。 続く、大ヒット商品がさらに出現するのか注目です。 

www.excite.co.jp

www.excite.co.jp

news.yahoo.co.jp

news.livedoor.com

 

「天気の子レシピ」のニュースとグーグルトレンド

 新海誠監督による大ヒット公開中のアニメ映画「天気の子」の劇中のレシピが話題となっていました。今回用いた探索ワード"食の話題"で捉えたニュースは一件でしたが、改めて、"天気の子のレシピ"でグーグルニュースを検索すると複数記事が出てきます。

f:id:yamtakumol:20190907171439p:plain

「天気の子レシピ」のグーグルトレンド(比較に「バスクチーズケーキ」)

prtimes.jp

 この記事でクラシルがレシピ動画として提供したのは 「のり塩すごもりチャーハン」と「ザクザク食感のラーメンサラダ」です。

映画をまだ見ていないので、映画見てから作ってみます。

このようなコンセプトからヒット食品が今後出現するか楽しみです。

 

グーグルトレンドから「天気の子 レシピ」の時系列データを取得するプログラム

qiita.com

以上

データサイエンスで食のヒットの種を見つけだそう! (1) - ローソンのバスチー ヒットの秘密 -

 このブログでは、身近にある様々な情報や現象にデータサイエンスをトライしていきます。

  ここ数年、主に「食」のデータサイエンスに取り組んでいます。

f:id:yamtakumol:20190824133457p:plain

バスチー

食のヒットの種を見つけよう!

 これからどんな商品がヒットするのか、次にくるトレンドは何か、食品企業の開発担当者にとっては悩ましい限りです。 1年後にヒットする可能性が分かっていれば、それに応じた素材とレシピの提案を顧客にできます。そんな、予測ツールの開発を検討しています。

  きっかけは、春先に会社の同僚が「すごく話題ですよ」と持ってきたローソンの「バスチー」。

最近も、発売後4か月で1,900万個売れたとの記事がありました。

https://www.ssnp.co.jp/news/distribution/2019/08/2019-0806-1646-14.html

 

この「バスチー」ヒットの兆候を調査してみました。

使うのは何かと頼りになるグーグルニュースとグーグルトレンド。

この二つのツールを使って、「バスチー」の兆候の探索を発売前1年遡りました。

調査に使用したキーワードは、「バスチー」と「バスク チーズケーキ」。

多分検索にAIを活用しているグーグルニュースは関係するメディアニュースを拾い出してくれます。グーグルトレンドは、両キーワードへの関心の推移をグラフ化して見せてくれます。

下図にグーグルトレンドのグラフとグーグルニュースで抽出されたニュースを示します。

f:id:yamtakumol:20190831081333j:plain

グーグルトレンド

「バスチー」ブレイク前に、「バスク チーズケーキ」にいくつかピークが認められます。特に昨年2018年5月から8月のピークについて、符合する期間のグーグルニュースを調査しました。調査にはpythonのプログラムでグーグルニュースを取得し、得られたデータをRのプログラムを用いて当該期間のニュースを集計しました。

プログラミングは以下のリンク先に掲載しています。

qiita.com

 

 クックパッドニュースで何度も取り上げられています。また、同時期の7月初旬にバスクチーズケーキ専門店「ガスタ」が白金に出店のニュースもありました。

以下にグーグルニュースよりスクレイピングできた記事を紹介します。

バスクチーズケーキに関するクックパッドニュースより

2018/05/21

news.cookpad.com

2018/07/01

news.cookpad.com

 

2018/07/07

news.cookpad.com

バスクチーズケーキ専門店ガスタ(GAZTA)についてのニュース

2018/07/05

www.fashion-press.net

開店から1カ月も経たずにすでに人気店!「GAZTA」のチーズケーキを食べてみた / 東京・白金 | ロケットニュース24

白金「ガスタ」のバスクチーズケーキは、トロトロの食感に濃厚な味わいが唯一無二です。 | Tokyo Guide | Pen Online

 

  

グーグルニュースから抽出された記事にグーグルトレンドのピークが符合しており、「バスチー」発売の約10か月前ごろから「バスクチーズケーキ」話題化の兆候があったことが分かりました。

 これを逆にすれば、つまり直近3か月程度でそれ以前よりも出現頻度が上昇しているニュースのワードをグーグルニュースで拾い上げて、それらのニュースに応じたグーグルトレンドのピークが、今回の「バスクチーズケーキ」の昨年5月~8月に出現したピーク程度あれば、将来のヒットにつながる種として有望なのではないだろうかと考えています。

 

 次回からは、上記の考え方に基づいて定期的に、できるだけプログラムでオートに「食のヒットの種」を拾い上げた結果を紹介していきます。

以上

 

参考

 

qiita.com

 

qiita.com