身近な日常をやんわりデータサイエンスしてみよう

身近な情報や現象からデータを取り出して解析してみます。

中島みゆきと松任谷由実の歌詞を言葉の出現頻度と高頻出ワードの類似ワードで比較してみる

 自然言語処理テキストマイニングに関するプログラムのライブラリが多く公開されてきて、PythonやRなどによるプログラミングのスキルさえ習得すれば、大量の文章から言葉と言葉の関係、文章と文章の関係などを誰でも容易く分析することができるようになっています。

 データサイエンスは情報と情報を科学的(統計解析など)に比較する手法です。好きな、個性的なミュージシャンの曲を比較するのは面白くもあり、楽しいです。

 

歌詞の頻出ワードをwordcloud表示

 今回は、私と同年代(やや年上ですが)の中島みゆき600曲と松任谷由実415曲の歌詞を、出現するワードの頻度でwordcloud表示してみました。出現頻度が高いほど大きく表示されています。

f:id:yamtakumol:20210111090010j:plain

中島みゆき松任谷由実の歌詞の頻出ワードで大きな違いは"人"です。

中島みゆきは"人"を歌っていらっしゃるようです。

 

頻出ワードランキング

 頻出ワードランク5位までを記します。中島みゆきの"人"を除くと、両者ともに、"私"、"あなた"、"ゆく" が上位にランクインしていました。

中島みゆきでは

1. 人

2. 私

3. あなた

4. ゆく

5. 誰

 

松任谷由実では

1. あなた

2. 私

3. ゆく

4. 今

5. きみ

 

頻出ワード"人"、"あなた"とそれぞれ関係が強いワード

 自然言語処理のライブラリword2vecを使って、頻出単語の関係ワードを分析することができます。二人の関係ワードの違いから、同じ言葉の意味合いの違いを読み取ることができます。

 

"人"の関係ワードを関係性の強い順に5つ記載しました。

中島みゆきは、関係するワードランクから "人”は変わる、見知った"人"、すれ違った"二人"、出会った"二人"などのフレーズが思い浮かびます。

1. 変わり

2. 見知る

3. すれ違う

4. 二

5. 出会う

 

松任谷由実では"人"は"二人"として多く使われています。 "二人"、若い"二人"、"二人"に教える、"二人"のメモリー、など、"二人"としてのフレーズが思い浮かびます。

1. 二

2. 若い

3. 教える

4. メモリー

5. 間にあう

 

 

"あなた"の関係ワード 

中島みゆきの"あなた"と関係の強いワード

1. 切る

2. 写真

3. かくす

4. 間違える

5. イヤ

 

松任谷由実の"あなた"と関係の強いワード

1. 私

2. 陽気

3. 笑う

4. 話す

5. 顔

 

松任谷由実の"あなた"は陽気で親しい話し相手というイメージでわかりやすいですが、中島みゆきの"あなた"はなかなか複雑そうなイメージです。

 

各曲を歌詞の違いで2次元マップ表示

 最後に、中島みゆき600曲と松任谷由実415曲を歌詞の違いで2次元マップ表示してみました。中島みゆきさんの曲の分布の広がりが大きくて、松任谷由実さんのワールド(クラスター)にも結構入り込んでいます。中島みゆきでは飛び地のような小さなクラスターもいくつか見られます。奔放な曲作りをされているようです。松任谷由美は自分のワールドをしっかり作っていますが、サブワールドが図の左上に見られます。このサブワールドの特徴を分析するのも面白そうです。

 

f:id:yamtakumol:20210131093653p:plain

 

 嵐と米津玄師との比較もしてみました。

www.yanwari-data.com

www.yanwari-data.com

 

参考: 解析のために作成したプログラムの開発環境

OS: Windows10

プログラム開発言語と使用した主なライブラリ

 Python 3.7

              歌詞のスクレイピング(Beautiful Soup)

              自然言語解析(janome, Word2Vec, Doc2Vec, Wikipedia学習済みモデル)

   R 4.0.2

             頻出ワードのビジュアル化(wordcloud)

             多次元データの次元圧縮マップ表示(UMAP)

 

             

カイトが舞うのは嵐の真っただ中?、それとも米津玄師ワールドとの際か? テキストマイニングでビジュアル化

  2014年に公開されたdoc2vecや、最近では2018年に公開されたBERTなどの自然言語解析のプログラムライブラリの登場で、大量の文章や歌詞の解析が誰でもできるようになりました。

以前、嵐の歌詞と米津さんの歌詞の違いを各単語の出現頻度によるビジュアル化をワードクラウドというプログラムを用いて解析しました。

www.yanwari-data.com

 

 今回は、米津玄師ワールドと嵐ワールドは分かれているのか、分かれていた場合に、米津さんが2020年に嵐に提供した"カイト"はどこのポジションにあるのか、興味があったので、解析してみました。

昨年2020年の8月に収集した嵐347曲、米津玄師89曲の歌詞を単語に分けて、各曲の歌詞の300次元での座標(ベクトル)を計算します。そして、それらを2次元のマップに縮約してビジュアル化することで、各曲のポジションを見ることができます。

 

グラフ1で嵐の曲と米津玄師の曲の色を分けて表示しています。嵐は横に幅広く分布しており、嵐の分布の右側に米津さんの曲がクラスター(米津ワールド)を形成していました。嵐の曲はさらにいくつかのクラスターに分けることができるかもしれません。後日解析してみます。

 

       グラフ1.  嵐347曲と米津玄師89曲の歌詞によるポジション

f:id:yamtakumol:20210103200349p:plain

 

 それでは、"カイト"の色を変えてポジションを確認しました。

"カイト"は嵐ワールドと米津玄師ワールドの境に位置していました。嵐感と米津感が両立している歌詞ということができそうです。

        グラフ2.  グラフ1に"カイト"の色を変えて表示

f:id:yamtakumol:20210103200453p:plain

 

参考: 作成したプログラムの開発環境

OS: Windows10

プログラム開発言語と使用した主なライブラリ:

      Python 3.7

                歌詞スクレイピング(Beautiful Soup)

                自然言語解析(janome, Doc2Vec, Wikipedia学習済みモデル)

      R 4.0.2

                多次元データの次元圧縮マップ化(UMAP)

 

嵐に愛と感謝を込めて

f:id:yamtakumol:20210101095354j:plain

嵐の応援うちわ



妻が大ファンの嵐は2021年から活動を休止します。

 そこで、下図のように「嵐」の文字からマスクシェイプを作成し、ワードクラウドというプログラムを用いて、そこに世界中の言語で"愛"または"感謝"のワードを詰め込んでみました。実際は嵐のロゴからマスクを作成しています。

ワードクラウド(wordcloud)とはあたかも雲のように、数多くの言葉を配置してビジュアル化するプログラミング技術です。各ワードの大きさは使用している人口の大きさに比例しています。

 

f:id:yamtakumol:20210101145046j:plain

"嵐"の文字とマスク

 

"嵐”を型として、世界中の言語の"愛"を並べてました。そのつもりで見れば、嵐のかたちに見えるでしょうか。

 

f:id:yamtakumol:20210102081223p:plain

同様に世界中の"thank you"を並べると

f:id:yamtakumol:20210102081427p:plain

 参考:  使用したプログラムの開発環境とコード

データサイエンスで良く使用されているプログラム開発言語のR、あるいはPythonを使うと、単語やフレーズとそれらの発現頻度、使用頻度などのデータを整理、解析した結果をビジュアル化することができます。

OS:  windows 10

Rstudio:  R4.02

packages:  ggwordcloud

dataset:  ggwordcloudに含まれている、

        love_words:  147の言語での"love"というワードとそれらを話している人口

  thankyou_words:  133の言語での"thank you"というワードとそれらを話している人口

スクリプトのコードは下記のサイトにアップしてあります。

qiita.com

 

2020年期待の食のヒットの種 - シュクメルリ -

f:id:yamtakumol:20200228192842j:plain

鶏モモ肉を細かく切りすぎたシュクメルリ

昨年の12月から松屋の一部の店舗で販売して、話題化したのがシュクメルリ。ジョージア料理だそうです。

グーグルトレンドで「バスク チーズケーキ」と比べて関心の高さを比較してみましょう。松屋で2月限定で全国発売が決定して大変な話題になったことが分かります。

f:id:yamtakumol:20200301182907p:plain

 

下記のクックパッドレシピを参考に調理してみました。 ホワイトソースは牛乳に、おろしにんにくたっぷり、バターたっぷり、溶けるスライスチーズたっぷり入れて作ります。とにかく濃厚で、美味しいです。家族に大好評でした。ごはんでも、パンでも。ハンバーグにかけても美味しそうです。

cookpad.com

 

グーグルニュースで検索されたニュースからいくつかピックアップしました。

松屋の公式レシピもクックパッドで公開されているそうです。

nlab.itmedia.co.jp

下記ニュースに松屋がシュクメルリにたどりついた経緯も記載されています。

松屋の【世界紀行メニュー】の第一弾。松屋といえば鶏肉がゴロゴロと入っている、ということで、鶏肉を使った世界の料理を探していて、シュクメルリにたどり着いた、とのことでした。

www.excite.co.jp

松屋では第二弾のメニュー「カチャトーラ」もテスト販売中とのことです。

こちらも注目ですね。

youpouch.com

 

美味しさの追求というだけでなく、新たな食体験をあの松屋が提供しようとする試みが注目される所以ですね。

 

グーグルトレンドのデータは下記のPyhonのスクリプトで取得しました。

qiita.com

 

 

 

2020年期待の食のヒットの種 -コーンフレークやないか! ハッシュドポテト-

f:id:yamtakumol:20200216154422j:plain

餡ボールとコーンフレーク・ハッシュドポテト

 昨年M-1グランプリを制した「ミルクボーイ」のネタで取り上げられ、現在も大ブレイク中の「コーンフレーク」。「コーンフレークやないか!」レシピがブレイクしないか注目しています。かつやが3月6日からコーンフレークのカツ丼を出すとツイッターで予告しているそうです。

「コーンフレーク」への関心の高まりをグーグルトレンドで確認してみました。M-1優勝の大きなピークの後も高い関心が継続しています。

f:id:yamtakumol:20200216161842p:plain

 

そこで、コーンフレークを衣にした揚げ物を検討してみることにしました。まずは簡単そうな揚げ物ということで、冷凍の「ハッシュドポテト」を溶き卵に潜らせてから、適当に砕いたコーンフレーク(プレーン)を衣にして揚げて「コーンフレークやないか!ハッシュドポテト」を作ってみました。ついでに、前回作ったチーズボールの白玉粉が残っているので、チーズならぬ餡子を入れた、「餡ボール」(揚げまんじゅう?)も揚げました。

 ポテトのほくほく感にカリッとした食感が加わってとても美味しかったです。塩コショウ、ケチャップ、ウスターソースなどをかけて楽しめました。「餡ボール」も浅草の揚げまんじゅうと張り合えそうな日本的なもちもち感と甘さがいっぱいの美味しさでした。

 ちなみに浅草の揚げまんじゅう

中富商店

浅草の揚げまんじゅうおすすめ店【金龍山浅草餅本舗】仲見世通り

あげまんじゅう 浅草九重 | 浅草寺から三軒目。あげまんじゅうの実演販売。

 

 

グーグルトレンドのデータは下記のPyhonのスクリプトで取得しました。

qiita.com

 

 

2020年期待の食のヒットの種 - チーズボール -

f:id:yamtakumol:20200209154651j:plain

チーズボール

主にグーグルニュースとグーグルトレンドを用いて、食のヒットの種を探索しています。

「チーズボール」はクックパッドの2020年トレンド予測に取り上げられていて、注目しました。

cookpad.com

 

グーグルトレンドで確認してみると、確かにトレンドが昨年急上昇しています。

f:id:yamtakumol:20200209160836p:plain

 

グーグルニュースを「チーズボール」で検索してみると、どうも新大久保発信のようです。

rocketnews24.com

isuta.jp

新大久保に足を延ばす暇がなかったので、クックパッドレシピを頼りに作ってみました。

cookpad.com

揚げあがりのチーズボール。一部、中のチーズが破裂していましましたが、簡単に作れます。

f:id:yamtakumol:20200209162040j:plain

もちもちの食感とモッツァレラチーズのとろ伸び感が最高。今回はサルサソースをたっぷりかけて食べましたが、

色々振りかけても合いそうです。

大変話題になっていますが、新大久保などに販売は限定されています。

コンビニのレジで揚げたてで、振りかけるものが選べると、売れそうですね。

期待しています。

 

グーグルニュースの検索結果とグーグルトレンドはPythonで作成したスクリプトで取得しました。

qiita.com

qiita.com

 

 

 

食のヒットの種を見つけだそう! - 2019年10月はスイートポテトパイ

f:id:yamtakumol:20191116094816j:plain

POGGのスイートポテトパイ

 

グーグルニュースとグーグルトレンドのデータを組み合わせて、"食のヒットの種"を見つけるシステムを検討しています。

 まだ大きなヒット商品が生まれる、あるいは大きなトレンドに育っていない前に、個々のニュースに対してそれを見た消費者の関心が高まれば、検索行動が多く発生し、グーグルトレンドの上昇またはピークが形成されるのでそれをヒットの前兆としてキャッチします。

 

10月にキャッチしたのは、

・スイートポテトパイ

タロイモボール

・せち焼き

 

スイートポテトパイ

 毎年、この季節になると話題になっています。今年はスイートポテトパイ専門店POGGの開店で昨年よりトレンドピークが大きくなったようです。新宿店で購入してみました。一人二個までということで、通常と紫芋の二種をひとつずつ購入しました。甘味は控えめ、HPにあるように、サクッ、ほくほく、とろりの3つの異なる食感が味わえます。和菓子のような趣もありました。

pogg-sweetpotatopie.com

 以下のニュースがありました。

www.ryutsuu.biz

 クックパッドから、家で手作りも良いですね。

mainichi.jp

 グーグルトレンドです。

f:id:yamtakumol:20191116102943p:plain

 

タロイモボール

Nextタピオカのひとつ。これも台湾ではお馴染みだそうです。

isuta.jp

タロ芋・さつま芋・紫芋を原料とした、お芋本来の甘みを味わうことができる「タロイモボール」。

もちもちの食感としっかりと感じられる芋の舌触り、風味が魅力的で、タピオカのようでタピオカとは違った

 

 とあります。

タピオカティーから、チーズティータロイモボールとドリンクの視覚、風味、食感の世界が広がっています。

グーグルトレンドでは、これからですね。

f:id:yamtakumol:20191116104130p:plain

 

せち焼き

実は下記レシピサイトに遭遇して、レシピの由来に興味を持ちました。

せち焼き|レシピ詳細|J-オイルミルズ


 

 下記のニュースが見つかりました。地域性、お店の個性たっぷりなのが良いですね。

www.asahi.com

 

mantan-web.jp

またこんなニュースがありました。

地域性、お店とレシピの個性を守る姿勢が迫ってきます。

お店で食べるなら和歌山御坊で、家で再現してみるのもまた良しですね。

www.sankei.com

 

参考

qiita.com

qiita.com

 

qiita.com

以上