身近な日常をやんわりデータサイエンスしてみよう

身近な情報や現象からデータを取り出して解析してみます。

嵐と米津玄師の歌詞の違いを自然言語解析してみた

 我が家は嵐とSMAP、米津玄師さんのファンです。 

 2020年一杯で休養に入る嵐のこれまでの歌詞の特徴をデータサイエンスして、米津さんの歌詞との違いを解析してみました。

 今は、日本語の文章を単語に分ける形態素解析のプログラムライブラリ(mecab, janome など)と、多数の文章から単語と単語の関係性や文章と文章の関係性を解析するライブラリ(Word2Vec, Doc2Vec)などが公開されていて誰でもフリーに使うことができます。

 歌詞サイトから嵐と米津玄師の曲の歌詞を取得(スクレイピング)して、以下の順で自然言語解析してみました。

  1.  単語の出現頻度ランキング
  2. 頻出単語と関係の強い単語リスト

1.嵐と米津玄師の単語の出現頻度ランキング比較

歌詞サイトから取得した嵐343曲、米津玄師79曲の歌詞をPythonというプログラミング言語で作成したプログラムのなかで、ライブラリjanomeを使って単語に分けます。分けた単語の出現頻度を比較しました。

wordcloudというライブラリでグラフィカルに表示してみました。頻度が高いほど大きく表示されます。

f:id:yamtakumol:20191104075623p:plain

嵐649曲の歌詞の単語出現頻度のワードクラウド

f:id:yamtakumol:20191104075913p:plain

米津玄師79曲の歌詞の単語出現頻度のワードクラウド

嵐や米津玄師の曲を頭の中で流しながらワードクラウドの図を眺めていると、何かイマジネーションが沸いてくるでしょうか。

 まず目立つのは、出現頻度の最も高い単語が嵐では「君」で、米津玄師では「あなた」と、ともに曲を聴いている皆さんに呼びかける言葉ですが大きな違いがありました。どちらも曲当たりの平均出現回数は約3回とほぼ同じでした。つまり、視聴している皆さんは曲あたり3回ぐらい嵐、あるいは米津さんから呼びかけられている感じを受けているのかもしれません。
 

2.1 嵐の歌詞頻出単語と関係が強い単語リスト

 嵐の歌詞の主な頻出単語「君」、「夢」、「明日」、「未来」について、それらと文章のなかで関係の強い言葉をWord2vecで解析しました。

「君」と関係が強い単語

  • いる、僕、守る、会える、くれる、今、いつ

「僕」と関係が強い単語

  • 君、いる、くれる、好き、守る、夕焼け、伝える、景色、笑顔

「夢」と関係が強い単語

  • いつか、今、星、世界、希望、譲れる、追いかける、抱える、朝日

「明日」と関係が強い単語

  • 未来、道、僕ら、景色、歩く、希望、先、どこ、旅行、時

「未来」と関係が強い単語

  • 明日、僕ら、景色、手、道、それぞれ、交差点、つなぐ、季節

 どうでしょうか。ここに挙がった言葉と言葉の関係を使って、それらに皆さんの個性と体験を加えてみることで、皆さん独自の嵐の歌詞をつくってみてはいかがでしょうか。

 

f:id:yamtakumol:20191104162906j:plain

家内作成の嵐コンサートグッズ


 

f:id:yamtakumol:20191104163022j:plain

義妹作成の大野君うちわ


 

2.2 米津玄師の歌詞頻出単語と関係が強い単語リスト

 米津さんの歌詞の主な頻出単語「あなた」、「僕」、「何」、「誰」、「笑う」、「心」について、それらと文章のなかで関係の強い言葉を解析しました。

「あなた」と関係が強い単語

  • 伝える、贈る、横顔、苦しい、プレゼント、不細工、足りる、鏡、目覚める、活ける

「僕」と関係が強い単語

  • 引き金、応える、手垢、弱い、まみれる、近づく、ひく、愛しい、守る、輝く

「何」と関係が強い単語

  • 何度、誓う、拒む、隣、求める、結末、繰り返す、癖、濁る

「誰」と関係が強い単語

  • 走り出せる、約束、届く、地球、コード、強まる、素面、隅っこ

「笑う」と関係が強い単語

  • つるし上げる、キス、悪戯、

「心」と関係が強い単語

  • 上手、留める、あなた、目覚める、さざめく、梅雨、激しい、嗄れる

  様々な言葉が出てきますが、ドキッとする言葉もありますね。

 

 嵐は甘さと、強さ、未来志向の歌詞が多いようです。米津玄師さんは強さと厳しさ、がうかがえますが、どちらも君、あるいはあなたへの思いの強さが感じられます。

 今後も嵐ロスを薄めるために様々な解析を継続したいですね。

 

こちらをアップしました(2021/01/03)。

カイトが舞うのは嵐の真っただ中?、それとも米津玄師ワールドとの際か? テキストマイニングでビジュアル化 - 身近な日常をやんわりデータサイエンスしてみよう

 

 

ヨーロッパ各国の食品消費量データの主成分分析結果をヨーロッパ地図上で分かり易く表現してみた!?


 主成分分析は変数の多いデータ全体の主な差異の構造を次元縮減して可視化するのに優れた多変量解析方法です。主成分分析の結果は、合成された主成分に対するデータサンプルのポジションをスコアプロットで、主成分に対する変数の重みづけ(関係)をローディングプロットで表示されます。しかしながら、これらのプロットだけでは直感的な把握が難しい場合もあります。主成分分析の結果を、普段見慣れている表現に反映できないか工夫してみることも大事です。

 統計解析に強みのあるプログラム開発言語Rのパッケージroplsのサンプルデータfoodsには、ヨーロッパ16ヶ国の20の食品の消費量データが含まれています。これを主成分分析した結果(第1成分と第2成分)をヨーロッパ地図上で可視化してみました。

  第1成分(データ全体の差異の31%の寄与)の各国のスコア値を各国の首都にサークルの大きさで表現しています。Rのパッケージleafletを用いました。第1成分の正方向の国は橙色のサークルで、負方向の国は青のサークルです。

f:id:yamtakumol:20191012105335p:plain

 

  第1成分の正方向が北ヨーロッパ各国に、負方向が南ヨーロッパ各国に分かれました。第1成分の正方向は缶スープ、フルーツ缶などの保存性の高い加工食品の消費量が高く、負方向はガーリックやオリーブオイルの消費量が高く地中海料理との関係がありそうです。このように、第1成分はヨーロッパ各国の食品の消費で南北に分ける軸でした。

 同様に第2成分(データ全体の差異の19%の寄与)をヨーロッパ地図に表示してみます。

f:id:yamtakumol:20191013002728p:plain

 第2成分はバルト海周辺国とヨーロッパ中央北部に分けているようです。

第2成分の正方向にはCrisp Bread、冷凍魚、冷凍野菜の消費が多く、負方向ではインスタントコーヒー、パスタスープ、ヨーグルトの消費が高くなっています。

ヨーロッパ地図上に主成分分析結果を表示してみた結果、第1成分、第2成分ともに地理的なあるいは地勢的な要因による食文化の違いを表しているようです。

元々のスコアプロットとローディングプロットは下図です。

データの差異の背景にある要因は見えにくいですね。 分析結果を他の様々な情報と組み合わせて表現してみることでさらに分かり易く見えてくることがあります。

f:id:yamtakumol:20191012102140j:plain

スコアプロット

 

f:id:yamtakumol:20191019082450p:plain

ローディングプロット

 

 

実行した主成分分析のスクリプトはこちらです。

qiita.com

 

ヨーロッパ地図上に主成分分析のスコア値を表示するスクリプトは近日qiitaに投稿する予定です。

以上

 

 

 

 

 

食のヒットの種を見つけだそう! (3) - 2019年9月はタピオカティーに続く台湾発の食 、特に「チーズティー」

f:id:yamtakumol:20191016171323j:plain

チーズティー

グーグルニュースとグーグルトレンドのデータを組み合わせて、"食のヒットの種"を見つけるシステムを検討しています。

 まだ大きなヒット商品が生まれる、あるいは大きなトレンドに育っていない前に、個々のニュースに対してそれを見た消費者の関心が高まれば、検索行動が多く発生し、グーグルトレンドの上昇またはピークが形成されるのでそれをヒットの前兆としてキャッチします。コントロールはローソンの「バスチー」の大ヒットに至る前の、「バスクチーズケーキ」の「バスチー」発売の約1年前に遡った2018年の5月から8月のトレンドのピークです。

 グーグルニュースはグーグル検索と同様に検索ワードや検索フレーズに対して正確にそのワードでなくても内容的に類似しているニュースを検索してくれます。どうも何らかの判定方法でニュースの重要性、話題性や、地方メディアのニュースもバランスをとって100件のニュースにAI的に絞りこんでいます。グーグルニュースを使うことですでにデータサイエンスを実行していると言えます。

 「食の話題」、「食の専門店」などの複数のフレーズで検索したグーグルニュースデータをPythonのプログラムで取得して、そのなかから9月リリースされたニュースを抽出して、グーグルトレンドにかけるキーワードの組み合わせを決めます。グーグルトレンドのデータ収集もPythonのプログラムで実行します。コントロールとして「バスク チーズケーキ」も同時にデータ取得します。

 グーグルニュースが絞り込んだ9月のニュースを概観すると、タピオカティーあるいはタピオカドリンクに続く台湾発食品系のニュースが目につきました。そこで、まずタピオカティーとタピオカドリンクについてグーグルトレンドを確認しておきましょう。

 

f:id:yamtakumol:20191010082152p:plain

「タピオカティー」と「タピオカドリンク」のグーグルトレンド

  今年の5月末から6月初旬がグーグルトレンドのピークだったことがわかります。バスクチーズケーキより大きなトレンドです。また、「タピオカドリンク」よりは「タピオカティー」での検索が多いこともわかります。2018年初めからいくつかの小さなピークが間歇的に発生を繰り返しながら徐々に大きな上昇トレンドになっています。

そしてニュースメディアは「台湾発の食」に次のタピオカティーを探しているようです。

 台湾系の食のニュースとしてグーグルニュースにピックアップされて、グーグルトレンドでピークが検出されたのは、

富錦樹台菜香檳(フージンツリー)

 9月27日にオープンした日本橋「COREDO室町テラス」2Fフロア全部に台湾発のカルチャー体験型店舗「誠品生活」が「書籍」「文具」「セレクト物販・ワークショップ」「レストラン・食物販」の4つのゾーンで出店し、そのなかにレストラン「富錦樹台菜香檳(フージンツリー)」があります。台湾では、2014年に「洗練された台湾料理をシャンパン共にスタイリッシュに楽しめる店」として、台北のおしゃれエリア、富錦街(フージンジェ)にオープンをしたそうです。

f:id:yamtakumol:20191010084225p:plain

「フージンツリー」のグーグルトレンド

 グーグルトレンドの2019年9月にピークが認められます。

「食の話題」でピックアップされたニュースへのリンクです。

www.jiji.com

 その他、フージンツリーでグーグルニュースを検索すると多数のリリースが見つかります。まだ予約でいっぱいということですが、日本橋なので会社帰りに寄ってみたいですね。

 

・チーズティー

  台湾発のドリンクのようです。これは「タピオカティー」の検索でピックアップされました。

f:id:yamtakumol:20191010093101p:plain

「チーズ ティー」のグーグルトレンド

  グーグルトレンドではかなり大きな上昇トレンドが継続しています。

どこまで上昇トレンドが継続するか注目です!

グーグルニュースで検索すると、続々と専門店オープンのリリースが出てきます。

ananweb.jp

www.fashion-press.net

 

getnews.jp

www.fashion-press.net

 

 横浜machimachiで味わった同僚からは、「チーズは甘塩ょっぱく美味しい。しつこくない。ミルクティーも美味しく、マッチしている。混ぜても美味しい、ほど良い甘さ」、「チーズ部分はチーズケーキに似ている。混ぜたほうが美味です。」との感想が届いています。

 

以上

食のヒットの種を見つけだそう! (2)   - 2019年6月~8月は「完全食」と「天気の子レシピ」-

 グーグルニュースとグーグルトレンドのデータを組み合わせて、"食のヒットの種"を見つけるシステムを検討しています。

 前記事では、今年3月末に発売されたローソンの大ヒット「バスチー」のヒットの兆候を前年2018年5月~8月に「バスクチーズケーキ」に関するニュースと対応したグーグルトレンドの推移で見つけることができました。

 今回は、今年の2019年6月から8月の3カ月間のグーグルニュースとグーグルトレンドから見つけ出したヒットの種「完全食」「天気の子レシピ」を紹介します。

グーグルニュースの検索ページでは、検索されたニュースのリリース日が明示されていないことが多いこと、日時順になっていない(おそらく関連度順も混ざっている)ことなどから特定の期間のニュースを見るには不便です。

 そこで、Pythonのプログラムを使い、いくつかの検索ワードの組み合わせやフレーズでグーグルニュースを検索して、対象とする期間のニュースを抽出して確認します。当初は、対象とする期間で増加したワードを抽出することを試みましたが、抽出されたワード数が数百にもなり、そこからさらに絞り込むプログラム作成のためのアルゴリズムを作れなかったので、結局、対象期間で抽出された数十のニュースタイトルを読んで、グーグルトレンドを確認する検索ワードを決めました。人間力の素晴らしさですが、ここをプログラムで置き換えることが大きな課題ですね。

同じくPythonのプログラムで決定した検索ワードを入力し、グーグルトレンドの時系列データを取得して、ニュースに応じたグーグルトレンド(すなわち関心)の上昇やピークが確認されれば、"食のヒットの種"にリストします。

リストアップされた"食のヒットの種"は1年間程度大きなヒット商品が生まれるかどうかを毎月プログラムでオートにグーグルトレンドの動きを追いかけます。

今回、そのままの検索ワード”食の話題"でグーグルニュースから見つけたのが「完全食」と「天気の子レシピ」でした。

もうすでに「知っているよ!」と言う方も多いでしょうが、プログラミングで自動的に誰でも、というところが検討の主旨ですので、ご理解ください。

「完全食」のニュースとグーグルトレンド

今回は6~8月のニュースを捕まえましたが、グーグルトレンドでは3月にも大きなピークがありました。

f:id:yamtakumol:20190907161809p:plain

「完全食」のグーグルトレンド(比較に「バスクチーズケーキ」)

 今回検出したニュースのリンクを記載します。なんと言っても日清食品の「ALL-in-PASTA」や「ALL-in Noodles」が通販で限定的とは言ってもインパクトがありました(そういう意味ではもはや"種”ではないかもしれませんが)。 続く、大ヒット商品がさらに出現するのか注目です。 

www.excite.co.jp

www.excite.co.jp

news.yahoo.co.jp

news.livedoor.com

 

「天気の子レシピ」のニュースとグーグルトレンド

 新海誠監督による大ヒット公開中のアニメ映画「天気の子」の劇中のレシピが話題となっていました。今回用いた探索ワード"食の話題"で捉えたニュースは一件でしたが、改めて、"天気の子のレシピ"でグーグルニュースを検索すると複数記事が出てきます。

f:id:yamtakumol:20190907171439p:plain

「天気の子レシピ」のグーグルトレンド(比較に「バスクチーズケーキ」)

prtimes.jp

 この記事でクラシルがレシピ動画として提供したのは 「のり塩すごもりチャーハン」と「ザクザク食感のラーメンサラダ」です。

映画をまだ見ていないので、映画見てから作ってみます。

このようなコンセプトからヒット食品が今後出現するか楽しみです。

 

グーグルトレンドから「天気の子 レシピ」の時系列データを取得するプログラム

qiita.com

以上

データサイエンスで食のヒットの種を見つけだそう! (1) - ローソンのバスチー ヒットの秘密 -

 このブログでは、身近にある様々な情報や現象にデータサイエンスをトライしていきます。

  ここ数年、主に「食」のデータサイエンスに取り組んでいます。

f:id:yamtakumol:20190824133457p:plain

バスチー

食のヒットの種を見つけよう!

 これからどんな商品がヒットするのか、次にくるトレンドは何か、食品企業の開発担当者にとっては悩ましい限りです。 1年後にヒットする可能性が分かっていれば、それに応じた素材とレシピの提案を顧客にできます。そんな、予測ツールの開発を検討しています。

  きっかけは、春先に会社の同僚が「すごく話題ですよ」と持ってきたローソンの「バスチー」。

最近も、発売後4か月で1,900万個売れたとの記事がありました。

https://www.ssnp.co.jp/news/distribution/2019/08/2019-0806-1646-14.html

 

この「バスチー」ヒットの兆候を調査してみました。

使うのは何かと頼りになるグーグルニュースとグーグルトレンド。

この二つのツールを使って、「バスチー」の兆候の探索を発売前1年遡りました。

調査に使用したキーワードは、「バスチー」と「バスク チーズケーキ」。

多分検索にAIを活用しているグーグルニュースは関係するメディアニュースを拾い出してくれます。グーグルトレンドは、両キーワードへの関心の推移をグラフ化して見せてくれます。

下図にグーグルトレンドのグラフとグーグルニュースで抽出されたニュースを示します。

f:id:yamtakumol:20190831081333j:plain

グーグルトレンド

「バスチー」ブレイク前に、「バスク チーズケーキ」にいくつかピークが認められます。特に昨年2018年5月から8月のピークについて、符合する期間のグーグルニュースを調査しました。調査にはpythonのプログラムでグーグルニュースを取得し、得られたデータをRのプログラムを用いて当該期間のニュースを集計しました。

プログラミングは以下のリンク先に掲載しています。

qiita.com

 

 クックパッドニュースで何度も取り上げられています。また、同時期の7月初旬にバスクチーズケーキ専門店「ガスタ」が白金に出店のニュースもありました。

以下にグーグルニュースよりスクレイピングできた記事を紹介します。

バスクチーズケーキに関するクックパッドニュースより

2018/05/21

news.cookpad.com

2018/07/01

news.cookpad.com

 

2018/07/07

news.cookpad.com

バスクチーズケーキ専門店ガスタ(GAZTA)についてのニュース

2018/07/05

www.fashion-press.net

開店から1カ月も経たずにすでに人気店!「GAZTA」のチーズケーキを食べてみた / 東京・白金 | ロケットニュース24

白金「ガスタ」のバスクチーズケーキは、トロトロの食感に濃厚な味わいが唯一無二です。 | Tokyo Guide | Pen Online

 

  

グーグルニュースから抽出された記事にグーグルトレンドのピークが符合しており、「バスチー」発売の約10か月前ごろから「バスクチーズケーキ」話題化の兆候があったことが分かりました。

 これを逆にすれば、つまり直近3か月程度でそれ以前よりも出現頻度が上昇しているニュースのワードをグーグルニュースで拾い上げて、それらのニュースに応じたグーグルトレンドのピークが、今回の「バスクチーズケーキ」の昨年5月~8月に出現したピーク程度あれば、将来のヒットにつながる種として有望なのではないだろうかと考えています。

 

 次回からは、上記の考え方に基づいて定期的に、できるだけプログラムでオートに「食のヒットの種」を拾い上げた結果を紹介していきます。

以上

 

参考

 

qiita.com

 

qiita.com