身近な日常をやんわりデータサイエンスしてみよう

身近な情報や現象からデータを取り出して解析してみます。

2021-01-01から1年間の記事一覧

中島みゆきと松任谷由実の歌詞を言葉の出現頻度と高頻出ワードの類似ワードで比較してみる

自然言語処理、テキストマイニングに関するプログラムのライブラリが多く公開されてきて、PythonやRなどによるプログラミングのスキルさえ習得すれば、大量の文章から言葉と言葉の関係、文章と文章の関係などを誰でも容易く分析することができるようになって…

カイトが舞うのは嵐の真っただ中?、それとも米津玄師ワールドとの際か? テキストマイニングでビジュアル化

2014年に公開されたdoc2vecや、最近では2018年に公開されたBERTなどの自然言語解析のプログラムライブラリの登場で、大量の文章や歌詞の解析が誰でもできるようになりました。 以前、嵐の歌詞と米津さんの歌詞の違いを各単語の出現頻度によるビジュアル化を…

嵐に愛と感謝を込めて

嵐の応援うちわ 妻が大ファンの嵐は2021年から活動を休止します。 そこで、下図のように「嵐」の文字からマスクシェイプを作成し、ワードクラウドというプログラムを用いて、そこに世界中の言語で"愛"または"感謝"のワードを詰め込んでみました。実際は嵐の…