「国と音楽」～spotifyrを用いて～ #muana

Slide 1

Slide 1 text

音楽と国  ～spotifyrを用いて～  Music×Analytics Meetup Vol.11   (2023/10/28)  @bob3bob3 

Slide 2

Slide 2 text

Spotify 

Slide 3

Slide 3 text

Spotifyとは？  Spotify（スポティファイ）は、スウェーデンの企業スポティファイ・テクノロジーによって運営されている音楽ストリーミングサービス。  （Wikipediaより引用） 

Slide 4

Slide 4 text

spotifyr  ● R言語のspotifyrパッケージを使って、SpotifyのWeb APIから楽曲やアルバム、アーティストなどの情報を一括で取得。  ● spotifyrで取得できる情報の一例  ○ アルバム単位  ■ ジャケット画像、曲数、アルバム名、リリース日、人気度など  ○ アーティスト単位  ■ ジャンル、関連するアーティスト、人気度など  ○ 楽曲単位  ■ アコースティック度、ダンス度、インスト度、音圧、テンポ、キー、人気度など  ○ 詳しくはspotifyのwebAPIのページを参照のこと。 

Slide 5

Slide 5 text

プレイリスト ● Spotifyにはプレイリストという機能があります。好きな曲をまとめて公開する機能です。 ● Spotify公式のプレイリストもあって、例えば各国のTop50がプレイリストとして公開されていたりします。 ● これもspotifyrで扱えて、プレイリストごとに含まれる楽曲のデータなどを抽出できます。

Slide 6

Slide 6 text

やってみよう！ ● 「各国のTop50のプレイリストから、含まれる楽曲を抽出し、各楽曲の特徴を用いて各国をクラスタリングする。」というのをやってみます。 ● 事前準備としてSpotifyのアカウントと開発者アカウントの登録が必要です。 ● 2023年07月14日時点のデータです。

Slide 7

Slide 7 text

# パッケージ読み込み library(conflicted) #関数の衝突防止 library(tidyverse) #モダンなデータ処理 library(spotifyr) #Spotifyの Web API 操作 # 開発者アカウント認証 Sys.setenv(SPOTIFY_CLIENT_ID = 'xxxxxxxxxx') Sys.setenv(SPOTIFY_CLIENT_SECRET = 'xxxxxxxxxx') access_token <- get_spotify_access_token() 準備

Slide 8

Slide 8 text

# プレイリスト検索 res_search <- search_spotify( q = 'top50', type = 'playlist', limit = 50 ) |> dplyr::filter(owner.id == "spotify") |> #公式プレイリストに絞る select(name, id) |> #列を絞る mutate(name = name |> str_remove("Top 50 - ")) |> #プレイリスト名の整形 dplyr::filter( #ノイズになる行を削除 !(name %in% c("Global", "Greatest Hip-Hop Beats of All Time")) ) |> rowid_to_column() #ID番号を振る Top50のプレイリストを検索

Slide 9

Slide 9 text

検索結果国名とプレイリストの id。

Slide 10

Slide 10 text

playlists_tracks <- res_search |> pull(id) |> map( #各プレイリストに含まれる楽曲を抽出 \(id) get_playlist_tracks(id) |> select(track.id, track.name), .progress = TRUE ) |> list_rbind(names_to = "rowid") Top50のプレイリストから各楽曲のIDを検索

Slide 11

Slide 11 text

プレイリストに含まれる楽曲のリスト

Slide 12

Slide 12 text

各楽曲の分析情報を取得 res_track <- playlists_tracks |> pull(track.id) |> unique() |> map( \(track.id) get_track_audio_features(track.id), .progress = TRUE ) |> list_rbind() |> right_join( playlists_tracks |> left_join(res_search, by = join_by(rowid)), by = join_by(id == track.id) ) |> mutate( duration_s = duration_ms / 1000, # ミリ秒を秒に country = as.factor(name) ) |> select( country, duration_s, energy, acousticness, liveness, speechiness, valence, danceability, tempo, id, track.name)

Slide 13

Slide 13 text

各楽曲の分析情報を取得

Slide 14

Slide 14 text

各楽曲の分析情報を取得 ● duration_ms: 曲の長さ（ミリ秒） ● energy: 0~1。騒がしい曲か静かな曲か。 ● acousticness: アコースティック度合。電気的に増幅されている程度。 ● liveness: 0~1。ライブ音源かスタジオ音源か。 ● speechiness: 0~1。歌ではない話し言葉の量。 ● valence: 0~1。ポジティブさ。 ● danceability: 0~1。踊りやすさ。 ● tempo: テンポ（BPM）。

Slide 15

Slide 15 text

各楽曲の分析情報

Slide 16

Slide 16 text

分析情報に関する発表事例

Slide 17

Slide 17 text

EDA library(summarytools) res_track |> select(!c(country, id, track.name)) |> dfSummary() |> summarytools::view()

Slide 18

Slide 18 text

EDA library(GGally) res_track |> select(!c(country, id, track.name)) |> ggpairs(aes(alpha = 0.1))

Slide 19

Slide 19 text

国ごとの違い res_track2 |> ggplot( aes( x = reorder( country, duration_s, FUN = median), y = duration_s)) + geom_boxplot() + coord_flip() + labs(x = "国", y = "演奏時間（秒）") + theme(text = element_text(size = 12))

Slide 20

Slide 20 text

クラスタリングしよう！ # 国ごとに中央値を算出し、さらに標準化する median_by_country <- res_track |> select(!c(id, track.name)) |> group_by(country, .drop = FALSE) |> summarise(across(everything(), median)) |> column_to_rownames(var = "country") |> scale() # 階層型クラスタリング library(factoextra) library(dendextend) cluster_tree <- median_by_country |> dist() |> hclust(method = "ward.D2") cluster_tree |> fviz_dend( k=6, cex=0.5, horiz = TRUE, label_cols = "black", k_colors = c( "#ff4b00", "#990099", "#03af7a", "#005aff", "#804000", "#ff8082"), rect = TRUE, rect_fill = TRUE, rect_border = 8 )

Slide 21

Slide 21 text

地図！ clusters <- tibble( country = median_by_country |> rownames(), cluster = cluster_tree |> cutree(k=6) ) library(ggrepel) library(sf) library(rnaturalearth) world_map <- ne_countries( scale = "small", returnclass = "sf" ) |> left_join( clusters |> mutate( country = country |> str_replace("USA", "United States") |> str_replace("South Korea", "Republic of Korea") ), by=join_by(name_long == country) ) world_map |> ggplot() + geom_sf(aes(fill = as.factor(cluster))) + theme_light() + labs(fill = "cluster") + scale_colour_brewer(palette = "Dark2")

Slide 22

Slide 22 text

No content

Slide 23

Slide 23 text

Enjoy! 次回「2010年代 King Crimson のセットリスト分析」でお会いしましょう！