Redditで遊ぼう #TokyoR 106

Slide 1

Slide 1 text

Redditで遊ぼう Tokyo.R #106 2023/06/10 @bob3bob3

Slide 2

Slide 2 text

Redditとは Wikipediaによると…… ● Reddit（レディット）はアメリカ合衆国の掲示板型ソーシャルニュースサイト。 ● 主に英語圏のユーザーを対象とする。 ● ニュース記事、画像のリンクやテキストを投稿し、コメントをつけることが可能。 ● 2021年1月時点の月間利用者数は 4億3000 万人。欧米ではTwitterユーザー数並び利用時間を超える。

Slide 3

Slide 3 text

ブッコ抜く！ RedditExtractoRパッケージを使うとRedditの公式APIからいろいろなデータが取得できます。自然言語処理やネットワーク分析の勉強など、いろいろ遊べるリアルなデータが手に入る。 Twitterのデータが取れなくなってガッカリしている方々もぜひ。主な関数は以下。 ● find_subreddits(): キーワードでsubreddit（板）を検索する。 ● find_thread_urls(): 特定のsubredditからthread（スレ）のURLを抽出する。 ● get_thread_content(): threadの詳細情報を抽出する。 ● get_user_content(): ユーザーの詳細情報を抽出する。

Slide 4

Slide 4 text

Rのスレを抽出する　find_thread_urls() library(conflicted) library(tidyverse) library(RedditExtractoR) thread_URLs <- find_thread_urls( sort_by = "top", subreddit = "rstats", period = "month" ) |> drop_na() |> as_tibble() RのsubredditのURLは https://www.reddit.com/r/rstats/ 。 ● find_thread_urls()を使って指定した板 (subreddit)から各スレのURLを抽出します。 ● URLの赤文字の部分でsubredditを指定する。 ● ソート方法はhot、new、top、rising。 ● periodは期間の指定でhour、day、week、 month、year、all。 ● キーワードの設定もできます。 ● なぜか空行が1行入るので最後にdrop_na() する。 ● 最後は個人的な好みで tibbleにしてます。 ● 取得の上限は1,000件です。

Slide 5

Slide 5 text

Rのスレを抽出する　find_thread_urls()

Slide 6

Slide 6 text

各スレの詳細情報を取得する get_thread_contets() 先ほど取得したスレッドのリストの URLの情報を使って、各スレの詳細情報を取得する。 1件あたり2秒ぐらいかかるので 100件ぐらいだと3 分ちょっとかかる。取得した情報にはスレそのものの詳細情報と、スレについたコメントの情報が含まれるのでそれぞれを取り出しておく。 thread_contents <- thread_URLs |> pull(url) |> get_thread_content() # 各スレの詳細情報 threads_info <- thread_contents |> pluck("threads") # 各スレについたコメントの情報 comments_info <- thread_contents |> pluck("comments")

Slide 7

Slide 7 text

スレッドの詳細情報

Slide 8

Slide 8 text

スレのコメント

Slide 9

Slide 9 text

スコアの高いスレ #scoreの高いスレ threads_top10 <- threads_info |> slice_max(score, n=10) |> select(author, title, score, url) "マイクロソフトはCRAN Time Machineの保守を終了しました"

Slide 10

Slide 10 text

スコアの高いコメント #scoreの高いコメント comments_top10 <- comments_info |> slice_max(score, n=10) |> select(author, score, comment, url) "人々がつまづくのを見るので、これについての重要な注意：!！はtidyverseの関数呼び出しで*だけ*動作します。それは*全体的なR言語の機能ではありません *。"

Slide 11

Slide 11 text

ネットワークにしてみる「誰が立てたスレッドに誰がコメントしたか？」という視点でネットワークにしてみる。 ● URLをキーにスレの情報とコメントの情報を join。 ● 削除されたアカウントは取り除く ● スレを立てた場合とコメントした場合でノードを分けたいので、スレを立てた場合はアカウント名の後に「_poster」を付ける。 edges_raw <- threads_info |> select(url, author) |> left_join( comments_info |> select(url, author), by = "url", suffix = c(".thread", ".comment"), ) |> select(!url) |> drop_na() |> dplyr::filter( author.thread != "[deleted]" | author.comment != "[deleted]" ) |> mutate( author.thread = paste0( author.thread, "_poster" ))

Slide 12

Slide 12 text

Slide 13

Slide 13 text

エッジのリストを作るスレ主とコメント主でグループ化し件数をカウント。後でCytoscapeに読み込ませたいので、列名をスレ主はtarget、コメント主はsourceに変更。 # あとでCytoscapeに読ませる関係で # 列名をsourceとtargetに変更 edges <- edges_raw |> summarise( freq = n(), .by = c(author.thread, author.comment) ) |> rename( source = author.comment, target = author.thread )

Slide 14

Slide 14 text

Cytoscapeで描画ネットワーク図の描画は Cytoscapeが圧倒的に優れている。 ● Rcy3パッケージでRからCytoscapeを操作できる。Rcy3はCRANではなくBioconductorからインストールする。 ● 事前にCytoscapeをインストールし、 Cytoscape内でCyRESTをインストールしておく。 ● また、createNetworkFromDataFrames()を実行する前にCytoscapeを立ち上げておく。 # install.packages("BiocManager") # BiocManager::install("RCy3") library(RCy3) createNetworkFromDataFrames( nodes, edges, title="rstats network", collection="Reddit Network" )

Slide 15

Slide 15 text

Cytoscapeで描画見栄えはCytoscapeでいじってます。赤がスレ主。

Slide 16

Slide 16 text

Enjoy!