Slide 1

Slide 1 text

事業者視点で語る! Voicyが取り組む音声xデータサイエンスの話 2019-6-11 白金鉱業 Meetup Vol.8

Slide 2

Slide 2 text

小山内 将宏 (Qiita/Twitter/Medium全部 @koyamuchi) 今やっていること: Voicyの基盤開発/分析/プロダクト開発などデータが絡む部分はなんでもやります。 機械学習もやりますが、がっつりデータエンジニア &アナリスト ロールな人です! 得意なこと: GCP / AWS / Python / R / Scikit-learn /アクセス解析ツール全般 / BIツール全般 角を立てずに意見を述べる / どこに行ってもいじられる 分析官的キャリアサマリ : カカクコム(WEB)でBI基盤整備/広告予算最適化など -> BASE(WEB)でマーケティング/アプリのグロース/ファクトを追う文化の醸成 -> Voicy(音声)はデータ以外の業務も含めてなんでも屋 自己紹介 社員で行った福岡旅行の写真 ↓

Slide 3

Slide 3 text

こんな記事書いてます

Slide 4

Slide 4 text

1. ビジネス視点のデータサイエンスwith音声の可能性が分かる! 2. 音声分析でVoicyが得た知見を一部お持ち帰り! fdsa 3. アナリストの幸福度を向上するための便利Tipsを知れる! 発表で得られる3つのこと

Slide 5

Slide 5 text

Voicyの紹介 1

Slide 6

Slide 6 text

Voicyのミッション 音声×テクノロジーでワクワクする社会を作る

Slide 7

Slide 7 text

ボイスメディアVoicy パーソナリティが自らの声を通して声のブログや ニュースを放送しているボイスメディアです。 スマートフォンやウェブサイト、スマートスピーカーを 通していつでもどこでもリスナーの耳に届きます。

Slide 8

Slide 8 text

資金調達 約8.2億円の資金調達および事業提携

Slide 9

Slide 9 text

No content

Slide 10

Slide 10 text

Voicyのデータチーム 2

Slide 11

Slide 11 text

データで見るVoicy 約 2500,000 UU 1日 2,000 時間 TOPパーソナリティの再生時間 累計サービスUU数

Slide 12

Slide 12 text

Voicyのデータ基盤 (ざっくりver)

Slide 13

Slide 13 text

大切にしていること スタートアップのデータサイエンスに求められるのは、 どれだけ事業価値(速さ❌量)を生み出せるか?の1点 音声では数多くの研究分野が存在していますが、今は、事業インパクトを産める 領域に絞り込んで、実装/検証を進めています。

Slide 14

Slide 14 text

閑話休題① SuperQueryを使うと、BigQueryの生産性が爆増して業務が捗る 1: 複数タブでクエリを非同期実行できる 2: Githubにクエリの履歴を無意識に ストックできる BigQueryの生産性⤴ 効果 (SQL IDE)

Slide 15

Slide 15 text

Voicyとデータサイエンス 2

Slide 16

Slide 16 text

Voicyが蓄積している生データ と分析官的切り口を紹介します!

Slide 17

Slide 17 text

1: 詳細な再生ログ - いつ?どこで?誰が?何を?聴いているのか?の再生ログを蓄積している。 - チャネルとしては、スマホ / スマートスピーカー / WEBブラウザ - ‘聴かれやすいコンテンツにはどのようなものがあるか ?’ / ‘声のピッチやトーンと、完聴率に関連性が 見られるか?’ など、面白いコンテンツを生み出すための分析をもっとやっていきたい。 - 日本語の精度はまだ課題があるものの、 STTによってテキスト化も可能なので、実質的には数万放 送分のテキストデータを保有しているとも言える。トピック抽出やタグ付けなど、テキスト解析も推し進 めていきたい。 離脱ポイントの把握 STTで文書に変換 分析切り口 : 音声 with ログ解析 / 音声 with 自然言語処理

Slide 18

Slide 18 text

閑話休題② Ipadの手書きアプリが分析結果の他部署 / 経営陣への共有に超絶役立つ To PDF 1: 情報によっては手書きの方が 伝達しやすい 2: メモ書きで細かい要素を削ぎ落とし過ぎず に内容を伝えられる ※アプリは一通り試したが NoteShelfがおすすめ 意思決定への貢献度⤴ 効果

Slide 19

Slide 19 text

   2: アプリの行動ログ - 再生 / 録音の2種類のアプリケーションがありますが、両者で画面上でのアクションログを取得してい ます。 - サマライズに加えて、時系列でログを追うことで、 ”配信者がつまづいているポイントはどこか ?” / “音 声コンテンツを聴いて好きになるか ?”など、もっと簡単に音声を聴いて /録れるように仮説検証を行 なっています。 音声を聴いてハマるタイミングはいつ ? 録音でつまづいているタイミングはどこ ? 分析切り口 : 音声 with グロースハック

Slide 20

Slide 20 text

3: リスナーのメタ情報 - toCプロダクトであれば、属性や性別、 Twitter上のフォロー情報など。 toBプロダクトであれば、それら に加えて、部署 / 役職情報/組織エンゲージメント値などを収集しています。 - 聴き手の事を詳細に知ることで、最適なレコメンデーションや精度の高いコンテンツ改善を行うことが できます。 部署Aの人は聴いて、Bの人はあまり聴いていない ? 社内報の熱心なファンは、組織エンゲージメントも高い ? 分析切り口 : 音声 with ピープルアナリティクス

Slide 21

Slide 21 text

Metabaseをいろんな人にも おすすめしたくて、記事にも書きました! 1: ヌルサクでストレスが殆ど無い 2: APIやSlackなど多様な提供方式に対応 閑話休題③ Metabaseをフル活用すると、データ・ドリブンな文化作りに役立つ ダッシュボードUI APIテキストで一覧 SlackBot Output 組織のデータ活用度⤴ 効果

Slide 22

Slide 22 text

・当たるコンテンツをデータのインサイ トを元に生み出していく 今 挑戦している3つのこと ・コンテキストに重きを置いたリアルタ イムレコメンデーション 音声を聴くことで ヒト・組織は元気になる ? 素敵な音声レコメンデーション は実現できるか ? 高品質なコンテンツの 流通量を増やす 音声 x テクノロジーでワクワクする社会を作る 音声の特性を生かして 人/組織を活性化する まだ見ぬ音声との接点を 創出し視線を上げる データを使って、再現性の高い ヒットコンテンツは生み出せる ? ・聴取状況と組織エンゲージメントの 相関性理解 Vision 分析テーマ 分析テーマ 分析テーマ

Slide 23

Slide 23 text

1: 詳細な再生ログ ・コンテキストに重きを置いたリアル イムレコメンデーション

Slide 24

Slide 24 text

1: 詳細な再生ログ インフルエンサーカテゴリ 英会話カテゴリ 中国語カテゴリも ニーズある?? ・当たるコンテンツをデータのインサ トを元に生み出していく まだ見ぬクラスタ/ヒットコンテンツの発掘

Slide 25

Slide 25 text

最後に!!

Slide 26

Slide 26 text

チームと言ってましたが、現在は1人でやっています! もっと加速していきたいので、社外・アカデミック問わず一緒に音声 xデータの価値創造に挑戦したい方募集中! ここが1番大事! ランチだけでも熱烈大歓迎! 気軽に連絡ください!(Wantedly/Twitter)