Upgrade to Pro — share decks privately, control downloads, hide ads and more …

日本の声の意識改革

Avatar for 府内翼 府内翼
September 01, 2021
280

 日本の声の意識改革

Avatar for 府内翼

府内翼

September 01, 2021
Tweet

Transcript

  1. ・ Agenda 課題選定理由 声はどう作られるか 声帯と声道 基⾳・倍⾳(整数次倍⾳、⾮整数次倍⾳) データの収集⽅法、使⽤したデータについて 仮設その① 〜⾝⻑が⾼いor年齢が上がると声の基本周波数は下がる︖〜 分析アプローチ、モデル構築

    仮設その② 〜職業によって声の基本周波数は異なる︖〜 分析結果からの考察、ビジネスへの適⽤ 今後さらに実施してみたいこと ⼯夫したこと、難しかったこと
  2. <⾳の構成> 基⾳ (基本周波数) 倍⾳ -整数次倍⾳ 楽⾳(がくおん)︓⾳程感を感じやすい成分 -⾮整数次倍⾳ → 噪⾳(そうおん)︓⾳程感を感じにくい成分 声に含まれる様々な情報

    ※専⾨家へのヒアリング (1)⾝体的特徴 ⾝⻑(cm)、⾻格、性別、年齢、健康状態(フィジカル)、病気 (2)精神的特徴 健康状態(メンタル)、性格 (3)環境的特徴 国籍、住環境、⽂化、教育、職業 声に関する⾳の構成と声に含まれる情報 レベル 周波数 倍⾳ 基⾳ (基本周波数) ⽬的変数 特徴量
  3. 使⽤したデータと収集⽅法について <使⽤したデータ> YouTubeのインタビュー動画 (148⼈の⾳声データ) <収集⽅法> YouTubeのURLから動画取得し、⾳声ファイル化 参考︓YouTube動画取得 GitHub(https://github.com/ytdl-org/youtube-dl) サッカー⽇本代表 吉⽥⿇也

    (基本周波数 132Hz) 新垣結⾐ (基本周波数 183Hz) <⾳声化の前処理> BGMや他者が喋っている箇所など不要な箇所をカットし、⾳声化 ※動画編集ソフト「Premiere Pro」にて動画編集
  4. 仮説その① ⾝⻑が⾼いor年齢が上がると基本周波数は下がる︖ 分析アプローチ スケルトン “説明しやすさ”という観点を重視し、 「重回帰分析」で「基本周波数」を⽬的変数、 「声に含まれる様々な情報」を被説明変数として 基本周波数を構成する要因分析を⾏う。 ⾝⻑は公開されていない場合が多いため Wikipediaに載っている有名⼈に絞って分析を⾏う。

    年齢 男性/⼥性 ⾝⻑ 切⽚ “声に含まれる情報”を参考として 基本周波数を構成する要因が特に多いと思われる 性別、⾝⻑、年齢。それらを様々な職業の⼈の声でリサーチ。 「⾝⻑が⾼いと基本周波数が下がる」 「年齢が上がると基本周波数が下がる」 という仮設を検証する。 (職業) 基本周波数 被説明変数 説明変数
  5. <データ処理の流れ> ①⾳声データ(.wav) と ユーザ情報を⼊⼒データとする ②⾳声データを⾼速フーリエ変換(FFT)して周波数特性を抽出。 (numpyのfftライブラリを使⽤。) ③データ結合 FFT No. 基本周波数

    年齢(歳) 性別 ⾝⻑(cm) 職業 1 150 32 男性 170 スポーツ選⼿ 2 280 35 ⼥性 160 俳優 3 220 28 ⼥性 160 YouTuber … … … … … … ⾳声データ ユーザ情報 声に含まれる様々な情報 ⾚字:今回データとして取得可能な情報 (1)⾝体的特徴 ⾝⻑(cm)、⾻格、性別、年齢、健康状態(フィジカル)、病気 (2)精神的特徴 健康状態(メンタル)、性格 (3)環境的特徴 国籍 、住環境、⽂化、教育、職業 「性別」「職業」を ダミー変数化
  6. <基本周波数の取得> FFT FFT ・ ・ ・ ・ ・ ・ ⾳声化

    ⾳声化 YouTube動画データ ⾳声データ 基本周波数   ・ ・ ・
  7. 年齢 男性/⼥性 ⾝⻑ スポーツ選⼿ 俳優、⼥優 歌⼿ 起業家 YouTuber 芸⼈、タレント アナウンサー

    切⽚ 基本周波数 485.3964 -0.6434 -57.7743 * -1.4066 -35.9449 -6.5814 -48.8253 2.1728 15.7918 24.6299 -48.4231 決定係数:0.5676 ⾃由度調整済決定係数:0.4078 AIC︓676.012 重回帰分析
  8. 年齢 男性/⼥性 ⾝⻑ スポーツ選⼿ 俳優、⼥優 歌⼿ 起業家 YouTuber 芸⼈、タレント アナウンサー

    切⽚ 基本周波数 485.3964 -52.7893 ** -1.6547 . -30.6018 * -58.0097 24.2149 -50.5150 . 決定係数:0.5377 ⾃由度調整済決定係数:0.4705 AIC︓662.292 「スポーツ選⼿」のデータでモデル構築し、 性別、年齢、⾝⻑から基本周波数を求める予測モデルを作成。 重回帰分析 ステップ関数を⽤いた 被説明変数の⾃動選択を実施。
  9. モデル構築 PyCaret(AutoML)を⽤いて最適な学習⼿法を選択 →RMSE Lasso回帰︓ Lasso Regression(lasso)を採⽤。 <モデルチューニング後の予測評価> <モデルでの学習結果> ※インタビュー動画 <モデル選定>

    <⽬的変数と特徴量> ⽬的変数︓基本周波数 特徴量︓年齢、男性/⼥性、⾝⻑ 実際の⾳声データ結果 ※普段喋っている声 年齢 男性/⼥性 ⾝⻑ 基本周波数 0 32 1 174 87 1 35 0 165 176 <データ> trainデータ︓32 Lasso回帰 Ridge回帰
  10. 仮説その② 職業によって声の基本周波数は異なる︖ 「職業分類表 厚⽣労働省 平成24年3⽉改定」を元に YouTube動画で各職業の基本周波数を⽬的変数として重回帰分析を⾏い、声と職業との関係性を分析。 被説明変数︓職業23種類 (+男性/⼥性) 管理系 国会議員(政治家)、会社役員

    専⾨的・技術的 研究者、医師、看護師、弁護⼠、記者、芸術家、俳優、スポーツ選⼿ 事務的 コールセンタオペレータ 販売 ⼩売販売員(アパレル) サービス 美容師、介護⼠ 保安 警察官 農林漁業 農家、漁師 ⽣産⼯程 ⽣産現場 輸送・機械運転 ⾞掌、バスガイド 建築・採掘 ⼤⼯ 運搬・清掃・包装 配達員、清掃員 職業分類表 厚⽣労働省 平成24年3⽉改定 (https://jsite.mhlw.go.jp/kanagawa-roudoukyoku/var/rev0/0112/9664/06bunruihyou.pdf)
  11. 男性/⼥性 政治家 コールセンタオペレータ ⾞掌 バスガイド YouTuber 芸⼈・タレント 俳優・⼥優 アナウンサー 切⽚

    基本周波数 198.594 *** -70.328 *** 34.768 * 55.041 ** -61.762 ** 61.940 ** 16.588 . 39.275 * 56.052 ** 45.415 ** 決定係数: 0.5884 ⾃由度調整済決定係数: 0.5559 AIC:1260.737 <声が⾼くなる要因の仮説> コールセンタ、バスガイド→マニュアル声で話す 政治家,YouTuber,芸⼈タレント,俳優⼥優(演者,⼈前で話す) →緊張から声が⾼くなる、テンションをかける 職業の男⼥⽐→周りの環境に合わせようとする 重回帰分析 ステップ関数を⽤いた被説明変数の⾃動選択を実施。 コールセンタオペレータ バスガイド ⾞掌
  12. 分析結果の考察、ビジネスへの適⽤ 考察 今回の結果から⽇本⼈の声の⾼さ(基本周波数)に関して、 「⾝⻑の⾼低」「性別」「年齢」「職業」で⼀定度を説明できる事が分かる。 ⾝⻑ ⇨ ⾝⻑が⾼いほど声は低くなる。 年齢 ⇨ 歳を取ると声は低くなる。

    職業 ⇨ 「政治家」「コールセンターオペレータ」「バスガイド」「YouTuber」「芸⼈・タレント」「アナウンサー」は⾼くなる。 「⾞掌」は低くなる。 (仮説①)マニュアル声で話すと⾼くなる。(コールセンタオペレータ、バスガイド) (仮説②)緊張で声が⾼くなる、テンションをかける。(政治家、YouTuber、芸⼈・タレント) (仮説③)周りの環境に合わせようとする。(⾼低の傾向から職業の男⼥⽐も影響あり︖) ビジネスへの適⽤ <話し⽅教室、ボイストレーニング> ・上記に該当する職業の⽅は特に声が普段⾼くなりがちだという前提を理解してもらい、 かつ同じ年齢、⾝⻑の⽅がどのくらいの声の⾼さなのかを客観的に知る事で声を作っている⾃覚意識を改善する。 (YouTube発信している⼀般の⽅へのアプローチも可能。)