日本の声の意識改革

⽇本⼈の声の意識改⾰ 2021年2⽉期⼟曜⽇午前クラス府内翼

・ Agenda 課題選定理由声はどう作られるか声帯と声道基⾳・倍⾳（整数次倍⾳、⾮整数次倍⾳）データの収集⽅法、使⽤したデータについて仮設その① 〜⾝⻑が⾼いor年齢が上がると声の基本周波数は下がる︖〜分析アプローチ、モデル構築
仮設その② 〜職業によって声の基本周波数は異なる︖〜分析結果からの考察、ビジネスへの適⽤今後さらに実施してみたいこと⼯夫したこと、難しかったこと

課題選定理由（声の専⾨家より）⽇本⼈は、各個⼈に合った⾳程で声を出すことができていない。声が⾼すぎる事によって、無意識にストレスを抱えている⼈が多い。⾃⾝の声を録⾳した⾳声を⼊⼒することで、その⼈にあった適正な⾳程との乖離を理解し、声を作っている⾃覚認識を改善したい。本来の⾃分の声って思ったより低いな。普段の声は適正な⾳程だけど、⼈前だと⾳程が上がってるな。
声に関する気づきそれって本当？⾃分の声って理想より⾼いの？低いの？声に関する疑問

声はどう作られるか

声はどう作られるか呼気圧によって声帯が振動する。（振動によって、⼩さい⾳が出る） →⼩さい⾳を共鳴腔（≒声道）で共鳴させる事によって、声を作る。＜声帯に関して＞＊声帯の⻑さは1.5cm〜2.3cmの範囲（常に変化するので測れない）＊声帯の⻑さの⾝⻑による違いは数mm ＜声道に関して＞
＊声道は、喉頭(こうとう)、咽頭、⼝腔、⿐腔で構成される＊声道の⻑さは共鳴に直接関わり、声の⾳程への影響⼤＊声道が⻑い（≒⾝⻑が⾼い）→平均周波数が低い ©

＜⾳の構成＞基⾳ (基本周波数) 倍⾳ -整数次倍⾳楽⾳（がくおん）︓⾳程感を感じやすい成分 -⾮整数次倍⾳ → 噪⾳（そうおん）︓⾳程感を感じにくい成分声に含まれる様々な情報
※専⾨家へのヒアリング（１）⾝体的特徴⾝⻑(cm)、⾻格、性別、年齢、健康状態(フィジカル)、病気（２）精神的特徴健康状態(メンタル)、性格（３）環境的特徴国籍、住環境、⽂化、教育、職業声に関する⾳の構成と声に含まれる情報レベル周波数倍⾳基⾳ (基本周波数) ⽬的変数特徴量

使⽤したデータと収集⽅法について＜使⽤したデータ＞ YouTubeのインタビュー動画 (148⼈の⾳声データ) ＜収集⽅法＞ YouTubeのURLから動画取得し、⾳声ファイル化参考︓YouTube動画取得 GitHub（https://github.com/ytdl-org/youtube-dl）サッカー⽇本代表吉⽥⿇也
(基本周波数 132Hz) 新垣結⾐ (基本周波数 183Hz) ＜⾳声化の前処理＞ BGMや他者が喋っている箇所など不要な箇所をカットし、⾳声化 ※動画編集ソフト「Premiere Pro」にて動画編集

仮説その① ⾝⻑が⾼いor年齢が上がると基本周波数は下がる︖ 分析アプローチスケルトン “説明しやすさ”という観点を重視し、「重回帰分析」で「基本周波数」を⽬的変数、「声に含まれる様々な情報」を被説明変数として基本周波数を構成する要因分析を⾏う。⾝⻑は公開されていない場合が多いため Wikipediaに載っている有名⼈に絞って分析を⾏う。
年齢男性/⼥性⾝⻑切⽚ “声に含まれる情報”を参考として基本周波数を構成する要因が特に多いと思われる性別、⾝⻑、年齢。それらを様々な職業の⼈の声でリサーチ。「⾝⻑が⾼いと基本周波数が下がる」「年齢が上がると基本周波数が下がる」という仮設を検証する。（職業）基本周波数被説明変数説明変数

＜データ処理の流れ＞ ①⾳声データ(.wav) とユーザ情報を⼊⼒データとする ②⾳声データを⾼速フーリエ変換(FFT)して周波数特性を抽出。（numpyのfftライブラリを使⽤。） ③データ結合 FFT No. 基本周波数
年齢(歳) 性別⾝⻑(cm) 職業 1 150 32 男性 170 スポーツ選⼿ 2 280 35 ⼥性 160 俳優 3 220 28 ⼥性 160 YouTuber … … … … … … ⾳声データユーザ情報声に含まれる様々な情報⾚字：今回データとして取得可能な情報 (１)⾝体的特徴⾝⻑(cm)、⾻格、性別、年齢、健康状態(フィジカル)、病気 (２)精神的特徴健康状態(メンタル)、性格 (３)環境的特徴国籍、住環境、⽂化、教育、職業「性別」「職業」をダミー変数化

＜基本周波数の取得＞ FFT FFT ・・・・・・⾳声化
⾳声化 YouTube動画データ⾳声データ基本周波数・・・

年齢男性/⼥性⾝⻑スポーツ選⼿俳優、⼥優歌⼿起業家 YouTuber 芸⼈、タレントアナウンサー
切⽚基本周波数 485.3964 -0.6434 -57.7743 * -1.4066 -35.9449 -6.5814 -48.8253 2.1728 15.7918 24.6299 -48.4231 決定係数:0.5676 ⾃由度調整済決定係数:0.4078 AIC︓676.012 重回帰分析

年齢男性/⼥性⾝⻑スポーツ選⼿俳優、⼥優歌⼿起業家 YouTuber 芸⼈、タレントアナウンサー
切⽚基本周波数 485.3964 -52.7893 ** -1.6547 . -30.6018 * -58.0097 24.2149 -50.5150 . 決定係数:0.5377 ⾃由度調整済決定係数:0.4705 AIC︓662.292 「スポーツ選⼿」のデータでモデル構築し、性別、年齢、⾝⻑から基本周波数を求める予測モデルを作成。重回帰分析ステップ関数を⽤いた被説明変数の⾃動選択を実施。

モデル構築 PyCaret（AutoML）を⽤いて最適な学習⼿法を選択 →RMSE Lasso回帰︓ Lasso Regression(lasso)を採⽤。＜モデルチューニング後の予測評価＞＜モデルでの学習結果＞ ※インタビュー動画＜モデル選定＞
＜⽬的変数と特徴量＞⽬的変数︓基本周波数特徴量︓年齢、男性/⼥性、⾝⻑実際の⾳声データ結果 ※普段喋っている声年齢男性/⼥性⾝⻑基本周波数 0 32 1 174 87 1 35 0 165 176 ＜データ＞ trainデータ︓32 Lasso回帰 Ridge回帰

仮説その② 職業によって声の基本周波数は異なる︖ 「職業分類表厚⽣労働省平成24年3⽉改定」を元に YouTube動画で各職業の基本周波数を⽬的変数として重回帰分析を⾏い、声と職業との関係性を分析。被説明変数︓職業23種類 (＋男性/⼥性) 管理系国会議員（政治家）、会社役員
専⾨的・技術的研究者、医師、看護師、弁護⼠、記者、芸術家、俳優、スポーツ選⼿事務的コールセンタオペレータ販売⼩売販売員（アパレル）サービス美容師、介護⼠保安警察官農林漁業農家、漁師⽣産⼯程⽣産現場輸送・機械運転⾞掌、バスガイド建築・採掘⼤⼯運搬・清掃・包装配達員、清掃員職業分類表厚⽣労働省平成24年3⽉改定（https://jsite.mhlw.go.jp/kanagawa-roudoukyoku/var/rev0/0112/9664/06bunruihyou.pdf）

男性/⼥性政治家コールセンタオペレータ⾞掌バスガイド YouTuber 芸⼈・タレント俳優・⼥優アナウンサー切⽚
基本周波数 198.594 *** -70.328 *** 34.768 * 55.041 ** -61.762 ** 61.940 ** 16.588 . 39.275 * 56.052 ** 45.415 ** 決定係数: 0.5884 ⾃由度調整済決定係数: 0.5559 AIC：1260.737 ＜声が⾼くなる要因の仮説＞コールセンタ、バスガイド→マニュアル声で話す政治家,YouTuber,芸⼈タレント,俳優⼥優（演者,⼈前で話す） →緊張から声が⾼くなる、テンションをかける職業の男⼥⽐→周りの環境に合わせようとする重回帰分析ステップ関数を⽤いた被説明変数の⾃動選択を実施。コールセンタオペレータバスガイド⾞掌

分析結果の考察、ビジネスへの適⽤考察今回の結果から⽇本⼈の声の⾼さ（基本周波数）に関して、「⾝⻑の⾼低」「性別」「年齢」「職業」で⼀定度を説明できる事が分かる。⾝⻑ ⇨ ⾝⻑が⾼いほど声は低くなる。年齢 ⇨ 歳を取ると声は低くなる。
職業 ⇨ 「政治家」「コールセンターオペレータ」「バスガイド」「YouTuber」「芸⼈・タレント」「アナウンサー」は⾼くなる。「⾞掌」は低くなる。（仮説①）マニュアル声で話すと⾼くなる。（コールセンタオペレータ、バスガイド）（仮説②）緊張で声が⾼くなる、テンションをかける。（政治家、YouTuber、芸⼈・タレント）（仮説③）周りの環境に合わせようとする。（⾼低の傾向から職業の男⼥⽐も影響あり︖）ビジネスへの適⽤＜話し⽅教室、ボイストレーニング＞・上記に該当する職業の⽅は特に声が普段⾼くなりがちだという前提を理解してもらい、かつ同じ年齢、⾝⻑の⽅がどのくらいの声の⾼さなのかを客観的に知る事で声を作っている⾃覚意識を改善する。（YouTube発信している⼀般の⽅へのアプローチも可能。）

今後実施してみたいこと＜仮説の検証＞・話すシーン別の⽐較（普段の会話、仕事中、プレゼン中、電話中）・職業別男⼥⽐の割合と基本周波数の関係・国別で聞き取れる周波数と声の基本周波数の関係性（聞ける周波数でないと話もできないから国別に声の基本周波数が違う？）・性格との関係性（おっとりしている、せっかち）・健康⾯との関係性（元気、普通、体調が悪い（メンタル）、体調が悪い（フィジカル））＜モデル構築＞・アプリ作成を公開し、データを蓄え精度を⾼めていく。
⼥性キャスター基本周波数（サンプル） BBC（イギリス）144.785Hz カタール 150.031Hz フィンランド 171.937Hz CNN（アメリカ）179.079Hz PBS（アメリカ）180.422Hz ドイツ 196.144Hz CCTV（中国）201.485Hz ⽇本アナウンサー 230〜270Hz 各⾔語で使⽤している主な周波数 ©

⼯夫したこと、難しかったこと⼯夫したこと（意識したこと）・独⾃のテーマ設定かつBTを想定したプロジェクト・⽇本⼈に特化した傾向が⾒えるアウトプットを出す事・話し⽅教室での教え⽅のアプローチにつながる分析・ビジネスに⽰唆を与えるため、説明しやすい分析⼿法を選択（安易に最新技術に⾶びつかない）・分析結果を⾒て、納得感があり、「⾯⽩い」「なるほど」と思ってもらい、議論が活発になる結果を出すこと難しかったこと（苦労したこと）
・データ収集(分析するために欲しいYouTubeデータを⾒つけ、集める) ・動画編集などのデータ前処理(BGM、他の⼈の声、雑⾳などの削除) ・落とし所が難しいテーマに対して限られた期間でアプトプットすること

Enjoy Data Science!

参考（芸能⼈の⾳声可視化）

＜データの可視化＞

参考：海外⾳声データ⼥性キャスター基本周波数（サンプル） BBC（イギリス）144.785Hz カタール 150.031Hz フィンランド 171.937Hz CNN（アメリカ）179.079Hz PBS（アメリカ）180.422Hz
ドイツ 196.144Hz CCTV（中国）201.485Hz ⽇本アナウンサー 230〜270Hz 各⾔語で使⽤している主な周波数 ©

日本の声の意識改革

日本の声の意識改革

府内翼

Featured

Transcript

⽇本⼈の声の意識改⾰ 2021年2⽉期⼟曜⽇午前クラス府内翼

声はどう作られるか

＜⾳の構成＞基⾳ (基本周波数) 倍⾳ -整数次倍⾳楽⾳（がくおん）︓⾳程感を感じやすい成分 -⾮整数次倍⾳ → 噪⾳（そうおん）︓⾳程感を感じにくい成分声に含まれる様々な情報

＜データ処理の流れ＞ ①⾳声データ(.wav) とユーザ情報を⼊⼒データとする ②⾳声データを⾼速フーリエ変換(FFT)して周波数特性を抽出。（numpyのfftライブラリを使⽤。） ③データ結合 FFT No. 基本周波数

＜基本周波数の取得＞ FFT FFT ・・・・・・⾳声化

年齢男性/⼥性⾝⻑スポーツ選⼿俳優、⼥優歌⼿起業家 YouTuber 芸⼈、タレントアナウンサー

年齢男性/⼥性⾝⻑スポーツ選⼿俳優、⼥優歌⼿起業家 YouTuber 芸⼈、タレントアナウンサー

モデル構築 PyCaret（AutoML）を⽤いて最適な学習⼿法を選択 →RMSE Lasso回帰︓ Lasso Regression(lasso)を採⽤。＜モデルチューニング後の予測評価＞＜モデルでの学習結果＞ ※インタビュー動画＜モデル選定＞

男性/⼥性政治家コールセンタオペレータ⾞掌バスガイド YouTuber 芸⼈・タレント俳優・⼥優アナウンサー切⽚

Enjoy Data Science!

参考（芸能⼈の⾳声可視化）

＜データの可視化＞

＜データの可視化＞

＜データの可視化＞

＜データの可視化＞

＜データの可視化＞

＜データの可視化＞

＜データの可視化＞

＜データの可視化＞

＜データの可視化＞

＜データの可視化＞

＜データの可視化＞

＜データの可視化＞

＜データの可視化＞

＜データの可視化＞

＜データの可視化＞

＜データの可視化＞

＜データの可視化＞

参考：海外⾳声データ⼥性キャスター基本周波数（サンプル） BBC（イギリス）144.785Hz カタール 150.031Hz フィンランド 171.937Hz CNN（アメリカ）179.079Hz PBS（アメリカ）180.422Hz