Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Mining Patterns from Lyrics of Chinese Popular ...
Search
Proko Chou
July 13, 2016
Technology
0
150
Mining Patterns from Lyrics of Chinese Popular Music
Proko Chou
July 13, 2016
Tweet
Share
More Decks by Proko Chou
See All by Proko Chou
Software Testing
prokochou
0
65
Rapid Release at Massive Scale
prokochou
0
77
Introduce ISTQB Test
prokochou
0
63
Context Driven Testing
prokochou
0
72
Mobile App Testing
prokochou
0
51
Other Decks in Technology
See All in Technology
Godot Engineについて調べてみた
unsoluble_sugar
0
460
一人から始めたSREチーム3年の歩み - 求められるスキルの変化とチームのあり方 - / The three-year journey of the SRE team, which started all by myself
vtryo
5
1.9k
ドメイン駆動設計の実践により事業の成長スピードと保守性を両立するショッピングクーポン
lycorptech_jp
PRO
15
2.9k
新卒1年目、はじめてのアプリケーションサーバー【IBM WebSphere Liberty】
ktgrryt
0
170
トラブルシュートを楽しもう (wakamonog meeting 15)
recuraki
3
920
インシデントキーメトリクスによるインシデント対応の改善 / Improving Incident Response using Incident Key Metrics
nari_ex
0
1.2k
信頼性を支えるテレメトリーパイプラインの構築 / Building Telemetry Pipeline with OpenTelemetry
ymotongpoo
8
2.2k
20250122_個人向けCopilotどうなん
ponponmikankan
0
170
色々なAWSサービス名の由来を調べてみた
iriikeita
0
140
comilioとCloudflare、そして未来へと向けて
oliver_diary
6
490
[JSAC 2025 LT] Introduction to MITRE ATT&CK utilization tools by multiple LLM agents and RAG
4su_para
1
140
AWS Community Builderのススメ - みんなもCommunity Builderに応募しよう! -
smt7174
0
210
Featured
See All Featured
Building Applications with DynamoDB
mza
93
6.2k
Music & Morning Musume
bryan
46
6.3k
YesSQL, Process and Tooling at Scale
rocio
170
14k
Fontdeck: Realign not Redesign
paulrobertlloyd
82
5.3k
Unsuck your backbone
ammeep
669
57k
Adopting Sorbet at Scale
ufuk
74
9.2k
Designing Experiences People Love
moore
139
23k
Product Roadmaps are Hard
iamctodd
PRO
50
11k
Measuring & Analyzing Core Web Vitals
bluesmoon
5
210
A Philosophy of Restraint
colly
203
16k
We Have a Design System, Now What?
morganepeng
51
7.3k
Done Done
chrislema
182
16k
Transcript
由華語流行歌詞探勘歌詞的特徵樣式 Mining Patterns from Lyrics of Chinese Popular Music 學生:周晏如
國立政治大學資訊科學系
大綱 》 研究背景及動機 》 研究目的 》 相關研究與貢獻 》 資料前處理 》
研究方法及實驗結果 》 結論 》 未來研究方向 》 網站實作與Demo 2
研究背景與動機 (cont.) 3
研究背景與動機 》 Big Data: • 過去:最多755首 • 本研究:分析191,626首 》 分析方式:
• 過去: 文學系、音樂系、語言學系-> 人工分析 • 現在/ 未來: 理工學院 -> 程式自動分析 》 分析方法: • 人工分析 => 會有主觀的想法 • 資訊方式分析 => 希望能產生更客觀結果 4
大綱 》 研究背景及動機 》 研究目的 》 相關研究 》 研究方法 》
實驗結果 》 總結 5
研究目的 》 Big Data Mining • 以程式自動化分析 》 更客觀、更準確的結果 》
找出Pattern: • 探討具備何種特質的歌詞,才能受到永戴而傳唱更 久遠。 6
大綱 》 研究背景及動機 》 研究目的 》 相關研究與貢獻 》 研究方法 》
實驗結果 》 總結 7
相關研究與貢獻 (cont.) 》 歌詞各時期的特色研究 • 曾慧佳教授,從流行歌曲看臺灣社會,2000 • 1945 年~ 1995
年 歌詞與社會的關連 8 • 謝櫻子,方文山華語詞作主題研究,2010 : • 分析265首歌詞 • 整理1950~2010年的華語流行音樂歌曲背景 • 方文山的歌詞研究 ◦ 與「愛情」有關的歌詞: 約70.6% ◦ 與「勵志」有關的歌詞: 約16.6% ◦ 與「鄉愁」有關的歌詞及其他
相關研究與貢獻 (cont.) 9 • 馬占山,臺灣流行歌詞主題類型與語言表達研究(1999~2008) ──以「Hit-FM年度百首單曲」,2013 : • 分析546首歌詞 •
「愛情主題」的流行歌曲最受閱聽大眾喜愛,比例達85.1% • 「憂傷哀怨」的情歌最受閱聽大眾喜愛 • 非愛情部分: • 少見親情論述 • 未見政治評論
相關研究與貢獻 :年代風格比較 (1/2) 年代 1950-1960 1960-1970 1970─1980 時期 萌發 成長
蓬勃發展 & 民歌運動 歷史背景 1949大遷徙 1. 戒嚴時期:歌詞審查制度 2. 60年代中期美軍 介入越戰,駐台美軍增加 1. 文藝電影當道 2. 華語流行歌曲有「靡靡之音」的 非議 特色 1. 上海、香港派 ( 海港派) 2. 反共、恐共意 識型態 1. 男女情愛的歌詞 (相對安全 ,較易通過審查) 2. 西洋流行歌曲 1. 電影主題曲風行 2. 反思與覺醒的大潮:民歌運動 代表人物/ 代表作 王琛: 家在山那邊 今宵多珍重 我的一顆心 不了情 月亮代表我的心 往事只能回味 人物: 李建復、陶曉清、王夢麟 作品: 浮雲遊子、木棉道、讓我們 看雲去 10
年代 1980─1990 1990─2000 2000年迄今 時期 工業化 全球化 2000年後 歷史背景 1.
民歌走向商業化之 2. 外國公司進駐台灣 1. 「禁歌」結束 2. 港星來台發展 網路歌曲盛行是新興的傳 播方式 特色 比民歌時期嗆辣,更能反 映社會各階層的心聲與社 會現象 1. 華語、台語、英語多語交雜的 曲風 2. 偶像級明星會帶動音樂風尚潮 流 歌詞內涵仍以情歌為主 流,間或出現其他主題如 懷舊、勵志或親情等的歌 詞。 代表人物/ 代表作 蘇芮、黃舒駿、陳昇、王 笛、張艾嘉、張清芳 L.A.Boys、小虎隊、紅孩兒、 張雨生、張學友 伍佰、周華健、張雨生、王 力宏、黃舒駿、周杰倫、 相關研究與貢獻 (cont.):年代風格比較 (2/2) 11
相關研究與貢獻 (cont.) 》 流行音樂歌詞押韻方法 • 劉祐銘,臺灣國語流行歌曲歌詞用韻研究(1998~2008),2009 • 分析500首歌詞 12 •
問題:找不到創作規則 • 方法:過去學者對《詩經》韻例、韻腳之研究: • 葉秋凰在《臺灣囡仔歌之詞彙與句式分析》 • 林香薇曾於〈論路寒袖臺語詩《春天个花蕊》的用韻與用字〉 • 押韻用例: • 一韻到底 • 換韻 • 無韻 • 句首韻 • 節奏停頓處押韻 • 因為節拍拉長而造成的押韻 • 同音重複
相關研究與貢獻 (cont.) 》 修辭學 • 蔡宗陽教授,應用修辭學,2001:19種辭格 • 黃麗貞教授,實用修辭學(增訂版),2004 : 39種辭格
• 黃慶萱教授,修辭學(增訂三版),2005 : 30種辭格 13 • 吳媺婉,臺灣國語流行歌曲的修辭藝術,2005 • 分析755首歌詞 • 音樂性:平仄 • 辭格藝術:最常使用類疊、對偶 • 主題修辭藝術:將歌詞分為9個主題: • 愛情、生活哲理、友情、親情、人生百態、田野風光、社會批 判、愛國、鄉情
相關研究與貢獻 (cont.) 》 其他 • 張雯禎,台灣流行歌詞中的隱喻:以愛情為主題(1990-2008),2008 • 分析94首歌詞 • 找出隱喻的方法:「概念譬喻理論」和「融合理論」
• 結果:4種概念來比喻愛情 • 以食物為概念 • 以旅程概念 • 以數學、化學、生物中的概念 • 以動物比喻情人 14 • 施啟智,華語通俗音樂模組化數位音樂的構成、分析及應用,2009 • 分析107首歌詞 • 方法:音樂理論及聆聽音色判斷樂譜和弦進行 • 結果:模組化各樂句相關構成要件,得以組裝成一首通俗音樂
相關研究與貢獻 15 • 王奕舜,論敘事型音樂錄影帶和歌詞的改編與互文性-以金曲獎音樂錄 影帶獎項為例,2013 • 分析5個敘事型音樂錄影帶 • 分析方法:Julia Kristeva提出的互文性
• 結果:以互文性理論可分析5個敘事型音樂錄影帶 • 朱宜秦,流行音樂中作詞人性別主體性對作品觀點差異之研究分析 ,2011: • 訪談4位作詞者:林尚德、路寒袖、黃婷及陳韋伶 • 分析方法:巴特勒(Butler) 的性別表演模式 • 結果:資深詞人較近期的作品和新一代詞人的作品: • 「女性—剛強;男性—陰柔」
大綱 16 》 研究背景及動機 》 研究目的 》 相關研究與貢獻 》 資料前處理
》 研究方法及實驗結果 》 結論 》 未來研究方向 》 網站實作與Demo
由魔鏡歌詞網取得歌詞 魔鏡歌詞網 191,626首
移除非國語發音的歌詞 》 魔鏡歌詞網資料: 》 標籤為台語、英文、粵語、日語、韓語、客家語、原住民 語等。
如何斷詞? 19 你問我愛你有多深,我愛你有幾分。 我的情也真,我的愛也真,月亮代表我的心。 中央研究院資訊科學研究所的「中文斷詞與剖析系統」
如何找出相同的歌詞?(cont.) 20 》 相同歌名 》 斷詞成List => Set 》 比較Set內容
如何找出相同的歌詞? 21 設定的門檻值為90%的詞相同 即為同首歌詞
實驗資料 歌詞數量 資料前處理 191,626首 非國語發音的歌詞 56,596首 相同的歌詞 46,382首 可研究的歌詞 88,648首
大綱 23 》 研究背景及動機 》 研究目的 》 相關研究與貢獻 》 資料前處理
》 研究方法及實驗結果 》 結論 》 未來研究方向 》 網站實作與Demo
研究方法與實驗結果 24 》 最常使用的詞彙是哪些? 》 哪些詞彙最容易兩兩相鄰? 》 分析有趣的詞彙出現的次數 》 歌名字數分析
》 歌詞是否有夾雜外來語? 》 最容易被翻唱的歌 》 自動判斷歌詞風格 》 自動判斷押韻方法 》 自動判斷是否使用譬喻法、類疊及對偶
最常使用的詞彙:分析方法 讀入所有歌詞的斷詞 以程式分析出現的次數 依詞性分檔 25
最常使用的詞是哪些? 26 我們:62,597次 沒有:53,001次 什麼:47,663次 自己:41,715次 世界:30,329次 「我們」出現的次數 > 「你、我、他」出現的次數
最常使用的名詞是哪些? 27 我們:62,596次 自己:41,712次 世界:30,328次 愛情:28,987次 時候:15,774次 鄧麗君演唱、翁炳榮作詞的「戀愛的路多甜」: 這個世界只能容納我們倆個人 只有我們才能體會相互的情意
最常使用的動詞是哪些? 28 沒有:35,417次 知道:27,923次 離開:14,787次 相信:12,945次 想要:11,902次 由余天演唱、莊奴作詞的「戀愛的路多麼苦」: 我的心裡想念你 你知道我不能沒有你
我愛你 我恨你 愛你又恨你
最常使用的形容詞是哪些? 29 快樂:18,558次 幸福:16,483次 寂寞:16,238次 溫柔:11,453次 孤單:7,353次 積極正面 > 消極負面
呼應:研究背景與動機 30
方文山、李宗盛及林夕的常用詞 作詞者 方文山 李宗盛 林夕 作詞數量 430 400 1163 名詞
故事 感覺 回憶 畫面 女人 過去 人生 現在 個人 感情 眼淚 朋友 動詞 離開 開始 安靜 慢慢 回憶 以為 在乎 願意 面對 覺得 需要 一樣 擁抱 忘記 得到 形容詞 沉默 遙遠 成熟 容易 努力 纏綿 浪漫 重要 愉快 31
年代與常用字一覽 (cont.) 32 排名 1960~ 1970 比例 1970~ 1980 比例
1980~ 1990 比例 1990~ 2000 比例 2000~ 2010 比例 2010~ 2015 比例 1 不要 0.8% 不要 0.9% 什麼 0.9% 沒有 0.9% 我們 0.9% 我們 1.1% 2 永遠 0.8% 我們 0.8% 我們 0.9% 自己 0.8% 沒有 0.8% 沒有 0.8% 3 什麼 0.8% 什麼 0.7% 沒有 0.8% 什麼 0.8% 什麼 0.7% 什麼 0.7% 4 沒有 0.6% 永遠 0.6% 自己 0.7% 我們 0.7% 自己 0.6% 自己 0.6% 5 我們 0.6% 愛情 0.6% 不要 0.6% 愛情 0.5% 世界 0.5% 世界 0.5% 6 我倆 0.6% 知道 0.5% 不再 0.6% 不要 0.5% 不要 0.4% 怎麼 0.4% 7 愛情 0.5% 沒有 0.5% 知道 0.5% 知道 0.5% 愛情 0.4% 愛情 0.4% 8 姑娘 0.5% 美麗 0.5% 愛情 0.5% 不能 0.5% 知道 0.4% 不要 0.4% 9 多麼 0.5% 我倆 0.5% 不能 0.4% 世界 0.4% 怎麼 0.4% 一起 0.4% 10 相思 0.5% 不能 0.5% 永遠 0.4% 永遠 0.4% 不會 0.4% 知道 0.4%
年代與常用詞的文字雲 1960~1969 1970~1979 1980~1989 1990~1999 2000~2009 2010~2015 33
研究方法與實驗結果 34 》 最常使用的詞彙是哪些? 》 分析有趣的詞彙出現的次數 》 哪些詞彙最容易兩兩相鄰? 》 歌名字數分析
》 歌詞是否有夾雜外來語? 》 最容易被翻唱的歌 》 自動判斷歌詞風格 》 自動判斷押韻方法 》 自動判斷是否使用譬喻法、類疊及對偶
有趣的詞彙出現的次數 (cont.) 類別 詞彙 筆數 比例 四季 春 8,519 9.6%
夏 2,934 3.3% 秋 3,560 4.0% 冬 3,182 3.6% 父母相關詞 爸爸 764 0.9% 媽媽 1,489 1.7% 父親 119 0.1% 母親 403 0.5% 「爸爸」 及「媽媽」兩詞彙 同時出現 519 0.6% 35
有趣的詞彙出現的次數 (cont.) 類別 詞彙 筆數 比例 人稱代詞 你/ 妳 68,822
77.6% 我 80,436 90.7% 他/ 她 19,427 21.9% 我們 22,495 25.4% 性別 男 4,356 4.9% 女 6,744 7.6% 味道 酸 1,976 2.2% 甜 8,102 9.1% 苦 10,792 12.2% 辣 653 0.7% 36
有趣的詞彙出現的次數 類別 詞彙 筆數 比例 心情 愛 55,586 62.7% 恨
4,597 5.2% 哭 9,323 10.5% 笑 21,350 24.1% 哭泣 3,192 3.6% 傷心 4,480 5.1% 快樂 10,381 11.7% 天體相關詞 星星 2,383 2.7% 月亮 1,732 2.0% 太陽 3,076 3.5% 37
研究方法與實驗結果 38 》 最常使用的詞彙是哪些? 》 分析有趣的詞彙出現的次數 》 哪些詞彙最容易兩兩相鄰? 》 歌名字數分析
》 歌詞是否有夾雜外來語? 》 最容易被翻唱的歌 》 自動判斷歌詞風格 》 自動判斷押韻方法 》 自動判斷是否使用譬喻法、類疊及對偶 》 網站實作與Demo
兩兩相鄰的詞彙分析方法 39 周華健演唱及作詞: 明天我要嫁給你 「我 的 眼淚 閃爍 閃爍 好
空洞」、 「我 的 心跳 噗通 噗通 地 陣陣 悸動」 我 的 2 眼淚 1 閃爍 1 好 1 空洞 1 心跳 1 噗通 地 1 1 陣陣 悸動 1 1 曲線表示該詞相鄰的詞為 自己本身 1 1
相鄰的詞彙:Top 10 我 讓 是 不 你 愛 心 的
一 個 我的 的你 一個 是我 我讓 的愛 不是 你是 你愛 心的 40
相鄰的詞彙文字雲 僅顯示超過5,000次 的相鄰詞彙 可創作出: 我的愛 你的心 是我美麗的世界 41
Top 10 相鄰的詞彙: 方文山、李宗盛及林夕 李宗盛 林夕 方文山 我的 一個 我的
你的 我的 你的 是我 你的 啦啦 我讓 是不 我在 是不 是我 你說 心的 我讓 愛的 說你 你是 一個 愛的 你愛 是我 你是 啦啦 是不 哦哦 個人 我愛 42 標注紅色的詞: 另外兩位作詞者沒用這詞
研究方法與實驗結果 43 》 最常使用的詞彙是哪些? 》 哪些詞彙最容易兩兩相鄰? 》 分析有趣的詞彙出現的次數 》 歌名字數分析
》 歌詞是否有夾雜外來語? 》 最容易被翻唱的歌 》 自動判斷歌詞風格 》 自動判斷押韻方法 》 自動判斷是否使用譬喻法、類疊及對偶
歌名字數分析:分析方法 1. 全部都中文,則直接計算字數 • "短歌行" = 3個字 2. 中文和數字間含有空白或特殊字元 •
"短歌行(1998)" = 3個字 3. 含有數字 • "分手第7天" = 5個字 4. 英文字以空白或特殊字元做分隔進行字數計算 • "I'm still in love" = 4個字 5. 中英混合的歌名,以空白做分隔進行字數計算 • "大家一起High翻天" = 7個字 44
歌名字數分析結果 0 5 10 15 20 25 1字部 2字部 3字部
4字部 5字部 6字部 7字部 8字部 9字部 10字部 魔鏡歌詞網 Hit FM 年度排行 單位:% 45
研究方法與實驗結果 46 》 最常使用的詞彙是哪些? 》 分析有趣的詞彙出現的次數 》 哪些詞彙最容易兩兩相鄰? 》 歌名字數分析
》 歌詞是否有夾雜外來語? 》 最容易被翻唱的歌 》 自動判斷歌詞風格 》 自動判斷押韻方法 》 自動判斷是否使用譬喻法、類疊及對偶
純中文 76.7% 夾雜英文 22.8% 夾雜韓文或日文 共0.06% 是否有夾雜外來語?:英、韓、日(cont.) 以Unicode範圍判斷: • 英文:
0041~005a, 0061~007a • 日文: 30a0~30ff, 3040~309f • 韓文: 1100~11FF, 3130~318F, AC00~D7AF 47
是否有夾雜外來語?:英文常用字 You: 19,745 I: 17,181 oh: 14,773 love: 10,958 me:
10,468 my: 9,258 baby: 8,244 la: 7,895 so: 4,505 go: 4,356 48
49 1965~2015 歷年使用英文歌詞的 比例趨勢圖 1991年大幅增加 2015年達36% 1990年後: 台灣意識抬頭 外來歌手增加 代表人物:L.A.
Boys 1966~1977: 1,456首 使用英文歌詞約120首
研究方法與實驗結果 50 》 最常使用的詞彙是哪些? 》 分析有趣的詞彙出現的次數 》 哪些詞彙最容易兩兩相鄰? 》 歌名字數分析
》 歌詞是否有夾雜外來語? 》 最容易被翻唱的歌 》 自動判斷歌詞風格 》 自動判斷押韻方法 》 自動判斷是否使用譬喻法、類疊及對偶 》 網站實作與Demo
實驗資料 歌詞數量 資料前處理 191,626首 非國語發音的歌詞 56,596首 相同的歌詞 46,382首 可研究的歌詞 88,648首
》 被翻唱的歌詞數量計算為: 可研究的歌詞 + 相同的歌詞 = 135,030首
最容易被翻唱的歌:分析方法 相同歌名 作詞者相同但演唱者不同 相同歌詞 被翻唱的歌 52
最容易被翻唱的歌 情人的眼淚: 為什麼要對你掉眼淚 你難道不明白是為了愛 只有那有情人眼淚最珍貴 一顆顆眼淚都是愛都是愛 為什麼要對你掉眼淚 你難道不明白是為了愛 要不是有情人跟我要分開 我眼淚不會掉下來掉下來 好春常在 春花正開 你怎麼捨得 說再會
我在深閨 望穿秋水 你不要忘了我情深 深如海 齊秦 青山 余天 林承光 張學友 甄妮 蔡琴 美黛 林憶蓮 周蕙 …… 不了情: 忘不了 忘不了 忘不了你的錯 忘不了你的 好 忘不了雨中的散步 也忘不了那風裡的擁抱 忘不了忘不了 忘不了你的淚 忘不了你的 笑 忘不了葉落的惆悵 也忘不了那花開的煩惱 寂寞的長巷 而今斜月清照 冷落的鞦韆 而今迎風輕搖 它重復你的叮嚀 一聲聲忘了 忘了 它低訴我的衷曲 一聲聲 難了 難了 忘不了忘不了 忘不了春已盡 忘不了花已 老 忘不了離別的滋味 也忘不了那相思的苦惱 青山 羅時豐 余天 費玉清 鄧麗君 葉蒨文 潘越雲 高勝美 梅艷芳 周蕙 …… 53
研究方法與實驗結果 54 》 最常使用的詞彙是哪些? 》 分析有趣的詞彙出現的次數 》 哪些詞彙最容易兩兩相鄰? 》 歌名字數分析
》 歌詞是否有夾雜外來語? 》 最容易被翻唱的歌 》 自動判斷歌詞風格 》 自動判斷押韻方法 》 自動判斷是否使用譬喻法、類疊及對偶 》 網站實作與Demo
訓練資料 的歌詞 斷詞與詞性分析 詞庫 資料建造 自動判斷風格的分類器 僅保留形容詞及 出現100次以上的詞 彙 詞總集合
保留出現100次以上 的詞彙 向量陣列 天青色等煙雨 而我在等妳 → 天青色(N) 等(POST) 煙雨(N) 而(C) 我(N) 在(P) 等(Vt) 妳(N) 非愛情: 親情 友情 勵志 其他 SVM分類器 愛情 vs. 非愛情 「天: 100,愛: 250,氣球: 150」 「我,愛,你」: 「0,0.004,0」 55 階層式分類器
風格定義來源及訓練資料 》 吳媺婉,台灣國語流行歌曲的修辭藝術: • 將流行歌詞分為9類 》 訓練資料共3,771首 其他 56
風格自動分類結果 》 愛情 vs. 非愛情:準確率為85.39% 》 非愛情4類:準確率為70.21% 》 愛情風格最多 》
親情最少 • 呼應馬占山說的:少見親情論述 57 風格分類 歌詞數量 比例 愛情 54,492 61.47% 勵志 25,131 28.35% 友情 3,842 4.33% 親情 37 0.04% 其他 5,145 5.80%
年代對風格的分析: 愛情風格佔該年歌詞數量的比例 比例 1975~1983:民歌時期 民歌使用英文歌詞約120 首 大事記: 1973: 楊弦在胡德夫的演唱會 發表了以余光中的詩所譜成的
歌曲〈鄉愁四韻〉,「民歌運動」 開始。 1975: 楊弦在臺北中山堂舉行 「現代民謠創作演唱會」,掀起 了民歌運動的序幕。 1976: 政府推行「淨化歌曲 運動」,企圖淨化瀰漫於1960 年代日趨奢靡的國語 流行歌曲。 58
研究方法與實驗結果 59 》 最常使用的詞彙是哪些? 》 哪些詞彙最容易兩兩相鄰? 》 分析有趣的詞彙出現的次數 》 歌名字數分析
》 歌詞是否有夾雜外來語? 》 最容易被翻唱的歌 》 自動判斷歌詞風格 》 自動判斷押韻方法 》 自動判斷是否使用譬喻法、類疊及對偶 》 網站實作與Demo
押韻:以Non-Trivial Repeating Pattern方式判斷 (cont.) 》 準確地能判斷韻腳 (相較於僅使用比例判斷) 》 了解韻腳進行的方式:例如:ㄞ-ㄠ-ㄠ-ㄞ 》
判斷押韻的方式:一韻到底、換韻、無韻 》 拆成漢語拼音的方式以Python的pinyin模組 • 「你-我-過-你-我-窩-說-我-你-我」 • 產生拼音字串:‘i-o-uo-i-o-o-uo-o-i-o’ • 以Non-Trivial Repeating Pattern找出以下資訊: Repeating Pattern Pattern長度 Repeating Pattern頻率 i-o (ㄧ - ㄛ) 2 3 o-uo (ㄛ- ㄨㄛ) 2 2 o (ㄛ) 1 5 60 由鄧麗君演唱、莊奴作詞 的「記得你記得我」: 記得你 記得我 記得我倆都說過 陪伴你 陪伴我 星星月亮在心窩 從來也不說 愛你也愛我 我離不開你 你也離不開我
一韻到底 換韻 無韻 句首韻 Patter n 1種音 1種以上 0種 1種以上
長度 總長度-1 2 以上 - 2 以上 頻率 2次以上 2次以上 - 2次以上 押韻:以Non-Trivial Repeating Pattern方式判斷 》 以Non-Trivial Repeating Pattern的片段、長度及頻率來判斷押韻方式: • Pattern • 例如(ㄧ -ㄛ) 與 (ㄛ - ㄨㄛ) • 長度 • 例如(ㄧ -ㄛ)的長度為2 • 頻率: • (ㄧ -ㄛ) 出現2次 • (ㄛ - ㄨㄛ) 出現2次 61 鄧麗君演唱、貝林作詞: 好花不常開 好景不常在 愁堆解笑眉 淚灑相思帶 今宵離別後 何日君再來 喝完了這杯 請進點小菜 人生難得幾回醉 不歡更何待 今宵離別後 何日君再來 停唱陽關疊 重擎白玉杯 慇勤頻致語 牢牢撫君懷 今宵離別後 何日君再來 喝完了這杯 請進點小菜 人生難得幾回醉 不歡更何待 今宵離別後 何日君再來
押韻方式比例及韻腳 62 方式 比例 一韻到底 7.50% 換韻 88.60% 無韻 3.90%
句首韻 89.70%
年代對押韻的交叉分析: 歷年使用的Top 10韻腳 ㄜ韻 2000年以前, 未出現在Top 10 常用字:麼、著、樂 1960~1979年常使用的韻腳, 但1980年就未列入Top
10 常用字:啊、他、呀 ㄚ韻 63
風格對押韻的交叉分析: 各風格押韻Top 10一覽表 僅愛情風格使用 ㄛ ㄨㄛ ㄢ ㄢ 僅勵志和親情使用 ㄚ
ㄚ 僅勵志和其他類使用 64 由鄧麗君演唱、莊奴作詞的「記得你記得我」: 記得你 記得我 記得我倆都說過 陪伴你 陪伴我 星星月亮在心窩 從來也不說 愛你也愛我 我離不開你 你也離不開我
研究方法與實驗結果 65 》 最常使用的詞彙是哪些? 》 哪些詞彙最容易兩兩相鄰? 》 分析有趣的詞彙出現的次數 》 歌名字數分析
》 歌詞是否有夾雜外來語? 》 最容易被翻唱的歌 》 自動判斷歌詞風格 》 自動判斷押韻方法 》 自動判斷是否使用譬喻法、類疊及對偶
明喻定義與分析結果 66 喻體 喻詞 喻依 妳的臉頰 像 田裡熟透的 蕃茄 產生喻詞列表
用以判斷明喻 有使用明喻的歌詞佔25.5%
類疊定義 》 類字:同一字詞間的間隔使用 • 若即若離 • 讓我愛難平,恨難消,情難滅,夢難了,心難過,你卻 放手,一了百了 》 疊字:同句,同一字的連續使用
• 尋尋覓覓,冷冷清清,淒淒慘慘戚戚 • 但專有名詞除外,例爸爸、星星等 》 疊句:不同句,但有連續使用同一語句 • 少年不識愁滋味,愛上層樓,愛上層樓,為賦新詞強 說愁 67
類疊:以Non-Trivial Repeating Pattern方式判斷 (cont.) 》 判斷該句是否為中文 》 以Non-Trivial Repeating Pattern方式
• 記錄pattern • 記錄pattern在歌詞的何處 • 同一句 • 相鄰句 68
類疊:以Non-Trivial Repeating Pattern方式判斷 Pattern規則 類字 疊字 疊句 Pattern在同句 △ ◦
X 兩個pattern緊接在一起 X ◦ X Pattern為相同的字/詞 △ ◦ ◦ Pattern在上下兩句出現 △ X ◦ Pattern所在的句子的長度 相同 △ X ◦ 》 類字例子: • 「燕去燕來還過日 花開花落即經春」的「燕」和「花」為pattern • 「你愛穿什麼就穿什麼;扮一個牧童,扮一個漁翁,裝一個農夫,裝一個走江湖的 吉普賽,裝一個獵戶」,pattern為「穿」、「扮」、「裝」 》 疊句例子: • 「無敵鐵金鋼;無敵鐵金鋼;無敵鐵金鋼」的pattern為「無敵鐵金鋼」 》 疊字例子: • 「天天想你」的pattern為「天」 ◦表示是,X表示不是,△表示皆可。 69
各類風格修辭使用比例一覽表 70 愛情 親情 友情 勵志 其他 明喻 34.1% 27.0%
16.4% 28.6% 27.2% 類字 97.9% 89.2% 79.0% 96.7% 97.4% 疊字 64.4% 75.7% 54.2% 62.1% 69.2% 疊句 16.3% 24.3% 18.5% 16.7% 26.6% 對偶 18.4% 10.8% 17.6% 18.7% 21.7% 類疊字為最常使用的修辭法, 呼應吳媺婉:流行歌詞最常使用的修 辭為類疊法
大綱 》 研究背景及動機 》 研究目的 》 相關研究與貢獻 》 資料前處理 》
研究方法及實驗結果 》 結論 》 未來研究方向 》 網站實作與Demo 71
結論 (cont.) 》 應證了相關研究的結果: • 1975~1983年為民歌時期,愛情風格的歌詞比例降低 • 1990年後,全球化時期,使用英文的歌詞比例增加 • 修辭法中,類疊法使用比率較其他修辭法高
• 愛情類的歌詞最多,親情較少 72
結論 》 新發現 • 韻腳: • 韻腳ㄛ及ㄨㄛ僅愛情風格經常使用 • 韻腳ㄚ在1980年後不在Top 10韻腳,
• ㄜ韻在2000年後興起 • 風格: • 並非「憂傷哀怨」的情歌最受閱聽大眾喜愛 • 其他: • 歌名字數多為2~4字部 • 有趣的詞彙分析與預想結果不同 73
大綱 》 研究背景及動機 》 研究目的 》 相關研究與貢獻 》 資料前處理 》
研究方法及實驗結果 》 結論 》 未來研究方向 》 網站實作與Demo 74
未來研究方向 》 以程式分析隱喻、略喻、借喻及假喻的方式 》 押韻的進一步分析,可了解各時期的發音特色 》 透過交叉分析歌詞特徵,可做出更動人的歌詞 75
大綱 》 研究背景及動機 》 研究目的 》 相關研究與貢獻 》 資料前處理 》
研究方法及實驗結果 》 結論 》 未來研究方向 》 網站實作與Demo 76
• Web Framework • Django • Database • SQLite3 •
Django Model:Python • Front-End • HTML • CSS • JavaScript 實驗結果:網站實作工具 • Tool • Google Chart API 77
Q&A 78
最常使用的副詞是哪些? 79 不要:28,634次 不會:23,599次 不能:22,901次 永遠:22,220次 怎麼:19,208次 「不要」、「不會」及「不能」的第一字皆為「不」
歌名字數分析:分析方法 1. 全部都中文,則直接計算字數 • "短歌行" = 3個字 2. 中文和數字間含有空白或特殊字元, 則不計算數字,因為通常為資料誤值年代
• "短歌行1998" = 3個字 • "短歌行(1998)" = 3個字 3. 含有數字,則一個數字為一個字 • "分手第7天" = 5個字 4. 英文字以空白或特殊字元做分隔進行字數計算, 例如's、_、+ • "It's my life" = 4個字 5. 中英混合的歌名,以空白做分隔進行字數計算 • "大家一起High翻天" = 7個字 80
81 『如』的意義 中研院斷詞系統,無法針對『如』進行完整斷詞,舉例如下:
82 『若』的意義 中研院斷詞系統,無法針對『如』進行完整斷詞,舉例如下: