Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
英語で読もう!AWSドキュメント頻出英単語集1900!と、その作り方
Search
TAKUYA MIZUMA
June 23, 2023
Technology
5
2k
英語で読もう!AWSドキュメント頻出英単語集1900!と、その作り方
AWS DevDay 2023の登壇記事です
TAKUYA MIZUMA
June 23, 2023
Tweet
Share
More Decks by TAKUYA MIZUMA
See All by TAKUYA MIZUMA
フロントエンドエンジニアのためのAWSアーキテクチャ
tmizuma
15
7.9k
Other Decks in Technology
See All in Technology
TypeScript入門
recruitengineers
PRO
8
1.5k
AIエージェント就活入門 - MCPが履歴書になる未来
eltociear
0
440
小さなチーム 大きな仕事 - 個人開発でAIをフル活用する
himaratsu
0
120
ドキュメントはAIの味方!スタートアップのアジャイルを加速するADR
kawauso
3
340
開発と脆弱性と脆弱性診断についての話
su3158
1
1.1k
退屈なことはDevinにやらせよう〜〜Devin APIを使ったVisual Regression Testの自動追加〜
kawamataryo
1
130
知られざるprops命名の慣習 アクション編
uhyo
10
2.4k
Goでマークダウンの独自記法を実装する
lag129
0
210
攻撃と防御で実践するプロダクトセキュリティ演習~導入パート~
recruitengineers
PRO
1
140
DeNA での思い出 / Memories at DeNA
orgachem
PRO
3
1.5k
「守る」から「進化させる」セキュリティへ ~AWS re:Inforce 2025参加報告~ / AWS re:Inforce 2025 Participation Report
yuj1osm
1
110
トヨタ生産方式(TPS)入門
recruitengineers
PRO
2
200
Featured
See All Featured
Balancing Empowerment & Direction
lara
2
590
Save Time (by Creating Custom Rails Generators)
garrettdimon
PRO
32
1.4k
VelocityConf: Rendering Performance Case Studies
addyosmani
332
24k
RailsConf & Balkan Ruby 2019: The Past, Present, and Future of Rails at GitHub
eileencodes
139
34k
JavaScript: Past, Present, and Future - NDC Porto 2020
reverentgeek
50
5.5k
CSS Pre-Processors: Stylus, Less & Sass
bermonpainter
358
30k
Practical Orchestrator
shlominoach
190
11k
Connecting the Dots Between Site Speed, User Experience & Your Business [WebExpo 2025]
tammyeverts
8
480
The MySQL Ecosystem @ GitHub 2015
samlambert
251
13k
Side Projects
sachag
455
43k
Optimising Largest Contentful Paint
csswizardry
37
3.4k
Building Applications with DynamoDB
mza
96
6.6k
Transcript
© 2023, Amazon Web Services, Inc. or its affiliates. All
rights reserved. D E V D AY J U N 2 3 , 2 0 2 3
© 2023, Amazon Web Services, Inc. or its affiliates. All
rights reserved. © 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved. ӳޠͰಡ͏ʂ"84υΩϡϝϯτ සग़ӳ୯ޠूʂͱɺͦͷ࡞Γํ ⽔⾺ 拓也 (Mizuma Takuya) F - 3 - 1 Software Engineer Wealthnavi 株式会社
© 2023, Amazon Web Services, Inc. or its affiliates. All
rights reserved. ウェルスナビ株式会社 Software Engineer ⽔⾺ 拓也 (みずま たくや) --- Ø 全⾃動資産運⽤サービス の開発に従事 Ø 前職: アマゾンウェブサービスジャパン合同会社, Solutions Architect Ø 得意な⾔語 : JavaScript / TypeScript Ø 苦⼿な⾔語 : 英語 スピーカーの⾃⼰紹介
© 2023, Amazon Web Services, Inc. or its affiliates. All
rights reserved. 突然ですが・・
© 2023, Amazon Web Services, Inc. or its affiliates. All
rights reserved. 突然ですが・・ みなさん、AWSドキュメント英語で読んでいますか︕︖
© 2023, Amazon Web Services, Inc. or its affiliates. All
rights reserved. 英語でAWSドキュメントを読むことのメリット • ⽇本語に対応していないドキュメントがある • ⽇本語で読んだ場合細かいニュアンスを取りこぼす場合がある • 英語版と翻訳版で不⼀致がある場合、英語版が優先される • そもそも、翻訳精度が怪しいものが・・ • 英語で読めるとかっこいい
© 2023, Amazon Web Services, Inc. or its affiliates. All
rights reserved. とはいえ、 • 英語が苦⼿ • チャレンジしてみたが挫折した • 何から始めて良いかわからない • 単語がわからない
© 2023, Amazon Web Services, Inc. or its affiliates. All
rights reserved. とはいえ、 • 英語が苦⼿ • チャレンジしてみたが挫折した • 何から始めて良いかわからない • 単語がわからない ← ここにフォーカス ü 頻出順で単語を学んでいきたい ü 例⽂と合わせて単語を覚えたい
© 2023, Amazon Web Services, Inc. or its affiliates. All
rights reserved. AWS公式ドキュメント頻出英単語1900作ってみた
© 2023, Amazon Web Services, Inc. or its affiliates. All
rights reserved. Agenda l AWSドキュメント頻出英単語帳の作り⽅ l 頻出英単語の紹介
© 2023, Amazon Web Services, Inc. or its affiliates. All
rights reserved. © 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved. AWSドキュメント頻出英単語帳の 作り⽅
© 2023, Amazon Web Services, Inc. or its affiliates. All
rights reserved. 単語帳作成の基本⽅針 作成⽅針 • AWS 公式ドキュメントをスクレイピングする • ドキュメント内の単語をカウントし頻出順にソートする • 単語帳としての体裁を整える (単語/⽇本語訳/例⽂/例⽂⽇本語訳) あきらめること • 熟語、句動詞、慣⽤句の集計 : § 単語単位で集計するので複数の単語の組み合わせで意味を持つものは対象として 認識できない • ドキュメントの網羅性 : → sitemap に登録されていないドキュメントもある (Cognito のドキュメント
© 2023, Amazon Web Services, Inc. or its affiliates. All
rights reserved. スクレイピングの対象 • sitemap から AWS ドキュメントURLの⼀覧を取得する ※ 英語版のみ § https://docs.aws.amazon.com/sitemap_index.xml → 9,567 pages! as of 2023.5.30 • 単語の集計範囲は #main-col-body > p::text (左図の⾚枠部分) • ノイズ除去のためページの Header や Footer, API Document は対象から外す 対象 対象外
© 2023, Amazon Web Services, Inc. or its affiliates. All
rights reserved. 単語の集計⽅法 • Python 製の Scrapy でスクレイピング • { “単語”: 出現数 } のフォーマットで集計 • AWSドキュメント単語帳として不要な⽂字列を除去
© 2023, Amazon Web Services, Inc. or its affiliates. All
rights reserved. 単語帳から除去する⽂字列 • 冠詞や前置詞, 助動詞, 主格代名詞 といった基本的な品詞 § 例) a, the, can, I, you • 特定の企業やサービス名 § 例) Amazon, AWS, EC2, Aurora, EKS … • ⼩〜中学校レベルの基本的な単語 § 例) have, get, like, book, some, good, people … • その他 § 数字、記号、その他単体で意味を成さない⽂字列
© 2023, Amazon Web Services, Inc. or its affiliates. All
rights reserved. 単語の集計 • Python 製の Scrapy でスクレイピング • { “単語”: 出現数 } のフォーマットで集計 • AWSドキュメント単語帳として不要な⽂字列を除去 the: 定冠詞 you: 代名詞 to: 前置詞 can: 助動詞 be: be 動詞 in: 前置詞、副詞
© 2023, Amazon Web Services, Inc. or its affiliates. All
rights reserved. 単語の集計 • Python 製の Scrapy でスクレイピング • { “単語”: 出現数 } のフォーマットで集計 • AWSドキュメント単語帳として不要な⽂字列を除去 aws, acm: サービスや企業の固有名詞 get, what: 基本的な単語
© 2023, Amazon Web Services, Inc. or its affiliates. All
rights reserved. 単語帳としての体裁を整える 単語帳に必要な要素 § 英単語 § ⽇本語訳 § 例⽂(英) § 例⽂⽇本語訳 OpenAI (Model: GPT-4) を使⽤して例⽂を作成 § 1900個の単語の例⽂と⽇本語訳の⽣成
© 2023, Amazon Web Services, Inc. or its affiliates. All
rights reserved. OpenAI を⽤いた例⽂, 例⽂⽇本語訳の⽣成 ChatGPT (⼿作業) の場合 § token制限により⼀度のやり取りで10~15単語程度しか作成できない § GPT-4の利⽤制限 (25 requests / 3 hours) § レスポンスが安定しない LangChain を使ってOpenAIへのリクエストを⾃動化 ← 採⽤︕ § LangChain: ⼤規模⾔語モデルを拡張するライブラリ (Python/Typescript) § API呼び出しの場合、時間単位の利⽤制限なし § temperature (ランダム性) = 0 を指定してレスポンスが安定 § 1900語の単語を複数のchunkに分けて並列して実⾏ → (続く)
© 2023, Amazon Web Services, Inc. or its affiliates. All
rights reserved. OpenAI を⽤いた例⽂, 例⽂⽇本語訳の⽣成 (イメージ) 英単語1900 No.1~10 ・ ・ ・ No.11~20 No.21~30 No.1890 ~1900 No.1~10 英単語1900 + 例⽂ No.10~20 No.20~30 No.1890 ~1900 OpenAI (例⽂作成処理) chunk chunk chunk chunk
© 2023, Amazon Web Services, Inc. or its affiliates. All
rights reserved. Pythonスクリプト (⼀部抜粋) OpenAPI の API_KEYの指定 LangChain, OpenAI ライブラリのインストール モデル(GPT-4), temperatureの指定 GPT-4を指定 temperature=0 を指定することで決定論的になる (inputが変わらなければ結果が変わらない)
© 2023, Amazon Web Services, Inc. or its affiliates. All
rights reserved. Pythonスクリプト (⼀部抜粋) 各チャンクに渡すプロンプトのテンプレートを指定 テンプレートに変数を埋め込む 三単現や複数形による揺らぎを 除去 (例. goes → go
© 2023, Amazon Web Services, Inc. or its affiliates. All
rights reserved. Pythonスクリプト (⼀部抜粋) チャンクごとにOpenAIに対してリクエストを送信 テンプレートに埋め込む 単語⼀覧
© 2023, Amazon Web Services, Inc. or its affiliates. All
rights reserved. Pythonスクリプト (⼀部抜粋) チャンクごとにOpenAIに対してリクエストを送信 結果: (chunk No.2968~2980 テンプレートに埋め込む 単語⼀覧
© 2023, Amazon Web Services, Inc. or its affiliates. All
rights reserved. 完成したもの (⼀部抜粋)
© 2023, Amazon Web Services, Inc. or its affiliates. All
rights reserved. 完成したもの (⼀部抜粋) AWSの⽂脈で例⽂が作成されている︕
© 2023, Amazon Web Services, Inc. or its affiliates. All
rights reserved. 結果 最後は⽬視で品質チェック: § どうしても想定外のノイズが残る。最後は⼈間の⽬でチェック & 除去 – youʼre , weʼre のような短縮系 – 三単現の s,es を除去した結果⽣じる単語の重複 • 例) OpenAIが 「goes」 を 「go」 と変換した結果、元々あった「go」と重 複する コスト(時間/お⾦): § スクレイピング: 15分くらい § 例⽂作成(OpenAI): 5並列で2時間くらい (Top: 3000まで算出) § OpenAIの⾦銭的コスト: $15.96
© 2023, Amazon Web Services, Inc. or its affiliates. All
rights reserved. © 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved. 頻出英単語の紹介
© 2023, Amazon Web Services, Inc. or its affiliates. All
rights reserved. 頻出英単語 Top10 → 栄えある1位は「following」
© 2023, Amazon Web Services, Inc. or its affiliates. All
rights reserved. 頻出英単語 Top20 → 簡単な単語も例⽂を⽤いて正しく意味を理解できるかチェックすると良い
© 2023, Amazon Web Services, Inc. or its affiliates. All
rights reserved. 頻出英単語 Top500〜
© 2023, Amazon Web Services, Inc. or its affiliates. All
rights reserved. 頻出英単語 Top〜1900
© 2023, Amazon Web Services, Inc. or its affiliates. All
rights reserved. 単語学習量とドキュメントのカバー率 1900単語をマスターすればドキュメントの 91.77% の単語をカバー ※1 ※1 集計から除去した単語もあるため実際の値はもう少し⾼い
© 2023, Amazon Web Services, Inc. or its affiliates. All
rights reserved. 単語帳はウェルスナビテックブログで公開︕ 公開形式 § CSV § JSON § Markdown 英語で読もう︕ AWSドキュメント頻出英単語集1900︕ https://tech.wealthnavi.com/entry/20230 623/1687480819
© 2023, Amazon Web Services, Inc. or its affiliates. All
rights reserved. まとめ l 英語で読むと最新の情報を正確に得ることができる l 頻出英単語1900をマスターすれば 90% 以上の単語が読める l 例⽂も合わせて学習することで AWS の⽂脈に沿って単語を学ぶこと ができる
© 2023, Amazon Web Services, Inc. or its affiliates. All
rights reserved. Thank you! © 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved. Takuya Mizuma @mizuma_t