Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
英語で読もう!AWSドキュメント頻出英単語集1900!と、その作り方
Search
TAKUYA MIZUMA
June 23, 2023
Technology
5
2.1k
英語で読もう!AWSドキュメント頻出英単語集1900!と、その作り方
AWS DevDay 2023の登壇記事です
TAKUYA MIZUMA
June 23, 2023
Tweet
Share
More Decks by TAKUYA MIZUMA
See All by TAKUYA MIZUMA
フロントエンドエンジニアのためのAWSアーキテクチャ
tmizuma
15
8.1k
Other Decks in Technology
See All in Technology
田舎で20年スクラム(後編):一個人が企業で長期戦アジャイルに挑む意味
chinmo
1
1.3k
BidiAgent と Nova 2 Sonic から考える音声 AI について
yama3133
2
150
Oracle Database@Google Cloud:サービス概要のご紹介
oracle4engineer
PRO
1
900
Digitization部 紹介資料
sansan33
PRO
1
6.5k
AI時代のアジャイルチームを目指して ー スクラムというコンフォートゾーンからの脱却 ー / Toward Agile Teams in the Age of AI
takaking22
11
6k
善意の活動は、なぜ続かなくなるのか ーふりかえりが"構造を変える判断"になった半年間ー
matsukurou
0
420
Node vs Deno vs Bun 〜推しランタイムを見つけよう〜
kamekyame
1
400
サラリーマンソフトウェアエンジニアのキャリア
yuheinakasaka
38
18k
Master Dataグループ紹介資料
sansan33
PRO
1
4.2k
Data Hubグループ 紹介資料
sansan33
PRO
0
2.6k
Claude Codeを使った情報整理術
knishioka
20
12k
「違う現場で格闘する二人」——社内コミュニティがつないだトヨタ流アジャイルの実践とその先
shinichitakeuchi
0
270
Featured
See All Featured
Self-Hosted WebAssembly Runtime for Runtime-Neutral Checkpoint/Restore in Edge–Cloud Continuum
chikuwait
0
280
Imperfection Machines: The Place of Print at Facebook
scottboms
269
13k
Dealing with People You Can't Stand - Big Design 2015
cassininazir
367
27k
Mobile First: as difficult as doing things right
swwweet
225
10k
Evolution of real-time – Irina Nazarova, EuRuKo, 2024
irinanazarova
9
1.1k
The Illustrated Guide to Node.js - THAT Conference 2024
reverentgeek
0
220
Agile that works and the tools we love
rasmusluckow
331
21k
Evolving SEO for Evolving Search Engines
ryanjones
0
95
Thoughts on Productivity
jonyablonski
74
5k
The Cost Of JavaScript in 2023
addyosmani
55
9.4k
Have SEOs Ruined the Internet? - User Awareness of SEO in 2025
akashhashmi
0
230
Exploring the Power of Turbo Streams & Action Cable | RailsConf2023
kevinliebholz
37
6.2k
Transcript
© 2023, Amazon Web Services, Inc. or its affiliates. All
rights reserved. D E V D AY J U N 2 3 , 2 0 2 3
© 2023, Amazon Web Services, Inc. or its affiliates. All
rights reserved. © 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved. ӳޠͰಡ͏ʂ"84υΩϡϝϯτ සग़ӳ୯ޠूʂͱɺͦͷ࡞Γํ ⽔⾺ 拓也 (Mizuma Takuya) F - 3 - 1 Software Engineer Wealthnavi 株式会社
© 2023, Amazon Web Services, Inc. or its affiliates. All
rights reserved. ウェルスナビ株式会社 Software Engineer ⽔⾺ 拓也 (みずま たくや) --- Ø 全⾃動資産運⽤サービス の開発に従事 Ø 前職: アマゾンウェブサービスジャパン合同会社, Solutions Architect Ø 得意な⾔語 : JavaScript / TypeScript Ø 苦⼿な⾔語 : 英語 スピーカーの⾃⼰紹介
© 2023, Amazon Web Services, Inc. or its affiliates. All
rights reserved. 突然ですが・・
© 2023, Amazon Web Services, Inc. or its affiliates. All
rights reserved. 突然ですが・・ みなさん、AWSドキュメント英語で読んでいますか︕︖
© 2023, Amazon Web Services, Inc. or its affiliates. All
rights reserved. 英語でAWSドキュメントを読むことのメリット • ⽇本語に対応していないドキュメントがある • ⽇本語で読んだ場合細かいニュアンスを取りこぼす場合がある • 英語版と翻訳版で不⼀致がある場合、英語版が優先される • そもそも、翻訳精度が怪しいものが・・ • 英語で読めるとかっこいい
© 2023, Amazon Web Services, Inc. or its affiliates. All
rights reserved. とはいえ、 • 英語が苦⼿ • チャレンジしてみたが挫折した • 何から始めて良いかわからない • 単語がわからない
© 2023, Amazon Web Services, Inc. or its affiliates. All
rights reserved. とはいえ、 • 英語が苦⼿ • チャレンジしてみたが挫折した • 何から始めて良いかわからない • 単語がわからない ← ここにフォーカス ü 頻出順で単語を学んでいきたい ü 例⽂と合わせて単語を覚えたい
© 2023, Amazon Web Services, Inc. or its affiliates. All
rights reserved. AWS公式ドキュメント頻出英単語1900作ってみた
© 2023, Amazon Web Services, Inc. or its affiliates. All
rights reserved. Agenda l AWSドキュメント頻出英単語帳の作り⽅ l 頻出英単語の紹介
© 2023, Amazon Web Services, Inc. or its affiliates. All
rights reserved. © 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved. AWSドキュメント頻出英単語帳の 作り⽅
© 2023, Amazon Web Services, Inc. or its affiliates. All
rights reserved. 単語帳作成の基本⽅針 作成⽅針 • AWS 公式ドキュメントをスクレイピングする • ドキュメント内の単語をカウントし頻出順にソートする • 単語帳としての体裁を整える (単語/⽇本語訳/例⽂/例⽂⽇本語訳) あきらめること • 熟語、句動詞、慣⽤句の集計 : § 単語単位で集計するので複数の単語の組み合わせで意味を持つものは対象として 認識できない • ドキュメントの網羅性 : → sitemap に登録されていないドキュメントもある (Cognito のドキュメント
© 2023, Amazon Web Services, Inc. or its affiliates. All
rights reserved. スクレイピングの対象 • sitemap から AWS ドキュメントURLの⼀覧を取得する ※ 英語版のみ § https://docs.aws.amazon.com/sitemap_index.xml → 9,567 pages! as of 2023.5.30 • 単語の集計範囲は #main-col-body > p::text (左図の⾚枠部分) • ノイズ除去のためページの Header や Footer, API Document は対象から外す 対象 対象外
© 2023, Amazon Web Services, Inc. or its affiliates. All
rights reserved. 単語の集計⽅法 • Python 製の Scrapy でスクレイピング • { “単語”: 出現数 } のフォーマットで集計 • AWSドキュメント単語帳として不要な⽂字列を除去
© 2023, Amazon Web Services, Inc. or its affiliates. All
rights reserved. 単語帳から除去する⽂字列 • 冠詞や前置詞, 助動詞, 主格代名詞 といった基本的な品詞 § 例) a, the, can, I, you • 特定の企業やサービス名 § 例) Amazon, AWS, EC2, Aurora, EKS … • ⼩〜中学校レベルの基本的な単語 § 例) have, get, like, book, some, good, people … • その他 § 数字、記号、その他単体で意味を成さない⽂字列
© 2023, Amazon Web Services, Inc. or its affiliates. All
rights reserved. 単語の集計 • Python 製の Scrapy でスクレイピング • { “単語”: 出現数 } のフォーマットで集計 • AWSドキュメント単語帳として不要な⽂字列を除去 the: 定冠詞 you: 代名詞 to: 前置詞 can: 助動詞 be: be 動詞 in: 前置詞、副詞
© 2023, Amazon Web Services, Inc. or its affiliates. All
rights reserved. 単語の集計 • Python 製の Scrapy でスクレイピング • { “単語”: 出現数 } のフォーマットで集計 • AWSドキュメント単語帳として不要な⽂字列を除去 aws, acm: サービスや企業の固有名詞 get, what: 基本的な単語
© 2023, Amazon Web Services, Inc. or its affiliates. All
rights reserved. 単語帳としての体裁を整える 単語帳に必要な要素 § 英単語 § ⽇本語訳 § 例⽂(英) § 例⽂⽇本語訳 OpenAI (Model: GPT-4) を使⽤して例⽂を作成 § 1900個の単語の例⽂と⽇本語訳の⽣成
© 2023, Amazon Web Services, Inc. or its affiliates. All
rights reserved. OpenAI を⽤いた例⽂, 例⽂⽇本語訳の⽣成 ChatGPT (⼿作業) の場合 § token制限により⼀度のやり取りで10~15単語程度しか作成できない § GPT-4の利⽤制限 (25 requests / 3 hours) § レスポンスが安定しない LangChain を使ってOpenAIへのリクエストを⾃動化 ← 採⽤︕ § LangChain: ⼤規模⾔語モデルを拡張するライブラリ (Python/Typescript) § API呼び出しの場合、時間単位の利⽤制限なし § temperature (ランダム性) = 0 を指定してレスポンスが安定 § 1900語の単語を複数のchunkに分けて並列して実⾏ → (続く)
© 2023, Amazon Web Services, Inc. or its affiliates. All
rights reserved. OpenAI を⽤いた例⽂, 例⽂⽇本語訳の⽣成 (イメージ) 英単語1900 No.1~10 ・ ・ ・ No.11~20 No.21~30 No.1890 ~1900 No.1~10 英単語1900 + 例⽂ No.10~20 No.20~30 No.1890 ~1900 OpenAI (例⽂作成処理) chunk chunk chunk chunk
© 2023, Amazon Web Services, Inc. or its affiliates. All
rights reserved. Pythonスクリプト (⼀部抜粋) OpenAPI の API_KEYの指定 LangChain, OpenAI ライブラリのインストール モデル(GPT-4), temperatureの指定 GPT-4を指定 temperature=0 を指定することで決定論的になる (inputが変わらなければ結果が変わらない)
© 2023, Amazon Web Services, Inc. or its affiliates. All
rights reserved. Pythonスクリプト (⼀部抜粋) 各チャンクに渡すプロンプトのテンプレートを指定 テンプレートに変数を埋め込む 三単現や複数形による揺らぎを 除去 (例. goes → go
© 2023, Amazon Web Services, Inc. or its affiliates. All
rights reserved. Pythonスクリプト (⼀部抜粋) チャンクごとにOpenAIに対してリクエストを送信 テンプレートに埋め込む 単語⼀覧
© 2023, Amazon Web Services, Inc. or its affiliates. All
rights reserved. Pythonスクリプト (⼀部抜粋) チャンクごとにOpenAIに対してリクエストを送信 結果: (chunk No.2968~2980 テンプレートに埋め込む 単語⼀覧
© 2023, Amazon Web Services, Inc. or its affiliates. All
rights reserved. 完成したもの (⼀部抜粋)
© 2023, Amazon Web Services, Inc. or its affiliates. All
rights reserved. 完成したもの (⼀部抜粋) AWSの⽂脈で例⽂が作成されている︕
© 2023, Amazon Web Services, Inc. or its affiliates. All
rights reserved. 結果 最後は⽬視で品質チェック: § どうしても想定外のノイズが残る。最後は⼈間の⽬でチェック & 除去 – youʼre , weʼre のような短縮系 – 三単現の s,es を除去した結果⽣じる単語の重複 • 例) OpenAIが 「goes」 を 「go」 と変換した結果、元々あった「go」と重 複する コスト(時間/お⾦): § スクレイピング: 15分くらい § 例⽂作成(OpenAI): 5並列で2時間くらい (Top: 3000まで算出) § OpenAIの⾦銭的コスト: $15.96
© 2023, Amazon Web Services, Inc. or its affiliates. All
rights reserved. © 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved. 頻出英単語の紹介
© 2023, Amazon Web Services, Inc. or its affiliates. All
rights reserved. 頻出英単語 Top10 → 栄えある1位は「following」
© 2023, Amazon Web Services, Inc. or its affiliates. All
rights reserved. 頻出英単語 Top20 → 簡単な単語も例⽂を⽤いて正しく意味を理解できるかチェックすると良い
© 2023, Amazon Web Services, Inc. or its affiliates. All
rights reserved. 頻出英単語 Top500〜
© 2023, Amazon Web Services, Inc. or its affiliates. All
rights reserved. 頻出英単語 Top〜1900
© 2023, Amazon Web Services, Inc. or its affiliates. All
rights reserved. 単語学習量とドキュメントのカバー率 1900単語をマスターすればドキュメントの 91.77% の単語をカバー ※1 ※1 集計から除去した単語もあるため実際の値はもう少し⾼い
© 2023, Amazon Web Services, Inc. or its affiliates. All
rights reserved. 単語帳はウェルスナビテックブログで公開︕ 公開形式 § CSV § JSON § Markdown 英語で読もう︕ AWSドキュメント頻出英単語集1900︕ https://tech.wealthnavi.com/entry/20230 623/1687480819
© 2023, Amazon Web Services, Inc. or its affiliates. All
rights reserved. まとめ l 英語で読むと最新の情報を正確に得ることができる l 頻出英単語1900をマスターすれば 90% 以上の単語が読める l 例⽂も合わせて学習することで AWS の⽂脈に沿って単語を学ぶこと ができる
© 2023, Amazon Web Services, Inc. or its affiliates. All
rights reserved. Thank you! © 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved. Takuya Mizuma @mizuma_t