Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
英語で読もう!AWSドキュメント頻出英単語集1900!と、その作り方
Search
TAKUYA MIZUMA
June 23, 2023
Technology
5
1.8k
英語で読もう!AWSドキュメント頻出英単語集1900!と、その作り方
AWS DevDay 2023の登壇記事です
TAKUYA MIZUMA
June 23, 2023
Tweet
Share
More Decks by TAKUYA MIZUMA
See All by TAKUYA MIZUMA
フロントエンドエンジニアのためのAWSアーキテクチャ
tmizuma
15
7.7k
Other Decks in Technology
See All in Technology
プロダクトエンジニア 360°フィードバックを実施した話
hacomono
PRO
0
120
コンピュータビジョンの社会実装について考えていたらゲームを作っていた話
takmin
1
500
The Future of SEO: The Impact of AI on Search
badams
0
240
Culture Deck
optfit
0
480
偏光画像処理ライブラリを作った話
elerac
1
130
NFV基盤のOpenStack更新 ~9世代バージョンアップへの挑戦~
vtj
0
280
Autonomous Database Serverless 技術詳細 / adb-s_technical_detail_jp
oracle4engineer
PRO
17
45k
JEDAI Meetup! Databricks AI/BI概要
databricksjapan
0
280
深層学習と古典的画像アルゴリズムを組み合わせた類似画像検索内製化
shutotakahashi
1
270
エンジニアが加速させるプロダクトディスカバリー 〜最速で価値ある機能を見つける方法〜 / product discovery accelerated by engineers
rince
4
490
OpenID Connect for Identity Assurance の概要と翻訳版のご紹介 / 20250219-BizDay17-OIDC4IDA-Intro
oidfj
0
410
ビジネスモデリング道場 目的と背景
masuda220
PRO
9
670
Featured
See All Featured
How to Think Like a Performance Engineer
csswizardry
22
1.4k
Documentation Writing (for coders)
carmenintech
67
4.6k
The Pragmatic Product Professional
lauravandoore
32
6.4k
Building Your Own Lightsaber
phodgson
104
6.2k
RailsConf 2023
tenderlove
29
1k
Navigating Team Friction
lara
183
15k
Designing for humans not robots
tammielis
250
25k
The Art of Delivering Value - GDevCon NA Keynote
reverentgeek
10
1.3k
Mobile First: as difficult as doing things right
swwweet
223
9.3k
How GitHub (no longer) Works
holman
314
140k
Writing Fast Ruby
sferik
628
61k
The Art of Programming - Codeland 2020
erikaheidi
53
13k
Transcript
© 2023, Amazon Web Services, Inc. or its affiliates. All
rights reserved. D E V D AY J U N 2 3 , 2 0 2 3
© 2023, Amazon Web Services, Inc. or its affiliates. All
rights reserved. © 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved. ӳޠͰಡ͏ʂ"84υΩϡϝϯτ සग़ӳ୯ޠूʂͱɺͦͷ࡞Γํ ⽔⾺ 拓也 (Mizuma Takuya) F - 3 - 1 Software Engineer Wealthnavi 株式会社
© 2023, Amazon Web Services, Inc. or its affiliates. All
rights reserved. ウェルスナビ株式会社 Software Engineer ⽔⾺ 拓也 (みずま たくや) --- Ø 全⾃動資産運⽤サービス の開発に従事 Ø 前職: アマゾンウェブサービスジャパン合同会社, Solutions Architect Ø 得意な⾔語 : JavaScript / TypeScript Ø 苦⼿な⾔語 : 英語 スピーカーの⾃⼰紹介
© 2023, Amazon Web Services, Inc. or its affiliates. All
rights reserved. 突然ですが・・
© 2023, Amazon Web Services, Inc. or its affiliates. All
rights reserved. 突然ですが・・ みなさん、AWSドキュメント英語で読んでいますか︕︖
© 2023, Amazon Web Services, Inc. or its affiliates. All
rights reserved. 英語でAWSドキュメントを読むことのメリット • ⽇本語に対応していないドキュメントがある • ⽇本語で読んだ場合細かいニュアンスを取りこぼす場合がある • 英語版と翻訳版で不⼀致がある場合、英語版が優先される • そもそも、翻訳精度が怪しいものが・・ • 英語で読めるとかっこいい
© 2023, Amazon Web Services, Inc. or its affiliates. All
rights reserved. とはいえ、 • 英語が苦⼿ • チャレンジしてみたが挫折した • 何から始めて良いかわからない • 単語がわからない
© 2023, Amazon Web Services, Inc. or its affiliates. All
rights reserved. とはいえ、 • 英語が苦⼿ • チャレンジしてみたが挫折した • 何から始めて良いかわからない • 単語がわからない ← ここにフォーカス ü 頻出順で単語を学んでいきたい ü 例⽂と合わせて単語を覚えたい
© 2023, Amazon Web Services, Inc. or its affiliates. All
rights reserved. AWS公式ドキュメント頻出英単語1900作ってみた
© 2023, Amazon Web Services, Inc. or its affiliates. All
rights reserved. Agenda l AWSドキュメント頻出英単語帳の作り⽅ l 頻出英単語の紹介
© 2023, Amazon Web Services, Inc. or its affiliates. All
rights reserved. © 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved. AWSドキュメント頻出英単語帳の 作り⽅
© 2023, Amazon Web Services, Inc. or its affiliates. All
rights reserved. 単語帳作成の基本⽅針 作成⽅針 • AWS 公式ドキュメントをスクレイピングする • ドキュメント内の単語をカウントし頻出順にソートする • 単語帳としての体裁を整える (単語/⽇本語訳/例⽂/例⽂⽇本語訳) あきらめること • 熟語、句動詞、慣⽤句の集計 : § 単語単位で集計するので複数の単語の組み合わせで意味を持つものは対象として 認識できない • ドキュメントの網羅性 : → sitemap に登録されていないドキュメントもある (Cognito のドキュメント
© 2023, Amazon Web Services, Inc. or its affiliates. All
rights reserved. スクレイピングの対象 • sitemap から AWS ドキュメントURLの⼀覧を取得する ※ 英語版のみ § https://docs.aws.amazon.com/sitemap_index.xml → 9,567 pages! as of 2023.5.30 • 単語の集計範囲は #main-col-body > p::text (左図の⾚枠部分) • ノイズ除去のためページの Header や Footer, API Document は対象から外す 対象 対象外
© 2023, Amazon Web Services, Inc. or its affiliates. All
rights reserved. 単語の集計⽅法 • Python 製の Scrapy でスクレイピング • { “単語”: 出現数 } のフォーマットで集計 • AWSドキュメント単語帳として不要な⽂字列を除去
© 2023, Amazon Web Services, Inc. or its affiliates. All
rights reserved. 単語帳から除去する⽂字列 • 冠詞や前置詞, 助動詞, 主格代名詞 といった基本的な品詞 § 例) a, the, can, I, you • 特定の企業やサービス名 § 例) Amazon, AWS, EC2, Aurora, EKS … • ⼩〜中学校レベルの基本的な単語 § 例) have, get, like, book, some, good, people … • その他 § 数字、記号、その他単体で意味を成さない⽂字列
© 2023, Amazon Web Services, Inc. or its affiliates. All
rights reserved. 単語の集計 • Python 製の Scrapy でスクレイピング • { “単語”: 出現数 } のフォーマットで集計 • AWSドキュメント単語帳として不要な⽂字列を除去 the: 定冠詞 you: 代名詞 to: 前置詞 can: 助動詞 be: be 動詞 in: 前置詞、副詞
© 2023, Amazon Web Services, Inc. or its affiliates. All
rights reserved. 単語の集計 • Python 製の Scrapy でスクレイピング • { “単語”: 出現数 } のフォーマットで集計 • AWSドキュメント単語帳として不要な⽂字列を除去 aws, acm: サービスや企業の固有名詞 get, what: 基本的な単語
© 2023, Amazon Web Services, Inc. or its affiliates. All
rights reserved. 単語帳としての体裁を整える 単語帳に必要な要素 § 英単語 § ⽇本語訳 § 例⽂(英) § 例⽂⽇本語訳 OpenAI (Model: GPT-4) を使⽤して例⽂を作成 § 1900個の単語の例⽂と⽇本語訳の⽣成
© 2023, Amazon Web Services, Inc. or its affiliates. All
rights reserved. OpenAI を⽤いた例⽂, 例⽂⽇本語訳の⽣成 ChatGPT (⼿作業) の場合 § token制限により⼀度のやり取りで10~15単語程度しか作成できない § GPT-4の利⽤制限 (25 requests / 3 hours) § レスポンスが安定しない LangChain を使ってOpenAIへのリクエストを⾃動化 ← 採⽤︕ § LangChain: ⼤規模⾔語モデルを拡張するライブラリ (Python/Typescript) § API呼び出しの場合、時間単位の利⽤制限なし § temperature (ランダム性) = 0 を指定してレスポンスが安定 § 1900語の単語を複数のchunkに分けて並列して実⾏ → (続く)
© 2023, Amazon Web Services, Inc. or its affiliates. All
rights reserved. OpenAI を⽤いた例⽂, 例⽂⽇本語訳の⽣成 (イメージ) 英単語1900 No.1~10 ・ ・ ・ No.11~20 No.21~30 No.1890 ~1900 No.1~10 英単語1900 + 例⽂ No.10~20 No.20~30 No.1890 ~1900 OpenAI (例⽂作成処理) chunk chunk chunk chunk
© 2023, Amazon Web Services, Inc. or its affiliates. All
rights reserved. Pythonスクリプト (⼀部抜粋) OpenAPI の API_KEYの指定 LangChain, OpenAI ライブラリのインストール モデル(GPT-4), temperatureの指定 GPT-4を指定 temperature=0 を指定することで決定論的になる (inputが変わらなければ結果が変わらない)
© 2023, Amazon Web Services, Inc. or its affiliates. All
rights reserved. Pythonスクリプト (⼀部抜粋) 各チャンクに渡すプロンプトのテンプレートを指定 テンプレートに変数を埋め込む 三単現や複数形による揺らぎを 除去 (例. goes → go
© 2023, Amazon Web Services, Inc. or its affiliates. All
rights reserved. Pythonスクリプト (⼀部抜粋) チャンクごとにOpenAIに対してリクエストを送信 テンプレートに埋め込む 単語⼀覧
© 2023, Amazon Web Services, Inc. or its affiliates. All
rights reserved. Pythonスクリプト (⼀部抜粋) チャンクごとにOpenAIに対してリクエストを送信 結果: (chunk No.2968~2980 テンプレートに埋め込む 単語⼀覧
© 2023, Amazon Web Services, Inc. or its affiliates. All
rights reserved. 完成したもの (⼀部抜粋)
© 2023, Amazon Web Services, Inc. or its affiliates. All
rights reserved. 完成したもの (⼀部抜粋) AWSの⽂脈で例⽂が作成されている︕
© 2023, Amazon Web Services, Inc. or its affiliates. All
rights reserved. 結果 最後は⽬視で品質チェック: § どうしても想定外のノイズが残る。最後は⼈間の⽬でチェック & 除去 – youʼre , weʼre のような短縮系 – 三単現の s,es を除去した結果⽣じる単語の重複 • 例) OpenAIが 「goes」 を 「go」 と変換した結果、元々あった「go」と重 複する コスト(時間/お⾦): § スクレイピング: 15分くらい § 例⽂作成(OpenAI): 5並列で2時間くらい (Top: 3000まで算出) § OpenAIの⾦銭的コスト: $15.96
© 2023, Amazon Web Services, Inc. or its affiliates. All
rights reserved. © 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved. 頻出英単語の紹介
© 2023, Amazon Web Services, Inc. or its affiliates. All
rights reserved. 頻出英単語 Top10 → 栄えある1位は「following」
© 2023, Amazon Web Services, Inc. or its affiliates. All
rights reserved. 頻出英単語 Top20 → 簡単な単語も例⽂を⽤いて正しく意味を理解できるかチェックすると良い
© 2023, Amazon Web Services, Inc. or its affiliates. All
rights reserved. 頻出英単語 Top500〜
© 2023, Amazon Web Services, Inc. or its affiliates. All
rights reserved. 頻出英単語 Top〜1900
© 2023, Amazon Web Services, Inc. or its affiliates. All
rights reserved. 単語学習量とドキュメントのカバー率 1900単語をマスターすればドキュメントの 91.77% の単語をカバー ※1 ※1 集計から除去した単語もあるため実際の値はもう少し⾼い
© 2023, Amazon Web Services, Inc. or its affiliates. All
rights reserved. 単語帳はウェルスナビテックブログで公開︕ 公開形式 § CSV § JSON § Markdown 英語で読もう︕ AWSドキュメント頻出英単語集1900︕ https://tech.wealthnavi.com/entry/20230 623/1687480819
© 2023, Amazon Web Services, Inc. or its affiliates. All
rights reserved. まとめ l 英語で読むと最新の情報を正確に得ることができる l 頻出英単語1900をマスターすれば 90% 以上の単語が読める l 例⽂も合わせて学習することで AWS の⽂脈に沿って単語を学ぶこと ができる
© 2023, Amazon Web Services, Inc. or its affiliates. All
rights reserved. Thank you! © 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved. Takuya Mizuma @mizuma_t