Upgrade to Pro — share decks privately, control downloads, hide ads and more …

英和辞書付きGo言語仕様書 / Word Wise Go Spec

DQNEO
July 19, 2021

英和辞書付きGo言語仕様書 / Word Wise Go Spec

英和辞書付きGo言語仕様書(Word Wise Go Spec)というのを作りました。
https://dqneo.github.io/gospec/spec.html

開発した動機や仕組みについての解説です。

DQNEO

July 19, 2021
Tweet

More Decks by DQNEO

Other Decks in Programming

Transcript

  1. 特徴 • インストール不要 ◦ 単なるWebページ • 専用辞書が組み込まれている ◦ 専門用語に強い (例:

    operator, expression) ◦ 余分な情報がゼロ (例: room) ◦ Go言語に詳しい人間が作った ▪ Goコンパイラ2回作った経験 ▪ Go言語仕様輪読会での利用実績 /メンバーからのコントリビュート • masterの最新版仕様(v1.17)に対応済み ◦ https://tip.golang.org/ref/spec へのパッチとして実装されている
  2. 翻訳を作るのは大変 • 作業量が膨大 ◦ 文書が2万語あったら、2万語全部翻訳する必要 • 複数人で分業しづらい (品質のバラツキ、用語や文体のバラツキ) • オリジナルに追従しつづけるのが大変

    • モチベーションが続かない ◦ 少なくとも、自分が欲していない ※翻訳にも価値はあると思うし、 翻訳にたずさわっている方には敬意を表します
  3. 辞書付き仕様書の利点 (作り手視点) • てこの原理が効く ◦ 20,000語の文書でも、単語をユニークカウントすると 1400語ほど ◦ 多くの単語は和訳不要 ▪

    a, the, of, because などの基本語 ▪ package, pointer などカタカナ語として定着してる単語 ◦ 500語分の辞書を作れば、大半の文章はカバーできる • 複数人分担しやすい ◦ 単語単位の翻訳なので、品質のバラツキは生じにくい • オリジナルの変更に追従するのが簡単 ◦ 仕様変更で文章が変わっても、辞書はそのまま適用できる ◦ 陳腐化しにくい • 作ってる本人にも恩恵がある ◦ 自分が欲しかったやつや〜
  4. 生トークンの問題 • 重複しまくり ◦ “the” が 1283回登場 • 句読点がトークン扱い ◦

    , : . “ • 単語の変異が、全て別トークン扱い ◦ variables, variable ◦ specify, specifies, specifying, specified
  5. 発展課題 • 多言語対応 ◦ 中国語、韓国語、スペイン語 etc ◦ 辞書さえ用意すれば実装は簡単 • 英文を構文解析して視覚化

    ◦ どれが主語でどれが述語か ◦ どの形容詞/副詞がどの名詞/動詞を修飾してるか