takemikami’s note – http://takemikami.com/ PolyCoderとは • カーネギーメロン大学の研究者が開発 • GPT-2に基づき27億パラメータを持つ • 12種類のプログラミング言語 247GBのコードで訓練されている • Hugging Face Hub にモデルが 公開されており、容易にアクセスできる Copyright (C) Takeshi Mikami. All rights reserved. 5 PolyCoderの紹介およびコード生成 PolyCoderを紹介します PolyCoderを紹介します オープンソースのプログラミング言語の大規模言語モデル 次のPaperで、Codex, GPT-J, GPT-Neo, GPT-NeoX20B, CodeParrot との比較評価がされている Frank F. Xu, et al. "A Systematic Evaluation of Large Language Models of Code", 2022 https://arxiv.org/pdf/2202.13169.pdf
takemikami’s note – http://takemikami.com/ 文脈において該当トークンが出現する確率の求め方 • 次のようにウィンドウをスライドさせながら、 ウィンドウ(=文脈,context)において、トークン(=word)が出現する確率を求めます Copyright (C) Takeshi Mikami. All rights reserved. 10 VS Code拡張&PolyCoderによるレビュー支援 文脈において該当トークンが出現する確率の求め方を説明します 文脈において該当トークンが出現する確率の求め方を説明します Hugging Face is a startup based in New York City and Paris. P(word|context) Hugging Face is a startup based in New York City and Paris. P(word|context) Hugging Face is a startup based in New York City and Paris. P(word|context) … トークン毎の確率計算はPerplexityの説明が参考になる https://huggingface.co/docs/transformers/perplexity ウィンドウスライドのイメージ: