• 以前はRNNやLSTMを使ったseq2seqモデルを使っていたが現在は Transformerベース ◦ 主に全結合層とAttention層で構成 ➢ Attention層で、ある入力が他のどの情報に関連しているかを学習 ◦ 入力値(ベクトル)に位置情報ベクトル(Positional Encoding)を加算 ➢ ある入力に対する相対的な位置情報を取得 ➢ RNNやLSTMのような再帰構造を取る必要がなくなり、並列処理が可能に ☆ 大規模モデル(LLM: Large Language Model)誕生のきっかけ ◦ 詳細は割愛 元になった論文は以下 ➢ Attention is All You Need (https://arxiv.org/abs/1706.03762)