の Attention が Tree Transformer と全く異な る構造を学習していることを示唆 ▪ この 1 文がよくわからなかった • “In addition, with a well-trained Transformer, it is not necessary for the Constituency Attention module to induce reasonable tree structures, because the training loss decreases anyway.” 15