の比較 15 https://github.com/enakai00/rl_book_solutions/blob/master/Chapter06/SARSA_vs_Q_Learning_vs_MC.ipynb SARSA: 17 ############ # 901# # 2# # 8 3# #01 7 G 4# # 2 6 65# # 345 # # # ############ Q-Learning: 15 ############ # 6789# # 5 0# # 4 1# #0123 G 2# # 43# # # # # ############ MC: 15 ############ # 6789# # 5 0# # 4 1# #0123 G 2# # 43# # # # # ############ • この例では Q(S, A) の初期値が 0 なので、 Exploration がより積極的に行われる点に注意