Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Nishika_Bussei_mi-solution_3rd_solution.pdf

Nishika-Inc
April 10, 2023
320

 Nishika_Bussei_mi-solution_3rd_solution.pdf

Nishika-Inc

April 10, 2023
Tweet

Transcript

  1. コンペ概要 材料の組成や構造の情報から生成エネルギー(eV/atom)を予測する 生成エネルギー(eV/Atom) 標準状態の元素に対する化合物のエネルギーを原子単位に正規化した値 例:Fe2O3の場合は以下の式で算出されます。 (<Fe2O3のエネルギー> -2 * <Feのエネルギー> -

    3/2 * <O2のエネルギー>) / 5 参考情報 https://github.com/materialsproject/mapidoc/blob/master/materials/formation_energy_per_atom/README.md コンペの「data_explanation.xlsx」より抜粋 学習データ、テストデータの特徴量 ・組成式の•原子の数 ・組成式の原子の種類数 ・組成式の原子の合計数 ・正規化された化学式 ・結晶構造情報(cif) train.csv
  2. ソリューション(Overview) *1:https://hackingmaterials.lbl.gov/matminer/index.html/https://www.sciencedirect.com/science/article/abs/pii/S0927025618303252?via%3Dihub *2:https://github.com/materialsvirtuallab/megnet/ https://pubs.acs.org/doi/10.1021/acs.chemmater.9b01294 *3:https://github.com/usnistgov/alignn/ https://www.nature.com/articles/s41524-021-00650-1 MEGNet*2 ALIGNN*3 Training data

    Structure object POSCAR file Composition object Feature Engineering ( Matminer*1) Prediction Prediction Prediction Prediction Prediction Prediction Prediction Prediction Prediction Prediction Prediction LightGBM LightGBM LightGBM LightGBM LightGBM e n s e m b l e Prediction Matminerを用いて Composition objectとStructure object から特徴量作成 epochやfold、 外れ値除去の条件などを 変えて3条件で学習 epochやcutoff半径などを変えて 3条件で学習 Public:0.0638 (3rd) Private:0.067835 (3rd)
  3. Matminer*を用いた特徴量エンジニアリング Matminer:材料の組成や構造の情報から記述子を生成できるライブラリ * https://hackingmaterials.lbl.gov/matminer/index.html https://www.sciencedirect.com/science/article/abs/pii/S0927025618303252?via%3Dihub Training data Structure object Composition

    object Feature Engineering Structure Summary Lattice abc : 3.912223 3.912223 3.912223 angles : 90.0 90.0 90.0 volume : 59.878485316366636 A : 3.912223 0.0 2.395545687250328e-16 B : 6.291334416885879e-16 3.912223 2.395545687250328e-16 C : 0.0 0.0 3.912223 PeriodicSite: V (0.0000, 0.0000, 0.0000) [0.0000, 0.0000, 0.0000] PeriodicSite: Os (1.9561, 1.9561, 1.9561) [0.5000, 0.5000, 0.5000] PeriodicSite: O (1.9561, 1.9561, 0.0000) [0.5000, 0.5000, 0.0000] PeriodicSite: O (1.9561, 0.0000, 1.9561) [0.5000, 0.0000, 0.5000] PeriodicSite: O (0.0000, 1.9561, 1.9561) [0.0000, 0.5000, 0.5000] (V, Os, O) 例 例
  4. Matminer*を用いた特徴量エンジニアリング Training data Structure object Composition object Feature Engineering Structure

    Summary Lattice abc : 3.912223 3.912223 3.912223 angles : 90.0 90.0 90.0 volume : 59.878485316366636 A : 3.912223 0.0 2.395545687250328e-16 B : 6.291334416885879e-16 3.912223 2.395545687250328e-16 C : 0.0 0.0 3.912223 PeriodicSite: V (0.0000, 0.0000, 0.0000) [0.0000, 0.0000, 0.0000] PeriodicSite: Os (1.9561, 1.9561, 1.9561) [0.5000, 0.5000, 0.5000] PeriodicSite: O (1.9561, 1.9561, 0.0000) [0.5000, 0.5000, 0.0000] PeriodicSite: O (1.9561, 0.0000, 1.9561) [0.5000, 0.0000, 0.5000] PeriodicSite: O (0.0000, 1.9561, 1.9561) [0.0000, 0.5000, 0.5000] (V, Os, O) 例 例 Composition object Structure object ・原子の物性に関する特徴量 ・酸化に関する特徴量 ・原子の組成比に関する特徴量 ・価数に関する特徴量 ・イオン物性に関する特徴量 ・密度に関する特徴量 ・配位数に関する特徴量 ・近隣原子との物性の違いに関する特徴量 ・構造の不均一性に関する特徴量 ・化学的規則性に関する特徴量 ・原子充填率に関する特徴量 400個弱の 特徴量を作成 * https://hackingmaterials.lbl.gov/matminer/index.html https://www.sciencedirect.com/science/article/abs/pii/S0927025618303252?via%3Dihub Matminer:材料の組成や構造の情報から特徴量を生成できるライブラリ
  5. MEGNet* MEGNet:結晶構造を入力とする原子間相互作用に注目したGNNベースのモデル Structure Summary Lattice abc : 3.912223 3.912223 3.912223

    angles : 90.0 90.0 90.0 volume : 59.878485316366636 A : 3.912223 0.0 2.395545687250328e-16 B : 6.291334416885879e-16 3.912223 2.395545687250328e-16 C : 0.0 0.0 3.912223 PeriodicSite: V (0.0000, 0.0000, 0.0000) [0.0000, 0.0000, 0.0000] PeriodicSite: Os (1.9561, 1.9561, 1.9561) [0.5000, 0.5000, 0.5000] PeriodicSite: O (1.9561, 1.9561, 0.0000) [0.5000, 0.5000, 0.0000] PeriodicSite: O (1.9561, 0.0000, 1.9561) [0.5000, 0.0000, 0.5000] PeriodicSite: O (0.0000, 1.9561, 1.9561) [0.0000, 0.5000, 0.5000] MEGNet Training data Structure object Prediction 例 * https://github.com/materialsvirtuallab/megnet https://pubs.acs.org/doi/10.1021/acs.chemmater.9b01294
  6. MEGNet*での検証 CV:0.0870 CV(外れ値除去後):0.0830 Public:0.0791 (Private:0.0813) Train data Validation data 外れ値を消去した方がCVとLBの相関が良かった

    target (eV/atom) prediction (eV/atom) * https://github.com/materialsvirtuallab/megnet https://pubs.acs.org/doi/10.1021/acs.chemmater.9b01294
  7. スコア推移とシングルモデルのCV-LB相関 0 0.02 0.04 0.06 0.08 0.1 0.12 0.14 0.16

    0 5 10 15 20 25 30 35 40 45 Public LB score Submit回数 GBDTベース 特徴量エンジニアリングでどこま で精度が上がるかを検証 ⇒ 精度が0.11くらいで頭打ち GNNベース GBDTベースで精度が頭打ちに なったため、MEGNetを試す ⇒ 0.1の壁を超える GNN+GBDT GNNとGBDT(GNNの predictionを特徴量に加えた) のアンサンブルが効きそうなこと が分かる GNNベース アンサンブル用にALIGNNを 試し始める アンサンブル 今までの実験を挙動などを 見ながらアンサンブル CVとLBの相関 相関はとれていそうだったので、 All dataでの学習に着手 0 0.02 0.04 0.06 0.08 0.1 0.12 0.14 0.16 0 0.05 0.1 0.15 0.2 Public LB score CV score シングルモデルのCV-LB相関(代表点) GBDT MEGNet ALIGNN