Slide 1

Slide 1 text

#RAKUSMeetup ©2020 RAKUS Co., Ltd. ©2020 RAKUS Co., Ltd. 4年間のレガシーシステム運用から 学んだトラブル対策の取り組み方 2020.9.16 配配メール開発課 西尾 敬太

Slide 2

Slide 2 text

#RAKUSMeetup ©2020 RAKUS Co., Ltd. 自己紹介 Work 前職 ・客先常駐メインのSierに入社 ・大半を某電機メーカー、某電子部品メーカーで過ごす ・基幹システムの設計~開発、保守運用に従事 現職 ・配配メール開発課に配属 ・配配メール/クルメルの2サービスを担当 ・運用業務全般、開発業務に従事 Private ・素潜り漁師歴10年 ・SUPボード歴2ヶ月 ・週末は海にいます

Slide 3

Slide 3 text

#RAKUSMeetup ©2020 RAKUS Co., Ltd. ・リリースから13年、導入実績7,000社を誇るメール配信システム ・近年はメールマーケティング機能を強化

Slide 4

Slide 4 text

#RAKUSMeetup ©2020 RAKUS Co., Ltd. ・来年でリリースから10年、様々なシステムのメール配信を支える ・豊富なAPI連携機能と大量配信に対応したプラン提供

Slide 5

Slide 5 text

#RAKUSMeetup ©2020 RAKUS Co., Ltd. SaaS運用担当者が抱える悩み ・蓄積されていく運用課題 ・予期せぬトラブルの発生 ・ノウハウやナレッジの属人化 ・毎月のように発生するリリース作業 And more …

Slide 6

Slide 6 text

#RAKUSMeetup ©2020 RAKUS Co., Ltd. SaaS運用担当者が抱える悩み ・蓄積されていく運用課題 ・予期せぬトラブルの発生 ・ノウハウやナレッジの属人化 ・毎月のように発生するリリース作業 And more …

Slide 7

Slide 7 text

#RAKUSMeetup ©2020 RAKUS Co., Ltd. トラブル対応の難しさ • 全てのトラブルを未然に防ぐことは不可能(に近い) • 全てを自分たちで制御できないのがSaaSサービスの運用

Slide 8

Slide 8 text

#RAKUSMeetup ©2020 RAKUS Co., Ltd. トラブル対応の難しさ • 全てのトラブルを未然に防ぐことは不可能(に近い) • 全てを自分たちで制御できないのがSaaSサービスの運用 発生したトラブルをいかにスムーズに収束させるか Point

Slide 9

Slide 9 text

#RAKUSMeetup ©2020 RAKUS Co., Ltd. 今回お話ししたいこと • これまでにどんなトラブルを経験し、どう対応してきたか • その結果できあがったトラブル対応のフレームワーク

Slide 10

Slide 10 text

#RAKUSMeetup ©2020 RAKUS Co., Ltd. メール系サービスにおける課題

Slide 11

Slide 11 text

#RAKUSMeetup ©2020 RAKUS Co., Ltd. メール系サービスにおける課題 1. メールを「作る」 ・HTMLメール作成は仕様が複雑 ・多様化する受信デバイスや流行デザインなどの変化が著しい 2. メールを「送る」 ・送るまでの手順が複雑 ・そもそもメールプロトコルや業界のルール自体がレガシー 3. メールが「届く」 ・送り先となる宛先に依存する ・送り元では送信した後の流れをコントロールできない

Slide 12

Slide 12 text

#RAKUSMeetup ©2020 RAKUS Co., Ltd. トラブル事例その1 外部サービスの利用に伴うリスク (メールを「作る」編)

Slide 13

Slide 13 text

#RAKUSMeetup ©2020 RAKUS Co., Ltd. 1. 外部サービスの利用に伴うリスク <課題> ※ 配配メールではHTMLエディタに海外のサービスを利用しています ※ • こちらでコントロールができない • 言語や時差によるタイムラグ(海外サービス) • 品質に対する根本的な考え方が日本と異なる(海外サービス)

Slide 14

Slide 14 text

#RAKUSMeetup ©2020 RAKUS Co., Ltd. 1. 外部サービスの利用に伴うリスク <トラブル概要> • HTMLエディタのメジャーバージョンアップ • 大幅な機能追加とUI刷新 • 顧客からの評判も上々 • IEとの決別!

Slide 15

Slide 15 text

#RAKUSMeetup ©2020 RAKUS Co., Ltd. 1. 外部サービスの利用に伴うリスク <トラブル概要> • HTMLエディタのメジャーバージョンアップ • 大幅な機能追加とUI刷新 • 顧客からの評判も上々 • IEとの決別! • 画像ファイル削除操作のメッセージ表記に誤り • 顧客がこれまでにアップロードしていた画像を全て消失 • 復旧できず・・・

Slide 16

Slide 16 text

#RAKUSMeetup ©2020 RAKUS Co., Ltd. 1. 外部サービスの利用に伴うリスク <トラブル概要> ・ページ制御された1ページ目だけの件数が表示されている ・実際の操作は「全削除」であり2ページ目以降にも チェックがついている

Slide 17

Slide 17 text

#RAKUSMeetup ©2020 RAKUS Co., Ltd. 1. 外部サービスの利用に伴うリスク <対応> ●緊急処置(外側の問題) • 早急なサービス提供事業者への クレーム 修正依頼 • 関連各部署への迅速な情報連携 • バージョン切り戻し ●恒久対策(内側の問題) • 外部サービスの検証手順強化 → 検証観点のチェックリスト化 • バックアップ設計のチェック強化 → 設計観点への追加 • バックアップの仕組み構築

Slide 18

Slide 18 text

#RAKUSMeetup ©2020 RAKUS Co., Ltd. 1. 外部サービスの利用に伴うリスク <気づき> • 導入には維持/運用コストも視野にいれた検討が大事 • 自社開発と同等の品質検査の実施が必要

Slide 19

Slide 19 text

#RAKUSMeetup ©2020 RAKUS Co., Ltd. トラブル事例その2 国内キャリアアドレスの負の遺産 (メールを「送る」編)

Slide 20

Slide 20 text

#RAKUSMeetup ©2020 RAKUS Co., Ltd. 2. 国内キャリアアドレスの負の遺産 <課題> • RFCにより標準化されているものの、過去の経緯による存在する例外

Slide 21

Slide 21 text

#RAKUSMeetup ©2020 RAKUS Co., Ltd. 2. 国内キャリアアドレスの負の遺産 <トラブル概要> • メールリレー機能の強化 • TO宛ての配信だけでなく、CC/BCC宛ての配信も可能に

Slide 22

Slide 22 text

#RAKUSMeetup ©2020 RAKUS Co., Ltd. 2. 国内キャリアアドレスの負の遺産 <トラブル概要> • メールリレー機能の強化 • TO宛ての配信だけでなく、CC/BCC宛ての配信も可能に • アドレス書式チェックの内容はそのままに、アドレスの取得元を変更 • RFC違反アドレスを受け取った際のMW側での加工 • これらが引き金となり特殊アドレスへのメールが送信ができない状態に

Slide 23

Slide 23 text

#RAKUSMeetup ©2020 RAKUS Co., Ltd. 2. 国内キャリアアドレスの負の遺産 <トラブル概要> 昔はよく見かけたこういうやつたち [email protected] → @の直前、または先頭にピリオド ___...osakana…[email protected] → 記号の連続

Slide 24

Slide 24 text

#RAKUSMeetup ©2020 RAKUS Co., Ltd. 2. 国内キャリアアドレスの負の遺産 <トラブル概要> docomo公式サイト https://www.nttdocomo.co.jp/info/spam_mail/change_add/

Slide 25

Slide 25 text

#RAKUSMeetup ©2020 RAKUS Co., Ltd. 2. 国内キャリアアドレスの負の遺産 <対応> ●緊急処置(外側の問題) • 関連各部署への迅速な情報連携 • バージョン切り戻しの検討 → 緊急リリースによる修正を実施 ●恒久対策(内側の問題) • メール配信検証パターンの強化 → 「特殊アドレス一覧」を作成 • メール配信検証手順の強化 → 「重要機能テスト」への組み込み

Slide 26

Slide 26 text

#RAKUSMeetup ©2020 RAKUS Co., Ltd. 2. 国内キャリアアドレスの負の遺産 <気づき> • システム構築時には考慮していたポイントが 時間の経過や担当者の入れ替えにより失念することはありがち • 当時の常識やトラブルで得た経験などは属人化させず、 ナレッジをテストデータ化しておく

Slide 27

Slide 27 text

#RAKUSMeetup ©2020 RAKUS Co., Ltd. トラブル事例その3 顧客誤操作による大量のエラー配信 (メールが「届く」編)

Slide 28

Slide 28 text

#RAKUSMeetup ©2020 RAKUS Co., Ltd. 3.顧客誤操作による大量のエラー配信 <課題> • 時に顧客はこちらの想定できない操作を行うもの • どの範囲までを予想し、どこまで対策を組み込んでおくか頭を悩ませる

Slide 29

Slide 29 text

#RAKUSMeetup ©2020 RAKUS Co., Ltd. 3.顧客誤操作による大量のエラー配信 <トラブル概要> • 顧客側システムにてクルメルとの連携試験を実施 • 試験中は本番配信されないよう、クルメル側でもサーバ設定を実施 • 試験が無事終了したとの報告を受け、サーバ設定も元に戻す

Slide 30

Slide 30 text

#RAKUSMeetup ©2020 RAKUS Co., Ltd. 3.顧客誤操作による大量のエラー配信 <トラブル概要> • 顧客側システムにてクルメルとの連携試験を実施 • 試験中は本番配信されないよう、クルメル側でもサーバ設定を実施 • 試験が無事終了したとの報告を受け、サーバ設定も元に戻す • 顧客誤操作により試験用のバッチが実行される • 大量のダミーアドレスに向けてメールが送信される • 全てがエラー(バウンス)メールとなり解析サーバがパンク • 他の顧客まで巻き込んだ解析遅延に陥る

Slide 31

Slide 31 text

#RAKUSMeetup ©2020 RAKUS Co., Ltd. 3.顧客誤操作による大量のエラー配信 <対応> ●緊急処置(外側の問題) • 溜まり続けるメールキューの退避 • トリガーとなった顧客への状況確認と再発防止依頼 ●恒久対策(内側の問題) • 解析サーバの増設 → 配配メール用/クルメル用/高エラー配信顧客用とに分割 • DNSラウンドロビンの導入 → サーバ増設 + 負荷分散によるW対策 • 上記を一次対応とし、根本対応を検討中

Slide 32

Slide 32 text

#RAKUSMeetup ©2020 RAKUS Co., Ltd. 3.顧客誤操作による大量のエラー配信 <気づき> • あらかじめ全ての顧客操作を予想した仕組みを構築しておくことは不可能 • 恒久対策にも「すぐできること」、「時間を要するもの」がある • リスク、再発性、コストのバランスで実施する対策を検討することが大切

Slide 33

Slide 33 text

#RAKUSMeetup ©2020 RAKUS Co., Ltd. まとめ

Slide 34

Slide 34 text

#RAKUSMeetup ©2020 RAKUS Co., Ltd. まとめ <トラブル発生時にすべきこと> ・まず外側の問題を素早く封じ込める! - サービスを再開させることを最優先に(被害を最小限に) - 優先順位付け - 関係者への報告・情報共有も重要 ・内側の問題は時間をかけて工夫する!! - 仕組みの導入や自動化 - 他部署との協力

Slide 35

Slide 35 text

#RAKUSMeetup ©2020 RAKUS Co., Ltd. まとめ <トラブルを未然に防ぐための施策も忘れずに> ・重要機能の定義 ・各種チェックリスト化 ・ナレッジの蓄積/共有 ・監視の仕組みを構築

Slide 36

Slide 36 text

#RAKUSMeetup ©2020 RAKUS Co., Ltd. ご静聴ありがとうございました