1.4K Views
February 14, 24
スライド概要
ことらっしゅ#2 ユーザー企業が喜ぶシステム障害対応改善事例のポイントを学ぼう(+書籍紹介)
発表したスライドです。
https://co-trou-sh.connpass.com/event/308423/
人材業界でITサービスマネジメントを担当しています。 執筆書籍『システム障害対応実践ガイド』(翔泳社) https://www.amazon.co.jp/dp/479817890X
ユーザー企業が喜ぶ、 システム障害対応改善事例のポイントを学ぼう + 書籍 『3カ⽉で改善!システム障害対応実践ガイド』 ご紹介 2024/2/13 ことらっしゅ#2 松浦修治
⾃⼰紹介 松浦修治 @shujinext #カオス耐性 #⽕消し屋 #⼈材業界 #IT企画 #プロマネ #内製開発マネジメント ←EM #ITサービスマネジメント ←今ここ 2
「ことらっしゅ」について • システム障害対応の担当者コミュニティです ü 協同でシステム障害対応を変え、 改善を⽬指していくコミュニティです。 • 活動内容 ü connpassで勉強会を開いています(2-3ヶ⽉に1回) ü slackでコミュニティ運営をしています(後で告知します) 3
「ことらっしゅ」ハッシュタグ スライドや会場⾵景など、撮影OKです︕ (個⼈の写り込みにはケアください) #cotroush ここから、ハッシュタグ付きで Xが⽴ち上がります! 4
『3カ⽉で改善︕ システム障害対応 実践ガイド』 (翔泳社)
ことらっしゅ#1 イベントレポート EnterpriseZineの記事になりました。 https://enterprisezine.jp/article/detail/18781
おかげ様で、読んで頂けてます︕ Amazonカテゴリ 1位 1位期間 ⾼順位期間 書泉ブックタワー 秋葉原* 先⾏販売期間 コンピュータ書 週間2位
今⽇の流れ 1時間ちょっとです。 *リアル参加の⽅は近くの店で懇親会へ︕(当⽇参加応相談) # 時刻 1 19:00 2 19:05 時間 話者 内容 5 松浦修治 オープニング 35 松浦修治 本編 3 19:40 5 ⾼島恭亮 【LT】品質管理部⾨ってこんな事で困ってます 〜障害から学ぶには〜 5 19:45 5 栗原章⼆ 【LT】⽣成AI時代の障害対応における ナレッジマネジメント 6 19:50 5 栗原章⼆ 【会場LT】アシスト様より 7 19:55 5 松浦修治 クロージング、アンケート 8 20:00 - ー 撤収、懇親会へ(徒歩3-5分)
Special Thanks アシストさまには、 会場とZoomをご提供いただきました︕ ありがとうございます︕
本編 ユーザー企業が喜ぶ、 システム障害対応改善事例の ポイントを学ぼう
アジェンダ 1.書籍の紹介 ü Part1 障害対応の⽬的と改善効果 ü Part2 障害対応改善の阻害要因と成功要因 *Part3(改善の実践編)は、、、読んでのお楽しみ︕ 2.ユーザー企業が喜ぶ改善事例のポイント紹介 ü 無駄アラートの削減による改善パターン ü アクションの判断移譲による改善パターン 3. 告知 ü 障害対応担当者コミュニティ
書籍の特徴 • システム障害対応 実践ガイド」は… 1. 「協同」を全⼒で推している 2. 改善へ踏み出す「きっかけ」になる 3. 「考え⽅と実践」を意識している 4. 「アクション起点」のススメ 5. 「付録」が充実している
「システム障害対応 実践ガイド」は… 協同を全⼒で推している
『3カ⽉で改善︕ システム障害対応 実践ガイド』
「協同」とは? 開発チーム と ユーザー企業 が 助け合いながらシステム障害対応にあたること。 関係上、難しいこともある… それでも、スタンダードにしたい。 助け合えば、障害対応の改善は、 もっと進むはず。 そして、エンドユーザーへの影響を最⼩化したい。
「システム障害対応 実践ガイド」は… 改善へ踏み出すきっかけになる
どんな本︖ 進みづらいシステム障害対応の改善が、 ⼀歩、踏み出すきっかけになる本︕ 管理者 担当者 何が課題なの︖ ⽬的は何︖ 改善効果って、あるの︖ 関係者の協⼒や理解を得られない... 改善のプロセスや勘所がわからない... せんぶ書いてます︕
読者の声(経営者/管理者) 場当たり的な障害対応から 抜け出せていない⽅がこの書籍を読み、 短時間で体系的に改善してほしい、 と思いました。 サービス視点という点が好き。 なかなかサービス視点になれず、 運⽤/保守視点での対応になりがち。 ⾃分の頭にある改善プロセスが明⽂化 されていた。慣れていないメンバーは、 特にPart3は⼀読してもらうと良いと思う。
読者の声(保守/運⽤担当) 普遍的な「保守をする」ことの価値、 そのために必要な業務として、 致命的な障害を乗り越える組織の作り⽅が 書かれていると感じました 現場経験の少ない読者には、新鮮で勉強にな ると思います。私の前職でもこういう捉え⽅ はできてなかったので、ある意味パラダイム シフト的に前向きな印象を感じます。 障害対応の現場で抱えがちな問題点や、 改善可能な箇所が多数挙げられていて、 かなり「実践」に踏み込んだ内容の障害対 応の改善の本だな、と思いました。
「システム障害対応 実践ガイド」は… 考え⽅と実践を意識している
書籍のスコープ 右の図の範囲です。 障害の認識(受付)から、 サービス影響を、 いかに最⼩化するか︕ の戦い。 収束(暫定対応)まで。 収束とは、障害によるサービス影響が 落ち着くまで、という意味 写真⼊れる
章⽴ての構成 • 実践の流れを意識しています Part1︓⽬的と改善効果 Part2︓阻害要因と成功の鍵 ⇨考え⽅︓管理者向け 写真⼊れる Part3︓改善ステップによる実践 ⇨実践⽅法︓担当者向け
Part1 , Part2 の紹介 お待たせしました。 内容に⼊っていきます。 「考え⽅と実践を意識している」の 前者を紹介します。
Part1 システム障害対応の ⽬的と改善効果
障害対応って、何のためにやってる︖ • システム障害の影響の総量を最⼩化し、IT サービ スがもたらす価値(投資効果)を維持するため
保守の貢献 • 保守に時間をかけないと、結局⾼くつく。 極端な例ですが、、、 ・定量的な数字で⽰すこと ・価値総量を説明すること によって、マネジメントや 経営に響くと考えます。
障害対応を改善すると、何が嬉しい︖ • 顧客のため、従業員のため、会社のため。 改善の 狙い サービス プロフィット チェーン https://globis.jp/article/2127
Part2 システム障害対応改善の 阻害要因と成功要因
何が改善を阻害するのか • ⼈間の⼼理、ITサービスは複雑、運⽤設計が不完全
何をすると改善が成功しやすいのか • サービス視点を持つこと。
電⾞遅延のアナウンスでたとえると • どっちが、ユーザーとして有益ですか︖ • となると、障害が発⽣した時、我々は何を顧客に伝え るべきでしょうか。
「システム障害対応 実践ガイド」は… “アクション起点”を勧めている
本質はアクション起点にあり • 「アクション」に注⽬し、障害発⽣に備えておく 基幹システムの重要機能にて障害発⽣︕ サービス影響が出そう... 例︓復旧のアクション候補 サーバーを再起動︖⾃然復旧を待つ︖ バッチをリランさせる︖ アプリ改修する︖ アクション選択に必要な情報 アプリ改修は半⽇かかる。実績もあるので、 まずはバッチのリランで部分復旧させよう。
本質はアクション起点にあり • ユーザー視点のアクションも想定しておく 基幹システムの重要機能にて障害発⽣︕ サービス影響が出そう... 例︓利⽤者のアクション候補 復旧を待つ︖ 顧客へお詫びする︖ 別機能で代替する︖ アクション選択に必要な情報 1時間以上、復旧⾒込みがないため、 代替として、XX機能をご利⽤ください。
「システム障害対応 実践ガイド」は… 付録が充実している
改善の実践事例 • このあとで紹介しますので、詳細は割愛します。
便利な雛形 • 書籍で紹介した改善を即実践できるエクセル集
アジェンダ 1.書籍の紹介 ü Part1 障害対応の⽬的と改善効果 ü Part2 障害対応改善の阻害要因と成功要因 *Part3(改善の実践編)は、、、読んでのお楽しみ︕ 2.ユーザー企業が喜ぶ改善事例のポイント紹介 ü 無駄アラートの削減による改善パターン ü アクションの判断移譲による改善パターン 3. 告知 ü 障害対応担当者コミュニティ
アラートを減らせた事例 • 保守運⽤を効率化することで余剰時間が作れた ⽉に4.5-9時間 の削減 他の作業に費やせ る時間が増えた 遅延アラート増 えてた ⼀覧化して遅延 閾値の⾒直し 保守運⽤が効率化 攻めの予防保守ができる︕
何が起きていた︖ • 気を遣われていた。 「お客様になるべくお⼿間 をかけさせないように気を 遣っていたのですが」
どう感じているか︖ 気を遣わず、 改善ネタを持ち込んでくれると 嬉しい。
事例2から分かること • 「保守に時間をかけてはならない」バイアスがある • しかし、保守の「改善」に時間をかけ、保守の時間を減らせた • その上で、攻め(予防保守等)の提案があると最⾼です SIer ユーザー企業 守 り 時間をかけてはならない 客に⼿間を取らせてはだめ 無駄な作業も黙ってやるのだ 保守運⽤はblack boxになりがち 改善ネタは持ち込んで欲しい 時間を使っても成果が出るなら、 それは⽴派な価値提供 攻 め 前向きな作業までやる暇ない 障害対応プロセスを改善したい できれば予防保守をしたい
アクションの事前合意の事例 • 夜間エスカレ電話の無⽤パターンを減らした 電話連絡が8割減 リードタイムも短縮 商⽤作業は必ず 電話(無駄な リードタイム) パターンごとの 対処を事前合意 何のためにやってい るか、本質的に何が ⼤事なのか考えた
何が起きていた︖ • ⽬的を⼀部⾒失っていたのでは︕︖ 「本来何のための障害対応 なのか改めて意識すること ができました」
どう感じているか︖ そもそもの⽬的や価値を ⼀緒に考えてくれると 嬉しい。
事例3から分かること • ルールや決めたことを確実に遂⾏するのは⼤切 • しかし、それそのものは⼿段。時に⽬的を⾒失いがち • どちらからでもいいので、そもそも何のため︖に⽴ち返ること ⽬的 ⽬的 ⽬的 判断ミスなき障害復旧 ➡ ⬆ ⼿段 全件エスカレ電話する ⼿段 リードタイム最短化 ➡ ⼿段 ⬆ 判断ミスなき障害復旧 ユーザー影響最⼩化 ⬆ リードタイム最短化 上記の持続性を⾼めるためには、(⽬的) リードタイムが短くなれば、 (⼿段) 夜間保守担当の健康にも好影響だと⾔える。 https://globis.jp/article/4953
アジェンダ 1.書籍の紹介 ü Part1 障害対応の⽬的と改善効果 ü Part2 障害対応改善の阻害要因と成功要因 *Part3(改善の実践編)は、、、読んでのお楽しみ︕ 2.ユーザー企業が喜ぶ改善事例のポイント紹介 ü 無駄アラートの削減による改善パターン ü アクションの判断移譲による改善パターン 3. 告知 ü 障害対応担当者コミュニティ
【告知】 ことらっしゅ slackコミュニティ
「ことらっしゅコミュニティ」とは システム障害対応担当者のslackコミュニティです。 皆さんの「これをやりたい(orこれを知りたい)」 を、全⼒で⽀援します︕ 障害に備えて、 システムの何をどれくらい 把握しておくべきかな アラート多すぎるから 書籍の改善を実践したい やったことある⼈いないかな 障害の重⼤度判定って、 他社はどんな軸と階層で やってるんだろう 協同で改善かー。 顧客との関係構築、 みんなは どうやってるのかな
書籍 はじめに 私たちの障害対応は、 まだまだ 伸び代がある︕
こんな時に、コミュニティぜひ活⽤を︕ 協同、助け合いの精神で︕ 誰かの ⼒になりたい︕ 困った︕ 助けて︕ 成果が出たので ⾃慢したい︕ ⼀緒に 考えて欲しい。 話を聞いて ほしい
書籍 おわりに 困った時に、 助け合える世界 にしたい。 みんなで 踏み出して、 世界を変えよう︕
どんなコミュニティになるのか みなさんと⽬指したい姿としては ⽇本で最もシステム障害対応について語られている。 協同、助け合いの精神に溢れ、 改善の試みと実績が発信され、 「ここがきっかけでシステム障害対応が変わった」 と⾔えるような場に。
ことらっしゅ slackコミュニティ 少しでも興味をお持ちでしたらぜひ︕
質疑応答 (Sli.do)
今⽇の流れ それでは、LTの部に⼊りたいと思います︕ # 時刻 1 19:00 2 19:05 時間 話者 内容 5 松浦修治 オープニング 35 松浦修治 本編 3 19:40 5 ⾼島恭亮 【LT】品質管理部⾨ってこんな事で困ってます 〜障害から学ぶには〜 5 19:45 5 栗原章⼆ 【LT】⽣成AI時代の障害対応における ナレッジマネジメント 6 19:50 5 栗原章⼆ 【会場LT】会場ご提供のアシスト様より 7 19:55 5 松浦修治 クロージング、アンケート 8 20:00 - ー 撤収、懇親会へ(徒歩3-5分)
クロージング
【告知】 デブサミ2024 野村浩司さん登壇︕
デブサミで我々が着るTシャツ • ⾒かけたら声をかけてください︕ 鏡の写真なので逆⽂字。 これが正体版。
2/15⽊ 15:20-15-50 参加される⽅は 会場で会いましょう︕ https://event.shoeisha.jp/devsumi/20240215/session/4805
アンケートのお願い
アンケートのお願い 2分ほど取りますので、ぜひアンケートへ ご協⼒お願いします。
ありがとうございました︕ 最後に写真撮影タイム︕
ユーザー企業が喜ぶ、 システム障害対応改善事例のポイントを学ぼう + 書籍 『3カ⽉で改善!システム障害対応実践ガイド』 ご紹介 2024/2/13 ことらっしゅ#2 松浦修治