Jira Service Management を使ってインシデント管理する
- 1 インシデント管理とは?
- 1.1 インシデント管理プロセス
- 1.1.1 1. インシデントの報告
- 1.1.2 2. インシデントの記録
- 1.1.3 3. インシデントの分類・優先度付け
- 1.1.4 4. インシデントの優先度の設定
- 1.1.5 5. 初期診断
- 1.1.6 6. インシデントの調査と診断
- 1.1.7 7. インシデントの解決と復旧
- 1.1.8 8. インシデントのクローズ
- 1.1 インシデント管理プロセス
- 2 インシデント 管理 プロジェクトのセットアップ
- 2.1 手順 1 -プロジェクトを作成する
- 2.2 手順 2 -チーム を作成する
- 2.3 手順 3 -オンコール スケジュールを設定する
- 2.4 手順 4 -他アプリとツールを統合する
- 2.4.1 チームに Slack を追加する
- 2.5 手順 5 -サービスを設定する
- 2.6 インシデントの一例
- 3 インシデント事後レビュー
インシデント管理とは?
インシデント管理は、開発チームと IT 運用チームがサービスの予期せぬ中断、またはサービスの品質の低下を可能な限り迅速にサービスを運用状態に戻すための一連の活動のことです。
インシデントの例
システム障害
メールの送受信ができない
システムにアクセスできない
社内システムの障害
ウイルス感染
外部からの攻撃
人的ミス
外部へ社内の機密情報流出や個人情報流出
インシデント管理プロセス
IT サービス管理テンプレートは特定のリクエストをインシデント管理ワークフローに関連付けます。
インシデント管理ワークフローは、ダウンタイムやビジネスに与える悪影響を削減するために、サービス プロジェクト のエージェントがサービスの中断や停止について調査、記録、および解決する際に役立ちます。
インシデント管理の大まかなフローは以下の通りです。
1. インシデントの報告
サービスのエンドユーザー、監視システム、または内部の IT メンバーがサービスの中断を報告します。
2. インシデントの記録
サービス デスクチームは日時、報告者名、インシデントの固有 ID を記録します。
3. インシデントの分類・優先度付け
サービスデスク チームは、インシデントを適切に分類するラベルを付けます。
4. インシデントの優先度の設定
サービスデスク チームは影響と緊急性に基づいてインシデントの優先順位を付けます。
5. 初期診断
インシデントの詳細な症状を探り、何がうまくいかなかったか、またそれをどのように是正すべきかを判断します。必要に応じて、チームはインシデントを開発チームやベンダーへエスカレーションします。
6. インシデントの調査と診断
サービスデスク チームは、インシデントに割り当てられたサポート担当者はインシデントの調査をし、影響を受けたサービスと可能な解決策を診断します。
7. インシデントの解決と復旧
サービスデスク チームはサービス中断を解決し、修正が正常に機能していることを確認します。解決状況は将来参照できるように完全にドキュメント化します。
8. インシデントのクローズ
サービスデスク チームはインシデントをクローズします。
インシデント 管理 プロジェクトのセットアップ
上述の大まかなインシデント 管理のプロセスを Jira Service Managment ではどのように実現していくか、セットアップとインシデントの一例をご紹介します。
Opsgenie のアラート、オンコール、インシデントの機能は、 Jira Service Management に 2025 年 2 月 16 日以降、 Jira Service Management に移行される予定です。詳細は以下のドキュメントをご参照ください。
https://support.atlassian.com/ja/jira-service-management-cloud/docs/start-shifting-from-opsgenie-to-jira-service-management/
手順 1 -プロジェクトを作成する
[プロジェクト] > [プロジェクトを作成] を選択します。
サービス管理テンプレートより使用するテンプレートを選択し、[テンプレートを使用] を選択します。
以下の例では「IT サービス管理」のテンプレートで企業管理対象プロジェクトで作成します。
プロジェクトの名前、プロジェクトキー、チームタイプ、チャネル アクセスを設定します。
[プロジェクトの作成] を選択します。
手順 2 -チーム を作成する
チームとは、システムの監視をする部署やサーバーオペレーションの部署などの運用ユニットのことです。
チームを設定することで、インシデントが発生した際に担当チームにアラートを通知し、素早く対処することができます。
すでにチームがある場合はこの操作はスキップできます。
上部のナビゲーションから、[チーム] > [チームを作成] を選択します。
チームの作成画面で必要項目を入力後、[チームを作成]を選択します。
Team name:チームの名前を設定します。
チームに招待するユーザー:チームメンバーを追加します。
Membership controls:ボックスにチェックを入れると承認を必要とせずに誰でもチームに参加できます。(選択を解除すると、ユーザーは承認をリクエストするか、既存のメンバーから招待を受ける必要があります)
手順 3 -オンコール スケジュールを設定する
オンコール スケジュールとは、クリティカルなインシデントチームメンバーがインシデントやアラートの処理を担当します。
手順2でチームを作成すると、デフォルトでエスカレーション ポリシーやオンコール スケジュールが適用できます。
Add schedule :新規でスケジュールを追加したい場合は、[On-call] タブの [Schedules] の横にある追加 (+) アイコンより新しいスケジュールを作成できます。
Add rotation : 日単位、週単位、カスタムのローテーションを作成することができます。ローテーションを作成する場合は、 [Schedules] の横の[・・・] > [Edit] を選択します。
Add override:休暇中、シフトの入れ替え、またはアラートに応答できない場合にオーバーライドを作成し、指定したユーザーが一定期間オンコール業務を一時的に引き継ぐことができます。オーバーライドを作成する場合は、[Schedules] 内の[Add override] を選択します。
ここでは、オンコール ユーザー Michishita は、2/7(金)9:00~12:00 は午前休暇のため、別の担当者にアサインします。
[Timezone]:タイムゾーンを設定します。
[From To]:オーバーライドの開始時間と終了時間を設定します。
[Select rotation]:ローテーションを選択します。
[Override shift participant with]:選択した時間にローテーションをオーバーライドする担当者を設定します。
設定した時間にローテーションをオーバーライドする担当者が表示されます。
オンコール スケジュール管理のベストプラクティスについては、こちらをご参照ください。
手順 4 -他アプリとツールを統合する
Jira Service Management の ChatOps アプリを使用して、アラートを監視および管理することができます。
アラートは通常、さまざまなソ-スから作成されます。(外部のサービスやアプリと統合、メール、 API、手動作成)
ここでは、Slack との統合をご紹介します。Slack と統合することで具体的には、アラートの通知を Slack から受け取ったり、アラートに対してアクションを実行することができます。アラートの作成方法については、こちら をご参照ください。
チームに Slack を追加する
ここでは、チームに Slack を追加する方法でご案内しますが、Jira サイトに直接 Slack を追加する場合は、こちら の手順をご参照ください。
Slack ワークスペースへの接続方法 の手順で Slack ワークスペースを Jira サイトに連携します。
[チーム]タブよりチームを選択後、「Operations」セクションで、[Go to operations] を選択します。
サイドバーで [Integrations] > [Add integrations] を選択します。
検索バーで ”Slack” と検索し、 [Slack] アイコンを選択します。
統合に関する詳細を入力します。
Integration name:統合に名前を付けます。
Responder team:アラートの対応チームを選択します。ここで選択したチーム宛に、アラートが送信されます。
Slack workspace:接続する Slack ワークスペースを選択します。
Slack channel or direct message:[Select on Slack] を選択し、この統合からのアラート通知を受け取るチャンネル、またはダイレクトメッセージを選択します。
[Turn on integration]を選択後、[Close]を選択します。
「Alert filters」では、特定のアラートのみ受信する条件を設定することができます。また、「Choose an alert activity to get Slack notifications」では Slack で通知を受け取るアクティビティを選択することができます。Status が “ON” になっていることを確認します。
手順 5 -サービスを設定する
サービスとは、ビジネスや顧客の要件に合った価値を提供するシステムです。
例えば、決済処理、Webサイト、モバイルアプリなどが含まれます。
サービスで運用に関係する関係者やサービスの応答者を設定しておくと、インシデントが発生した際に、サービスの関係者に情報を共有することができます。
サービス プロジェクトのサイドバー メニューから、[サービス] を選択します。
画面右上の [サービスの作成] を選択します。
以下の情報を入力し、[作成]を選択します。
名前:サービス名を入力します。
Service Type:サービスの性質を分類するためのラベルを設定します。
階層:サービスの重要度を設定します。
Service Owners:サービスのオーナーを設定します。ここでは手順2.で作成したチームを設定します。
その他の入力項目については、こちら をご参照ください。
インシデントの一例
インシデント発生から解決までの流れについて、シナリオ1では、「経理システムが動作しなくなった」を例にカスタマー(経理担当のユーザー)がチケットを起票し、エージェント(オンコールチーム)がどのように対処するかをご紹介します。
カスタマーは、ポータルからチケットを起票します。
要約 :インシデントのタイトルを付けます。
説明:インシデントの概要を記載します。
影響を受けるサービス:インシデント発生により影響を受けるサービスを選択します。ここでは、手順5. で作成したサービスを設定します。
緊急度:修正または解決の緊急度がどの程度かを選択します。
影響度:自身や組織にどの程度影響があるかを選択します。
共有先:リクエストをほかのユーザーや組織と共有します。
インシデントをメインで対応するユーザーを担当者に設定します。
ここでは、手順3. で設定したオンコールスケジュールを元に、以下の自動化で稼働しているオンコールユーザーに自動で担当者にアサインしています。
但し、複数ユーザーが同じ時間帯にいる場合は、オンコール対応者のうちの1名のみに割り当てされます。ランダムに割り当てしたり、各ユーザーに順番に割り当てたり、各ユーザーに同じ数のチケットを割り当てすることはできません。エージェントは、取り急ぎの対処法と調査中の旨、カスタマーに一次回答します。
インシデントの関係者、およびカスタマーに進捗状況を報告します。
インシデントの課題ビューよりチャンネルを追加すると、Atlassian Intelligence (Premium プラン以上の限定機能です) を使用したインシデントの要約やインシデントのタイムラインを作成することもできます。
インシデントの要約やタイムラインは、進行中のインシデントの管理に役立つだけでなく、インシデントが解決された後に確認できるため、インシデント事後レビューにも役立ちます。但し、現時点(2025/02)では英語のみで出力されます。
カスタマーにサービスの復旧を報告します。
下図では、Atlassian Intelligence でコメントを生成していますチケットの解決状況を「完了」にし、クローズします。
シナリオ1では、カスタマーがインシデントを検知してチケットを起票していました。
シナリオ2では、外部システムでインシデントを検知してアラートが作成され、オンコールチームによってインシデントチケットを起票するまでの流れをご紹介します。
外部システムにてインシデントを検知し、アラートが起票されます。
手順 4で Slack と統合している場合は、設定している条件に応じて以下のように Slack にアラート通知がされます。対応者がアラートを Acknowledged(=承認)すると、そのアラートの対応者および担当者になります。
予定されているエスカレーション時間より早くエスカレーションしたい場合、"Escalate to next (次へエスカレート)" アクションを使用し、エスカレーションすることができます。オンコール対応者は、[Create incident]よりインシデントチケットを起票します。
Atlassian Intelligence が要約、説明、優先度に対して記載内容を提案してくれます。この提案を[Insert]より挿入することもできますし、[Cancel]することもできます。
Team 内の Automation のテンプレートに「アラートが作成される→インシデントを作成する」もあるので、条件を細かく設定してインシデントチケットを自動化で作成することも可能です。
インシデントチケットが起票されると、キューに追加されます。
インシデントの関係者を追加してインシデントの進捗に関する最新情報を通知します。エージェントは、インシデントに追加することで関係者に最新情報を提供できます。
チケットにインシデントの緊急度と影響度を設定します。Jira Service Management の自動化ルールを作成し、緊急度と影響度から自動で優先度を設定することも可能です。
課題の詳細画面でアラートをインシデントチケットにリンクすることで、監視アラートのステータスを追跡して、アラートを承認した応答者や未承認のまま残っているアラートを確認することができます。
重大なインシデント(日常の業務を大幅に中断させるインシデント)の場合は、エージェントは「重大なインシデント」とマークし、他のインシデントと区別することができます。
キューのフィルター条件に JQL("Major incident" is not EMPTY) で設定しておくと、「重大なインシデント」とマークされたチケットを素早くキュー上で確認することができます。
インシデントの概要の共有や原因、解決方法の調査を円滑に行うために、エージェントはインシデントチケットから直接以下のツールを使用することが可能です。
Slack、Microsoft Teams、または別のメッセージング サービスのチャット チェンネル
電話会議、Zoom、実際の会議室でのビデオ チャット
サービスが復旧したら関係者に報告の上、チケットをクローズします。
インシデント事後レビュー
インシデント対応が完了したら、インシデントが起こった理由、その影響、再発防止策などをするためにインシデント事後レビュー(PIR)を作成します。
クローズしたチケットでインシデント事後レビューのアイコンを選択し、作成します。
プライマリインシデントを設定すると、プライマリインシデントの要約やタイムラインが表示できます。
Confluence のインシデント事後分析用のテンプレートを活用し、レポートとして記録します。
Related content
リックソフト株式会社 は、日本でトップレベルのAtlassian Platinum Solution Partnerです。
大規模ユーザーへの対応実績が認められたEnterpriseの認定をうけ、高度なトレーニング要件をクリアし、小規模から大規模のお客様まで対応可能な実績を示したパートナー企業です。
Copyright © Ricksoft Co., Ltd. プライバシーポリシー お問い合わせ