SREに思う

2018/12/31

SRE

t f B! P L
記事内に広告が含まれています。

話題の職種SRE

今年はSREが話題になった。SRE本が出て広く読まれたということもあるが、バズワードになることなく実体が伴っているということは、SRE Advent Calendar 2018 - Qiitaの各記事を見ても明らかだろう。

ただ、SREと呼ばれる役職はやることが多岐にわたるため、「SREの部隊を作る」と言われた時の不安も多い。

運用エンジニアを補充するための方便

SRE本第1章には、システムの運用をソフトウェアエンジニアが行うようにしたとある。運用を行うのだからと、従来の運用(devとopsに分断した状態のops)のミッションのまま、「SRE」と偽って人を集めるところがでてくると、不幸だ。
第5章に、「運用業務を、各人の作業時間の50%以下に抑えるという目標」とある。つまり、SREチームは運用チームの単純な言い換えではないのだ。運用業務以外のエンジニアリング、つまり、ツールの作成や信頼性のための機能の追加、モニタリングのセットアップなどの活動が、業務時間の半分を超えるような職種だ。「問題が発生したから対処する」という受け身の運用チームとは、性格が全く異なっている。
「攻めの運用チーム」と仕事をしたという記憶が残っていないので、SREは運用チームとは異なった職種であるとは言い切れないのだが、少なくとも、「受け身の運用チーム」とは異なった職種であろう。

class SRE implements DevOps

悩んでいた一文ではあったのだが、Advent Calender 24日目のSRE風のインフラエンジニアにならないために - Work Recordsを読んで納得。確かに、高速にリリースできれば問題が起きた時も ロールバックする/修正版をリリースする どちらの手段も有効だろう。

しかし、devが「高速にリリースできる」ように作っていないと無理な話だし、opsにはそれを実行するための腕が必要になってくる。devとopsが顧客へのサービス提供という点で協力し合う文化が醸成されていなければ、難しい話だ。

  • 「運用回避」のまま放置されている障害
  • devには公開されていない本番環境のリソース使用状況
  • リリースに立ち会わないdevチーム
  • devにエスカレーションされない障害通知のチケット
うまく協力し合えていないのではないか?という事象は、いろいろ考えられる。協力の文化がないところには、SREは時期尚早ではないか?

監視

SRE本第3章、エラーバジェットの話。客観的なメトリクスを定義し、そこからSLOとエラーバジェットを規定する。devとopsの対立を、「エラーバジェット」を導入して解決する。ここで重要になってくるのが、定義したメトリクスの監視。
自社のサービスの監視項目を見てもすっきりしなかったので、考え直してみた。

  • インフラレイヤーでの監視
  • サービスレイヤーでの監視
  • devが気にする項目の監視
インフラレイヤーでの監視は、AWSのCloudWatchにデフォルトで出てくる項目だったり、Mackerel(マカレル): 新世代のサーバ管理・監視サービスのagentがデフォルトで監視している項目である。「サーバ監視」と言っても良いかもしれない。
サービスレイヤーでの監視は、インフラレイヤーよりももう少し大きな視点から見た監視。極端なことを言えば、サーバが1台止まっていても、ちゃんと可用性を確保する構成になっていて提供サービスに影響がなければ「問題なし」と判断する。
devが気にする項目の監視は、APMと呼ばれる分野かもしれない。サーバが動いていても、リクエストに対する処理の1つがエラーになったらNGと判断する。
この3つに分類してみると、サービスレイヤーでの監視を行うサービス(商品)は少ない気がする。URL外形監視をおこなう - Mackerel ヘルプなどのURL監視や、LoadBalancerでのレスポンスタイムやHTTP Statusの監視くらいか。

ただ、[SRE Advent Calendar] 監視システムの特徴から考える監視設計のポイント - かつひささんの日記にあるように、SREの成果を見るには信頼性を計測する必要があるので、そう簡単な話では済まないはずだ。サービスにするほどのニーズが集まらない(分散してしまう)とか、そもそもSREはプログラムを書ける人だから自分たちで作ってしまっているとか、そういった事情があるのだろう。
監視の目的がサーバ監視とは異なるから、従来の運用チームが使っていた仕組みではうまくいかない可能性も考えておく必要がある。

まとめ

信頼性の問題は、SREという役を作れば解決するものではない。そういった役割を作れるだけの文化が醸成されていないかぎり、そして、役を作れば解決するという考えを改めない限り、どんなことをやっても解決しないだろう。

楽天で探す
楽天市場
にほんブログ村 IT技術ブログへ

人気の投稿

ブログ アーカイブ

自己紹介

パワハラをなぁなぁで済まそうとする奴がCxOやっている会社を辞めました。ストックオプションは半分しか行使できなかったけど、あんな人たちには関わりたくないですね。

アフィリエイト

  • 当ブログ「Hiroaki's blog」は、amazon.co.jpを宣伝しリンクすることによってサイトが紹介料を獲得できる手段を提供することを目的に設定されたアフィリエイト宣伝プログラムである、Amazonアソシエイト・プログラムの参加者です。
  • 当ブログでは、第三者配信による広告サービスを利用しています。このような広告配信事業者は、ユーザーの興味に応じた商品やサービスの広告を表示するため、当サイトや他サイトへのアクセスに関する情報 (氏名、住所、メール アドレス、電話番号は含まれません) を使用することがあります。このプロセスの詳細やこのような情報が広告配信事業者に使用されないようにする方法については、ここをクリックしてください。
  • アクセストレードアフィリエイトプログラムに参加しています。
  • A8.netアフィリエイトプログラムに参加しています。
  • バリューコマースアフィリエイトプログラムに参加しています。
  • もしもアフィリエイトプログラムに参加しています。

プライバシーポリシー

当サイトにアクセスされる場合、IPアドレスなどの情報または閲覧状況に関するデータが機械的に生成され、場合によっては個人情報と関連付けられる可能性があります。プライバシー保護に関する適用法に準じて、これらの通信および閲覧に関するデータを収集、処理、および利用することがあります。
当サイトにアクセスされる場合、非個人情報(ブラウザの種類、OSの種類、ドメイン名、訪問数、平均滞在時間、ページ・ビューなど個人を特定できない情報)が自動収集される場合があります。当サイトのパフォーマンスやコンテンツを改善する目的で、これらの情報を利用する場合があります。
アフィリエイトでは成果を把握するためにcookie等を利用しています。それ以外の目的で使用されることはありません。詳しくは各社のページにて確認してください。
本サイトに掲載する情報に関しては、正しいものを提供することを務めていますが、掲載内容から、いかなる損失や損害などの被害が発生しても、当ブログでは責任を追いかねます。

改正電気通信事業法に関する表記

・掲載内容

当サイトでは成果報酬型広告/クリック型広告の効果測定のため、利用者の方のアクセス情報を外部事業者に送信しております。
当該の情報は個人を特定する情報ではございません。また当該の情報が目的外利用される事は一切御座いません。

1.送信される情報の内容
  • 広告の表示日時
  • 広告のクリック日時
  • 広告の計測に必要なクッキー情報
  • 広告表示時及び広告クリック時のIPアドレス
  • 広告表示時及び広告クリック時に使用されたインターネット端末およびインターネットブラウザの種類
2.送信先となる事業者の氏名又は名称
  • グーグル合同会社
  • 楽天グループ株式会社
  • アマゾンジャパン合同会社
  • ヤフー株式会社
  • 株式会社ファンコミュニケーションズ
  • 株式会社もしも
3.利用目的

成果報酬型広告/クリック型広告の効果測定および不正防止のため

QooQ