SRE NEXT 2020参加レポート

SRE NEXT 2020に参加したのでブログレポートを。

https://qiita.com/Hassan/items/6f7fb1c206f77716ee2a

全体の感想

SRE NEXTに参加するにあたって、アプリエンジニアとの対比として、運用の非機能要件を担うと決めたエンジニアとは、どのような心持ちなのかを聞きに来るつもりで参加しました。 様々な「実践したこと」が話されていて、凄く刺激になった。

話したこと

所属企業では、スポンサーを担っており、私はスポンサーセッションで以下の発表をしました。 AIをプロダクト化する組織で、実プロダクトにするために考えてやってきたことを駆け足で話させてもらいました。

タクシーxAIを支えるKubernetesとAIデータパイプラインの信頼性の取り組みについて https://www.slideshare.net/dena_tech/xaikubernetesai-sre-next-2020

聴講して印象に残っているもの

以下の感想は所属企業の考えではなく、私個人の感想です。

分散アプリケーションの信頼性観測技術に関する研究

https://speakerdeck.com/yuukit/a-study-of-sre?slide=17

SREは信頼性を制御することを前提に置いた一つのアプローチである

今まで非機能要件といわれてきたものに、工学として当てはめようとするアプローチがSREなんだという気づきを得た。

パフォーマンスを最大化するためのSREオンボーディング事例

https://speakerdeck.com/tkuchiki/sre-next-2020

SREとしてオンコールを受けられるようにするまで、組織でやっていることの事例。 この話は"新人に対して"であるが、私の課題にオンコールを受けられるエンジニアをどうやって増やして今の組織で回していくか、というのがあって、そこにつながるアプローチに思えて、参考になった。

Paractices for Making Alerts Actionable

https://speakerdeck.com/egmc/practices-for-making-alerts-actionable

アラートの計測を行い、定期的な振り返りで改善していった話。

スクラムを1年回して SREと開発組織がどう変わったのか

https://speakerdeck.com/licht110/sukuramuwo1nian-hui-site-sretokai-fa-zu-zhi-gadoubian-watutafalseka

開発とは異なるSREで、スクラムをまわして、タスクコントロールしていった事例。 優先度を数値にして、それを基準にプロダクトと握るのは凄く正しく、SREでもそれができるとの話が印象的だった。

ZOZO MLOps のチームリーディングとSRE (Engineering)

https://docs.google.com/presentation/d/1zEkR9Dm_epg7fxOCFE-asBsUlHDozwObsBEGAILiqic/

心理的安全性を下げる組織の作りを、ただ心理的安全性というだけではなく実践して文化にしていくのに感心した。 印象に残ったことは多いですが、振り返りたいと思ったのは以下のこと。

  • KPTその日にアクション
  • 1on1 でAction Itemの確認、ちゃんとやる
  • 文化として「技術力で殴る」
  • リーダーをボトルネックにしない

実践Observability

https://www.slideshare.net/toshihumianan/observability-224174523

本当に実践した内容を話してくれて、とても参考になる。 Release後もTestは続くという考え方とても良いと思う。 Istio入れて、どこでBlue/Greenするかとか、クラスター外もトレースできているの良いなと思う。

Webサービスを1日10回デプロイするための取り組み

https://speakerdeck.com/fujiwara3/sre-next-2020

だれでも安全に、即座にデプロイできる仕組みは開発体験に重要

これの実践するために何をしていったかというお話。