SRE NEXT 2020に参加したのでブログレポートを。
https://qiita.com/Hassan/items/6f7fb1c206f77716ee2a
全体の感想
SRE NEXTに参加するにあたって、アプリエンジニアとの対比として、運用の非機能要件を担うと決めたエンジニアとは、どのような心持ちなのかを聞きに来るつもりで参加しました。 様々な「実践したこと」が話されていて、凄く刺激になった。
話したこと
所属企業では、スポンサーを担っており、私はスポンサーセッションで以下の発表をしました。 AIをプロダクト化する組織で、実プロダクトにするために考えてやってきたことを駆け足で話させてもらいました。
タクシーxAIを支えるKubernetesとAIデータパイプラインの信頼性の取り組みについて https://www.slideshare.net/dena_tech/xaikubernetesai-sre-next-2020
聴講して印象に残っているもの
以下の感想は所属企業の考えではなく、私個人の感想です。
分散アプリケーションの信頼性観測技術に関する研究
https://speakerdeck.com/yuukit/a-study-of-sre?slide=17
SREは信頼性を制御することを前提に置いた一つのアプローチである
今まで非機能要件といわれてきたものに、工学として当てはめようとするアプローチがSREなんだという気づきを得た。
パフォーマンスを最大化するためのSREオンボーディング事例
https://speakerdeck.com/tkuchiki/sre-next-2020
SREとしてオンコールを受けられるようにするまで、組織でやっていることの事例。 この話は"新人に対して"であるが、私の課題にオンコールを受けられるエンジニアをどうやって増やして今の組織で回していくか、というのがあって、そこにつながるアプローチに思えて、参考になった。
Paractices for Making Alerts Actionable
https://speakerdeck.com/egmc/practices-for-making-alerts-actionable
アラートの計測を行い、定期的な振り返りで改善していった話。
スクラムを1年回して SREと開発組織がどう変わったのか
https://speakerdeck.com/licht110/sukuramuwo1nian-hui-site-sretokai-fa-zu-zhi-gadoubian-watutafalseka
開発とは異なるSREで、スクラムをまわして、タスクコントロールしていった事例。 優先度を数値にして、それを基準にプロダクトと握るのは凄く正しく、SREでもそれができるとの話が印象的だった。
ZOZO MLOps のチームリーディングとSRE (Engineering)
https://docs.google.com/presentation/d/1zEkR9Dm_epg7fxOCFE-asBsUlHDozwObsBEGAILiqic/
心理的安全性を下げる組織の作りを、ただ心理的安全性というだけではなく実践して文化にしていくのに感心した。 印象に残ったことは多いですが、振り返りたいと思ったのは以下のこと。
実践Observability
https://www.slideshare.net/toshihumianan/observability-224174523
本当に実践した内容を話してくれて、とても参考になる。 Release後もTestは続くという考え方とても良いと思う。 Istio入れて、どこでBlue/Greenするかとか、クラスター外もトレースできているの良いなと思う。
Webサービスを1日10回デプロイするための取り組み
https://speakerdeck.com/fujiwara3/sre-next-2020
だれでも安全に、即座にデプロイできる仕組みは開発体験に重要
これの実践するために何をしていったかというお話。
- Rundeck デプロイに使っているJob Scheduler
- ghch Gitの履歴からChangeLogを自動生成
- デプロイ履歴をGoogleカレンダーに