【AWS】クラウド初心者必見!AWSとはどのようなサービスなのか? | 株式会社ジャスミンシステム
AWS(Amazon Web Services)とは、Amazonが提供するクラウドコンピューティングサービスです。HG Insightsによると、2025年時点でAWSのビジネス顧客数は、約4...
https://www.wantedly.com/companies/jasmine-s/post_articles/965936
Photo by Celine Sayuri Tagami on Unsplash
Webサービスの安定運用において、SRE(Site Reliability Engineering)の視点は今や欠かせないものとなっています。
中でも「Datadog」は、SREの重要な武器のひとつです。
本記事では、SREの視点からDatadogをどのように活用するか、その具体的な手法や工夫についてご紹介します!
Datadogってなに?
👍200以上の統合が可能
👍ダッシュボードの柔軟性
👍アラート機能が強力
👍ログ、APM、RUMもひとつに
実践:SREがやっているDatadogの使い方
✨SLOベースのアラート設計
✨ダッシュボードでの運用状況の可視化
✨ログとの連携でトラブルシュートを加速
✨APM(Application Performance Monitoring)でのボトルネック把握
活用のコツと落とし穴
✅ Datadog活用のコツ
⚠️ Datadogの落とし穴
まとめ:DatadogはSREの心強い味方
Datadogは、クラウド時代に対応した統合監視プラットフォームです。
サーバーやアプリケーション、ネットワーク、ログ、トレース、そしてユーザビリティまで、幅広い情報を収集・可視化・分析することができます。
要するに、「これひとつで監視が全部できる」便利なサービスなのです!
とくに、AWSやAzure、GCPといったクラウドサービスとの連携を得意としています。
クラウドサービスのひとつであるAWSについて知りたい方は、こちらの記事をご覧ください。
Datadogは、ソフトをネット経由で提供する「SaaS型」で提供されているため、インストールやメンテナンスの手間も最小限です。
さらに、Web UIも直感的で、初めて触る人でも使いやすい設計になっています。
ここからは、Datadogの魅力を簡単にまとめます。
Datadogは、AWSやAzure、GCP、Kubernetes、MySQL、Redis、NGINX……などなど、有名どころのサービスやミドルウェアはほぼ網羅しています。
また、統合設定も簡単で、数クリックでデータの取得が始まります。
Datadogは、任意のメトリクスを組み合わせて、視覚的にわかりやすいダッシュボードを作成できます。
チームごとにダッシュボードをカスタムできるので、開発、運用、経営層など、見る人に合わせた情報を提供できます。
Datadogは、閾値ベースのアラートはもちろん、異常検知アルゴリズムを活用した動的アラートも作成できます。
また、通知先はSlackやTeams、PagerDutyなどと連携できるため、オンコール対応もスムーズです。
Datadogは、監視に必要な「ログ分析(Log)」や「アプリケーションパフォーマンス監視(APM)」、「リアルユーザー監視(RUM)」も一元管理できます。
問題の特定から原因の深掘りまで、ツールを切り替えることなく対応できるのは、Datadogの大きな魅力といえるでしょう。
ここから、実際にSREが実施しているDatadogの活用例を4つ紹介します。
SREは、SREの基本であるSLO(Service Level Objective)にもとづき、Datadogでアラートを設計します。
一例として、「99.9%のレスポンスタイムが500ms以下」という目標に対し、DatadogのSLO機能を使って目標との乖離を常時監視します。
ノイズを減らしつつ、信頼性に影響を与えるイベントだけを検知できる点が魅力的です。
SREは、Kubernetesクラスタやサーバーリソース、DBの応答時間など、各種メトリクスを一つの画面で確認できるようにDatadogを構成します。
Datadogは、オンコール中の担当者が即座に状況を把握できるよう、「今見るべき情報」にフォーカスした設計がポイントです。
SREは、DatadogのLog Explorer機能を活用し、アラート発報時に関連するログを即座に確認できるように設定します。
ログを即座に確認することで、特定のエラーコードやユーザー影響の大きいイベントをピンポイントで掘り下げられ、MTTR(平均復旧時間)の短縮が期待できます。
SREは、アプリのレスポンスが遅い、といった症状が発生した際、DatadogのAPM機能を用いてボトルネックとなっているエンドポイントや外部APIの呼び出しを特定します。
また、APMとプロファイル機能を併用することで、コードレベルの最適化にも踏み込めます。
Datadogを効果的に活用するための「コツ」と、ハマりがちな「落とし穴」を以下に整理してみました。
運用がチームに馴染むまでは少しコツが要ります。しかし、うまく使うと強力な相棒になりますよ!
Datadogは、単なる監視ツールではなく、信頼性を科学するSREにとって欠かせないプラットフォームです。
信頼性向上やトラブルの早期検知、開発と運用の連携強化——こうした目的に対し、Datadogは強力なサポートを提供してくれます。
Webサービスの監視において「次の一手」を考えるなら、DatadogをSRE視点で使いこなすことから始めてみてはいかがでしょうか?