DatadogによるNVIDIA GPUのモニタリング

2015年12月29日By ngi644 Cuda, Datadog, Python, 日常

Datadog でNVIDIA GPUをモニタリングする

機械学習をしているとCUDAを使った計算が多くなります．計算している時のGPUのステータスをモニタリングしたくなりました．それもリモートで監視したかったので，Datadogによる監視をしてみようと考えました．DatadogのAgentは，デフォルトではGPUのモニタリング項目はありません．しかし，Datadogは，AgentのCheckスクリプトを簡単に作成・追加することができます．そこで，GPUの状態を監視するスクリプトを作成しました．NVIDIAの nvidia-ml-py モジュールを使って取得しています．

現在は，GPU毎に４項目(トータルメモリ，使用メモリ，空きメモリ，温度)しか取得していませんが，すこしづつ増やしていこうと思います．なお，取得したい項目等が有れば教えてください．追加していきます．

Metrics

gpu.total: トータルメモリ
gpu.used: 使用中メモリ
gpu.free: 空きメモリ
gpu.temp: 温度

Tags

name: GPU名(例: GEFORCE_GTX_660)

コードは以下にあります

https://github.com/ngi644/datadog_nvml

リファレンス