제가 속해있는 랩은 GPU(와 멀티코어, 가속기 일체...)연구가 주 분야입니다만, 항상 성능에 대한 최적화 위주로 하다가 이번에 처음으로 GPU의 소모전력에 대한 연구를 하려 합니다.
일단 타겟은 V100이 여러장 들어있는 클러스터 노드로, S/W 적인 방법으로는 Nvidia가 제공하는 CUDA프로파일러 중 Nsight와 Visual Profiler가 전력소모에 대한 리포트를 제공한다고 하여 확인중입니다.
다만 제 생각에 SW에서 보고하는 값을 그대로 믿기보다는 시스템 밖에서 물리적으로 측정하여 상호 검증하는 방법도 있으면 좋을것 같아서 기글에 조언을 구해봅니다.
추가적인 장비가 필요하다면 구매도 고려하고 있습니다만, 목표로 하는 프로그램을 프로파일링 시 GPU 커널이 몇 us단위로 동작하는 것이 확인되어 최대한 정밀한 시간측정을 하는 방법을 고심중입니다.
구지 CUDA같은 GPGPU상황이 아니라도 렌더링,게임 등 일반적인 상황에서 GPU전력을 측정하는 방법은 하드웨어 커뮤니티의 내공이 있지 않을까 하여 아이디어를 여쭙습니다.
더구나 GPU의 연산을 위한 작동도 CPU가 어느정도 거들어야 되기에 실제의 필요한 전력까지 모조리 구할 수 있겠습니다.