github에 한 사람이 남긴 글입니다. fastai에서 model.fit를 호출할 때마다 시스템이 정지 후 재부팅된다는 내용인데, 이를 해결하기 위해 시스템 로그를 검토하고 디버깅을 시도했지만 그 원인은 소프트웨어적인 것이 아니었습니다.
TensorFlow와 PyTorch의 예제는 100W의 전력 사용, Fastai는 80~300W의 전력을 사용하는데 그 양이 매우 빠르게 변합니다. nvidia-smi를 모니터링하니 전력 사용량이 200W가 되면 시스템 중지-재부팅된다네요.
알고보니 원흉은 파워. 550W라고 써졌지만 실제 출력은 200W였으며, 그걸 넘어가는 순간 버티지 못하고 재부팅된 것입니다.
그러니 파워는 믿을만한 걸 씁시다.