Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
Tags
- TensorFlow
- 엔비디아 도커
- nvidia
- ethtool
- 도커 설치
- TAIL
- python
- 우분투
- 우분투 22.04 패스워드 초기화
- 우분투패스워드초기화
- ifconfig
- Ubuntu 22.04
- V100
- sudoer
- 모니터링
- uname
- dmesg
- 패스워드초기화
- sysstat
- docker
- CUDA
- passwd
- grub
- netplan
- A100
- 도커
- Cat
- NGC
- 리눅스 기본명령어
- nvidia-docker
Archives
- Today
- Total
목록ampere (1)
또이리의 Server Engineer
Nvidia Tesla A100 - 8GPU error Xid 61
Nvidia Tesla A100 - 8GPU error Xid 61 A100 tensorflow, dcgmi error(AMD server) gpu-burn을 돌렸을 때는 이상이 없는데, tensorflow benchmarks나 dcgmi diag를 돌렸을 때는 gpu가 한 개씩 에러가 나면서 결국 8개 다 error가 발생합니다. 도대체 이유를 모르겠습니다. 텐서 플로우는 로컬에서 호환되는 빌드 버전을 아직 찾지 못해서 nvidia driver, bazle, cuda, cudnn, tensor flow 버전별로 테스트하고 있습니다. 우선 급한 데로 엔비디아 도커에 이미지를 받아서 tensorflowtensorflow benchmarks 실행했는데도 dcgmi와 같은 xid 61 에러가 순차적으로 발생합..
Linux Engineer
2020. 11. 8. 04:54