Update Records
UPD 20260202
- Server7 is added to the cluster.
- QOS policy updated.
MaxTRESPerUserincreased as 15 (from 12).MaxTRESPerNodeincreased as 6 (from 4).- etc
- Updated restrictions, list-of-gpus and list-of-nodes.
UPD 20251205
- Updated an English version.
UPD 20250512
- AIGS Cluster 사용 방법 추가
UPD 20250429
- readme.md 수정
- restrictions.md 디스크 별 quota 용량 최신화
- 기타 추가 내용 작성 및 수정
UPD 20240904
- workstation 관련 내용 FAQ에 추가
UPD 20240630
- nfs1, nfs2 추가
- nfs1, nfs2가 추가 되었습니다.
- 모든 컴퓨팅 노드에서 접근 가능합니다.
- 자세한 정보는 왼쪽 ‘list of NFSs’ 참조
- workstation 1,2,3 추가
- workstation 들이 전부 추가 되었습니다.
- 기본적으로 2일, 최대 3일 이용 가능합니다.
- 일단은 한 번에 한 사람만 쓸 수 있도록 하였습니다.
UPD 20240625
- server5, server6 추가
- 서버 5,6이 Slurm cluster에 추가 되었습니다.
- 이로서 모든 서버들이 Slurm 관리하에 통합 되었습니다.
- RAM 증설 실패
- 업체와의 소통 오해로 RAM 발주를 다시 할 예정입니다.
- TODO:
- NFS가 총 3개, 전체 용량으로는 도합 7TB가 추가 될 예정입니다.
- 워크스테이션의 1.8TB SSD 1EA
- 서버5의 1.8TB SSD 1EA ( RAM과 함께 구입 )
- 서버6의 3.5TB SSD 1EA
- 이를 통해서 서버 로컬 디스크 수요를 많이 줄일 수 있을것으로 예상됩니다.
- 도합 7TB지만, 개별 디스크 용량은 이보다 작다는 것을 참고해주시면 감사하겠습니다.
UPD 20240613
Major update
- GPU backdoor prevention
- Slurm을 통해 할당받지 않은 gpu를 사용하는 경로들을 (상당수) 막았습니다.
- ConstraintDevices:
cgroup.conf추가,nvidia-smi시 할당 받은 개수만큼만 표시 - vscode-server: vscode-server를 통해서 remote session 만들면
/etc/profile.d가 우회되는 현상 있었음. 수동으로 vscode-server session들을 cgroup 이동. - manual counting: Slurm-allocated numbers 와 실제 사용중인 개수가 많이 차이나면 rogue 프로세스 종료.
srun할당 후 gpu 유휴중인 경우 고려하였음. PID, Parent PID, Grand Parent PID 에서 slurm spawn 검출되지 않았는데 gpu 접근시 종료.
- TODO : Incoming updates
- 6월 말 서버 4,5,6 RAM 증설, 서버4 disk 증설
- 서버 5,6 slurm cluster 통합
- 서버 5,6 백업 공지
- 전체 의견 수렴 (단체 미팅때?)
- 워크스테이션 cluster 추가
- 워크스테이션2에 NFS 추가
UPD 20240418
- 기본 할당되는 CPU의 양이 1개밖에 안되는거 fix
- 사용가능한 자원 조회 페이지 업데이트
- UPD 페이지 업데이트
- Restriction 페이지 업데이트
UPD 20240419
- FAQ update
UPD 20240422
- 사용 예시 추가
- FAQ update
UPD 20240423
- 서버3 GPU 할당 오류 해결
- list-of-gpus 업데이트
UPD 20240508
- 서버4 개장
- list-of-gpus 업데이트
- MaxTrexPerUser gres/gpu=12 조정
UPD 202405014
- restrictions cpu 개수 내용 업데이트
- 최대 실행 가능 job 개수 6개로 수정
UPD 20240515
CUDA_VISIBLE_DEVICE를 srun/sbatch 에서 override 해서 할당받지 않은 gpu를 사용할 수 있음
reported by 태환,위범- TaskProlog, cgroup, read-only env var 등 을 활용하여 해결할 것으로 예상됨