Supercomputers for Linux SysAdmins Managing Modern HPC Clusters and Supercomputers from Software to Hardware (Sergey Zhumatiy) (Z-Library)
Author: Sergey Zhumatiy
其他
This book can help you to become a supercomputer administrator, if you already have experience as a Linux one. If you do not have such experience – no problem, you can find some basic info and general principles here. The first chapter is mostly for novice admins; mature guys can just take a quick look. A good approach would be to read books on Linux administration and practice, e.g., on a virtual machine, and review this book again.
📄 File Format:
PDF
💾 File Size:
14.0 MB
50
Views
0
Downloads
0.00
Total Donations
📄 Text Preview (First 20 pages)
ℹ️
Registered users can read the full content for free
Register as a Gaohf Library member to read the complete e-book online for free and enjoy a better reading experience.
📄 Page
1
(This page has no text content)
📄 Page
2
Supercomputers for Linux SysAdmins Managing Modern HPC Clusters and Supercomputers from Software to Hardware Sergey Zhumatiy
📄 Page
3
Supercomputers for Linux SysAdmins: Managing Modern HPC Clusters and Supercomputers from Software to Hardware ISBN-13 (pbk): 979-8-8688-1599-7 ISBN-13 (electronic): 979-8-8688-1600-0 https://doi.org/10.1007/979-8-8688-1600-0 Copyright © 2025 by Sergey Zhumatiy This work is subject to copyright. All rights are reserved by the Publisher, whether the whole or part of the material is concerned, specifically the rights of translation, reprinting, reuse of illustrations, recitation, broadcasting, reproduction on microfilms or in any other physical way, and transmission or information storage and retrieval, electronic adaptation, computer software, or by similar or dissimilar methodology now known or hereafter developed. Trademarked names, logos, and images may appear in this book. Rather than use a trademark symbol with every occurrence of a trademarked name, logo, or image we use the names, logos, and images only in an editorial fashion and to the benefit of the trademark owner, with no intention of infringement of the trademark. The use in this publication of trade names, trademarks, service marks, and similar terms, even if they are not identified as such, is not to be taken as an expression of opinion as to whether or not they are subject to proprietary rights. While the advice and information in this book are believed to be true and accurate at the date of publication, neither the authors nor the editors nor the publisher can accept any legal responsibility for any errors or omissions that may be made. The publisher makes no warranty, express or implied, with respect to the material contained herein. Managing Director, Apress Media LLC: Welmoed Spahr Acquisitions Editor: James Robinson-Prior Coordinating Editor: Gryffin Winkler Cover image designed by Freepik (www.freepik.com) Distributed to the book trade worldwide by Springer Science+Business Media New York, 1 New York Plaza, New York, NY 10004. Phone 1-800-SPRINGER, fax (201) 348-4505, e-mail orders-ny@springer-sbm.com, or visit www.springeronline.com. Apress Media, LLC is a Delaware LLC and the sole member (owner) is Springer Science + Business Media Finance Inc (SSBM Finance Inc). SSBM Finance Inc is a Delaware corporation. For information on translations, please e-mail booktranslations@springernature.com; for reprint, paperback, or audio rights, please e-mail bookpermissions@springernature.com. Apress titles may be purchased in bulk for academic, corporate, or promotional use. eBook versions and licenses are also available for most titles. For more information, reference our Print and eBook Bulk Sales web page at http://www.apress.com/bulk-sales. Any source code or other supplementary material referenced by the author in this book is available to readers on GitHub. For more detailed information, please visit www.apress.com/gp/services/source-code. The initial version of this book was originally written in the Russian language and was translated in English with the help of deepl.com. The initial version was updated and edited later. If disposing of this product, please recycle the paper Sergey Zhumatiy Santa Clara, CA, USA
📄 Page
4
iii Table of Contents About the Author �����������������������������������������������������������������������������������������������������xv About the Technical Reviewer �������������������������������������������������������������������������������xvii Acknowledgments ��������������������������������������������������������������������������������������������������xix Glossary of Terms ���������������������������������������������������������������������������������������������������xxi Chapter 1: Introduction��������������������������������������������������������������������������������������������� 1 Conventions and Notations Adopted in the Book �������������������������������������������������������������������������� 3 Chapter 2: What Is “Super”? ������������������������������������������������������������������������������������ 5 General Concepts of Parallel Processing and Parallel Programs �������������������������������������������������� 5 Types of Clusters ��������������������������������������������������������������������������������������������������������������������������� 9 Clusters and Supercomputers – Common and Different ������������������������������������������������������� 10 What “Super” Means to a Supercomputer Administrator ����������������������������������������������������������� 11 Centralized Management of the Computer Complex ������������������������������������������������������������������ 13 Brief Summary ���������������������������������������������������������������������������������������������������������������������������� 14 Search Keywords ������������������������������������������������������������������������������������������������������������������������ 14 Chapter 3: How to Build and Start It? ��������������������������������������������������������������������� 15 Anatomy of a Supercomputer ����������������������������������������������������������������������������������������������������� 15 Planning �������������������������������������������������������������������������������������������������������������������������������������� 17 Documentation ���������������������������������������������������������������������������������������������������������������������������� 21 OK, We Got It, What’s Next? ��������������������������������������������������������������������������������������������������������� 22 What Should I Do Later? ������������������������������������������������������������������������������������������������������������� 24 Short Notes ��������������������������������������������������������������������������������������������������������������������������������� 25 Brief Summary ���������������������������������������������������������������������������������������������������������������������������� 26 Search Keywords ������������������������������������������������������������������������������������������������������������������������ 26
📄 Page
5
iv Chapter 4: Supercomputer Hardware ��������������������������������������������������������������������� 27 Control Node ������������������������������������������������������������������������������������������������������������������������������� 28 Compute Node ���������������������������������������������������������������������������������������������������������������������������� 28 Login Node ���������������������������������������������������������������������������������������������������������������������������������� 29 Service Nodes ����������������������������������������������������������������������������������������������������������������������������� 29 Network Equipment �������������������������������������������������������������������������������������������������������������������� 31 Data Storage ������������������������������������������������������������������������������������������������������������������������������� 36 Hardware Architecture Features ������������������������������������������������������������������������������������������������� 39 Brief Summary ���������������������������������������������������������������������������������������������������������������������������� 43 Search Keywords ������������������������������������������������������������������������������������������������������������������������ 43 Chapter 5: InfiniBand ���������������������������������������������������������������������������������������������� 45 Component Identification and Addressing in InfiniBand Networks ��������������������������������������������� 47 InfiniBand Subnet Management �������������������������������������������������������������������������������������������������� 49 IP Over InfiniBand (IP Over IB, IPoIB) ������������������������������������������������������������������������������������������� 50 Utilities for InfiniBand Network Viewing and Managing �������������������������������������������������������������� 51 Alternatives ��������������������������������������������������������������������������������������������������������������������������������� 59 Brief Summary ���������������������������������������������������������������������������������������������������������������������������� 59 Search Keywords ������������������������������������������������������������������������������������������������������������������������ 59 Chapter 6: How a Supercomputer Does the Job ����������������������������������������������������� 61 How a Typical User Session Occurs �������������������������������������������������������������������������������������������� 62 Job Life Cycle ������������������������������������������������������������������������������������������������������������������������������ 62 What Is Hidden from the User ����������������������������������������������������������������������������������������������������� 63 Brief Summary ���������������������������������������������������������������������������������������������������������������������������� 64 Search Keywords ������������������������������������������������������������������������������������������������������������������������ 64 Chapter 7: UNIX and Linux – the Basics ����������������������������������������������������������������� 65 Processes ������������������������������������������������������������������������������������������������������������������������������������ 67 Access Rights ����������������������������������������������������������������������������������������������������������������������������� 71 Concept of Service, Key Services ������������������������������������������������������������������������������������������������ 75 Manuals �������������������������������������������������������������������������������������������������������������������������������������� 77 Table of ConTenTs
📄 Page
6
v File Naming Conventions ������������������������������������������������������������������������������������������������������������ 78 Extension Agreements ���������������������������������������������������������������������������������������������������������������� 79 Templates ������������������������������������������������������������������������������������������������������������������������������������ 80 Commands for Working with the Directory Tree ������������������������������������������������������������������������� 81 Commands for Working with Catalogs ���������������������������������������������������������������������������������� 82 Commands for Working with Files ���������������������������������������������������������������������������������������������� 83 Packages������������������������������������������������������������������������������������������������������������������������������������� 90 Network Commands ������������������������������������������������������������������������������������������������������������������� 93 “Cluster” Commands ���������������������������������������������������������������������������������������������������������������� 104 Brief Summary �������������������������������������������������������������������������������������������������������������������������� 105 Search Keywords ���������������������������������������������������������������������������������������������������������������������� 106 Chapter 8: UNIX and Linux – Working Techniques ������������������������������������������������ 107 The Magic of sysctl ������������������������������������������������������������������������������������������������������������������� 107 udev Subsystem ������������������������������������������������������������������������������������������������������������������������ 108 PAM Modules ���������������������������������������������������������������������������������������������������������������������������� 111 Shell Tricks �������������������������������������������������������������������������������������������������������������������������������� 114 Tips for Some Often Used Commands �������������������������������������������������������������������������������������� 117 Brief Summary �������������������������������������������������������������������������������������������������������������������������� 118 Search Keywords ���������������������������������������������������������������������������������������������������������������������� 118 Chapter 9: Network File Systems ������������������������������������������������������������������������� 119 NTP�������������������������������������������������������������������������������������������������������������������������������������������� 119 NFS ������������������������������������������������������������������������������������������������������������������������������������������� 122 Lustre ���������������������������������������������������������������������������������������������������������������������������������������� 126 Architecture ������������������������������������������������������������������������������������������������������������������������� 126 Creation of Lustre File System �������������������������������������������������������������������������������������������� 129 Fault Tolerance in Lustre ����������������������������������������������������������������������������������������������������� 132 Striping and PFL ������������������������������������������������������������������������������������������������������������������ 133 Quotas ��������������������������������������������������������������������������������������������������������������������������������� 134 PanFS ���������������������������������������������������������������������������������������������������������������������������������������� 135 Table of ConTenTs
📄 Page
7
vi GPFS/IBM Storage Scale ����������������������������������������������������������������������������������������������������������� 136 Other File Systems �������������������������������������������������������������������������������������������������������������������� 137 Brief Summary �������������������������������������������������������������������������������������������������������������������������� 138 Search Keywords ���������������������������������������������������������������������������������������������������������������������� 138 Chapter 10: Remote Management ������������������������������������������������������������������������ 139 ssh and Parallel ssh ������������������������������������������������������������������������������������������������������������������ 139 Forwarding Environment Variables �������������������������������������������������������������������������������������� 142 Port Forwarding ������������������������������������������������������������������������������������������������������������������� 142 X Connection Forwarding ���������������������������������������������������������������������������������������������������� 143 File Transfer ������������������������������������������������������������������������������������������������������������������������� 143 SSH Agent ���������������������������������������������������������������������������������������������������������������������������� 143 Configuring the ssh Server �������������������������������������������������������������������������������������������������� 144 Configuring the ssh Client ��������������������������������������������������������������������������������������������������� 146 Host-Based Authentication �������������������������������������������������������������������������������������������������� 150 pdsh ������������������������������������������������������������������������������������������������������������������������������������������ 151 Cluster Shell ������������������������������������������������������������������������������������������������������������������������������ 153 Screen and tmux ����������������������������������������������������������������������������������������������������������������������� 155 IPMI ������������������������������������������������������������������������������������������������������������������������������������������� 159 Conman ������������������������������������������������������������������������������������������������������������������������������������� 164 iKVM ������������������������������������������������������������������������������������������������������������������������������������������ 164 Brief Summary �������������������������������������������������������������������������������������������������������������������������� 165 Search Keywords ���������������������������������������������������������������������������������������������������������������������� 165 Chapter 11: Users – Accounting Management ����������������������������������������������������� 167 Account Synchronization ���������������������������������������������������������������������������������������������������������� 167 Classic Approach ����������������������������������������������������������������������������������������������������������������������� 167 NIS/NIS+ ����������������������������������������������������������������������������������������������������������������������������������� 169 LDAP������������������������������������������������������������������������������������������������������������������������������������������ 171 Brief Summary �������������������������������������������������������������������������������������������������������������������������� 172 Search Keywords ���������������������������������������������������������������������������������������������������������������������� 173 Table of ConTenTs
📄 Page
8
vii Chapter 12: Users – Quotas and Access Rights ���������������������������������������������������� 175 File System Quotas ������������������������������������������������������������������������������������������������������������������� 175 ulimits ��������������������������������������������������������������������������������������������������������������������������������������� 179 UNIX Groups, ACLs �������������������������������������������������������������������������������������������������������������������� 182 Restrict User Access ����������������������������������������������������������������������������������������������������������������� 182 Brief Summary �������������������������������������������������������������������������������������������������������������������������� 184 Search Keywords ���������������������������������������������������������������������������������������������������������������������� 184 Chapter 13: Job Management Systems ���������������������������������������������������������������� 185 Principles of Operation and Capabilities ����������������������������������������������������������������������������������� 185 Kubernetes, etc� ������������������������������������������������������������������������������������������������������������������������ 187 Access Problem ������������������������������������������������������������������������������������������������������������������������ 187 Brief Summary �������������������������������������������������������������������������������������������������������������������������� 188 Search Keywords ���������������������������������������������������������������������������������������������������������������������� 188 Chapter 14: OpenPBS and Torque ������������������������������������������������������������������������� 189 Installing Torque ������������������������������������������������������������������������������������������������������������������������ 189 Setting Up Torque ���������������������������������������������������������������������������������������������������������������������� 191 Configuring the MOM Server on Compute Nodes ��������������������������������������������������������������������� 196 Customizing the Scheduler ������������������������������������������������������������������������������������������������������� 198 Using Torque ����������������������������������������������������������������������������������������������������������������������������� 200 Job Control Commands ������������������������������������������������������������������������������������������������������������� 203 Brief Summary �������������������������������������������������������������������������������������������������������������������������� 204 Search Keywords ���������������������������������������������������������������������������������������������������������������������� 204 Chapter 15: Slurm������������������������������������������������������������������������������������������������� 205 Slurm Installation ���������������������������������������������������������������������������������������������������������������������� 206 Accounting �������������������������������������������������������������������������������������������������������������������������������� 207 Accounting Setup ���������������������������������������������������������������������������������������������������������������������� 209 Basic Setup and Usage ������������������������������������������������������������������������������������������������������������� 210 Partitions ����������������������������������������������������������������������������������������������������������������������������������� 212 Nodes ���������������������������������������������������������������������������������������������������������������������������������������� 214 Table of ConTenTs
📄 Page
9
viii Generic and Trackable Resources ��������������������������������������������������������������������������������������������� 215 Backfill and Preemption ������������������������������������������������������������������������������������������������������������ 216 QoS and Limits �������������������������������������������������������������������������������������������������������������������������� 217 Priorities and FairShare ������������������������������������������������������������������������������������������������������������ 219 User Levels�������������������������������������������������������������������������������������������������������������������������������� 222 Topology ������������������������������������������������������������������������������������������������������������������������������������ 223 Reservations ����������������������������������������������������������������������������������������������������������������������������� 224 User Experience ������������������������������������������������������������������������������������������������������������������������ 225 Job Life Cycle ���������������������������������������������������������������������������������������������������������������������������� 230 scontrol ������������������������������������������������������������������������������������������������������������������������������������� 231 Accounting and Statistics ��������������������������������������������������������������������������������������������������������� 233 Troubleshooting ������������������������������������������������������������������������������������������������������������������������ 235 Advanced Parameters for slurm�conf ��������������������������������������������������������������������������������������� 236 Brief Summary �������������������������������������������������������������������������������������������������������������������������� 239 Search Keywords ���������������������������������������������������������������������������������������������������������������������� 239 Chapter 16: Containers ����������������������������������������������������������������������������������������� 241 Singularity ��������������������������������������������������������������������������������������������������������������������������������� 242 Apptainer����������������������������������������������������������������������������������������������������������������������������������� 243 CharlieCloud ������������������������������������������������������������������������������������������������������������������������������ 243 Pyxis + Enroot ��������������������������������������������������������������������������������������������������������������������������� 243 Caching ������������������������������������������������������������������������������������������������������������������������������������� 244 Brief Summary �������������������������������������������������������������������������������������������������������������������������� 244 Search Keywords ���������������������������������������������������������������������������������������������������������������������� 244 Chapter 17: Clouds ����������������������������������������������������������������������������������������������� 245 Brief Summary �������������������������������������������������������������������������������������������������������������������������� 246 Search Keywords ���������������������������������������������������������������������������������������������������������������������� 246 Table of ConTenTs
📄 Page
10
ix Chapter 18: Remote User Access ������������������������������������������������������������������������� 247 SSH ������������������������������������������������������������������������������������������������������������������������������������������� 247 FTP and WWW ��������������������������������������������������������������������������������������������������������������������������� 248 X-Window ���������������������������������������������������������������������������������������������������������������������������������� 249 Alternatives for X11 ������������������������������������������������������������������������������������������������������������������ 254 Brief Summary �������������������������������������������������������������������������������������������������������������������������� 255 Search Keywords ���������������������������������������������������������������������������������������������������������������������� 255 Chapter 19: Cluster Status Monitoring Systems �������������������������������������������������� 257 SNMP ���������������������������������������������������������������������������������������������������������������������������������������� 257 Ganglia �������������������������������������������������������������������������������������������������������������������������������������� 264 Nagios ��������������������������������������������������������������������������������������������������������������������������������������� 266 Zabbix ��������������������������������������������������������������������������������������������������������������������������������������� 267 Modern Approach ���������������������������������������������������������������������������������������������������������������������� 268 XDMoD �������������������������������������������������������������������������������������������������������������������������������������� 270 Lm_sensors/Hwmon ����������������������������������������������������������������������������������������������������������������� 271 IPMI ������������������������������������������������������������������������������������������������������������������������������������������� 275 APCUPS ������������������������������������������������������������������������������������������������������������������������������������� 275 NUT ������������������������������������������������������������������������������������������������������������������������������������������� 279 Healthchecks ���������������������������������������������������������������������������������������������������������������������������� 282 Security Scans �������������������������������������������������������������������������������������������������������������������������� 283 Brief Summary �������������������������������������������������������������������������������������������������������������������������� 283 Search Keywords ���������������������������������������������������������������������������������������������������������������������� 284 Chapter 20: Backup ���������������������������������������������������������������������������������������������� 285 Tar ��������������������������������������������������������������������������������������������������������������������������������������������� 285 Bacula ��������������������������������������������������������������������������������������������������������������������������������������� 289 Rsync and Others ���������������������������������������������������������������������������������������������������������������������� 297 Brief Summary �������������������������������������������������������������������������������������������������������������������������� 299 Search Keywords ���������������������������������������������������������������������������������������������������������������������� 300 Table of ConTenTs
📄 Page
11
x Chapter 21: Compilers and Environments, for Parallel Technologies ������������������� 301 gcc/gfortran ������������������������������������������������������������������������������������������������������������������������������ 304 Intel and NVIDIA HPC Compilers ������������������������������������������������������������������������������������������������ 306 PMIx ������������������������������������������������������������������������������������������������������������������������������������������ 307 mpich ���������������������������������������������������������������������������������������������������������������������������������������� 308 OpenMPI ������������������������������������������������������������������������������������������������������������������������������������ 308 Mvapich/Mvapich2 �������������������������������������������������������������������������������������������������������������������� 311 Proprietary MPI: Spectrum MPI and IntelMPI ���������������������������������������������������������������������������� 311 SHMEM Library, OpenSHMEM Standard������������������������������������������������������������������������������������ 311 CUDA ����������������������������������������������������������������������������������������������������������������������������������������� 313 UCX and NCCL ��������������������������������������������������������������������������������������������������������������������������� 315 OpenCL �������������������������������������������������������������������������������������������������������������������������������������� 316 OpenACC ����������������������������������������������������������������������������������������������������������������������������������� 317 Environment Modules and LMOD ���������������������������������������������������������������������������������������������� 317 Build Systems ��������������������������������������������������������������������������������������������������������������������������� 322 Brief Summary �������������������������������������������������������������������������������������������������������������������������� 324 Search Keywords ���������������������������������������������������������������������������������������������������������������������� 324 Chapter 22: Parallel Computing Support Libraries ����������������������������������������������� 325 ScaLAPACK �������������������������������������������������������������������������������������������������������������������������������� 325 PETSc ���������������������������������������������������������������������������������������������������������������������������������������� 331 FFT/FFTW ���������������������������������������������������������������������������������������������������������������������������������� 333 TBB�������������������������������������������������������������������������������������������������������������������������������������������� 334 Debuggers and Profilers ����������������������������������������������������������������������������������������������������������� 334 Brief Summary �������������������������������������������������������������������������������������������������������������������������� 338 Search Keywords ���������������������������������������������������������������������������������������������������������������������� 338 Chapter 23: Booting and Init ��������������������������������������������������������������������������������� 339 Booting from Hard Disk ������������������������������������������������������������������������������������������������������������� 339 INIT in SystemV Style ���������������������������������������������������������������������������������������������������������������� 341 Systemd ������������������������������������������������������������������������������������������������������������������������������������ 346 Table of ConTenTs
📄 Page
12
xi Network Booting ����������������������������������������������������������������������������������������������������������������������� 351 DHCP ����������������������������������������������������������������������������������������������������������������������������������������� 353 TFTP, PXE, and NFS-Root ����������������������������������������������������������������������������������������������������������� 357 Brief Summary �������������������������������������������������������������������������������������������������������������������������� 359 Search Keywords ���������������������������������������������������������������������������������������������������������������������� 359 Chapter 24: Node Setup and Software Installation ����������������������������������������������� 361 Network and Hardware Drivers ������������������������������������������������������������������������������������������������� 361 Configuring the Control and Compute Nodes ���������������������������������������������������������������������������� 362 Installation and Configuration of the Login Node ���������������������������������������������������������������������� 363 NFS Server Configuration ���������������������������������������������������������������������������������������������������������� 364 Configuring the Communication Software �������������������������������������������������������������������������������� 364 Installing Compilers and Libraries �������������������������������������������������������������������������������������������� 366 Customizing the Job Management System������������������������������������������������������������������������������� 366 Installation and Configuration of the Cluster Compute Node ���������������������������������������������������� 367 Brief Summary �������������������������������������������������������������������������������������������������������������������������� 371 Search Keywords ���������������������������������������������������������������������������������������������������������������������� 371 Chapter 25: Out-of-the-Box Stacks and Deployment Systems ����������������������������� 373 ROCKS ��������������������������������������������������������������������������������������������������������������������������������������� 373 Parallel Knoppix/PelicanHPC ����������������������������������������������������������������������������������������������������� 375 Brief Summary �������������������������������������������������������������������������������������������������������������������������� 377 Search Keywords ���������������������������������������������������������������������������������������������������������������������� 377 Chapter 26: Cluster Management Systems – xCAT and Others ���������������������������� 379 Installation and Initial Setup ����������������������������������������������������������������������������������������������������� 380 Architecture and Commands����������������������������������������������������������������������������������������������������� 380 Node Management �������������������������������������������������������������������������������������������������������������������� 384 Loading and Controlling ������������������������������������������������������������������������������������������������������������ 388 Canonical MaaS ������������������������������������������������������������������������������������������������������������������������ 390 Foreman ������������������������������������������������������������������������������������������������������������������������������������ 392 NVIDIA Base Command Manager ���������������������������������������������������������������������������������������������� 393 Table of ConTenTs
📄 Page
13
xii Brief Summary �������������������������������������������������������������������������������������������������������������������������� 394 Search Keywords ���������������������������������������������������������������������������������������������������������������������� 394 Chapter 27: Communicating with Users ��������������������������������������������������������������� 395 Correspondence ������������������������������������������������������������������������������������������������������������������������ 395 Accounting for Requests from Users ���������������������������������������������������������������������������������������� 397 Actualization ����������������������������������������������������������������������������������������������������������������������������� 398 Education ���������������������������������������������������������������������������������������������������������������������������������� 399 Brief Summary �������������������������������������������������������������������������������������������������������������������������� 400 Search Keywords ���������������������������������������������������������������������������������������������������������������������� 400 Chapter 28: One-Two-Three Instructions �������������������������������������������������������������� 401 NTP�������������������������������������������������������������������������������������������������������������������������������������������� 401 Configuring the NFS Server ������������������������������������������������������������������������������������������������������ 402 Configuring the NFS Client �������������������������������������������������������������������������������������������������������� 402 Installing Lustre (No HA) ����������������������������������������������������������������������������������������������������������� 402 NIS+ Server Installation ������������������������������������������������������������������������������������������������������������ 403 Installing the NIS+ Client ���������������������������������������������������������������������������������������������������������� 404 Installing OpenLDAP (Using RH As an Example) ������������������������������������������������������������������������ 405 Customizing Xorg ���������������������������������������������������������������������������������������������������������������������� 409 APCUPSD ����������������������������������������������������������������������������������������������������������������������������������� 412 xCAT ������������������������������������������������������������������������������������������������������������������������������������������ 422 Brief Summary �������������������������������������������������������������������������������������������������������������������������� 425 Search Keywords ���������������������������������������������������������������������������������������������������������������������� 425 Chapter 29: Shell Scripts – Basics and Common Mistakes ���������������������������������� 427 Not-a-Mistake ��������������������������������������������������������������������������������������������������������������������������� 437 Brief Summary �������������������������������������������������������������������������������������������������������������������������� 437 Search Keywords ���������������������������������������������������������������������������������������������������������������������� 437 Table of ConTenTs
📄 Page
14
xiii Chapter 30: Systemd – A Short Course ���������������������������������������������������������������� 439 Units ������������������������������������������������������������������������������������������������������������������������������������������ 439 systemctl Commands ���������������������������������������������������������������������������������������������������������������� 448 Journald ������������������������������������������������������������������������������������������������������������������������������������ 449 Network Config, Time Sync, and Hostname Resolving �������������������������������������������������������������� 451 Analyzing����������������������������������������������������������������������������������������������������������������������������������� 452 Brief Summary �������������������������������������������������������������������������������������������������������������������������� 453 Search Keywords ���������������������������������������������������������������������������������������������������������������������� 453 Conclusion ������������������������������������������������������������������������������������������������������������ 455 Index ��������������������������������������������������������������������������������������������������������������������� 457 Table of ConTenTs
📄 Page
15
xv About the Author Sergey Zhumatiy has been managing supercomputers since 1999, starting out with building and managing HPC clusters at Moscow State University, and holds a PhD in Computer Science. Several supercomputers under his supervision, like Chebyshev, Lomonosov, and Lomonosov-2, achieved top rankings in the top 500 supercomputers list and dominated the Russian top 50 supercomputers list. Now he works as an HPC architect and SysAdmin at NVIDIA.
📄 Page
16
xvii John Roberts spent over a decade as an HPC systems administrator, supporting large-scale scientific computing and advanced research initiatives. He recently transitioned to a new role where he continues to focus on supporting and optimizing HPC environments. John holds a bachelor's degree in computer science and brings a passion for scalable systems, innovation, and advancing scientific discovery. About the Technical Reviewer
📄 Page
17
xix Acknowledgments I would like to express my sincere gratitude to the following people: Vladimir Voevodin for the ideas and criticism Konstantin Stefanov, Alexander Naumov, Anton Korzh, Ilya Fateev, Ben Evans, and Caio Davi for the provided material and consultations Hui Li, Paniz Karbasi, Oksana Korzh, and Mark Moe for their patience and valuable advice and ideas Viktor Datsyuk, Pavel Kostenetsky, Alexei Latsis, and Yuri Khrebtov for important comments John Roberts, the technical reviewer of this book, for the great work and tons of thoughtful corrections and suggestions
📄 Page
18
xxi Glossary of Terms Backup: A copy of data (files, databases) stored on a separate media or a group of media. Data can be restored from the backup copy to the original files, databases, or to other directories, databases. Cable organizer: A design that allows cables to be stacked within a dedicated space. Communication network: Used to exchange data by computing tasks. Compute field: A set of all compute nodes of the complex that are available for user tasks. DAPL: Direct Access Programming Library, a library for using direct access to remote computer memory without having to explicitly describe a particular type of hardware. D-BUS: System Message Bus, a server and protocol that allows any programs to communicate within the same server. A program can register as a service and publish messages (events) and as a client and subscribe to certain events. DHCP: Dynamic Host Configuration Protocol, a protocol that allows a computer to obtain information such as its IP address, network name, etc., from a server at the OS boot stage or later. File server: A computer that makes part of its file system available to other computers over a network. File storage: Equipment that provides disk space over a network or locally, such as for a file server. Form factor: Standard dimensions for computer cases, like mini-tower, 1U, 2U, etc. FPGA: Field Programmable Gate Array, a device, which can be programmatically reconfigured into various combinations of "gates" – logical units – and form specialized compute devices. FTP: File Transfer Protocol, a protocol for transferring files over a network. GPGPU: General-Purpose GPU, a GPU, which is used for computations.
📄 Page
19
xxii GPU: Graphics Processing Unit, device for generating and displaying (via separate display) graphics. Today, any video card. Host: A node on a network – a server, a computer. HPC: High-Performance Computing, the supercomputing industry. Interconnect: A jargonism, usually referring to a communications network or just a fast network. Journaling: Writing messages to a log. Many programs support logging to a file. In UNIX- like systems, there is a standard syslog service, which is used by many programs and services. KVM: Keyboard and Video Monitor, a device that allows you to connect multiple computers to a single monitor and keyboard. Latency: The time spent when a packet is transmitted through a network regardless of its length. Linpack: A test for some estimation of real performance of parallel computing complexes. Most often, the High Performance Linpack (HPL) version is used. Logging: See journaling. LVM: Logical Volume Manager, a technology for building logical disks using multiple physical disks and/or RAIDs. MAC address: The unique address of a network card in the Ethernet standard. MPI: Message Passing Interface, an open library standard intended for message passing inside a parallel application. There are many implementations of this standard (mpich, lam, openmpi, etc.). NIS: Network Information System, a technology that allows user accounts, computer names, and other system information to be stored on a server and retrieved from any computer on the network. Node (of a cluster): a computer designed for certain tasks in the cluster (computing, controlling, I/O, etc.). NTP: Network Time Protocol, a protocol for synchronizing time over a network. Rack: See telecommunication cabinet. Glossary of Terms
📄 Page
20
xxiii RAID: Redundant Array of Independent/Inexpensive Disks, an array of multiple hard disks logically combined for greater fault tolerance, speed, and/or capacity. RAID-0 (stripe): RAID, which disks are combined in such a way that logical blocks of disks alternate: block1 of the first disk, block1 of the second, … block2 of the first disk, block2 of the second disk, etc. RAID-1 (mirror): RAID, the disks of which are combined into a "mirror" to increase reliability. Information is written simultaneously to all disks in blocks with the same numbers. RAID-5: A RAID whose disks are combined into parity groups. When writing to a logical block, the written data is added by XOR method with other blocks in the group and the resulting information is written to a separate block. When reading, the correctness of the data is checked, and if one of the blocks is corrupted, the information is automatically restored. RAID controller: A device that combines multiple hard disks into a RAID. RDMA: Remote Direct Memory Access, a protocol for direct memory access to a remote computer. Register: Internal memory of the processor, works very fast, all arithmetic and logical operations are typically performed with registers only. Samba: A software package that implements the SMB and CIFS protocols used in MS Windows for network disks. It allows accessing Windows network disks from Linux, as well as creating network disks under Linux so that they can be used by Windows clients. SCI: Scalable Coherence Interface, an old standard for high-speed data transmission equipment. It means connecting network cards directly to each other in a ring or torus (two- or three-dimensional). Service network: Used to monitor and manage the state of compute nodes. SNMP: Simple Network Management Protocol, a protocol designed to monitor and manage equipment on a network. Software: In addition to the actual set of programs, this includes configuration and other files necessary for its operation. SSH: Secure Shell, a protocol for remote access to computers on a network, involving the use of an encrypted connection. Glossary of Terms
The above is a preview of the first 20 pages. Register to read the complete e-book.