Mailing List Archives
Authenticated access
|
|
|
[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
[HTCondor-users] Understanding condor_userlog output for self-checkpointing apps
- Date: Fri, 08 Jul 2022 14:47:32 -0400
- From: James Alexander Clark <jaclark@xxxxxxxxxxx>
- Subject: [HTCondor-users] Understanding condor_userlog output for self-checkpointing apps
Hello,
I have an application which is configured to checkpoint and self-exit every 60 minutes.
I am confused by the output of condor_userlog (see below):
- Good Time and CPU Usage seem obviously incorrect
- The wall times all being less than 2 hours seems suspicious to me: I'm guessing > 1 hour
corresponds to cases where the job resumes on the same host after a checkpoint?
Before we reconfigured to a 1 hour interval, we were running with the default 8 hours and
saw wall times of that same order. Are we really just getting unlucky here and getting
evicted a few minutes after each resume?
$ condor_userlog ~yannick.lecoeuche/public_html/glitch-ylecoeuche/blip1/GW190521/outdir/log_data_analysis/label_data2_1241313884-82_analysis_H1L1V1.log
Job Host Start Time Evict Time Wall Time Good Time CPU Usage
58968166 172.16.138.135 7/6 15:03 7/6 16:04 0+01:00 0+00:00 0+00:00
58968166 172.16.138.69 7/6 16:17 7/6 17:15 0+00:57 0+00:00 0+00:00
58968166 172.16.138.22 7/6 17:41 7/6 19:18 0+01:37 0+00:00 0+00:00
58968166 172.16.138.191 7/6 19:44 7/6 21:12 0+01:27 0+00:00 0+00:00
58968166 172.16.142.12 7/6 21:18 7/6 22:11 0+00:52 0+00:00 0+00:00
58968166 172.16.138.28 7/6 22:41 7/6 23:41 0+01:00 0+00:00 0+00:00
58968166 172.16.138.28 7/6 23:42 7/7 00:28 0+00:46 0+00:00 0+00:00
58968166 172.16.143.245 7/7 00:34 7/7 01:35 0+01:00 0+00:00 0+00:00
58968166 172.16.143.245 7/7 01:36 7/7 02:18 0+00:42 0+00:00 0+00:00
58968166 172.16.138.22 7/7 02:21 7/7 03:18 0+00:57 0+00:00 0+00:00
58968166 172.16.138.113 7/7 03:53 7/7 05:21 0+01:27 0+00:00 0+00:00
58968166 172.16.138.60 7/7 05:26 7/7 06:26 0+01:00 0+00:00 0+00:00
58968166 172.16.142.43 7/7 14:37 7/7 15:39 0+01:01 0+00:00 0+00:00
58968166 172.16.142.43 7/7 15:39 7/7 16:48 0+01:09 0+00:00 0+00:00
58968166 172.16.143.253 7/7 16:51 7/7 18:07 0+01:15 0+00:00 0+00:00
58968166 172.16.142.44 7/7 18:09 7/7 19:10 0+01:00 0+00:00 0+00:00
58968166 172.16.142.44 7/7 19:12 7/7 20:27 0+01:15 0+00:00 0+00:00
58968166 172.16.142.47 7/7 20:29 7/7 20:29 0+00:00 0+00:00 0+00:00
58968166 172.16.138.181 7/7 21:09 7/7 22:29 0+01:20 0+00:00 0+00:00
58968166 172.16.142.15 7/7 22:36 7/8 00:17 0+01:41 0+00:00 0+00:00
58968166 172.16.141.239 7/8 00:24 7/8 01:27 0+01:03 0+00:00 0+00:00
58968166 172.16.141.239 7/8 01:32 7/8 02:25 0+00:53 0+00:00 0+00:00
58968166 172.16.144.3 7/8 02:35 7/8 03:37 0+01:01 0+00:00 0+00:00
58968166 172.16.144.3 7/8 03:42 7/8 04:23 0+00:40 0+00:00 0+00:00
58968166 172.16.138.211 7/8 05:01 7/8 06:23 0+01:22 0+00:00 0+00:00
58968166 172.16.138.208 7/8 06:58 7/8 08:29 0+01:31 0+00:00 0+00:00
58968166 172.16.141.239 7/8 08:50 7/8 09:53 0+01:03 0+00:00 0+00:00
58968166 172.16.141.239 7/8 09:58 7/8 11:13 0+01:15 0+00:00 0+00:00
Host/Job Wall Time Good Time CPU Usage Avg Alloc Avg Lost Goodput Util.
172.16.142.43 0+02:10 0+00:00 0+00:00 0+01:05 0+01:05 0.0% 0.0%
172.16.142.44 0+02:16 0+00:00 0+00:00 0+01:08 0+01:08 0.0% 0.0%
172.16.138.60 0+01:00 0+00:00 0+00:00 0+01:00 0+01:00 0.0% 0.0%
172.16.138.28 0+01:46 0+00:00 0+00:00 0+00:53 0+00:53 0.0% 0.0%
172.16.142.47 0+00:00 0+00:00 0+00:00 0+00:00 0+00:00 0.0% 0.0%
172.16.143.253 0+01:15 0+00:00 0+00:00 0+01:15 0+01:15 0.0% 0.0%
172.16.143.245 0+01:42 0+00:00 0+00:00 0+00:51 0+00:51 0.0% 0.0%
172.16.141.239 0+04:15 0+00:00 0+00:00 0+01:03 0+01:03 0.0% 0.0%
172.16.138.69 0+00:57 0+00:00 0+00:00 0+00:57 0+00:57 0.0% 0.0%
172.16.138.113 0+01:27 0+00:00 0+00:00 0+01:27 0+01:27 0.0% 0.0%
172.16.138.211 0+01:22 0+00:00 0+00:00 0+01:22 0+01:22 0.0% 0.0%
172.16.138.135 0+01:00 0+00:00 0+00:00 0+01:00 0+01:00 0.0% 0.0%
172.16.138.208 0+01:31 0+00:00 0+00:00 0+01:31 0+01:31 0.0% 0.0%
172.16.138.181 0+01:20 0+00:00 0+00:00 0+01:20 0+01:20 0.0% 0.0%
172.16.142.12 0+00:52 0+00:00 0+00:00 0+00:52 0+00:52 0.0% 0.0%
172.16.138.191 0+01:27 0+00:00 0+00:00 0+01:27 0+01:27 0.0% 0.0%
172.16.142.15 0+01:41 0+00:00 0+00:00 0+01:41 0+01:41 0.0% 0.0%
172.16.138.22 0+02:34 0+00:00 0+00:00 0+01:17 0+01:17 0.0% 0.0%
172.16.144.3 0+01:42 0+00:00 0+00:00 0+00:51 0+00:51 0.0% 0.0%
58968166.0 1+06:26 0+00:00 0+00:00 0+01:05 0+01:05 0.0% 0.0%
Total 1+06:26 0+00:00 0+00:00 0+01:05 0+01:05 0.0% 0.0%
--
James Alexander Clark
LIGO Laboratory
California Institute of Technology
email: james.clark@xxxxxxxx
Tel. (cell): 413-230-1412