2022-11-15 13:11:38,146 INFO [train.py:944] (1/4) Training started
2022-11-15 13:11:38,146 INFO [train.py:954] (1/4) Device: cuda:1
2022-11-15 13:11:38,149 INFO [train.py:963] (1/4) {'best_train_loss': inf, 'best_valid_loss': inf, 'best_train_epoch': -1, 'best_valid_epoch': -1, 'batch_idx_train': 0, 'log_interval': 100, 'reset_interval': 200, 'valid_interval': 3000, 'feature_dim': 80, 'subsampling_factor': 4, 'warm_step': 2000, 'env_info': {'k2-version': '1.21', 'k2-build-type': 'Debug', 'k2-with-cuda': True, 'k2-git-sha1': 'f271e82ef30f75fecbae44b163e1244e53def116', 'k2-git-date': 'Fri Oct 28 05:02:16 2022', 'lhotse-version': '1.9.0.dev+git.97bf4b0.dirty', 'torch-version': '1.10.0+cu111', 'torch-cuda-available': True, 'torch-cuda-version': '11.1', 'python-version': '3.8', 'icefall-git-branch': 'ami', 'icefall-git-sha1': '65f14ba-dirty', 'icefall-git-date': 'Mon Nov 14 18:45:09 2022', 'icefall-path': '/exp/draj/mini_scale_2022/icefall', 'k2-path': '/exp/draj/mini_scale_2022/k2/k2/python/k2/__init__.py', 'lhotse-path': '/exp/draj/mini_scale_2022/lhotse/lhotse/__init__.py', 'hostname': 'r8n04', 'IP address': '10.1.8.4'}, 'world_size': 4, 'master_port': 12354, 'tensorboard': True, 'num_epochs': 15, 'start_epoch': 1, 'start_batch': 0, 'exp_dir': PosixPath('pruned_transducer_stateless7/exp/v2'), 'bpe_model': 'data/lang_bpe_500/bpe.model', 'base_lr': 0.05, 'lr_batches': 5000, 'lr_epochs': 3.5, 'context_size': 2, 'prune_range': 5, 'lm_scale': 0.25, 'am_scale': 0.0, 'simple_loss_scale': 0.5, 'seed': 42, 'print_diagnostics': False, 'inf_check': False, 'save_every_n': 5000, 'keep_last_k': 10, 'average_period': 200, 'use_fp16': True, 'num_encoder_layers': '2,4,3,2,4', 'feedforward_dims': '1024,1024,2048,2048,1024', 'nhead': '8,8,8,8,8', 'encoder_dims': '384,384,384,384,384', 'attention_dims': '192,192,192,192,192', 'encoder_unmasked_dims': '256,256,256,256,256', 'zipformer_downsampling_factors': '1,2,4,8,2', 'cnn_module_kernels': '31,31,31,31,31', 'decoder_dim': 512, 'joiner_dim': 512, 'manifest_dir': PosixPath('data/manifests'), 'enable_musan': True, 'concatenate_cuts': False, 'duration_factor': 1.0, 'gap': 1.0, 'max_duration': 120, 'num_buckets': 50, 'on_the_fly_feats': False, 'shuffle': True, 'num_workers': 8, 'enable_spec_aug': True, 'spec_aug_time_warp_factor': 80, 'blank_id': 0, 'vocab_size': 500}
2022-11-15 13:11:38,149 INFO [train.py:965] (1/4) About to create model
2022-11-15 13:11:38,557 INFO [zipformer.py:176] (1/4) At encoder stack 4, which has downsampling_factor=2, we will combine the outputs of layers 1 and 3, with downsampling_factors=2 and 8.
2022-11-15 13:11:38,569 INFO [train.py:969] (1/4) Number of model parameters: 70369391
2022-11-15 13:11:43,220 INFO [train.py:984] (1/4) Using DDP
2022-11-15 13:11:43,612 INFO [asr_datamodule.py:353] (1/4) About to get AMI train cuts
2022-11-15 13:11:43,617 INFO [asr_datamodule.py:201] (1/4) About to get Musan cuts
2022-11-15 13:11:45,093 INFO [asr_datamodule.py:206] (1/4) Enable MUSAN
2022-11-15 13:11:45,093 INFO [asr_datamodule.py:229] (1/4) Enable SpecAugment
2022-11-15 13:11:45,093 INFO [asr_datamodule.py:230] (1/4) Time warp factor: 80
2022-11-15 13:11:45,093 INFO [asr_datamodule.py:243] (1/4) About to create train dataset
2022-11-15 13:11:45,094 INFO [asr_datamodule.py:256] (1/4) Using DynamicBucketingSampler.
2022-11-15 13:11:45,505 INFO [asr_datamodule.py:264] (1/4) About to create train dataloader
2022-11-15 13:11:45,506 INFO [asr_datamodule.py:385] (1/4) About to get AMI IHM dev cuts
2022-11-15 13:11:45,507 INFO [asr_datamodule.py:296] (1/4) About to create dev dataset
2022-11-15 13:11:45,854 INFO [asr_datamodule.py:311] (1/4) About to create dev dataloader
2022-11-15 13:12:20,644 INFO [train.py:876] (1/4) Epoch 1, batch 0, loss[loss=3.561, simple_loss=3.207, pruned_loss=3.532, over 4981.00 frames. ], tot_loss[loss=3.561, simple_loss=3.207, pruned_loss=3.532, over 4981.00 frames. ], batch size: 7, lr: 2.50e-02, grad_scale: 2.0
2022-11-15 13:12:20,644 INFO [train.py:899] (1/4) Computing validation loss
2022-11-15 13:12:37,307 INFO [train.py:908] (1/4) Epoch 1, validation: loss=3.424, simple_loss=3.08, pruned_loss=3.435, over 1530663.00 frames. 
2022-11-15 13:12:37,341 INFO [train.py:909] (1/4) Maximum memory allocated so far is 2739MB
2022-11-15 13:12:39,703 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=5.0, num_to_drop=2, layers_to_drop={1, 3}
2022-11-15 13:12:50,434 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=23.0, num_to_drop=1, layers_to_drop={1}
2022-11-15 13:13:01,686 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=18.10 vs. limit=2.0
2022-11-15 13:13:09,658 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=104.13 vs. limit=5.0
2022-11-15 13:13:21,370 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=90.90 vs. limit=5.0
2022-11-15 13:13:23,361 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=83.0, num_to_drop=1, layers_to_drop={0}
2022-11-15 13:13:32,522 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 2.298e+01 5.514e+01 1.134e+02 1.922e+02 2.006e+03, threshold=2.268e+02, percent-clipped=0.0
2022-11-15 13:13:32,568 INFO [train.py:876] (1/4) Epoch 1, batch 100, loss[loss=0.4459, simple_loss=0.3917, pruned_loss=0.441, over 5324.00 frames. ], tot_loss[loss=0.7317, simple_loss=0.657, pruned_loss=0.6792, over 430601.63 frames. ], batch size: 79, lr: 3.00e-02, grad_scale: 2.0
2022-11-15 13:13:57,881 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=144.0, num_to_drop=2, layers_to_drop={1, 2}
2022-11-15 13:14:08,701 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=2.53 vs. limit=2.0
2022-11-15 13:14:15,119 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=7.80 vs. limit=2.0
2022-11-15 13:14:18,429 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([4.3437, 4.3437, 4.3432, 4.3437, 4.3432, 4.3430, 4.3436, 4.3435],
       device='cuda:1'), covar=tensor([4.2696e-05, 9.0554e-05, 6.4631e-05, 8.5950e-05, 1.0258e-04, 3.5726e-05,
        7.9222e-05, 5.0784e-05], device='cuda:1'), in_proj_covar=tensor([0.0009, 0.0009, 0.0009, 0.0009, 0.0009, 0.0009, 0.0009, 0.0009],
       device='cuda:1'), out_proj_covar=tensor([9.2910e-06, 9.2795e-06, 9.0166e-06, 9.1586e-06, 9.1599e-06, 9.1347e-06,
        9.1422e-06, 9.2322e-06], device='cuda:1')
2022-11-15 13:14:30,185 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=3.12 vs. limit=2.0
2022-11-15 13:14:31,594 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.718e+01 2.547e+01 3.263e+01 4.120e+01 1.011e+02, threshold=6.525e+01, percent-clipped=0.0
2022-11-15 13:14:31,634 INFO [train.py:876] (1/4) Epoch 1, batch 200, loss[loss=0.5535, simple_loss=0.4951, pruned_loss=0.4373, over 3018.00 frames. ], tot_loss[loss=0.5465, simple_loss=0.4815, pruned_loss=0.5271, over 692422.93 frames. ], batch size: 284, lr: 3.50e-02, grad_scale: 2.0
2022-11-15 13:15:08,210 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=3.32 vs. limit=2.0
2022-11-15 13:15:12,426 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=4.92 vs. limit=2.0
2022-11-15 13:15:24,764 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=296.0, num_to_drop=1, layers_to_drop={1}
2022-11-15 13:15:27,521 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=300.0, num_to_drop=2, layers_to_drop={1, 2}
2022-11-15 13:15:28,297 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 2.173e+01 3.095e+01 4.109e+01 5.560e+01 3.461e+02, threshold=8.218e+01, percent-clipped=17.0
2022-11-15 13:15:28,336 INFO [train.py:876] (1/4) Epoch 1, batch 300, loss[loss=0.3899, simple_loss=0.3313, pruned_loss=0.3546, over 5615.00 frames. ], tot_loss[loss=0.4819, simple_loss=0.4185, pruned_loss=0.4597, over 851335.91 frames. ], batch size: 38, lr: 4.00e-02, grad_scale: 2.0
2022-11-15 13:16:00,396 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=357.0, num_to_drop=2, layers_to_drop={2, 3}
2022-11-15 13:16:16,641 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=387.0, num_to_drop=1, layers_to_drop={1}
2022-11-15 13:16:24,455 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 2.372e+01 3.559e+01 4.600e+01 6.651e+01 2.649e+02, threshold=9.199e+01, percent-clipped=13.0
2022-11-15 13:16:24,498 INFO [train.py:876] (1/4) Epoch 1, batch 400, loss[loss=0.3362, simple_loss=0.2754, pruned_loss=0.3155, over 5193.00 frames. ], tot_loss[loss=0.4487, simple_loss=0.3841, pruned_loss=0.4196, over 944053.15 frames. ], batch size: 7, lr: 4.50e-02, grad_scale: 4.0
2022-11-15 13:16:24,691 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=9.57 vs. limit=5.0
2022-11-15 13:16:36,104 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=3.50 vs. limit=2.0
2022-11-15 13:16:40,996 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=7.18 vs. limit=5.0
2022-11-15 13:16:46,793 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=439.0, num_to_drop=2, layers_to_drop={1, 2}
2022-11-15 13:16:51,914 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=448.0, num_to_drop=2, layers_to_drop={0, 2}
2022-11-15 13:17:21,981 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([5.2128, 5.3624, 5.4838, 5.3177, 5.3503, 5.2847, 5.4148, 5.3439],
       device='cuda:1'), covar=tensor([0.1177, 0.0171, 0.0172, 0.0530, 0.0536, 0.0483, 0.0199, 0.0237],
       device='cuda:1'), in_proj_covar=tensor([0.0010, 0.0009, 0.0010, 0.0010, 0.0010, 0.0010, 0.0009, 0.0009],
       device='cuda:1'), out_proj_covar=tensor([9.8797e-06, 9.1993e-06, 9.2614e-06, 9.6504e-06, 9.5010e-06, 9.7437e-06,
        9.0872e-06, 9.2508e-06], device='cuda:1')
2022-11-15 13:17:22,361 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 2.467e+01 3.366e+01 4.397e+01 5.953e+01 8.256e+02, threshold=8.794e+01, percent-clipped=9.0
2022-11-15 13:17:22,403 INFO [train.py:876] (1/4) Epoch 1, batch 500, loss[loss=0.3738, simple_loss=0.2999, pruned_loss=0.3425, over 5708.00 frames. ], tot_loss[loss=0.4302, simple_loss=0.3632, pruned_loss=0.3923, over 997130.08 frames. ], batch size: 11, lr: 4.99e-02, grad_scale: 4.0
2022-11-15 13:17:57,339 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=562.0, num_to_drop=1, layers_to_drop={0}
2022-11-15 13:18:00,615 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=568.0, num_to_drop=1, layers_to_drop={1}
2022-11-15 13:18:09,898 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=2.62 vs. limit=2.0
2022-11-15 13:18:14,160 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=590.0, num_to_drop=1, layers_to_drop={1}
2022-11-15 13:18:20,255 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=600.0, num_to_drop=2, layers_to_drop={1, 2}
2022-11-15 13:18:20,636 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 2.558e+01 3.991e+01 4.815e+01 6.242e+01 3.465e+02, threshold=9.630e+01, percent-clipped=11.0
2022-11-15 13:18:20,677 INFO [train.py:876] (1/4) Epoch 1, batch 600, loss[loss=0.3698, simple_loss=0.2972, pruned_loss=0.3164, over 5715.00 frames. ], tot_loss[loss=0.4205, simple_loss=0.3497, pruned_loss=0.3742, over 1032754.52 frames. ], batch size: 11, lr: 4.98e-02, grad_scale: 4.0
2022-11-15 13:18:33,000 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=623.0, num_to_drop=2, layers_to_drop={1, 3}
2022-11-15 13:18:33,823 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=2.67 vs. limit=2.0
2022-11-15 13:18:36,271 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=629.0, num_to_drop=2, layers_to_drop={1, 2}
2022-11-15 13:18:46,310 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.8111, 2.9603, 3.1473, 3.2864, 3.3537, 3.1617, 2.6280, 2.7649],
       device='cuda:1'), covar=tensor([0.2577, 0.1882, 0.1492, 0.1010, 0.0713, 0.1334, 0.4236, 0.4288],
       device='cuda:1'), in_proj_covar=tensor([0.0010, 0.0011, 0.0011, 0.0010, 0.0010, 0.0011, 0.0011, 0.0012],
       device='cuda:1'), out_proj_covar=tensor([1.0741e-05, 1.1034e-05, 1.1148e-05, 1.0099e-05, 9.8662e-06, 1.0529e-05,
        1.1240e-05, 1.2567e-05], device='cuda:1')
2022-11-15 13:18:47,932 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=648.0, num_to_drop=1, layers_to_drop={0}
2022-11-15 13:18:49,689 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=651.0, num_to_drop=2, layers_to_drop={0, 2}
2022-11-15 13:18:50,150 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=652.0, num_to_drop=2, layers_to_drop={0, 2}
2022-11-15 13:18:54,403 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=2.67 vs. limit=2.0
2022-11-15 13:19:05,490 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=8.42 vs. limit=5.0
2022-11-15 13:19:16,424 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=2.26 vs. limit=2.0
2022-11-15 13:19:18,392 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 2.943e+01 4.768e+01 6.411e+01 9.551e+01 4.417e+02, threshold=1.282e+02, percent-clipped=24.0
2022-11-15 13:19:18,439 INFO [train.py:876] (1/4) Epoch 1, batch 700, loss[loss=0.3585, simple_loss=0.2831, pruned_loss=0.3009, over 5670.00 frames. ], tot_loss[loss=0.4158, simple_loss=0.3412, pruned_loss=0.3599, over 1058941.37 frames. ], batch size: 11, lr: 4.98e-02, grad_scale: 4.0
2022-11-15 13:19:21,236 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=2.36 vs. limit=2.0
2022-11-15 13:19:26,047 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=10.93 vs. limit=5.0
2022-11-15 13:19:34,852 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.5438, 2.5272, 2.1554, 2.4860, 2.4783, 2.4909, 2.4946, 2.3894],
       device='cuda:1'), covar=tensor([0.3601, 0.3340, 0.4313, 0.3064, 0.3414, 0.2636, 0.2007, 0.2345],
       device='cuda:1'), in_proj_covar=tensor([0.0018, 0.0017, 0.0016, 0.0016, 0.0015, 0.0015, 0.0015, 0.0015],
       device='cuda:1'), out_proj_covar=tensor([1.6509e-05, 1.5419e-05, 1.5079e-05, 1.4428e-05, 1.3438e-05, 1.3712e-05,
        1.3377e-05, 1.3784e-05], device='cuda:1')
2022-11-15 13:19:39,849 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=739.0, num_to_drop=2, layers_to_drop={0, 1}
2022-11-15 13:19:42,020 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=743.0, num_to_drop=2, layers_to_drop={0, 3}
2022-11-15 13:20:00,317 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=9.40 vs. limit=5.0
2022-11-15 13:20:07,231 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=787.0, num_to_drop=1, layers_to_drop={1}
2022-11-15 13:20:15,194 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 3.610e+01 5.331e+01 6.709e+01 8.250e+01 2.326e+02, threshold=1.342e+02, percent-clipped=8.0
2022-11-15 13:20:15,237 INFO [train.py:876] (1/4) Epoch 1, batch 800, loss[loss=0.4061, simple_loss=0.3256, pruned_loss=0.3165, over 5544.00 frames. ], tot_loss[loss=0.4113, simple_loss=0.3338, pruned_loss=0.3458, over 1069191.58 frames. ], batch size: 13, lr: 4.97e-02, grad_scale: 8.0
2022-11-15 13:20:30,614 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=10.34 vs. limit=5.0
2022-11-15 13:20:31,316 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=6.73 vs. limit=5.0
2022-11-15 13:20:37,433 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=8.07 vs. limit=5.0
2022-11-15 13:20:42,200 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=847.0, num_to_drop=1, layers_to_drop={1}
2022-11-15 13:20:52,407 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=2.05 vs. limit=2.0
2022-11-15 13:21:13,724 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 3.878e+01 6.865e+01 9.860e+01 1.395e+02 3.183e+02, threshold=1.972e+02, percent-clipped=28.0
2022-11-15 13:21:13,767 INFO [train.py:876] (1/4) Epoch 1, batch 900, loss[loss=0.4379, simple_loss=0.3477, pruned_loss=0.3335, over 5600.00 frames. ], tot_loss[loss=0.4085, simple_loss=0.3283, pruned_loss=0.3334, over 1079061.89 frames. ], batch size: 23, lr: 4.96e-02, grad_scale: 8.0
2022-11-15 13:21:17,939 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=908.0, num_to_drop=2, layers_to_drop={0, 3}
2022-11-15 13:21:23,972 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=918.0, num_to_drop=2, layers_to_drop={1, 3}
2022-11-15 13:21:28,508 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=924.0, num_to_drop=2, layers_to_drop={2, 3}
2022-11-15 13:21:37,154 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=2.00 vs. limit=2.0
2022-11-15 13:21:40,749 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=946.0, num_to_drop=2, layers_to_drop={0, 3}
2022-11-15 13:21:44,158 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=952.0, num_to_drop=2, layers_to_drop={0, 2}
2022-11-15 13:21:48,784 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=8.83 vs. limit=5.0
2022-11-15 13:21:55,928 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=2.82 vs. limit=2.0
2022-11-15 13:22:04,742 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.7639, 2.0320, 1.9453, 1.9760, 1.9266, 2.0456, 2.2051, 1.7830],
       device='cuda:1'), covar=tensor([1.4053, 1.1802, 1.2102, 0.9950, 1.2626, 1.1989, 0.8123, 1.3685],
       device='cuda:1'), in_proj_covar=tensor([0.0029, 0.0029, 0.0029, 0.0028, 0.0029, 0.0032, 0.0025, 0.0027],
       device='cuda:1'), out_proj_covar=tensor([3.0240e-05, 2.8792e-05, 2.8246e-05, 2.5993e-05, 2.7668e-05, 3.0350e-05,
        2.5038e-05, 3.0777e-05], device='cuda:1')
2022-11-15 13:22:12,363 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=1000.0, num_to_drop=1, layers_to_drop={0}
2022-11-15 13:22:12,818 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 5.013e+01 8.825e+01 1.129e+02 1.516e+02 3.115e+02, threshold=2.258e+02, percent-clipped=11.0
2022-11-15 13:22:12,861 INFO [train.py:876] (1/4) Epoch 1, batch 1000, loss[loss=0.4024, simple_loss=0.3176, pruned_loss=0.2986, over 5596.00 frames. ], tot_loss[loss=0.4068, simple_loss=0.3251, pruned_loss=0.3213, over 1078989.07 frames. ], batch size: 23, lr: 4.95e-02, grad_scale: 8.0
2022-11-15 13:22:37,959 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=1043.0, num_to_drop=2, layers_to_drop={0, 2}
2022-11-15 13:22:38,059 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=7.47 vs. limit=5.0
2022-11-15 13:22:41,602 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=5.91 vs. limit=5.0
2022-11-15 13:22:48,360 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.94 vs. limit=2.0
2022-11-15 13:23:05,512 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=1091.0, num_to_drop=1, layers_to_drop={1}
2022-11-15 13:23:11,682 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 4.943e+01 8.541e+01 1.080e+02 1.456e+02 2.899e+02, threshold=2.160e+02, percent-clipped=5.0
2022-11-15 13:23:11,724 INFO [train.py:876] (1/4) Epoch 1, batch 1100, loss[loss=0.3433, simple_loss=0.2773, pruned_loss=0.2391, over 5688.00 frames. ], tot_loss[loss=0.3972, simple_loss=0.3162, pruned_loss=0.3042, over 1084505.14 frames. ], batch size: 12, lr: 4.94e-02, grad_scale: 8.0
2022-11-15 13:23:38,381 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=6.69 vs. limit=5.0
2022-11-15 13:23:39,909 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=1.98 vs. limit=2.0
2022-11-15 13:23:42,403 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=1153.0, num_to_drop=1, layers_to_drop={1}
2022-11-15 13:23:44,382 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=6.54 vs. limit=5.0
2022-11-15 13:23:46,146 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=7.01 vs. limit=5.0
2022-11-15 13:24:09,645 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 5.854e+01 1.222e+02 1.602e+02 1.992e+02 6.604e+02, threshold=3.204e+02, percent-clipped=19.0
2022-11-15 13:24:09,688 INFO [train.py:876] (1/4) Epoch 1, batch 1200, loss[loss=0.4586, simple_loss=0.353, pruned_loss=0.3304, over 4799.00 frames. ], tot_loss[loss=0.3902, simple_loss=0.3097, pruned_loss=0.2899, over 1086265.57 frames. ], batch size: 136, lr: 4.93e-02, grad_scale: 8.0
2022-11-15 13:24:10,880 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=1203.0, num_to_drop=2, layers_to_drop={1, 2}
2022-11-15 13:24:17,636 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=1214.0, num_to_drop=2, layers_to_drop={0, 3}
2022-11-15 13:24:20,295 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=1218.0, num_to_drop=2, layers_to_drop={0, 1}
2022-11-15 13:24:23,571 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=1224.0, num_to_drop=1, layers_to_drop={2}
2022-11-15 13:24:35,955 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=2.10 vs. limit=2.0
2022-11-15 13:24:36,257 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=1246.0, num_to_drop=1, layers_to_drop={1}
2022-11-15 13:24:48,469 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=1266.0, num_to_drop=1, layers_to_drop={1}
2022-11-15 13:24:51,634 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=1272.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 13:25:04,719 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=1294.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 13:25:08,463 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 7.439e+01 1.113e+02 1.512e+02 2.067e+02 6.699e+02, threshold=3.023e+02, percent-clipped=4.0
2022-11-15 13:25:08,506 INFO [train.py:876] (1/4) Epoch 1, batch 1300, loss[loss=0.4091, simple_loss=0.3226, pruned_loss=0.2793, over 5602.00 frames. ], tot_loss[loss=0.3842, simple_loss=0.3042, pruned_loss=0.2777, over 1089348.66 frames. ], batch size: 18, lr: 4.92e-02, grad_scale: 8.0
2022-11-15 13:25:27,233 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=2.08 vs. limit=2.0
2022-11-15 13:25:53,254 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.96 vs. limit=2.0
2022-11-15 13:26:08,839 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.0127, 2.7855, 3.1309, 2.9956, 3.0070, 2.9435, 3.1192, 2.8666],
       device='cuda:1'), covar=tensor([0.0682, 0.0863, 0.0403, 0.0544, 0.0482, 0.0724, 0.0440, 0.0617],
       device='cuda:1'), in_proj_covar=tensor([0.0021, 0.0021, 0.0020, 0.0020, 0.0015, 0.0022, 0.0019, 0.0022],
       device='cuda:1'), out_proj_covar=tensor([2.1391e-05, 2.0629e-05, 1.8938e-05, 1.9670e-05, 1.6027e-05, 2.0718e-05,
        1.8301e-05, 2.1182e-05], device='cuda:1')
2022-11-15 13:26:09,308 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 8.007e+01 1.313e+02 1.838e+02 2.468e+02 4.304e+02, threshold=3.675e+02, percent-clipped=9.0
2022-11-15 13:26:09,349 INFO [train.py:876] (1/4) Epoch 1, batch 1400, loss[loss=0.3685, simple_loss=0.2856, pruned_loss=0.2504, over 4718.00 frames. ], tot_loss[loss=0.3782, simple_loss=0.2986, pruned_loss=0.2667, over 1083232.65 frames. ], batch size: 135, lr: 4.91e-02, grad_scale: 8.0
2022-11-15 13:26:28,889 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=1434.0, num_to_drop=1, layers_to_drop={1}
2022-11-15 13:26:30,473 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=6.77 vs. limit=5.0
2022-11-15 13:26:37,295 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.9292, 3.0313, 2.8047, 3.1501, 2.9819, 3.2952, 2.6854, 3.0557],
       device='cuda:1'), covar=tensor([0.2446, 0.2472, 0.4034, 0.2455, 0.2346, 0.2063, 0.3408, 0.2776],
       device='cuda:1'), in_proj_covar=tensor([0.0027, 0.0029, 0.0030, 0.0029, 0.0025, 0.0026, 0.0029, 0.0029],
       device='cuda:1'), out_proj_covar=tensor([2.4805e-05, 2.5184e-05, 2.9544e-05, 2.5345e-05, 2.3667e-05, 2.1616e-05,
        2.4862e-05, 2.6630e-05], device='cuda:1')
2022-11-15 13:27:05,771 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=1495.0, num_to_drop=2, layers_to_drop={1, 2}
2022-11-15 13:27:05,996 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=2.31 vs. limit=2.0
2022-11-15 13:27:09,438 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 8.161e+01 1.360e+02 1.948e+02 2.853e+02 7.338e+02, threshold=3.896e+02, percent-clipped=10.0
2022-11-15 13:27:09,489 INFO [train.py:876] (1/4) Epoch 1, batch 1500, loss[loss=0.3733, simple_loss=0.2869, pruned_loss=0.2502, over 5146.00 frames. ], tot_loss[loss=0.3742, simple_loss=0.2942, pruned_loss=0.2583, over 1080763.61 frames. ], batch size: 91, lr: 4.89e-02, grad_scale: 8.0
2022-11-15 13:27:10,786 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=1503.0, num_to_drop=1, layers_to_drop={2}
2022-11-15 13:27:14,387 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=1509.0, num_to_drop=2, layers_to_drop={2, 3}
2022-11-15 13:27:26,379 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=5.09 vs. limit=5.0
2022-11-15 13:27:40,010 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=1551.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 13:27:45,703 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([4.5715, 4.3868, 4.8230, 4.6779, 4.8402, 4.6437, 4.7122, 4.2316],
       device='cuda:1'), covar=tensor([0.0781, 0.0804, 0.0542, 0.0520, 0.0666, 0.0384, 0.0368, 0.0475],
       device='cuda:1'), in_proj_covar=tensor([0.0018, 0.0018, 0.0017, 0.0016, 0.0017, 0.0017, 0.0015, 0.0018],
       device='cuda:1'), out_proj_covar=tensor([1.8355e-05, 1.7827e-05, 1.6827e-05, 1.5313e-05, 1.5853e-05, 1.6610e-05,
        1.4866e-05, 1.7450e-05], device='cuda:1')
2022-11-15 13:27:48,900 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=6.53 vs. limit=5.0
2022-11-15 13:27:49,371 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=1566.0, num_to_drop=1, layers_to_drop={0}
2022-11-15 13:27:57,209 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=6.16 vs. limit=5.0
2022-11-15 13:28:10,526 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 8.692e+01 1.557e+02 1.959e+02 2.401e+02 7.122e+02, threshold=3.919e+02, percent-clipped=3.0
2022-11-15 13:28:10,569 INFO [train.py:876] (1/4) Epoch 1, batch 1600, loss[loss=0.3382, simple_loss=0.2703, pruned_loss=0.2147, over 5368.00 frames. ], tot_loss[loss=0.3677, simple_loss=0.2885, pruned_loss=0.2485, over 1075801.79 frames. ], batch size: 9, lr: 4.88e-02, grad_scale: 8.0
2022-11-15 13:28:12,527 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=2.33 vs. limit=2.0
2022-11-15 13:28:17,298 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=1611.0, num_to_drop=1, layers_to_drop={0}
2022-11-15 13:28:26,892 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=1627.0, num_to_drop=2, layers_to_drop={2, 3}
2022-11-15 13:28:35,186 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.98 vs. limit=2.0
2022-11-15 13:28:54,813 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=1672.0, num_to_drop=2, layers_to_drop={1, 2}
2022-11-15 13:29:11,721 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 8.804e+01 1.584e+02 2.065e+02 2.557e+02 6.153e+02, threshold=4.130e+02, percent-clipped=6.0
2022-11-15 13:29:11,764 INFO [train.py:876] (1/4) Epoch 1, batch 1700, loss[loss=0.3825, simple_loss=0.2902, pruned_loss=0.2493, over 5580.00 frames. ], tot_loss[loss=0.3619, simple_loss=0.2837, pruned_loss=0.2397, over 1081229.48 frames. ], batch size: 54, lr: 4.86e-02, grad_scale: 8.0
2022-11-15 13:29:41,732 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=2.12 vs. limit=2.0
2022-11-15 13:29:50,493 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=5.63 vs. limit=5.0
2022-11-15 13:30:07,142 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=1790.0, num_to_drop=1, layers_to_drop={3}
2022-11-15 13:30:14,465 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 8.349e+01 1.628e+02 2.392e+02 3.072e+02 5.496e+02, threshold=4.784e+02, percent-clipped=8.0
2022-11-15 13:30:14,508 INFO [train.py:876] (1/4) Epoch 1, batch 1800, loss[loss=0.2792, simple_loss=0.2325, pruned_loss=0.1663, over 5693.00 frames. ], tot_loss[loss=0.3613, simple_loss=0.2821, pruned_loss=0.2353, over 1088869.47 frames. ], batch size: 12, lr: 4.85e-02, grad_scale: 8.0
2022-11-15 13:30:19,411 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=1809.0, num_to_drop=1, layers_to_drop={1}
2022-11-15 13:30:30,635 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=6.89 vs. limit=5.0
2022-11-15 13:30:32,809 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([4.7207, 4.9346, 3.9200, 4.7206, 4.8944, 4.6231, 4.8551, 4.2298],
       device='cuda:1'), covar=tensor([0.0572, 0.0651, 0.0944, 0.1169, 0.0539, 0.0807, 0.0433, 0.0707],
       device='cuda:1'), in_proj_covar=tensor([0.0032, 0.0033, 0.0033, 0.0031, 0.0034, 0.0035, 0.0030, 0.0033],
       device='cuda:1'), out_proj_covar=tensor([3.0570e-05, 3.3473e-05, 3.2340e-05, 3.1388e-05, 3.1981e-05, 3.5502e-05,
        2.8630e-05, 3.0504e-05], device='cuda:1')
2022-11-15 13:30:37,493 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=1838.0, num_to_drop=1, layers_to_drop={1}
2022-11-15 13:30:49,386 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=1857.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 13:30:49,477 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=1857.0, num_to_drop=1, layers_to_drop={1}
2022-11-15 13:30:57,322 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=1870.0, num_to_drop=1, layers_to_drop={0}
2022-11-15 13:31:05,083 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.8222, 4.1953, 3.6437, 4.0966, 3.8600, 4.0444, 4.2589, 4.0741],
       device='cuda:1'), covar=tensor([0.0646, 0.0355, 0.0703, 0.0284, 0.0528, 0.0407, 0.0342, 0.0412],
       device='cuda:1'), in_proj_covar=tensor([0.0015, 0.0015, 0.0014, 0.0012, 0.0015, 0.0013, 0.0013, 0.0012],
       device='cuda:1'), out_proj_covar=tensor([1.1608e-05, 1.1384e-05, 9.9322e-06, 8.1221e-06, 1.0690e-05, 9.2086e-06,
        8.8842e-06, 7.7313e-06], device='cuda:1')
2022-11-15 13:31:16,038 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=1899.0, num_to_drop=2, layers_to_drop={0, 3}
2022-11-15 13:31:17,086 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 9.491e+01 1.765e+02 2.160e+02 2.889e+02 5.463e+02, threshold=4.319e+02, percent-clipped=1.0
2022-11-15 13:31:17,126 INFO [train.py:876] (1/4) Epoch 1, batch 1900, loss[loss=0.2993, simple_loss=0.2426, pruned_loss=0.18, over 5480.00 frames. ], tot_loss[loss=0.3573, simple_loss=0.2786, pruned_loss=0.2288, over 1087312.65 frames. ], batch size: 12, lr: 4.83e-02, grad_scale: 8.0
2022-11-15 13:31:27,814 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=1918.0, num_to_drop=2, layers_to_drop={1, 2}
2022-11-15 13:31:30,130 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=1922.0, num_to_drop=1, layers_to_drop={2}
2022-11-15 13:31:35,527 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=1931.0, num_to_drop=2, layers_to_drop={0, 1}
2022-11-15 13:31:58,481 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=1967.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 13:31:58,588 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.9849, 2.8822, 2.8863, 3.3002, 3.1672, 3.1581, 2.9386, 2.5720],
       device='cuda:1'), covar=tensor([0.0868, 0.0810, 0.0615, 0.0424, 0.0393, 0.0517, 0.0602, 0.0692],
       device='cuda:1'), in_proj_covar=tensor([0.0014, 0.0015, 0.0013, 0.0012, 0.0013, 0.0014, 0.0013, 0.0014],
       device='cuda:1'), out_proj_covar=tensor([1.0831e-05, 1.2383e-05, 1.0134e-05, 8.4107e-06, 9.8158e-06, 1.0911e-05,
        1.0616e-05, 1.2361e-05], device='cuda:1')
2022-11-15 13:32:19,572 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.112e+02 1.971e+02 2.700e+02 3.319e+02 5.947e+02, threshold=5.400e+02, percent-clipped=8.0
2022-11-15 13:32:19,615 INFO [train.py:876] (1/4) Epoch 1, batch 2000, loss[loss=0.2915, simple_loss=0.2253, pruned_loss=0.1789, over 5733.00 frames. ], tot_loss[loss=0.3565, simple_loss=0.2773, pruned_loss=0.2249, over 1088785.16 frames. ], batch size: 13, lr: 4.82e-02, grad_scale: 16.0
2022-11-15 13:32:19,720 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.4442, 3.5065, 3.5118, 3.3001, 3.3428, 3.4278, 3.2323, 3.5150],
       device='cuda:1'), covar=tensor([0.0487, 0.0448, 0.0449, 0.0568, 0.0512, 0.0583, 0.0609, 0.0493],
       device='cuda:1'), in_proj_covar=tensor([0.0027, 0.0025, 0.0026, 0.0026, 0.0027, 0.0026, 0.0026, 0.0027],
       device='cuda:1'), out_proj_covar=tensor([2.5433e-05, 2.3566e-05, 2.3625e-05, 2.4082e-05, 2.4754e-05, 2.4190e-05,
        2.2941e-05, 2.4970e-05], device='cuda:1')
2022-11-15 13:32:22,989 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=2.17 vs. limit=2.0
2022-11-15 13:33:10,332 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=5.08 vs. limit=5.0
2022-11-15 13:33:18,072 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=2.05 vs. limit=2.0
2022-11-15 13:33:20,334 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=2090.0, num_to_drop=2, layers_to_drop={0, 2}
2022-11-15 13:33:27,176 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 7.484e+01 1.719e+02 2.410e+02 2.808e+02 6.250e+02, threshold=4.821e+02, percent-clipped=3.0
2022-11-15 13:33:27,220 INFO [train.py:876] (1/4) Epoch 1, batch 2100, loss[loss=0.3565, simple_loss=0.2825, pruned_loss=0.2153, over 5710.00 frames. ], tot_loss[loss=0.3514, simple_loss=0.2744, pruned_loss=0.2184, over 1086331.06 frames. ], batch size: 34, lr: 4.80e-02, grad_scale: 16.0
2022-11-15 13:33:46,727 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=2.08 vs. limit=2.0
2022-11-15 13:33:52,295 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=2138.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 13:33:57,622 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=2.15 vs. limit=2.0
2022-11-15 13:33:57,837 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.94 vs. limit=2.0
2022-11-15 13:34:29,777 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=2194.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 13:34:34,680 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.077e+02 1.857e+02 2.320e+02 3.014e+02 5.745e+02, threshold=4.640e+02, percent-clipped=3.0
2022-11-15 13:34:34,724 INFO [train.py:876] (1/4) Epoch 1, batch 2200, loss[loss=0.3252, simple_loss=0.2664, pruned_loss=0.192, over 5497.00 frames. ], tot_loss[loss=0.3475, simple_loss=0.2722, pruned_loss=0.214, over 1084320.86 frames. ], batch size: 12, lr: 4.78e-02, grad_scale: 16.0
2022-11-15 13:34:43,173 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=2213.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 13:34:49,320 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=2222.0, num_to_drop=2, layers_to_drop={0, 1}
2022-11-15 13:34:51,013 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=2.35 vs. limit=2.0
2022-11-15 13:34:51,876 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=2226.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 13:35:19,976 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=2267.0, num_to_drop=1, layers_to_drop={2}
2022-11-15 13:35:21,885 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=2270.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 13:35:42,976 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 9.350e+01 1.693e+02 2.305e+02 3.135e+02 7.690e+02, threshold=4.610e+02, percent-clipped=6.0
2022-11-15 13:35:43,019 INFO [train.py:876] (1/4) Epoch 1, batch 2300, loss[loss=0.3266, simple_loss=0.2673, pruned_loss=0.1929, over 5535.00 frames. ], tot_loss[loss=0.3413, simple_loss=0.2691, pruned_loss=0.2083, over 1083767.85 frames. ], batch size: 13, lr: 4.77e-02, grad_scale: 16.0
2022-11-15 13:35:52,630 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=2315.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 13:36:02,770 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.0625, 1.6878, 1.2327, 1.7561, 2.2484, 2.1659, 2.4109, 2.2573],
       device='cuda:1'), covar=tensor([0.0394, 0.0472, 0.0541, 0.0480, 0.0349, 0.0337, 0.0240, 0.0247],
       device='cuda:1'), in_proj_covar=tensor([0.0021, 0.0023, 0.0024, 0.0023, 0.0022, 0.0023, 0.0023, 0.0021],
       device='cuda:1'), out_proj_covar=tensor([1.8403e-05, 2.1293e-05, 2.1591e-05, 2.1612e-05, 1.8931e-05, 2.1568e-05,
        1.8797e-05, 1.9324e-05], device='cuda:1')
2022-11-15 13:36:09,644 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=2340.0, num_to_drop=1, layers_to_drop={1}
2022-11-15 13:36:16,820 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=2.01 vs. limit=2.0
2022-11-15 13:36:37,908 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=2.13 vs. limit=2.0
2022-11-15 13:36:51,173 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 9.270e+01 1.877e+02 2.321e+02 3.011e+02 5.507e+02, threshold=4.642e+02, percent-clipped=4.0
2022-11-15 13:36:51,213 INFO [train.py:876] (1/4) Epoch 1, batch 2400, loss[loss=0.3815, simple_loss=0.294, pruned_loss=0.2345, over 5604.00 frames. ], tot_loss[loss=0.3409, simple_loss=0.2692, pruned_loss=0.2073, over 1079140.57 frames. ], batch size: 50, lr: 4.75e-02, grad_scale: 16.0
2022-11-15 13:36:51,412 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=2401.0, num_to_drop=2, layers_to_drop={0, 3}
2022-11-15 13:37:05,171 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.94 vs. limit=2.0
2022-11-15 13:37:12,683 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.96 vs. limit=2.0
2022-11-15 13:37:12,956 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=2.41 vs. limit=2.0
2022-11-15 13:37:27,484 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.4733, 2.9003, 3.2365, 2.7118, 3.2721, 2.9398, 3.2524, 3.4801],
       device='cuda:1'), covar=tensor([0.0258, 0.0843, 0.0324, 0.0673, 0.0348, 0.0461, 0.0383, 0.0251],
       device='cuda:1'), in_proj_covar=tensor([0.0011, 0.0015, 0.0011, 0.0015, 0.0010, 0.0012, 0.0012, 0.0011],
       device='cuda:1'), out_proj_covar=tensor([8.6003e-06, 1.4856e-05, 9.3408e-06, 1.2908e-05, 8.0138e-06, 9.2076e-06,
        1.0174e-05, 8.5775e-06], device='cuda:1')
2022-11-15 13:37:34,731 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([4.0964, 4.0852, 3.7914, 3.8510, 3.7922, 3.7879, 3.2236, 4.0536],
       device='cuda:1'), covar=tensor([0.0267, 0.0219, 0.0250, 0.0233, 0.0352, 0.0317, 0.0519, 0.0218],
       device='cuda:1'), in_proj_covar=tensor([0.0026, 0.0026, 0.0024, 0.0026, 0.0028, 0.0028, 0.0030, 0.0027],
       device='cuda:1'), out_proj_covar=tensor([2.1282e-05, 2.1275e-05, 2.1775e-05, 2.1092e-05, 2.3703e-05, 2.3305e-05,
        2.5727e-05, 2.2647e-05], device='cuda:1')
2022-11-15 13:37:34,791 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.0111, 3.7720, 3.1511, 4.1258, 3.7540, 4.0755, 3.7575, 3.7849],
       device='cuda:1'), covar=tensor([0.0985, 0.0465, 0.0798, 0.0318, 0.0625, 0.0584, 0.0371, 0.0398],
       device='cuda:1'), in_proj_covar=tensor([0.0016, 0.0015, 0.0014, 0.0013, 0.0015, 0.0014, 0.0012, 0.0011],
       device='cuda:1'), out_proj_covar=tensor([1.2055e-05, 1.0949e-05, 1.0945e-05, 7.9586e-06, 1.0841e-05, 9.8959e-06,
        7.6582e-06, 6.9895e-06], device='cuda:1')
2022-11-15 13:37:53,801 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=2494.0, num_to_drop=1, layers_to_drop={2}
2022-11-15 13:37:58,566 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.057e+02 2.130e+02 2.557e+02 3.291e+02 7.818e+02, threshold=5.113e+02, percent-clipped=6.0
2022-11-15 13:37:58,608 INFO [train.py:876] (1/4) Epoch 1, batch 2500, loss[loss=0.3049, simple_loss=0.2348, pruned_loss=0.1875, over 5528.00 frames. ], tot_loss[loss=0.3383, simple_loss=0.2675, pruned_loss=0.2051, over 1079921.80 frames. ], batch size: 10, lr: 4.73e-02, grad_scale: 16.0
2022-11-15 13:38:06,777 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=2513.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 13:38:09,356 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.3252, 3.3080, 3.3694, 3.3217, 3.2036, 3.3501, 3.0415, 3.4408],
       device='cuda:1'), covar=tensor([0.0224, 0.0206, 0.0219, 0.0251, 0.0213, 0.0228, 0.0301, 0.0194],
       device='cuda:1'), in_proj_covar=tensor([0.0026, 0.0024, 0.0026, 0.0024, 0.0025, 0.0024, 0.0028, 0.0025],
       device='cuda:1'), out_proj_covar=tensor([2.5286e-05, 2.3033e-05, 2.5941e-05, 2.3646e-05, 2.4452e-05, 2.2533e-05,
        2.5705e-05, 2.3817e-05], device='cuda:1')
2022-11-15 13:38:15,168 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=2526.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 13:38:25,938 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=2542.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 13:38:38,838 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=2561.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 13:38:47,655 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=2574.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 13:39:06,571 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.050e+02 1.872e+02 2.338e+02 3.221e+02 9.126e+02, threshold=4.676e+02, percent-clipped=6.0
2022-11-15 13:39:06,613 INFO [train.py:876] (1/4) Epoch 1, batch 2600, loss[loss=0.3488, simple_loss=0.2853, pruned_loss=0.2061, over 5742.00 frames. ], tot_loss[loss=0.3312, simple_loss=0.264, pruned_loss=0.1996, over 1077146.59 frames. ], batch size: 17, lr: 4.71e-02, grad_scale: 16.0
2022-11-15 13:39:17,057 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=4.95 vs. limit=5.0
2022-11-15 13:39:22,755 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=2.12 vs. limit=2.0
2022-11-15 13:39:23,143 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([4.6108, 4.5245, 4.6140, 4.6496, 4.3283, 4.5048, 4.1604, 4.5093],
       device='cuda:1'), covar=tensor([0.0357, 0.0237, 0.0189, 0.0182, 0.0215, 0.0357, 0.0338, 0.0193],
       device='cuda:1'), in_proj_covar=tensor([0.0024, 0.0022, 0.0025, 0.0022, 0.0023, 0.0022, 0.0026, 0.0023],
       device='cuda:1'), out_proj_covar=tensor([2.4053e-05, 2.1075e-05, 2.5506e-05, 2.1890e-05, 2.2476e-05, 2.1078e-05,
        2.4935e-05, 2.2783e-05], device='cuda:1')
2022-11-15 13:39:26,559 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([4.1048, 4.4213, 3.9037, 4.5184, 4.6807, 4.3778, 3.1497, 4.5467],
       device='cuda:1'), covar=tensor([0.0506, 0.0360, 0.0525, 0.0346, 0.0147, 0.0340, 0.2228, 0.0323],
       device='cuda:1'), in_proj_covar=tensor([0.0026, 0.0024, 0.0023, 0.0022, 0.0020, 0.0022, 0.0038, 0.0022],
       device='cuda:1'), out_proj_covar=tensor([2.4902e-05, 2.3207e-05, 2.1177e-05, 1.8589e-05, 1.6133e-05, 1.8967e-05,
        4.3471e-05, 1.9327e-05], device='cuda:1')
2022-11-15 13:39:30,170 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=2.07 vs. limit=2.0
2022-11-15 13:39:49,553 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=2.09 vs. limit=2.0
2022-11-15 13:40:04,069 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=2685.0, num_to_drop=1, layers_to_drop={1}
2022-11-15 13:40:11,210 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=2696.0, num_to_drop=1, layers_to_drop={1}
2022-11-15 13:40:14,323 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.241e+02 1.859e+02 2.538e+02 3.417e+02 6.213e+02, threshold=5.075e+02, percent-clipped=6.0
2022-11-15 13:40:14,363 INFO [train.py:876] (1/4) Epoch 1, batch 2700, loss[loss=0.2151, simple_loss=0.1697, pruned_loss=0.1303, over 5381.00 frames. ], tot_loss[loss=0.3262, simple_loss=0.261, pruned_loss=0.196, over 1085060.77 frames. ], batch size: 9, lr: 4.69e-02, grad_scale: 16.0
2022-11-15 13:40:45,503 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=2746.0, num_to_drop=2, layers_to_drop={1, 2}
2022-11-15 13:40:54,156 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=2.14 vs. limit=2.0
2022-11-15 13:41:02,771 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([4.6552, 4.5091, 4.6966, 4.4291, 4.3243, 4.2639, 4.5560, 4.2287],
       device='cuda:1'), covar=tensor([0.0597, 0.0767, 0.0752, 0.0811, 0.0514, 0.0445, 0.0615, 0.0513],
       device='cuda:1'), in_proj_covar=tensor([0.0037, 0.0045, 0.0044, 0.0042, 0.0033, 0.0035, 0.0038, 0.0038],
       device='cuda:1'), out_proj_covar=tensor([4.3778e-05, 5.2795e-05, 5.2883e-05, 4.7100e-05, 3.8170e-05, 3.9107e-05,
        4.2870e-05, 4.1873e-05], device='cuda:1')
2022-11-15 13:41:23,155 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.193e+02 2.037e+02 2.481e+02 3.360e+02 6.352e+02, threshold=4.961e+02, percent-clipped=3.0
2022-11-15 13:41:23,198 INFO [train.py:876] (1/4) Epoch 1, batch 2800, loss[loss=0.2496, simple_loss=0.2153, pruned_loss=0.142, over 5183.00 frames. ], tot_loss[loss=0.3218, simple_loss=0.2589, pruned_loss=0.1925, over 1090258.52 frames. ], batch size: 8, lr: 4.67e-02, grad_scale: 16.0
2022-11-15 13:41:39,159 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=2824.0, num_to_drop=1, layers_to_drop={1}
2022-11-15 13:41:45,367 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.4245, 3.2249, 3.2584, 2.8663, 2.9074, 2.5394, 2.9883, 3.1766],
       device='cuda:1'), covar=tensor([0.0138, 0.0160, 0.0135, 0.0288, 0.0347, 0.0324, 0.0209, 0.0246],
       device='cuda:1'), in_proj_covar=tensor([0.0018, 0.0018, 0.0017, 0.0020, 0.0020, 0.0020, 0.0020, 0.0019],
       device='cuda:1'), out_proj_covar=tensor([1.4366e-05, 1.4435e-05, 1.3301e-05, 1.6728e-05, 1.6780e-05, 1.8368e-05,
        1.7405e-05, 1.5946e-05], device='cuda:1')
2022-11-15 13:41:54,926 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=2.04 vs. limit=2.0
2022-11-15 13:42:13,034 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=5.84 vs. limit=5.0
2022-11-15 13:42:20,498 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=2885.0, num_to_drop=2, layers_to_drop={1, 3}
2022-11-15 13:42:30,578 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.95 vs. limit=2.0
2022-11-15 13:42:30,823 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.149e+02 2.042e+02 2.577e+02 3.345e+02 6.665e+02, threshold=5.155e+02, percent-clipped=6.0
2022-11-15 13:42:30,864 INFO [train.py:876] (1/4) Epoch 1, batch 2900, loss[loss=0.3418, simple_loss=0.2746, pruned_loss=0.2045, over 5584.00 frames. ], tot_loss[loss=0.3225, simple_loss=0.2599, pruned_loss=0.1927, over 1089446.93 frames. ], batch size: 25, lr: 4.65e-02, grad_scale: 16.0
2022-11-15 13:42:40,021 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=5.15 vs. limit=5.0
2022-11-15 13:42:55,185 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=2937.0, num_to_drop=1, layers_to_drop={0}
2022-11-15 13:43:35,968 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=2996.0, num_to_drop=1, layers_to_drop={0}
2022-11-15 13:43:37,254 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=2998.0, num_to_drop=2, layers_to_drop={1, 2}
2022-11-15 13:43:39,748 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 9.318e+01 2.017e+02 2.613e+02 3.220e+02 7.122e+02, threshold=5.226e+02, percent-clipped=3.0
2022-11-15 13:43:39,792 INFO [train.py:876] (1/4) Epoch 1, batch 3000, loss[loss=0.3451, simple_loss=0.2624, pruned_loss=0.2139, over 4972.00 frames. ], tot_loss[loss=0.3216, simple_loss=0.2595, pruned_loss=0.1919, over 1082563.93 frames. ], batch size: 109, lr: 4.63e-02, grad_scale: 16.0
2022-11-15 13:43:39,792 INFO [train.py:899] (1/4) Computing validation loss
2022-11-15 13:43:46,906 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.7455, 2.1621, 2.1492, 2.1980, 1.7999, 1.8803, 2.1362, 2.2095],
       device='cuda:1'), covar=tensor([0.0808, 0.0849, 0.0596, 0.0514, 0.0925, 0.1129, 0.0820, 0.0573],
       device='cuda:1'), in_proj_covar=tensor([0.0025, 0.0022, 0.0024, 0.0022, 0.0024, 0.0023, 0.0023, 0.0021],
       device='cuda:1'), out_proj_covar=tensor([2.4517e-05, 2.0527e-05, 2.0834e-05, 1.9787e-05, 2.3042e-05, 2.1075e-05,
        2.3360e-05, 1.9811e-05], device='cuda:1')
2022-11-15 13:43:56,595 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.8114, 2.8595, 2.8191, 2.9510, 2.5997, 2.8166, 2.7758, 3.0172],
       device='cuda:1'), covar=tensor([0.0223, 0.0183, 0.0230, 0.0152, 0.0259, 0.0191, 0.0273, 0.0179],
       device='cuda:1'), in_proj_covar=tensor([0.0026, 0.0023, 0.0026, 0.0023, 0.0025, 0.0023, 0.0028, 0.0026],
       device='cuda:1'), out_proj_covar=tensor([2.7191e-05, 2.2706e-05, 2.7906e-05, 2.3454e-05, 2.7041e-05, 2.2996e-05,
        2.8651e-05, 2.7244e-05], device='cuda:1')
2022-11-15 13:43:58,880 INFO [train.py:908] (1/4) Epoch 1, validation: loss=0.2736, simple_loss=0.2548, pruned_loss=0.1462, over 1530663.00 frames. 
2022-11-15 13:43:58,881 INFO [train.py:909] (1/4) Maximum memory allocated so far is 4410MB
2022-11-15 13:44:02,760 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=2.02 vs. limit=2.0
2022-11-15 13:44:11,420 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=3019.0, num_to_drop=1, layers_to_drop={1}
2022-11-15 13:44:26,590 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=3041.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 13:44:28,580 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=3044.0, num_to_drop=1, layers_to_drop={0}
2022-11-15 13:44:46,656 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=5.34 vs. limit=5.0
2022-11-15 13:44:53,196 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.6445, 2.8158, 2.7020, 2.3747, 2.3665, 1.8236, 2.7932, 2.4499],
       device='cuda:1'), covar=tensor([0.0365, 0.0267, 0.0240, 0.0862, 0.0451, 0.0627, 0.0272, 0.0455],
       device='cuda:1'), in_proj_covar=tensor([0.0022, 0.0022, 0.0021, 0.0026, 0.0025, 0.0026, 0.0024, 0.0025],
       device='cuda:1'), out_proj_covar=tensor([1.8740e-05, 1.7902e-05, 1.7198e-05, 2.2779e-05, 2.2328e-05, 2.4019e-05,
        2.1280e-05, 2.1461e-05], device='cuda:1')
2022-11-15 13:44:53,878 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=3080.0, num_to_drop=2, layers_to_drop={2, 3}
2022-11-15 13:45:08,266 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.114e+02 2.068e+02 2.442e+02 3.389e+02 5.023e+02, threshold=4.884e+02, percent-clipped=1.0
2022-11-15 13:45:08,307 INFO [train.py:876] (1/4) Epoch 1, batch 3100, loss[loss=0.3133, simple_loss=0.254, pruned_loss=0.1863, over 5581.00 frames. ], tot_loss[loss=0.3184, simple_loss=0.2584, pruned_loss=0.1892, over 1086393.55 frames. ], batch size: 23, lr: 4.61e-02, grad_scale: 16.0
2022-11-15 13:45:20,081 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.0177, 2.2413, 2.0783, 1.9524, 1.7448, 1.4659, 1.4796, 1.8734],
       device='cuda:1'), covar=tensor([0.0146, 0.0198, 0.0162, 0.0193, 0.0202, 0.0268, 0.0521, 0.0222],
       device='cuda:1'), in_proj_covar=tensor([0.0028, 0.0027, 0.0026, 0.0027, 0.0028, 0.0028, 0.0029, 0.0028],
       device='cuda:1'), out_proj_covar=tensor([2.5029e-05, 2.6004e-05, 2.3295e-05, 2.5535e-05, 2.7258e-05, 2.6401e-05,
        3.0356e-05, 2.6469e-05], device='cuda:1')
2022-11-15 13:45:22,365 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.6347, 2.5223, 2.6290, 2.2857, 2.4474, 2.6161, 2.3146, 2.5906],
       device='cuda:1'), covar=tensor([0.0325, 0.0414, 0.0278, 0.0469, 0.0351, 0.0400, 0.0434, 0.0270],
       device='cuda:1'), in_proj_covar=tensor([0.0028, 0.0029, 0.0025, 0.0029, 0.0026, 0.0028, 0.0029, 0.0026],
       device='cuda:1'), out_proj_covar=tensor([2.5541e-05, 2.7459e-05, 2.3122e-05, 2.6211e-05, 2.3709e-05, 2.7069e-05,
        2.6348e-05, 2.4138e-05], device='cuda:1')
2022-11-15 13:46:02,911 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=3180.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 13:46:04,197 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.6026, 3.4775, 3.3974, 3.6983, 3.1297, 3.2554, 3.6461, 3.3634],
       device='cuda:1'), covar=tensor([0.0399, 0.0538, 0.0622, 0.0415, 0.0525, 0.0392, 0.0464, 0.0550],
       device='cuda:1'), in_proj_covar=tensor([0.0038, 0.0052, 0.0044, 0.0046, 0.0034, 0.0037, 0.0042, 0.0041],
       device='cuda:1'), out_proj_covar=tensor([4.5958e-05, 6.4504e-05, 5.6190e-05, 5.4522e-05, 4.0811e-05, 4.3793e-05,
        5.1417e-05, 4.8208e-05], device='cuda:1')
2022-11-15 13:46:17,615 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.090e+02 2.233e+02 2.604e+02 3.182e+02 6.551e+02, threshold=5.207e+02, percent-clipped=6.0
2022-11-15 13:46:17,656 INFO [train.py:876] (1/4) Epoch 1, batch 3200, loss[loss=0.3217, simple_loss=0.251, pruned_loss=0.1962, over 5498.00 frames. ], tot_loss[loss=0.3187, simple_loss=0.2589, pruned_loss=0.1893, over 1088754.57 frames. ], batch size: 49, lr: 4.59e-02, grad_scale: 16.0
2022-11-15 13:46:43,834 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.7867, 1.4997, 1.9348, 1.5376, 1.5950, 2.0058, 1.4692, 1.5325],
       device='cuda:1'), covar=tensor([0.0362, 0.0596, 0.0307, 0.0361, 0.0342, 0.0242, 0.0544, 0.0311],
       device='cuda:1'), in_proj_covar=tensor([0.0028, 0.0030, 0.0026, 0.0030, 0.0025, 0.0027, 0.0031, 0.0026],
       device='cuda:1'), out_proj_covar=tensor([2.5409e-05, 2.8682e-05, 2.5598e-05, 2.7363e-05, 2.3310e-05, 2.5820e-05,
        2.8608e-05, 2.4866e-05], device='cuda:1')
2022-11-15 13:47:03,582 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=2.02 vs. limit=2.0
2022-11-15 13:47:10,570 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.9469, 2.8575, 2.8186, 2.6121, 2.4343, 2.1545, 2.5920, 2.5397],
       device='cuda:1'), covar=tensor([0.0332, 0.0440, 0.0443, 0.0430, 0.0567, 0.0829, 0.0476, 0.0598],
       device='cuda:1'), in_proj_covar=tensor([0.0026, 0.0025, 0.0024, 0.0028, 0.0028, 0.0028, 0.0029, 0.0028],
       device='cuda:1'), out_proj_covar=tensor([2.2638e-05, 1.9968e-05, 2.0282e-05, 2.4689e-05, 2.7087e-05, 2.7149e-05,
        2.6875e-05, 2.6601e-05], device='cuda:1')
2022-11-15 13:47:17,418 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=3288.0, num_to_drop=1, layers_to_drop={0}
2022-11-15 13:47:20,615 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=3293.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 13:47:25,677 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 8.790e+01 2.210e+02 2.954e+02 4.251e+02 1.287e+03, threshold=5.908e+02, percent-clipped=13.0
2022-11-15 13:47:25,721 INFO [train.py:876] (1/4) Epoch 1, batch 3300, loss[loss=0.2196, simple_loss=0.1925, pruned_loss=0.1234, over 5434.00 frames. ], tot_loss[loss=0.3166, simple_loss=0.2576, pruned_loss=0.1878, over 1087917.28 frames. ], batch size: 11, lr: 4.57e-02, grad_scale: 16.0
2022-11-15 13:47:40,505 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.7612, 4.3742, 3.7963, 4.4114, 4.1324, 3.8411, 3.5401, 3.8201],
       device='cuda:1'), covar=tensor([0.0363, 0.0233, 0.0305, 0.0156, 0.0205, 0.0323, 0.0357, 0.0282],
       device='cuda:1'), in_proj_covar=tensor([0.0034, 0.0033, 0.0041, 0.0035, 0.0034, 0.0038, 0.0033, 0.0033],
       device='cuda:1'), out_proj_covar=tensor([3.8571e-05, 3.7643e-05, 4.4389e-05, 3.8198e-05, 3.4832e-05, 4.2216e-05,
        3.5552e-05, 3.5641e-05], device='cuda:1')
2022-11-15 13:47:53,285 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=3341.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 13:47:59,052 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=3349.0, num_to_drop=2, layers_to_drop={1, 2}
2022-11-15 13:48:17,247 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=3375.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 13:48:24,426 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.2955, 2.8143, 2.3480, 2.1977, 1.9902, 1.9911, 2.0419, 1.9165],
       device='cuda:1'), covar=tensor([0.0145, 0.0086, 0.0129, 0.0128, 0.0182, 0.0201, 0.0210, 0.0164],
       device='cuda:1'), in_proj_covar=tensor([0.0025, 0.0022, 0.0023, 0.0023, 0.0025, 0.0024, 0.0023, 0.0023],
       device='cuda:1'), out_proj_covar=tensor([2.2448e-05, 2.0940e-05, 2.0595e-05, 2.1146e-05, 2.3584e-05, 2.2988e-05,
        2.3856e-05, 2.1406e-05], device='cuda:1')
2022-11-15 13:48:26,983 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=3389.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 13:48:35,851 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 9.826e+01 1.721e+02 2.073e+02 2.750e+02 6.330e+02, threshold=4.146e+02, percent-clipped=3.0
2022-11-15 13:48:35,892 INFO [train.py:876] (1/4) Epoch 1, batch 3400, loss[loss=0.294, simple_loss=0.2557, pruned_loss=0.1662, over 5562.00 frames. ], tot_loss[loss=0.3129, simple_loss=0.2555, pruned_loss=0.1851, over 1080392.13 frames. ], batch size: 25, lr: 4.55e-02, grad_scale: 16.0
2022-11-15 13:48:47,083 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.98 vs. limit=2.0
2022-11-15 13:48:47,857 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=2.13 vs. limit=2.0
2022-11-15 13:48:56,794 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=5.69 vs. limit=5.0
2022-11-15 13:49:30,567 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=3480.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 13:49:45,036 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.127e+02 1.861e+02 2.622e+02 3.661e+02 7.520e+02, threshold=5.245e+02, percent-clipped=13.0
2022-11-15 13:49:45,080 INFO [train.py:876] (1/4) Epoch 1, batch 3500, loss[loss=0.4378, simple_loss=0.3357, pruned_loss=0.2699, over 5425.00 frames. ], tot_loss[loss=0.3141, simple_loss=0.2571, pruned_loss=0.1856, over 1088603.48 frames. ], batch size: 64, lr: 4.53e-02, grad_scale: 16.0
2022-11-15 13:50:04,181 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=3528.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 13:50:08,012 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.4038, 2.4680, 2.6093, 2.1700, 2.2718, 2.3587, 2.3091, 2.3528],
       device='cuda:1'), covar=tensor([0.0262, 0.0306, 0.0162, 0.0375, 0.0289, 0.0214, 0.0278, 0.0234],
       device='cuda:1'), in_proj_covar=tensor([0.0026, 0.0028, 0.0022, 0.0029, 0.0025, 0.0027, 0.0029, 0.0025],
       device='cuda:1'), out_proj_covar=tensor([2.5142e-05, 2.8014e-05, 2.1861e-05, 2.8250e-05, 2.3369e-05, 2.6314e-05,
        2.7823e-05, 2.3721e-05], device='cuda:1')
2022-11-15 13:50:17,078 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=3546.0, num_to_drop=1, layers_to_drop={0}
2022-11-15 13:50:35,677 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=4.83 vs. limit=5.0
2022-11-15 13:50:39,498 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.2833, 2.8366, 2.9859, 3.1669, 1.5691, 2.9773, 2.8089, 2.8375],
       device='cuda:1'), covar=tensor([0.1374, 0.0535, 0.0463, 0.0309, 0.0945, 0.0519, 0.0461, 0.0384],
       device='cuda:1'), in_proj_covar=tensor([0.0032, 0.0023, 0.0022, 0.0019, 0.0025, 0.0022, 0.0021, 0.0019],
       device='cuda:1'), out_proj_covar=tensor([2.7471e-05, 1.6967e-05, 1.7676e-05, 1.3100e-05, 1.9703e-05, 1.6248e-05,
        1.4553e-05, 1.2100e-05], device='cuda:1')
2022-11-15 13:50:41,872 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=2.02 vs. limit=2.0
2022-11-15 13:50:42,420 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=4.86 vs. limit=5.0
2022-11-15 13:50:49,948 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=3593.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 13:50:56,151 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 7.435e+01 2.156e+02 2.680e+02 3.527e+02 6.618e+02, threshold=5.360e+02, percent-clipped=3.0
2022-11-15 13:50:56,194 INFO [train.py:876] (1/4) Epoch 1, batch 3600, loss[loss=0.3141, simple_loss=0.2579, pruned_loss=0.1851, over 5684.00 frames. ], tot_loss[loss=0.3123, simple_loss=0.2562, pruned_loss=0.1842, over 1087317.28 frames. ], batch size: 11, lr: 4.50e-02, grad_scale: 16.0
2022-11-15 13:51:00,508 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=3607.0, num_to_drop=2, layers_to_drop={1, 3}
2022-11-15 13:51:09,619 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=4.75 vs. limit=5.0
2022-11-15 13:51:24,236 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=2.01 vs. limit=2.0
2022-11-15 13:51:24,663 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=3641.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 13:51:27,135 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=3644.0, num_to_drop=1, layers_to_drop={2}
2022-11-15 13:51:30,734 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=5.16 vs. limit=5.0
2022-11-15 13:51:35,557 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=5.12 vs. limit=5.0
2022-11-15 13:51:48,521 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.8484, 3.2266, 2.9415, 3.2563, 3.1215, 2.9081, 2.7746, 2.9037],
       device='cuda:1'), covar=tensor([0.0268, 0.0200, 0.0243, 0.0151, 0.0195, 0.0255, 0.0319, 0.0282],
       device='cuda:1'), in_proj_covar=tensor([0.0033, 0.0031, 0.0041, 0.0033, 0.0034, 0.0038, 0.0033, 0.0032],
       device='cuda:1'), out_proj_covar=tensor([3.8389e-05, 3.8235e-05, 4.8081e-05, 3.8610e-05, 3.7116e-05, 4.3669e-05,
        3.8090e-05, 3.5626e-05], device='cuda:1')
2022-11-15 13:51:49,272 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=3675.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 13:51:49,957 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=3676.0, num_to_drop=1, layers_to_drop={1}
2022-11-15 13:51:53,081 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=2.09 vs. limit=2.0
2022-11-15 13:52:07,943 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.388e+02 2.330e+02 3.139e+02 3.973e+02 9.859e+02, threshold=6.278e+02, percent-clipped=9.0
2022-11-15 13:52:07,983 INFO [train.py:876] (1/4) Epoch 1, batch 3700, loss[loss=0.3349, simple_loss=0.2741, pruned_loss=0.1978, over 5558.00 frames. ], tot_loss[loss=0.3124, simple_loss=0.2564, pruned_loss=0.1842, over 1082490.26 frames. ], batch size: 40, lr: 4.48e-02, grad_scale: 16.0
2022-11-15 13:52:18,584 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=1.99 vs. limit=2.0
2022-11-15 13:52:24,106 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=3723.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 13:52:26,493 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=2.03 vs. limit=2.0
2022-11-15 13:52:27,332 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=2.01 vs. limit=2.0
2022-11-15 13:52:33,976 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=3737.0, num_to_drop=2, layers_to_drop={2, 3}
2022-11-15 13:52:43,966 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=5.47 vs. limit=5.0
2022-11-15 13:53:20,083 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.212e+02 2.129e+02 2.584e+02 3.254e+02 9.208e+02, threshold=5.168e+02, percent-clipped=2.0
2022-11-15 13:53:20,124 INFO [train.py:876] (1/4) Epoch 1, batch 3800, loss[loss=0.3838, simple_loss=0.3017, pruned_loss=0.233, over 5622.00 frames. ], tot_loss[loss=0.3109, simple_loss=0.2557, pruned_loss=0.183, over 1083183.64 frames. ], batch size: 50, lr: 4.46e-02, grad_scale: 16.0
2022-11-15 13:53:53,014 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.9888, 3.5363, 3.3128, 3.5544, 3.4141, 2.9464, 3.1320, 3.1156],
       device='cuda:1'), covar=tensor([0.0400, 0.0198, 0.0255, 0.0194, 0.0243, 0.0376, 0.0258, 0.0300],
       device='cuda:1'), in_proj_covar=tensor([0.0037, 0.0034, 0.0043, 0.0036, 0.0037, 0.0039, 0.0034, 0.0033],
       device='cuda:1'), out_proj_covar=tensor([4.4927e-05, 4.1877e-05, 5.2039e-05, 4.2487e-05, 4.2579e-05, 4.6072e-05,
        4.0931e-05, 3.7658e-05], device='cuda:1')
2022-11-15 13:54:28,166 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=5.28 vs. limit=5.0
2022-11-15 13:54:31,929 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.183e+02 2.219e+02 2.583e+02 3.487e+02 8.673e+02, threshold=5.166e+02, percent-clipped=10.0
2022-11-15 13:54:31,972 INFO [train.py:876] (1/4) Epoch 1, batch 3900, loss[loss=0.2796, simple_loss=0.239, pruned_loss=0.1601, over 5742.00 frames. ], tot_loss[loss=0.3078, simple_loss=0.2537, pruned_loss=0.1809, over 1079375.83 frames. ], batch size: 14, lr: 4.44e-02, grad_scale: 16.0
2022-11-15 13:54:32,687 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=3902.0, num_to_drop=1, layers_to_drop={0}
2022-11-15 13:54:49,038 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.1524, 4.1204, 3.9735, 4.0252, 4.1061, 3.3182, 2.7775, 4.0499],
       device='cuda:1'), covar=tensor([0.1547, 0.0255, 0.0441, 0.0205, 0.0180, 0.0942, 0.3707, 0.0242],
       device='cuda:1'), in_proj_covar=tensor([0.0082, 0.0057, 0.0061, 0.0050, 0.0053, 0.0074, 0.0114, 0.0056],
       device='cuda:1'), out_proj_covar=tensor([8.7071e-05, 5.3171e-05, 5.5325e-05, 4.2549e-05, 4.3995e-05, 7.2189e-05,
        1.3865e-04, 4.7364e-05], device='cuda:1')
2022-11-15 13:54:50,510 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=3926.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 13:55:03,817 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=3944.0, num_to_drop=1, layers_to_drop={1}
2022-11-15 13:55:14,195 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.0981, 1.0927, 1.2398, 0.6765, 1.7607, 1.3870, 1.5055, 1.2836],
       device='cuda:1'), covar=tensor([0.0575, 0.0385, 0.0327, 0.0740, 0.0257, 0.0273, 0.0325, 0.0330],
       device='cuda:1'), in_proj_covar=tensor([0.0026, 0.0023, 0.0023, 0.0028, 0.0024, 0.0024, 0.0024, 0.0024],
       device='cuda:1'), out_proj_covar=tensor([2.6318e-05, 2.2730e-05, 2.3208e-05, 3.4728e-05, 2.3140e-05, 2.4224e-05,
        2.3936e-05, 2.6396e-05], device='cuda:1')
2022-11-15 13:55:19,383 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.9691, 3.4261, 2.5584, 2.2794, 3.1052, 2.8670, 2.7951, 3.1935],
       device='cuda:1'), covar=tensor([0.0226, 0.0153, 0.0244, 0.0682, 0.0152, 0.0201, 0.0182, 0.0227],
       device='cuda:1'), in_proj_covar=tensor([0.0020, 0.0018, 0.0017, 0.0027, 0.0017, 0.0017, 0.0015, 0.0016],
       device='cuda:1'), out_proj_covar=tensor([2.5755e-05, 2.3450e-05, 2.1390e-05, 3.5155e-05, 2.1322e-05, 2.1846e-05,
        2.0110e-05, 2.0126e-05], device='cuda:1')
2022-11-15 13:55:27,620 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=5.85 vs. limit=5.0
2022-11-15 13:55:34,408 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=3987.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 13:55:38,176 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=3992.0, num_to_drop=1, layers_to_drop={0}
2022-11-15 13:55:44,803 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.110e+02 2.234e+02 2.679e+02 3.538e+02 6.488e+02, threshold=5.359e+02, percent-clipped=3.0
2022-11-15 13:55:44,845 INFO [train.py:876] (1/4) Epoch 1, batch 4000, loss[loss=0.3396, simple_loss=0.2736, pruned_loss=0.2028, over 5547.00 frames. ], tot_loss[loss=0.3082, simple_loss=0.2544, pruned_loss=0.181, over 1081521.49 frames. ], batch size: 25, lr: 4.42e-02, grad_scale: 32.0
2022-11-15 13:55:47,722 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=6.06 vs. limit=5.0
2022-11-15 13:56:07,928 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=4032.0, num_to_drop=1, layers_to_drop={3}
2022-11-15 13:56:22,680 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.2652, 4.1456, 3.7790, 4.1821, 3.9560, 3.2005, 3.2604, 3.6311],
       device='cuda:1'), covar=tensor([0.0399, 0.0175, 0.0246, 0.0146, 0.0194, 0.0454, 0.0349, 0.0213],
       device='cuda:1'), in_proj_covar=tensor([0.0037, 0.0032, 0.0044, 0.0035, 0.0037, 0.0039, 0.0035, 0.0035],
       device='cuda:1'), out_proj_covar=tensor([4.6140e-05, 4.0594e-05, 5.3885e-05, 4.3539e-05, 4.2962e-05, 4.7188e-05,
        4.1804e-05, 4.1191e-05], device='cuda:1')
2022-11-15 13:56:34,505 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.1519, 3.4196, 3.3968, 3.3491, 3.0053, 3.8403, 3.2867, 3.3665],
       device='cuda:1'), covar=tensor([0.0408, 0.0277, 0.0191, 0.0194, 0.0379, 0.0145, 0.0269, 0.0155],
       device='cuda:1'), in_proj_covar=tensor([0.0026, 0.0020, 0.0018, 0.0017, 0.0022, 0.0018, 0.0019, 0.0017],
       device='cuda:1'), out_proj_covar=tensor([2.1688e-05, 1.4702e-05, 1.4239e-05, 1.1402e-05, 1.7164e-05, 1.2442e-05,
        1.3361e-05, 1.1745e-05], device='cuda:1')
2022-11-15 13:56:58,559 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.016e+02 2.074e+02 2.727e+02 3.371e+02 7.611e+02, threshold=5.454e+02, percent-clipped=4.0
2022-11-15 13:56:58,602 INFO [train.py:876] (1/4) Epoch 1, batch 4100, loss[loss=0.3132, simple_loss=0.2581, pruned_loss=0.1841, over 5616.00 frames. ], tot_loss[loss=0.3025, simple_loss=0.2505, pruned_loss=0.1772, over 1085336.37 frames. ], batch size: 38, lr: 4.40e-02, grad_scale: 32.0
2022-11-15 13:57:26,728 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=4.69 vs. limit=5.0
2022-11-15 13:57:28,539 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=4141.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 13:57:29,160 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.9203, 4.3789, 4.1631, 4.4277, 4.2298, 3.6213, 3.8386, 3.5729],
       device='cuda:1'), covar=tensor([0.0263, 0.0196, 0.0236, 0.0177, 0.0194, 0.0320, 0.0237, 0.0288],
       device='cuda:1'), in_proj_covar=tensor([0.0039, 0.0034, 0.0047, 0.0036, 0.0040, 0.0040, 0.0036, 0.0037],
       device='cuda:1'), out_proj_covar=tensor([4.9686e-05, 4.3898e-05, 5.7708e-05, 4.5661e-05, 4.6451e-05, 4.8518e-05,
        4.3771e-05, 4.4957e-05], device='cuda:1')
2022-11-15 13:57:33,750 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=5.87 vs. limit=5.0
2022-11-15 13:57:39,102 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=2.13 vs. limit=2.0
2022-11-15 13:57:45,503 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.5705, 3.7084, 3.5375, 3.7340, 3.3473, 3.0937, 4.2140, 3.5624],
       device='cuda:1'), covar=tensor([0.0541, 0.0773, 0.0676, 0.0578, 0.0623, 0.0516, 0.0500, 0.0638],
       device='cuda:1'), in_proj_covar=tensor([0.0041, 0.0062, 0.0051, 0.0054, 0.0038, 0.0039, 0.0052, 0.0045],
       device='cuda:1'), out_proj_covar=tensor([5.3477e-05, 8.5779e-05, 7.0186e-05, 7.1308e-05, 4.9789e-05, 5.2331e-05,
        7.4820e-05, 6.0417e-05], device='cuda:1')
2022-11-15 13:58:13,172 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.362e+02 1.959e+02 2.484e+02 3.266e+02 7.504e+02, threshold=4.967e+02, percent-clipped=2.0
2022-11-15 13:58:13,215 INFO [train.py:876] (1/4) Epoch 1, batch 4200, loss[loss=0.351, simple_loss=0.281, pruned_loss=0.2105, over 5597.00 frames. ], tot_loss[loss=0.2998, simple_loss=0.2485, pruned_loss=0.1756, over 1080823.26 frames. ], batch size: 43, lr: 4.38e-02, grad_scale: 32.0
2022-11-15 13:58:14,064 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=4202.0, num_to_drop=1, layers_to_drop={2}
2022-11-15 13:58:14,111 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=4202.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 13:58:22,286 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=4.89 vs. limit=5.0
2022-11-15 13:58:37,079 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=6.75 vs. limit=5.0
2022-11-15 13:58:49,669 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=4250.0, num_to_drop=1, layers_to_drop={0}
2022-11-15 13:59:13,090 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=4282.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 13:59:17,696 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=4288.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 13:59:26,730 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.5850, 1.6595, 1.4858, 2.6792, 2.9346, 2.0795, 2.1234, 2.4235],
       device='cuda:1'), covar=tensor([0.0213, 0.0998, 0.1157, 0.0256, 0.0334, 0.0596, 0.0634, 0.0222],
       device='cuda:1'), in_proj_covar=tensor([0.0033, 0.0060, 0.0058, 0.0035, 0.0038, 0.0046, 0.0047, 0.0039],
       device='cuda:1'), out_proj_covar=tensor([3.0456e-05, 6.2752e-05, 5.6681e-05, 3.0810e-05, 3.4100e-05, 4.4212e-05,
        4.6165e-05, 3.6840e-05], device='cuda:1')
2022-11-15 13:59:27,276 INFO [train.py:876] (1/4) Epoch 1, batch 4300, loss[loss=0.3564, simple_loss=0.2804, pruned_loss=0.2162, over 5530.00 frames. ], tot_loss[loss=0.2986, simple_loss=0.2483, pruned_loss=0.1745, over 1079363.49 frames. ], batch size: 46, lr: 4.35e-02, grad_scale: 16.0
2022-11-15 13:59:27,971 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.171e+02 2.229e+02 3.130e+02 3.930e+02 1.663e+03, threshold=6.259e+02, percent-clipped=10.0
2022-11-15 13:59:37,215 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.93 vs. limit=2.0
2022-11-15 13:59:50,085 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=4332.0, num_to_drop=1, layers_to_drop={0}
2022-11-15 14:00:00,435 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=5.46 vs. limit=5.0
2022-11-15 14:00:02,449 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=4349.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 14:00:25,183 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=4380.0, num_to_drop=1, layers_to_drop={1}
2022-11-15 14:00:29,624 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.2203, 3.4771, 1.9167, 2.5143, 3.2765, 3.5356, 2.4260, 2.6789],
       device='cuda:1'), covar=tensor([0.0223, 0.0185, 0.0505, 0.0264, 0.0148, 0.0090, 0.0226, 0.0182],
       device='cuda:1'), in_proj_covar=tensor([0.0036, 0.0033, 0.0033, 0.0032, 0.0030, 0.0025, 0.0027, 0.0032],
       device='cuda:1'), out_proj_covar=tensor([3.5054e-05, 3.3283e-05, 3.6587e-05, 3.2660e-05, 3.1499e-05, 2.5149e-05,
        2.8407e-05, 3.1418e-05], device='cuda:1')
2022-11-15 14:00:41,286 INFO [train.py:876] (1/4) Epoch 1, batch 4400, loss[loss=0.2966, simple_loss=0.2536, pruned_loss=0.1698, over 5584.00 frames. ], tot_loss[loss=0.3004, simple_loss=0.2499, pruned_loss=0.1754, over 1082420.89 frames. ], batch size: 22, lr: 4.33e-02, grad_scale: 16.0
2022-11-15 14:00:41,970 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.193e+02 1.948e+02 2.508e+02 3.167e+02 7.237e+02, threshold=5.016e+02, percent-clipped=3.0
2022-11-15 14:01:04,286 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=2.28 vs. limit=2.0
2022-11-15 14:01:51,578 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=4497.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 14:01:54,771 INFO [train.py:876] (1/4) Epoch 1, batch 4500, loss[loss=0.3401, simple_loss=0.2767, pruned_loss=0.2017, over 5803.00 frames. ], tot_loss[loss=0.3009, simple_loss=0.2503, pruned_loss=0.1757, over 1082037.79 frames. ], batch size: 18, lr: 4.31e-02, grad_scale: 16.0
2022-11-15 14:01:55,416 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.161e+02 2.194e+02 3.031e+02 3.828e+02 9.010e+02, threshold=6.062e+02, percent-clipped=8.0
2022-11-15 14:02:17,076 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.5368, 2.4278, 2.6404, 2.3559, 2.6612, 2.2229, 2.5737, 2.3627],
       device='cuda:1'), covar=tensor([0.0472, 0.0381, 0.0360, 0.0366, 0.0453, 0.0330, 0.0296, 0.0374],
       device='cuda:1'), in_proj_covar=tensor([0.0042, 0.0044, 0.0034, 0.0040, 0.0046, 0.0033, 0.0034, 0.0036],
       device='cuda:1'), out_proj_covar=tensor([6.4410e-05, 6.0580e-05, 4.9930e-05, 5.4469e-05, 8.0923e-05, 4.9330e-05,
        4.7671e-05, 5.1175e-05], device='cuda:1')
2022-11-15 14:02:17,316 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=2.24 vs. limit=2.0
2022-11-15 14:02:27,830 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=2.05 vs. limit=2.0
2022-11-15 14:02:54,229 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=4582.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 14:02:59,162 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.9268, 2.2514, 1.8980, 1.6241, 1.9547, 1.8072, 2.0634, 1.9983],
       device='cuda:1'), covar=tensor([0.0221, 0.0129, 0.0170, 0.0519, 0.0165, 0.0222, 0.0148, 0.0150],
       device='cuda:1'), in_proj_covar=tensor([0.0025, 0.0021, 0.0022, 0.0037, 0.0022, 0.0022, 0.0017, 0.0021],
       device='cuda:1'), out_proj_covar=tensor([3.5344e-05, 2.9593e-05, 2.9857e-05, 5.2262e-05, 2.9046e-05, 3.0150e-05,
        2.4322e-05, 2.8207e-05], device='cuda:1')
2022-11-15 14:03:08,725 INFO [train.py:876] (1/4) Epoch 1, batch 4600, loss[loss=0.2838, simple_loss=0.2443, pruned_loss=0.1616, over 5488.00 frames. ], tot_loss[loss=0.2994, simple_loss=0.2497, pruned_loss=0.1746, over 1083731.28 frames. ], batch size: 12, lr: 4.29e-02, grad_scale: 16.0
2022-11-15 14:03:09,370 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 8.162e+01 1.839e+02 2.747e+02 3.849e+02 7.443e+02, threshold=5.493e+02, percent-clipped=4.0
2022-11-15 14:03:23,074 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=5.13 vs. limit=5.0
2022-11-15 14:03:29,920 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=4630.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 14:03:40,562 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=4644.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 14:04:23,288 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=5.06 vs. limit=5.0
2022-11-15 14:04:24,344 INFO [train.py:876] (1/4) Epoch 1, batch 4700, loss[loss=0.3272, simple_loss=0.2689, pruned_loss=0.1928, over 5456.00 frames. ], tot_loss[loss=0.2992, simple_loss=0.2496, pruned_loss=0.1744, over 1080284.34 frames. ], batch size: 49, lr: 4.27e-02, grad_scale: 16.0
2022-11-15 14:04:24,958 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.032e+02 2.250e+02 2.748e+02 3.964e+02 7.433e+02, threshold=5.495e+02, percent-clipped=7.0
2022-11-15 14:04:27,353 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.4621, 1.6136, 1.2566, 1.4200, 1.3165, 1.2693, 0.8997, 1.1722],
       device='cuda:1'), covar=tensor([0.0133, 0.0187, 0.0119, 0.0176, 0.0186, 0.0163, 0.0307, 0.0284],
       device='cuda:1'), in_proj_covar=tensor([0.0026, 0.0025, 0.0025, 0.0026, 0.0025, 0.0024, 0.0025, 0.0025],
       device='cuda:1'), out_proj_covar=tensor([2.7952e-05, 2.5269e-05, 2.6181e-05, 2.7091e-05, 2.6186e-05, 2.4287e-05,
        3.1020e-05, 2.7457e-05], device='cuda:1')
2022-11-15 14:04:43,852 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.99 vs. limit=2.0
2022-11-15 14:04:55,822 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.4775, 2.2446, 1.6115, 1.6178, 1.5806, 1.4680, 1.5552, 2.3019],
       device='cuda:1'), covar=tensor([0.0146, 0.0220, 0.0336, 0.0461, 0.0409, 0.0412, 0.0418, 0.0194],
       device='cuda:1'), in_proj_covar=tensor([0.0020, 0.0022, 0.0023, 0.0026, 0.0028, 0.0024, 0.0029, 0.0024],
       device='cuda:1'), out_proj_covar=tensor([2.0936e-05, 2.2023e-05, 2.5779e-05, 2.8841e-05, 3.1403e-05, 2.9532e-05,
        3.3165e-05, 2.6159e-05], device='cuda:1')
2022-11-15 14:05:02,797 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.0083, 1.6922, 1.9615, 1.9488, 2.3638, 2.0161, 2.0663, 2.3498],
       device='cuda:1'), covar=tensor([0.0242, 0.0510, 0.0191, 0.0242, 0.0186, 0.0247, 0.0252, 0.0130],
       device='cuda:1'), in_proj_covar=tensor([0.0021, 0.0021, 0.0018, 0.0020, 0.0020, 0.0020, 0.0022, 0.0016],
       device='cuda:1'), out_proj_covar=tensor([2.2996e-05, 2.4843e-05, 1.9485e-05, 2.1679e-05, 2.2231e-05, 2.1701e-05,
        2.3806e-05, 1.5937e-05], device='cuda:1')
2022-11-15 14:05:10,344 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=2.00 vs. limit=2.0
2022-11-15 14:05:34,581 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=4797.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 14:05:37,708 INFO [train.py:876] (1/4) Epoch 1, batch 4800, loss[loss=0.3355, simple_loss=0.2795, pruned_loss=0.1957, over 5509.00 frames. ], tot_loss[loss=0.299, simple_loss=0.2497, pruned_loss=0.1741, over 1082120.37 frames. ], batch size: 17, lr: 4.25e-02, grad_scale: 16.0
2022-11-15 14:05:38,343 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.248e+02 1.870e+02 2.529e+02 3.283e+02 6.481e+02, threshold=5.059e+02, percent-clipped=1.0
2022-11-15 14:06:03,471 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.7195, 2.4580, 2.0530, 2.4681, 2.8335, 2.9450, 2.9791, 1.7002],
       device='cuda:1'), covar=tensor([0.0104, 0.0174, 0.0154, 0.0144, 0.0165, 0.0217, 0.0126, 0.0208],
       device='cuda:1'), in_proj_covar=tensor([0.0017, 0.0015, 0.0016, 0.0017, 0.0018, 0.0015, 0.0015, 0.0016],
       device='cuda:1'), out_proj_covar=tensor([1.9462e-05, 1.6020e-05, 1.7750e-05, 2.0509e-05, 2.2330e-05, 1.8324e-05,
        1.7871e-05, 1.8756e-05], device='cuda:1')
2022-11-15 14:06:09,938 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=4845.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 14:06:13,338 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=2.08 vs. limit=2.0
2022-11-15 14:06:40,697 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([4.5369, 4.7729, 5.0389, 5.0017, 4.6469, 4.1268, 5.4201, 4.8798],
       device='cuda:1'), covar=tensor([0.0500, 0.0735, 0.0372, 0.0524, 0.0297, 0.0375, 0.0552, 0.0367],
       device='cuda:1'), in_proj_covar=tensor([0.0041, 0.0062, 0.0052, 0.0054, 0.0038, 0.0038, 0.0054, 0.0045],
       device='cuda:1'), out_proj_covar=tensor([5.7676e-05, 9.3011e-05, 7.4209e-05, 7.5679e-05, 5.5878e-05, 5.4156e-05,
        8.8533e-05, 6.2884e-05], device='cuda:1')
2022-11-15 14:06:50,936 INFO [train.py:876] (1/4) Epoch 1, batch 4900, loss[loss=0.2613, simple_loss=0.2231, pruned_loss=0.1498, over 5644.00 frames. ], tot_loss[loss=0.2938, simple_loss=0.2469, pruned_loss=0.1704, over 1091640.86 frames. ], batch size: 29, lr: 4.23e-02, grad_scale: 16.0
2022-11-15 14:06:51,624 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.056e+02 2.074e+02 2.835e+02 3.865e+02 7.498e+02, threshold=5.670e+02, percent-clipped=5.0
2022-11-15 14:07:00,632 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=1.99 vs. limit=2.0
2022-11-15 14:07:22,585 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=4944.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 14:07:43,117 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=5.16 vs. limit=5.0
2022-11-15 14:07:57,420 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=4992.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 14:08:08,412 INFO [train.py:876] (1/4) Epoch 1, batch 5000, loss[loss=0.2145, simple_loss=0.1869, pruned_loss=0.121, over 5103.00 frames. ], tot_loss[loss=0.2913, simple_loss=0.2452, pruned_loss=0.1687, over 1087390.46 frames. ], batch size: 7, lr: 4.20e-02, grad_scale: 16.0
2022-11-15 14:08:09,092 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.161e+02 2.045e+02 2.576e+02 3.694e+02 7.012e+02, threshold=5.152e+02, percent-clipped=6.0
2022-11-15 14:08:15,145 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.4456, 1.2280, 0.8332, 1.2817, 1.7505, 1.3868, 0.6614, 0.9078],
       device='cuda:1'), covar=tensor([0.0178, 0.0204, 0.0257, 0.0302, 0.0154, 0.0206, 0.0316, 0.0218],
       device='cuda:1'), in_proj_covar=tensor([0.0025, 0.0024, 0.0026, 0.0026, 0.0024, 0.0023, 0.0025, 0.0022],
       device='cuda:1'), out_proj_covar=tensor([2.7101e-05, 2.4388e-05, 2.8476e-05, 2.6463e-05, 2.4888e-05, 2.4386e-05,
        3.2712e-05, 2.4993e-05], device='cuda:1')
2022-11-15 14:08:44,697 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.8928, 1.8914, 1.6915, 1.9301, 1.9805, 2.1111, 1.5913, 1.8736],
       device='cuda:1'), covar=tensor([0.0203, 0.0259, 0.0198, 0.0212, 0.0167, 0.0159, 0.0268, 0.0183],
       device='cuda:1'), in_proj_covar=tensor([0.0020, 0.0021, 0.0019, 0.0020, 0.0020, 0.0019, 0.0025, 0.0019],
       device='cuda:1'), out_proj_covar=tensor([2.2829e-05, 2.4663e-05, 2.1034e-05, 2.2029e-05, 2.2386e-05, 2.1385e-05,
        2.8227e-05, 1.9494e-05], device='cuda:1')
2022-11-15 14:08:46,705 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=5.33 vs. limit=5.0
2022-11-15 14:09:00,300 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=2.06 vs. limit=2.0
2022-11-15 14:09:20,877 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.5356, 3.6561, 3.5881, 3.7682, 3.5602, 3.6777, 2.7261, 3.6461],
       device='cuda:1'), covar=tensor([0.0235, 0.0281, 0.0186, 0.0130, 0.0208, 0.0188, 0.0699, 0.0158],
       device='cuda:1'), in_proj_covar=tensor([0.0034, 0.0033, 0.0030, 0.0025, 0.0031, 0.0029, 0.0047, 0.0032],
       device='cuda:1'), out_proj_covar=tensor([4.8732e-05, 4.5439e-05, 4.1163e-05, 3.4342e-05, 4.3439e-05, 3.9436e-05,
        6.5144e-05, 4.4083e-05], device='cuda:1')
2022-11-15 14:09:21,850 INFO [train.py:876] (1/4) Epoch 1, batch 5100, loss[loss=0.2942, simple_loss=0.247, pruned_loss=0.1707, over 5710.00 frames. ], tot_loss[loss=0.2901, simple_loss=0.2451, pruned_loss=0.1675, over 1089733.67 frames. ], batch size: 28, lr: 4.18e-02, grad_scale: 16.0
2022-11-15 14:09:22,488 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.065e+02 2.161e+02 2.601e+02 3.354e+02 8.150e+02, threshold=5.203e+02, percent-clipped=5.0
2022-11-15 14:09:33,867 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.99 vs. limit=2.0
2022-11-15 14:09:57,467 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=2.02 vs. limit=2.0
2022-11-15 14:10:13,303 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=2.31 vs. limit=2.0
2022-11-15 14:10:33,656 INFO [train.py:876] (1/4) Epoch 1, batch 5200, loss[loss=0.1427, simple_loss=0.1346, pruned_loss=0.07537, over 5254.00 frames. ], tot_loss[loss=0.2896, simple_loss=0.245, pruned_loss=0.1671, over 1093312.63 frames. ], batch size: 7, lr: 4.16e-02, grad_scale: 16.0
2022-11-15 14:10:34,300 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.259e+02 2.030e+02 2.662e+02 3.916e+02 1.299e+03, threshold=5.323e+02, percent-clipped=9.0
2022-11-15 14:10:40,507 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=2.19 vs. limit=2.0
2022-11-15 14:10:42,960 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.3651, 3.5806, 3.1094, 3.5594, 2.8842, 3.1416, 3.4748, 2.7948],
       device='cuda:1'), covar=tensor([0.0731, 0.0242, 0.0284, 0.0200, 0.0476, 0.0275, 0.0261, 0.0256],
       device='cuda:1'), in_proj_covar=tensor([0.0040, 0.0026, 0.0026, 0.0020, 0.0034, 0.0025, 0.0027, 0.0024],
       device='cuda:1'), out_proj_covar=tensor([3.7674e-05, 2.3341e-05, 2.4742e-05, 1.8159e-05, 3.1479e-05, 2.2006e-05,
        2.4876e-05, 1.9661e-05], device='cuda:1')
2022-11-15 14:10:57,025 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=2.09 vs. limit=2.0
2022-11-15 14:11:04,254 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=2.36 vs. limit=2.0
2022-11-15 14:11:23,837 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.2574, 1.3548, 1.0464, 0.9432, 0.8273, 1.1805, 0.5907, 0.4334],
       device='cuda:1'), covar=tensor([0.0278, 0.0287, 0.0628, 0.0474, 0.0430, 0.0276, 0.0602, 0.0869],
       device='cuda:1'), in_proj_covar=tensor([0.0021, 0.0021, 0.0023, 0.0024, 0.0021, 0.0020, 0.0023, 0.0020],
       device='cuda:1'), out_proj_covar=tensor([2.2554e-05, 2.1867e-05, 2.6224e-05, 2.5810e-05, 2.2446e-05, 2.2398e-05,
        2.9827e-05, 2.2612e-05], device='cuda:1')
2022-11-15 14:11:39,004 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.1618, 1.6999, 1.5376, 1.4481, 1.2699, 0.9355, 1.5596, 1.6662],
       device='cuda:1'), covar=tensor([0.0133, 0.0174, 0.0266, 0.0270, 0.0360, 0.0381, 0.0324, 0.0243],
       device='cuda:1'), in_proj_covar=tensor([0.0021, 0.0022, 0.0027, 0.0024, 0.0030, 0.0026, 0.0031, 0.0027],
       device='cuda:1'), out_proj_covar=tensor([2.3595e-05, 2.5212e-05, 3.1692e-05, 2.9100e-05, 3.6005e-05, 3.4159e-05,
        3.7557e-05, 3.2746e-05], device='cuda:1')
2022-11-15 14:11:46,391 INFO [train.py:876] (1/4) Epoch 1, batch 5300, loss[loss=0.236, simple_loss=0.2092, pruned_loss=0.1314, over 5600.00 frames. ], tot_loss[loss=0.2882, simple_loss=0.244, pruned_loss=0.1663, over 1091391.34 frames. ], batch size: 18, lr: 4.14e-02, grad_scale: 16.0
2022-11-15 14:11:47,374 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.166e+02 2.088e+02 2.621e+02 3.205e+02 6.242e+02, threshold=5.243e+02, percent-clipped=4.0
2022-11-15 14:12:11,060 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.6605, 1.7019, 1.8320, 2.6900, 2.8772, 2.5190, 1.8403, 3.0212],
       device='cuda:1'), covar=tensor([0.0238, 0.1344, 0.1159, 0.0306, 0.0331, 0.0719, 0.1610, 0.0298],
       device='cuda:1'), in_proj_covar=tensor([0.0044, 0.0090, 0.0080, 0.0046, 0.0054, 0.0069, 0.0085, 0.0052],
       device='cuda:1'), out_proj_covar=tensor([4.4762e-05, 9.8358e-05, 8.4131e-05, 4.7329e-05, 5.2803e-05, 7.4259e-05,
        9.1108e-05, 5.0449e-05], device='cuda:1')
2022-11-15 14:12:59,703 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=2.20 vs. limit=2.0
2022-11-15 14:13:00,084 INFO [train.py:876] (1/4) Epoch 1, batch 5400, loss[loss=0.3449, simple_loss=0.2752, pruned_loss=0.2073, over 5550.00 frames. ], tot_loss[loss=0.2912, simple_loss=0.2454, pruned_loss=0.1685, over 1087464.69 frames. ], batch size: 54, lr: 4.12e-02, grad_scale: 16.0
2022-11-15 14:13:00,710 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.074e+02 2.076e+02 2.742e+02 3.471e+02 5.546e+02, threshold=5.484e+02, percent-clipped=1.0
2022-11-15 14:13:11,214 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=2.10 vs. limit=2.0
2022-11-15 14:13:30,076 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=2.07 vs. limit=2.0
2022-11-15 14:13:41,302 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([4.5471, 4.6885, 4.8751, 4.6490, 4.2447, 3.6156, 5.2151, 4.3054],
       device='cuda:1'), covar=tensor([0.0469, 0.0710, 0.0343, 0.0453, 0.0349, 0.0401, 0.0447, 0.0417],
       device='cuda:1'), in_proj_covar=tensor([0.0044, 0.0066, 0.0052, 0.0058, 0.0041, 0.0038, 0.0058, 0.0048],
       device='cuda:1'), out_proj_covar=tensor([6.5277e-05, 1.0260e-04, 7.7495e-05, 8.5071e-05, 6.3325e-05, 5.8728e-05,
        9.8605e-05, 7.0083e-05], device='cuda:1')
2022-11-15 14:13:59,080 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.0235, 3.5670, 3.9836, 2.8945, 3.5721, 4.0909, 3.1772, 3.2019],
       device='cuda:1'), covar=tensor([0.0796, 0.0251, 0.0235, 0.0485, 0.0486, 0.0171, 0.0391, 0.0273],
       device='cuda:1'), in_proj_covar=tensor([0.0048, 0.0031, 0.0032, 0.0025, 0.0041, 0.0028, 0.0034, 0.0028],
       device='cuda:1'), out_proj_covar=tensor([4.7040e-05, 2.8641e-05, 3.1926e-05, 2.4544e-05, 4.0306e-05, 2.6388e-05,
        3.2723e-05, 2.5321e-05], device='cuda:1')
2022-11-15 14:14:12,219 INFO [train.py:876] (1/4) Epoch 1, batch 5500, loss[loss=0.2468, simple_loss=0.2178, pruned_loss=0.1379, over 5700.00 frames. ], tot_loss[loss=0.2888, simple_loss=0.2444, pruned_loss=0.1666, over 1089529.55 frames. ], batch size: 11, lr: 4.10e-02, grad_scale: 16.0
2022-11-15 14:14:12,892 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.206e+02 2.146e+02 2.749e+02 3.970e+02 7.189e+02, threshold=5.498e+02, percent-clipped=5.0
2022-11-15 14:14:20,362 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.9712, 1.2044, 1.6217, 1.6227, 2.3011, 2.4249, 1.6295, 2.0127],
       device='cuda:1'), covar=tensor([0.0141, 0.0367, 0.0210, 0.0176, 0.0109, 0.0102, 0.0230, 0.0134],
       device='cuda:1'), in_proj_covar=tensor([0.0016, 0.0016, 0.0016, 0.0016, 0.0017, 0.0015, 0.0019, 0.0016],
       device='cuda:1'), out_proj_covar=tensor([1.8292e-05, 1.9136e-05, 1.8297e-05, 1.8190e-05, 1.9655e-05, 1.6887e-05,
        2.3166e-05, 1.6680e-05], device='cuda:1')
2022-11-15 14:14:45,223 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.94 vs. limit=2.0
2022-11-15 14:14:51,554 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.96 vs. limit=2.0
2022-11-15 14:15:25,183 INFO [train.py:876] (1/4) Epoch 1, batch 5600, loss[loss=0.2848, simple_loss=0.2483, pruned_loss=0.1606, over 5572.00 frames. ], tot_loss[loss=0.2882, simple_loss=0.2438, pruned_loss=0.1663, over 1082312.17 frames. ], batch size: 18, lr: 4.08e-02, grad_scale: 16.0
2022-11-15 14:15:26,174 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.047e+02 2.152e+02 2.832e+02 3.606e+02 7.262e+02, threshold=5.664e+02, percent-clipped=5.0
2022-11-15 14:16:00,753 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=5650.0, num_to_drop=1, layers_to_drop={1}
2022-11-15 14:16:11,227 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=2.00 vs. limit=2.0
2022-11-15 14:16:37,327 INFO [train.py:876] (1/4) Epoch 1, batch 5700, loss[loss=0.2853, simple_loss=0.2458, pruned_loss=0.1624, over 5567.00 frames. ], tot_loss[loss=0.2854, simple_loss=0.2426, pruned_loss=0.1641, over 1086972.78 frames. ], batch size: 30, lr: 4.06e-02, grad_scale: 16.0
2022-11-15 14:16:37,963 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.160e+02 2.164e+02 2.765e+02 3.457e+02 8.983e+02, threshold=5.530e+02, percent-clipped=5.0
2022-11-15 14:16:41,080 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=5.46 vs. limit=5.0
2022-11-15 14:16:44,906 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=5711.0, num_to_drop=1, layers_to_drop={0}
2022-11-15 14:17:16,879 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=5755.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 14:17:32,420 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([0.3274, 0.7160, 0.9835, 0.5609, 0.8908, 0.7029, 0.7127, 0.5693],
       device='cuda:1'), covar=tensor([0.0185, 0.0088, 0.0069, 0.0315, 0.0092, 0.0093, 0.0172, 0.0132],
       device='cuda:1'), in_proj_covar=tensor([0.0021, 0.0018, 0.0019, 0.0025, 0.0020, 0.0021, 0.0022, 0.0021],
       device='cuda:1'), out_proj_covar=tensor([2.5821e-05, 2.3448e-05, 2.3261e-05, 3.7886e-05, 2.6055e-05, 2.4962e-05,
        2.9393e-05, 2.8199e-05], device='cuda:1')
2022-11-15 14:17:43,925 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.0607, 1.8492, 1.9085, 3.4528, 3.2726, 3.1974, 2.2534, 3.6461],
       device='cuda:1'), covar=tensor([0.0189, 0.1588, 0.1303, 0.0177, 0.0290, 0.0479, 0.1233, 0.0130],
       device='cuda:1'), in_proj_covar=tensor([0.0048, 0.0100, 0.0095, 0.0051, 0.0064, 0.0083, 0.0096, 0.0055],
       device='cuda:1'), out_proj_covar=tensor([4.7905e-05, 1.1252e-04, 1.0337e-04, 5.5287e-05, 6.4733e-05, 9.1996e-05,
        1.0564e-04, 5.5545e-05], device='cuda:1')
2022-11-15 14:17:50,566 INFO [train.py:876] (1/4) Epoch 1, batch 5800, loss[loss=0.2325, simple_loss=0.2103, pruned_loss=0.1274, over 5808.00 frames. ], tot_loss[loss=0.2828, simple_loss=0.241, pruned_loss=0.1623, over 1079416.86 frames. ], batch size: 22, lr: 4.04e-02, grad_scale: 16.0
2022-11-15 14:17:51,232 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 9.770e+01 1.984e+02 2.593e+02 3.696e+02 7.124e+02, threshold=5.186e+02, percent-clipped=5.0
2022-11-15 14:18:01,247 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=5816.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 14:18:26,180 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=2.01 vs. limit=2.0
2022-11-15 14:18:31,847 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=5858.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 14:18:40,479 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.91 vs. limit=2.0
2022-11-15 14:19:03,093 INFO [train.py:876] (1/4) Epoch 1, batch 5900, loss[loss=0.2653, simple_loss=0.2295, pruned_loss=0.1506, over 5625.00 frames. ], tot_loss[loss=0.2797, simple_loss=0.2389, pruned_loss=0.1603, over 1077276.57 frames. ], batch size: 23, lr: 4.02e-02, grad_scale: 16.0
2022-11-15 14:19:03,748 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.146e+02 1.869e+02 2.719e+02 3.366e+02 7.828e+02, threshold=5.439e+02, percent-clipped=3.0
2022-11-15 14:19:07,433 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.95 vs. limit=2.0
2022-11-15 14:19:16,330 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=5919.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 14:19:42,108 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=5.21 vs. limit=5.0
2022-11-15 14:19:55,137 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.7444, 4.4158, 4.3589, 4.5320, 4.4199, 3.5004, 3.0950, 4.1309],
       device='cuda:1'), covar=tensor([0.2195, 0.0137, 0.0289, 0.0105, 0.0133, 0.0893, 0.3062, 0.0180],
       device='cuda:1'), in_proj_covar=tensor([0.0140, 0.0077, 0.0088, 0.0065, 0.0075, 0.0110, 0.0165, 0.0080],
       device='cuda:1'), out_proj_covar=tensor([1.5041e-04, 7.6593e-05, 9.0844e-05, 6.5237e-05, 7.9373e-05, 1.2079e-04,
        1.8059e-04, 7.7371e-05], device='cuda:1')
2022-11-15 14:19:58,605 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.6516, 2.6786, 2.4659, 2.9568, 2.1303, 3.1964, 2.7331, 2.8107],
       device='cuda:1'), covar=tensor([0.0377, 0.0163, 0.0219, 0.0231, 0.0338, 0.0127, 0.0222, 0.0106],
       device='cuda:1'), in_proj_covar=tensor([0.0051, 0.0033, 0.0035, 0.0028, 0.0043, 0.0033, 0.0038, 0.0027],
       device='cuda:1'), out_proj_covar=tensor([5.2580e-05, 3.3444e-05, 3.7614e-05, 3.0234e-05, 4.6140e-05, 3.2528e-05,
        3.8285e-05, 2.5332e-05], device='cuda:1')
2022-11-15 14:20:07,147 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=2.16 vs. limit=2.0
2022-11-15 14:20:07,714 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=5990.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 14:20:15,907 INFO [train.py:876] (1/4) Epoch 1, batch 6000, loss[loss=0.1893, simple_loss=0.1627, pruned_loss=0.108, over 5780.00 frames. ], tot_loss[loss=0.2837, simple_loss=0.2411, pruned_loss=0.1632, over 1083619.70 frames. ], batch size: 9, lr: 4.00e-02, grad_scale: 16.0
2022-11-15 14:20:15,908 INFO [train.py:899] (1/4) Computing validation loss
2022-11-15 14:20:24,227 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.4412, 2.0576, 1.2485, 1.2072, 0.8215, 0.8479, 1.4254, 1.1265],
       device='cuda:1'), covar=tensor([0.0182, 0.0136, 0.0179, 0.0281, 0.0800, 0.0463, 0.0286, 0.0392],
       device='cuda:1'), in_proj_covar=tensor([0.0017, 0.0016, 0.0017, 0.0018, 0.0018, 0.0016, 0.0016, 0.0016],
       device='cuda:1'), out_proj_covar=tensor([2.1692e-05, 1.8400e-05, 1.9554e-05, 2.3744e-05, 2.4514e-05, 2.1180e-05,
        2.0018e-05, 1.9562e-05], device='cuda:1')
2022-11-15 14:20:34,715 INFO [train.py:908] (1/4) Epoch 1, validation: loss=0.2263, simple_loss=0.2274, pruned_loss=0.1126, over 1530663.00 frames. 
2022-11-15 14:20:34,716 INFO [train.py:909] (1/4) Maximum memory allocated so far is 4446MB
2022-11-15 14:20:35,399 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.082e+02 2.347e+02 2.873e+02 3.885e+02 1.859e+03, threshold=5.746e+02, percent-clipped=5.0
2022-11-15 14:20:38,388 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=6006.0, num_to_drop=1, layers_to_drop={0}
2022-11-15 14:20:38,896 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=5.45 vs. limit=5.0
2022-11-15 14:20:52,311 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=5.31 vs. limit=5.0
2022-11-15 14:21:05,044 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=6043.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 14:21:11,065 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=6051.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 14:21:12,469 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([0.7703, 0.7626, 0.6663, 0.7526, 0.7391, 0.7850, 0.4609, 0.3582],
       device='cuda:1'), covar=tensor([0.0293, 0.0388, 0.0305, 0.0353, 0.0377, 0.0357, 0.0592, 0.0833],
       device='cuda:1'), in_proj_covar=tensor([0.0023, 0.0022, 0.0023, 0.0022, 0.0021, 0.0020, 0.0023, 0.0020],
       device='cuda:1'), out_proj_covar=tensor([2.5228e-05, 2.6849e-05, 2.8262e-05, 2.5693e-05, 2.4748e-05, 2.3516e-05,
        3.1345e-05, 2.3039e-05], device='cuda:1')
2022-11-15 14:21:47,064 INFO [train.py:876] (1/4) Epoch 1, batch 6100, loss[loss=0.2667, simple_loss=0.2151, pruned_loss=0.1591, over 4750.00 frames. ], tot_loss[loss=0.286, simple_loss=0.2429, pruned_loss=0.1645, over 1087419.33 frames. ], batch size: 135, lr: 3.98e-02, grad_scale: 16.0
2022-11-15 14:21:47,727 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.385e+02 2.266e+02 2.673e+02 3.416e+02 6.924e+02, threshold=5.346e+02, percent-clipped=3.0
2022-11-15 14:21:49,340 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=6104.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 14:21:54,396 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=6111.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 14:22:11,645 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=6135.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 14:22:37,311 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=6170.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 14:22:38,267 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=5.57 vs. limit=5.0
2022-11-15 14:22:47,293 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=2.25 vs. limit=2.0
2022-11-15 14:22:55,819 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=6196.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 14:22:59,790 INFO [train.py:876] (1/4) Epoch 1, batch 6200, loss[loss=0.3454, simple_loss=0.2823, pruned_loss=0.2042, over 4992.00 frames. ], tot_loss[loss=0.2862, simple_loss=0.2432, pruned_loss=0.1646, over 1088758.71 frames. ], batch size: 109, lr: 3.96e-02, grad_scale: 16.0
2022-11-15 14:23:00,448 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.055e+02 1.942e+02 2.617e+02 4.109e+02 1.137e+03, threshold=5.234e+02, percent-clipped=10.0
2022-11-15 14:23:01,344 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=6203.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 14:23:06,046 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.91 vs. limit=2.0
2022-11-15 14:23:07,066 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=6211.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 14:23:09,420 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=6214.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 14:23:11,691 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.0362, 2.6840, 2.5068, 2.6465, 2.7978, 3.0533, 2.6636, 2.6915],
       device='cuda:1'), covar=tensor([0.0772, 0.0312, 0.0339, 0.0355, 0.0402, 0.0194, 0.0377, 0.0173],
       device='cuda:1'), in_proj_covar=tensor([0.0060, 0.0040, 0.0040, 0.0031, 0.0051, 0.0037, 0.0045, 0.0032],
       device='cuda:1'), out_proj_covar=tensor([6.3049e-05, 4.1851e-05, 4.4249e-05, 3.5013e-05, 5.5963e-05, 3.8343e-05,
        4.7705e-05, 3.2042e-05], device='cuda:1')
2022-11-15 14:23:15,329 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=8.78 vs. limit=5.0
2022-11-15 14:23:21,818 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=6231.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 14:23:26,062 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([0.7082, 0.6441, 0.4606, 0.4305, 0.6609, 0.5404, 0.2102, 0.6112],
       device='cuda:1'), covar=tensor([0.0089, 0.0085, 0.0145, 0.0072, 0.0041, 0.0067, 0.0176, 0.0058],
       device='cuda:1'), in_proj_covar=tensor([0.0025, 0.0024, 0.0026, 0.0024, 0.0024, 0.0025, 0.0024, 0.0023],
       device='cuda:1'), out_proj_covar=tensor([2.7185e-05, 3.0011e-05, 3.2604e-05, 2.7805e-05, 2.6287e-05, 2.8403e-05,
        3.5691e-05, 2.6894e-05], device='cuda:1')
2022-11-15 14:23:45,153 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.97 vs. limit=2.0
2022-11-15 14:23:45,465 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=6264.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 14:23:46,890 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=6266.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 14:23:51,487 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=6272.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 14:24:12,260 INFO [train.py:876] (1/4) Epoch 1, batch 6300, loss[loss=0.327, simple_loss=0.261, pruned_loss=0.1966, over 5699.00 frames. ], tot_loss[loss=0.2824, simple_loss=0.2405, pruned_loss=0.1622, over 1088093.61 frames. ], batch size: 34, lr: 3.94e-02, grad_scale: 32.0
2022-11-15 14:24:12,910 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.397e+02 2.220e+02 2.802e+02 3.554e+02 1.076e+03, threshold=5.605e+02, percent-clipped=6.0
2022-11-15 14:24:15,824 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=6306.0, num_to_drop=1, layers_to_drop={0}
2022-11-15 14:24:31,181 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=6327.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 14:24:44,717 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=6346.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 14:24:50,572 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=6354.0, num_to_drop=1, layers_to_drop={0}
2022-11-15 14:24:58,489 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.3209, 3.4417, 3.4267, 3.4170, 3.1597, 3.4042, 1.8974, 3.0731],
       device='cuda:1'), covar=tensor([0.0272, 0.0231, 0.0191, 0.0165, 0.0204, 0.0191, 0.1101, 0.0283],
       device='cuda:1'), in_proj_covar=tensor([0.0037, 0.0034, 0.0032, 0.0028, 0.0031, 0.0028, 0.0054, 0.0034],
       device='cuda:1'), out_proj_covar=tensor([5.7186e-05, 5.2540e-05, 4.9557e-05, 4.2623e-05, 4.8515e-05, 4.3782e-05,
        8.2392e-05, 5.3247e-05], device='cuda:1')
2022-11-15 14:25:22,867 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=6399.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 14:25:24,490 INFO [train.py:876] (1/4) Epoch 1, batch 6400, loss[loss=0.3189, simple_loss=0.2701, pruned_loss=0.1839, over 5719.00 frames. ], tot_loss[loss=0.2831, simple_loss=0.2411, pruned_loss=0.1625, over 1086367.87 frames. ], batch size: 34, lr: 3.92e-02, grad_scale: 32.0
2022-11-15 14:25:25,172 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.202e+02 2.235e+02 2.872e+02 3.964e+02 7.777e+02, threshold=5.745e+02, percent-clipped=4.0
2022-11-15 14:25:30,560 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.7500, 2.9121, 2.8280, 2.9078, 2.7915, 2.8579, 1.8733, 2.7912],
       device='cuda:1'), covar=tensor([0.0200, 0.0159, 0.0154, 0.0122, 0.0140, 0.0126, 0.0782, 0.0177],
       device='cuda:1'), in_proj_covar=tensor([0.0035, 0.0033, 0.0031, 0.0027, 0.0031, 0.0027, 0.0053, 0.0033],
       device='cuda:1'), out_proj_covar=tensor([5.4502e-05, 5.1326e-05, 4.7481e-05, 4.1130e-05, 4.8050e-05, 4.2157e-05,
        8.1425e-05, 5.2365e-05], device='cuda:1')
2022-11-15 14:25:31,304 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.9300, 3.1917, 2.8567, 3.1196, 3.0332, 3.0839, 1.7611, 3.0063],
       device='cuda:1'), covar=tensor([0.0251, 0.0219, 0.0251, 0.0157, 0.0207, 0.0172, 0.1130, 0.0230],
       device='cuda:1'), in_proj_covar=tensor([0.0035, 0.0033, 0.0031, 0.0027, 0.0031, 0.0027, 0.0053, 0.0033],
       device='cuda:1'), out_proj_covar=tensor([5.4400e-05, 5.1250e-05, 4.7434e-05, 4.1068e-05, 4.8014e-05, 4.2093e-05,
        8.1344e-05, 5.2319e-05], device='cuda:1')
2022-11-15 14:25:32,019 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=6411.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 14:25:35,475 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=5.29 vs. limit=5.0
2022-11-15 14:26:06,808 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=6459.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 14:26:07,125 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=4.88 vs. limit=5.0
2022-11-15 14:26:09,023 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=6462.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 14:26:12,749 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=6467.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 14:26:16,360 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.78 vs. limit=2.0
2022-11-15 14:26:30,101 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=6491.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 14:26:34,200 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.7220, 2.9916, 2.8716, 2.9483, 2.9321, 2.7662, 2.7708, 2.6368],
       device='cuda:1'), covar=tensor([0.0335, 0.0360, 0.0262, 0.0323, 0.0338, 0.0378, 0.0299, 0.0407],
       device='cuda:1'), in_proj_covar=tensor([0.0044, 0.0040, 0.0053, 0.0042, 0.0050, 0.0050, 0.0045, 0.0040],
       device='cuda:1'), out_proj_covar=tensor([6.8356e-05, 6.6240e-05, 7.9529e-05, 6.6524e-05, 7.6801e-05, 7.2846e-05,
        6.8442e-05, 5.9944e-05], device='cuda:1')
2022-11-15 14:26:36,862 INFO [train.py:876] (1/4) Epoch 1, batch 6500, loss[loss=0.2946, simple_loss=0.2544, pruned_loss=0.1674, over 5518.00 frames. ], tot_loss[loss=0.2813, simple_loss=0.2401, pruned_loss=0.1612, over 1088535.48 frames. ], batch size: 17, lr: 3.90e-02, grad_scale: 32.0
2022-11-15 14:26:37,045 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([0.7591, 1.4372, 1.1885, 0.7558, 1.0717, 1.0652, 0.9402, 1.0155],
       device='cuda:1'), covar=tensor([0.0419, 0.0240, 0.0219, 0.0561, 0.0440, 0.0260, 0.0603, 0.0249],
       device='cuda:1'), in_proj_covar=tensor([0.0018, 0.0018, 0.0018, 0.0021, 0.0016, 0.0018, 0.0019, 0.0018],
       device='cuda:1'), out_proj_covar=tensor([2.4151e-05, 2.4067e-05, 2.3992e-05, 3.4203e-05, 2.3465e-05, 2.4363e-05,
        2.6915e-05, 2.3350e-05], device='cuda:1')
2022-11-15 14:26:37,572 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.388e+02 2.150e+02 2.872e+02 3.674e+02 6.857e+02, threshold=5.744e+02, percent-clipped=4.0
2022-11-15 14:26:46,483 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=6514.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 14:26:53,222 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=6523.0, num_to_drop=1, layers_to_drop={0}
2022-11-15 14:26:55,172 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=6526.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 14:26:56,662 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=6528.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 14:27:18,841 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=6559.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 14:27:20,933 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=6562.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 14:27:24,784 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=6567.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 14:27:49,421 INFO [train.py:876] (1/4) Epoch 1, batch 6600, loss[loss=0.2794, simple_loss=0.2437, pruned_loss=0.1575, over 5653.00 frames. ], tot_loss[loss=0.2772, simple_loss=0.2379, pruned_loss=0.1583, over 1092837.75 frames. ], batch size: 32, lr: 3.89e-02, grad_scale: 32.0
2022-11-15 14:27:50,094 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.067e+02 2.099e+02 2.757e+02 3.560e+02 8.696e+02, threshold=5.514e+02, percent-clipped=5.0
2022-11-15 14:28:04,922 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=6622.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 14:28:10,135 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=6629.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 14:28:22,498 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=6646.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 14:28:32,431 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.9821, 1.6601, 2.5972, 2.4448, 3.1799, 2.4332, 3.0768, 2.8554],
       device='cuda:1'), covar=tensor([0.0153, 0.1777, 0.0483, 0.0906, 0.0219, 0.0685, 0.0373, 0.0410],
       device='cuda:1'), in_proj_covar=tensor([0.0040, 0.0100, 0.0055, 0.0074, 0.0044, 0.0066, 0.0058, 0.0049],
       device='cuda:1'), out_proj_covar=tensor([4.7687e-05, 1.2309e-04, 6.7888e-05, 9.1455e-05, 5.4006e-05, 8.2458e-05,
        7.1273e-05, 6.1633e-05], device='cuda:1')
2022-11-15 14:28:33,762 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([0.7736, 0.7550, 0.7113, 0.5042, 1.0378, 0.9097, 0.9729, 0.6344],
       device='cuda:1'), covar=tensor([0.0282, 0.0188, 0.0260, 0.0569, 0.0276, 0.0168, 0.0316, 0.0261],
       device='cuda:1'), in_proj_covar=tensor([0.0019, 0.0018, 0.0020, 0.0022, 0.0017, 0.0018, 0.0021, 0.0019],
       device='cuda:1'), out_proj_covar=tensor([2.5100e-05, 2.3949e-05, 2.6992e-05, 3.5180e-05, 2.5397e-05, 2.5221e-05,
        2.9435e-05, 2.4724e-05], device='cuda:1')
2022-11-15 14:28:54,046 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=6690.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 14:28:56,687 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=6694.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 14:29:00,626 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=6699.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 14:29:01,856 INFO [train.py:876] (1/4) Epoch 1, batch 6700, loss[loss=0.3331, simple_loss=0.2678, pruned_loss=0.1992, over 5572.00 frames. ], tot_loss[loss=0.2786, simple_loss=0.239, pruned_loss=0.159, over 1087937.41 frames. ], batch size: 46, lr: 3.87e-02, grad_scale: 16.0
2022-11-15 14:29:03,115 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=5.30 vs. limit=5.0
2022-11-15 14:29:03,243 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.203e+02 2.211e+02 2.874e+02 3.707e+02 9.191e+02, threshold=5.749e+02, percent-clipped=7.0
2022-11-15 14:29:14,623 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.83 vs. limit=2.0
2022-11-15 14:29:34,900 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=6747.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 14:29:46,376 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.2256, 4.1343, 4.1699, 3.8377, 3.9279, 3.0889, 2.3177, 3.7463],
       device='cuda:1'), covar=tensor([0.3085, 0.0171, 0.0345, 0.0184, 0.0198, 0.1184, 0.4027, 0.0307],
       device='cuda:1'), in_proj_covar=tensor([0.0144, 0.0075, 0.0092, 0.0070, 0.0079, 0.0115, 0.0168, 0.0078],
       device='cuda:1'), out_proj_covar=tensor([1.5780e-04, 7.6086e-05, 9.9409e-05, 7.3850e-05, 8.8060e-05, 1.3084e-04,
        1.8347e-04, 8.0613e-05], device='cuda:1')
2022-11-15 14:30:06,621 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=6791.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 14:30:13,990 INFO [train.py:876] (1/4) Epoch 1, batch 6800, loss[loss=0.2829, simple_loss=0.2157, pruned_loss=0.1751, over 4193.00 frames. ], tot_loss[loss=0.278, simple_loss=0.2384, pruned_loss=0.1588, over 1088131.65 frames. ], batch size: 183, lr: 3.85e-02, grad_scale: 16.0
2022-11-15 14:30:15,299 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.257e+02 2.052e+02 2.561e+02 3.297e+02 6.876e+02, threshold=5.122e+02, percent-clipped=2.0
2022-11-15 14:30:23,453 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=2.11 vs. limit=2.0
2022-11-15 14:30:24,180 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=6.90 vs. limit=5.0
2022-11-15 14:30:26,399 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=6818.0, num_to_drop=1, layers_to_drop={0}
2022-11-15 14:30:26,852 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=2.01 vs. limit=2.0
2022-11-15 14:30:30,174 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=6823.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 14:30:32,299 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=6826.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 14:30:41,205 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=6839.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 14:30:57,026 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=6859.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 14:31:02,564 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=6867.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 14:31:07,533 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=6874.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 14:31:07,806 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=4.44 vs. limit=5.0
2022-11-15 14:31:10,661 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=6878.0, num_to_drop=1, layers_to_drop={0}
2022-11-15 14:31:23,793 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.2707, 2.6519, 0.9128, 2.9436, 1.8496, 1.0998, 1.8442, 1.5437],
       device='cuda:1'), covar=tensor([0.0223, 0.0162, 0.0232, 0.0183, 0.0354, 0.1512, 0.0395, 0.0225],
       device='cuda:1'), in_proj_covar=tensor([0.0019, 0.0017, 0.0019, 0.0021, 0.0019, 0.0017, 0.0018, 0.0019],
       device='cuda:1'), out_proj_covar=tensor([2.6964e-05, 2.1110e-05, 2.3029e-05, 2.7981e-05, 2.8064e-05, 2.4772e-05,
        2.3978e-05, 2.5553e-05], device='cuda:1')
2022-11-15 14:31:26,639 INFO [train.py:876] (1/4) Epoch 1, batch 6900, loss[loss=0.3146, simple_loss=0.2649, pruned_loss=0.1821, over 5691.00 frames. ], tot_loss[loss=0.2778, simple_loss=0.2384, pruned_loss=0.1586, over 1087511.47 frames. ], batch size: 36, lr: 3.83e-02, grad_scale: 16.0
2022-11-15 14:31:27,996 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.342e+02 2.317e+02 3.048e+02 4.158e+02 6.462e+02, threshold=6.096e+02, percent-clipped=10.0
2022-11-15 14:31:29,157 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=5.48 vs. limit=5.0
2022-11-15 14:31:30,928 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=6907.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 14:31:32,402 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=6909.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 14:31:36,814 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=6915.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 14:31:41,778 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=6922.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 14:31:54,346 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=6939.0, num_to_drop=1, layers_to_drop={2}
2022-11-15 14:32:12,432 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.6934, 4.0751, 3.7099, 4.0129, 3.6396, 3.9850, 2.3190, 3.6387],
       device='cuda:1'), covar=tensor([0.0247, 0.0172, 0.0251, 0.0152, 0.0166, 0.0173, 0.1055, 0.0225],
       device='cuda:1'), in_proj_covar=tensor([0.0037, 0.0034, 0.0032, 0.0026, 0.0032, 0.0028, 0.0054, 0.0034],
       device='cuda:1'), out_proj_covar=tensor([6.0271e-05, 5.5909e-05, 4.9602e-05, 4.2473e-05, 5.0423e-05, 4.5390e-05,
        8.6252e-05, 5.4420e-05], device='cuda:1')
2022-11-15 14:32:17,043 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=6970.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 14:32:17,178 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=6970.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 14:32:25,705 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.3447, 2.1139, 0.7953, 2.0798, 1.3749, 0.7836, 1.4762, 1.3799],
       device='cuda:1'), covar=tensor([0.0197, 0.0196, 0.0207, 0.0195, 0.0416, 0.1009, 0.0479, 0.0321],
       device='cuda:1'), in_proj_covar=tensor([0.0019, 0.0016, 0.0018, 0.0020, 0.0019, 0.0017, 0.0018, 0.0018],
       device='cuda:1'), out_proj_covar=tensor([2.6094e-05, 2.0123e-05, 2.2205e-05, 2.7270e-05, 2.7983e-05, 2.4340e-05,
        2.3447e-05, 2.5254e-05], device='cuda:1')
2022-11-15 14:32:26,414 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.3427, 2.0192, 1.7026, 1.6881, 2.0098, 1.9928, 1.7532, 2.0446],
       device='cuda:1'), covar=tensor([0.0171, 0.0234, 0.0152, 0.0158, 0.0105, 0.0141, 0.0267, 0.0142],
       device='cuda:1'), in_proj_covar=tensor([0.0016, 0.0013, 0.0016, 0.0017, 0.0016, 0.0016, 0.0019, 0.0016],
       device='cuda:1'), out_proj_covar=tensor([2.0884e-05, 1.7278e-05, 2.1220e-05, 2.1252e-05, 2.0899e-05, 1.9235e-05,
        2.5722e-05, 1.9121e-05], device='cuda:1')
2022-11-15 14:32:27,734 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=6985.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 14:32:39,433 INFO [train.py:876] (1/4) Epoch 1, batch 7000, loss[loss=0.2818, simple_loss=0.232, pruned_loss=0.1658, over 4866.00 frames. ], tot_loss[loss=0.2763, simple_loss=0.2376, pruned_loss=0.1576, over 1082854.52 frames. ], batch size: 5, lr: 3.81e-02, grad_scale: 16.0
2022-11-15 14:32:40,780 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.079e+02 2.319e+02 2.855e+02 3.574e+02 7.700e+02, threshold=5.709e+02, percent-clipped=2.0
2022-11-15 14:33:13,389 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=7048.0, num_to_drop=1, layers_to_drop={0}
2022-11-15 14:33:26,387 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.5952, 3.8082, 3.8030, 3.9908, 3.7597, 3.2107, 4.3501, 3.7053],
       device='cuda:1'), covar=tensor([0.0690, 0.0982, 0.0537, 0.0676, 0.0598, 0.0496, 0.0952, 0.0616],
       device='cuda:1'), in_proj_covar=tensor([0.0047, 0.0070, 0.0059, 0.0062, 0.0044, 0.0039, 0.0066, 0.0049],
       device='cuda:1'), out_proj_covar=tensor([8.0582e-05, 1.1848e-04, 9.7923e-05, 1.0491e-04, 7.7533e-05, 6.5400e-05,
        1.2837e-04, 8.3374e-05], device='cuda:1')
2022-11-15 14:33:32,552 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.8840, 3.0171, 3.3051, 2.7135, 3.0034, 3.1093, 2.9786, 2.8853],
       device='cuda:1'), covar=tensor([0.0683, 0.0224, 0.0156, 0.0258, 0.0440, 0.0159, 0.0291, 0.0141],
       device='cuda:1'), in_proj_covar=tensor([0.0057, 0.0036, 0.0035, 0.0032, 0.0053, 0.0037, 0.0045, 0.0032],
       device='cuda:1'), out_proj_covar=tensor([6.5117e-05, 4.1115e-05, 4.0857e-05, 4.0924e-05, 6.5393e-05, 4.1556e-05,
        5.2162e-05, 3.5084e-05], device='cuda:1')
2022-11-15 14:33:49,387 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.4356, 2.2337, 1.1685, 1.7015, 1.3269, 1.5122, 1.6415, 1.1897],
       device='cuda:1'), covar=tensor([0.0211, 0.0113, 0.0213, 0.0223, 0.0443, 0.0250, 0.0352, 0.0347],
       device='cuda:1'), in_proj_covar=tensor([0.0019, 0.0015, 0.0019, 0.0020, 0.0019, 0.0017, 0.0017, 0.0018],
       device='cuda:1'), out_proj_covar=tensor([2.6664e-05, 1.9150e-05, 2.3442e-05, 2.6771e-05, 2.7108e-05, 2.3640e-05,
        2.2366e-05, 2.5121e-05], device='cuda:1')
2022-11-15 14:33:51,321 INFO [train.py:876] (1/4) Epoch 1, batch 7100, loss[loss=0.2769, simple_loss=0.2455, pruned_loss=0.1541, over 5606.00 frames. ], tot_loss[loss=0.2779, simple_loss=0.2384, pruned_loss=0.1587, over 1078223.03 frames. ], batch size: 24, lr: 3.79e-02, grad_scale: 16.0
2022-11-15 14:33:52,659 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.200e+02 2.197e+02 2.721e+02 3.665e+02 9.993e+02, threshold=5.441e+02, percent-clipped=4.0
2022-11-15 14:33:56,933 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=7109.0, num_to_drop=1, layers_to_drop={3}
2022-11-15 14:34:05,345 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=7118.0, num_to_drop=1, layers_to_drop={0}
2022-11-15 14:34:09,113 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=7123.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 14:34:37,421 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=2.18 vs. limit=2.0
2022-11-15 14:34:37,893 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=7163.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 14:34:40,170 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=7166.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 14:34:43,791 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=7171.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 14:34:56,783 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.2906, 3.8264, 3.4774, 3.4854, 3.3656, 3.5019, 1.8876, 3.3672],
       device='cuda:1'), covar=tensor([0.0377, 0.0211, 0.0233, 0.0200, 0.0233, 0.0232, 0.1390, 0.0248],
       device='cuda:1'), in_proj_covar=tensor([0.0038, 0.0034, 0.0032, 0.0026, 0.0032, 0.0027, 0.0055, 0.0033],
       device='cuda:1'), out_proj_covar=tensor([6.1724e-05, 5.7352e-05, 5.0171e-05, 4.2032e-05, 5.1060e-05, 4.3950e-05,
        8.7609e-05, 5.5202e-05], device='cuda:1')
2022-11-15 14:34:57,095 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=2.14 vs. limit=2.0
2022-11-15 14:35:05,693 INFO [train.py:876] (1/4) Epoch 1, batch 7200, loss[loss=0.3368, simple_loss=0.2745, pruned_loss=0.1996, over 5606.00 frames. ], tot_loss[loss=0.2768, simple_loss=0.2375, pruned_loss=0.158, over 1078222.79 frames. ], batch size: 24, lr: 3.78e-02, grad_scale: 16.0
2022-11-15 14:35:07,001 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.380e+02 2.253e+02 2.788e+02 3.499e+02 9.174e+02, threshold=5.576e+02, percent-clipped=8.0
2022-11-15 14:35:22,011 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=7224.0, num_to_drop=1, layers_to_drop={3}
2022-11-15 14:35:29,024 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=7234.0, num_to_drop=1, layers_to_drop={3}
2022-11-15 14:35:50,131 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=7265.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 14:37:25,314 INFO [train.py:876] (1/4) Epoch 2, batch 0, loss[loss=0.2307, simple_loss=0.2113, pruned_loss=0.1251, over 5701.00 frames. ], tot_loss[loss=0.2307, simple_loss=0.2113, pruned_loss=0.1251, over 5701.00 frames. ], batch size: 15, lr: 3.69e-02, grad_scale: 16.0
2022-11-15 14:37:25,314 INFO [train.py:899] (1/4) Computing validation loss
2022-11-15 14:37:29,023 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.2452, 3.7400, 3.6344, 3.5617, 3.0123, 3.0699, 2.1389, 3.3901],
       device='cuda:1'), covar=tensor([0.1858, 0.0199, 0.0371, 0.0228, 0.0440, 0.0766, 0.2940, 0.0150],
       device='cuda:1'), in_proj_covar=tensor([0.0148, 0.0076, 0.0094, 0.0072, 0.0079, 0.0120, 0.0168, 0.0077],
       device='cuda:1'), out_proj_covar=tensor([1.6336e-04, 7.9766e-05, 1.0537e-04, 7.9332e-05, 9.1902e-05, 1.3744e-04,
        1.8457e-04, 8.0698e-05], device='cuda:1')
2022-11-15 14:37:40,634 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.7033, 3.0914, 2.7422, 1.4973, 3.1942, 2.2299, 2.9579, 2.1829],
       device='cuda:1'), covar=tensor([0.0542, 0.0391, 0.0268, 0.2367, 0.0240, 0.0761, 0.0236, 0.1024],
       device='cuda:1'), in_proj_covar=tensor([0.0059, 0.0041, 0.0032, 0.0074, 0.0038, 0.0050, 0.0031, 0.0055],
       device='cuda:1'), out_proj_covar=tensor([1.0581e-04, 7.1844e-05, 6.0747e-05, 1.2447e-04, 6.5088e-05, 8.9764e-05,
        6.0085e-05, 1.0083e-04], device='cuda:1')
2022-11-15 14:37:42,501 INFO [train.py:908] (1/4) Epoch 2, validation: loss=0.2258, simple_loss=0.228, pruned_loss=0.1118, over 1530663.00 frames. 
2022-11-15 14:37:42,502 INFO [train.py:909] (1/4) Maximum memory allocated so far is 4481MB
2022-11-15 14:37:44,109 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=7275.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 14:37:51,170 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=7285.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 14:37:57,666 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=2.09 vs. limit=2.0
2022-11-15 14:38:04,585 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.318e+02 2.115e+02 2.889e+02 4.195e+02 1.182e+03, threshold=5.778e+02, percent-clipped=11.0
2022-11-15 14:38:26,541 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=7333.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 14:38:28,820 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=7336.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 14:38:49,098 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.4159, 1.7587, 1.6917, 2.6220, 1.4259, 1.9049, 1.9711, 1.8801],
       device='cuda:1'), covar=tensor([0.0199, 0.0244, 0.0395, 0.0135, 0.0462, 0.0304, 0.0291, 0.0587],
       device='cuda:1'), in_proj_covar=tensor([0.0028, 0.0029, 0.0034, 0.0026, 0.0040, 0.0030, 0.0037, 0.0023],
       device='cuda:1'), out_proj_covar=tensor([3.7730e-05, 3.9177e-05, 5.1078e-05, 3.7850e-05, 6.1805e-05, 4.9442e-05,
        5.5195e-05, 3.4291e-05], device='cuda:1')
2022-11-15 14:38:55,140 INFO [train.py:876] (1/4) Epoch 2, batch 100, loss[loss=0.2976, simple_loss=0.2599, pruned_loss=0.1676, over 5665.00 frames. ], tot_loss[loss=0.2725, simple_loss=0.2346, pruned_loss=0.1552, over 427859.39 frames. ], batch size: 36, lr: 3.67e-02, grad_scale: 16.0
2022-11-15 14:39:17,529 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 8.188e+01 2.195e+02 2.755e+02 3.428e+02 7.515e+02, threshold=5.510e+02, percent-clipped=5.0
2022-11-15 14:39:18,283 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=7404.0, num_to_drop=1, layers_to_drop={0}
2022-11-15 14:39:20,773 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=7407.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 14:39:21,450 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.5239, 4.1391, 3.6921, 4.2882, 4.1617, 3.7226, 3.4608, 3.2479],
       device='cuda:1'), covar=tensor([0.0379, 0.0303, 0.0376, 0.0309, 0.0312, 0.0310, 0.0380, 0.0486],
       device='cuda:1'), in_proj_covar=tensor([0.0050, 0.0039, 0.0056, 0.0046, 0.0058, 0.0054, 0.0048, 0.0042],
       device='cuda:1'), out_proj_covar=tensor([8.0730e-05, 6.9753e-05, 8.9430e-05, 7.7227e-05, 9.7396e-05, 8.4736e-05,
        7.8254e-05, 6.5683e-05], device='cuda:1')
2022-11-15 14:40:05,190 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=7468.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 14:40:08,500 INFO [train.py:876] (1/4) Epoch 2, batch 200, loss[loss=0.3079, simple_loss=0.2577, pruned_loss=0.179, over 5571.00 frames. ], tot_loss[loss=0.269, simple_loss=0.2335, pruned_loss=0.1522, over 692840.76 frames. ], batch size: 54, lr: 3.66e-02, grad_scale: 16.0
2022-11-15 14:40:30,170 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.374e+02 2.136e+02 2.623e+02 3.249e+02 5.222e+02, threshold=5.245e+02, percent-clipped=0.0
2022-11-15 14:40:33,504 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.88 vs. limit=2.0
2022-11-15 14:40:41,702 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=7519.0, num_to_drop=1, layers_to_drop={2}
2022-11-15 14:40:52,513 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=7534.0, num_to_drop=1, layers_to_drop={2}
2022-11-15 14:41:04,743 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=1.97 vs. limit=2.0
2022-11-15 14:41:14,921 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=7565.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 14:41:20,232 INFO [train.py:876] (1/4) Epoch 2, batch 300, loss[loss=0.3033, simple_loss=0.2581, pruned_loss=0.1743, over 5552.00 frames. ], tot_loss[loss=0.2713, simple_loss=0.2346, pruned_loss=0.154, over 849004.74 frames. ], batch size: 16, lr: 3.64e-02, grad_scale: 16.0
2022-11-15 14:41:27,234 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=7582.0, num_to_drop=1, layers_to_drop={1}
2022-11-15 14:41:28,661 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.4436, 2.0377, 1.4337, 2.3538, 1.3616, 1.1444, 1.6002, 2.2947],
       device='cuda:1'), covar=tensor([0.0165, 0.0243, 0.0500, 0.0244, 0.0553, 0.0508, 0.0438, 0.0133],
       device='cuda:1'), in_proj_covar=tensor([0.0028, 0.0029, 0.0037, 0.0027, 0.0041, 0.0031, 0.0037, 0.0023],
       device='cuda:1'), out_proj_covar=tensor([3.7629e-05, 3.9792e-05, 5.6313e-05, 3.8362e-05, 6.5006e-05, 5.2476e-05,
        5.6663e-05, 3.4943e-05], device='cuda:1')
2022-11-15 14:41:35,287 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=2.14 vs. limit=2.0
2022-11-15 14:41:42,306 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.027e+02 2.168e+02 2.646e+02 3.466e+02 1.431e+03, threshold=5.292e+02, percent-clipped=6.0
2022-11-15 14:41:49,773 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=7613.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 14:41:57,609 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=7624.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 14:42:02,261 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=7631.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 14:42:04,600 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.83 vs. limit=2.0
2022-11-15 14:42:33,000 INFO [train.py:876] (1/4) Epoch 2, batch 400, loss[loss=0.2745, simple_loss=0.2314, pruned_loss=0.1588, over 5746.00 frames. ], tot_loss[loss=0.2694, simple_loss=0.2338, pruned_loss=0.1525, over 945396.55 frames. ], batch size: 31, lr: 3.62e-02, grad_scale: 16.0
2022-11-15 14:42:41,559 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=7685.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 14:42:42,939 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.9505, 3.9743, 4.0600, 3.6747, 4.2992, 3.6014, 3.6533, 3.9255],
       device='cuda:1'), covar=tensor([0.0443, 0.0287, 0.0461, 0.0363, 0.0389, 0.0510, 0.0383, 0.0409],
       device='cuda:1'), in_proj_covar=tensor([0.0059, 0.0062, 0.0051, 0.0060, 0.0058, 0.0043, 0.0050, 0.0048],
       device='cuda:1'), out_proj_covar=tensor([1.1574e-04, 1.1143e-04, 9.6405e-05, 1.0583e-04, 1.2766e-04, 7.6086e-05,
        9.3612e-05, 9.0475e-05], device='cuda:1')
2022-11-15 14:42:46,806 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([4.6711, 4.6597, 4.8989, 4.3974, 5.2719, 4.9000, 4.1812, 4.6445],
       device='cuda:1'), covar=tensor([0.0504, 0.0268, 0.0491, 0.0302, 0.0307, 0.0139, 0.0350, 0.0340],
       device='cuda:1'), in_proj_covar=tensor([0.0059, 0.0061, 0.0051, 0.0059, 0.0057, 0.0042, 0.0050, 0.0047],
       device='cuda:1'), out_proj_covar=tensor([1.1455e-04, 1.1050e-04, 9.5226e-05, 1.0494e-04, 1.2725e-04, 7.5406e-05,
        9.2498e-05, 8.9631e-05], device='cuda:1')
2022-11-15 14:42:52,212 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.8195, 3.3328, 3.0255, 3.2745, 3.2210, 3.1105, 1.7735, 2.8452],
       device='cuda:1'), covar=tensor([0.0525, 0.0273, 0.0391, 0.0206, 0.0294, 0.0293, 0.1618, 0.0446],
       device='cuda:1'), in_proj_covar=tensor([0.0041, 0.0036, 0.0033, 0.0028, 0.0036, 0.0030, 0.0059, 0.0037],
       device='cuda:1'), out_proj_covar=tensor([6.9635e-05, 6.3075e-05, 5.3827e-05, 4.7083e-05, 5.9671e-05, 5.1104e-05,
        9.7991e-05, 6.3019e-05], device='cuda:1')
2022-11-15 14:42:54,872 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.176e+02 2.314e+02 2.984e+02 3.754e+02 8.890e+02, threshold=5.969e+02, percent-clipped=7.0
2022-11-15 14:42:55,775 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=7704.0, num_to_drop=1, layers_to_drop={2}
2022-11-15 14:43:15,105 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.0099, 0.8085, 1.3005, 1.0178, 1.6154, 1.2602, 0.5946, 0.8464],
       device='cuda:1'), covar=tensor([0.0221, 0.0169, 0.0157, 0.0120, 0.0084, 0.0149, 0.0685, 0.0328],
       device='cuda:1'), in_proj_covar=tensor([0.0023, 0.0021, 0.0019, 0.0020, 0.0020, 0.0021, 0.0023, 0.0021],
       device='cuda:1'), out_proj_covar=tensor([2.7879e-05, 2.6154e-05, 2.6880e-05, 2.3770e-05, 2.3829e-05, 2.5422e-05,
        3.6928e-05, 2.6512e-05], device='cuda:1')
2022-11-15 14:43:18,687 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.89 vs. limit=2.0
2022-11-15 14:43:19,374 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=2.03 vs. limit=2.0
2022-11-15 14:43:23,432 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=7743.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 14:43:23,452 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([0.8518, 0.8455, 1.2141, 0.7073, 1.2009, 1.2850, 0.5734, 0.8411],
       device='cuda:1'), covar=tensor([0.0114, 0.0092, 0.0109, 0.0095, 0.0079, 0.0104, 0.0249, 0.0198],
       device='cuda:1'), in_proj_covar=tensor([0.0022, 0.0021, 0.0019, 0.0021, 0.0020, 0.0021, 0.0023, 0.0021],
       device='cuda:1'), out_proj_covar=tensor([2.7749e-05, 2.6107e-05, 2.6578e-05, 2.3911e-05, 2.3914e-05, 2.5395e-05,
        3.6799e-05, 2.6354e-05], device='cuda:1')
2022-11-15 14:43:30,223 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=7752.0, num_to_drop=1, layers_to_drop={1}
2022-11-15 14:43:37,925 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=7763.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 14:43:44,742 INFO [train.py:876] (1/4) Epoch 2, batch 500, loss[loss=0.306, simple_loss=0.2512, pruned_loss=0.1803, over 2991.00 frames. ], tot_loss[loss=0.2663, simple_loss=0.232, pruned_loss=0.1503, over 1002067.04 frames. ], batch size: 284, lr: 3.61e-02, grad_scale: 16.0
2022-11-15 14:44:06,093 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=7802.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 14:44:06,569 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.399e+02 2.366e+02 3.140e+02 3.903e+02 7.653e+02, threshold=6.280e+02, percent-clipped=5.0
2022-11-15 14:44:07,480 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=7804.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 14:44:18,477 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=7819.0, num_to_drop=1, layers_to_drop={2}
2022-11-15 14:44:38,810 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=1.99 vs. limit=2.0
2022-11-15 14:44:50,029 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=7863.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 14:44:52,616 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=7867.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 14:44:56,654 INFO [train.py:876] (1/4) Epoch 2, batch 600, loss[loss=0.235, simple_loss=0.2186, pruned_loss=0.1257, over 5531.00 frames. ], tot_loss[loss=0.2702, simple_loss=0.2348, pruned_loss=0.1528, over 1035882.44 frames. ], batch size: 17, lr: 3.59e-02, grad_scale: 16.0
2022-11-15 14:45:18,183 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.234e+02 2.116e+02 2.659e+02 3.486e+02 9.417e+02, threshold=5.318e+02, percent-clipped=5.0
2022-11-15 14:45:38,494 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=7931.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 14:45:52,952 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.6394, 1.2357, 1.4060, 1.7711, 1.0946, 1.0541, 1.0904, 2.0361],
       device='cuda:1'), covar=tensor([0.0180, 0.0252, 0.0234, 0.0121, 0.0287, 0.0256, 0.0277, 0.0102],
       device='cuda:1'), in_proj_covar=tensor([0.0027, 0.0029, 0.0033, 0.0026, 0.0037, 0.0027, 0.0034, 0.0022],
       device='cuda:1'), out_proj_covar=tensor([3.8239e-05, 4.0627e-05, 5.2073e-05, 3.8581e-05, 6.0280e-05, 4.4772e-05,
        5.2803e-05, 3.3034e-05], device='cuda:1')
2022-11-15 14:46:01,355 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([4.8170, 4.4906, 4.7921, 4.0592, 4.9721, 4.8506, 4.3539, 4.2801],
       device='cuda:1'), covar=tensor([0.0500, 0.0391, 0.0493, 0.0432, 0.0544, 0.0145, 0.0304, 0.0425],
       device='cuda:1'), in_proj_covar=tensor([0.0060, 0.0063, 0.0051, 0.0060, 0.0058, 0.0039, 0.0048, 0.0048],
       device='cuda:1'), out_proj_covar=tensor([1.2144e-04, 1.1653e-04, 9.6226e-05, 1.1044e-04, 1.3119e-04, 7.1581e-05,
        8.9892e-05, 9.3625e-05], device='cuda:1')
2022-11-15 14:46:07,940 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=2.05 vs. limit=2.0
2022-11-15 14:46:08,129 INFO [train.py:876] (1/4) Epoch 2, batch 700, loss[loss=0.344, simple_loss=0.2707, pruned_loss=0.2086, over 5496.00 frames. ], tot_loss[loss=0.2705, simple_loss=0.2348, pruned_loss=0.1531, over 1059818.19 frames. ], batch size: 64, lr: 3.57e-02, grad_scale: 16.0
2022-11-15 14:46:12,995 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=7979.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 14:46:13,699 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=7980.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 14:46:30,157 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.456e+02 2.448e+02 3.316e+02 4.282e+02 8.235e+02, threshold=6.631e+02, percent-clipped=7.0
2022-11-15 14:47:13,188 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.6224, 1.7018, 1.6722, 2.2496, 1.6426, 1.5968, 1.5037, 1.9048],
       device='cuda:1'), covar=tensor([0.0176, 0.0565, 0.0276, 0.0242, 0.0318, 0.0220, 0.0326, 0.0498],
       device='cuda:1'), in_proj_covar=tensor([0.0029, 0.0029, 0.0033, 0.0026, 0.0039, 0.0028, 0.0036, 0.0024],
       device='cuda:1'), out_proj_covar=tensor([4.0045e-05, 4.2344e-05, 5.3558e-05, 3.8704e-05, 6.4002e-05, 4.6459e-05,
        5.6246e-05, 3.7858e-05], device='cuda:1')
2022-11-15 14:47:13,896 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=8063.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 14:47:20,641 INFO [train.py:876] (1/4) Epoch 2, batch 800, loss[loss=0.3226, simple_loss=0.2603, pruned_loss=0.1925, over 5498.00 frames. ], tot_loss[loss=0.2698, simple_loss=0.2346, pruned_loss=0.1525, over 1071118.76 frames. ], batch size: 49, lr: 3.56e-02, grad_scale: 16.0
2022-11-15 14:47:39,438 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=8099.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 14:47:42,123 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.171e+02 2.291e+02 2.781e+02 3.438e+02 1.081e+03, threshold=5.561e+02, percent-clipped=3.0
2022-11-15 14:47:48,147 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=8111.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 14:47:58,405 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.0181, 4.0806, 3.0575, 1.8009, 3.8642, 2.4003, 3.0907, 2.5169],
       device='cuda:1'), covar=tensor([0.0540, 0.0131, 0.0273, 0.1841, 0.0142, 0.0784, 0.0223, 0.0864],
       device='cuda:1'), in_proj_covar=tensor([0.0069, 0.0046, 0.0038, 0.0082, 0.0043, 0.0062, 0.0035, 0.0068],
       device='cuda:1'), out_proj_covar=tensor([1.3188e-04, 8.6149e-05, 7.5550e-05, 1.4822e-04, 7.6602e-05, 1.1722e-04,
        7.3691e-05, 1.2962e-04], device='cuda:1')
2022-11-15 14:48:22,105 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=8158.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 14:48:26,886 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.2013, 3.5771, 3.6592, 3.5466, 3.6499, 3.5555, 3.4700, 3.1112],
       device='cuda:1'), covar=tensor([0.0668, 0.0534, 0.0327, 0.0730, 0.0524, 0.0431, 0.0329, 0.0735],
       device='cuda:1'), in_proj_covar=tensor([0.0053, 0.0045, 0.0061, 0.0048, 0.0063, 0.0061, 0.0051, 0.0047],
       device='cuda:1'), out_proj_covar=tensor([8.7912e-05, 8.3219e-05, 9.9544e-05, 8.2898e-05, 1.1210e-04, 9.7840e-05,
        8.5943e-05, 7.7418e-05], device='cuda:1')
2022-11-15 14:48:32,983 INFO [train.py:876] (1/4) Epoch 2, batch 900, loss[loss=0.2591, simple_loss=0.2355, pruned_loss=0.1413, over 5740.00 frames. ], tot_loss[loss=0.2665, simple_loss=0.2324, pruned_loss=0.1503, over 1071098.86 frames. ], batch size: 13, lr: 3.54e-02, grad_scale: 16.0
2022-11-15 14:48:36,930 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=5.43 vs. limit=5.0
2022-11-15 14:48:54,942 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.202e+02 2.386e+02 2.834e+02 3.764e+02 8.164e+02, threshold=5.667e+02, percent-clipped=3.0
2022-11-15 14:48:55,104 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.2460, 3.6106, 3.2898, 3.6503, 2.8150, 2.8512, 2.0510, 3.3317],
       device='cuda:1'), covar=tensor([0.1960, 0.0185, 0.0497, 0.0135, 0.0446, 0.0911, 0.2851, 0.0201],
       device='cuda:1'), in_proj_covar=tensor([0.0159, 0.0085, 0.0105, 0.0074, 0.0088, 0.0127, 0.0177, 0.0081],
       device='cuda:1'), out_proj_covar=tensor([1.7890e-04, 8.9214e-05, 1.2057e-04, 8.1902e-05, 1.0446e-04, 1.4925e-04,
        1.9641e-04, 8.7940e-05], device='cuda:1')
2022-11-15 14:49:39,602 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=8265.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 14:49:44,955 INFO [train.py:876] (1/4) Epoch 2, batch 1000, loss[loss=0.3089, simple_loss=0.2579, pruned_loss=0.1799, over 5558.00 frames. ], tot_loss[loss=0.2675, simple_loss=0.2331, pruned_loss=0.1509, over 1079217.86 frames. ], batch size: 21, lr: 3.53e-02, grad_scale: 16.0
2022-11-15 14:49:45,865 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=2.04 vs. limit=2.0
2022-11-15 14:49:50,695 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=8280.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 14:49:59,368 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=2.35 vs. limit=2.0
2022-11-15 14:50:07,376 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.298e+02 2.271e+02 2.772e+02 3.875e+02 7.231e+02, threshold=5.545e+02, percent-clipped=6.0
2022-11-15 14:50:18,913 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=2.52 vs. limit=2.0
2022-11-15 14:50:23,530 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=8326.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 14:50:24,726 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=8328.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 14:50:26,695 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.8770, 1.7576, 1.2323, 1.8516, 1.5171, 1.5000, 0.8520, 1.4941],
       device='cuda:1'), covar=tensor([0.0338, 0.0639, 0.0458, 0.0472, 0.0519, 0.0405, 0.0743, 0.0543],
       device='cuda:1'), in_proj_covar=tensor([0.0028, 0.0030, 0.0034, 0.0026, 0.0039, 0.0028, 0.0037, 0.0024],
       device='cuda:1'), out_proj_covar=tensor([3.8786e-05, 4.4045e-05, 5.4829e-05, 3.8950e-05, 6.4798e-05, 4.6831e-05,
        5.8973e-05, 3.7773e-05], device='cuda:1')
2022-11-15 14:50:28,766 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.0072, 2.6715, 2.4529, 2.7505, 2.2883, 2.9833, 2.3888, 2.9530],
       device='cuda:1'), covar=tensor([0.0495, 0.0182, 0.0154, 0.0264, 0.0468, 0.0097, 0.0292, 0.0072],
       device='cuda:1'), in_proj_covar=tensor([0.0070, 0.0041, 0.0042, 0.0040, 0.0070, 0.0042, 0.0056, 0.0036],
       device='cuda:1'), out_proj_covar=tensor([8.9724e-05, 5.2728e-05, 5.3124e-05, 5.7957e-05, 9.8432e-05, 5.2173e-05,
        7.2906e-05, 4.5386e-05], device='cuda:1')
2022-11-15 14:50:36,011 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=2.03 vs. limit=2.0
2022-11-15 14:50:37,220 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.3104, 3.9974, 3.5455, 3.9307, 3.9961, 3.5427, 3.3814, 3.0728],
       device='cuda:1'), covar=tensor([0.0454, 0.0274, 0.0402, 0.0320, 0.0343, 0.0375, 0.0353, 0.0591],
       device='cuda:1'), in_proj_covar=tensor([0.0053, 0.0044, 0.0062, 0.0048, 0.0065, 0.0062, 0.0052, 0.0046],
       device='cuda:1'), out_proj_covar=tensor([8.8358e-05, 8.2913e-05, 1.0266e-04, 8.5413e-05, 1.1772e-04, 9.9770e-05,
        8.9503e-05, 7.5911e-05], device='cuda:1')
2022-11-15 14:50:38,921 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=2.45 vs. limit=2.0
2022-11-15 14:50:50,860 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=2.82 vs. limit=2.0
2022-11-15 14:50:57,474 INFO [train.py:876] (1/4) Epoch 2, batch 1100, loss[loss=0.2803, simple_loss=0.2458, pruned_loss=0.1574, over 5580.00 frames. ], tot_loss[loss=0.2678, simple_loss=0.2336, pruned_loss=0.151, over 1080397.19 frames. ], batch size: 25, lr: 3.51e-02, grad_scale: 16.0
2022-11-15 14:51:16,583 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=8399.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 14:51:19,490 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.385e+02 2.261e+02 2.575e+02 3.836e+02 7.235e+02, threshold=5.150e+02, percent-clipped=6.0
2022-11-15 14:51:34,156 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.2070, 2.9448, 2.3070, 1.5227, 2.7992, 1.5209, 2.5568, 1.4499],
       device='cuda:1'), covar=tensor([0.0653, 0.0154, 0.0379, 0.1704, 0.0189, 0.0905, 0.0236, 0.1053],
       device='cuda:1'), in_proj_covar=tensor([0.0072, 0.0048, 0.0039, 0.0083, 0.0044, 0.0065, 0.0037, 0.0071],
       device='cuda:1'), out_proj_covar=tensor([1.4012e-04, 9.0279e-05, 7.8825e-05, 1.5413e-04, 8.2370e-05, 1.2482e-04,
        8.2439e-05, 1.3821e-04], device='cuda:1')
2022-11-15 14:51:44,071 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=2.02 vs. limit=2.0
2022-11-15 14:51:51,357 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=8447.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 14:51:58,974 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=8458.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 14:52:09,819 INFO [train.py:876] (1/4) Epoch 2, batch 1200, loss[loss=0.2567, simple_loss=0.2327, pruned_loss=0.1403, over 5799.00 frames. ], tot_loss[loss=0.2687, simple_loss=0.2338, pruned_loss=0.1518, over 1083065.35 frames. ], batch size: 22, lr: 3.50e-02, grad_scale: 16.0
2022-11-15 14:52:31,194 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.191e+02 2.113e+02 2.806e+02 3.522e+02 6.703e+02, threshold=5.613e+02, percent-clipped=5.0
2022-11-15 14:52:33,372 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=8506.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 14:52:48,286 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=7.53 vs. limit=5.0
2022-11-15 14:52:55,830 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.63 vs. limit=2.0
2022-11-15 14:53:10,058 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.4151, 3.8188, 2.5911, 1.4575, 3.5034, 1.5714, 3.4660, 2.0032],
       device='cuda:1'), covar=tensor([0.0806, 0.0130, 0.0574, 0.2231, 0.0161, 0.1176, 0.0140, 0.1230],
       device='cuda:1'), in_proj_covar=tensor([0.0075, 0.0048, 0.0041, 0.0086, 0.0046, 0.0069, 0.0038, 0.0074],
       device='cuda:1'), out_proj_covar=tensor([1.4780e-04, 9.2932e-05, 8.3895e-05, 1.6162e-04, 8.4227e-05, 1.3240e-04,
        8.4201e-05, 1.4483e-04], device='cuda:1')
2022-11-15 14:53:14,117 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.6144, 1.6827, 1.7079, 0.9069, 2.2588, 2.1582, 1.7772, 1.4486],
       device='cuda:1'), covar=tensor([0.0111, 0.0567, 0.0393, 0.0240, 0.0123, 0.0124, 0.0181, 0.0275],
       device='cuda:1'), in_proj_covar=tensor([0.0015, 0.0015, 0.0016, 0.0019, 0.0016, 0.0016, 0.0017, 0.0016],
       device='cuda:1'), out_proj_covar=tensor([2.0178e-05, 2.0225e-05, 2.2483e-05, 2.5227e-05, 2.1791e-05, 2.1021e-05,
        2.4446e-05, 1.9812e-05], device='cuda:1')
2022-11-15 14:53:19,907 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=6.00 vs. limit=5.0
2022-11-15 14:53:20,999 INFO [train.py:876] (1/4) Epoch 2, batch 1300, loss[loss=0.2859, simple_loss=0.2532, pruned_loss=0.1593, over 5492.00 frames. ], tot_loss[loss=0.2659, simple_loss=0.232, pruned_loss=0.1499, over 1084153.20 frames. ], batch size: 12, lr: 3.48e-02, grad_scale: 16.0
2022-11-15 14:53:42,885 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.205e+02 2.077e+02 2.771e+02 3.615e+02 8.724e+02, threshold=5.542e+02, percent-clipped=7.0
2022-11-15 14:53:47,208 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.94 vs. limit=2.0
2022-11-15 14:53:49,400 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.2503, 2.1257, 2.8074, 3.5100, 3.7990, 3.1970, 2.5842, 3.4061],
       device='cuda:1'), covar=tensor([0.0136, 0.1791, 0.1150, 0.0284, 0.0122, 0.0950, 0.1618, 0.0103],
       device='cuda:1'), in_proj_covar=tensor([0.0076, 0.0156, 0.0161, 0.0086, 0.0094, 0.0158, 0.0164, 0.0084],
       device='cuda:1'), out_proj_covar=tensor([9.1302e-05, 1.8979e-04, 1.9303e-04, 1.0856e-04, 1.0997e-04, 1.9518e-04,
        1.9903e-04, 9.8627e-05], device='cuda:1')
2022-11-15 14:53:56,855 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=8621.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 14:53:58,445 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.9542, 3.1081, 2.6640, 2.9995, 2.5387, 3.1419, 2.3400, 2.3905],
       device='cuda:1'), covar=tensor([0.0414, 0.0103, 0.0102, 0.0173, 0.0323, 0.0087, 0.0253, 0.0094],
       device='cuda:1'), in_proj_covar=tensor([0.0072, 0.0042, 0.0041, 0.0040, 0.0069, 0.0043, 0.0057, 0.0038],
       device='cuda:1'), out_proj_covar=tensor([9.3895e-05, 5.5762e-05, 5.3336e-05, 5.9246e-05, 9.8632e-05, 5.4372e-05,
        7.6130e-05, 4.9149e-05], device='cuda:1')
2022-11-15 14:54:20,892 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.6867, 2.0049, 1.5247, 1.2794, 1.3956, 2.0874, 1.5598, 2.2307],
       device='cuda:1'), covar=tensor([0.0864, 0.0460, 0.0507, 0.0987, 0.0301, 0.0250, 0.0235, 0.0184],
       device='cuda:1'), in_proj_covar=tensor([0.0096, 0.0075, 0.0055, 0.0089, 0.0049, 0.0048, 0.0049, 0.0055],
       device='cuda:1'), out_proj_covar=tensor([1.2507e-04, 9.7301e-05, 7.8908e-05, 1.1599e-04, 6.4960e-05, 6.1489e-05,
        6.5015e-05, 6.8036e-05], device='cuda:1')
2022-11-15 14:54:35,337 INFO [train.py:876] (1/4) Epoch 2, batch 1400, loss[loss=0.3212, simple_loss=0.2609, pruned_loss=0.1907, over 5573.00 frames. ], tot_loss[loss=0.2676, simple_loss=0.233, pruned_loss=0.1511, over 1086922.62 frames. ], batch size: 43, lr: 3.46e-02, grad_scale: 32.0
2022-11-15 14:54:56,930 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.304e+02 2.372e+02 3.042e+02 3.801e+02 7.959e+02, threshold=6.083e+02, percent-clipped=7.0
2022-11-15 14:55:02,468 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.2060, 0.5103, 0.9089, 1.4414, 0.7556, 0.8947, 0.8744, 1.3572],
       device='cuda:1'), covar=tensor([0.0118, 0.0449, 0.0256, 0.0147, 0.0342, 0.0190, 0.0281, 0.0123],
       device='cuda:1'), in_proj_covar=tensor([0.0031, 0.0033, 0.0036, 0.0028, 0.0041, 0.0030, 0.0039, 0.0026],
       device='cuda:1'), out_proj_covar=tensor([4.4438e-05, 4.7921e-05, 5.9309e-05, 4.2156e-05, 7.1186e-05, 5.1182e-05,
        6.2943e-05, 4.2397e-05], device='cuda:1')
2022-11-15 14:55:25,090 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=2.14 vs. limit=2.0
2022-11-15 14:55:37,209 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=8760.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 14:55:46,188 INFO [train.py:876] (1/4) Epoch 2, batch 1500, loss[loss=0.2465, simple_loss=0.2263, pruned_loss=0.1333, over 5734.00 frames. ], tot_loss[loss=0.266, simple_loss=0.2324, pruned_loss=0.1498, over 1092005.52 frames. ], batch size: 13, lr: 3.45e-02, grad_scale: 32.0
2022-11-15 14:55:53,945 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([0.7109, 1.2245, 1.2822, 1.4320, 0.6337, 1.3950, 1.2669, 1.2511],
       device='cuda:1'), covar=tensor([0.0234, 0.0280, 0.0114, 0.0206, 0.0566, 0.0311, 0.0235, 0.0231],
       device='cuda:1'), in_proj_covar=tensor([0.0021, 0.0020, 0.0020, 0.0022, 0.0021, 0.0017, 0.0019, 0.0019],
       device='cuda:1'), out_proj_covar=tensor([3.2508e-05, 2.6455e-05, 2.6030e-05, 3.1391e-05, 3.3120e-05, 2.7436e-05,
        2.7522e-05, 2.8363e-05], device='cuda:1')
2022-11-15 14:56:03,399 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.72 vs. limit=2.0
2022-11-15 14:56:08,246 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.328e+02 2.321e+02 2.844e+02 3.403e+02 6.170e+02, threshold=5.688e+02, percent-clipped=1.0
2022-11-15 14:56:20,983 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=8821.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 14:56:23,923 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=1.97 vs. limit=2.0
2022-11-15 14:56:30,564 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.4161, 3.3316, 2.4930, 1.3583, 2.9477, 3.6960, 2.3721, 3.7402],
       device='cuda:1'), covar=tensor([0.0620, 0.0321, 0.0427, 0.0932, 0.0110, 0.0065, 0.0180, 0.0073],
       device='cuda:1'), in_proj_covar=tensor([0.0096, 0.0079, 0.0056, 0.0091, 0.0050, 0.0047, 0.0050, 0.0057],
       device='cuda:1'), out_proj_covar=tensor([1.2720e-04, 1.0334e-04, 8.1382e-05, 1.2075e-04, 6.3945e-05, 6.0976e-05,
        6.5123e-05, 7.1611e-05], device='cuda:1')
2022-11-15 14:56:40,644 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([0.8554, 1.2147, 1.2589, 1.5341, 1.3192, 1.5212, 0.8220, 0.7125],
       device='cuda:1'), covar=tensor([0.0146, 0.0267, 0.0129, 0.0137, 0.0368, 0.0323, 0.0207, 0.0208],
       device='cuda:1'), in_proj_covar=tensor([0.0024, 0.0021, 0.0020, 0.0022, 0.0022, 0.0022, 0.0023, 0.0021],
       device='cuda:1'), out_proj_covar=tensor([2.9849e-05, 2.7460e-05, 2.9075e-05, 2.6087e-05, 2.8301e-05, 2.7457e-05,
        3.7948e-05, 2.6984e-05], device='cuda:1')
2022-11-15 14:56:55,723 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.9866, 4.2306, 3.2184, 1.8600, 3.9910, 2.4042, 4.0867, 2.3894],
       device='cuda:1'), covar=tensor([0.0684, 0.0128, 0.0305, 0.2064, 0.0095, 0.0907, 0.0110, 0.1161],
       device='cuda:1'), in_proj_covar=tensor([0.0078, 0.0051, 0.0042, 0.0089, 0.0046, 0.0072, 0.0038, 0.0078],
       device='cuda:1'), out_proj_covar=tensor([1.5680e-04, 1.0044e-04, 8.8763e-05, 1.7014e-04, 8.5880e-05, 1.4054e-04,
        8.4038e-05, 1.5467e-04], device='cuda:1')
2022-11-15 14:56:57,531 INFO [train.py:876] (1/4) Epoch 2, batch 1600, loss[loss=0.2738, simple_loss=0.246, pruned_loss=0.1508, over 5764.00 frames. ], tot_loss[loss=0.2679, simple_loss=0.2337, pruned_loss=0.151, over 1089028.99 frames. ], batch size: 21, lr: 3.44e-02, grad_scale: 16.0
2022-11-15 14:57:04,744 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=2.07 vs. limit=2.0
2022-11-15 14:57:12,343 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=2.06 vs. limit=2.0
2022-11-15 14:57:19,299 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.565e+02 2.087e+02 2.971e+02 3.839e+02 7.053e+02, threshold=5.941e+02, percent-clipped=2.0
2022-11-15 14:57:31,976 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=8921.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 14:57:35,599 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=2.03 vs. limit=2.0
2022-11-15 14:57:36,144 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=8927.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 14:58:05,414 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=8969.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 14:58:08,102 INFO [train.py:876] (1/4) Epoch 2, batch 1700, loss[loss=0.2029, simple_loss=0.1984, pruned_loss=0.1037, over 5527.00 frames. ], tot_loss[loss=0.2629, simple_loss=0.2304, pruned_loss=0.1477, over 1088841.31 frames. ], batch size: 14, lr: 3.42e-02, grad_scale: 16.0
2022-11-15 14:58:18,153 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=8986.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 14:58:19,529 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=8988.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 14:58:23,796 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=2.00 vs. limit=2.0
2022-11-15 14:58:25,267 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.65 vs. limit=2.0
2022-11-15 14:58:30,484 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.407e+02 2.261e+02 2.879e+02 3.540e+02 8.492e+02, threshold=5.758e+02, percent-clipped=3.0
2022-11-15 14:58:37,624 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=9013.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 14:58:47,389 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.3604, 1.7717, 1.7545, 1.9900, 1.2676, 1.7006, 1.3637, 1.9013],
       device='cuda:1'), covar=tensor([0.0636, 0.0164, 0.0286, 0.0110, 0.0500, 0.0401, 0.1106, 0.0170],
       device='cuda:1'), in_proj_covar=tensor([0.0154, 0.0084, 0.0106, 0.0075, 0.0091, 0.0134, 0.0172, 0.0077],
       device='cuda:1'), out_proj_covar=tensor([1.7664e-04, 9.2297e-05, 1.2379e-04, 8.7256e-05, 1.0990e-04, 1.6028e-04,
        1.9339e-04, 8.6833e-05], device='cuda:1')
2022-11-15 14:59:01,369 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=2.18 vs. limit=2.0
2022-11-15 14:59:01,662 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=9047.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 14:59:04,353 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.0022, 2.0290, 1.3770, 1.6169, 1.6850, 1.3087, 0.6407, 0.9270],
       device='cuda:1'), covar=tensor([0.0253, 0.0088, 0.0179, 0.0518, 0.0161, 0.0641, 0.0179, 0.0582],
       device='cuda:1'), in_proj_covar=tensor([0.0025, 0.0021, 0.0020, 0.0022, 0.0021, 0.0023, 0.0022, 0.0020],
       device='cuda:1'), out_proj_covar=tensor([3.0816e-05, 2.6816e-05, 2.9362e-05, 2.6241e-05, 2.7360e-05, 2.9448e-05,
        3.7349e-05, 2.6302e-05], device='cuda:1')
2022-11-15 14:59:12,566 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=2.09 vs. limit=2.0
2022-11-15 14:59:20,368 INFO [train.py:876] (1/4) Epoch 2, batch 1800, loss[loss=0.2312, simple_loss=0.2218, pruned_loss=0.1203, over 5572.00 frames. ], tot_loss[loss=0.2604, simple_loss=0.2289, pruned_loss=0.1459, over 1088829.79 frames. ], batch size: 16, lr: 3.41e-02, grad_scale: 16.0
2022-11-15 14:59:21,219 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=9074.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 14:59:42,158 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.031e+02 2.362e+02 3.022e+02 3.932e+02 1.031e+03, threshold=6.044e+02, percent-clipped=5.0
2022-11-15 14:59:50,856 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=9116.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 15:00:03,938 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=2.28 vs. limit=2.0
2022-11-15 15:00:16,250 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=5.39 vs. limit=5.0
2022-11-15 15:00:16,791 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=6.18 vs. limit=5.0
2022-11-15 15:00:31,254 INFO [train.py:876] (1/4) Epoch 2, batch 1900, loss[loss=0.2943, simple_loss=0.232, pruned_loss=0.1783, over 4117.00 frames. ], tot_loss[loss=0.2636, simple_loss=0.2308, pruned_loss=0.1482, over 1080868.31 frames. ], batch size: 181, lr: 3.39e-02, grad_scale: 16.0
2022-11-15 15:00:35,819 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.5461, 1.8491, 3.3191, 2.2575, 3.5236, 2.2043, 3.0119, 3.1902],
       device='cuda:1'), covar=tensor([0.0057, 0.0863, 0.0178, 0.0644, 0.0090, 0.0520, 0.0173, 0.0214],
       device='cuda:1'), in_proj_covar=tensor([0.0056, 0.0124, 0.0072, 0.0113, 0.0061, 0.0103, 0.0084, 0.0070],
       device='cuda:1'), out_proj_covar=tensor([8.0012e-05, 1.7122e-04, 1.0154e-04, 1.5431e-04, 8.5985e-05, 1.4305e-04,
        1.1990e-04, 9.9956e-05], device='cuda:1')
2022-11-15 15:00:53,891 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.186e+02 2.307e+02 3.025e+02 3.862e+02 6.126e+02, threshold=6.049e+02, percent-clipped=1.0
2022-11-15 15:00:56,880 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.4721, 1.3862, 1.4572, 1.6944, 1.6219, 1.5919, 1.4835, 1.4056],
       device='cuda:1'), covar=tensor([0.0164, 0.0422, 0.0437, 0.0237, 0.0145, 0.0191, 0.0203, 0.0168],
       device='cuda:1'), in_proj_covar=tensor([0.0018, 0.0018, 0.0019, 0.0022, 0.0019, 0.0018, 0.0019, 0.0018],
       device='cuda:1'), out_proj_covar=tensor([2.4993e-05, 2.5693e-05, 2.6812e-05, 2.9238e-05, 2.5698e-05, 2.4617e-05,
        2.6481e-05, 2.2849e-05], device='cuda:1')
2022-11-15 15:01:09,209 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([4.2909, 4.7733, 4.7632, 4.8904, 3.9654, 2.9977, 5.3452, 4.5173],
       device='cuda:1'), covar=tensor([0.0496, 0.0792, 0.0349, 0.0474, 0.0531, 0.0547, 0.0560, 0.0426],
       device='cuda:1'), in_proj_covar=tensor([0.0048, 0.0069, 0.0057, 0.0066, 0.0041, 0.0040, 0.0071, 0.0052],
       device='cuda:1'), out_proj_covar=tensor([9.1391e-05, 1.3086e-04, 1.0798e-04, 1.2244e-04, 8.1063e-05, 7.5905e-05,
        1.4920e-04, 9.9361e-05], device='cuda:1')
2022-11-15 15:01:16,783 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([4.4106, 4.1988, 4.2897, 4.0089, 4.6919, 4.2552, 4.1451, 4.2507],
       device='cuda:1'), covar=tensor([0.0351, 0.0246, 0.0469, 0.0240, 0.0295, 0.0202, 0.0222, 0.0301],
       device='cuda:1'), in_proj_covar=tensor([0.0061, 0.0063, 0.0050, 0.0059, 0.0058, 0.0041, 0.0051, 0.0048],
       device='cuda:1'), out_proj_covar=tensor([1.2752e-04, 1.2253e-04, 1.0061e-04, 1.1245e-04, 1.3058e-04, 7.8708e-05,
        1.0104e-04, 9.9688e-05], device='cuda:1')
2022-11-15 15:01:19,986 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=2.15 vs. limit=2.0
2022-11-15 15:01:32,922 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=2.40 vs. limit=2.0
2022-11-15 15:01:38,810 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.3581, 1.5279, 1.6306, 2.0298, 1.4935, 1.3238, 1.6579, 1.9866],
       device='cuda:1'), covar=tensor([0.0367, 0.0257, 0.0369, 0.0437, 0.0346, 0.0343, 0.0278, 0.0156],
       device='cuda:1'), in_proj_covar=tensor([0.0031, 0.0033, 0.0037, 0.0029, 0.0040, 0.0032, 0.0040, 0.0025],
       device='cuda:1'), out_proj_covar=tensor([4.8234e-05, 5.0704e-05, 6.3664e-05, 4.7287e-05, 6.9716e-05, 5.6560e-05,
        6.4771e-05, 4.2783e-05], device='cuda:1')
2022-11-15 15:01:41,857 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=4.61 vs. limit=5.0
2022-11-15 15:01:42,872 INFO [train.py:876] (1/4) Epoch 2, batch 2000, loss[loss=0.2188, simple_loss=0.2047, pruned_loss=0.1165, over 5535.00 frames. ], tot_loss[loss=0.2602, simple_loss=0.2289, pruned_loss=0.1457, over 1083164.68 frames. ], batch size: 14, lr: 3.38e-02, grad_scale: 16.0
2022-11-15 15:01:50,668 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=9283.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 15:01:56,650 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.97 vs. limit=2.0
2022-11-15 15:02:01,136 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([0.9368, 1.1661, 0.5710, 0.5835, 0.8829, 0.9604, 0.6837, 0.9349],
       device='cuda:1'), covar=tensor([0.0395, 0.0174, 0.0534, 0.0705, 0.0394, 0.0433, 0.0291, 0.0387],
       device='cuda:1'), in_proj_covar=tensor([0.0014, 0.0015, 0.0016, 0.0018, 0.0014, 0.0014, 0.0016, 0.0015],
       device='cuda:1'), out_proj_covar=tensor([2.3323e-05, 2.4005e-05, 2.9076e-05, 3.7065e-05, 2.5455e-05, 2.2828e-05,
        2.7596e-05, 2.4849e-05], device='cuda:1')
2022-11-15 15:02:05,762 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.305e+02 2.275e+02 2.942e+02 3.786e+02 7.709e+02, threshold=5.884e+02, percent-clipped=5.0
2022-11-15 15:02:32,853 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=9342.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 15:02:52,306 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=9369.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 15:02:54,972 INFO [train.py:876] (1/4) Epoch 2, batch 2100, loss[loss=0.1651, simple_loss=0.1645, pruned_loss=0.08286, over 5507.00 frames. ], tot_loss[loss=0.2598, simple_loss=0.2289, pruned_loss=0.1454, over 1086379.16 frames. ], batch size: 12, lr: 3.36e-02, grad_scale: 16.0
2022-11-15 15:03:13,774 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.97 vs. limit=2.0
2022-11-15 15:03:17,095 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.205e+02 2.437e+02 2.901e+02 3.645e+02 9.793e+02, threshold=5.801e+02, percent-clipped=2.0
2022-11-15 15:03:24,897 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=9414.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 15:03:26,171 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=9416.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 15:03:58,461 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=4.81 vs. limit=5.0
2022-11-15 15:04:00,503 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=9464.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 15:04:06,702 INFO [train.py:876] (1/4) Epoch 2, batch 2200, loss[loss=0.3096, simple_loss=0.2503, pruned_loss=0.1845, over 4668.00 frames. ], tot_loss[loss=0.2593, simple_loss=0.229, pruned_loss=0.1448, over 1087147.52 frames. ], batch size: 135, lr: 3.35e-02, grad_scale: 16.0
2022-11-15 15:04:08,198 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=9475.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 15:04:25,172 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([4.0566, 5.2082, 3.6713, 2.5778, 5.0271, 2.5229, 4.1115, 3.1240],
       device='cuda:1'), covar=tensor([0.0460, 0.0057, 0.0356, 0.1605, 0.0088, 0.1029, 0.0107, 0.1048],
       device='cuda:1'), in_proj_covar=tensor([0.0084, 0.0054, 0.0048, 0.0094, 0.0053, 0.0083, 0.0042, 0.0086],
       device='cuda:1'), out_proj_covar=tensor([1.7566e-04, 1.1025e-04, 1.0228e-04, 1.8707e-04, 1.0373e-04, 1.6710e-04,
        9.2990e-05, 1.7686e-04], device='cuda:1')
2022-11-15 15:04:28,437 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 9.967e+01 2.258e+02 2.836e+02 4.027e+02 8.312e+02, threshold=5.673e+02, percent-clipped=7.0
2022-11-15 15:04:53,122 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=2.07 vs. limit=2.0
2022-11-15 15:05:17,080 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=9.63 vs. limit=5.0
2022-11-15 15:05:18,108 INFO [train.py:876] (1/4) Epoch 2, batch 2300, loss[loss=0.2468, simple_loss=0.2238, pruned_loss=0.1349, over 5494.00 frames. ], tot_loss[loss=0.2593, simple_loss=0.2288, pruned_loss=0.1449, over 1083190.88 frames. ], batch size: 12, lr: 3.34e-02, grad_scale: 16.0
2022-11-15 15:05:25,117 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=9583.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 15:05:25,859 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=9584.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 15:05:39,845 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.198e+02 2.289e+02 3.013e+02 4.083e+02 8.581e+02, threshold=6.026e+02, percent-clipped=8.0
2022-11-15 15:05:59,632 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=9631.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 15:06:07,374 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=9642.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 15:06:09,485 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=9645.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 15:06:18,534 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=9658.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 15:06:26,564 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=9669.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 15:06:27,239 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.1776, 1.7730, 1.2569, 1.6316, 0.7195, 1.2858, 1.3681, 0.9807],
       device='cuda:1'), covar=tensor([0.0257, 0.0164, 0.0180, 0.0220, 0.0788, 0.0535, 0.0473, 0.0461],
       device='cuda:1'), in_proj_covar=tensor([0.0025, 0.0023, 0.0024, 0.0026, 0.0024, 0.0018, 0.0023, 0.0023],
       device='cuda:1'), out_proj_covar=tensor([3.7727e-05, 3.2541e-05, 3.1932e-05, 3.6813e-05, 3.9079e-05, 2.9695e-05,
        3.4032e-05, 3.3169e-05], device='cuda:1')
2022-11-15 15:06:29,227 INFO [train.py:876] (1/4) Epoch 2, batch 2400, loss[loss=0.2057, simple_loss=0.1977, pruned_loss=0.1069, over 5561.00 frames. ], tot_loss[loss=0.2593, simple_loss=0.2287, pruned_loss=0.145, over 1087318.36 frames. ], batch size: 13, lr: 3.32e-02, grad_scale: 16.0
2022-11-15 15:06:41,903 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=9690.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 15:06:51,272 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.316e+02 2.170e+02 2.571e+02 3.474e+02 5.585e+02, threshold=5.143e+02, percent-clipped=0.0
2022-11-15 15:07:00,764 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=9717.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 15:07:02,279 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=9719.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 15:07:05,419 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=2.04 vs. limit=2.0
2022-11-15 15:07:06,752 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=2.05 vs. limit=2.0
2022-11-15 15:07:19,785 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=9743.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 15:07:38,164 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=9770.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 15:07:40,530 INFO [train.py:876] (1/4) Epoch 2, batch 2500, loss[loss=0.2202, simple_loss=0.211, pruned_loss=0.1147, over 5527.00 frames. ], tot_loss[loss=0.2588, simple_loss=0.2288, pruned_loss=0.1443, over 1091576.12 frames. ], batch size: 13, lr: 3.31e-02, grad_scale: 16.0
2022-11-15 15:08:03,223 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.240e+02 2.186e+02 2.866e+02 3.924e+02 6.368e+02, threshold=5.732e+02, percent-clipped=5.0
2022-11-15 15:08:03,444 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=9804.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 15:08:52,034 INFO [train.py:876] (1/4) Epoch 2, batch 2600, loss[loss=0.2709, simple_loss=0.2365, pruned_loss=0.1527, over 5579.00 frames. ], tot_loss[loss=0.2586, simple_loss=0.228, pruned_loss=0.1446, over 1088428.23 frames. ], batch size: 24, lr: 3.30e-02, grad_scale: 16.0
2022-11-15 15:08:55,621 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.1786, 2.1569, 2.0265, 2.1452, 2.1788, 2.1759, 1.9793, 1.8842],
       device='cuda:1'), covar=tensor([0.0390, 0.0613, 0.0731, 0.0692, 0.0644, 0.0570, 0.0617, 0.0718],
       device='cuda:1'), in_proj_covar=tensor([0.0059, 0.0055, 0.0078, 0.0059, 0.0077, 0.0070, 0.0062, 0.0054],
       device='cuda:1'), out_proj_covar=tensor([1.0811e-04, 1.0879e-04, 1.3344e-04, 1.1190e-04, 1.4758e-04, 1.1665e-04,
        1.0799e-04, 9.3255e-05], device='cuda:1')
2022-11-15 15:09:14,801 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.239e+02 2.199e+02 2.978e+02 3.710e+02 9.077e+02, threshold=5.957e+02, percent-clipped=5.0
2022-11-15 15:09:15,314 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.91 vs. limit=2.0
2022-11-15 15:09:21,783 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.9975, 3.6924, 3.4011, 3.7725, 3.7720, 3.3972, 3.3180, 2.6638],
       device='cuda:1'), covar=tensor([0.0909, 0.0287, 0.0490, 0.0275, 0.0268, 0.0355, 0.0284, 0.0602],
       device='cuda:1'), in_proj_covar=tensor([0.0058, 0.0055, 0.0077, 0.0058, 0.0075, 0.0070, 0.0061, 0.0054],
       device='cuda:1'), out_proj_covar=tensor([1.0591e-04, 1.0869e-04, 1.3223e-04, 1.0935e-04, 1.4478e-04, 1.1603e-04,
        1.0655e-04, 9.4186e-05], device='cuda:1')
2022-11-15 15:09:40,250 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=9940.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 15:10:03,769 INFO [train.py:876] (1/4) Epoch 2, batch 2700, loss[loss=0.3118, simple_loss=0.2674, pruned_loss=0.1781, over 5731.00 frames. ], tot_loss[loss=0.2557, simple_loss=0.2264, pruned_loss=0.1425, over 1086409.26 frames. ], batch size: 17, lr: 3.28e-02, grad_scale: 16.0
2022-11-15 15:10:29,551 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.282e+02 2.293e+02 2.993e+02 4.046e+02 1.330e+03, threshold=5.986e+02, percent-clipped=8.0
2022-11-15 15:10:37,231 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=10014.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 15:10:54,454 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=10039.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 15:11:10,954 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=10062.0, num_to_drop=1, layers_to_drop={0}
2022-11-15 15:11:15,300 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=2.15 vs. limit=2.0
2022-11-15 15:11:16,391 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=10070.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 15:11:18,622 INFO [train.py:876] (1/4) Epoch 2, batch 2800, loss[loss=0.3373, simple_loss=0.2803, pruned_loss=0.1971, over 5375.00 frames. ], tot_loss[loss=0.2569, simple_loss=0.2275, pruned_loss=0.1432, over 1089531.46 frames. ], batch size: 70, lr: 3.27e-02, grad_scale: 16.0
2022-11-15 15:11:36,439 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=10099.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 15:11:37,197 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=10100.0, num_to_drop=1, layers_to_drop={0}
2022-11-15 15:11:39,750 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.304e+02 2.201e+02 2.831e+02 3.552e+02 8.014e+02, threshold=5.662e+02, percent-clipped=2.0
2022-11-15 15:11:43,641 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.1277, 1.1466, 0.7822, 0.7242, 1.1330, 1.2589, 0.8481, 0.7961],
       device='cuda:1'), covar=tensor([0.0298, 0.0212, 0.0359, 0.0546, 0.0171, 0.0326, 0.0429, 0.0459],
       device='cuda:1'), in_proj_covar=tensor([0.0014, 0.0013, 0.0013, 0.0015, 0.0012, 0.0013, 0.0016, 0.0013],
       device='cuda:1'), out_proj_covar=tensor([2.3666e-05, 2.2499e-05, 2.5450e-05, 3.2577e-05, 2.1583e-05, 2.3358e-05,
        2.8660e-05, 2.3091e-05], device='cuda:1')
2022-11-15 15:11:49,992 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=10118.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 15:11:53,499 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=10123.0, num_to_drop=1, layers_to_drop={1}
2022-11-15 15:12:26,667 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.4519, 0.7831, 1.7757, 2.1238, 2.1698, 2.0963, 1.7319, 2.4005],
       device='cuda:1'), covar=tensor([0.0146, 0.0268, 0.0235, 0.0081, 0.0120, 0.0112, 0.0136, 0.0077],
       device='cuda:1'), in_proj_covar=tensor([0.0018, 0.0017, 0.0018, 0.0019, 0.0019, 0.0018, 0.0021, 0.0018],
       device='cuda:1'), out_proj_covar=tensor([2.4235e-05, 2.5548e-05, 2.8117e-05, 2.4747e-05, 2.6511e-05, 2.4419e-05,
        2.8620e-05, 2.3139e-05], device='cuda:1')
2022-11-15 15:12:29,743 INFO [train.py:876] (1/4) Epoch 2, batch 2900, loss[loss=0.2446, simple_loss=0.2343, pruned_loss=0.1275, over 5513.00 frames. ], tot_loss[loss=0.2595, simple_loss=0.2288, pruned_loss=0.1451, over 1078570.52 frames. ], batch size: 13, lr: 3.26e-02, grad_scale: 16.0
2022-11-15 15:12:32,004 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.77 vs. limit=2.0
2022-11-15 15:12:52,051 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.103e+02 2.141e+02 2.737e+02 3.549e+02 7.365e+02, threshold=5.475e+02, percent-clipped=2.0
2022-11-15 15:12:52,669 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.95 vs. limit=2.0
2022-11-15 15:12:58,534 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([0.9635, 0.9807, 0.6997, 0.3775, 1.0671, 0.9863, 0.8299, 0.8054],
       device='cuda:1'), covar=tensor([0.0240, 0.0140, 0.0346, 0.0660, 0.0162, 0.0304, 0.0286, 0.0326],
       device='cuda:1'), in_proj_covar=tensor([0.0013, 0.0013, 0.0013, 0.0015, 0.0011, 0.0013, 0.0015, 0.0013],
       device='cuda:1'), out_proj_covar=tensor([2.3096e-05, 2.2578e-05, 2.6104e-05, 3.2687e-05, 2.1113e-05, 2.3102e-05,
        2.7888e-05, 2.3189e-05], device='cuda:1')
2022-11-15 15:13:07,336 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=2.28 vs. limit=2.0
2022-11-15 15:13:08,114 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([4.8348, 4.8770, 4.9664, 4.9998, 4.1276, 3.8039, 5.3332, 4.7275],
       device='cuda:1'), covar=tensor([0.0434, 0.0573, 0.0352, 0.0404, 0.0449, 0.0273, 0.0597, 0.0336],
       device='cuda:1'), in_proj_covar=tensor([0.0047, 0.0068, 0.0058, 0.0066, 0.0044, 0.0039, 0.0068, 0.0053],
       device='cuda:1'), out_proj_covar=tensor([9.0319e-05, 1.3532e-04, 1.1149e-04, 1.2846e-04, 8.8829e-05, 7.6157e-05,
        1.5045e-04, 1.0339e-04], device='cuda:1')
2022-11-15 15:13:11,952 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([0.8523, 1.0493, 1.2947, 1.0552, 0.8857, 0.6868, 0.6209, 1.0791],
       device='cuda:1'), covar=tensor([0.0159, 0.0103, 0.0105, 0.0077, 0.0166, 0.0112, 0.0181, 0.0220],
       device='cuda:1'), in_proj_covar=tensor([0.0024, 0.0022, 0.0021, 0.0023, 0.0023, 0.0022, 0.0024, 0.0020],
       device='cuda:1'), out_proj_covar=tensor([3.1184e-05, 2.9578e-05, 3.0938e-05, 2.7581e-05, 3.1257e-05, 3.0053e-05,
        4.0239e-05, 2.8624e-05], device='cuda:1')
2022-11-15 15:13:12,050 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=1.99 vs. limit=2.0
2022-11-15 15:13:18,141 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=10240.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 15:13:41,346 INFO [train.py:876] (1/4) Epoch 2, batch 3000, loss[loss=0.2825, simple_loss=0.2298, pruned_loss=0.1676, over 5025.00 frames. ], tot_loss[loss=0.2593, simple_loss=0.2287, pruned_loss=0.1449, over 1085169.36 frames. ], batch size: 109, lr: 3.24e-02, grad_scale: 16.0
2022-11-15 15:13:41,347 INFO [train.py:899] (1/4) Computing validation loss
2022-11-15 15:14:00,266 INFO [train.py:908] (1/4) Epoch 2, validation: loss=0.2049, simple_loss=0.215, pruned_loss=0.09736, over 1530663.00 frames. 
2022-11-15 15:14:00,267 INFO [train.py:909] (1/4) Maximum memory allocated so far is 4576MB
2022-11-15 15:14:09,962 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.74 vs. limit=2.0
2022-11-15 15:14:10,875 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=10288.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 15:14:22,010 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.133e+02 2.226e+02 2.767e+02 3.573e+02 6.449e+02, threshold=5.534e+02, percent-clipped=5.0
2022-11-15 15:14:22,174 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.7982, 4.5875, 3.5980, 2.1099, 4.4703, 2.0076, 3.7688, 3.1342],
       device='cuda:1'), covar=tensor([0.0622, 0.0143, 0.0251, 0.2258, 0.0132, 0.1653, 0.0205, 0.1197],
       device='cuda:1'), in_proj_covar=tensor([0.0092, 0.0058, 0.0051, 0.0096, 0.0057, 0.0091, 0.0045, 0.0091],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0001, 0.0001, 0.0002, 0.0001, 0.0002, 0.0001, 0.0002],
       device='cuda:1')
2022-11-15 15:14:23,947 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=2.13 vs. limit=2.0
2022-11-15 15:14:28,956 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=10314.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 15:14:59,725 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.5622, 3.6954, 3.7128, 3.7967, 2.9811, 2.8341, 4.1220, 3.2964],
       device='cuda:1'), covar=tensor([0.0678, 0.0875, 0.0573, 0.0784, 0.1005, 0.0590, 0.0827, 0.0686],
       device='cuda:1'), in_proj_covar=tensor([0.0048, 0.0069, 0.0059, 0.0069, 0.0046, 0.0040, 0.0071, 0.0054],
       device='cuda:1'), out_proj_covar=tensor([9.2878e-05, 1.3898e-04, 1.1363e-04, 1.3420e-04, 9.3186e-05, 7.9922e-05,
        1.5583e-04, 1.0482e-04], device='cuda:1')
2022-11-15 15:15:03,069 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=10362.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 15:15:06,561 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.6915, 3.7857, 2.9774, 1.6454, 3.4267, 1.8857, 3.3135, 2.2639],
       device='cuda:1'), covar=tensor([0.0868, 0.0161, 0.0358, 0.2214, 0.0248, 0.1406, 0.0190, 0.1429],
       device='cuda:1'), in_proj_covar=tensor([0.0092, 0.0058, 0.0051, 0.0096, 0.0058, 0.0090, 0.0045, 0.0091],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0001, 0.0001, 0.0002, 0.0001, 0.0002, 0.0001, 0.0002],
       device='cuda:1')
2022-11-15 15:15:10,522 INFO [train.py:876] (1/4) Epoch 2, batch 3100, loss[loss=0.2641, simple_loss=0.2455, pruned_loss=0.1413, over 5747.00 frames. ], tot_loss[loss=0.2612, simple_loss=0.23, pruned_loss=0.1462, over 1085089.36 frames. ], batch size: 21, lr: 3.23e-02, grad_scale: 16.0
2022-11-15 15:15:26,631 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=10395.0, num_to_drop=1, layers_to_drop={0}
2022-11-15 15:15:29,515 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=10399.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 15:15:33,066 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 8.883e+01 2.180e+02 2.990e+02 3.781e+02 9.963e+02, threshold=5.979e+02, percent-clipped=5.0
2022-11-15 15:15:36,996 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=10409.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 15:15:43,100 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=10418.0, num_to_drop=1, layers_to_drop={2}
2022-11-15 15:16:04,087 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=10447.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 15:16:08,973 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=10454.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 15:16:20,272 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=10470.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 15:16:22,103 INFO [train.py:876] (1/4) Epoch 2, batch 3200, loss[loss=0.2501, simple_loss=0.2291, pruned_loss=0.1355, over 5807.00 frames. ], tot_loss[loss=0.2582, simple_loss=0.2281, pruned_loss=0.1442, over 1082476.96 frames. ], batch size: 21, lr: 3.22e-02, grad_scale: 16.0
2022-11-15 15:16:44,405 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 9.221e+01 2.155e+02 2.904e+02 3.416e+02 7.936e+02, threshold=5.808e+02, percent-clipped=4.0
2022-11-15 15:16:45,240 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.8496, 3.8274, 4.0888, 4.0243, 3.3617, 3.5180, 4.6205, 4.1040],
       device='cuda:1'), covar=tensor([0.0399, 0.0674, 0.0432, 0.0601, 0.0673, 0.0327, 0.0480, 0.0317],
       device='cuda:1'), in_proj_covar=tensor([0.0046, 0.0069, 0.0057, 0.0067, 0.0043, 0.0039, 0.0069, 0.0052],
       device='cuda:1'), out_proj_covar=tensor([8.9962e-05, 1.3927e-04, 1.0947e-04, 1.3046e-04, 8.9089e-05, 7.6231e-05,
        1.5506e-04, 1.0253e-04], device='cuda:1')
2022-11-15 15:16:49,148 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=2.05 vs. limit=2.0
2022-11-15 15:16:52,744 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=10515.0, num_to_drop=1, layers_to_drop={3}
2022-11-15 15:17:33,912 INFO [train.py:876] (1/4) Epoch 2, batch 3300, loss[loss=0.2675, simple_loss=0.2121, pruned_loss=0.1615, over 4161.00 frames. ], tot_loss[loss=0.2583, simple_loss=0.2288, pruned_loss=0.1439, over 1081223.69 frames. ], batch size: 181, lr: 3.21e-02, grad_scale: 16.0
2022-11-15 15:17:35,069 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=2.12 vs. limit=2.0
2022-11-15 15:17:55,742 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.063e+02 1.974e+02 2.609e+02 3.131e+02 6.226e+02, threshold=5.219e+02, percent-clipped=2.0
2022-11-15 15:18:37,323 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=2.01 vs. limit=2.0
2022-11-15 15:18:45,894 INFO [train.py:876] (1/4) Epoch 2, batch 3400, loss[loss=0.2969, simple_loss=0.2559, pruned_loss=0.1689, over 5298.00 frames. ], tot_loss[loss=0.2573, simple_loss=0.2279, pruned_loss=0.1434, over 1080283.99 frames. ], batch size: 79, lr: 3.19e-02, grad_scale: 16.0
2022-11-15 15:19:01,420 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=10695.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 15:19:07,528 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.578e+02 2.426e+02 2.941e+02 3.632e+02 1.443e+03, threshold=5.881e+02, percent-clipped=8.0
2022-11-15 15:19:11,572 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.0669, 1.1950, 1.3425, 1.2324, 1.9876, 1.5069, 0.6110, 0.9384],
       device='cuda:1'), covar=tensor([0.0373, 0.0281, 0.0388, 0.0311, 0.0326, 0.0281, 0.0343, 0.0299],
       device='cuda:1'), in_proj_covar=tensor([0.0011, 0.0012, 0.0011, 0.0012, 0.0010, 0.0011, 0.0012, 0.0011],
       device='cuda:1'), out_proj_covar=tensor([2.0548e-05, 2.0401e-05, 2.2928e-05, 2.7012e-05, 1.8527e-05, 2.0443e-05,
        2.3791e-05, 2.0540e-05], device='cuda:1')
2022-11-15 15:19:18,046 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=10718.0, num_to_drop=1, layers_to_drop={1}
2022-11-15 15:19:36,088 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=10743.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 15:19:36,926 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=10744.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 15:19:51,858 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=10765.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 15:19:52,492 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=10766.0, num_to_drop=1, layers_to_drop={1}
2022-11-15 15:19:58,021 INFO [train.py:876] (1/4) Epoch 2, batch 3500, loss[loss=0.225, simple_loss=0.2146, pruned_loss=0.1177, over 5705.00 frames. ], tot_loss[loss=0.2557, simple_loss=0.2268, pruned_loss=0.1423, over 1085764.56 frames. ], batch size: 15, lr: 3.18e-02, grad_scale: 16.0
2022-11-15 15:19:58,857 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=10774.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 15:20:09,403 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=2.03 vs. limit=2.0
2022-11-15 15:20:20,009 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.225e+02 2.227e+02 2.667e+02 3.424e+02 6.980e+02, threshold=5.333e+02, percent-clipped=5.0
2022-11-15 15:20:20,890 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=10805.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 15:20:24,280 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=10810.0, num_to_drop=1, layers_to_drop={3}
2022-11-15 15:20:42,596 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=10835.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 15:20:53,564 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=5.46 vs. limit=5.0
2022-11-15 15:20:59,866 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=5.14 vs. limit=5.0
2022-11-15 15:21:08,879 INFO [train.py:876] (1/4) Epoch 2, batch 3600, loss[loss=0.29, simple_loss=0.2527, pruned_loss=0.1636, over 5475.00 frames. ], tot_loss[loss=0.2541, simple_loss=0.2258, pruned_loss=0.1412, over 1085839.06 frames. ], batch size: 58, lr: 3.17e-02, grad_scale: 32.0
2022-11-15 15:21:18,342 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=10885.0, num_to_drop=1, layers_to_drop={0}
2022-11-15 15:21:28,924 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.7830, 0.8552, 1.4056, 2.0424, 1.0060, 1.2237, 1.1052, 1.4843],
       device='cuda:1'), covar=tensor([0.0104, 0.0365, 0.0239, 0.0109, 0.0236, 0.0347, 0.0207, 0.0172],
       device='cuda:1'), in_proj_covar=tensor([0.0029, 0.0033, 0.0037, 0.0027, 0.0038, 0.0030, 0.0036, 0.0027],
       device='cuda:1'), out_proj_covar=tensor([5.0721e-05, 5.5864e-05, 6.9510e-05, 4.4027e-05, 6.9134e-05, 5.7270e-05,
        6.4077e-05, 4.7707e-05], device='cuda:1')
2022-11-15 15:21:29,147 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=2.19 vs. limit=2.0
2022-11-15 15:21:31,443 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.316e+02 2.250e+02 2.765e+02 3.840e+02 7.288e+02, threshold=5.531e+02, percent-clipped=6.0
2022-11-15 15:22:01,321 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=10946.0, num_to_drop=1, layers_to_drop={3}
2022-11-15 15:22:10,961 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.86 vs. limit=2.0
2022-11-15 15:22:19,993 INFO [train.py:876] (1/4) Epoch 2, batch 3700, loss[loss=0.2423, simple_loss=0.2258, pruned_loss=0.1294, over 5730.00 frames. ], tot_loss[loss=0.2526, simple_loss=0.225, pruned_loss=0.1401, over 1087411.46 frames. ], batch size: 15, lr: 3.16e-02, grad_scale: 32.0
2022-11-15 15:22:23,803 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=4.77 vs. limit=5.0
2022-11-15 15:22:42,990 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.438e+02 2.397e+02 3.169e+02 4.273e+02 6.249e+02, threshold=6.338e+02, percent-clipped=7.0
2022-11-15 15:23:02,886 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.4599, 2.3329, 2.4150, 2.4705, 2.4360, 2.1944, 2.5911, 2.4299],
       device='cuda:1'), covar=tensor([0.0524, 0.0884, 0.0553, 0.0719, 0.0546, 0.0456, 0.0962, 0.0578],
       device='cuda:1'), in_proj_covar=tensor([0.0045, 0.0067, 0.0056, 0.0066, 0.0044, 0.0039, 0.0071, 0.0051],
       device='cuda:1'), out_proj_covar=tensor([8.8865e-05, 1.3643e-04, 1.1180e-04, 1.3003e-04, 9.1474e-05, 7.8535e-05,
        1.6025e-04, 1.0174e-04], device='cuda:1')
2022-11-15 15:23:02,905 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.6577, 2.4935, 2.5693, 2.3750, 2.7513, 2.4288, 2.5964, 2.6165],
       device='cuda:1'), covar=tensor([0.0502, 0.0457, 0.0519, 0.0414, 0.0396, 0.0305, 0.0390, 0.0466],
       device='cuda:1'), in_proj_covar=tensor([0.0067, 0.0071, 0.0057, 0.0070, 0.0064, 0.0048, 0.0059, 0.0057],
       device='cuda:1'), out_proj_covar=tensor([1.4524e-04, 1.4317e-04, 1.1990e-04, 1.3964e-04, 1.4951e-04, 9.3679e-05,
        1.2121e-04, 1.2023e-04], device='cuda:1')
2022-11-15 15:23:09,874 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.5081, 1.5609, 1.1359, 1.2350, 1.4742, 1.6317, 0.8518, 1.2683],
       device='cuda:1'), covar=tensor([0.0151, 0.0078, 0.0160, 0.0104, 0.0088, 0.0129, 0.0216, 0.0378],
       device='cuda:1'), in_proj_covar=tensor([0.0022, 0.0021, 0.0020, 0.0021, 0.0019, 0.0020, 0.0023, 0.0020],
       device='cuda:1'), out_proj_covar=tensor([2.8960e-05, 2.8574e-05, 3.1375e-05, 2.5405e-05, 2.6994e-05, 2.7623e-05,
        3.7765e-05, 2.9230e-05], device='cuda:1')
2022-11-15 15:23:12,907 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=4.59 vs. limit=5.0
2022-11-15 15:23:16,534 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=4.68 vs. limit=5.0
2022-11-15 15:23:22,335 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.5495, 1.6816, 1.7785, 1.8932, 1.2847, 1.7675, 1.2883, 1.8286],
       device='cuda:1'), covar=tensor([0.0770, 0.0267, 0.0359, 0.0191, 0.0532, 0.0499, 0.1000, 0.0180],
       device='cuda:1'), in_proj_covar=tensor([0.0167, 0.0097, 0.0125, 0.0085, 0.0105, 0.0144, 0.0181, 0.0088],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0001, 0.0002, 0.0001, 0.0001, 0.0002, 0.0002, 0.0001],
       device='cuda:1')
2022-11-15 15:23:25,747 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=11065.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 15:23:31,379 INFO [train.py:876] (1/4) Epoch 2, batch 3800, loss[loss=0.226, simple_loss=0.2038, pruned_loss=0.1241, over 5503.00 frames. ], tot_loss[loss=0.2539, simple_loss=0.2262, pruned_loss=0.1408, over 1088734.42 frames. ], batch size: 10, lr: 3.15e-02, grad_scale: 16.0
2022-11-15 15:23:45,110 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=1.97 vs. limit=2.0
2022-11-15 15:23:50,503 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=11100.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 15:23:54,058 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 9.988e+01 2.162e+02 2.820e+02 3.661e+02 7.630e+02, threshold=5.641e+02, percent-clipped=4.0
2022-11-15 15:23:57,609 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=11110.0, num_to_drop=1, layers_to_drop={1}
2022-11-15 15:23:59,574 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=11113.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 15:24:11,507 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=11130.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 15:24:24,953 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=2.01 vs. limit=2.0
2022-11-15 15:24:31,160 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=11158.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 15:24:37,089 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([4.0614, 4.9796, 4.3311, 5.2139, 5.1274, 4.3726, 4.4661, 4.2286],
       device='cuda:1'), covar=tensor([0.0237, 0.0528, 0.0573, 0.0334, 0.0347, 0.0475, 0.0337, 0.0299],
       device='cuda:1'), in_proj_covar=tensor([0.0058, 0.0058, 0.0079, 0.0059, 0.0074, 0.0074, 0.0063, 0.0055],
       device='cuda:1'), out_proj_covar=tensor([1.0772e-04, 1.1721e-04, 1.3758e-04, 1.1473e-04, 1.4761e-04, 1.2713e-04,
        1.1107e-04, 9.5869e-05], device='cuda:1')
2022-11-15 15:24:37,203 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.2458, 3.3919, 3.0715, 1.1254, 3.5518, 3.7582, 3.2696, 4.2431],
       device='cuda:1'), covar=tensor([0.0906, 0.0313, 0.0274, 0.1041, 0.0053, 0.0085, 0.0105, 0.0084],
       device='cuda:1'), in_proj_covar=tensor([0.0120, 0.0099, 0.0072, 0.0118, 0.0064, 0.0063, 0.0061, 0.0072],
       device='cuda:1'), out_proj_covar=tensor([1.6474e-04, 1.3210e-04, 1.0663e-04, 1.6013e-04, 8.7577e-05, 8.5763e-05,
        8.4557e-05, 9.2686e-05], device='cuda:1')
2022-11-15 15:24:41,931 INFO [train.py:876] (1/4) Epoch 2, batch 3900, loss[loss=0.2173, simple_loss=0.2059, pruned_loss=0.1143, over 5753.00 frames. ], tot_loss[loss=0.2496, simple_loss=0.2227, pruned_loss=0.1382, over 1080005.50 frames. ], batch size: 13, lr: 3.13e-02, grad_scale: 16.0
2022-11-15 15:24:42,729 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=11174.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 15:25:04,797 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.114e+02 2.353e+02 2.852e+02 3.627e+02 7.008e+02, threshold=5.704e+02, percent-clipped=3.0
2022-11-15 15:25:08,285 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.9049, 2.2256, 3.9278, 2.7066, 3.8265, 2.9989, 3.9870, 3.9918],
       device='cuda:1'), covar=tensor([0.0042, 0.0579, 0.0089, 0.0508, 0.0057, 0.0364, 0.0139, 0.0123],
       device='cuda:1'), in_proj_covar=tensor([0.0070, 0.0142, 0.0087, 0.0144, 0.0078, 0.0127, 0.0115, 0.0093],
       device='cuda:1'), out_proj_covar=tensor([0.0001, 0.0002, 0.0001, 0.0002, 0.0001, 0.0002, 0.0002, 0.0001],
       device='cuda:1')
2022-11-15 15:25:26,705 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.2728, 1.8226, 3.3359, 2.4730, 3.1475, 2.5425, 3.2249, 3.3488],
       device='cuda:1'), covar=tensor([0.0045, 0.0583, 0.0118, 0.0408, 0.0104, 0.0344, 0.0179, 0.0162],
       device='cuda:1'), in_proj_covar=tensor([0.0069, 0.0141, 0.0086, 0.0141, 0.0077, 0.0125, 0.0114, 0.0092],
       device='cuda:1'), out_proj_covar=tensor([0.0001, 0.0002, 0.0001, 0.0002, 0.0001, 0.0002, 0.0002, 0.0001],
       device='cuda:1')
2022-11-15 15:25:27,373 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=11235.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 15:25:31,459 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=11241.0, num_to_drop=1, layers_to_drop={3}
2022-11-15 15:25:33,641 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.9567, 2.2603, 1.8094, 1.4482, 2.2923, 1.0590, 2.3659, 1.4180],
       device='cuda:1'), covar=tensor([0.0534, 0.0165, 0.0328, 0.1236, 0.0179, 0.1271, 0.0129, 0.1050],
       device='cuda:1'), in_proj_covar=tensor([0.0097, 0.0059, 0.0055, 0.0097, 0.0062, 0.0097, 0.0049, 0.0097],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0001, 0.0001, 0.0002, 0.0001, 0.0002, 0.0001, 0.0002],
       device='cuda:1')
2022-11-15 15:25:54,056 INFO [train.py:876] (1/4) Epoch 2, batch 4000, loss[loss=0.2577, simple_loss=0.225, pruned_loss=0.1452, over 5270.00 frames. ], tot_loss[loss=0.2494, simple_loss=0.2228, pruned_loss=0.138, over 1079027.11 frames. ], batch size: 79, lr: 3.12e-02, grad_scale: 16.0
2022-11-15 15:26:14,204 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=2.05 vs. limit=2.0
2022-11-15 15:26:16,541 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.259e+02 2.176e+02 2.940e+02 3.819e+02 6.622e+02, threshold=5.880e+02, percent-clipped=2.0
2022-11-15 15:26:31,059 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.4363, 1.9566, 1.1833, 1.7739, 0.6862, 1.2637, 1.6298, 1.0398],
       device='cuda:1'), covar=tensor([0.0176, 0.0092, 0.0138, 0.0179, 0.0505, 0.0455, 0.0488, 0.0227],
       device='cuda:1'), in_proj_covar=tensor([0.0021, 0.0019, 0.0022, 0.0022, 0.0023, 0.0017, 0.0020, 0.0021],
       device='cuda:1'), out_proj_covar=tensor([3.3056e-05, 2.7138e-05, 2.8967e-05, 3.3786e-05, 3.8112e-05, 2.9828e-05,
        3.2052e-05, 3.1458e-05], device='cuda:1')
2022-11-15 15:26:55,633 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=1.98 vs. limit=2.0
2022-11-15 15:27:04,371 INFO [train.py:876] (1/4) Epoch 2, batch 4100, loss[loss=0.2331, simple_loss=0.2136, pruned_loss=0.1263, over 5778.00 frames. ], tot_loss[loss=0.2473, simple_loss=0.221, pruned_loss=0.1368, over 1080601.76 frames. ], batch size: 21, lr: 3.11e-02, grad_scale: 16.0
2022-11-15 15:27:24,547 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=11400.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 15:27:27,789 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.046e+02 2.309e+02 2.774e+02 3.508e+02 5.775e+02, threshold=5.548e+02, percent-clipped=0.0
2022-11-15 15:27:33,712 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.98 vs. limit=2.0
2022-11-15 15:27:35,433 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.7196, 4.8312, 3.9922, 4.7468, 4.7692, 4.0245, 3.8840, 3.6030],
       device='cuda:1'), covar=tensor([0.0274, 0.0312, 0.0617, 0.0367, 0.0401, 0.0460, 0.0292, 0.0923],
       device='cuda:1'), in_proj_covar=tensor([0.0059, 0.0064, 0.0082, 0.0060, 0.0077, 0.0074, 0.0064, 0.0057],
       device='cuda:1'), out_proj_covar=tensor([1.1072e-04, 1.3026e-04, 1.4363e-04, 1.1667e-04, 1.5214e-04, 1.2681e-04,
        1.1423e-04, 9.9885e-05], device='cuda:1')
2022-11-15 15:27:43,457 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=5.35 vs. limit=5.0
2022-11-15 15:27:46,235 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=11430.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 15:27:48,464 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.91 vs. limit=2.0
2022-11-15 15:27:58,771 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=11448.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 15:28:16,211 INFO [train.py:876] (1/4) Epoch 2, batch 4200, loss[loss=0.2123, simple_loss=0.2078, pruned_loss=0.1084, over 5763.00 frames. ], tot_loss[loss=0.2451, simple_loss=0.22, pruned_loss=0.1351, over 1079277.27 frames. ], batch size: 16, lr: 3.10e-02, grad_scale: 16.0
2022-11-15 15:28:19,835 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=11478.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 15:28:39,537 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.267e+02 2.116e+02 2.605e+02 3.416e+02 5.601e+02, threshold=5.209e+02, percent-clipped=1.0
2022-11-15 15:28:48,087 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.8600, 1.7030, 3.5337, 2.5689, 3.3999, 2.3143, 3.4802, 3.8200],
       device='cuda:1'), covar=tensor([0.0046, 0.0506, 0.0093, 0.0414, 0.0064, 0.0370, 0.0170, 0.0089],
       device='cuda:1'), in_proj_covar=tensor([0.0073, 0.0142, 0.0091, 0.0147, 0.0079, 0.0129, 0.0124, 0.0092],
       device='cuda:1'), out_proj_covar=tensor([0.0001, 0.0002, 0.0001, 0.0002, 0.0001, 0.0002, 0.0002, 0.0001],
       device='cuda:1')
2022-11-15 15:28:56,843 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=11530.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 15:28:58,335 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=11532.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 15:29:04,730 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=11541.0, num_to_drop=1, layers_to_drop={0}
2022-11-15 15:29:17,239 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.2630, 3.8432, 3.1229, 3.2463, 2.3737, 3.6921, 2.8954, 3.6410],
       device='cuda:1'), covar=tensor([0.0244, 0.0050, 0.0086, 0.0106, 0.0255, 0.0041, 0.0143, 0.0025],
       device='cuda:1'), in_proj_covar=tensor([0.0096, 0.0052, 0.0063, 0.0057, 0.0102, 0.0059, 0.0080, 0.0049],
       device='cuda:1'), out_proj_covar=tensor([1.4057e-04, 8.0649e-05, 9.4735e-05, 9.6515e-05, 1.6245e-04, 8.5002e-05,
        1.2253e-04, 7.2027e-05], device='cuda:1')
2022-11-15 15:29:27,548 INFO [train.py:876] (1/4) Epoch 2, batch 4300, loss[loss=0.2856, simple_loss=0.2465, pruned_loss=0.1624, over 5499.00 frames. ], tot_loss[loss=0.2449, simple_loss=0.2208, pruned_loss=0.1345, over 1089002.28 frames. ], batch size: 49, lr: 3.09e-02, grad_scale: 16.0
2022-11-15 15:29:34,058 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([0.9594, 1.3401, 0.9899, 1.2913, 1.2302, 0.8140, 0.6515, 1.2085],
       device='cuda:1'), covar=tensor([0.0052, 0.0048, 0.0097, 0.0028, 0.0115, 0.0090, 0.0157, 0.0093],
       device='cuda:1'), in_proj_covar=tensor([0.0019, 0.0019, 0.0019, 0.0018, 0.0018, 0.0018, 0.0019, 0.0017],
       device='cuda:1'), out_proj_covar=tensor([2.5483e-05, 2.5890e-05, 3.0119e-05, 2.2368e-05, 2.5837e-05, 2.4685e-05,
        3.3953e-05, 2.5358e-05], device='cuda:1')
2022-11-15 15:29:36,779 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.3259, 2.9378, 2.0922, 1.6054, 2.9328, 1.1993, 2.8626, 1.6468],
       device='cuda:1'), covar=tensor([0.0670, 0.0159, 0.0495, 0.1654, 0.0155, 0.1427, 0.0159, 0.1268],
       device='cuda:1'), in_proj_covar=tensor([0.0097, 0.0061, 0.0058, 0.0097, 0.0060, 0.0100, 0.0050, 0.0095],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0001, 0.0001, 0.0002, 0.0001, 0.0002, 0.0001, 0.0002],
       device='cuda:1')
2022-11-15 15:29:38,724 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=11589.0, num_to_drop=1, layers_to_drop={1}
2022-11-15 15:29:41,468 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=11593.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 15:29:51,940 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.207e+02 2.389e+02 3.097e+02 3.751e+02 1.482e+03, threshold=6.195e+02, percent-clipped=9.0
2022-11-15 15:29:55,724 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=4.70 vs. limit=5.0
2022-11-15 15:30:11,790 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=11635.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 15:30:31,719 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.52 vs. limit=2.0
2022-11-15 15:30:39,153 INFO [train.py:876] (1/4) Epoch 2, batch 4400, loss[loss=0.2256, simple_loss=0.2108, pruned_loss=0.1202, over 5765.00 frames. ], tot_loss[loss=0.2434, simple_loss=0.2199, pruned_loss=0.1334, over 1090463.65 frames. ], batch size: 27, lr: 3.08e-02, grad_scale: 8.0
2022-11-15 15:30:55,187 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=11696.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 15:30:57,341 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=11699.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 15:31:02,564 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.242e+02 2.298e+02 2.735e+02 3.598e+02 7.155e+02, threshold=5.470e+02, percent-clipped=1.0
2022-11-15 15:31:16,606 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.4380, 1.7732, 3.2041, 2.5978, 3.1274, 2.3435, 2.9947, 3.5099],
       device='cuda:1'), covar=tensor([0.0056, 0.0534, 0.0095, 0.0325, 0.0084, 0.0357, 0.0195, 0.0085],
       device='cuda:1'), in_proj_covar=tensor([0.0072, 0.0149, 0.0093, 0.0146, 0.0082, 0.0133, 0.0125, 0.0096],
       device='cuda:1'), out_proj_covar=tensor([0.0001, 0.0002, 0.0001, 0.0002, 0.0001, 0.0002, 0.0002, 0.0001],
       device='cuda:1')
2022-11-15 15:31:40,413 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=11760.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 15:31:45,662 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=2.06 vs. limit=2.0
2022-11-15 15:31:49,953 INFO [train.py:876] (1/4) Epoch 2, batch 4500, loss[loss=0.2353, simple_loss=0.2252, pruned_loss=0.1227, over 5744.00 frames. ], tot_loss[loss=0.2448, simple_loss=0.2208, pruned_loss=0.1344, over 1088781.19 frames. ], batch size: 16, lr: 3.07e-02, grad_scale: 8.0
2022-11-15 15:32:13,965 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.306e+02 2.368e+02 2.947e+02 3.819e+02 5.858e+02, threshold=5.894e+02, percent-clipped=4.0
2022-11-15 15:32:20,981 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=11816.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 15:32:31,010 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=11830.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 15:32:41,978 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=11846.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 15:33:01,638 INFO [train.py:876] (1/4) Epoch 2, batch 4600, loss[loss=0.252, simple_loss=0.2085, pruned_loss=0.1477, over 4062.00 frames. ], tot_loss[loss=0.2473, simple_loss=0.2221, pruned_loss=0.1362, over 1087315.34 frames. ], batch size: 181, lr: 3.05e-02, grad_scale: 8.0
2022-11-15 15:33:04,585 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=11877.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 15:33:05,516 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=11878.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 15:33:12,414 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=11888.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 15:33:25,411 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.212e+02 2.171e+02 2.900e+02 3.774e+02 7.017e+02, threshold=5.800e+02, percent-clipped=1.0
2022-11-15 15:33:25,622 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=11907.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 15:33:34,968 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=11920.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 15:33:54,825 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=11948.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 15:34:11,329 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=2.04 vs. limit=2.0
2022-11-15 15:34:12,183 INFO [train.py:876] (1/4) Epoch 2, batch 4700, loss[loss=0.1885, simple_loss=0.1729, pruned_loss=0.102, over 5483.00 frames. ], tot_loss[loss=0.2464, simple_loss=0.2212, pruned_loss=0.1358, over 1084534.94 frames. ], batch size: 10, lr: 3.04e-02, grad_scale: 8.0
2022-11-15 15:34:18,285 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=11981.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 15:34:20,687 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=11984.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 15:34:25,390 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=11991.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 15:34:36,941 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.194e+02 2.107e+02 2.730e+02 3.355e+02 8.347e+02, threshold=5.461e+02, percent-clipped=3.0
2022-11-15 15:34:38,485 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.3793, 1.8235, 1.4828, 1.9725, 1.0325, 1.2433, 1.2320, 1.5660],
       device='cuda:1'), covar=tensor([0.0128, 0.0153, 0.0291, 0.0121, 0.0218, 0.0257, 0.0230, 0.0386],
       device='cuda:1'), in_proj_covar=tensor([0.0030, 0.0034, 0.0040, 0.0028, 0.0039, 0.0034, 0.0040, 0.0027],
       device='cuda:1'), out_proj_covar=tensor([5.2286e-05, 5.9415e-05, 7.9510e-05, 5.2564e-05, 7.2967e-05, 6.7666e-05,
        7.3361e-05, 5.0829e-05], device='cuda:1')
2022-11-15 15:34:38,513 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=12009.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 15:34:47,514 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([0.2880, 1.1234, 0.6476, 0.9008, 0.3440, 1.1380, 1.0177, 0.5343],
       device='cuda:1'), covar=tensor([0.0208, 0.0073, 0.0186, 0.0103, 0.0436, 0.0049, 0.0244, 0.0216],
       device='cuda:1'), in_proj_covar=tensor([0.0028, 0.0025, 0.0028, 0.0029, 0.0028, 0.0023, 0.0025, 0.0028],
       device='cuda:1'), out_proj_covar=tensor([4.3042e-05, 3.5672e-05, 3.9837e-05, 4.4034e-05, 4.8612e-05, 3.8399e-05,
        3.9428e-05, 4.2732e-05], device='cuda:1')
2022-11-15 15:35:04,522 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=12045.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 15:35:11,919 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=12055.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 15:35:20,331 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=7.69 vs. limit=5.0
2022-11-15 15:35:24,087 INFO [train.py:876] (1/4) Epoch 2, batch 4800, loss[loss=0.2681, simple_loss=0.244, pruned_loss=0.1461, over 5603.00 frames. ], tot_loss[loss=0.2471, simple_loss=0.2212, pruned_loss=0.1365, over 1082025.44 frames. ], batch size: 38, lr: 3.03e-02, grad_scale: 8.0
2022-11-15 15:35:26,311 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=12076.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 15:35:48,825 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.190e+02 2.296e+02 2.933e+02 3.523e+02 8.613e+02, threshold=5.866e+02, percent-clipped=4.0
2022-11-15 15:35:55,087 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([0.9634, 0.9589, 1.0096, 0.4982, 1.3141, 1.2105, 1.0352, 0.8508],
       device='cuda:1'), covar=tensor([0.1604, 0.0339, 0.0551, 0.1672, 0.0662, 0.0344, 0.0507, 0.0605],
       device='cuda:1'), in_proj_covar=tensor([0.0011, 0.0012, 0.0010, 0.0013, 0.0010, 0.0010, 0.0012, 0.0010],
       device='cuda:1'), out_proj_covar=tensor([2.3535e-05, 2.2472e-05, 2.3237e-05, 2.9001e-05, 2.1730e-05, 2.1170e-05,
        2.5385e-05, 2.1574e-05], device='cuda:1')
2022-11-15 15:36:09,331 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=12137.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 15:36:24,482 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=6.60 vs. limit=5.0
2022-11-15 15:36:34,720 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=12172.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 15:36:35,355 INFO [train.py:876] (1/4) Epoch 2, batch 4900, loss[loss=0.2473, simple_loss=0.2289, pruned_loss=0.1328, over 5499.00 frames. ], tot_loss[loss=0.2447, simple_loss=0.2202, pruned_loss=0.1346, over 1081556.28 frames. ], batch size: 12, lr: 3.02e-02, grad_scale: 8.0
2022-11-15 15:36:37,506 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.8299, 2.0809, 1.5384, 2.2964, 1.1206, 1.7729, 1.1553, 1.1387],
       device='cuda:1'), covar=tensor([0.0125, 0.0257, 0.0347, 0.0201, 0.0253, 0.0344, 0.0248, 0.1892],
       device='cuda:1'), in_proj_covar=tensor([0.0029, 0.0034, 0.0039, 0.0027, 0.0039, 0.0035, 0.0039, 0.0028],
       device='cuda:1'), out_proj_covar=tensor([5.0410e-05, 6.0292e-05, 7.8657e-05, 5.0001e-05, 7.2268e-05, 7.0859e-05,
        7.1777e-05, 5.3032e-05], device='cuda:1')
2022-11-15 15:36:41,861 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=2.70 vs. limit=2.0
2022-11-15 15:36:45,794 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=12188.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 15:36:55,619 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=12202.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 15:36:57,979 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=2.83 vs. limit=2.0
2022-11-15 15:36:59,038 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.339e+02 2.288e+02 2.922e+02 4.193e+02 1.035e+03, threshold=5.844e+02, percent-clipped=8.0
2022-11-15 15:37:02,693 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.5667, 1.8608, 3.5565, 2.6494, 3.6931, 2.6126, 3.5445, 3.7010],
       device='cuda:1'), covar=tensor([0.0066, 0.0758, 0.0118, 0.0492, 0.0056, 0.0487, 0.0246, 0.0103],
       device='cuda:1'), in_proj_covar=tensor([0.0074, 0.0148, 0.0093, 0.0154, 0.0083, 0.0137, 0.0129, 0.0098],
       device='cuda:1'), out_proj_covar=tensor([0.0001, 0.0002, 0.0001, 0.0002, 0.0001, 0.0002, 0.0002, 0.0002],
       device='cuda:1')
2022-11-15 15:37:20,201 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=12236.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 15:37:46,254 INFO [train.py:876] (1/4) Epoch 2, batch 5000, loss[loss=0.2886, simple_loss=0.2549, pruned_loss=0.1611, over 5752.00 frames. ], tot_loss[loss=0.2451, simple_loss=0.221, pruned_loss=0.1345, over 1084343.74 frames. ], batch size: 27, lr: 3.01e-02, grad_scale: 8.0
2022-11-15 15:37:48,755 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=12276.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 15:37:59,291 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=12291.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 15:38:08,025 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=12304.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 15:38:09,979 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.089e+02 2.107e+02 2.700e+02 3.490e+02 8.758e+02, threshold=5.401e+02, percent-clipped=1.0
2022-11-15 15:38:12,827 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([4.2361, 4.4334, 4.2129, 4.5235, 3.8128, 3.2249, 4.8680, 4.0841],
       device='cuda:1'), covar=tensor([0.0346, 0.0582, 0.0337, 0.0463, 0.0593, 0.0353, 0.0521, 0.0428],
       device='cuda:1'), in_proj_covar=tensor([0.0049, 0.0072, 0.0060, 0.0070, 0.0048, 0.0040, 0.0077, 0.0053],
       device='cuda:1'), out_proj_covar=tensor([1.0251e-04, 1.5177e-04, 1.2489e-04, 1.4510e-04, 1.0438e-04, 8.5408e-05,
        1.7985e-04, 1.1113e-04], device='cuda:1')
2022-11-15 15:38:32,897 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=12339.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 15:38:33,578 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=12340.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 15:38:43,946 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=12355.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 15:38:51,178 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=1.98 vs. limit=2.0
2022-11-15 15:38:51,812 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=2.07 vs. limit=2.0
2022-11-15 15:38:56,191 INFO [train.py:876] (1/4) Epoch 2, batch 5100, loss[loss=0.2312, simple_loss=0.2179, pruned_loss=0.1223, over 5751.00 frames. ], tot_loss[loss=0.2474, simple_loss=0.2226, pruned_loss=0.136, over 1085449.04 frames. ], batch size: 27, lr: 3.00e-02, grad_scale: 8.0
2022-11-15 15:38:58,282 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.88 vs. limit=2.0
2022-11-15 15:39:17,688 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=12403.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 15:39:20,361 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.099e+02 2.363e+02 2.989e+02 3.735e+02 9.189e+02, threshold=5.978e+02, percent-clipped=6.0
2022-11-15 15:39:38,299 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=12432.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 15:39:48,219 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=12446.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 15:39:53,524 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.0878, 1.8692, 1.5602, 1.5102, 0.8792, 1.4703, 1.4252, 1.3010],
       device='cuda:1'), covar=tensor([0.0234, 0.0324, 0.0352, 0.0444, 0.0501, 0.0410, 0.0272, 0.0631],
       device='cuda:1'), in_proj_covar=tensor([0.0032, 0.0034, 0.0041, 0.0030, 0.0043, 0.0036, 0.0042, 0.0028],
       device='cuda:1'), out_proj_covar=tensor([5.6197e-05, 6.2748e-05, 8.4801e-05, 5.5630e-05, 8.0527e-05, 7.6406e-05,
        7.6915e-05, 5.2994e-05], device='cuda:1')
2022-11-15 15:40:05,739 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=12472.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 15:40:06,293 INFO [train.py:876] (1/4) Epoch 2, batch 5200, loss[loss=0.1859, simple_loss=0.1819, pruned_loss=0.0949, over 5460.00 frames. ], tot_loss[loss=0.2468, simple_loss=0.2225, pruned_loss=0.1356, over 1089649.12 frames. ], batch size: 11, lr: 2.99e-02, grad_scale: 8.0
2022-11-15 15:40:15,540 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([0.4875, 0.8895, 1.0573, 0.7220, 1.1676, 1.5899, 1.1121, 0.9832],
       device='cuda:1'), covar=tensor([0.2173, 0.0310, 0.0604, 0.0933, 0.0925, 0.0418, 0.0315, 0.0778],
       device='cuda:1'), in_proj_covar=tensor([0.0011, 0.0011, 0.0009, 0.0012, 0.0010, 0.0010, 0.0012, 0.0010],
       device='cuda:1'), out_proj_covar=tensor([2.2518e-05, 2.1460e-05, 2.2454e-05, 2.7506e-05, 2.1941e-05, 2.0773e-05,
        2.5502e-05, 2.0662e-05], device='cuda:1')
2022-11-15 15:40:27,642 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=12502.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 15:40:30,896 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.236e+02 2.247e+02 2.853e+02 3.509e+02 7.106e+02, threshold=5.707e+02, percent-clipped=3.0
2022-11-15 15:40:31,105 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=12507.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 15:40:39,937 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=12520.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 15:41:00,565 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.3492, 2.5392, 2.3120, 2.2906, 2.2581, 2.4393, 1.1014, 2.3745],
       device='cuda:1'), covar=tensor([0.0295, 0.0268, 0.0208, 0.0245, 0.0285, 0.0246, 0.1966, 0.0299],
       device='cuda:1'), in_proj_covar=tensor([0.0063, 0.0050, 0.0050, 0.0041, 0.0056, 0.0045, 0.0099, 0.0062],
       device='cuda:1'), out_proj_covar=tensor([1.2452e-04, 9.6363e-05, 9.7060e-05, 8.0313e-05, 1.0764e-04, 9.1238e-05,
        1.7605e-04, 1.1981e-04], device='cuda:1')
2022-11-15 15:41:01,893 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=12550.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 15:41:17,841 INFO [train.py:876] (1/4) Epoch 2, batch 5300, loss[loss=0.1999, simple_loss=0.2041, pruned_loss=0.0978, over 5752.00 frames. ], tot_loss[loss=0.2495, simple_loss=0.224, pruned_loss=0.1375, over 1085165.27 frames. ], batch size: 16, lr: 2.98e-02, grad_scale: 8.0
2022-11-15 15:41:20,134 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=12576.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 15:41:40,309 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=12604.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 15:41:42,528 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.253e+02 2.286e+02 2.922e+02 3.556e+02 5.667e+02, threshold=5.844e+02, percent-clipped=0.0
2022-11-15 15:41:45,721 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=2.13 vs. limit=2.0
2022-11-15 15:41:54,447 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=12624.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 15:42:05,324 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=12640.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 15:42:13,761 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=12652.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 15:42:15,666 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.3683, 1.0737, 1.3603, 0.9035, 1.3141, 1.1097, 0.7708, 1.0741],
       device='cuda:1'), covar=tensor([0.0089, 0.0047, 0.0052, 0.0048, 0.0031, 0.0037, 0.0098, 0.0092],
       device='cuda:1'), in_proj_covar=tensor([0.0023, 0.0023, 0.0021, 0.0021, 0.0020, 0.0021, 0.0022, 0.0020],
       device='cuda:1'), out_proj_covar=tensor([3.0688e-05, 3.3002e-05, 3.2410e-05, 2.5775e-05, 2.7394e-05, 2.7042e-05,
        3.8533e-05, 2.9747e-05], device='cuda:1')
2022-11-15 15:42:29,012 INFO [train.py:876] (1/4) Epoch 2, batch 5400, loss[loss=0.2821, simple_loss=0.2478, pruned_loss=0.1582, over 5554.00 frames. ], tot_loss[loss=0.2484, simple_loss=0.2236, pruned_loss=0.1366, over 1085077.88 frames. ], batch size: 40, lr: 2.97e-02, grad_scale: 8.0
2022-11-15 15:42:39,256 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=12688.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 15:42:47,284 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=5.13 vs. limit=5.0
2022-11-15 15:42:51,901 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=2.13 vs. limit=2.0
2022-11-15 15:42:52,239 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.322e+02 2.272e+02 2.868e+02 3.649e+02 6.503e+02, threshold=5.736e+02, percent-clipped=2.0
2022-11-15 15:42:54,779 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.7565, 1.9409, 1.6700, 1.7648, 1.7261, 1.8880, 0.8375, 1.8520],
       device='cuda:1'), covar=tensor([0.0264, 0.0135, 0.0226, 0.0140, 0.0259, 0.0142, 0.1568, 0.0223],
       device='cuda:1'), in_proj_covar=tensor([0.0064, 0.0051, 0.0052, 0.0042, 0.0059, 0.0046, 0.0103, 0.0064],
       device='cuda:1'), out_proj_covar=tensor([1.2809e-04, 9.8096e-05, 1.0041e-04, 8.0536e-05, 1.1406e-04, 9.3771e-05,
        1.8308e-04, 1.2520e-04], device='cuda:1')
2022-11-15 15:43:09,608 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([0.9158, 1.8615, 1.3432, 1.4507, 0.7974, 1.5550, 1.5449, 1.0098],
       device='cuda:1'), covar=tensor([0.0213, 0.0119, 0.0152, 0.0202, 0.0674, 0.0725, 0.0175, 0.0241],
       device='cuda:1'), in_proj_covar=tensor([0.0028, 0.0024, 0.0027, 0.0029, 0.0027, 0.0024, 0.0024, 0.0026],
       device='cuda:1'), out_proj_covar=tensor([4.4139e-05, 3.3519e-05, 3.9552e-05, 4.4124e-05, 4.7024e-05, 3.9624e-05,
        3.8991e-05, 4.0329e-05], device='cuda:1')
2022-11-15 15:43:10,912 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=12732.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 15:43:17,052 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([4.5088, 4.2016, 4.2644, 3.8287, 4.2545, 4.4500, 1.8649, 4.2814],
       device='cuda:1'), covar=tensor([0.0170, 0.0350, 0.0212, 0.0281, 0.0185, 0.0164, 0.2510, 0.0312],
       device='cuda:1'), in_proj_covar=tensor([0.0064, 0.0050, 0.0051, 0.0041, 0.0058, 0.0046, 0.0102, 0.0063],
       device='cuda:1'), out_proj_covar=tensor([1.2634e-04, 9.6666e-05, 9.8853e-05, 7.9298e-05, 1.1270e-04, 9.3562e-05,
        1.8080e-04, 1.2403e-04], device='cuda:1')
2022-11-15 15:43:32,318 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=12763.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 15:43:40,146 INFO [train.py:876] (1/4) Epoch 2, batch 5500, loss[loss=0.1628, simple_loss=0.1676, pruned_loss=0.07893, over 5737.00 frames. ], tot_loss[loss=0.2451, simple_loss=0.2213, pruned_loss=0.1344, over 1083859.27 frames. ], batch size: 14, lr: 2.96e-02, grad_scale: 8.0
2022-11-15 15:43:45,537 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=12780.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 15:43:52,773 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.5721, 3.9433, 3.5209, 4.0249, 4.0567, 3.4653, 3.2417, 3.3594],
       device='cuda:1'), covar=tensor([0.0572, 0.0313, 0.0503, 0.0232, 0.0225, 0.0378, 0.0339, 0.0428],
       device='cuda:1'), in_proj_covar=tensor([0.0064, 0.0070, 0.0093, 0.0066, 0.0086, 0.0084, 0.0073, 0.0064],
       device='cuda:1'), out_proj_covar=tensor([0.0001, 0.0001, 0.0002, 0.0001, 0.0002, 0.0001, 0.0001, 0.0001],
       device='cuda:1')
2022-11-15 15:43:57,592 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=5.01 vs. limit=5.0
2022-11-15 15:44:01,675 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=12802.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 15:44:05,122 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.455e+02 2.098e+02 2.585e+02 3.345e+02 6.540e+02, threshold=5.170e+02, percent-clipped=1.0
2022-11-15 15:44:08,959 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.4336, 1.8376, 2.6204, 3.5146, 3.4573, 2.5703, 2.1299, 3.5320],
       device='cuda:1'), covar=tensor([0.0058, 0.1284, 0.0754, 0.0140, 0.0100, 0.0910, 0.0879, 0.0059],
       device='cuda:1'), in_proj_covar=tensor([0.0104, 0.0195, 0.0205, 0.0115, 0.0129, 0.0217, 0.0195, 0.0103],
       device='cuda:1'), out_proj_covar=tensor([0.0001, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003, 0.0003, 0.0001],
       device='cuda:1')
2022-11-15 15:44:18,797 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=12824.0, num_to_drop=1, layers_to_drop={0}
2022-11-15 15:44:30,957 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=2.20 vs. limit=2.0
2022-11-15 15:44:45,610 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.90 vs. limit=2.0
2022-11-15 15:44:53,052 INFO [train.py:876] (1/4) Epoch 2, batch 5600, loss[loss=0.2538, simple_loss=0.2323, pruned_loss=0.1377, over 5710.00 frames. ], tot_loss[loss=0.2445, simple_loss=0.2215, pruned_loss=0.1338, over 1087953.01 frames. ], batch size: 12, lr: 2.95e-02, grad_scale: 8.0
2022-11-15 15:44:53,251 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.9255, 1.7057, 1.9922, 2.3983, 2.8610, 2.1176, 1.6560, 2.6822],
       device='cuda:1'), covar=tensor([0.0053, 0.0894, 0.0691, 0.0170, 0.0106, 0.0758, 0.0709, 0.0072],
       device='cuda:1'), in_proj_covar=tensor([0.0104, 0.0196, 0.0206, 0.0117, 0.0130, 0.0217, 0.0194, 0.0105],
       device='cuda:1'), out_proj_covar=tensor([0.0001, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003, 0.0003, 0.0001],
       device='cuda:1')
2022-11-15 15:45:17,179 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.085e+02 2.173e+02 2.659e+02 3.655e+02 7.963e+02, threshold=5.318e+02, percent-clipped=7.0
2022-11-15 15:45:54,353 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([4.2567, 4.2653, 4.3263, 4.3537, 3.7330, 3.5527, 4.7262, 3.9786],
       device='cuda:1'), covar=tensor([0.0425, 0.0627, 0.0383, 0.0537, 0.0569, 0.0393, 0.0602, 0.0491],
       device='cuda:1'), in_proj_covar=tensor([0.0049, 0.0075, 0.0060, 0.0071, 0.0049, 0.0040, 0.0077, 0.0053],
       device='cuda:1'), out_proj_covar=tensor([1.0381e-04, 1.5966e-04, 1.2796e-04, 1.5056e-04, 1.0742e-04, 8.5435e-05,
        1.8547e-04, 1.1043e-04], device='cuda:1')
2022-11-15 15:46:03,226 INFO [train.py:876] (1/4) Epoch 2, batch 5700, loss[loss=0.2573, simple_loss=0.2142, pruned_loss=0.1502, over 4968.00 frames. ], tot_loss[loss=0.2457, simple_loss=0.2217, pruned_loss=0.1349, over 1084255.74 frames. ], batch size: 109, lr: 2.94e-02, grad_scale: 8.0
2022-11-15 15:46:28,142 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.438e+02 2.403e+02 3.143e+02 3.984e+02 1.020e+03, threshold=6.287e+02, percent-clipped=10.0
2022-11-15 15:46:31,742 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.2345, 1.9611, 1.5458, 1.6315, 1.0007, 1.4072, 1.2945, 1.2697],
       device='cuda:1'), covar=tensor([0.0249, 0.0125, 0.0160, 0.0297, 0.0393, 0.1348, 0.0234, 0.0241],
       device='cuda:1'), in_proj_covar=tensor([0.0027, 0.0024, 0.0027, 0.0031, 0.0027, 0.0022, 0.0024, 0.0026],
       device='cuda:1'), out_proj_covar=tensor([4.3891e-05, 3.3612e-05, 3.8180e-05, 4.6848e-05, 4.7194e-05, 3.8986e-05,
        3.8406e-05, 4.1080e-05], device='cuda:1')
2022-11-15 15:46:44,753 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=4.62 vs. limit=5.0
2022-11-15 15:46:45,923 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=2.07 vs. limit=2.0
2022-11-15 15:47:14,319 INFO [train.py:876] (1/4) Epoch 2, batch 5800, loss[loss=0.2601, simple_loss=0.2234, pruned_loss=0.1483, over 5724.00 frames. ], tot_loss[loss=0.2462, simple_loss=0.2222, pruned_loss=0.1351, over 1092147.26 frames. ], batch size: 36, lr: 2.93e-02, grad_scale: 8.0
2022-11-15 15:47:35,092 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=13102.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 15:47:38,322 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.334e+02 2.022e+02 2.861e+02 3.567e+02 9.909e+02, threshold=5.722e+02, percent-clipped=2.0
2022-11-15 15:47:46,544 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=13119.0, num_to_drop=1, layers_to_drop={0}
2022-11-15 15:47:56,436 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=5.11 vs. limit=5.0
2022-11-15 15:48:08,275 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=13150.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 15:48:24,659 INFO [train.py:876] (1/4) Epoch 2, batch 5900, loss[loss=0.333, simple_loss=0.2686, pruned_loss=0.1987, over 2973.00 frames. ], tot_loss[loss=0.2438, simple_loss=0.2204, pruned_loss=0.1336, over 1084417.47 frames. ], batch size: 284, lr: 2.92e-02, grad_scale: 8.0
2022-11-15 15:48:49,672 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.160e+02 2.159e+02 2.799e+02 3.502e+02 4.935e+02, threshold=5.598e+02, percent-clipped=0.0
2022-11-15 15:49:29,095 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=2.12 vs. limit=2.0
2022-11-15 15:49:30,315 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([4.9149, 2.5838, 4.9091, 3.0764, 4.5121, 3.4927, 4.4331, 4.4863],
       device='cuda:1'), covar=tensor([0.0025, 0.0382, 0.0039, 0.0422, 0.0025, 0.0246, 0.0137, 0.0131],
       device='cuda:1'), in_proj_covar=tensor([0.0085, 0.0164, 0.0101, 0.0170, 0.0092, 0.0146, 0.0151, 0.0110],
       device='cuda:1'), out_proj_covar=tensor([0.0001, 0.0003, 0.0002, 0.0002, 0.0001, 0.0002, 0.0002, 0.0002],
       device='cuda:1')
2022-11-15 15:49:32,429 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.5811, 4.0041, 3.5683, 3.3062, 3.1597, 4.1724, 3.3153, 3.7788],
       device='cuda:1'), covar=tensor([0.0189, 0.0094, 0.0062, 0.0113, 0.0165, 0.0027, 0.0095, 0.0028],
       device='cuda:1'), in_proj_covar=tensor([0.0105, 0.0056, 0.0072, 0.0064, 0.0107, 0.0065, 0.0090, 0.0057],
       device='cuda:1'), out_proj_covar=tensor([1.6220e-04, 9.5781e-05, 1.1746e-04, 1.1478e-04, 1.7714e-04, 9.8833e-05,
        1.4669e-04, 9.2119e-05], device='cuda:1')
2022-11-15 15:49:36,278 INFO [train.py:876] (1/4) Epoch 2, batch 6000, loss[loss=0.2115, simple_loss=0.1992, pruned_loss=0.1119, over 5708.00 frames. ], tot_loss[loss=0.2394, simple_loss=0.2174, pruned_loss=0.1307, over 1085791.05 frames. ], batch size: 17, lr: 2.91e-02, grad_scale: 8.0
2022-11-15 15:49:36,278 INFO [train.py:899] (1/4) Computing validation loss
2022-11-15 15:49:50,111 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.6001, 2.7850, 2.8623, 1.1352, 2.9344, 3.3762, 2.7935, 3.3255],
       device='cuda:1'), covar=tensor([0.1040, 0.0497, 0.0403, 0.1154, 0.0098, 0.0098, 0.0162, 0.0103],
       device='cuda:1'), in_proj_covar=tensor([0.0132, 0.0116, 0.0086, 0.0134, 0.0081, 0.0073, 0.0072, 0.0077],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0001, 0.0002, 0.0001, 0.0001, 0.0001, 0.0001],
       device='cuda:1')
2022-11-15 15:49:54,756 INFO [train.py:908] (1/4) Epoch 2, validation: loss=0.1945, simple_loss=0.208, pruned_loss=0.09052, over 1530663.00 frames. 
2022-11-15 15:49:54,757 INFO [train.py:909] (1/4) Maximum memory allocated so far is 4576MB
2022-11-15 15:50:07,904 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.8411, 3.1272, 2.8212, 3.0529, 3.1344, 2.9529, 2.8774, 2.6981],
       device='cuda:1'), covar=tensor([0.0967, 0.0654, 0.0846, 0.0717, 0.0870, 0.0606, 0.0549, 0.0709],
       device='cuda:1'), in_proj_covar=tensor([0.0067, 0.0075, 0.0099, 0.0071, 0.0091, 0.0089, 0.0078, 0.0068],
       device='cuda:1'), out_proj_covar=tensor([0.0001, 0.0002, 0.0002, 0.0001, 0.0002, 0.0002, 0.0001, 0.0001],
       device='cuda:1')
2022-11-15 15:50:17,228 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([4.8167, 2.4810, 3.3350, 5.0142, 4.2247, 3.5989, 2.8846, 4.5987],
       device='cuda:1'), covar=tensor([0.0026, 0.1135, 0.0597, 0.0088, 0.0092, 0.0591, 0.0687, 0.0039],
       device='cuda:1'), in_proj_covar=tensor([0.0103, 0.0205, 0.0205, 0.0118, 0.0133, 0.0218, 0.0197, 0.0104],
       device='cuda:1'), out_proj_covar=tensor([0.0001, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003, 0.0003, 0.0001],
       device='cuda:1')
2022-11-15 15:50:19,048 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.409e+02 2.427e+02 3.017e+02 4.086e+02 8.174e+02, threshold=6.035e+02, percent-clipped=9.0
2022-11-15 15:50:34,745 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.4097, 1.6105, 1.5047, 1.0404, 1.8667, 1.5397, 1.1562, 1.3353],
       device='cuda:1'), covar=tensor([0.0155, 0.0060, 0.0205, 0.0037, 0.0304, 0.0047, 0.0059, 0.0229],
       device='cuda:1'), in_proj_covar=tensor([0.0019, 0.0019, 0.0017, 0.0018, 0.0017, 0.0017, 0.0018, 0.0016],
       device='cuda:1'), out_proj_covar=tensor([2.6836e-05, 2.8681e-05, 2.7258e-05, 2.1929e-05, 2.2225e-05, 2.2488e-05,
        3.2829e-05, 2.4417e-05], device='cuda:1')
2022-11-15 15:50:42,181 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.1778, 3.3252, 3.0883, 3.2956, 3.2349, 3.2839, 1.2610, 3.1865],
       device='cuda:1'), covar=tensor([0.0273, 0.0217, 0.0215, 0.0122, 0.0213, 0.0190, 0.2371, 0.0224],
       device='cuda:1'), in_proj_covar=tensor([0.0067, 0.0053, 0.0052, 0.0041, 0.0059, 0.0045, 0.0104, 0.0066],
       device='cuda:1'), out_proj_covar=tensor([1.3385e-04, 1.0634e-04, 1.0256e-04, 8.1086e-05, 1.1662e-04, 9.1801e-05,
        1.8641e-04, 1.2941e-04], device='cuda:1')
2022-11-15 15:50:54,289 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.9462, 2.4937, 3.1489, 1.1059, 2.6816, 3.4703, 3.1099, 3.1309],
       device='cuda:1'), covar=tensor([0.0661, 0.0426, 0.0162, 0.0783, 0.0087, 0.0072, 0.0085, 0.0066],
       device='cuda:1'), in_proj_covar=tensor([0.0129, 0.0116, 0.0083, 0.0133, 0.0081, 0.0072, 0.0071, 0.0077],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0001, 0.0002, 0.0001, 0.0001, 0.0001, 0.0001],
       device='cuda:1')
2022-11-15 15:50:57,811 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.2154, 0.9515, 1.1819, 0.9519, 1.5507, 1.4089, 0.7933, 1.2405],
       device='cuda:1'), covar=tensor([0.0062, 0.0073, 0.0091, 0.0061, 0.0158, 0.0179, 0.0091, 0.0211],
       device='cuda:1'), in_proj_covar=tensor([0.0020, 0.0020, 0.0017, 0.0019, 0.0018, 0.0017, 0.0019, 0.0017],
       device='cuda:1'), out_proj_covar=tensor([2.7830e-05, 2.9135e-05, 2.7711e-05, 2.2619e-05, 2.3561e-05, 2.3105e-05,
        3.3769e-05, 2.5207e-05], device='cuda:1')
2022-11-15 15:51:06,258 INFO [train.py:876] (1/4) Epoch 2, batch 6100, loss[loss=0.2294, simple_loss=0.2001, pruned_loss=0.1294, over 4750.00 frames. ], tot_loss[loss=0.2421, simple_loss=0.2187, pruned_loss=0.1328, over 1087122.71 frames. ], batch size: 135, lr: 2.90e-02, grad_scale: 8.0
2022-11-15 15:51:08,403 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([4.3771, 4.7151, 4.7541, 4.7011, 4.0796, 3.6545, 5.2237, 4.2914],
       device='cuda:1'), covar=tensor([0.0356, 0.0477, 0.0204, 0.0485, 0.0298, 0.0258, 0.0390, 0.0267],
       device='cuda:1'), in_proj_covar=tensor([0.0051, 0.0075, 0.0060, 0.0069, 0.0049, 0.0043, 0.0079, 0.0053],
       device='cuda:1'), out_proj_covar=tensor([1.1093e-04, 1.5899e-04, 1.3024e-04, 1.4742e-04, 1.0818e-04, 9.0944e-05,
        1.9030e-04, 1.1217e-04], device='cuda:1')
2022-11-15 15:51:15,100 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.78 vs. limit=2.0
2022-11-15 15:51:29,934 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.327e+02 2.166e+02 2.663e+02 3.329e+02 7.571e+02, threshold=5.325e+02, percent-clipped=1.0
2022-11-15 15:51:30,384 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=4.70 vs. limit=5.0
2022-11-15 15:51:38,752 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=13419.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 15:51:57,257 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.2806, 4.0852, 3.7975, 3.5329, 2.7694, 4.0899, 3.1285, 3.7048],
       device='cuda:1'), covar=tensor([0.0172, 0.0034, 0.0063, 0.0098, 0.0178, 0.0024, 0.0093, 0.0021],
       device='cuda:1'), in_proj_covar=tensor([0.0108, 0.0057, 0.0076, 0.0068, 0.0112, 0.0067, 0.0093, 0.0060],
       device='cuda:1'), out_proj_covar=tensor([1.6659e-04, 9.9434e-05, 1.2434e-04, 1.2119e-04, 1.8554e-04, 1.0389e-04,
        1.5335e-04, 9.7765e-05], device='cuda:1')
2022-11-15 15:51:57,888 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.8402, 1.7999, 1.7678, 1.4131, 2.2991, 1.9404, 1.6221, 1.6832],
       device='cuda:1'), covar=tensor([0.0075, 0.0181, 0.0075, 0.0086, 0.0058, 0.0055, 0.0084, 0.0081],
       device='cuda:1'), in_proj_covar=tensor([0.0016, 0.0014, 0.0014, 0.0017, 0.0016, 0.0017, 0.0018, 0.0016],
       device='cuda:1'), out_proj_covar=tensor([2.2660e-05, 2.1696e-05, 2.2431e-05, 2.2463e-05, 2.2998e-05, 2.0888e-05,
        2.4482e-05, 2.2401e-05], device='cuda:1')
2022-11-15 15:52:12,695 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=13467.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 15:52:14,853 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=2.06 vs. limit=2.0
2022-11-15 15:52:17,514 INFO [train.py:876] (1/4) Epoch 2, batch 6200, loss[loss=0.2302, simple_loss=0.219, pruned_loss=0.1207, over 5530.00 frames. ], tot_loss[loss=0.2411, simple_loss=0.2191, pruned_loss=0.1316, over 1089951.17 frames. ], batch size: 14, lr: 2.89e-02, grad_scale: 8.0
2022-11-15 15:52:39,151 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.88 vs. limit=2.0
2022-11-15 15:52:41,225 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.148e+02 2.479e+02 3.223e+02 3.937e+02 9.344e+02, threshold=6.446e+02, percent-clipped=9.0
2022-11-15 15:53:10,379 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=1.97 vs. limit=2.0
2022-11-15 15:53:12,833 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.83 vs. limit=2.0
2022-11-15 15:53:27,903 INFO [train.py:876] (1/4) Epoch 2, batch 6300, loss[loss=0.1963, simple_loss=0.1922, pruned_loss=0.1002, over 5527.00 frames. ], tot_loss[loss=0.2401, simple_loss=0.2182, pruned_loss=0.131, over 1089445.27 frames. ], batch size: 13, lr: 2.88e-02, grad_scale: 8.0
2022-11-15 15:53:32,553 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([0.9954, 1.3695, 0.7763, 0.8100, 0.9244, 1.9838, 1.5832, 1.6633],
       device='cuda:1'), covar=tensor([0.0404, 0.0153, 0.0419, 0.0534, 0.0161, 0.0050, 0.0072, 0.0291],
       device='cuda:1'), in_proj_covar=tensor([0.0138, 0.0122, 0.0090, 0.0138, 0.0084, 0.0075, 0.0077, 0.0083],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0001, 0.0002, 0.0001, 0.0001, 0.0001, 0.0001],
       device='cuda:1')
2022-11-15 15:53:37,002 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.3597, 2.2197, 1.6798, 1.0238, 1.9030, 3.1288, 2.1148, 2.6948],
       device='cuda:1'), covar=tensor([0.0818, 0.0373, 0.0444, 0.0795, 0.0132, 0.0085, 0.0117, 0.0088],
       device='cuda:1'), in_proj_covar=tensor([0.0139, 0.0122, 0.0090, 0.0138, 0.0085, 0.0075, 0.0077, 0.0084],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0001, 0.0002, 0.0001, 0.0001, 0.0001, 0.0001],
       device='cuda:1')
2022-11-15 15:53:52,434 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.388e+02 2.381e+02 3.023e+02 3.897e+02 7.097e+02, threshold=6.046e+02, percent-clipped=2.0
2022-11-15 15:54:39,247 INFO [train.py:876] (1/4) Epoch 2, batch 6400, loss[loss=0.2264, simple_loss=0.218, pruned_loss=0.1174, over 5764.00 frames. ], tot_loss[loss=0.2405, simple_loss=0.2187, pruned_loss=0.1312, over 1091338.91 frames. ], batch size: 16, lr: 2.87e-02, grad_scale: 16.0
2022-11-15 15:55:03,887 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.329e+02 2.247e+02 2.645e+02 3.306e+02 5.348e+02, threshold=5.289e+02, percent-clipped=0.0
2022-11-15 15:55:15,819 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([4.0974, 4.7971, 4.1442, 4.7216, 4.7683, 3.9688, 4.0315, 3.9339],
       device='cuda:1'), covar=tensor([0.0249, 0.0292, 0.0654, 0.0422, 0.0317, 0.0346, 0.0367, 0.0466],
       device='cuda:1'), in_proj_covar=tensor([0.0066, 0.0075, 0.0101, 0.0072, 0.0094, 0.0089, 0.0079, 0.0070],
       device='cuda:1'), out_proj_covar=tensor([0.0001, 0.0002, 0.0002, 0.0001, 0.0002, 0.0002, 0.0001, 0.0001],
       device='cuda:1')
2022-11-15 15:55:24,658 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=13737.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 15:55:45,181 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.5037, 3.7220, 3.4742, 3.4947, 3.6560, 3.5759, 1.1570, 3.4979],
       device='cuda:1'), covar=tensor([0.0312, 0.0330, 0.0273, 0.0170, 0.0257, 0.0333, 0.2873, 0.0324],
       device='cuda:1'), in_proj_covar=tensor([0.0066, 0.0055, 0.0055, 0.0043, 0.0061, 0.0047, 0.0107, 0.0068],
       device='cuda:1'), out_proj_covar=tensor([1.3168e-04, 1.0954e-04, 1.0738e-04, 8.3041e-05, 1.2060e-04, 9.6449e-05,
        1.9153e-04, 1.3408e-04], device='cuda:1')
2022-11-15 15:55:50,602 INFO [train.py:876] (1/4) Epoch 2, batch 6500, loss[loss=0.2867, simple_loss=0.2491, pruned_loss=0.1622, over 5576.00 frames. ], tot_loss[loss=0.242, simple_loss=0.2197, pruned_loss=0.1322, over 1088558.40 frames. ], batch size: 30, lr: 2.86e-02, grad_scale: 16.0
2022-11-15 15:55:54,701 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([4.5805, 4.6389, 4.7253, 4.7362, 4.2739, 3.9107, 5.3354, 4.5067],
       device='cuda:1'), covar=tensor([0.0383, 0.0853, 0.0386, 0.0704, 0.0376, 0.0289, 0.0726, 0.0648],
       device='cuda:1'), in_proj_covar=tensor([0.0051, 0.0072, 0.0062, 0.0070, 0.0050, 0.0042, 0.0079, 0.0055],
       device='cuda:1'), out_proj_covar=tensor([1.1299e-04, 1.5618e-04, 1.3678e-04, 1.4977e-04, 1.1149e-04, 9.1656e-05,
        1.9197e-04, 1.1697e-04], device='cuda:1')
2022-11-15 15:56:09,395 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=13798.0, num_to_drop=1, layers_to_drop={0}
2022-11-15 15:56:15,578 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.258e+02 2.395e+02 2.916e+02 4.086e+02 9.118e+02, threshold=5.832e+02, percent-clipped=10.0
2022-11-15 15:56:52,820 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([4.5645, 4.7899, 4.8089, 4.8941, 4.4245, 3.7383, 5.2633, 4.4880],
       device='cuda:1'), covar=tensor([0.0241, 0.0503, 0.0214, 0.0350, 0.0237, 0.0209, 0.0380, 0.0245],
       device='cuda:1'), in_proj_covar=tensor([0.0053, 0.0073, 0.0063, 0.0072, 0.0051, 0.0044, 0.0079, 0.0055],
       device='cuda:1'), out_proj_covar=tensor([1.1555e-04, 1.5914e-04, 1.3813e-04, 1.5579e-04, 1.1376e-04, 9.6027e-05,
        1.9139e-04, 1.1876e-04], device='cuda:1')
2022-11-15 15:57:02,029 INFO [train.py:876] (1/4) Epoch 2, batch 6600, loss[loss=0.2064, simple_loss=0.1979, pruned_loss=0.1074, over 5577.00 frames. ], tot_loss[loss=0.2433, simple_loss=0.2201, pruned_loss=0.1333, over 1086361.64 frames. ], batch size: 22, lr: 2.85e-02, grad_scale: 16.0
2022-11-15 15:57:25,735 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.321e+02 2.160e+02 2.814e+02 3.632e+02 6.196e+02, threshold=5.627e+02, percent-clipped=2.0
2022-11-15 15:58:05,859 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=4.58 vs. limit=5.0
2022-11-15 15:58:12,919 INFO [train.py:876] (1/4) Epoch 2, batch 6700, loss[loss=0.3006, simple_loss=0.2562, pruned_loss=0.1726, over 5541.00 frames. ], tot_loss[loss=0.2407, simple_loss=0.2184, pruned_loss=0.1315, over 1087927.01 frames. ], batch size: 40, lr: 2.85e-02, grad_scale: 16.0
2022-11-15 15:58:36,323 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.165e+02 2.069e+02 2.722e+02 3.403e+02 5.968e+02, threshold=5.443e+02, percent-clipped=2.0
2022-11-15 15:58:46,401 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.6308, 2.4444, 1.3628, 1.1490, 0.5738, 2.2419, 1.2953, 0.9946],
       device='cuda:1'), covar=tensor([0.0146, 0.0070, 0.0133, 0.0306, 0.0667, 0.0533, 0.0221, 0.0271],
       device='cuda:1'), in_proj_covar=tensor([0.0028, 0.0023, 0.0027, 0.0030, 0.0026, 0.0022, 0.0025, 0.0027],
       device='cuda:1'), out_proj_covar=tensor([4.5564e-05, 3.1369e-05, 4.0851e-05, 4.6290e-05, 4.6349e-05, 3.7554e-05,
        3.9561e-05, 4.3253e-05], device='cuda:1')
2022-11-15 15:59:09,067 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.9691, 3.7103, 2.7781, 3.1699, 2.0236, 3.3408, 2.5371, 3.2359],
       device='cuda:1'), covar=tensor([0.0306, 0.0054, 0.0127, 0.0167, 0.0313, 0.0067, 0.0174, 0.0044],
       device='cuda:1'), in_proj_covar=tensor([0.0110, 0.0058, 0.0078, 0.0069, 0.0113, 0.0068, 0.0092, 0.0061],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0001, 0.0001, 0.0001, 0.0002, 0.0001, 0.0002, 0.0001],
       device='cuda:1')
2022-11-15 15:59:19,167 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([4.3993, 4.5697, 4.3463, 3.8948, 4.5254, 4.2578, 1.7626, 4.3990],
       device='cuda:1'), covar=tensor([0.0304, 0.0270, 0.0251, 0.0267, 0.0248, 0.0306, 0.2515, 0.0222],
       device='cuda:1'), in_proj_covar=tensor([0.0071, 0.0058, 0.0059, 0.0046, 0.0066, 0.0051, 0.0114, 0.0073],
       device='cuda:1'), out_proj_covar=tensor([1.4347e-04, 1.1461e-04, 1.1668e-04, 8.9567e-05, 1.3123e-04, 1.0526e-04,
        2.0608e-04, 1.4352e-04], device='cuda:1')
2022-11-15 15:59:23,688 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=14072.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 15:59:24,578 INFO [train.py:876] (1/4) Epoch 2, batch 6800, loss[loss=0.1822, simple_loss=0.1874, pruned_loss=0.08853, over 5740.00 frames. ], tot_loss[loss=0.24, simple_loss=0.2188, pruned_loss=0.1306, over 1090813.56 frames. ], batch size: 14, lr: 2.84e-02, grad_scale: 16.0
2022-11-15 15:59:38,918 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=14093.0, num_to_drop=1, layers_to_drop={2}
2022-11-15 15:59:42,559 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.4584, 1.6822, 3.4866, 2.3815, 3.3625, 2.2220, 3.2125, 3.5502],
       device='cuda:1'), covar=tensor([0.0059, 0.0555, 0.0088, 0.0498, 0.0099, 0.0384, 0.0210, 0.0155],
       device='cuda:1'), in_proj_covar=tensor([0.0089, 0.0160, 0.0109, 0.0170, 0.0096, 0.0147, 0.0153, 0.0117],
       device='cuda:1'), out_proj_covar=tensor([0.0001, 0.0003, 0.0002, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002],
       device='cuda:1')
2022-11-15 15:59:44,015 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=2.52 vs. limit=2.0
2022-11-15 15:59:45,927 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=14103.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 15:59:48,497 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.444e+02 2.309e+02 2.876e+02 3.823e+02 9.866e+02, threshold=5.752e+02, percent-clipped=3.0
2022-11-15 15:59:58,363 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=14120.0, num_to_drop=1, layers_to_drop={1}
2022-11-15 16:00:08,024 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=14133.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 16:00:29,250 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=14164.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 16:00:31,737 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=1.98 vs. limit=2.0
2022-11-15 16:00:35,848 INFO [train.py:876] (1/4) Epoch 2, batch 6900, loss[loss=0.2465, simple_loss=0.2157, pruned_loss=0.1386, over 5134.00 frames. ], tot_loss[loss=0.2392, simple_loss=0.2179, pruned_loss=0.1303, over 1090868.83 frames. ], batch size: 91, lr: 2.83e-02, grad_scale: 16.0
2022-11-15 16:00:41,935 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=14181.0, num_to_drop=1, layers_to_drop={2}
2022-11-15 16:01:00,101 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.482e+02 2.412e+02 3.170e+02 4.129e+02 8.263e+02, threshold=6.339e+02, percent-clipped=8.0
2022-11-15 16:01:08,498 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=5.27 vs. limit=5.0
2022-11-15 16:01:12,627 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.5092, 2.0092, 2.2046, 1.8605, 1.7298, 1.7371, 1.7223, 2.0793],
       device='cuda:1'), covar=tensor([0.0076, 0.0097, 0.0137, 0.0053, 0.0091, 0.0080, 0.0123, 0.0053],
       device='cuda:1'), in_proj_covar=tensor([0.0017, 0.0014, 0.0015, 0.0016, 0.0015, 0.0016, 0.0018, 0.0015],
       device='cuda:1'), out_proj_covar=tensor([2.4415e-05, 2.1309e-05, 2.3472e-05, 2.0712e-05, 2.1793e-05, 2.1041e-05,
        2.4184e-05, 2.1581e-05], device='cuda:1')
2022-11-15 16:01:27,396 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=4.59 vs. limit=5.0
2022-11-15 16:01:47,614 INFO [train.py:876] (1/4) Epoch 2, batch 7000, loss[loss=0.2119, simple_loss=0.1989, pruned_loss=0.1124, over 5534.00 frames. ], tot_loss[loss=0.2407, simple_loss=0.2186, pruned_loss=0.1314, over 1082555.91 frames. ], batch size: 15, lr: 2.82e-02, grad_scale: 16.0
2022-11-15 16:02:11,792 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.160e+02 2.311e+02 3.068e+02 3.846e+02 6.793e+02, threshold=6.137e+02, percent-clipped=2.0
2022-11-15 16:02:19,418 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([4.4235, 3.8144, 4.2590, 3.8860, 4.4314, 4.0311, 3.8435, 4.4542],
       device='cuda:1'), covar=tensor([0.0246, 0.0300, 0.0380, 0.0264, 0.0309, 0.0235, 0.0209, 0.0199],
       device='cuda:1'), in_proj_covar=tensor([0.0073, 0.0082, 0.0065, 0.0078, 0.0074, 0.0050, 0.0066, 0.0065],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0001, 0.0002, 0.0002, 0.0001, 0.0001, 0.0001],
       device='cuda:1')
2022-11-15 16:02:25,417 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=1.94 vs. limit=2.0
2022-11-15 16:02:58,392 INFO [train.py:876] (1/4) Epoch 2, batch 7100, loss[loss=0.2397, simple_loss=0.2142, pruned_loss=0.1325, over 5699.00 frames. ], tot_loss[loss=0.2389, simple_loss=0.2178, pruned_loss=0.13, over 1087830.30 frames. ], batch size: 28, lr: 2.81e-02, grad_scale: 16.0
2022-11-15 16:03:13,679 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=14393.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 16:03:17,828 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.2797, 1.5959, 1.5541, 1.7969, 1.4500, 1.4221, 1.1500, 2.0107],
       device='cuda:1'), covar=tensor([0.0157, 0.0252, 0.0351, 0.0215, 0.0335, 0.0214, 0.0361, 0.0192],
       device='cuda:1'), in_proj_covar=tensor([0.0035, 0.0040, 0.0045, 0.0033, 0.0049, 0.0038, 0.0046, 0.0030],
       device='cuda:1'), out_proj_covar=tensor([6.3921e-05, 7.8025e-05, 9.8137e-05, 6.5318e-05, 9.8034e-05, 8.0566e-05,
        9.0789e-05, 5.9160e-05], device='cuda:1')
2022-11-15 16:03:23,152 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=4.95 vs. limit=5.0
2022-11-15 16:03:23,297 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.146e+02 2.305e+02 2.820e+02 3.726e+02 7.277e+02, threshold=5.640e+02, percent-clipped=2.0
2022-11-15 16:03:27,738 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=14413.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 16:03:35,846 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.4869, 1.5016, 2.3065, 1.7370, 2.1841, 1.5282, 1.9521, 2.3376],
       device='cuda:1'), covar=tensor([0.0027, 0.0193, 0.0040, 0.0089, 0.0051, 0.0182, 0.0115, 0.0054],
       device='cuda:1'), in_proj_covar=tensor([0.0092, 0.0165, 0.0113, 0.0171, 0.0100, 0.0151, 0.0156, 0.0117],
       device='cuda:1'), out_proj_covar=tensor([0.0001, 0.0003, 0.0002, 0.0003, 0.0002, 0.0002, 0.0003, 0.0002],
       device='cuda:1')
2022-11-15 16:03:37,784 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=14428.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 16:03:47,210 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=14441.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 16:04:00,306 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=14459.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 16:04:09,798 INFO [train.py:876] (1/4) Epoch 2, batch 7200, loss[loss=0.1652, simple_loss=0.1682, pruned_loss=0.08112, over 5568.00 frames. ], tot_loss[loss=0.233, simple_loss=0.2139, pruned_loss=0.1261, over 1087331.04 frames. ], batch size: 15, lr: 2.80e-02, grad_scale: 16.0
2022-11-15 16:04:10,626 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=14474.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 16:04:11,846 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=14476.0, num_to_drop=1, layers_to_drop={0}
2022-11-15 16:04:19,430 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=14487.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 16:04:21,037 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.54 vs. limit=2.0
2022-11-15 16:04:33,142 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.449e+02 2.188e+02 2.926e+02 3.996e+02 7.445e+02, threshold=5.852e+02, percent-clipped=7.0
2022-11-15 16:04:38,656 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.53 vs. limit=2.0
2022-11-15 16:05:50,265 INFO [train.py:876] (1/4) Epoch 3, batch 0, loss[loss=0.2582, simple_loss=0.215, pruned_loss=0.1507, over 5301.00 frames. ], tot_loss[loss=0.2582, simple_loss=0.215, pruned_loss=0.1507, over 5301.00 frames. ], batch size: 79, lr: 2.66e-02, grad_scale: 16.0
2022-11-15 16:05:50,266 INFO [train.py:899] (1/4) Computing validation loss
2022-11-15 16:05:59,796 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.8295, 1.4849, 1.7350, 2.5492, 1.6862, 1.4663, 1.3341, 2.5530],
       device='cuda:1'), covar=tensor([0.0172, 0.0225, 0.0378, 0.0145, 0.0326, 0.0306, 0.0686, 0.0089],
       device='cuda:1'), in_proj_covar=tensor([0.0034, 0.0037, 0.0042, 0.0031, 0.0048, 0.0037, 0.0044, 0.0028],
       device='cuda:1'), out_proj_covar=tensor([6.1677e-05, 7.2798e-05, 9.3187e-05, 6.1843e-05, 9.7840e-05, 7.9605e-05,
        8.7051e-05, 5.5923e-05], device='cuda:1')
2022-11-15 16:06:07,522 INFO [train.py:908] (1/4) Epoch 3, validation: loss=0.1917, simple_loss=0.2065, pruned_loss=0.08845, over 1530663.00 frames. 
2022-11-15 16:06:07,522 INFO [train.py:909] (1/4) Maximum memory allocated so far is 4576MB
2022-11-15 16:06:09,671 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=14548.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 16:06:23,734 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.2596, 4.5003, 3.5424, 1.9300, 4.4673, 1.6521, 3.7625, 2.4435],
       device='cuda:1'), covar=tensor([0.0804, 0.0100, 0.0412, 0.2095, 0.0087, 0.1833, 0.0215, 0.1527],
       device='cuda:1'), in_proj_covar=tensor([0.0118, 0.0077, 0.0076, 0.0116, 0.0081, 0.0120, 0.0068, 0.0116],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0002, 0.0002, 0.0003, 0.0002, 0.0003, 0.0002, 0.0003],
       device='cuda:1')
2022-11-15 16:06:27,343 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.6333, 1.4690, 1.7099, 1.8601, 1.0473, 1.2914, 0.9083, 1.7814],
       device='cuda:1'), covar=tensor([0.0090, 0.0252, 0.0247, 0.0104, 0.0352, 0.0300, 0.0287, 0.0103],
       device='cuda:1'), in_proj_covar=tensor([0.0034, 0.0037, 0.0044, 0.0031, 0.0049, 0.0038, 0.0044, 0.0029],
       device='cuda:1'), out_proj_covar=tensor([6.1832e-05, 7.2721e-05, 9.6261e-05, 6.2302e-05, 9.9319e-05, 8.0382e-05,
        8.7901e-05, 5.7452e-05], device='cuda:1')
2022-11-15 16:06:52,132 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.043e+02 2.390e+02 2.831e+02 3.708e+02 1.001e+03, threshold=5.662e+02, percent-clipped=6.0
2022-11-15 16:07:09,935 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.6650, 1.6872, 3.4512, 2.3190, 3.3688, 2.5008, 2.9929, 3.6797],
       device='cuda:1'), covar=tensor([0.0073, 0.0614, 0.0139, 0.0623, 0.0106, 0.0418, 0.0354, 0.0120],
       device='cuda:1'), in_proj_covar=tensor([0.0091, 0.0158, 0.0113, 0.0168, 0.0102, 0.0147, 0.0156, 0.0119],
       device='cuda:1'), out_proj_covar=tensor([0.0001, 0.0003, 0.0002, 0.0003, 0.0002, 0.0002, 0.0003, 0.0002],
       device='cuda:1')
2022-11-15 16:07:14,830 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=4.45 vs. limit=5.0
2022-11-15 16:07:19,305 INFO [train.py:876] (1/4) Epoch 3, batch 100, loss[loss=0.2958, simple_loss=0.2562, pruned_loss=0.1677, over 5678.00 frames. ], tot_loss[loss=0.2378, simple_loss=0.2166, pruned_loss=0.1296, over 435308.41 frames. ], batch size: 34, lr: 2.65e-02, grad_scale: 16.0
2022-11-15 16:08:03,403 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.336e+02 2.280e+02 2.660e+02 3.506e+02 7.201e+02, threshold=5.320e+02, percent-clipped=1.0
2022-11-15 16:08:18,649 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=14728.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 16:08:27,263 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=14740.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 16:08:30,546 INFO [train.py:876] (1/4) Epoch 3, batch 200, loss[loss=0.2254, simple_loss=0.2024, pruned_loss=0.1242, over 5305.00 frames. ], tot_loss[loss=0.2352, simple_loss=0.215, pruned_loss=0.1277, over 691973.08 frames. ], batch size: 70, lr: 2.64e-02, grad_scale: 16.0
2022-11-15 16:08:41,082 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=14759.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 16:08:48,055 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=14769.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 16:08:53,055 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=4.91 vs. limit=5.0
2022-11-15 16:08:53,268 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=14776.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 16:08:53,353 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=14776.0, num_to_drop=1, layers_to_drop={1}
2022-11-15 16:09:11,201 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=14801.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 16:09:15,919 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.042e+02 2.295e+02 2.977e+02 3.816e+02 8.125e+02, threshold=5.953e+02, percent-clipped=6.0
2022-11-15 16:09:16,007 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=14807.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 16:09:24,498 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=2.07 vs. limit=2.0
2022-11-15 16:09:27,539 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=14824.0, num_to_drop=1, layers_to_drop={0}
2022-11-15 16:09:41,491 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=14843.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 16:09:42,823 INFO [train.py:876] (1/4) Epoch 3, batch 300, loss[loss=0.2059, simple_loss=0.2002, pruned_loss=0.1058, over 5799.00 frames. ], tot_loss[loss=0.2289, simple_loss=0.2113, pruned_loss=0.1233, over 847985.26 frames. ], batch size: 21, lr: 2.63e-02, grad_scale: 16.0
2022-11-15 16:10:17,937 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=2.08 vs. limit=2.0
2022-11-15 16:10:27,140 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.433e+02 2.202e+02 2.979e+02 3.584e+02 7.564e+02, threshold=5.959e+02, percent-clipped=7.0
2022-11-15 16:10:55,020 INFO [train.py:876] (1/4) Epoch 3, batch 400, loss[loss=0.2807, simple_loss=0.2504, pruned_loss=0.1555, over 5285.00 frames. ], tot_loss[loss=0.2317, simple_loss=0.214, pruned_loss=0.1248, over 941215.66 frames. ], batch size: 79, lr: 2.62e-02, grad_scale: 16.0
2022-11-15 16:11:17,005 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([4.0584, 3.6529, 3.9177, 3.6776, 4.0278, 3.5950, 3.7723, 4.0112],
       device='cuda:1'), covar=tensor([0.0319, 0.0280, 0.0378, 0.0237, 0.0369, 0.0352, 0.0231, 0.0281],
       device='cuda:1'), in_proj_covar=tensor([0.0073, 0.0080, 0.0065, 0.0076, 0.0072, 0.0049, 0.0064, 0.0064],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0001, 0.0002, 0.0002, 0.0001, 0.0001, 0.0001],
       device='cuda:1')
2022-11-15 16:11:38,715 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=2.08 vs. limit=2.0
2022-11-15 16:11:38,828 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=5.03 vs. limit=5.0
2022-11-15 16:11:43,139 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.230e+02 2.415e+02 2.867e+02 3.380e+02 8.857e+02, threshold=5.735e+02, percent-clipped=3.0
2022-11-15 16:12:02,080 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=2.01 vs. limit=2.0
2022-11-15 16:12:08,751 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=5.59 vs. limit=5.0
2022-11-15 16:12:10,992 INFO [train.py:876] (1/4) Epoch 3, batch 500, loss[loss=0.2391, simple_loss=0.2272, pruned_loss=0.1255, over 5597.00 frames. ], tot_loss[loss=0.2328, simple_loss=0.2142, pruned_loss=0.1257, over 998407.41 frames. ], batch size: 24, lr: 2.62e-02, grad_scale: 16.0
2022-11-15 16:12:27,965 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=15069.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 16:12:35,887 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.1959, 3.2388, 2.5239, 1.2556, 2.7962, 3.7767, 3.1517, 3.9088],
       device='cuda:1'), covar=tensor([0.0660, 0.0358, 0.0333, 0.0900, 0.0065, 0.0067, 0.0087, 0.0049],
       device='cuda:1'), in_proj_covar=tensor([0.0153, 0.0128, 0.0098, 0.0154, 0.0094, 0.0086, 0.0083, 0.0092],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0001, 0.0002, 0.0001, 0.0001, 0.0001, 0.0001],
       device='cuda:1')
2022-11-15 16:12:48,133 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=15096.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 16:12:48,145 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.9340, 2.8543, 2.5753, 2.8045, 2.9427, 2.5974, 2.5729, 2.3791],
       device='cuda:1'), covar=tensor([0.0241, 0.0397, 0.0625, 0.0347, 0.0281, 0.0428, 0.0367, 0.0463],
       device='cuda:1'), in_proj_covar=tensor([0.0076, 0.0085, 0.0114, 0.0080, 0.0103, 0.0099, 0.0085, 0.0079],
       device='cuda:1'), out_proj_covar=tensor([0.0001, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0001],
       device='cuda:1')
2022-11-15 16:12:55,529 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.456e+02 2.220e+02 2.761e+02 3.566e+02 7.983e+02, threshold=5.522e+02, percent-clipped=3.0
2022-11-15 16:12:57,080 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.3694, 3.1057, 2.3923, 1.6781, 3.1083, 1.1012, 2.9904, 1.6829],
       device='cuda:1'), covar=tensor([0.0793, 0.0160, 0.0545, 0.1439, 0.0138, 0.1684, 0.0171, 0.1388],
       device='cuda:1'), in_proj_covar=tensor([0.0119, 0.0078, 0.0075, 0.0116, 0.0080, 0.0123, 0.0069, 0.0117],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0002, 0.0002, 0.0003, 0.0002, 0.0003, 0.0002, 0.0003],
       device='cuda:1')
2022-11-15 16:13:02,513 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=15117.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 16:13:21,502 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=15143.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 16:13:22,754 INFO [train.py:876] (1/4) Epoch 3, batch 600, loss[loss=0.1543, simple_loss=0.1703, pruned_loss=0.06915, over 5435.00 frames. ], tot_loss[loss=0.231, simple_loss=0.2132, pruned_loss=0.1244, over 1033412.15 frames. ], batch size: 10, lr: 2.61e-02, grad_scale: 16.0
2022-11-15 16:13:55,646 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=15191.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 16:13:58,622 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=15195.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 16:14:07,258 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.247e+02 2.220e+02 2.668e+02 3.263e+02 7.749e+02, threshold=5.336e+02, percent-clipped=2.0
2022-11-15 16:14:29,610 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([4.4791, 4.8492, 4.8864, 4.7980, 4.0020, 3.5276, 5.1802, 4.5308],
       device='cuda:1'), covar=tensor([0.0537, 0.0490, 0.0257, 0.0561, 0.0606, 0.0439, 0.0588, 0.0459],
       device='cuda:1'), in_proj_covar=tensor([0.0052, 0.0071, 0.0060, 0.0070, 0.0050, 0.0043, 0.0083, 0.0054],
       device='cuda:1'), out_proj_covar=tensor([1.1701e-04, 1.5890e-04, 1.3477e-04, 1.5301e-04, 1.1425e-04, 9.7378e-05,
        2.0489e-04, 1.1996e-04], device='cuda:1')
2022-11-15 16:14:33,897 INFO [train.py:876] (1/4) Epoch 3, batch 700, loss[loss=0.2031, simple_loss=0.2015, pruned_loss=0.1023, over 5543.00 frames. ], tot_loss[loss=0.2284, simple_loss=0.2113, pruned_loss=0.1227, over 1052624.53 frames. ], batch size: 21, lr: 2.60e-02, grad_scale: 16.0
2022-11-15 16:14:36,071 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.5656, 1.7900, 1.7493, 1.7179, 0.6941, 1.9344, 1.2951, 1.3147],
       device='cuda:1'), covar=tensor([0.0183, 0.0118, 0.0118, 0.0306, 0.0706, 0.1579, 0.0243, 0.0238],
       device='cuda:1'), in_proj_covar=tensor([0.0030, 0.0025, 0.0027, 0.0031, 0.0027, 0.0023, 0.0024, 0.0028],
       device='cuda:1'), out_proj_covar=tensor([4.9602e-05, 3.3621e-05, 4.0722e-05, 4.8614e-05, 4.7154e-05, 3.9171e-05,
        3.8982e-05, 4.5564e-05], device='cuda:1')
2022-11-15 16:14:42,124 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=15256.0, num_to_drop=1, layers_to_drop={3}
2022-11-15 16:15:18,348 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.235e+02 2.381e+02 2.880e+02 4.091e+02 8.657e+02, threshold=5.760e+02, percent-clipped=7.0
2022-11-15 16:15:28,721 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.8610, 3.4835, 2.7019, 2.8545, 2.0059, 3.3058, 2.1849, 2.7865],
       device='cuda:1'), covar=tensor([0.0180, 0.0043, 0.0061, 0.0067, 0.0178, 0.0034, 0.0116, 0.0032],
       device='cuda:1'), in_proj_covar=tensor([0.0119, 0.0061, 0.0081, 0.0076, 0.0121, 0.0074, 0.0101, 0.0066],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0001, 0.0001, 0.0001, 0.0002, 0.0001, 0.0002, 0.0001],
       device='cuda:1')
2022-11-15 16:15:30,586 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([4.3687, 4.4766, 4.6315, 4.6314, 3.7820, 3.8838, 5.1019, 4.3977],
       device='cuda:1'), covar=tensor([0.0365, 0.0606, 0.0291, 0.0504, 0.0537, 0.0333, 0.0566, 0.0322],
       device='cuda:1'), in_proj_covar=tensor([0.0053, 0.0073, 0.0061, 0.0070, 0.0050, 0.0043, 0.0083, 0.0055],
       device='cuda:1'), out_proj_covar=tensor([1.1887e-04, 1.6342e-04, 1.3632e-04, 1.5404e-04, 1.1404e-04, 9.6853e-05,
        2.0392e-04, 1.2024e-04], device='cuda:1')
2022-11-15 16:15:44,972 INFO [train.py:876] (1/4) Epoch 3, batch 800, loss[loss=0.2508, simple_loss=0.2338, pruned_loss=0.1339, over 5574.00 frames. ], tot_loss[loss=0.2328, simple_loss=0.2143, pruned_loss=0.1257, over 1067274.13 frames. ], batch size: 21, lr: 2.59e-02, grad_scale: 16.0
2022-11-15 16:16:21,728 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=15396.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 16:16:23,799 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([4.1865, 4.0944, 4.2888, 4.3777, 3.6763, 3.4481, 4.7243, 4.0350],
       device='cuda:1'), covar=tensor([0.0523, 0.0846, 0.0464, 0.0604, 0.0600, 0.0417, 0.0788, 0.0528],
       device='cuda:1'), in_proj_covar=tensor([0.0053, 0.0075, 0.0062, 0.0072, 0.0051, 0.0044, 0.0085, 0.0055],
       device='cuda:1'), out_proj_covar=tensor([1.2063e-04, 1.6771e-04, 1.3827e-04, 1.5917e-04, 1.1637e-04, 9.9453e-05,
        2.1001e-04, 1.2155e-04], device='cuda:1')
2022-11-15 16:16:27,869 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.9377, 3.8268, 3.1266, 3.6401, 3.0262, 2.6506, 1.8912, 3.2288],
       device='cuda:1'), covar=tensor([0.1552, 0.0166, 0.0660, 0.0250, 0.0421, 0.0875, 0.2260, 0.0205],
       device='cuda:1'), in_proj_covar=tensor([0.0168, 0.0104, 0.0150, 0.0103, 0.0125, 0.0165, 0.0185, 0.0101],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0001, 0.0002, 0.0001, 0.0002, 0.0002, 0.0002, 0.0001],
       device='cuda:1')
2022-11-15 16:16:30,195 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.130e+02 2.163e+02 2.793e+02 3.391e+02 6.505e+02, threshold=5.586e+02, percent-clipped=1.0
2022-11-15 16:16:54,795 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=2.34 vs. limit=2.0
2022-11-15 16:16:56,551 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=15444.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 16:16:57,170 INFO [train.py:876] (1/4) Epoch 3, batch 900, loss[loss=0.1983, simple_loss=0.1989, pruned_loss=0.09887, over 5763.00 frames. ], tot_loss[loss=0.2305, simple_loss=0.2125, pruned_loss=0.1242, over 1075959.22 frames. ], batch size: 14, lr: 2.59e-02, grad_scale: 16.0
2022-11-15 16:17:13,157 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.97 vs. limit=2.0
2022-11-15 16:17:26,713 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=2.06 vs. limit=2.0
2022-11-15 16:17:35,034 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.0468, 3.1887, 2.8601, 0.8498, 2.7146, 3.6707, 2.8388, 3.5730],
       device='cuda:1'), covar=tensor([0.0933, 0.0379, 0.0253, 0.1167, 0.0134, 0.0065, 0.0145, 0.0056],
       device='cuda:1'), in_proj_covar=tensor([0.0163, 0.0140, 0.0103, 0.0164, 0.0104, 0.0090, 0.0091, 0.0097],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0001, 0.0001, 0.0001, 0.0001],
       device='cuda:1')
2022-11-15 16:17:38,623 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=1.97 vs. limit=2.0
2022-11-15 16:17:41,569 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.169e+02 2.326e+02 2.765e+02 3.451e+02 5.869e+02, threshold=5.530e+02, percent-clipped=2.0
2022-11-15 16:18:09,248 INFO [train.py:876] (1/4) Epoch 3, batch 1000, loss[loss=0.2212, simple_loss=0.2189, pruned_loss=0.1118, over 5558.00 frames. ], tot_loss[loss=0.2295, simple_loss=0.2124, pruned_loss=0.1233, over 1080993.80 frames. ], batch size: 22, lr: 2.58e-02, grad_scale: 16.0
2022-11-15 16:18:13,435 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=15551.0, num_to_drop=1, layers_to_drop={0}
2022-11-15 16:18:53,836 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.311e+02 2.148e+02 2.818e+02 3.595e+02 6.939e+02, threshold=5.636e+02, percent-clipped=2.0
2022-11-15 16:18:58,200 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([0.9178, 1.0616, 0.8592, 0.5899, 1.4274, 1.0211, 0.9060, 1.2696],
       device='cuda:1'), covar=tensor([0.0316, 0.0596, 0.0901, 0.1211, 0.0359, 0.0752, 0.0537, 0.0271],
       device='cuda:1'), in_proj_covar=tensor([0.0009, 0.0011, 0.0009, 0.0011, 0.0009, 0.0010, 0.0011, 0.0009],
       device='cuda:1'), out_proj_covar=tensor([2.3321e-05, 2.6307e-05, 2.3978e-05, 2.9623e-05, 2.2605e-05, 2.4050e-05,
        2.7682e-05, 2.4113e-05], device='cuda:1')
2022-11-15 16:19:12,873 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.0907, 2.2734, 1.5260, 2.3887, 1.4853, 1.4782, 1.8806, 1.7276],
       device='cuda:1'), covar=tensor([0.0247, 0.0178, 0.0636, 0.0241, 0.0439, 0.0251, 0.0503, 0.0409],
       device='cuda:1'), in_proj_covar=tensor([0.0039, 0.0040, 0.0048, 0.0033, 0.0050, 0.0037, 0.0047, 0.0034],
       device='cuda:1'), out_proj_covar=tensor([7.1554e-05, 7.8945e-05, 1.1128e-04, 6.7649e-05, 1.0516e-04, 8.2581e-05,
        9.4361e-05, 6.7549e-05], device='cuda:1')
2022-11-15 16:19:16,971 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.2580, 1.4745, 1.3706, 1.8422, 1.1573, 1.1070, 1.3919, 1.3229],
       device='cuda:1'), covar=tensor([0.0232, 0.0337, 0.0620, 0.0221, 0.0406, 0.0383, 0.0327, 0.0428],
       device='cuda:1'), in_proj_covar=tensor([0.0039, 0.0040, 0.0048, 0.0033, 0.0051, 0.0037, 0.0047, 0.0035],
       device='cuda:1'), out_proj_covar=tensor([7.2137e-05, 7.9098e-05, 1.1149e-04, 6.8464e-05, 1.0582e-04, 8.2745e-05,
        9.4783e-05, 6.7951e-05], device='cuda:1')
2022-11-15 16:19:20,894 INFO [train.py:876] (1/4) Epoch 3, batch 1100, loss[loss=0.1829, simple_loss=0.1856, pruned_loss=0.09012, over 5498.00 frames. ], tot_loss[loss=0.2308, simple_loss=0.2132, pruned_loss=0.1242, over 1084251.10 frames. ], batch size: 12, lr: 2.57e-02, grad_scale: 32.0
2022-11-15 16:19:37,575 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.98 vs. limit=2.0
2022-11-15 16:19:40,754 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=4.83 vs. limit=5.0
2022-11-15 16:19:42,915 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([4.1917, 1.9644, 3.9078, 2.6812, 3.9138, 2.7048, 3.8214, 4.3072],
       device='cuda:1'), covar=tensor([0.0032, 0.0423, 0.0087, 0.0385, 0.0037, 0.0297, 0.0138, 0.0063],
       device='cuda:1'), in_proj_covar=tensor([0.0092, 0.0156, 0.0114, 0.0172, 0.0102, 0.0151, 0.0158, 0.0121],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0003, 0.0002, 0.0003, 0.0002, 0.0002, 0.0003, 0.0002],
       device='cuda:1')
2022-11-15 16:20:00,465 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([4.1773, 4.0704, 4.0178, 3.8229, 4.0687, 3.9129, 1.3747, 3.9158],
       device='cuda:1'), covar=tensor([0.0296, 0.0352, 0.0263, 0.0219, 0.0349, 0.0267, 0.3617, 0.0421],
       device='cuda:1'), in_proj_covar=tensor([0.0079, 0.0060, 0.0063, 0.0050, 0.0072, 0.0050, 0.0117, 0.0079],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0001, 0.0001, 0.0001, 0.0001, 0.0001, 0.0002, 0.0002],
       device='cuda:1')
2022-11-15 16:20:05,751 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.351e+02 2.101e+02 2.719e+02 3.370e+02 6.510e+02, threshold=5.438e+02, percent-clipped=5.0
2022-11-15 16:20:07,246 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.3264, 1.7575, 1.4590, 2.3113, 1.4442, 1.2784, 1.5203, 1.6012],
       device='cuda:1'), covar=tensor([0.0202, 0.0228, 0.0455, 0.0111, 0.0282, 0.0269, 0.0265, 0.0180],
       device='cuda:1'), in_proj_covar=tensor([0.0039, 0.0040, 0.0048, 0.0034, 0.0050, 0.0037, 0.0047, 0.0033],
       device='cuda:1'), out_proj_covar=tensor([7.1801e-05, 7.9458e-05, 1.1006e-04, 7.0277e-05, 1.0342e-04, 8.3565e-05,
        9.4019e-05, 6.6573e-05], device='cuda:1')
2022-11-15 16:20:09,409 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.0956, 3.2660, 2.7413, 2.7689, 1.7799, 3.0268, 2.2496, 2.6066],
       device='cuda:1'), covar=tensor([0.0130, 0.0022, 0.0060, 0.0061, 0.0159, 0.0031, 0.0082, 0.0029],
       device='cuda:1'), in_proj_covar=tensor([0.0115, 0.0060, 0.0080, 0.0076, 0.0117, 0.0074, 0.0099, 0.0066],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0001, 0.0001, 0.0001, 0.0002, 0.0001, 0.0002, 0.0001],
       device='cuda:1')
2022-11-15 16:20:31,488 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.4458, 2.5217, 2.3276, 1.2174, 2.5795, 2.8960, 2.2769, 3.4003],
       device='cuda:1'), covar=tensor([0.1007, 0.0451, 0.0399, 0.1107, 0.0122, 0.0137, 0.0140, 0.0087],
       device='cuda:1'), in_proj_covar=tensor([0.0158, 0.0142, 0.0102, 0.0165, 0.0102, 0.0090, 0.0091, 0.0098],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0001, 0.0001, 0.0001, 0.0001],
       device='cuda:1')
2022-11-15 16:20:32,642 INFO [train.py:876] (1/4) Epoch 3, batch 1200, loss[loss=0.2459, simple_loss=0.2342, pruned_loss=0.1288, over 5579.00 frames. ], tot_loss[loss=0.2307, simple_loss=0.2128, pruned_loss=0.1243, over 1086696.24 frames. ], batch size: 25, lr: 2.56e-02, grad_scale: 16.0
2022-11-15 16:20:52,846 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=9.70 vs. limit=5.0
2022-11-15 16:21:08,094 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.6447, 4.0679, 3.7214, 4.1957, 4.2143, 3.5743, 3.6494, 3.2975],
       device='cuda:1'), covar=tensor([0.0428, 0.0360, 0.0517, 0.0235, 0.0273, 0.0384, 0.0304, 0.0595],
       device='cuda:1'), in_proj_covar=tensor([0.0073, 0.0084, 0.0115, 0.0084, 0.0105, 0.0098, 0.0088, 0.0081],
       device='cuda:1'), out_proj_covar=tensor([0.0001, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0001],
       device='cuda:1')
2022-11-15 16:21:10,493 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=2.12 vs. limit=2.0
2022-11-15 16:21:17,791 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.458e+02 2.202e+02 2.751e+02 3.254e+02 5.977e+02, threshold=5.502e+02, percent-clipped=4.0
2022-11-15 16:21:43,802 INFO [train.py:876] (1/4) Epoch 3, batch 1300, loss[loss=0.199, simple_loss=0.195, pruned_loss=0.1015, over 5715.00 frames. ], tot_loss[loss=0.2291, simple_loss=0.2122, pruned_loss=0.123, over 1088426.54 frames. ], batch size: 36, lr: 2.56e-02, grad_scale: 16.0
2022-11-15 16:21:48,909 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=15851.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 16:21:56,223 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=6.78 vs. limit=5.0
2022-11-15 16:22:00,223 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=4.25 vs. limit=5.0
2022-11-15 16:22:11,353 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=15883.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 16:22:22,432 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=15899.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 16:22:25,056 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.2771, 2.0001, 1.6502, 2.8618, 1.7101, 1.5866, 2.3681, 2.3380],
       device='cuda:1'), covar=tensor([0.0151, 0.0236, 0.0478, 0.0290, 0.0417, 0.0237, 0.0237, 0.0215],
       device='cuda:1'), in_proj_covar=tensor([0.0037, 0.0040, 0.0047, 0.0033, 0.0050, 0.0038, 0.0046, 0.0034],
       device='cuda:1'), out_proj_covar=tensor([7.0036e-05, 8.0808e-05, 1.0845e-04, 6.9783e-05, 1.0397e-04, 8.4413e-05,
        9.3434e-05, 6.8759e-05], device='cuda:1')
2022-11-15 16:22:29,934 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.357e+02 2.010e+02 2.682e+02 3.501e+02 1.988e+03, threshold=5.365e+02, percent-clipped=5.0
2022-11-15 16:22:39,248 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.8894, 1.8920, 3.6464, 2.6046, 3.7383, 2.2938, 3.1981, 3.8237],
       device='cuda:1'), covar=tensor([0.0033, 0.0418, 0.0081, 0.0402, 0.0058, 0.0283, 0.0187, 0.0083],
       device='cuda:1'), in_proj_covar=tensor([0.0095, 0.0166, 0.0115, 0.0178, 0.0104, 0.0151, 0.0164, 0.0124],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0003, 0.0002, 0.0003, 0.0002, 0.0002, 0.0003, 0.0002],
       device='cuda:1')
2022-11-15 16:22:52,946 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=2.27 vs. limit=2.0
2022-11-15 16:22:54,793 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=15944.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 16:22:55,280 INFO [train.py:876] (1/4) Epoch 3, batch 1400, loss[loss=0.187, simple_loss=0.185, pruned_loss=0.09453, over 5601.00 frames. ], tot_loss[loss=0.2293, simple_loss=0.2121, pruned_loss=0.1232, over 1085242.31 frames. ], batch size: 23, lr: 2.55e-02, grad_scale: 8.0
2022-11-15 16:23:36,112 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=16001.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 16:23:42,148 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.208e+02 2.137e+02 2.778e+02 3.586e+02 7.557e+02, threshold=5.556e+02, percent-clipped=2.0
2022-11-15 16:23:56,509 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.5835, 1.6665, 2.0139, 1.5795, 1.9497, 1.5953, 1.1399, 1.5086],
       device='cuda:1'), covar=tensor([0.0047, 0.0034, 0.0031, 0.0031, 0.0029, 0.0027, 0.0045, 0.0035],
       device='cuda:1'), in_proj_covar=tensor([0.0019, 0.0020, 0.0020, 0.0020, 0.0020, 0.0017, 0.0021, 0.0017],
       device='cuda:1'), out_proj_covar=tensor([2.5745e-05, 2.9861e-05, 2.7927e-05, 2.5036e-05, 2.3649e-05, 2.2309e-05,
        3.5896e-05, 2.2707e-05], device='cuda:1')
2022-11-15 16:24:07,308 INFO [train.py:876] (1/4) Epoch 3, batch 1500, loss[loss=0.1828, simple_loss=0.1935, pruned_loss=0.08607, over 5702.00 frames. ], tot_loss[loss=0.2281, simple_loss=0.2115, pruned_loss=0.1224, over 1084948.82 frames. ], batch size: 12, lr: 2.54e-02, grad_scale: 8.0
2022-11-15 16:24:14,597 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=2.00 vs. limit=2.0
2022-11-15 16:24:19,085 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=16062.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 16:24:26,197 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.1325, 3.5402, 2.9686, 3.1415, 2.1875, 3.3917, 2.6005, 3.1159],
       device='cuda:1'), covar=tensor([0.0145, 0.0049, 0.0056, 0.0071, 0.0166, 0.0028, 0.0080, 0.0019],
       device='cuda:1'), in_proj_covar=tensor([0.0124, 0.0063, 0.0085, 0.0080, 0.0123, 0.0078, 0.0103, 0.0070],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0001, 0.0001, 0.0001, 0.0002, 0.0001, 0.0002, 0.0001],
       device='cuda:1')
2022-11-15 16:24:33,317 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.5894, 1.6673, 3.3160, 2.4864, 3.3310, 2.3953, 3.1047, 3.5555],
       device='cuda:1'), covar=tensor([0.0038, 0.0446, 0.0086, 0.0361, 0.0066, 0.0267, 0.0186, 0.0099],
       device='cuda:1'), in_proj_covar=tensor([0.0093, 0.0164, 0.0115, 0.0174, 0.0107, 0.0152, 0.0161, 0.0126],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0003, 0.0002, 0.0003, 0.0002, 0.0002, 0.0003, 0.0002],
       device='cuda:1')
2022-11-15 16:24:34,904 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.94 vs. limit=2.0
2022-11-15 16:24:36,025 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=16085.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 16:24:36,282 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=2.19 vs. limit=2.0
2022-11-15 16:24:52,644 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.193e+02 2.433e+02 2.944e+02 3.861e+02 5.407e+02, threshold=5.888e+02, percent-clipped=0.0
2022-11-15 16:25:07,198 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.6999, 1.9428, 1.9128, 1.7623, 2.8665, 1.6857, 2.6618, 2.0577],
       device='cuda:1'), covar=tensor([0.0045, 0.0267, 0.0137, 0.0040, 0.0021, 0.0050, 0.0049, 0.0031],
       device='cuda:1'), in_proj_covar=tensor([0.0015, 0.0014, 0.0013, 0.0016, 0.0014, 0.0015, 0.0016, 0.0015],
       device='cuda:1'), out_proj_covar=tensor([2.0502e-05, 2.0641e-05, 2.0070e-05, 2.0162e-05, 1.8885e-05, 1.9420e-05,
        2.1698e-05, 1.9597e-05], device='cuda:1')
2022-11-15 16:25:18,690 INFO [train.py:876] (1/4) Epoch 3, batch 1600, loss[loss=0.267, simple_loss=0.2255, pruned_loss=0.1542, over 4675.00 frames. ], tot_loss[loss=0.2265, simple_loss=0.2103, pruned_loss=0.1213, over 1082969.62 frames. ], batch size: 135, lr: 2.53e-02, grad_scale: 8.0
2022-11-15 16:25:19,549 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=16146.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 16:25:21,620 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=16149.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 16:25:40,589 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.7348, 1.4339, 1.9962, 2.4286, 0.4953, 2.2771, 0.9726, 1.1218],
       device='cuda:1'), covar=tensor([0.0241, 0.0133, 0.0060, 0.0391, 0.0717, 0.0799, 0.0203, 0.0263],
       device='cuda:1'), in_proj_covar=tensor([0.0029, 0.0026, 0.0025, 0.0028, 0.0027, 0.0023, 0.0025, 0.0028],
       device='cuda:1'), out_proj_covar=tensor([4.7282e-05, 3.6725e-05, 3.6460e-05, 4.5591e-05, 4.7367e-05, 4.0140e-05,
        4.0900e-05, 4.6372e-05], device='cuda:1')
2022-11-15 16:25:49,985 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.3452, 3.5503, 2.9959, 3.0043, 2.2962, 3.6271, 2.4576, 3.0272],
       device='cuda:1'), covar=tensor([0.0173, 0.0079, 0.0071, 0.0130, 0.0192, 0.0027, 0.0118, 0.0032],
       device='cuda:1'), in_proj_covar=tensor([0.0124, 0.0067, 0.0085, 0.0081, 0.0123, 0.0077, 0.0103, 0.0072],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0001, 0.0001, 0.0001, 0.0002, 0.0001, 0.0002, 0.0001],
       device='cuda:1')
2022-11-15 16:25:56,182 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([0.9322, 0.7925, 1.1185, 0.8382, 1.0550, 0.9561, 1.2018, 1.3771],
       device='cuda:1'), covar=tensor([0.0299, 0.0228, 0.0365, 0.0795, 0.0316, 0.0795, 0.0308, 0.0588],
       device='cuda:1'), in_proj_covar=tensor([0.0010, 0.0012, 0.0009, 0.0010, 0.0010, 0.0010, 0.0011, 0.0010],
       device='cuda:1'), out_proj_covar=tensor([2.5936e-05, 2.8551e-05, 2.4956e-05, 3.0076e-05, 2.4969e-05, 2.5977e-05,
        2.8653e-05, 2.5689e-05], device='cuda:1')
2022-11-15 16:26:04,925 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.227e+02 2.236e+02 2.729e+02 3.361e+02 8.285e+02, threshold=5.459e+02, percent-clipped=7.0
2022-11-15 16:26:05,780 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=16210.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 16:26:20,983 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=6.48 vs. limit=5.0
2022-11-15 16:26:26,174 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=16239.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 16:26:30,133 INFO [train.py:876] (1/4) Epoch 3, batch 1700, loss[loss=0.2907, simple_loss=0.2393, pruned_loss=0.1711, over 3097.00 frames. ], tot_loss[loss=0.2271, simple_loss=0.2103, pruned_loss=0.122, over 1081766.65 frames. ], batch size: 284, lr: 2.53e-02, grad_scale: 8.0
2022-11-15 16:26:39,288 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=4.27 vs. limit=5.0
2022-11-15 16:26:51,579 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=4.64 vs. limit=5.0
2022-11-15 16:27:15,063 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.295e+02 2.221e+02 2.797e+02 3.532e+02 1.022e+03, threshold=5.594e+02, percent-clipped=2.0
2022-11-15 16:27:20,035 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=2.34 vs. limit=2.0
2022-11-15 16:27:30,220 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=2.38 vs. limit=2.0
2022-11-15 16:27:39,902 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.39 vs. limit=2.0
2022-11-15 16:27:41,527 INFO [train.py:876] (1/4) Epoch 3, batch 1800, loss[loss=0.2243, simple_loss=0.2186, pruned_loss=0.115, over 5743.00 frames. ], tot_loss[loss=0.2258, simple_loss=0.2097, pruned_loss=0.1209, over 1078016.04 frames. ], batch size: 20, lr: 2.52e-02, grad_scale: 8.0
2022-11-15 16:27:46,969 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([4.4916, 4.6217, 4.7495, 4.7445, 4.0688, 3.5884, 5.2564, 4.3946],
       device='cuda:1'), covar=tensor([0.0448, 0.0868, 0.0416, 0.0543, 0.0590, 0.0552, 0.0572, 0.0372],
       device='cuda:1'), in_proj_covar=tensor([0.0053, 0.0078, 0.0062, 0.0073, 0.0054, 0.0045, 0.0084, 0.0057],
       device='cuda:1'), out_proj_covar=tensor([0.0001, 0.0002, 0.0001, 0.0002, 0.0001, 0.0001, 0.0002, 0.0001],
       device='cuda:1')
2022-11-15 16:27:49,682 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=16357.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 16:27:51,130 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.7091, 3.8861, 3.3859, 3.3865, 3.8630, 3.2937, 1.3430, 3.8579],
       device='cuda:1'), covar=tensor([0.0397, 0.0405, 0.0657, 0.0369, 0.0358, 0.0968, 0.3095, 0.0372],
       device='cuda:1'), in_proj_covar=tensor([0.0081, 0.0061, 0.0062, 0.0051, 0.0074, 0.0051, 0.0118, 0.0081],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0001, 0.0001, 0.0001, 0.0001, 0.0001, 0.0002, 0.0002],
       device='cuda:1')
2022-11-15 16:27:59,875 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=16371.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 16:28:02,577 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.8061, 3.4742, 2.6738, 3.4032, 2.3810, 2.5064, 1.8757, 3.0146],
       device='cuda:1'), covar=tensor([0.1340, 0.0112, 0.0551, 0.0138, 0.0505, 0.0736, 0.1596, 0.0164],
       device='cuda:1'), in_proj_covar=tensor([0.0171, 0.0101, 0.0147, 0.0096, 0.0126, 0.0161, 0.0181, 0.0100],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0001, 0.0002, 0.0001, 0.0002, 0.0002, 0.0002, 0.0001],
       device='cuda:1')
2022-11-15 16:28:05,625 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.7357, 1.8857, 2.4613, 3.6190, 3.5951, 2.3352, 1.8103, 3.6638],
       device='cuda:1'), covar=tensor([0.0048, 0.1804, 0.1295, 0.0521, 0.0144, 0.1292, 0.1274, 0.0053],
       device='cuda:1'), in_proj_covar=tensor([0.0115, 0.0216, 0.0226, 0.0155, 0.0147, 0.0226, 0.0205, 0.0112],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003, 0.0003, 0.0002],
       device='cuda:1')
2022-11-15 16:28:16,601 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=2.40 vs. limit=2.0
2022-11-15 16:28:26,563 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.507e+02 2.508e+02 2.970e+02 3.858e+02 6.298e+02, threshold=5.940e+02, percent-clipped=3.0
2022-11-15 16:28:42,870 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=16432.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 16:28:49,194 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=16441.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 16:28:51,926 INFO [train.py:876] (1/4) Epoch 3, batch 1900, loss[loss=0.2187, simple_loss=0.2155, pruned_loss=0.111, over 5537.00 frames. ], tot_loss[loss=0.2277, simple_loss=0.2107, pruned_loss=0.1223, over 1073871.06 frames. ], batch size: 13, lr: 2.51e-02, grad_scale: 8.0
2022-11-15 16:29:34,094 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=16505.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 16:29:37,426 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.237e+02 2.066e+02 2.615e+02 3.411e+02 7.424e+02, threshold=5.231e+02, percent-clipped=4.0
2022-11-15 16:29:55,513 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.75 vs. limit=2.0
2022-11-15 16:29:58,082 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=16539.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 16:30:02,340 INFO [train.py:876] (1/4) Epoch 3, batch 2000, loss[loss=0.2528, simple_loss=0.2406, pruned_loss=0.1325, over 5758.00 frames. ], tot_loss[loss=0.2264, simple_loss=0.2104, pruned_loss=0.1212, over 1073332.58 frames. ], batch size: 21, lr: 2.51e-02, grad_scale: 8.0
2022-11-15 16:30:07,737 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.4746, 3.9555, 3.0355, 1.6784, 3.8544, 1.2084, 3.6628, 2.2053],
       device='cuda:1'), covar=tensor([0.1205, 0.0144, 0.0645, 0.2089, 0.0131, 0.2067, 0.0185, 0.1537],
       device='cuda:1'), in_proj_covar=tensor([0.0124, 0.0086, 0.0082, 0.0116, 0.0083, 0.0126, 0.0072, 0.0118],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0002, 0.0002, 0.0003, 0.0002, 0.0003, 0.0002, 0.0003],
       device='cuda:1')
2022-11-15 16:30:19,487 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.9964, 4.2251, 3.0915, 3.9698, 3.2008, 2.9483, 1.9308, 3.6896],
       device='cuda:1'), covar=tensor([0.1708, 0.0096, 0.0661, 0.0198, 0.0385, 0.0743, 0.1913, 0.0141],
       device='cuda:1'), in_proj_covar=tensor([0.0174, 0.0101, 0.0150, 0.0101, 0.0129, 0.0162, 0.0180, 0.0104],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0001, 0.0002, 0.0001, 0.0002, 0.0002, 0.0002, 0.0001],
       device='cuda:1')
2022-11-15 16:30:32,117 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=2.10 vs. limit=2.0
2022-11-15 16:30:32,355 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=16587.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 16:30:36,990 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.77 vs. limit=2.0
2022-11-15 16:30:48,526 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.413e+02 2.235e+02 2.805e+02 3.719e+02 8.798e+02, threshold=5.609e+02, percent-clipped=4.0
2022-11-15 16:30:52,055 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([5.3898, 4.9536, 5.3752, 4.8625, 5.5656, 5.4421, 4.7746, 5.2913],
       device='cuda:1'), covar=tensor([0.0294, 0.0202, 0.0254, 0.0246, 0.0251, 0.0063, 0.0171, 0.0226],
       device='cuda:1'), in_proj_covar=tensor([0.0079, 0.0086, 0.0069, 0.0087, 0.0082, 0.0054, 0.0069, 0.0073],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0001, 0.0002, 0.0002, 0.0001, 0.0002, 0.0002],
       device='cuda:1')
2022-11-15 16:31:12,135 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.2302, 1.7930, 1.3270, 1.6625, 1.5084, 1.4857, 1.4563, 1.5696],
       device='cuda:1'), covar=tensor([0.0020, 0.0011, 0.0024, 0.0016, 0.0019, 0.0025, 0.0019, 0.0018],
       device='cuda:1'), in_proj_covar=tensor([0.0013, 0.0012, 0.0011, 0.0015, 0.0013, 0.0014, 0.0014, 0.0013],
       device='cuda:1'), out_proj_covar=tensor([1.8164e-05, 1.8090e-05, 1.6749e-05, 1.8521e-05, 1.7726e-05, 1.7404e-05,
        1.9095e-05, 1.7440e-05], device='cuda:1')
2022-11-15 16:31:14,087 INFO [train.py:876] (1/4) Epoch 3, batch 2100, loss[loss=0.2302, simple_loss=0.2266, pruned_loss=0.1169, over 5826.00 frames. ], tot_loss[loss=0.2281, simple_loss=0.2116, pruned_loss=0.1223, over 1079073.92 frames. ], batch size: 18, lr: 2.50e-02, grad_scale: 8.0
2022-11-15 16:31:22,849 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=16657.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 16:31:52,839 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.92 vs. limit=2.0
2022-11-15 16:31:56,396 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=16705.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 16:31:59,090 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 9.519e+01 2.019e+02 2.564e+02 3.147e+02 5.259e+02, threshold=5.129e+02, percent-clipped=0.0
2022-11-15 16:32:03,377 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.94 vs. limit=2.0
2022-11-15 16:32:12,151 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=16727.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 16:32:22,622 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=16741.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 16:32:25,236 INFO [train.py:876] (1/4) Epoch 3, batch 2200, loss[loss=0.1497, simple_loss=0.1501, pruned_loss=0.07461, over 5211.00 frames. ], tot_loss[loss=0.2247, simple_loss=0.2093, pruned_loss=0.12, over 1089856.23 frames. ], batch size: 8, lr: 2.49e-02, grad_scale: 8.0
2022-11-15 16:32:25,322 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([5.1831, 4.9059, 5.1476, 4.7978, 5.3262, 5.3250, 4.5208, 5.2081],
       device='cuda:1'), covar=tensor([0.0327, 0.0221, 0.0314, 0.0235, 0.0272, 0.0070, 0.0196, 0.0219],
       device='cuda:1'), in_proj_covar=tensor([0.0078, 0.0084, 0.0068, 0.0084, 0.0080, 0.0053, 0.0067, 0.0073],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0001, 0.0002, 0.0002, 0.0001, 0.0001, 0.0002],
       device='cuda:1')
2022-11-15 16:32:31,809 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=2.00 vs. limit=2.0
2022-11-15 16:32:56,716 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=16789.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 16:33:07,912 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=16805.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 16:33:10,448 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.364e+02 2.121e+02 2.774e+02 3.414e+02 1.004e+03, threshold=5.548e+02, percent-clipped=7.0
2022-11-15 16:33:36,645 INFO [train.py:876] (1/4) Epoch 3, batch 2300, loss[loss=0.2063, simple_loss=0.196, pruned_loss=0.1083, over 5781.00 frames. ], tot_loss[loss=0.2282, simple_loss=0.2111, pruned_loss=0.1227, over 1086799.84 frames. ], batch size: 21, lr: 2.49e-02, grad_scale: 8.0
2022-11-15 16:33:42,404 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=16853.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 16:33:51,125 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.3388, 3.9065, 3.4426, 3.2487, 2.5886, 4.2749, 2.9942, 3.5511],
       device='cuda:1'), covar=tensor([0.0183, 0.0079, 0.0072, 0.0111, 0.0182, 0.0027, 0.0105, 0.0024],
       device='cuda:1'), in_proj_covar=tensor([0.0123, 0.0066, 0.0086, 0.0083, 0.0122, 0.0081, 0.0104, 0.0071],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0001, 0.0002, 0.0002, 0.0002, 0.0001, 0.0002, 0.0001],
       device='cuda:1')
2022-11-15 16:33:53,220 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=16868.0, num_to_drop=1, layers_to_drop={0}
2022-11-15 16:34:22,204 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=16906.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 16:34:24,019 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.385e+02 2.301e+02 2.850e+02 3.623e+02 1.087e+03, threshold=5.699e+02, percent-clipped=3.0
2022-11-15 16:34:30,026 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=2.05 vs. limit=2.0
2022-11-15 16:34:38,454 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=16929.0, num_to_drop=1, layers_to_drop={2}
2022-11-15 16:34:44,330 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.7272, 2.1591, 2.1425, 1.5728, 1.5901, 2.1211, 2.3225, 1.8132],
       device='cuda:1'), covar=tensor([0.0033, 0.0107, 0.0091, 0.0037, 0.0026, 0.0035, 0.0029, 0.0036],
       device='cuda:1'), in_proj_covar=tensor([0.0014, 0.0014, 0.0012, 0.0016, 0.0013, 0.0014, 0.0015, 0.0014],
       device='cuda:1'), out_proj_covar=tensor([1.9583e-05, 1.9824e-05, 1.7876e-05, 2.0154e-05, 1.7701e-05, 1.8006e-05,
        2.0792e-05, 1.8574e-05], device='cuda:1')
2022-11-15 16:34:50,018 INFO [train.py:876] (1/4) Epoch 3, batch 2400, loss[loss=0.1893, simple_loss=0.1867, pruned_loss=0.09593, over 5332.00 frames. ], tot_loss[loss=0.2266, simple_loss=0.2106, pruned_loss=0.1213, over 1088163.96 frames. ], batch size: 9, lr: 2.48e-02, grad_scale: 8.0
2022-11-15 16:35:05,726 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=16967.0, num_to_drop=1, layers_to_drop={1}
2022-11-15 16:35:36,100 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.257e+02 2.211e+02 2.830e+02 3.499e+02 8.414e+02, threshold=5.661e+02, percent-clipped=2.0
2022-11-15 16:35:48,493 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=17027.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 16:35:57,465 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.0150, 1.0877, 1.5761, 1.5314, 0.4668, 2.1458, 1.6528, 1.7952],
       device='cuda:1'), covar=tensor([0.0203, 0.0183, 0.0116, 0.0191, 0.0593, 0.0262, 0.0143, 0.0147],
       device='cuda:1'), in_proj_covar=tensor([0.0027, 0.0027, 0.0027, 0.0029, 0.0027, 0.0024, 0.0024, 0.0027],
       device='cuda:1'), out_proj_covar=tensor([4.5195e-05, 3.9759e-05, 4.0321e-05, 4.6333e-05, 4.7305e-05, 4.2484e-05,
        4.0459e-05, 4.5011e-05], device='cuda:1')
2022-11-15 16:36:01,851 INFO [train.py:876] (1/4) Epoch 3, batch 2500, loss[loss=0.168, simple_loss=0.1731, pruned_loss=0.08144, over 5517.00 frames. ], tot_loss[loss=0.2241, simple_loss=0.2089, pruned_loss=0.1196, over 1083651.63 frames. ], batch size: 12, lr: 2.47e-02, grad_scale: 8.0
2022-11-15 16:36:22,798 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=17075.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 16:36:47,308 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.241e+02 2.290e+02 2.908e+02 3.668e+02 6.942e+02, threshold=5.815e+02, percent-clipped=2.0
2022-11-15 16:37:01,889 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.0705, 1.6316, 1.1980, 1.3075, 1.2665, 1.0850, 1.3925, 1.1726],
       device='cuda:1'), covar=tensor([0.0026, 0.0018, 0.0076, 0.0028, 0.0022, 0.0038, 0.0018, 0.0030],
       device='cuda:1'), in_proj_covar=tensor([0.0015, 0.0014, 0.0013, 0.0016, 0.0014, 0.0016, 0.0016, 0.0014],
       device='cuda:1'), out_proj_covar=tensor([2.0331e-05, 2.0035e-05, 1.9494e-05, 2.0206e-05, 1.7850e-05, 1.9091e-05,
        2.0922e-05, 1.9053e-05], device='cuda:1')
2022-11-15 16:37:12,391 INFO [train.py:876] (1/4) Epoch 3, batch 2600, loss[loss=0.2609, simple_loss=0.2375, pruned_loss=0.1422, over 5637.00 frames. ], tot_loss[loss=0.223, simple_loss=0.2082, pruned_loss=0.119, over 1083895.89 frames. ], batch size: 38, lr: 2.47e-02, grad_scale: 8.0
2022-11-15 16:37:43,079 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=17189.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 16:37:57,338 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.374e+02 2.163e+02 2.684e+02 3.226e+02 5.923e+02, threshold=5.368e+02, percent-clipped=1.0
2022-11-15 16:38:08,602 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=17224.0, num_to_drop=1, layers_to_drop={3}
2022-11-15 16:38:22,718 INFO [train.py:876] (1/4) Epoch 3, batch 2700, loss[loss=0.1229, simple_loss=0.1255, pruned_loss=0.06017, over 5157.00 frames. ], tot_loss[loss=0.2197, simple_loss=0.2063, pruned_loss=0.1165, over 1088242.21 frames. ], batch size: 8, lr: 2.46e-02, grad_scale: 8.0
2022-11-15 16:38:26,435 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=17250.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 16:38:30,004 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=2.35 vs. limit=2.0
2022-11-15 16:38:34,859 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=17262.0, num_to_drop=1, layers_to_drop={2}
2022-11-15 16:38:52,166 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([5.7003, 4.8999, 5.3914, 4.9340, 5.7136, 5.5880, 4.7202, 5.5270],
       device='cuda:1'), covar=tensor([0.0236, 0.0246, 0.0395, 0.0294, 0.0283, 0.0065, 0.0206, 0.0173],
       device='cuda:1'), in_proj_covar=tensor([0.0079, 0.0085, 0.0071, 0.0088, 0.0086, 0.0055, 0.0069, 0.0076],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0001, 0.0002, 0.0002],
       device='cuda:1')
2022-11-15 16:39:07,892 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.169e+02 2.430e+02 3.020e+02 3.987e+02 6.630e+02, threshold=6.040e+02, percent-clipped=4.0
2022-11-15 16:39:09,651 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=9.21 vs. limit=5.0
2022-11-15 16:39:33,471 INFO [train.py:876] (1/4) Epoch 3, batch 2800, loss[loss=0.2361, simple_loss=0.2166, pruned_loss=0.1278, over 5683.00 frames. ], tot_loss[loss=0.217, simple_loss=0.2047, pruned_loss=0.1147, over 1089555.39 frames. ], batch size: 36, lr: 2.45e-02, grad_scale: 8.0
2022-11-15 16:39:35,645 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.0440, 0.9499, 1.3874, 1.2144, 2.2901, 0.3737, 1.3903, 1.9924],
       device='cuda:1'), covar=tensor([0.0259, 0.0354, 0.0412, 0.1049, 0.0391, 0.4947, 0.0657, 0.0574],
       device='cuda:1'), in_proj_covar=tensor([0.0009, 0.0012, 0.0010, 0.0010, 0.0009, 0.0010, 0.0010, 0.0010],
       device='cuda:1'), out_proj_covar=tensor([2.5324e-05, 2.9383e-05, 2.7107e-05, 2.9211e-05, 2.6007e-05, 2.7807e-05,
        2.8254e-05, 2.5947e-05], device='cuda:1')
2022-11-15 16:39:45,082 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=17362.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 16:40:00,286 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=17383.0, num_to_drop=1, layers_to_drop={0}
2022-11-15 16:40:07,768 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([4.7887, 4.3302, 4.5432, 4.4406, 4.8948, 4.5029, 4.2742, 4.7735],
       device='cuda:1'), covar=tensor([0.0372, 0.0222, 0.0506, 0.0237, 0.0297, 0.0183, 0.0226, 0.0215],
       device='cuda:1'), in_proj_covar=tensor([0.0082, 0.0088, 0.0072, 0.0089, 0.0089, 0.0056, 0.0071, 0.0077],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0001, 0.0002, 0.0002],
       device='cuda:1')
2022-11-15 16:40:18,908 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.389e+02 2.246e+02 2.631e+02 3.087e+02 4.773e+02, threshold=5.262e+02, percent-clipped=0.0
2022-11-15 16:40:24,883 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=2.02 vs. limit=2.0
2022-11-15 16:40:28,892 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=17423.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 16:40:44,633 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=17444.0, num_to_drop=1, layers_to_drop={0}
2022-11-15 16:40:45,104 INFO [train.py:876] (1/4) Epoch 3, batch 2900, loss[loss=0.2176, simple_loss=0.2078, pruned_loss=0.1137, over 5559.00 frames. ], tot_loss[loss=0.2179, simple_loss=0.2053, pruned_loss=0.1153, over 1090070.06 frames. ], batch size: 40, lr: 2.45e-02, grad_scale: 8.0
2022-11-15 16:41:20,315 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.60 vs. limit=2.0
2022-11-15 16:41:22,182 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=1.95 vs. limit=2.0
2022-11-15 16:41:30,296 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.327e+02 2.189e+02 2.747e+02 3.512e+02 7.345e+02, threshold=5.495e+02, percent-clipped=3.0
2022-11-15 16:41:40,750 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=17524.0, num_to_drop=1, layers_to_drop={1}
2022-11-15 16:41:54,810 INFO [train.py:876] (1/4) Epoch 3, batch 3000, loss[loss=0.3088, simple_loss=0.2657, pruned_loss=0.1759, over 5468.00 frames. ], tot_loss[loss=0.2227, simple_loss=0.2078, pruned_loss=0.1188, over 1089544.51 frames. ], batch size: 64, lr: 2.44e-02, grad_scale: 8.0
2022-11-15 16:41:54,811 INFO [train.py:899] (1/4) Computing validation loss
2022-11-15 16:42:13,677 INFO [train.py:908] (1/4) Epoch 3, validation: loss=0.1847, simple_loss=0.2015, pruned_loss=0.08391, over 1530663.00 frames. 
2022-11-15 16:42:13,678 INFO [train.py:909] (1/4) Maximum memory allocated so far is 4576MB
2022-11-15 16:42:13,771 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=17545.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 16:42:20,711 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.2905, 0.9519, 0.9366, 0.8699, 1.5559, 1.3607, 1.0640, 1.4537],
       device='cuda:1'), covar=tensor([0.0367, 0.0178, 0.0197, 0.0873, 0.0356, 0.0403, 0.0748, 0.0173],
       device='cuda:1'), in_proj_covar=tensor([0.0009, 0.0012, 0.0010, 0.0009, 0.0009, 0.0010, 0.0010, 0.0009],
       device='cuda:1'), out_proj_covar=tensor([2.5922e-05, 2.9527e-05, 2.7761e-05, 2.9026e-05, 2.5348e-05, 2.7411e-05,
        2.8466e-05, 2.5319e-05], device='cuda:1')
2022-11-15 16:42:25,431 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=17562.0, num_to_drop=1, layers_to_drop={1}
2022-11-15 16:42:32,288 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=17572.0, num_to_drop=1, layers_to_drop={0}
2022-11-15 16:42:36,560 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.5352, 1.8072, 1.5774, 1.5211, 1.7999, 1.2643, 1.5312, 1.5334],
       device='cuda:1'), covar=tensor([0.0020, 0.0029, 0.0032, 0.0024, 0.0014, 0.0036, 0.0025, 0.0029],
       device='cuda:1'), in_proj_covar=tensor([0.0015, 0.0012, 0.0013, 0.0016, 0.0014, 0.0015, 0.0015, 0.0014],
       device='cuda:1'), out_proj_covar=tensor([2.0545e-05, 1.8076e-05, 1.8358e-05, 2.0273e-05, 1.6991e-05, 1.8415e-05,
        1.9723e-05, 1.8860e-05], device='cuda:1')
2022-11-15 16:42:47,552 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.0471, 1.1218, 1.3268, 1.4779, 1.6603, 1.4744, 0.8257, 1.5406],
       device='cuda:1'), covar=tensor([0.0023, 0.0019, 0.0024, 0.0014, 0.0015, 0.0022, 0.0034, 0.0023],
       device='cuda:1'), in_proj_covar=tensor([0.0019, 0.0019, 0.0019, 0.0017, 0.0019, 0.0016, 0.0018, 0.0018],
       device='cuda:1'), out_proj_covar=tensor([2.5720e-05, 2.7819e-05, 2.4361e-05, 1.9045e-05, 2.0818e-05, 1.9138e-05,
        3.0937e-05, 2.4118e-05], device='cuda:1')
2022-11-15 16:42:59,061 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.183e+02 2.309e+02 3.014e+02 4.120e+02 1.212e+03, threshold=6.029e+02, percent-clipped=7.0
2022-11-15 16:43:00,218 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=17610.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 16:43:24,411 INFO [train.py:876] (1/4) Epoch 3, batch 3100, loss[loss=0.2808, simple_loss=0.2289, pruned_loss=0.1663, over 3041.00 frames. ], tot_loss[loss=0.2224, simple_loss=0.2078, pruned_loss=0.1185, over 1089157.48 frames. ], batch size: 284, lr: 2.43e-02, grad_scale: 8.0
2022-11-15 16:43:28,617 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.88 vs. limit=2.0
2022-11-15 16:44:04,522 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=17700.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 16:44:10,833 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.139e+02 2.237e+02 2.895e+02 3.474e+02 7.762e+02, threshold=5.791e+02, percent-clipped=3.0
2022-11-15 16:44:16,897 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=17718.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 16:44:25,299 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=17730.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 16:44:26,624 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.3393, 3.3530, 3.5446, 3.4931, 3.2704, 3.0010, 3.9509, 3.5124],
       device='cuda:1'), covar=tensor([0.0668, 0.0934, 0.0503, 0.0809, 0.0647, 0.0490, 0.0714, 0.0506],
       device='cuda:1'), in_proj_covar=tensor([0.0053, 0.0076, 0.0063, 0.0074, 0.0056, 0.0044, 0.0085, 0.0055],
       device='cuda:1'), out_proj_covar=tensor([0.0001, 0.0002, 0.0001, 0.0002, 0.0001, 0.0001, 0.0002, 0.0001],
       device='cuda:1')
2022-11-15 16:44:31,328 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=17739.0, num_to_drop=1, layers_to_drop={0}
2022-11-15 16:44:35,379 INFO [train.py:876] (1/4) Epoch 3, batch 3200, loss[loss=0.1934, simple_loss=0.1889, pruned_loss=0.09896, over 5544.00 frames. ], tot_loss[loss=0.2226, simple_loss=0.2077, pruned_loss=0.1188, over 1089385.87 frames. ], batch size: 13, lr: 2.43e-02, grad_scale: 8.0
2022-11-15 16:44:47,669 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=17761.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 16:45:08,551 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=17791.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 16:45:08,941 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=4.75 vs. limit=5.0
2022-11-15 16:45:21,440 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.240e+02 2.197e+02 2.889e+02 3.896e+02 6.814e+02, threshold=5.779e+02, percent-clipped=2.0
2022-11-15 16:45:21,689 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([0.6895, 0.5469, 0.5397, 0.7547, 0.7372, 0.6957, 0.7872, 0.8324],
       device='cuda:1'), covar=tensor([0.0086, 0.0152, 0.0215, 0.0163, 0.0107, 0.0097, 0.0137, 0.0096],
       device='cuda:1'), in_proj_covar=tensor([0.0010, 0.0012, 0.0010, 0.0010, 0.0009, 0.0010, 0.0011, 0.0010],
       device='cuda:1'), out_proj_covar=tensor([2.7397e-05, 3.0257e-05, 2.8463e-05, 2.9672e-05, 2.6380e-05, 2.8385e-05,
        2.9873e-05, 2.6724e-05], device='cuda:1')
2022-11-15 16:45:30,485 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([0.8982, 1.3161, 1.1240, 1.9040, 1.5664, 1.5491, 0.8657, 1.1014],
       device='cuda:1'), covar=tensor([0.0038, 0.0023, 0.0025, 0.0012, 0.0024, 0.0021, 0.0044, 0.0041],
       device='cuda:1'), in_proj_covar=tensor([0.0019, 0.0020, 0.0018, 0.0017, 0.0019, 0.0015, 0.0018, 0.0018],
       device='cuda:1'), out_proj_covar=tensor([2.5781e-05, 2.8256e-05, 2.2509e-05, 1.8509e-05, 2.1484e-05, 1.8625e-05,
        2.9041e-05, 2.4057e-05], device='cuda:1')
2022-11-15 16:45:47,449 INFO [train.py:876] (1/4) Epoch 3, batch 3300, loss[loss=0.1972, simple_loss=0.1908, pruned_loss=0.1018, over 5643.00 frames. ], tot_loss[loss=0.2245, simple_loss=0.2089, pruned_loss=0.12, over 1088192.33 frames. ], batch size: 29, lr: 2.42e-02, grad_scale: 8.0
2022-11-15 16:45:47,591 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=17845.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 16:45:48,928 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([4.4415, 4.5178, 4.8228, 4.6866, 4.2875, 3.9442, 5.3292, 4.4505],
       device='cuda:1'), covar=tensor([0.0336, 0.0632, 0.0273, 0.0550, 0.0355, 0.0240, 0.0718, 0.0448],
       device='cuda:1'), in_proj_covar=tensor([0.0055, 0.0077, 0.0065, 0.0076, 0.0057, 0.0045, 0.0088, 0.0058],
       device='cuda:1'), out_proj_covar=tensor([0.0001, 0.0002, 0.0002, 0.0002, 0.0001, 0.0001, 0.0002, 0.0001],
       device='cuda:1')
2022-11-15 16:45:55,369 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=2.06 vs. limit=2.0
2022-11-15 16:46:21,796 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=17893.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 16:46:22,441 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.3580, 3.1974, 3.3924, 3.4284, 3.2069, 2.9850, 3.7753, 3.2971],
       device='cuda:1'), covar=tensor([0.0380, 0.0729, 0.0337, 0.0599, 0.0492, 0.0335, 0.0591, 0.0443],
       device='cuda:1'), in_proj_covar=tensor([0.0054, 0.0075, 0.0063, 0.0075, 0.0055, 0.0044, 0.0086, 0.0057],
       device='cuda:1'), out_proj_covar=tensor([0.0001, 0.0002, 0.0001, 0.0002, 0.0001, 0.0001, 0.0002, 0.0001],
       device='cuda:1')
2022-11-15 16:46:24,175 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=2.14 vs. limit=2.0
2022-11-15 16:46:25,565 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=1.99 vs. limit=2.0
2022-11-15 16:46:32,461 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.181e+02 2.187e+02 2.686e+02 3.512e+02 8.499e+02, threshold=5.372e+02, percent-clipped=2.0
2022-11-15 16:46:58,452 INFO [train.py:876] (1/4) Epoch 3, batch 3400, loss[loss=0.2313, simple_loss=0.2019, pruned_loss=0.1303, over 5063.00 frames. ], tot_loss[loss=0.2218, simple_loss=0.207, pruned_loss=0.1183, over 1083537.38 frames. ], batch size: 91, lr: 2.41e-02, grad_scale: 16.0
2022-11-15 16:47:08,843 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=17960.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 16:47:20,454 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.1246, 1.3213, 1.5191, 1.4686, 0.3691, 1.7850, 1.4048, 1.1736],
       device='cuda:1'), covar=tensor([0.0217, 0.0196, 0.0130, 0.0277, 0.0753, 0.0403, 0.0367, 0.0394],
       device='cuda:1'), in_proj_covar=tensor([0.0030, 0.0028, 0.0030, 0.0029, 0.0028, 0.0026, 0.0025, 0.0029],
       device='cuda:1'), out_proj_covar=tensor([5.1330e-05, 4.2421e-05, 4.4697e-05, 4.6580e-05, 4.9647e-05, 4.6513e-05,
        4.1863e-05, 4.7480e-05], device='cuda:1')
2022-11-15 16:47:23,596 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.8032, 3.3284, 2.5332, 3.2204, 2.3146, 2.5096, 1.8702, 2.7275],
       device='cuda:1'), covar=tensor([0.1126, 0.0123, 0.0597, 0.0160, 0.0520, 0.0629, 0.1371, 0.0199],
       device='cuda:1'), in_proj_covar=tensor([0.0173, 0.0109, 0.0155, 0.0104, 0.0132, 0.0168, 0.0184, 0.0110],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0001, 0.0002, 0.0002, 0.0003, 0.0002],
       device='cuda:1')
2022-11-15 16:47:32,659 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=2.03 vs. limit=2.0
2022-11-15 16:47:43,699 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.311e+02 2.080e+02 2.540e+02 3.324e+02 6.629e+02, threshold=5.080e+02, percent-clipped=5.0
2022-11-15 16:47:45,329 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.7270, 2.1637, 2.4768, 3.5667, 3.6847, 2.7059, 2.0671, 3.7838],
       device='cuda:1'), covar=tensor([0.0085, 0.1746, 0.1367, 0.0658, 0.0225, 0.1427, 0.1227, 0.0078],
       device='cuda:1'), in_proj_covar=tensor([0.0121, 0.0221, 0.0232, 0.0190, 0.0168, 0.0241, 0.0209, 0.0123],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0003, 0.0004, 0.0003, 0.0003, 0.0004, 0.0003, 0.0002],
       device='cuda:1')
2022-11-15 16:47:50,084 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=18018.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 16:47:52,129 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=18021.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 16:48:02,078 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.79 vs. limit=2.0
2022-11-15 16:48:04,390 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=18039.0, num_to_drop=1, layers_to_drop={2}
2022-11-15 16:48:09,018 INFO [train.py:876] (1/4) Epoch 3, batch 3500, loss[loss=0.18, simple_loss=0.1821, pruned_loss=0.08896, over 5540.00 frames. ], tot_loss[loss=0.222, simple_loss=0.2073, pruned_loss=0.1184, over 1085685.59 frames. ], batch size: 14, lr: 2.41e-02, grad_scale: 16.0
2022-11-15 16:48:17,492 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=18056.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 16:48:24,391 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=18066.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 16:48:38,158 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=18086.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 16:48:38,775 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=18087.0, num_to_drop=1, layers_to_drop={1}
2022-11-15 16:48:55,270 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.292e+02 2.252e+02 2.672e+02 3.554e+02 6.890e+02, threshold=5.344e+02, percent-clipped=4.0
2022-11-15 16:49:00,886 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.6789, 4.9196, 3.8868, 4.7895, 3.8120, 3.3738, 2.8041, 4.2842],
       device='cuda:1'), covar=tensor([0.1467, 0.0111, 0.0534, 0.0109, 0.0281, 0.0717, 0.1788, 0.0112],
       device='cuda:1'), in_proj_covar=tensor([0.0178, 0.0112, 0.0156, 0.0109, 0.0135, 0.0170, 0.0191, 0.0112],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
       device='cuda:1')
2022-11-15 16:49:20,261 INFO [train.py:876] (1/4) Epoch 3, batch 3600, loss[loss=0.2466, simple_loss=0.2309, pruned_loss=0.1312, over 5664.00 frames. ], tot_loss[loss=0.2198, simple_loss=0.2053, pruned_loss=0.1172, over 1085549.30 frames. ], batch size: 36, lr: 2.40e-02, grad_scale: 16.0
2022-11-15 16:49:41,607 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=18174.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 16:49:42,292 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=18175.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 16:50:06,558 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.401e+02 2.223e+02 2.647e+02 3.378e+02 5.745e+02, threshold=5.295e+02, percent-clipped=2.0
2022-11-15 16:50:11,767 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.9195, 3.7851, 3.7661, 3.6826, 4.1531, 4.0858, 3.6929, 4.0437],
       device='cuda:1'), covar=tensor([0.0812, 0.0755, 0.0881, 0.0670, 0.0536, 0.0349, 0.0966, 0.0763],
       device='cuda:1'), in_proj_covar=tensor([0.0081, 0.0084, 0.0068, 0.0087, 0.0084, 0.0054, 0.0070, 0.0076],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0001, 0.0002, 0.0002],
       device='cuda:1')
2022-11-15 16:50:23,963 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=4.52 vs. limit=5.0
2022-11-15 16:50:25,761 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=18235.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 16:50:26,452 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=18236.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 16:50:32,385 INFO [train.py:876] (1/4) Epoch 3, batch 3700, loss[loss=0.1932, simple_loss=0.1954, pruned_loss=0.09551, over 5738.00 frames. ], tot_loss[loss=0.2226, simple_loss=0.2074, pruned_loss=0.1189, over 1081031.86 frames. ], batch size: 15, lr: 2.40e-02, grad_scale: 16.0
2022-11-15 16:51:12,406 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.5791, 2.3629, 1.5325, 2.4079, 0.9546, 1.4652, 1.8001, 2.0255],
       device='cuda:1'), covar=tensor([0.0234, 0.0198, 0.0802, 0.0358, 0.0663, 0.0249, 0.0339, 0.0803],
       device='cuda:1'), in_proj_covar=tensor([0.0040, 0.0041, 0.0049, 0.0032, 0.0053, 0.0042, 0.0049, 0.0033],
       device='cuda:1'), out_proj_covar=tensor([8.2229e-05, 9.1870e-05, 1.1484e-04, 7.5665e-05, 1.1761e-04, 9.8174e-05,
        1.0536e-04, 7.5200e-05], device='cuda:1')
2022-11-15 16:51:17,619 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.280e+02 2.074e+02 2.681e+02 3.314e+02 6.700e+02, threshold=5.362e+02, percent-clipped=3.0
2022-11-15 16:51:22,573 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=18316.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 16:51:43,465 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.99 vs. limit=2.0
2022-11-15 16:51:43,715 INFO [train.py:876] (1/4) Epoch 3, batch 3800, loss[loss=0.2336, simple_loss=0.2221, pruned_loss=0.1225, over 5585.00 frames. ], tot_loss[loss=0.2225, simple_loss=0.2076, pruned_loss=0.1186, over 1080427.88 frames. ], batch size: 24, lr: 2.39e-02, grad_scale: 16.0
2022-11-15 16:51:50,913 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=2.02 vs. limit=2.0
2022-11-15 16:51:51,399 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=18356.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 16:51:55,524 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.5749, 1.5100, 2.0018, 1.0427, 1.8378, 1.6191, 1.4986, 1.8243],
       device='cuda:1'), covar=tensor([0.0022, 0.0107, 0.0064, 0.0029, 0.0013, 0.0026, 0.0025, 0.0023],
       device='cuda:1'), in_proj_covar=tensor([0.0015, 0.0013, 0.0013, 0.0015, 0.0014, 0.0015, 0.0015, 0.0015],
       device='cuda:1'), out_proj_covar=tensor([2.0330e-05, 1.8412e-05, 1.7805e-05, 1.9637e-05, 1.5518e-05, 1.8639e-05,
        1.9484e-05, 1.9065e-05], device='cuda:1')
2022-11-15 16:51:57,122 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=2.09 vs. limit=2.0
2022-11-15 16:52:02,317 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=2.05 vs. limit=2.0
2022-11-15 16:52:12,767 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=18386.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 16:52:25,087 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=18404.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 16:52:28,470 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.144e+02 2.160e+02 2.623e+02 3.183e+02 6.237e+02, threshold=5.245e+02, percent-clipped=1.0
2022-11-15 16:52:36,874 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.3804, 3.7301, 2.8290, 3.6515, 3.5834, 3.2175, 3.5858, 2.9581],
       device='cuda:1'), covar=tensor([0.0576, 0.0484, 0.1585, 0.0561, 0.0671, 0.0675, 0.0464, 0.1097],
       device='cuda:1'), in_proj_covar=tensor([0.0087, 0.0103, 0.0151, 0.0096, 0.0125, 0.0114, 0.0105, 0.0097],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
       device='cuda:1')
2022-11-15 16:52:46,229 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=18434.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 16:52:54,051 INFO [train.py:876] (1/4) Epoch 3, batch 3900, loss[loss=0.2016, simple_loss=0.2035, pruned_loss=0.09988, over 5504.00 frames. ], tot_loss[loss=0.2197, simple_loss=0.2061, pruned_loss=0.1166, over 1087698.78 frames. ], batch size: 17, lr: 2.38e-02, grad_scale: 16.0
2022-11-15 16:53:11,744 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=2.04 vs. limit=2.0
2022-11-15 16:53:23,497 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.5821, 1.9542, 1.6624, 1.2425, 0.2922, 2.0662, 1.5475, 1.5904],
       device='cuda:1'), covar=tensor([0.0149, 0.0122, 0.0366, 0.0349, 0.0573, 0.0621, 0.0134, 0.0206],
       device='cuda:1'), in_proj_covar=tensor([0.0027, 0.0027, 0.0029, 0.0029, 0.0028, 0.0023, 0.0024, 0.0027],
       device='cuda:1'), out_proj_covar=tensor([4.5145e-05, 4.0750e-05, 4.3745e-05, 4.7511e-05, 4.9324e-05, 4.2609e-05,
        4.0256e-05, 4.4902e-05], device='cuda:1')
2022-11-15 16:53:26,660 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=18490.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 16:53:29,356 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.7756, 2.0664, 1.7585, 1.3936, 0.6141, 1.9997, 1.4857, 1.5240],
       device='cuda:1'), covar=tensor([0.0140, 0.0171, 0.0203, 0.0262, 0.0802, 0.0700, 0.0171, 0.0207],
       device='cuda:1'), in_proj_covar=tensor([0.0028, 0.0027, 0.0029, 0.0030, 0.0028, 0.0023, 0.0024, 0.0027],
       device='cuda:1'), out_proj_covar=tensor([4.5572e-05, 4.1046e-05, 4.4043e-05, 4.7961e-05, 4.9975e-05, 4.3082e-05,
        4.0429e-05, 4.5339e-05], device='cuda:1')
2022-11-15 16:53:36,708 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.81 vs. limit=2.0
2022-11-15 16:53:39,702 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=18508.0, num_to_drop=1, layers_to_drop={0}
2022-11-15 16:53:40,176 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.408e+02 2.213e+02 2.841e+02 3.897e+02 8.408e+02, threshold=5.683e+02, percent-clipped=7.0
2022-11-15 16:53:54,782 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=18530.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 16:53:55,469 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=18531.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 16:54:05,585 INFO [train.py:876] (1/4) Epoch 3, batch 4000, loss[loss=0.1459, simple_loss=0.1656, pruned_loss=0.06306, over 5553.00 frames. ], tot_loss[loss=0.2209, simple_loss=0.2068, pruned_loss=0.1175, over 1085736.53 frames. ], batch size: 13, lr: 2.38e-02, grad_scale: 16.0
2022-11-15 16:54:10,054 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=18551.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 16:54:22,450 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=18569.0, num_to_drop=1, layers_to_drop={2}
2022-11-15 16:54:31,144 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.7455, 3.4012, 3.6161, 3.4055, 3.7690, 3.4423, 3.5148, 3.7119],
       device='cuda:1'), covar=tensor([0.0302, 0.0259, 0.0340, 0.0260, 0.0353, 0.0146, 0.0191, 0.0274],
       device='cuda:1'), in_proj_covar=tensor([0.0081, 0.0084, 0.0071, 0.0091, 0.0087, 0.0055, 0.0072, 0.0079],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0001, 0.0002, 0.0002],
       device='cuda:1')
2022-11-15 16:54:41,054 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=4.74 vs. limit=5.0
2022-11-15 16:54:51,284 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.420e+02 2.156e+02 2.771e+02 3.318e+02 9.148e+02, threshold=5.542e+02, percent-clipped=3.0
2022-11-15 16:54:56,230 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=18616.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 16:55:16,116 INFO [train.py:876] (1/4) Epoch 3, batch 4100, loss[loss=0.2559, simple_loss=0.2308, pruned_loss=0.1405, over 5556.00 frames. ], tot_loss[loss=0.2218, simple_loss=0.2075, pruned_loss=0.118, over 1089961.53 frames. ], batch size: 46, lr: 2.37e-02, grad_scale: 16.0
2022-11-15 16:55:29,860 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=18664.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 16:55:37,269 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=18674.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 16:56:01,442 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.072e+02 2.068e+02 2.779e+02 3.549e+02 8.529e+02, threshold=5.559e+02, percent-clipped=5.0
2022-11-15 16:56:03,120 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.5369, 4.0848, 3.7900, 3.6715, 2.5790, 4.1099, 2.6583, 3.5309],
       device='cuda:1'), covar=tensor([0.0182, 0.0051, 0.0058, 0.0092, 0.0194, 0.0032, 0.0127, 0.0021],
       device='cuda:1'), in_proj_covar=tensor([0.0135, 0.0076, 0.0096, 0.0094, 0.0131, 0.0090, 0.0112, 0.0077],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0001, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0001],
       device='cuda:1')
2022-11-15 16:56:15,452 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=4.42 vs. limit=5.0
2022-11-15 16:56:20,122 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=18735.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 16:56:26,896 INFO [train.py:876] (1/4) Epoch 3, batch 4200, loss[loss=0.2784, simple_loss=0.2412, pruned_loss=0.1578, over 5597.00 frames. ], tot_loss[loss=0.2201, simple_loss=0.2065, pruned_loss=0.1169, over 1093607.08 frames. ], batch size: 43, lr: 2.37e-02, grad_scale: 16.0
2022-11-15 16:57:05,701 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.73 vs. limit=2.0
2022-11-15 16:57:10,767 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.7253, 1.9197, 1.1129, 2.1412, 1.3369, 1.4131, 1.1337, 2.0295],
       device='cuda:1'), covar=tensor([0.0206, 0.0515, 0.0680, 0.1175, 0.0593, 0.1022, 0.0557, 0.0269],
       device='cuda:1'), in_proj_covar=tensor([0.0039, 0.0042, 0.0048, 0.0033, 0.0051, 0.0040, 0.0049, 0.0030],
       device='cuda:1'), out_proj_covar=tensor([8.2298e-05, 9.4514e-05, 1.1542e-04, 7.4900e-05, 1.1279e-04, 9.4536e-05,
        1.0540e-04, 7.0677e-05], device='cuda:1')
2022-11-15 16:57:12,956 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.068e+02 2.085e+02 2.508e+02 3.197e+02 8.828e+02, threshold=5.016e+02, percent-clipped=2.0
2022-11-15 16:57:28,698 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=18830.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 16:57:29,360 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=18831.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 16:57:38,762 INFO [train.py:876] (1/4) Epoch 3, batch 4300, loss[loss=0.2237, simple_loss=0.2109, pruned_loss=0.1182, over 5738.00 frames. ], tot_loss[loss=0.2175, simple_loss=0.2051, pruned_loss=0.1149, over 1085689.26 frames. ], batch size: 31, lr: 2.36e-02, grad_scale: 16.0
2022-11-15 16:57:39,547 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=18846.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 16:57:50,042 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.3569, 0.6915, 0.7989, 1.1794, 0.9348, 1.0558, 1.0249, 0.8259],
       device='cuda:1'), covar=tensor([0.0653, 0.0740, 0.2368, 0.0961, 0.1374, 0.1126, 0.1388, 0.1450],
       device='cuda:1'), in_proj_covar=tensor([0.0010, 0.0013, 0.0010, 0.0011, 0.0011, 0.0010, 0.0011, 0.0011],
       device='cuda:1'), out_proj_covar=tensor([3.0189e-05, 3.2670e-05, 3.1406e-05, 3.2782e-05, 3.0498e-05, 2.9420e-05,
        3.3386e-05, 3.0527e-05], device='cuda:1')
2022-11-15 16:57:52,365 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=18864.0, num_to_drop=1, layers_to_drop={2}
2022-11-15 16:58:01,851 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.6959, 4.4253, 3.6584, 4.3070, 4.3978, 3.3582, 3.8226, 3.2588],
       device='cuda:1'), covar=tensor([0.0290, 0.0290, 0.0976, 0.0294, 0.0384, 0.0605, 0.0398, 0.0819],
       device='cuda:1'), in_proj_covar=tensor([0.0089, 0.0103, 0.0150, 0.0096, 0.0127, 0.0112, 0.0106, 0.0097],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
       device='cuda:1')
2022-11-15 16:58:02,523 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=18878.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 16:58:03,540 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=18879.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 16:58:24,292 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.372e+02 2.437e+02 2.955e+02 3.758e+02 8.175e+02, threshold=5.909e+02, percent-clipped=8.0
2022-11-15 16:58:40,181 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=18930.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 16:58:50,709 INFO [train.py:876] (1/4) Epoch 3, batch 4400, loss[loss=0.2231, simple_loss=0.2061, pruned_loss=0.12, over 5003.00 frames. ], tot_loss[loss=0.2161, simple_loss=0.2041, pruned_loss=0.114, over 1083228.21 frames. ], batch size: 109, lr: 2.35e-02, grad_scale: 16.0
2022-11-15 16:59:04,520 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.98 vs. limit=2.0
2022-11-15 16:59:06,918 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=2.01 vs. limit=2.0
2022-11-15 16:59:23,541 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=18991.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 16:59:36,220 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.259e+02 2.090e+02 2.682e+02 3.252e+02 5.703e+02, threshold=5.365e+02, percent-clipped=0.0
2022-11-15 16:59:51,554 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=19030.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 17:00:02,099 INFO [train.py:876] (1/4) Epoch 3, batch 4500, loss[loss=0.223, simple_loss=0.2189, pruned_loss=0.1136, over 5541.00 frames. ], tot_loss[loss=0.217, simple_loss=0.205, pruned_loss=0.1145, over 1081220.74 frames. ], batch size: 21, lr: 2.35e-02, grad_scale: 16.0
2022-11-15 17:00:10,759 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.3872, 1.3399, 1.3961, 1.4672, 0.3014, 1.8602, 1.3273, 1.0963],
       device='cuda:1'), covar=tensor([0.0204, 0.0193, 0.0335, 0.0367, 0.1340, 0.0332, 0.0270, 0.0502],
       device='cuda:1'), in_proj_covar=tensor([0.0027, 0.0028, 0.0028, 0.0030, 0.0027, 0.0023, 0.0023, 0.0029],
       device='cuda:1'), out_proj_covar=tensor([4.3857e-05, 4.1320e-05, 4.2912e-05, 4.8250e-05, 4.7826e-05, 4.2938e-05,
        3.7960e-05, 4.7120e-05], device='cuda:1')
2022-11-15 17:00:48,080 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.336e+02 1.944e+02 2.562e+02 3.151e+02 4.952e+02, threshold=5.125e+02, percent-clipped=0.0
2022-11-15 17:01:02,223 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=19129.0, num_to_drop=1, layers_to_drop={0}
2022-11-15 17:01:11,452 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.3678, 1.9121, 2.4578, 3.1498, 3.3768, 2.3629, 1.9212, 3.4162],
       device='cuda:1'), covar=tensor([0.0061, 0.2095, 0.1279, 0.0669, 0.0353, 0.1375, 0.1197, 0.0074],
       device='cuda:1'), in_proj_covar=tensor([0.0130, 0.0218, 0.0238, 0.0198, 0.0174, 0.0240, 0.0211, 0.0129],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0003, 0.0004, 0.0003, 0.0003, 0.0004, 0.0003, 0.0002],
       device='cuda:1')
2022-11-15 17:01:13,365 INFO [train.py:876] (1/4) Epoch 3, batch 4600, loss[loss=0.2429, simple_loss=0.2141, pruned_loss=0.1358, over 4752.00 frames. ], tot_loss[loss=0.2191, simple_loss=0.2064, pruned_loss=0.116, over 1078445.22 frames. ], batch size: 135, lr: 2.34e-02, grad_scale: 16.0
2022-11-15 17:01:14,572 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=19146.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 17:01:27,309 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=19164.0, num_to_drop=1, layers_to_drop={1}
2022-11-15 17:01:46,033 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=19190.0, num_to_drop=1, layers_to_drop={1}
2022-11-15 17:01:48,573 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=19194.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 17:01:59,681 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.136e+02 2.110e+02 2.501e+02 3.073e+02 9.500e+02, threshold=5.001e+02, percent-clipped=3.0
2022-11-15 17:02:01,809 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=19212.0, num_to_drop=1, layers_to_drop={1}
2022-11-15 17:02:15,492 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.1659, 0.7216, 0.9749, 1.7568, 1.4942, 1.9209, 0.7719, 1.3657],
       device='cuda:1'), covar=tensor([0.0022, 0.0027, 0.0025, 0.0017, 0.0024, 0.0018, 0.0042, 0.0028],
       device='cuda:1'), in_proj_covar=tensor([0.0019, 0.0018, 0.0019, 0.0018, 0.0020, 0.0015, 0.0019, 0.0017],
       device='cuda:1'), out_proj_covar=tensor([2.3774e-05, 2.5031e-05, 2.2786e-05, 1.8679e-05, 2.2486e-05, 1.7898e-05,
        2.8369e-05, 2.1956e-05], device='cuda:1')
2022-11-15 17:02:24,581 INFO [train.py:876] (1/4) Epoch 3, batch 4700, loss[loss=0.2077, simple_loss=0.2086, pruned_loss=0.1034, over 5611.00 frames. ], tot_loss[loss=0.2161, simple_loss=0.204, pruned_loss=0.1141, over 1079690.49 frames. ], batch size: 18, lr: 2.34e-02, grad_scale: 16.0
2022-11-15 17:02:34,650 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.2164, 1.4512, 1.1751, 1.9429, 1.9931, 2.1660, 0.8301, 1.4489],
       device='cuda:1'), covar=tensor([0.0025, 0.0023, 0.0022, 0.0013, 0.0020, 0.0016, 0.0037, 0.0064],
       device='cuda:1'), in_proj_covar=tensor([0.0019, 0.0018, 0.0019, 0.0018, 0.0020, 0.0016, 0.0019, 0.0018],
       device='cuda:1'), out_proj_covar=tensor([2.4436e-05, 2.5030e-05, 2.2971e-05, 1.9291e-05, 2.2729e-05, 1.8273e-05,
        2.9301e-05, 2.2135e-05], device='cuda:1')
2022-11-15 17:02:51,253 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=4.40 vs. limit=5.0
2022-11-15 17:02:53,841 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=19286.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 17:03:10,434 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.250e+02 2.139e+02 2.654e+02 3.598e+02 8.917e+02, threshold=5.308e+02, percent-clipped=4.0
2022-11-15 17:03:25,177 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=19330.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 17:03:35,204 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.2501, 4.3093, 3.2329, 4.2489, 3.4046, 2.8212, 2.0674, 3.6851],
       device='cuda:1'), covar=tensor([0.1664, 0.0147, 0.0740, 0.0161, 0.0351, 0.0933, 0.2188, 0.0253],
       device='cuda:1'), in_proj_covar=tensor([0.0178, 0.0112, 0.0155, 0.0106, 0.0134, 0.0172, 0.0187, 0.0112],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0003, 0.0002],
       device='cuda:1')
2022-11-15 17:03:35,748 INFO [train.py:876] (1/4) Epoch 3, batch 4800, loss[loss=0.2231, simple_loss=0.2262, pruned_loss=0.11, over 5732.00 frames. ], tot_loss[loss=0.2151, simple_loss=0.2035, pruned_loss=0.1133, over 1086934.21 frames. ], batch size: 20, lr: 2.33e-02, grad_scale: 8.0
2022-11-15 17:03:55,625 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.98 vs. limit=2.0
2022-11-15 17:03:59,327 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=19378.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 17:04:01,433 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([4.0878, 4.1878, 4.0002, 4.4736, 4.0372, 3.5624, 4.9592, 4.1922],
       device='cuda:1'), covar=tensor([0.0475, 0.1234, 0.0483, 0.0725, 0.0497, 0.0321, 0.0589, 0.0310],
       device='cuda:1'), in_proj_covar=tensor([0.0053, 0.0077, 0.0062, 0.0075, 0.0056, 0.0046, 0.0089, 0.0059],
       device='cuda:1'), out_proj_covar=tensor([0.0001, 0.0002, 0.0001, 0.0002, 0.0001, 0.0001, 0.0002, 0.0001],
       device='cuda:1')
2022-11-15 17:04:10,751 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=19394.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 17:04:21,910 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.292e+02 2.238e+02 2.787e+02 3.697e+02 9.222e+02, threshold=5.575e+02, percent-clipped=6.0
2022-11-15 17:04:33,520 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=4.95 vs. limit=5.0
2022-11-15 17:04:47,139 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([0.9444, 0.8639, 0.7854, 0.9159, 1.1190, 1.3734, 0.8661, 1.3096],
       device='cuda:1'), covar=tensor([0.0015, 0.0014, 0.0015, 0.0014, 0.0013, 0.0012, 0.0027, 0.0009],
       device='cuda:1'), in_proj_covar=tensor([0.0019, 0.0018, 0.0019, 0.0018, 0.0019, 0.0016, 0.0019, 0.0017],
       device='cuda:1'), out_proj_covar=tensor([2.3743e-05, 2.4170e-05, 2.2553e-05, 1.9468e-05, 2.2209e-05, 1.8281e-05,
        2.8453e-05, 2.0767e-05], device='cuda:1')
2022-11-15 17:04:47,609 INFO [train.py:876] (1/4) Epoch 3, batch 4900, loss[loss=0.2705, simple_loss=0.2374, pruned_loss=0.1518, over 4921.00 frames. ], tot_loss[loss=0.2151, simple_loss=0.2035, pruned_loss=0.1133, over 1085252.33 frames. ], batch size: 109, lr: 2.32e-02, grad_scale: 8.0
2022-11-15 17:04:54,592 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=19455.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 17:05:16,057 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=19485.0, num_to_drop=1, layers_to_drop={1}
2022-11-15 17:05:33,093 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.277e+02 2.112e+02 2.712e+02 3.360e+02 6.764e+02, threshold=5.425e+02, percent-clipped=2.0
2022-11-15 17:05:35,399 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.8758, 3.1258, 2.9817, 2.9598, 3.0078, 3.0041, 1.1810, 2.9999],
       device='cuda:1'), covar=tensor([0.0254, 0.0150, 0.0189, 0.0145, 0.0267, 0.0195, 0.2234, 0.0238],
       device='cuda:1'), in_proj_covar=tensor([0.0080, 0.0061, 0.0064, 0.0052, 0.0076, 0.0059, 0.0115, 0.0083],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0001, 0.0001, 0.0001, 0.0002, 0.0001, 0.0002, 0.0002],
       device='cuda:1')
2022-11-15 17:05:47,869 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([4.2615, 4.9930, 4.2588, 5.0352, 5.0326, 4.3781, 4.7077, 3.8988],
       device='cuda:1'), covar=tensor([0.0298, 0.0287, 0.1105, 0.0241, 0.0281, 0.0406, 0.0212, 0.0606],
       device='cuda:1'), in_proj_covar=tensor([0.0091, 0.0108, 0.0157, 0.0102, 0.0127, 0.0112, 0.0107, 0.0097],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
       device='cuda:1')
2022-11-15 17:05:58,041 INFO [train.py:876] (1/4) Epoch 3, batch 5000, loss[loss=0.2798, simple_loss=0.2344, pruned_loss=0.1626, over 3071.00 frames. ], tot_loss[loss=0.2137, simple_loss=0.2024, pruned_loss=0.1125, over 1084075.73 frames. ], batch size: 284, lr: 2.32e-02, grad_scale: 8.0
2022-11-15 17:06:12,251 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.2818, 1.9843, 2.4510, 3.2730, 3.4324, 2.3827, 2.0986, 3.4075],
       device='cuda:1'), covar=tensor([0.0097, 0.1841, 0.1357, 0.0818, 0.0230, 0.1534, 0.1280, 0.0080],
       device='cuda:1'), in_proj_covar=tensor([0.0126, 0.0214, 0.0227, 0.0206, 0.0175, 0.0233, 0.0207, 0.0126],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0003, 0.0004, 0.0003, 0.0003, 0.0004, 0.0003, 0.0002],
       device='cuda:1')
2022-11-15 17:06:12,267 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.4657, 1.9340, 3.0847, 2.6045, 3.3937, 2.1047, 2.8346, 3.4812],
       device='cuda:1'), covar=tensor([0.0058, 0.0389, 0.0116, 0.0307, 0.0074, 0.0299, 0.0199, 0.0095],
       device='cuda:1'), in_proj_covar=tensor([0.0113, 0.0171, 0.0129, 0.0180, 0.0122, 0.0160, 0.0182, 0.0143],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0003, 0.0002, 0.0003, 0.0002, 0.0003, 0.0003, 0.0002],
       device='cuda:1')
2022-11-15 17:06:26,439 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=19586.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 17:06:44,100 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.388e+02 2.122e+02 2.600e+02 3.385e+02 5.559e+02, threshold=5.201e+02, percent-clipped=2.0
2022-11-15 17:06:50,197 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=19618.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 17:07:01,378 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=19634.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 17:07:09,599 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=2.11 vs. limit=2.0
2022-11-15 17:07:09,722 INFO [train.py:876] (1/4) Epoch 3, batch 5100, loss[loss=0.2797, simple_loss=0.2597, pruned_loss=0.1499, over 5590.00 frames. ], tot_loss[loss=0.2156, simple_loss=0.2037, pruned_loss=0.1137, over 1086334.50 frames. ], batch size: 23, lr: 2.31e-02, grad_scale: 8.0
2022-11-15 17:07:33,506 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.53 vs. limit=2.0
2022-11-15 17:07:34,071 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=19679.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 17:07:44,459 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=4.88 vs. limit=5.0
2022-11-15 17:07:56,097 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.321e+02 2.277e+02 2.877e+02 3.641e+02 9.302e+02, threshold=5.755e+02, percent-clipped=5.0
2022-11-15 17:08:20,624 INFO [train.py:876] (1/4) Epoch 3, batch 5200, loss[loss=0.1649, simple_loss=0.1742, pruned_loss=0.07777, over 5687.00 frames. ], tot_loss[loss=0.2144, simple_loss=0.2031, pruned_loss=0.1128, over 1082095.25 frames. ], batch size: 19, lr: 2.31e-02, grad_scale: 8.0
2022-11-15 17:08:24,891 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=19750.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 17:08:49,758 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=19785.0, num_to_drop=1, layers_to_drop={0}
2022-11-15 17:09:07,140 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.329e+02 2.129e+02 2.534e+02 3.438e+02 1.087e+03, threshold=5.069e+02, percent-clipped=3.0
2022-11-15 17:09:09,000 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([5.1977, 4.4861, 4.9100, 4.5140, 5.2336, 4.9612, 4.3824, 5.1169],
       device='cuda:1'), covar=tensor([0.0266, 0.0233, 0.0359, 0.0249, 0.0241, 0.0098, 0.0236, 0.0229],
       device='cuda:1'), in_proj_covar=tensor([0.0085, 0.0088, 0.0072, 0.0094, 0.0091, 0.0058, 0.0081, 0.0080],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0001, 0.0002, 0.0002],
       device='cuda:1')
2022-11-15 17:09:17,608 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.6134, 1.3540, 1.7637, 1.4487, 0.5465, 1.6508, 1.4712, 1.3545],
       device='cuda:1'), covar=tensor([0.0198, 0.0190, 0.0186, 0.0263, 0.1226, 0.0868, 0.0356, 0.0270],
       device='cuda:1'), in_proj_covar=tensor([0.0029, 0.0028, 0.0028, 0.0032, 0.0029, 0.0027, 0.0026, 0.0028],
       device='cuda:1'), out_proj_covar=tensor([4.7580e-05, 4.2428e-05, 4.2658e-05, 5.2702e-05, 5.1086e-05, 4.9088e-05,
        4.2009e-05, 4.6788e-05], device='cuda:1')
2022-11-15 17:09:20,668 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.45 vs. limit=2.0
2022-11-15 17:09:23,652 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=19833.0, num_to_drop=1, layers_to_drop={1}
2022-11-15 17:09:32,161 INFO [train.py:876] (1/4) Epoch 3, batch 5300, loss[loss=0.1716, simple_loss=0.1785, pruned_loss=0.08241, over 5484.00 frames. ], tot_loss[loss=0.2164, simple_loss=0.2047, pruned_loss=0.114, over 1089569.15 frames. ], batch size: 10, lr: 2.30e-02, grad_scale: 8.0
2022-11-15 17:09:43,241 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.5015, 1.9760, 1.2608, 1.3377, 1.5593, 1.4590, 1.4402, 1.6291],
       device='cuda:1'), covar=tensor([0.0017, 0.0019, 0.0066, 0.0023, 0.0011, 0.0083, 0.0022, 0.0022],
       device='cuda:1'), in_proj_covar=tensor([0.0015, 0.0013, 0.0012, 0.0015, 0.0014, 0.0015, 0.0016, 0.0014],
       device='cuda:1'), out_proj_covar=tensor([1.9146e-05, 1.7218e-05, 1.6405e-05, 1.8161e-05, 1.5087e-05, 1.7834e-05,
        1.8613e-05, 1.8823e-05], device='cuda:1')
2022-11-15 17:09:59,940 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.5938, 1.8200, 3.0459, 2.5017, 3.3913, 2.3253, 2.8110, 3.3900],
       device='cuda:1'), covar=tensor([0.0051, 0.0473, 0.0123, 0.0394, 0.0073, 0.0288, 0.0230, 0.0140],
       device='cuda:1'), in_proj_covar=tensor([0.0115, 0.0176, 0.0131, 0.0180, 0.0124, 0.0160, 0.0186, 0.0148],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0003, 0.0002, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003],
       device='cuda:1')
2022-11-15 17:10:18,063 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.350e+02 2.053e+02 2.554e+02 3.563e+02 7.883e+02, threshold=5.108e+02, percent-clipped=6.0
2022-11-15 17:10:43,253 INFO [train.py:876] (1/4) Epoch 3, batch 5400, loss[loss=0.2288, simple_loss=0.2071, pruned_loss=0.1252, over 5141.00 frames. ], tot_loss[loss=0.2169, simple_loss=0.2052, pruned_loss=0.1143, over 1092880.79 frames. ], batch size: 91, lr: 2.30e-02, grad_scale: 8.0
2022-11-15 17:10:44,683 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.9228, 4.4956, 3.9087, 4.5878, 4.4841, 3.8724, 3.9475, 3.6401],
       device='cuda:1'), covar=tensor([0.0279, 0.0308, 0.0778, 0.0183, 0.0334, 0.0335, 0.0372, 0.0475],
       device='cuda:1'), in_proj_covar=tensor([0.0088, 0.0105, 0.0150, 0.0097, 0.0127, 0.0111, 0.0107, 0.0096],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
       device='cuda:1')
2022-11-15 17:11:04,389 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=19974.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 17:11:33,650 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.198e+02 2.054e+02 2.433e+02 3.312e+02 7.375e+02, threshold=4.866e+02, percent-clipped=2.0
2022-11-15 17:11:40,711 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=20020.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 17:11:58,779 INFO [train.py:876] (1/4) Epoch 3, batch 5500, loss[loss=0.2205, simple_loss=0.2091, pruned_loss=0.1159, over 5721.00 frames. ], tot_loss[loss=0.2152, simple_loss=0.2039, pruned_loss=0.1132, over 1085301.38 frames. ], batch size: 27, lr: 2.29e-02, grad_scale: 8.0
2022-11-15 17:12:02,262 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=20050.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 17:12:24,748 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=20081.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 17:12:30,171 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=20089.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 17:12:36,666 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=20098.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 17:12:42,266 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.0729, 1.5651, 1.1486, 1.3285, 1.7691, 2.0317, 1.2041, 1.0665],
       device='cuda:1'), covar=tensor([0.0028, 0.0024, 0.0019, 0.0078, 0.0018, 0.0015, 0.0030, 0.0080],
       device='cuda:1'), in_proj_covar=tensor([0.0019, 0.0019, 0.0020, 0.0019, 0.0020, 0.0016, 0.0020, 0.0018],
       device='cuda:1'), out_proj_covar=tensor([2.4598e-05, 2.3739e-05, 2.3276e-05, 2.0798e-05, 2.2430e-05, 1.7071e-05,
        2.9732e-05, 2.2203e-05], device='cuda:1')
2022-11-15 17:12:42,454 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=4.94 vs. limit=5.0
2022-11-15 17:12:45,204 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.380e+02 2.322e+02 3.147e+02 3.867e+02 1.026e+03, threshold=6.293e+02, percent-clipped=11.0
2022-11-15 17:12:46,850 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=20112.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 17:12:53,753 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.58 vs. limit=2.0
2022-11-15 17:13:10,506 INFO [train.py:876] (1/4) Epoch 3, batch 5600, loss[loss=0.1154, simple_loss=0.1273, pruned_loss=0.05176, over 4013.00 frames. ], tot_loss[loss=0.218, simple_loss=0.2058, pruned_loss=0.1151, over 1079687.85 frames. ], batch size: 4, lr: 2.29e-02, grad_scale: 8.0
2022-11-15 17:13:14,141 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=20150.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 17:13:15,714 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=2.00 vs. limit=2.0
2022-11-15 17:13:16,968 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.9612, 2.0032, 2.5005, 3.4641, 3.7396, 2.4697, 2.0452, 3.7925],
       device='cuda:1'), covar=tensor([0.0123, 0.2521, 0.2207, 0.0963, 0.0364, 0.1992, 0.1974, 0.0119],
       device='cuda:1'), in_proj_covar=tensor([0.0131, 0.0219, 0.0224, 0.0209, 0.0179, 0.0232, 0.0213, 0.0134],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0004, 0.0004, 0.0003, 0.0003, 0.0004, 0.0004, 0.0002],
       device='cuda:1')
2022-11-15 17:13:30,566 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=20173.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 17:13:39,702 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=1.93 vs. limit=2.0
2022-11-15 17:13:45,453 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.74 vs. limit=2.0
2022-11-15 17:13:52,972 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=20204.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 17:13:56,931 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.161e+02 2.126e+02 2.547e+02 3.418e+02 6.941e+02, threshold=5.093e+02, percent-clipped=1.0
2022-11-15 17:14:22,625 INFO [train.py:876] (1/4) Epoch 3, batch 5700, loss[loss=0.3407, simple_loss=0.266, pruned_loss=0.2077, over 3013.00 frames. ], tot_loss[loss=0.2175, simple_loss=0.2057, pruned_loss=0.1146, over 1080782.20 frames. ], batch size: 284, lr: 2.28e-02, grad_scale: 8.0
2022-11-15 17:14:36,308 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=20265.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 17:14:40,944 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.56 vs. limit=2.0
2022-11-15 17:14:42,870 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=20274.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 17:15:08,578 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.155e+02 2.183e+02 2.755e+02 3.255e+02 9.254e+02, threshold=5.510e+02, percent-clipped=4.0
2022-11-15 17:15:08,679 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([4.4757, 4.6335, 4.4015, 4.8323, 4.2117, 3.7695, 5.3033, 4.3632],
       device='cuda:1'), covar=tensor([0.0376, 0.0576, 0.0324, 0.0475, 0.0354, 0.0271, 0.0528, 0.0300],
       device='cuda:1'), in_proj_covar=tensor([0.0056, 0.0081, 0.0065, 0.0074, 0.0058, 0.0049, 0.0091, 0.0060],
       device='cuda:1'), out_proj_covar=tensor([0.0001, 0.0002, 0.0002, 0.0002, 0.0001, 0.0001, 0.0002, 0.0001],
       device='cuda:1')
2022-11-15 17:15:16,851 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=20322.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 17:15:23,774 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=2.26 vs. limit=2.0
2022-11-15 17:15:33,291 INFO [train.py:876] (1/4) Epoch 3, batch 5800, loss[loss=0.2245, simple_loss=0.205, pruned_loss=0.122, over 5693.00 frames. ], tot_loss[loss=0.2162, simple_loss=0.2046, pruned_loss=0.1139, over 1084279.85 frames. ], batch size: 36, lr: 2.28e-02, grad_scale: 8.0
2022-11-15 17:15:55,504 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=20376.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 17:16:04,060 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=20388.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 17:16:19,795 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.418e+02 2.270e+02 2.884e+02 3.519e+02 5.566e+02, threshold=5.768e+02, percent-clipped=1.0
2022-11-15 17:16:25,588 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=20418.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 17:16:32,220 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.6285, 1.8012, 1.4801, 2.2957, 1.5026, 1.3557, 1.5535, 1.8274],
       device='cuda:1'), covar=tensor([0.0334, 0.0491, 0.1190, 0.0212, 0.0902, 0.0673, 0.0686, 0.1212],
       device='cuda:1'), in_proj_covar=tensor([0.0040, 0.0044, 0.0053, 0.0036, 0.0057, 0.0045, 0.0051, 0.0038],
       device='cuda:1'), out_proj_covar=tensor([8.7816e-05, 1.0111e-04, 1.3183e-04, 8.4428e-05, 1.3108e-04, 1.0848e-04,
        1.1744e-04, 9.0210e-05], device='cuda:1')
2022-11-15 17:16:44,673 INFO [train.py:876] (1/4) Epoch 3, batch 5900, loss[loss=0.1614, simple_loss=0.1663, pruned_loss=0.0782, over 5509.00 frames. ], tot_loss[loss=0.2139, simple_loss=0.2031, pruned_loss=0.1124, over 1082984.22 frames. ], batch size: 12, lr: 2.27e-02, grad_scale: 8.0
2022-11-15 17:16:44,762 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=20445.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 17:16:47,621 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=20449.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 17:17:00,557 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([4.1058, 3.5567, 3.8623, 3.4151, 4.0929, 3.5830, 3.5475, 3.9208],
       device='cuda:1'), covar=tensor([0.0267, 0.0310, 0.0391, 0.0395, 0.0272, 0.0431, 0.0302, 0.0367],
       device='cuda:1'), in_proj_covar=tensor([0.0083, 0.0085, 0.0070, 0.0093, 0.0087, 0.0055, 0.0078, 0.0080],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0001, 0.0002, 0.0002],
       device='cuda:1')
2022-11-15 17:17:01,268 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=20468.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 17:17:09,327 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=20479.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 17:17:13,818 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=4.61 vs. limit=5.0
2022-11-15 17:17:30,802 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.198e+02 2.074e+02 2.650e+02 3.512e+02 6.887e+02, threshold=5.300e+02, percent-clipped=1.0
2022-11-15 17:17:43,278 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=2.24 vs. limit=2.0
2022-11-15 17:17:45,372 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=1.97 vs. limit=2.0
2022-11-15 17:17:55,883 INFO [train.py:876] (1/4) Epoch 3, batch 6000, loss[loss=0.2116, simple_loss=0.1844, pruned_loss=0.1194, over 4169.00 frames. ], tot_loss[loss=0.213, simple_loss=0.2025, pruned_loss=0.1118, over 1082647.84 frames. ], batch size: 181, lr: 2.27e-02, grad_scale: 8.0
2022-11-15 17:17:55,883 INFO [train.py:899] (1/4) Computing validation loss
2022-11-15 17:18:14,730 INFO [train.py:908] (1/4) Epoch 3, validation: loss=0.1788, simple_loss=0.1971, pruned_loss=0.08032, over 1530663.00 frames. 
2022-11-15 17:18:14,730 INFO [train.py:909] (1/4) Maximum memory allocated so far is 4576MB
2022-11-15 17:18:25,274 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=20560.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 17:18:45,550 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=20588.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 17:18:51,037 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=2.02 vs. limit=2.0
2022-11-15 17:19:00,872 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.234e+02 1.977e+02 2.420e+02 3.254e+02 5.998e+02, threshold=4.840e+02, percent-clipped=5.0
2022-11-15 17:19:25,866 INFO [train.py:876] (1/4) Epoch 3, batch 6100, loss[loss=0.2088, simple_loss=0.2099, pruned_loss=0.1038, over 5544.00 frames. ], tot_loss[loss=0.2122, simple_loss=0.2019, pruned_loss=0.1112, over 1085446.01 frames. ], batch size: 15, lr: 2.26e-02, grad_scale: 8.0
2022-11-15 17:19:28,881 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=20649.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 17:19:47,913 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=20676.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 17:19:56,536 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.8656, 4.5817, 3.7037, 2.1368, 4.3554, 1.8096, 4.6448, 2.4484],
       device='cuda:1'), covar=tensor([0.0960, 0.0125, 0.0407, 0.1939, 0.0173, 0.1886, 0.0070, 0.1828],
       device='cuda:1'), in_proj_covar=tensor([0.0125, 0.0087, 0.0090, 0.0119, 0.0093, 0.0131, 0.0076, 0.0123],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0002, 0.0003, 0.0003, 0.0002, 0.0003, 0.0002, 0.0003],
       device='cuda:1')
2022-11-15 17:20:11,190 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.178e+02 2.120e+02 2.658e+02 3.170e+02 7.084e+02, threshold=5.316e+02, percent-clipped=6.0
2022-11-15 17:20:13,402 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.1656, 4.4354, 3.6231, 4.2940, 3.5080, 2.9439, 2.1245, 3.9802],
       device='cuda:1'), covar=tensor([0.1548, 0.0138, 0.0500, 0.0284, 0.0360, 0.0894, 0.1985, 0.0132],
       device='cuda:1'), in_proj_covar=tensor([0.0170, 0.0115, 0.0158, 0.0110, 0.0139, 0.0175, 0.0183, 0.0111],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0003, 0.0002],
       device='cuda:1')
2022-11-15 17:20:18,142 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.1411, 1.5425, 1.9809, 1.5329, 0.5404, 2.3579, 2.0386, 1.6211],
       device='cuda:1'), covar=tensor([0.0225, 0.0173, 0.0100, 0.0391, 0.0896, 0.0786, 0.0219, 0.0266],
       device='cuda:1'), in_proj_covar=tensor([0.0028, 0.0026, 0.0026, 0.0031, 0.0027, 0.0024, 0.0025, 0.0028],
       device='cuda:1'), out_proj_covar=tensor([4.7863e-05, 4.0959e-05, 4.0224e-05, 5.2013e-05, 4.7645e-05, 4.4445e-05,
        3.9837e-05, 4.5741e-05], device='cuda:1')
2022-11-15 17:20:20,751 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=20724.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 17:20:28,764 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.8979, 2.4117, 1.9725, 1.5486, 2.3214, 1.0784, 2.4651, 1.4335],
       device='cuda:1'), covar=tensor([0.0617, 0.0142, 0.0453, 0.1229, 0.0185, 0.1480, 0.0113, 0.1055],
       device='cuda:1'), in_proj_covar=tensor([0.0123, 0.0086, 0.0089, 0.0116, 0.0091, 0.0128, 0.0075, 0.0119],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0002, 0.0003, 0.0003, 0.0002, 0.0003, 0.0002, 0.0003],
       device='cuda:1')
2022-11-15 17:20:36,117 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=20744.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 17:20:36,748 INFO [train.py:876] (1/4) Epoch 3, batch 6200, loss[loss=0.2494, simple_loss=0.2264, pruned_loss=0.1362, over 5159.00 frames. ], tot_loss[loss=0.2113, simple_loss=0.2009, pruned_loss=0.1108, over 1081374.98 frames. ], batch size: 91, lr: 2.26e-02, grad_scale: 8.0
2022-11-15 17:20:36,870 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=20745.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 17:20:39,090 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=4.66 vs. limit=5.0
2022-11-15 17:20:52,823 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=20768.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 17:20:57,642 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=20774.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 17:20:59,501 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.40 vs. limit=2.0
2022-11-15 17:21:11,100 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=20793.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 17:21:22,961 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.536e+02 2.113e+02 2.498e+02 3.399e+02 6.391e+02, threshold=4.996e+02, percent-clipped=4.0
2022-11-15 17:21:23,187 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([0.9382, 1.6916, 1.1839, 0.8317, 1.5397, 1.1494, 0.7548, 1.2634],
       device='cuda:1'), covar=tensor([0.0019, 0.0010, 0.0014, 0.0009, 0.0013, 0.0009, 0.0031, 0.0020],
       device='cuda:1'), in_proj_covar=tensor([0.0018, 0.0016, 0.0018, 0.0016, 0.0017, 0.0014, 0.0019, 0.0016],
       device='cuda:1'), out_proj_covar=tensor([2.2830e-05, 2.0018e-05, 2.0425e-05, 1.6997e-05, 1.8923e-05, 1.5122e-05,
        2.8131e-05, 1.9147e-05], device='cuda:1')
2022-11-15 17:21:27,276 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=20816.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 17:21:27,629 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.85 vs. limit=2.0
2022-11-15 17:21:47,810 INFO [train.py:876] (1/4) Epoch 3, batch 6300, loss[loss=0.2652, simple_loss=0.2319, pruned_loss=0.1493, over 5425.00 frames. ], tot_loss[loss=0.2138, simple_loss=0.2025, pruned_loss=0.1125, over 1081153.55 frames. ], batch size: 58, lr: 2.25e-02, grad_scale: 8.0
2022-11-15 17:21:58,672 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=20860.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 17:22:31,460 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.6055, 3.7573, 3.7560, 3.9682, 3.5034, 3.0171, 4.3155, 3.7334],
       device='cuda:1'), covar=tensor([0.0538, 0.0797, 0.0423, 0.0572, 0.0654, 0.0462, 0.0657, 0.0367],
       device='cuda:1'), in_proj_covar=tensor([0.0056, 0.0079, 0.0065, 0.0075, 0.0059, 0.0048, 0.0092, 0.0059],
       device='cuda:1'), out_proj_covar=tensor([0.0001, 0.0002, 0.0002, 0.0002, 0.0001, 0.0001, 0.0002, 0.0001],
       device='cuda:1')
2022-11-15 17:22:32,808 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=20908.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 17:22:34,073 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.371e+02 2.128e+02 2.723e+02 3.616e+02 7.802e+02, threshold=5.445e+02, percent-clipped=12.0
2022-11-15 17:22:35,216 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=1.96 vs. limit=2.0
2022-11-15 17:22:58,280 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=20944.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 17:22:58,896 INFO [train.py:876] (1/4) Epoch 3, batch 6400, loss[loss=0.2089, simple_loss=0.2107, pruned_loss=0.1036, over 5624.00 frames. ], tot_loss[loss=0.214, simple_loss=0.2031, pruned_loss=0.1125, over 1086265.52 frames. ], batch size: 38, lr: 2.25e-02, grad_scale: 8.0
2022-11-15 17:23:46,176 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.067e+02 1.963e+02 2.483e+02 3.263e+02 5.829e+02, threshold=4.966e+02, percent-clipped=2.0
2022-11-15 17:23:55,786 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.60 vs. limit=2.0
2022-11-15 17:24:10,685 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=21044.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 17:24:11,259 INFO [train.py:876] (1/4) Epoch 3, batch 6500, loss[loss=0.2969, simple_loss=0.2454, pruned_loss=0.1742, over 5406.00 frames. ], tot_loss[loss=0.2178, simple_loss=0.2057, pruned_loss=0.1149, over 1088266.07 frames. ], batch size: 70, lr: 2.24e-02, grad_scale: 8.0
2022-11-15 17:24:16,251 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=2.27 vs. limit=2.0
2022-11-15 17:24:17,486 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=21052.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 17:24:32,931 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=21074.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 17:24:34,241 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([4.1626, 4.9931, 4.3474, 4.9882, 4.8942, 4.2122, 4.4617, 4.0744],
       device='cuda:1'), covar=tensor([0.0215, 0.0228, 0.0803, 0.0204, 0.0293, 0.0270, 0.0343, 0.0403],
       device='cuda:1'), in_proj_covar=tensor([0.0095, 0.0108, 0.0161, 0.0102, 0.0131, 0.0114, 0.0112, 0.0099],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
       device='cuda:1')
2022-11-15 17:24:45,227 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=21092.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 17:24:58,583 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.422e+02 2.262e+02 2.845e+02 3.817e+02 7.458e+02, threshold=5.690e+02, percent-clipped=11.0
2022-11-15 17:25:00,939 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=21113.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 17:25:04,405 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=21118.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 17:25:06,962 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=21122.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 17:25:22,797 INFO [train.py:876] (1/4) Epoch 3, batch 6600, loss[loss=0.1896, simple_loss=0.1757, pruned_loss=0.1018, over 5496.00 frames. ], tot_loss[loss=0.2138, simple_loss=0.2033, pruned_loss=0.1122, over 1088080.42 frames. ], batch size: 12, lr: 2.23e-02, grad_scale: 8.0
2022-11-15 17:25:47,393 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=21179.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 17:25:49,043 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=4.63 vs. limit=5.0
2022-11-15 17:25:58,101 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([4.9652, 4.3081, 4.7938, 4.5165, 4.9912, 4.6966, 4.2507, 4.9230],
       device='cuda:1'), covar=tensor([0.0279, 0.0221, 0.0327, 0.0215, 0.0249, 0.0128, 0.0215, 0.0204],
       device='cuda:1'), in_proj_covar=tensor([0.0087, 0.0090, 0.0074, 0.0097, 0.0092, 0.0058, 0.0080, 0.0087],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0001, 0.0002, 0.0002],
       device='cuda:1')
2022-11-15 17:26:09,147 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.333e+02 2.074e+02 2.594e+02 3.441e+02 9.119e+02, threshold=5.187e+02, percent-clipped=3.0
2022-11-15 17:26:12,205 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=2.18 vs. limit=2.0
2022-11-15 17:26:20,964 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.6312, 3.8122, 3.5204, 3.9264, 3.5476, 2.9177, 4.2007, 3.5861],
       device='cuda:1'), covar=tensor([0.0443, 0.0593, 0.0559, 0.0583, 0.0515, 0.0383, 0.0666, 0.0466],
       device='cuda:1'), in_proj_covar=tensor([0.0057, 0.0077, 0.0064, 0.0074, 0.0059, 0.0048, 0.0091, 0.0058],
       device='cuda:1'), out_proj_covar=tensor([0.0001, 0.0002, 0.0002, 0.0002, 0.0001, 0.0001, 0.0002, 0.0001],
       device='cuda:1')
2022-11-15 17:26:24,699 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=5.16 vs. limit=5.0
2022-11-15 17:26:33,850 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=21244.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 17:26:34,418 INFO [train.py:876] (1/4) Epoch 3, batch 6700, loss[loss=0.2106, simple_loss=0.2117, pruned_loss=0.1048, over 5523.00 frames. ], tot_loss[loss=0.2116, simple_loss=0.2017, pruned_loss=0.1107, over 1087213.80 frames. ], batch size: 17, lr: 2.23e-02, grad_scale: 8.0
2022-11-15 17:26:35,553 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=2.04 vs. limit=2.0
2022-11-15 17:26:49,773 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=4.36 vs. limit=5.0
2022-11-15 17:27:01,670 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.1578, 4.4336, 3.3787, 3.8629, 3.2449, 4.8771, 2.8194, 4.1906],
       device='cuda:1'), covar=tensor([0.0181, 0.0138, 0.0114, 0.0117, 0.0206, 0.0024, 0.0151, 0.0024],
       device='cuda:1'), in_proj_covar=tensor([0.0139, 0.0082, 0.0100, 0.0105, 0.0136, 0.0095, 0.0119, 0.0080],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0001],
       device='cuda:1')
2022-11-15 17:27:07,741 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=21292.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 17:27:20,391 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.449e+02 2.110e+02 2.601e+02 3.417e+02 8.582e+02, threshold=5.201e+02, percent-clipped=1.0
2022-11-15 17:27:22,005 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=21312.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 17:27:33,701 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=21328.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 17:27:45,488 INFO [train.py:876] (1/4) Epoch 3, batch 6800, loss[loss=0.1954, simple_loss=0.196, pruned_loss=0.09746, over 5742.00 frames. ], tot_loss[loss=0.2114, simple_loss=0.2013, pruned_loss=0.1108, over 1087315.03 frames. ], batch size: 27, lr: 2.22e-02, grad_scale: 16.0
2022-11-15 17:27:51,034 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.99 vs. limit=2.0
2022-11-15 17:28:05,225 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=21373.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 17:28:17,375 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=21389.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 17:28:30,804 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=21408.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 17:28:32,050 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.395e+02 2.037e+02 2.447e+02 3.250e+02 5.677e+02, threshold=4.895e+02, percent-clipped=2.0
2022-11-15 17:28:39,207 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.9973, 1.0021, 1.2707, 0.5942, 1.0515, 1.8280, 1.3433, 1.3128],
       device='cuda:1'), covar=tensor([0.2495, 0.0394, 0.0913, 0.4656, 0.0793, 0.0388, 0.0847, 0.0928],
       device='cuda:1'), in_proj_covar=tensor([0.0008, 0.0010, 0.0008, 0.0009, 0.0009, 0.0008, 0.0009, 0.0008],
       device='cuda:1'), out_proj_covar=tensor([2.7708e-05, 2.9961e-05, 2.5901e-05, 2.9476e-05, 2.9255e-05, 2.7607e-05,
        3.0074e-05, 2.7382e-05], device='cuda:1')
2022-11-15 17:28:57,299 INFO [train.py:876] (1/4) Epoch 3, batch 6900, loss[loss=0.2444, simple_loss=0.2171, pruned_loss=0.1358, over 5708.00 frames. ], tot_loss[loss=0.2094, simple_loss=0.2006, pruned_loss=0.1091, over 1089518.75 frames. ], batch size: 36, lr: 2.22e-02, grad_scale: 16.0
2022-11-15 17:29:17,882 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=21474.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 17:29:43,552 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.421e+02 2.216e+02 2.709e+02 3.216e+02 6.064e+02, threshold=5.419e+02, percent-clipped=2.0
2022-11-15 17:29:59,679 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.5382, 3.1303, 3.4372, 3.0990, 3.5993, 3.4469, 3.2085, 3.5517],
       device='cuda:1'), covar=tensor([0.0304, 0.0317, 0.0338, 0.0337, 0.0316, 0.0128, 0.0301, 0.0314],
       device='cuda:1'), in_proj_covar=tensor([0.0084, 0.0087, 0.0070, 0.0097, 0.0093, 0.0055, 0.0079, 0.0085],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0001, 0.0002, 0.0002],
       device='cuda:1')
2022-11-15 17:30:08,649 INFO [train.py:876] (1/4) Epoch 3, batch 7000, loss[loss=0.2487, simple_loss=0.2229, pruned_loss=0.1372, over 5723.00 frames. ], tot_loss[loss=0.2131, simple_loss=0.2026, pruned_loss=0.1118, over 1087025.31 frames. ], batch size: 17, lr: 2.22e-02, grad_scale: 16.0
2022-11-15 17:30:31,818 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.59 vs. limit=2.0
2022-11-15 17:30:43,776 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=21595.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 17:30:55,041 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.332e+02 2.225e+02 2.783e+02 3.485e+02 7.501e+02, threshold=5.566e+02, percent-clipped=1.0
2022-11-15 17:30:56,222 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=1.96 vs. limit=2.0
2022-11-15 17:30:57,267 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=21613.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 17:30:59,752 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=4.55 vs. limit=5.0
2022-11-15 17:31:12,252 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=4.94 vs. limit=5.0
2022-11-15 17:31:19,547 INFO [train.py:876] (1/4) Epoch 3, batch 7100, loss[loss=0.1535, simple_loss=0.1608, pruned_loss=0.0731, over 5205.00 frames. ], tot_loss[loss=0.2102, simple_loss=0.2003, pruned_loss=0.1101, over 1086522.69 frames. ], batch size: 8, lr: 2.21e-02, grad_scale: 16.0
2022-11-15 17:31:27,579 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=21656.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 17:31:29,195 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=2.04 vs. limit=2.0
2022-11-15 17:31:30,325 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.2361, 0.5150, 1.1380, 1.0716, 0.9489, 1.2830, 0.9233, 0.9364],
       device='cuda:1'), covar=tensor([0.2438, 0.0367, 0.1126, 0.2252, 0.0529, 0.0411, 0.2009, 0.2704],
       device='cuda:1'), in_proj_covar=tensor([0.0009, 0.0010, 0.0008, 0.0009, 0.0009, 0.0008, 0.0009, 0.0008],
       device='cuda:1'), out_proj_covar=tensor([2.9121e-05, 3.0685e-05, 2.6329e-05, 2.9603e-05, 2.9616e-05, 2.8106e-05,
        2.9873e-05, 2.7864e-05], device='cuda:1')
2022-11-15 17:31:36,529 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=21668.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 17:31:37,983 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.9206, 4.2782, 3.4688, 2.0041, 4.2251, 1.6222, 4.1771, 2.3273],
       device='cuda:1'), covar=tensor([0.0987, 0.0133, 0.0395, 0.2092, 0.0167, 0.1928, 0.0134, 0.1601],
       device='cuda:1'), in_proj_covar=tensor([0.0128, 0.0090, 0.0093, 0.0121, 0.0094, 0.0131, 0.0079, 0.0124],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0002, 0.0003, 0.0003, 0.0003, 0.0004, 0.0002, 0.0003],
       device='cuda:1')
2022-11-15 17:31:40,745 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=21674.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 17:31:47,844 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=21684.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 17:32:04,379 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=21708.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 17:32:05,618 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.022e+02 2.184e+02 2.618e+02 3.432e+02 5.543e+02, threshold=5.236e+02, percent-clipped=0.0
2022-11-15 17:32:31,156 INFO [train.py:876] (1/4) Epoch 3, batch 7200, loss[loss=0.1765, simple_loss=0.1792, pruned_loss=0.08692, over 5588.00 frames. ], tot_loss[loss=0.2102, simple_loss=0.2005, pruned_loss=0.1099, over 1090935.48 frames. ], batch size: 18, lr: 2.21e-02, grad_scale: 16.0
2022-11-15 17:32:38,707 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=21756.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 17:32:43,670 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=21763.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 17:32:51,894 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=21774.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 17:33:16,994 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.323e+02 2.105e+02 2.662e+02 3.428e+02 5.862e+02, threshold=5.324e+02, percent-clipped=2.0
2022-11-15 17:33:17,731 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([4.9228, 4.4247, 4.7242, 4.4182, 4.9930, 4.8936, 4.2295, 4.9747],
       device='cuda:1'), covar=tensor([0.0405, 0.0265, 0.0460, 0.0290, 0.0434, 0.0096, 0.0299, 0.0295],
       device='cuda:1'), in_proj_covar=tensor([0.0086, 0.0089, 0.0073, 0.0098, 0.0097, 0.0056, 0.0080, 0.0088],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0001, 0.0002, 0.0002],
       device='cuda:1')
2022-11-15 17:33:18,864 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=5.53 vs. limit=5.0
2022-11-15 17:34:13,369 INFO [train.py:876] (1/4) Epoch 4, batch 0, loss[loss=0.1793, simple_loss=0.1831, pruned_loss=0.08774, over 5554.00 frames. ], tot_loss[loss=0.1793, simple_loss=0.1831, pruned_loss=0.08774, over 5554.00 frames. ], batch size: 14, lr: 2.06e-02, grad_scale: 16.0
2022-11-15 17:34:13,370 INFO [train.py:899] (1/4) Computing validation loss
2022-11-15 17:34:20,438 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.8670, 3.8602, 3.6755, 3.8597, 3.8851, 4.0305, 4.0211, 3.9750],
       device='cuda:1'), covar=tensor([0.0464, 0.0387, 0.0546, 0.0385, 0.0579, 0.0155, 0.0299, 0.0484],
       device='cuda:1'), in_proj_covar=tensor([0.0086, 0.0088, 0.0072, 0.0097, 0.0096, 0.0056, 0.0080, 0.0087],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0001, 0.0002, 0.0002],
       device='cuda:1')
2022-11-15 17:34:22,092 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([4.6034, 4.4326, 4.7245, 4.3388, 4.6199, 4.3567, 5.0195, 4.4783],
       device='cuda:1'), covar=tensor([0.0448, 0.1131, 0.0335, 0.0720, 0.0354, 0.0294, 0.0754, 0.0272],
       device='cuda:1'), in_proj_covar=tensor([0.0055, 0.0077, 0.0063, 0.0073, 0.0057, 0.0048, 0.0091, 0.0059],
       device='cuda:1'), out_proj_covar=tensor([0.0001, 0.0002, 0.0002, 0.0002, 0.0001, 0.0001, 0.0002, 0.0001],
       device='cuda:1')
2022-11-15 17:34:27,593 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([0.7600, 0.8143, 1.2748, 0.7698, 0.8795, 0.8657, 0.7600, 1.0318],
       device='cuda:1'), covar=tensor([0.1827, 0.0640, 0.0313, 0.1951, 0.1323, 0.0958, 0.0648, 0.0915],
       device='cuda:1'), in_proj_covar=tensor([0.0008, 0.0010, 0.0008, 0.0008, 0.0009, 0.0009, 0.0009, 0.0009],
       device='cuda:1'), out_proj_covar=tensor([2.9260e-05, 3.0943e-05, 2.6788e-05, 2.9744e-05, 2.9754e-05, 2.9359e-05,
        2.9969e-05, 2.8538e-05], device='cuda:1')
2022-11-15 17:34:30,174 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([4.7690, 2.8948, 4.3408, 3.6629, 4.5307, 3.1067, 3.9548, 4.6725],
       device='cuda:1'), covar=tensor([0.0069, 0.0520, 0.0114, 0.0481, 0.0045, 0.0395, 0.0312, 0.0170],
       device='cuda:1'), in_proj_covar=tensor([0.0128, 0.0174, 0.0141, 0.0191, 0.0131, 0.0165, 0.0194, 0.0160],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0003, 0.0002, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003],
       device='cuda:1')
2022-11-15 17:34:30,838 INFO [train.py:908] (1/4) Epoch 4, validation: loss=0.1863, simple_loss=0.204, pruned_loss=0.08431, over 1530663.00 frames. 
2022-11-15 17:34:30,839 INFO [train.py:909] (1/4) Maximum memory allocated so far is 4576MB
2022-11-15 17:34:34,342 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=21822.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 17:34:35,828 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=21824.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 17:34:55,150 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=21850.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 17:35:21,165 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([5.1172, 4.4853, 4.9412, 4.5236, 5.0936, 4.9810, 4.1377, 5.0268],
       device='cuda:1'), covar=tensor([0.0270, 0.0215, 0.0318, 0.0287, 0.0285, 0.0097, 0.0246, 0.0247],
       device='cuda:1'), in_proj_covar=tensor([0.0086, 0.0089, 0.0072, 0.0098, 0.0097, 0.0057, 0.0080, 0.0087],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0001, 0.0002, 0.0002],
       device='cuda:1')
2022-11-15 17:35:38,006 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.349e+02 2.101e+02 2.586e+02 3.383e+02 7.997e+02, threshold=5.171e+02, percent-clipped=3.0
2022-11-15 17:35:38,894 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=21911.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 17:35:42,904 INFO [train.py:876] (1/4) Epoch 4, batch 100, loss[loss=0.1657, simple_loss=0.174, pruned_loss=0.07872, over 5708.00 frames. ], tot_loss[loss=0.2155, simple_loss=0.2043, pruned_loss=0.1133, over 426412.55 frames. ], batch size: 11, lr: 2.05e-02, grad_scale: 16.0
2022-11-15 17:36:07,078 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=21951.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 17:36:15,705 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.1017, 1.8554, 2.0841, 2.8549, 2.8488, 2.2345, 1.5888, 3.1646],
       device='cuda:1'), covar=tensor([0.0177, 0.2438, 0.1984, 0.1100, 0.0409, 0.1842, 0.1725, 0.0181],
       device='cuda:1'), in_proj_covar=tensor([0.0134, 0.0220, 0.0225, 0.0228, 0.0182, 0.0231, 0.0205, 0.0139],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0004, 0.0004, 0.0004, 0.0003, 0.0004, 0.0004, 0.0002],
       device='cuda:1')
2022-11-15 17:36:19,005 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=21968.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 17:36:19,641 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=21969.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 17:36:20,408 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=21970.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 17:36:29,984 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=21984.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 17:36:49,995 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.351e+02 2.318e+02 2.900e+02 3.607e+02 8.310e+02, threshold=5.801e+02, percent-clipped=7.0
2022-11-15 17:36:53,601 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=22016.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 17:36:54,234 INFO [train.py:876] (1/4) Epoch 4, batch 200, loss[loss=0.1756, simple_loss=0.1884, pruned_loss=0.08143, over 5726.00 frames. ], tot_loss[loss=0.2103, simple_loss=0.2015, pruned_loss=0.1095, over 688011.42 frames. ], batch size: 15, lr: 2.05e-02, grad_scale: 8.0
2022-11-15 17:37:04,779 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=22031.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 17:37:05,302 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=22032.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 17:37:08,732 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.6608, 3.9932, 3.3801, 4.0142, 3.8716, 3.3401, 3.2679, 2.9954],
       device='cuda:1'), covar=tensor([0.0476, 0.0380, 0.1316, 0.0289, 0.0329, 0.0441, 0.0456, 0.0722],
       device='cuda:1'), in_proj_covar=tensor([0.0098, 0.0114, 0.0172, 0.0107, 0.0135, 0.0119, 0.0116, 0.0101],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0003, 0.0002, 0.0003, 0.0002, 0.0002, 0.0002],
       device='cuda:1')
2022-11-15 17:37:16,525 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.7278, 4.1649, 3.6330, 2.7941, 2.5078, 4.1074, 2.5498, 3.7153],
       device='cuda:1'), covar=tensor([0.0220, 0.0060, 0.0094, 0.0253, 0.0288, 0.0047, 0.0168, 0.0035],
       device='cuda:1'), in_proj_covar=tensor([0.0145, 0.0085, 0.0106, 0.0109, 0.0141, 0.0100, 0.0119, 0.0084],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0002],
       device='cuda:1')
2022-11-15 17:37:32,563 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([4.1276, 1.9719, 3.9300, 2.8721, 4.0065, 2.7055, 3.6147, 4.2256],
       device='cuda:1'), covar=tensor([0.0068, 0.0702, 0.0108, 0.0543, 0.0065, 0.0443, 0.0325, 0.0114],
       device='cuda:1'), in_proj_covar=tensor([0.0127, 0.0172, 0.0138, 0.0189, 0.0128, 0.0162, 0.0190, 0.0155],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0003, 0.0002, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003],
       device='cuda:1')
2022-11-15 17:37:49,150 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.0982, 1.9074, 1.5996, 2.1155, 1.1611, 1.2654, 1.5839, 2.1774],
       device='cuda:1'), covar=tensor([0.0647, 0.0739, 0.1547, 0.0644, 0.1313, 0.1524, 0.0815, 0.0368],
       device='cuda:1'), in_proj_covar=tensor([0.0042, 0.0046, 0.0057, 0.0041, 0.0057, 0.0046, 0.0054, 0.0039],
       device='cuda:1'), out_proj_covar=tensor([9.9170e-05, 1.1110e-04, 1.4581e-04, 9.9906e-05, 1.3667e-04, 1.1733e-04,
        1.2863e-04, 9.8385e-05], device='cuda:1')
2022-11-15 17:38:01,669 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.234e+02 1.970e+02 2.360e+02 3.051e+02 4.623e+02, threshold=4.719e+02, percent-clipped=0.0
2022-11-15 17:38:06,229 INFO [train.py:876] (1/4) Epoch 4, batch 300, loss[loss=0.2205, simple_loss=0.1996, pruned_loss=0.1207, over 5475.00 frames. ], tot_loss[loss=0.2067, simple_loss=0.1992, pruned_loss=0.1071, over 843757.51 frames. ], batch size: 64, lr: 2.05e-02, grad_scale: 8.0
2022-11-15 17:38:07,663 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=22119.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 17:38:15,911 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=22130.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 17:38:29,724 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.1253, 1.2606, 1.3323, 1.1169, 1.7075, 1.4128, 1.2194, 1.5215],
       device='cuda:1'), covar=tensor([0.0014, 0.0015, 0.0012, 0.0013, 0.0013, 0.0008, 0.0017, 0.0018],
       device='cuda:1'), in_proj_covar=tensor([0.0020, 0.0018, 0.0019, 0.0018, 0.0018, 0.0017, 0.0020, 0.0017],
       device='cuda:1'), out_proj_covar=tensor([2.3363e-05, 2.2855e-05, 2.1224e-05, 1.9222e-05, 1.9446e-05, 1.5918e-05,
        2.9263e-05, 1.8571e-05], device='cuda:1')
2022-11-15 17:38:43,811 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([0.8508, 1.1043, 1.1210, 1.1728, 1.5541, 1.2872, 1.1289, 1.3040],
       device='cuda:1'), covar=tensor([0.0020, 0.0016, 0.0017, 0.0019, 0.0014, 0.0008, 0.0045, 0.0010],
       device='cuda:1'), in_proj_covar=tensor([0.0020, 0.0018, 0.0019, 0.0018, 0.0018, 0.0017, 0.0020, 0.0017],
       device='cuda:1'), out_proj_covar=tensor([2.3465e-05, 2.2653e-05, 2.1221e-05, 1.9265e-05, 1.9407e-05, 1.5970e-05,
        2.9512e-05, 1.8631e-05], device='cuda:1')
2022-11-15 17:38:48,229 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=22176.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 17:38:59,417 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=22191.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 17:39:09,865 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=22206.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 17:39:13,072 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.175e+02 2.158e+02 2.699e+02 3.433e+02 6.693e+02, threshold=5.398e+02, percent-clipped=7.0
2022-11-15 17:39:15,904 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=22215.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 17:39:17,098 INFO [train.py:876] (1/4) Epoch 4, batch 400, loss[loss=0.1975, simple_loss=0.2048, pruned_loss=0.09508, over 5717.00 frames. ], tot_loss[loss=0.206, simple_loss=0.1986, pruned_loss=0.1067, over 944010.26 frames. ], batch size: 28, lr: 2.04e-02, grad_scale: 8.0
2022-11-15 17:39:31,520 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=22237.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 17:39:31,541 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=22237.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 17:39:41,373 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=22251.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 17:39:54,909 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=22269.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 17:39:59,921 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=22276.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 17:40:15,789 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=22298.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 17:40:16,319 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=22299.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 17:40:25,359 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.316e+02 2.107e+02 2.622e+02 3.333e+02 5.947e+02, threshold=5.245e+02, percent-clipped=1.0
2022-11-15 17:40:29,486 INFO [train.py:876] (1/4) Epoch 4, batch 500, loss[loss=0.1703, simple_loss=0.1789, pruned_loss=0.0809, over 5613.00 frames. ], tot_loss[loss=0.2071, simple_loss=0.1989, pruned_loss=0.1076, over 1001167.76 frames. ], batch size: 18, lr: 2.04e-02, grad_scale: 8.0
2022-11-15 17:40:29,531 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=22317.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 17:40:35,644 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=22326.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 17:40:51,086 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([4.2512, 4.7786, 4.1155, 4.8547, 4.7340, 4.1308, 4.1992, 3.8825],
       device='cuda:1'), covar=tensor([0.0248, 0.0368, 0.1137, 0.0267, 0.0323, 0.0333, 0.0345, 0.0647],
       device='cuda:1'), in_proj_covar=tensor([0.0097, 0.0113, 0.0172, 0.0107, 0.0136, 0.0119, 0.0116, 0.0102],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0003, 0.0002, 0.0003, 0.0002, 0.0002, 0.0002],
       device='cuda:1')
2022-11-15 17:41:17,527 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=22385.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 17:41:36,530 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.346e+02 2.045e+02 2.785e+02 3.827e+02 6.845e+02, threshold=5.570e+02, percent-clipped=5.0
2022-11-15 17:41:40,691 INFO [train.py:876] (1/4) Epoch 4, batch 600, loss[loss=0.1779, simple_loss=0.1765, pruned_loss=0.08965, over 5034.00 frames. ], tot_loss[loss=0.2063, simple_loss=0.1988, pruned_loss=0.1069, over 1032772.74 frames. ], batch size: 7, lr: 2.03e-02, grad_scale: 8.0
2022-11-15 17:41:42,567 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=22419.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 17:42:01,056 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=22446.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 17:42:05,538 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([0.5607, 0.9813, 0.9600, 0.7456, 1.1329, 1.3611, 0.7961, 0.8225],
       device='cuda:1'), covar=tensor([0.0017, 0.0009, 0.0012, 0.0011, 0.0013, 0.0008, 0.0023, 0.0016],
       device='cuda:1'), in_proj_covar=tensor([0.0021, 0.0020, 0.0021, 0.0020, 0.0021, 0.0018, 0.0022, 0.0020],
       device='cuda:1'), out_proj_covar=tensor([2.5757e-05, 2.5586e-05, 2.3032e-05, 2.0923e-05, 2.2564e-05, 1.6717e-05,
        3.2945e-05, 2.2462e-05], device='cuda:1')
2022-11-15 17:42:16,337 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=22467.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 17:42:18,381 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=4.81 vs. limit=5.0
2022-11-15 17:42:29,716 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=22486.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 17:42:33,898 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.8633, 4.7672, 3.6787, 1.8672, 4.4714, 1.9131, 4.2100, 2.8014],
       device='cuda:1'), covar=tensor([0.1017, 0.0090, 0.0309, 0.2096, 0.0119, 0.1541, 0.0141, 0.1379],
       device='cuda:1'), in_proj_covar=tensor([0.0128, 0.0088, 0.0094, 0.0121, 0.0095, 0.0130, 0.0080, 0.0123],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0002, 0.0003, 0.0003, 0.0003, 0.0004, 0.0002, 0.0003],
       device='cuda:1')
2022-11-15 17:42:43,784 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=22506.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 17:42:47,539 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.340e+02 1.953e+02 2.259e+02 3.253e+02 4.972e+02, threshold=4.518e+02, percent-clipped=0.0
2022-11-15 17:42:51,951 INFO [train.py:876] (1/4) Epoch 4, batch 700, loss[loss=0.1914, simple_loss=0.1941, pruned_loss=0.09437, over 5689.00 frames. ], tot_loss[loss=0.2045, simple_loss=0.1976, pruned_loss=0.1058, over 1051799.25 frames. ], batch size: 19, lr: 2.03e-02, grad_scale: 8.0
2022-11-15 17:42:52,755 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([4.9883, 5.1947, 4.8949, 4.9511, 4.9262, 4.8183, 2.2079, 5.0166],
       device='cuda:1'), covar=tensor([0.0139, 0.0084, 0.0189, 0.0156, 0.0161, 0.0186, 0.2099, 0.0138],
       device='cuda:1'), in_proj_covar=tensor([0.0085, 0.0067, 0.0066, 0.0057, 0.0081, 0.0062, 0.0122, 0.0085],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0001, 0.0001, 0.0001, 0.0002, 0.0001, 0.0002, 0.0002],
       device='cuda:1')
2022-11-15 17:42:53,094 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=2.04 vs. limit=2.0
2022-11-15 17:43:02,572 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=22532.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 17:43:18,016 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=22554.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 17:43:18,765 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.9463, 4.6335, 3.9103, 4.6080, 4.5660, 3.8427, 3.9353, 3.5706],
       device='cuda:1'), covar=tensor([0.0429, 0.0468, 0.1083, 0.0414, 0.0394, 0.0514, 0.0636, 0.0703],
       device='cuda:1'), in_proj_covar=tensor([0.0105, 0.0118, 0.0177, 0.0112, 0.0139, 0.0124, 0.0121, 0.0107],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0003, 0.0002, 0.0003, 0.0002, 0.0002, 0.0002],
       device='cuda:1')
2022-11-15 17:43:19,730 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=2.01 vs. limit=2.0
2022-11-15 17:43:30,240 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=22571.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 17:43:45,941 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=22593.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 17:43:51,212 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.1221, 0.9521, 1.3180, 0.8489, 1.3710, 1.6194, 0.9253, 0.9255],
       device='cuda:1'), covar=tensor([0.0021, 0.0012, 0.0016, 0.0020, 0.0018, 0.0007, 0.0029, 0.0017],
       device='cuda:1'), in_proj_covar=tensor([0.0022, 0.0020, 0.0021, 0.0021, 0.0021, 0.0018, 0.0022, 0.0019],
       device='cuda:1'), out_proj_covar=tensor([2.5993e-05, 2.5551e-05, 2.2593e-05, 2.1392e-05, 2.2087e-05, 1.6757e-05,
        3.2934e-05, 2.1476e-05], device='cuda:1')
2022-11-15 17:43:54,714 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.4208, 3.7253, 3.3946, 3.3027, 2.1557, 3.7584, 2.1061, 3.2760],
       device='cuda:1'), covar=tensor([0.0255, 0.0101, 0.0089, 0.0146, 0.0328, 0.0054, 0.0221, 0.0040],
       device='cuda:1'), in_proj_covar=tensor([0.0147, 0.0090, 0.0109, 0.0113, 0.0146, 0.0104, 0.0124, 0.0084],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0002],
       device='cuda:1')
2022-11-15 17:43:58,687 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.225e+02 2.071e+02 2.662e+02 3.271e+02 7.195e+02, threshold=5.325e+02, percent-clipped=7.0
2022-11-15 17:44:03,253 INFO [train.py:876] (1/4) Epoch 4, batch 800, loss[loss=0.2262, simple_loss=0.2179, pruned_loss=0.1173, over 5590.00 frames. ], tot_loss[loss=0.2061, simple_loss=0.1992, pruned_loss=0.1065, over 1068260.40 frames. ], batch size: 22, lr: 2.02e-02, grad_scale: 8.0
2022-11-15 17:44:09,826 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=22626.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 17:44:11,233 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.1331, 1.8379, 2.7824, 2.3077, 2.7389, 1.8593, 2.4321, 2.8879],
       device='cuda:1'), covar=tensor([0.0085, 0.0447, 0.0137, 0.0367, 0.0115, 0.0369, 0.0247, 0.0164],
       device='cuda:1'), in_proj_covar=tensor([0.0132, 0.0181, 0.0146, 0.0194, 0.0132, 0.0172, 0.0198, 0.0171],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0003, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003],
       device='cuda:1')
2022-11-15 17:44:19,322 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=22639.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 17:44:43,330 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=22674.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 17:45:01,837 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=22700.0, num_to_drop=1, layers_to_drop={2}
2022-11-15 17:45:09,602 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.215e+02 2.138e+02 2.671e+02 3.427e+02 5.214e+02, threshold=5.342e+02, percent-clipped=0.0
2022-11-15 17:45:13,840 INFO [train.py:876] (1/4) Epoch 4, batch 900, loss[loss=0.1545, simple_loss=0.1584, pruned_loss=0.07534, over 5679.00 frames. ], tot_loss[loss=0.2026, simple_loss=0.1966, pruned_loss=0.1043, over 1076646.86 frames. ], batch size: 8, lr: 2.02e-02, grad_scale: 8.0
2022-11-15 17:45:31,223 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=22741.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 17:45:56,870 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.70 vs. limit=2.0
2022-11-15 17:45:59,256 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.4008, 1.4253, 1.3392, 1.0689, 1.2442, 0.9930, 0.9281, 0.9011],
       device='cuda:1'), covar=tensor([0.0012, 0.0011, 0.0013, 0.0009, 0.0010, 0.0019, 0.0021, 0.0021],
       device='cuda:1'), in_proj_covar=tensor([0.0012, 0.0012, 0.0011, 0.0012, 0.0012, 0.0013, 0.0014, 0.0012],
       device='cuda:1'), out_proj_covar=tensor([1.4445e-05, 1.4546e-05, 1.3750e-05, 1.4455e-05, 1.2230e-05, 1.5229e-05,
        1.6751e-05, 1.6156e-05], device='cuda:1')
2022-11-15 17:46:03,077 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=22786.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 17:46:08,934 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=22794.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 17:46:20,974 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.117e+02 2.200e+02 2.748e+02 3.509e+02 2.017e+03, threshold=5.496e+02, percent-clipped=6.0
2022-11-15 17:46:25,455 INFO [train.py:876] (1/4) Epoch 4, batch 1000, loss[loss=0.1851, simple_loss=0.1914, pruned_loss=0.08939, over 5569.00 frames. ], tot_loss[loss=0.2038, simple_loss=0.1967, pruned_loss=0.1054, over 1077271.31 frames. ], batch size: 22, lr: 2.02e-02, grad_scale: 8.0
2022-11-15 17:46:31,084 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=22825.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 17:46:31,838 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.8222, 2.5193, 2.4689, 1.1666, 2.9243, 2.8816, 2.8587, 3.0351],
       device='cuda:1'), covar=tensor([0.1079, 0.0823, 0.0471, 0.1600, 0.0146, 0.0180, 0.0140, 0.0166],
       device='cuda:1'), in_proj_covar=tensor([0.0182, 0.0180, 0.0128, 0.0189, 0.0124, 0.0115, 0.0115, 0.0132],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0003, 0.0002, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002],
       device='cuda:1')
2022-11-15 17:46:35,859 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=22832.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 17:46:37,246 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=22834.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 17:46:47,081 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([4.0422, 4.4608, 3.8708, 4.4818, 4.4706, 3.8405, 3.8636, 3.7399],
       device='cuda:1'), covar=tensor([0.0355, 0.0408, 0.1025, 0.0332, 0.0309, 0.0342, 0.0375, 0.0502],
       device='cuda:1'), in_proj_covar=tensor([0.0099, 0.0114, 0.0171, 0.0106, 0.0137, 0.0117, 0.0117, 0.0104],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0003, 0.0002, 0.0003, 0.0002, 0.0002, 0.0002],
       device='cuda:1')
2022-11-15 17:46:52,932 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=22855.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 17:47:04,121 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=22871.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 17:47:10,245 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=22880.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 17:47:14,482 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=22886.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 17:47:19,581 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=22893.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 17:47:32,215 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.242e+02 1.971e+02 2.339e+02 2.906e+02 5.624e+02, threshold=4.678e+02, percent-clipped=1.0
2022-11-15 17:47:36,400 INFO [train.py:876] (1/4) Epoch 4, batch 1100, loss[loss=0.2393, simple_loss=0.2138, pruned_loss=0.1324, over 5013.00 frames. ], tot_loss[loss=0.205, simple_loss=0.1979, pruned_loss=0.1061, over 1077879.55 frames. ], batch size: 110, lr: 2.01e-02, grad_scale: 8.0
2022-11-15 17:47:37,873 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=22919.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 17:47:53,253 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=22941.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 17:48:31,528 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=22995.0, num_to_drop=1, layers_to_drop={3}
2022-11-15 17:48:43,816 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.434e+02 2.126e+02 2.633e+02 3.216e+02 6.006e+02, threshold=5.267e+02, percent-clipped=5.0
2022-11-15 17:48:44,820 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.62 vs. limit=2.0
2022-11-15 17:48:47,958 INFO [train.py:876] (1/4) Epoch 4, batch 1200, loss[loss=0.2499, simple_loss=0.2288, pruned_loss=0.1355, over 5565.00 frames. ], tot_loss[loss=0.205, simple_loss=0.1977, pruned_loss=0.1062, over 1079141.15 frames. ], batch size: 43, lr: 2.01e-02, grad_scale: 8.0
2022-11-15 17:48:49,562 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.8781, 1.9064, 3.5475, 2.5940, 3.7817, 2.3474, 3.4419, 3.8049],
       device='cuda:1'), covar=tensor([0.0083, 0.0586, 0.0149, 0.0533, 0.0106, 0.0459, 0.0264, 0.0189],
       device='cuda:1'), in_proj_covar=tensor([0.0134, 0.0175, 0.0141, 0.0187, 0.0134, 0.0167, 0.0194, 0.0163],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0003, 0.0002, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003],
       device='cuda:1')
2022-11-15 17:49:04,977 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=23041.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 17:49:34,885 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.6313, 1.4002, 1.3376, 2.0147, 1.3388, 1.4732, 1.2906, 1.6770],
       device='cuda:1'), covar=tensor([0.0454, 0.0844, 0.1657, 0.0582, 0.1209, 0.0799, 0.1051, 0.0620],
       device='cuda:1'), in_proj_covar=tensor([0.0040, 0.0051, 0.0060, 0.0043, 0.0058, 0.0047, 0.0057, 0.0041],
       device='cuda:1'), out_proj_covar=tensor([9.9137e-05, 1.2408e-04, 1.5436e-04, 1.0821e-04, 1.4251e-04, 1.2191e-04,
        1.3641e-04, 1.0752e-04], device='cuda:1')
2022-11-15 17:49:38,854 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=23089.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 17:49:52,049 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=23108.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 17:49:54,246 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.201e+02 2.049e+02 2.605e+02 3.403e+02 6.305e+02, threshold=5.209e+02, percent-clipped=2.0
2022-11-15 17:49:55,294 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.95 vs. limit=2.0
2022-11-15 17:49:58,726 INFO [train.py:876] (1/4) Epoch 4, batch 1300, loss[loss=0.2242, simple_loss=0.1909, pruned_loss=0.1287, over 4100.00 frames. ], tot_loss[loss=0.2019, simple_loss=0.1962, pruned_loss=0.1038, over 1082239.96 frames. ], batch size: 181, lr: 2.00e-02, grad_scale: 8.0
2022-11-15 17:50:21,976 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=23150.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 17:50:36,156 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=23169.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 17:50:44,511 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=23181.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 17:51:01,647 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([0.7628, 1.2339, 1.4075, 1.9985, 1.3232, 1.0477, 1.7400, 1.3486],
       device='cuda:1'), covar=tensor([0.0028, 0.0065, 0.0109, 0.0020, 0.0033, 0.0073, 0.0028, 0.0032],
       device='cuda:1'), in_proj_covar=tensor([0.0013, 0.0014, 0.0013, 0.0015, 0.0014, 0.0016, 0.0016, 0.0014],
       device='cuda:1'), out_proj_covar=tensor([1.6260e-05, 1.7416e-05, 1.5976e-05, 1.6806e-05, 1.3991e-05, 1.8666e-05,
        1.9328e-05, 1.8012e-05], device='cuda:1')
2022-11-15 17:51:05,598 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 9.170e+01 2.060e+02 2.584e+02 3.363e+02 5.860e+02, threshold=5.168e+02, percent-clipped=2.0
2022-11-15 17:51:06,468 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.4161, 2.2175, 2.7684, 3.4312, 3.6732, 2.8092, 2.0634, 3.5843],
       device='cuda:1'), covar=tensor([0.0149, 0.2907, 0.1919, 0.1951, 0.0462, 0.2709, 0.2357, 0.0132],
       device='cuda:1'), in_proj_covar=tensor([0.0143, 0.0220, 0.0227, 0.0245, 0.0191, 0.0231, 0.0206, 0.0142],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0004, 0.0004, 0.0004, 0.0003, 0.0004, 0.0004, 0.0003],
       device='cuda:1')
2022-11-15 17:51:09,744 INFO [train.py:876] (1/4) Epoch 4, batch 1400, loss[loss=0.159, simple_loss=0.171, pruned_loss=0.07349, over 5445.00 frames. ], tot_loss[loss=0.1992, simple_loss=0.1944, pruned_loss=0.102, over 1083396.66 frames. ], batch size: 11, lr: 2.00e-02, grad_scale: 8.0
2022-11-15 17:51:09,913 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=23217.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 17:51:19,224 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=23229.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 17:51:25,430 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=4.79 vs. limit=5.0
2022-11-15 17:51:43,861 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([0.9082, 1.1341, 1.0535, 0.6986, 1.2444, 1.4884, 1.1297, 1.1725],
       device='cuda:1'), covar=tensor([0.0016, 0.0010, 0.0010, 0.0015, 0.0012, 0.0009, 0.0027, 0.0019],
       device='cuda:1'), in_proj_covar=tensor([0.0021, 0.0019, 0.0019, 0.0019, 0.0020, 0.0018, 0.0020, 0.0017],
       device='cuda:1'), out_proj_covar=tensor([2.5279e-05, 2.3635e-05, 2.0510e-05, 1.9723e-05, 2.0548e-05, 1.6852e-05,
        2.9161e-05, 1.8249e-05], device='cuda:1')
2022-11-15 17:51:52,661 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.4969, 1.7706, 1.4296, 0.9825, 1.5839, 1.4267, 1.0755, 1.6844],
       device='cuda:1'), covar=tensor([0.0017, 0.0015, 0.0013, 0.0017, 0.0016, 0.0014, 0.0014, 0.0020],
       device='cuda:1'), in_proj_covar=tensor([0.0021, 0.0019, 0.0019, 0.0019, 0.0020, 0.0018, 0.0020, 0.0017],
       device='cuda:1'), out_proj_covar=tensor([2.5310e-05, 2.3668e-05, 2.0468e-05, 1.9722e-05, 2.0522e-05, 1.6754e-05,
        2.9159e-05, 1.8428e-05], device='cuda:1')
2022-11-15 17:51:53,362 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=23278.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 17:52:02,008 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.4209, 1.9905, 2.5063, 3.2810, 3.4697, 2.4275, 2.0873, 3.5470],
       device='cuda:1'), covar=tensor([0.0139, 0.2614, 0.2266, 0.1775, 0.0513, 0.2569, 0.2169, 0.0150],
       device='cuda:1'), in_proj_covar=tensor([0.0142, 0.0222, 0.0227, 0.0247, 0.0193, 0.0229, 0.0206, 0.0143],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0004, 0.0004, 0.0004, 0.0003, 0.0004, 0.0004, 0.0003],
       device='cuda:1')
2022-11-15 17:52:02,682 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=23290.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 17:52:06,055 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=23295.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 17:52:17,016 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.385e+02 2.039e+02 2.495e+02 2.958e+02 6.410e+02, threshold=4.991e+02, percent-clipped=2.0
2022-11-15 17:52:21,017 INFO [train.py:876] (1/4) Epoch 4, batch 1500, loss[loss=0.2734, simple_loss=0.2364, pruned_loss=0.1552, over 5458.00 frames. ], tot_loss[loss=0.203, simple_loss=0.1972, pruned_loss=0.1045, over 1086364.13 frames. ], batch size: 53, lr: 1.99e-02, grad_scale: 8.0
2022-11-15 17:52:39,665 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=23343.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 17:53:27,572 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.369e+02 2.167e+02 2.612e+02 3.180e+02 6.082e+02, threshold=5.224e+02, percent-clipped=1.0
2022-11-15 17:53:32,217 INFO [train.py:876] (1/4) Epoch 4, batch 1600, loss[loss=0.1093, simple_loss=0.1303, pruned_loss=0.04416, over 5497.00 frames. ], tot_loss[loss=0.2029, simple_loss=0.1968, pruned_loss=0.1045, over 1085682.51 frames. ], batch size: 10, lr: 1.99e-02, grad_scale: 8.0
2022-11-15 17:53:43,579 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.1072, 1.9953, 2.3814, 3.0941, 3.1307, 2.4352, 1.9224, 3.4081],
       device='cuda:1'), covar=tensor([0.0218, 0.3123, 0.2167, 0.1722, 0.0582, 0.2059, 0.2257, 0.0177],
       device='cuda:1'), in_proj_covar=tensor([0.0142, 0.0219, 0.0228, 0.0252, 0.0196, 0.0227, 0.0206, 0.0144],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0004, 0.0004, 0.0004, 0.0003, 0.0004, 0.0004, 0.0003],
       device='cuda:1')
2022-11-15 17:53:47,500 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([0.9985, 2.0804, 1.7951, 1.0362, 0.3422, 1.5336, 1.3034, 1.4264],
       device='cuda:1'), covar=tensor([0.0271, 0.0175, 0.0316, 0.0761, 0.1322, 0.0892, 0.0765, 0.0447],
       device='cuda:1'), in_proj_covar=tensor([0.0033, 0.0031, 0.0033, 0.0036, 0.0033, 0.0027, 0.0030, 0.0035],
       device='cuda:1'), out_proj_covar=tensor([5.6157e-05, 4.6792e-05, 5.0751e-05, 6.5915e-05, 5.9463e-05, 4.9952e-05,
        5.2180e-05, 5.6849e-05], device='cuda:1')
2022-11-15 17:53:56,061 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=23450.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 17:54:05,588 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=23464.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 17:54:17,877 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=23481.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 17:54:22,753 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=23488.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 17:54:29,479 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=23498.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 17:54:37,195 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=2.01 vs. limit=2.0
2022-11-15 17:54:39,499 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.059e+02 1.935e+02 2.419e+02 3.182e+02 7.599e+02, threshold=4.837e+02, percent-clipped=7.0
2022-11-15 17:54:40,335 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.8388, 3.9050, 3.5078, 3.5468, 3.7657, 3.6936, 1.2604, 3.8221],
       device='cuda:1'), covar=tensor([0.0373, 0.0256, 0.0341, 0.0236, 0.0336, 0.0348, 0.3251, 0.0310],
       device='cuda:1'), in_proj_covar=tensor([0.0087, 0.0066, 0.0067, 0.0060, 0.0081, 0.0065, 0.0122, 0.0087],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0001, 0.0001, 0.0001, 0.0002, 0.0001, 0.0002, 0.0002],
       device='cuda:1')
2022-11-15 17:54:43,667 INFO [train.py:876] (1/4) Epoch 4, batch 1700, loss[loss=0.223, simple_loss=0.2003, pruned_loss=0.1228, over 5542.00 frames. ], tot_loss[loss=0.2028, simple_loss=0.1969, pruned_loss=0.1043, over 1086716.42 frames. ], batch size: 13, lr: 1.99e-02, grad_scale: 8.0
2022-11-15 17:54:51,900 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=23529.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 17:55:06,123 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=23549.0, num_to_drop=1, layers_to_drop={3}
2022-11-15 17:55:18,065 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.8290, 3.9799, 2.9347, 1.9329, 3.7869, 1.3159, 3.7118, 2.3278],
       device='cuda:1'), covar=tensor([0.0823, 0.0100, 0.0650, 0.1785, 0.0162, 0.1743, 0.0138, 0.1161],
       device='cuda:1'), in_proj_covar=tensor([0.0127, 0.0090, 0.0097, 0.0119, 0.0096, 0.0130, 0.0082, 0.0119],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0003, 0.0003, 0.0003, 0.0003, 0.0004, 0.0002, 0.0003],
       device='cuda:1')
2022-11-15 17:55:23,673 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=23573.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 17:55:25,209 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.6892, 3.9566, 3.4181, 3.3679, 2.4863, 4.0710, 2.4851, 3.7673],
       device='cuda:1'), covar=tensor([0.0260, 0.0111, 0.0110, 0.0309, 0.0299, 0.0063, 0.0221, 0.0061],
       device='cuda:1'), in_proj_covar=tensor([0.0144, 0.0090, 0.0107, 0.0112, 0.0143, 0.0103, 0.0121, 0.0087],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0002],
       device='cuda:1')
2022-11-15 17:55:32,250 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=23585.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 17:55:41,969 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([5.3970, 4.8972, 5.1911, 4.8183, 5.3721, 5.2490, 4.6292, 5.4124],
       device='cuda:1'), covar=tensor([0.0336, 0.0203, 0.0380, 0.0280, 0.0395, 0.0082, 0.0186, 0.0192],
       device='cuda:1'), in_proj_covar=tensor([0.0092, 0.0094, 0.0078, 0.0101, 0.0095, 0.0060, 0.0084, 0.0089],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0001, 0.0002, 0.0002],
       device='cuda:1')
2022-11-15 17:55:51,047 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.312e+02 2.088e+02 2.577e+02 3.329e+02 6.388e+02, threshold=5.153e+02, percent-clipped=6.0
2022-11-15 17:55:55,437 INFO [train.py:876] (1/4) Epoch 4, batch 1800, loss[loss=0.2465, simple_loss=0.2222, pruned_loss=0.1354, over 5577.00 frames. ], tot_loss[loss=0.2041, simple_loss=0.1975, pruned_loss=0.1053, over 1085285.17 frames. ], batch size: 54, lr: 1.98e-02, grad_scale: 8.0
2022-11-15 17:56:09,678 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.9821, 2.8034, 2.9213, 0.9421, 2.8985, 3.2619, 3.0136, 3.1377],
       device='cuda:1'), covar=tensor([0.1505, 0.1038, 0.0595, 0.2113, 0.0198, 0.0264, 0.0169, 0.0187],
       device='cuda:1'), in_proj_covar=tensor([0.0179, 0.0177, 0.0129, 0.0190, 0.0127, 0.0120, 0.0113, 0.0134],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0003, 0.0002, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002],
       device='cuda:1')
2022-11-15 17:57:01,358 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.273e+02 2.086e+02 2.661e+02 3.167e+02 7.420e+02, threshold=5.321e+02, percent-clipped=1.0
2022-11-15 17:57:05,424 INFO [train.py:876] (1/4) Epoch 4, batch 1900, loss[loss=0.2836, simple_loss=0.2367, pruned_loss=0.1652, over 4092.00 frames. ], tot_loss[loss=0.2023, simple_loss=0.1967, pruned_loss=0.1039, over 1087487.34 frames. ], batch size: 181, lr: 1.98e-02, grad_scale: 8.0
2022-11-15 17:57:39,176 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=23764.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 17:58:00,865 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.3537, 1.9795, 2.8963, 3.3884, 3.8468, 2.9717, 2.4604, 3.9387],
       device='cuda:1'), covar=tensor([0.0230, 0.3315, 0.2092, 0.2902, 0.0419, 0.1974, 0.2071, 0.0148],
       device='cuda:1'), in_proj_covar=tensor([0.0142, 0.0216, 0.0220, 0.0254, 0.0194, 0.0223, 0.0202, 0.0147],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0004, 0.0004, 0.0004, 0.0003, 0.0004, 0.0004, 0.0003],
       device='cuda:1')
2022-11-15 17:58:07,494 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([4.1641, 4.0744, 4.1549, 3.9361, 4.1191, 4.0351, 1.4429, 4.1407],
       device='cuda:1'), covar=tensor([0.0210, 0.0309, 0.0190, 0.0179, 0.0248, 0.0228, 0.3207, 0.0254],
       device='cuda:1'), in_proj_covar=tensor([0.0088, 0.0067, 0.0068, 0.0060, 0.0082, 0.0064, 0.0123, 0.0088],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0001, 0.0001, 0.0001, 0.0002, 0.0001, 0.0002, 0.0002],
       device='cuda:1')
2022-11-15 17:58:12,700 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.186e+02 2.073e+02 2.797e+02 3.748e+02 9.524e+02, threshold=5.593e+02, percent-clipped=9.0
2022-11-15 17:58:13,469 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=23812.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 17:58:16,810 INFO [train.py:876] (1/4) Epoch 4, batch 2000, loss[loss=0.1904, simple_loss=0.192, pruned_loss=0.09438, over 5738.00 frames. ], tot_loss[loss=0.2062, simple_loss=0.1987, pruned_loss=0.1068, over 1080908.37 frames. ], batch size: 27, lr: 1.97e-02, grad_scale: 8.0
2022-11-15 17:58:18,385 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.6258, 4.2863, 3.5543, 3.4807, 2.5767, 4.2043, 2.4684, 3.6996],
       device='cuda:1'), covar=tensor([0.0258, 0.0079, 0.0098, 0.0222, 0.0287, 0.0057, 0.0210, 0.0037],
       device='cuda:1'), in_proj_covar=tensor([0.0147, 0.0092, 0.0111, 0.0115, 0.0146, 0.0107, 0.0127, 0.0090],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0002],
       device='cuda:1')
2022-11-15 17:58:20,570 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=4.56 vs. limit=5.0
2022-11-15 17:58:34,206 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=7.06 vs. limit=5.0
2022-11-15 17:58:36,713 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=23844.0, num_to_drop=1, layers_to_drop={3}
2022-11-15 17:58:56,894 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=23873.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 17:59:00,930 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.5216, 4.6408, 3.0356, 4.4848, 3.5638, 3.1984, 2.5761, 3.9940],
       device='cuda:1'), covar=tensor([0.1405, 0.0135, 0.0855, 0.0155, 0.0402, 0.0780, 0.1573, 0.0158],
       device='cuda:1'), in_proj_covar=tensor([0.0183, 0.0120, 0.0170, 0.0115, 0.0158, 0.0182, 0.0195, 0.0124],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0002, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003, 0.0002],
       device='cuda:1')
2022-11-15 17:59:05,554 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=23885.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 17:59:23,777 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.127e+02 2.154e+02 2.632e+02 3.272e+02 6.334e+02, threshold=5.263e+02, percent-clipped=2.0
2022-11-15 17:59:27,899 INFO [train.py:876] (1/4) Epoch 4, batch 2100, loss[loss=0.2732, simple_loss=0.2402, pruned_loss=0.1531, over 5483.00 frames. ], tot_loss[loss=0.204, simple_loss=0.1973, pruned_loss=0.1054, over 1082762.00 frames. ], batch size: 53, lr: 1.97e-02, grad_scale: 8.0
2022-11-15 17:59:31,171 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=23921.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 17:59:39,170 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=23933.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 18:00:32,838 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.4368, 4.9745, 3.6818, 2.0856, 4.7257, 1.8905, 4.4060, 2.5917],
       device='cuda:1'), covar=tensor([0.0842, 0.0077, 0.0328, 0.2050, 0.0119, 0.1831, 0.0136, 0.1629],
       device='cuda:1'), in_proj_covar=tensor([0.0126, 0.0091, 0.0096, 0.0121, 0.0096, 0.0130, 0.0083, 0.0124],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0003, 0.0003, 0.0004, 0.0003, 0.0004, 0.0002, 0.0004],
       device='cuda:1')
2022-11-15 18:00:34,706 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.500e+02 2.023e+02 2.446e+02 2.916e+02 5.131e+02, threshold=4.891e+02, percent-clipped=0.0
2022-11-15 18:00:38,753 INFO [train.py:876] (1/4) Epoch 4, batch 2200, loss[loss=0.2137, simple_loss=0.2072, pruned_loss=0.1101, over 5681.00 frames. ], tot_loss[loss=0.2026, simple_loss=0.1961, pruned_loss=0.1045, over 1081239.28 frames. ], batch size: 28, lr: 1.97e-02, grad_scale: 16.0
2022-11-15 18:00:53,040 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=24037.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 18:00:53,847 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.0242, 2.4798, 2.6520, 2.5793, 1.6233, 2.6529, 1.8004, 2.1292],
       device='cuda:1'), covar=tensor([0.0135, 0.0033, 0.0055, 0.0067, 0.0168, 0.0042, 0.0123, 0.0045],
       device='cuda:1'), in_proj_covar=tensor([0.0141, 0.0090, 0.0106, 0.0110, 0.0141, 0.0102, 0.0122, 0.0087],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0002],
       device='cuda:1')
2022-11-15 18:01:33,009 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=3.99 vs. limit=5.0
2022-11-15 18:01:36,336 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=24098.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 18:01:45,263 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.225e+02 2.100e+02 2.713e+02 3.440e+02 7.345e+02, threshold=5.426e+02, percent-clipped=3.0
2022-11-15 18:01:50,146 INFO [train.py:876] (1/4) Epoch 4, batch 2300, loss[loss=0.2587, simple_loss=0.2225, pruned_loss=0.1474, over 5536.00 frames. ], tot_loss[loss=0.2008, simple_loss=0.1942, pruned_loss=0.1037, over 1076457.03 frames. ], batch size: 46, lr: 1.96e-02, grad_scale: 16.0
2022-11-15 18:02:08,844 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=24144.0, num_to_drop=1, layers_to_drop={1}
2022-11-15 18:02:42,464 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=24192.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 18:02:55,080 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.2295, 3.5945, 3.3630, 3.2774, 2.2140, 3.6725, 1.9696, 3.2380],
       device='cuda:1'), covar=tensor([0.0271, 0.0100, 0.0086, 0.0181, 0.0281, 0.0064, 0.0248, 0.0050],
       device='cuda:1'), in_proj_covar=tensor([0.0144, 0.0092, 0.0108, 0.0113, 0.0143, 0.0104, 0.0126, 0.0090],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0002],
       device='cuda:1')
2022-11-15 18:02:56,252 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.235e+02 1.961e+02 2.462e+02 3.190e+02 6.497e+02, threshold=4.924e+02, percent-clipped=3.0
2022-11-15 18:03:00,410 INFO [train.py:876] (1/4) Epoch 4, batch 2400, loss[loss=0.2159, simple_loss=0.2126, pruned_loss=0.1096, over 5606.00 frames. ], tot_loss[loss=0.2016, simple_loss=0.1955, pruned_loss=0.1038, over 1081667.74 frames. ], batch size: 18, lr: 1.96e-02, grad_scale: 16.0
2022-11-15 18:03:08,468 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=2.05 vs. limit=2.0
2022-11-15 18:03:29,063 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=2.09 vs. limit=2.0
2022-11-15 18:04:07,100 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.243e+02 2.091e+02 2.435e+02 3.216e+02 5.165e+02, threshold=4.869e+02, percent-clipped=2.0
2022-11-15 18:04:11,700 INFO [train.py:876] (1/4) Epoch 4, batch 2500, loss[loss=0.2002, simple_loss=0.2017, pruned_loss=0.09939, over 5565.00 frames. ], tot_loss[loss=0.2022, simple_loss=0.1965, pruned_loss=0.104, over 1083819.81 frames. ], batch size: 24, lr: 1.96e-02, grad_scale: 16.0
2022-11-15 18:04:19,422 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.8143, 1.8883, 2.2103, 2.7925, 2.8693, 2.2385, 1.8821, 3.0678],
       device='cuda:1'), covar=tensor([0.0322, 0.2168, 0.2047, 0.1309, 0.0550, 0.2374, 0.1854, 0.0194],
       device='cuda:1'), in_proj_covar=tensor([0.0146, 0.0224, 0.0232, 0.0267, 0.0201, 0.0234, 0.0209, 0.0146],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0003],
       device='cuda:1')
2022-11-15 18:04:34,830 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.3230, 1.2182, 1.7634, 1.1942, 1.3560, 1.6345, 1.0081, 1.7554],
       device='cuda:1'), covar=tensor([0.0031, 0.0022, 0.0011, 0.0015, 0.0030, 0.0014, 0.0022, 0.0022],
       device='cuda:1'), in_proj_covar=tensor([0.0021, 0.0020, 0.0019, 0.0019, 0.0020, 0.0018, 0.0019, 0.0018],
       device='cuda:1'), out_proj_covar=tensor([2.4140e-05, 2.3451e-05, 1.8601e-05, 1.9043e-05, 2.0949e-05, 1.6808e-05,
        2.6921e-05, 1.8504e-05], device='cuda:1')
2022-11-15 18:05:01,988 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.7642, 4.2316, 3.0308, 3.9171, 3.9668, 3.6092, 3.7741, 3.5660],
       device='cuda:1'), covar=tensor([0.0423, 0.0570, 0.2205, 0.0813, 0.0742, 0.0570, 0.0415, 0.0766],
       device='cuda:1'), in_proj_covar=tensor([0.0101, 0.0114, 0.0181, 0.0114, 0.0142, 0.0125, 0.0124, 0.0108],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0003, 0.0002, 0.0003, 0.0002, 0.0002, 0.0002],
       device='cuda:1')
2022-11-15 18:05:05,220 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=24393.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 18:05:09,910 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.4612, 1.9260, 3.1182, 2.5660, 3.4403, 1.9618, 2.8294, 3.5611],
       device='cuda:1'), covar=tensor([0.0175, 0.0687, 0.0198, 0.0558, 0.0117, 0.0561, 0.0423, 0.0200],
       device='cuda:1'), in_proj_covar=tensor([0.0148, 0.0184, 0.0153, 0.0198, 0.0142, 0.0175, 0.0210, 0.0171],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0004, 0.0003],
       device='cuda:1')
2022-11-15 18:05:18,633 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.341e+02 2.064e+02 2.482e+02 3.355e+02 5.467e+02, threshold=4.964e+02, percent-clipped=1.0
2022-11-15 18:05:21,764 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=2.00 vs. limit=2.0
2022-11-15 18:05:22,808 INFO [train.py:876] (1/4) Epoch 4, batch 2600, loss[loss=0.1301, simple_loss=0.1545, pruned_loss=0.05282, over 5563.00 frames. ], tot_loss[loss=0.2005, simple_loss=0.1953, pruned_loss=0.1029, over 1084047.31 frames. ], batch size: 15, lr: 1.95e-02, grad_scale: 16.0
2022-11-15 18:06:03,382 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.0613, 0.9748, 1.1262, 1.0442, 1.1734, 1.7123, 1.3589, 1.1694],
       device='cuda:1'), covar=tensor([0.1429, 0.0613, 0.0489, 0.1046, 0.1051, 0.0566, 0.0307, 0.0867],
       device='cuda:1'), in_proj_covar=tensor([0.0008, 0.0011, 0.0009, 0.0008, 0.0009, 0.0008, 0.0009, 0.0008],
       device='cuda:1'), out_proj_covar=tensor([2.9184e-05, 3.4174e-05, 3.1260e-05, 3.1734e-05, 3.1993e-05, 2.9361e-05,
        3.0311e-05, 3.0502e-05], device='cuda:1')
2022-11-15 18:06:24,516 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.1587, 4.2828, 2.9041, 4.2509, 3.2683, 2.9036, 2.0283, 3.6662],
       device='cuda:1'), covar=tensor([0.1256, 0.0126, 0.0805, 0.0137, 0.0446, 0.0785, 0.1641, 0.0164],
       device='cuda:1'), in_proj_covar=tensor([0.0176, 0.0117, 0.0164, 0.0114, 0.0152, 0.0175, 0.0188, 0.0122],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0002, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003, 0.0002],
       device='cuda:1')
2022-11-15 18:06:29,498 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.062e+02 1.874e+02 2.327e+02 3.027e+02 6.734e+02, threshold=4.654e+02, percent-clipped=5.0
2022-11-15 18:06:33,930 INFO [train.py:876] (1/4) Epoch 4, batch 2700, loss[loss=0.1514, simple_loss=0.1704, pruned_loss=0.06615, over 5562.00 frames. ], tot_loss[loss=0.2004, simple_loss=0.1949, pruned_loss=0.103, over 1082973.69 frames. ], batch size: 15, lr: 1.95e-02, grad_scale: 16.0
2022-11-15 18:06:55,306 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=24547.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 18:07:11,178 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=24569.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 18:07:38,834 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=24608.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 18:07:40,661 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.287e+02 2.178e+02 2.525e+02 3.048e+02 6.598e+02, threshold=5.050e+02, percent-clipped=4.0
2022-11-15 18:07:45,018 INFO [train.py:876] (1/4) Epoch 4, batch 2800, loss[loss=0.1179, simple_loss=0.1408, pruned_loss=0.04751, over 4554.00 frames. ], tot_loss[loss=0.2002, simple_loss=0.1949, pruned_loss=0.1028, over 1083801.91 frames. ], batch size: 5, lr: 1.94e-02, grad_scale: 16.0
2022-11-15 18:07:54,358 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=24630.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 18:07:57,896 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([5.6045, 5.0367, 5.4669, 5.0813, 5.6521, 5.5656, 4.7704, 5.5990],
       device='cuda:1'), covar=tensor([0.0320, 0.0204, 0.0300, 0.0212, 0.0279, 0.0065, 0.0181, 0.0204],
       device='cuda:1'), in_proj_covar=tensor([0.0092, 0.0098, 0.0077, 0.0102, 0.0103, 0.0061, 0.0086, 0.0095],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0001, 0.0002, 0.0002],
       device='cuda:1')
2022-11-15 18:08:02,071 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.3299, 2.3589, 1.5550, 2.7886, 1.7247, 2.2336, 2.0658, 2.4102],
       device='cuda:1'), covar=tensor([0.0431, 0.0854, 0.1511, 0.0676, 0.1516, 0.0948, 0.0930, 0.1808],
       device='cuda:1'), in_proj_covar=tensor([0.0042, 0.0050, 0.0058, 0.0040, 0.0058, 0.0049, 0.0057, 0.0042],
       device='cuda:1'), out_proj_covar=tensor([0.0001, 0.0001, 0.0002, 0.0001, 0.0001, 0.0001, 0.0001, 0.0001],
       device='cuda:1')
2022-11-15 18:08:11,912 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([6.0531, 5.4457, 5.8707, 5.5081, 6.0940, 5.8960, 5.2366, 5.8938],
       device='cuda:1'), covar=tensor([0.0248, 0.0195, 0.0258, 0.0174, 0.0213, 0.0064, 0.0134, 0.0261],
       device='cuda:1'), in_proj_covar=tensor([0.0092, 0.0098, 0.0077, 0.0102, 0.0103, 0.0061, 0.0086, 0.0095],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0001, 0.0002, 0.0002],
       device='cuda:1')
2022-11-15 18:08:20,092 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.2354, 1.2439, 1.7308, 1.2572, 0.5480, 1.9517, 1.2577, 1.7957],
       device='cuda:1'), covar=tensor([0.0357, 0.0482, 0.0211, 0.0766, 0.1652, 0.0564, 0.0574, 0.0506],
       device='cuda:1'), in_proj_covar=tensor([0.0037, 0.0035, 0.0033, 0.0039, 0.0035, 0.0028, 0.0031, 0.0038],
       device='cuda:1'), out_proj_covar=tensor([6.3163e-05, 5.4117e-05, 5.1176e-05, 7.1519e-05, 6.2007e-05, 5.3134e-05,
        5.4059e-05, 6.2147e-05], device='cuda:1')
2022-11-15 18:08:28,319 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.0170, 4.5301, 3.5317, 1.9245, 4.1568, 1.8069, 4.1756, 2.4090],
       device='cuda:1'), covar=tensor([0.1015, 0.0166, 0.0360, 0.2231, 0.0219, 0.1917, 0.0180, 0.1819],
       device='cuda:1'), in_proj_covar=tensor([0.0126, 0.0093, 0.0096, 0.0119, 0.0098, 0.0131, 0.0083, 0.0123],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0003, 0.0003, 0.0004, 0.0003, 0.0004, 0.0002, 0.0004],
       device='cuda:1')
2022-11-15 18:08:35,727 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=2.22 vs. limit=2.0
2022-11-15 18:08:38,944 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=24693.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 18:08:51,550 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.068e+02 1.858e+02 2.475e+02 3.106e+02 5.971e+02, threshold=4.951e+02, percent-clipped=4.0
2022-11-15 18:08:55,661 INFO [train.py:876] (1/4) Epoch 4, batch 2900, loss[loss=0.1219, simple_loss=0.1201, pruned_loss=0.06183, over 4757.00 frames. ], tot_loss[loss=0.1984, simple_loss=0.1932, pruned_loss=0.1018, over 1073420.40 frames. ], batch size: 5, lr: 1.94e-02, grad_scale: 16.0
2022-11-15 18:09:06,721 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.8251, 3.6710, 3.7197, 3.9349, 3.5088, 3.3448, 4.4013, 3.7384],
       device='cuda:1'), covar=tensor([0.0443, 0.0771, 0.0414, 0.0738, 0.0563, 0.0316, 0.0656, 0.0467],
       device='cuda:1'), in_proj_covar=tensor([0.0061, 0.0079, 0.0067, 0.0079, 0.0062, 0.0050, 0.0097, 0.0064],
       device='cuda:1'), out_proj_covar=tensor([0.0001, 0.0002, 0.0002, 0.0002, 0.0001, 0.0001, 0.0002, 0.0002],
       device='cuda:1')
2022-11-15 18:09:13,199 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=24741.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 18:09:30,508 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=24765.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 18:10:03,413 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.408e+02 2.004e+02 2.362e+02 2.844e+02 4.612e+02, threshold=4.725e+02, percent-clipped=0.0
2022-11-15 18:10:07,568 INFO [train.py:876] (1/4) Epoch 4, batch 3000, loss[loss=0.1525, simple_loss=0.1656, pruned_loss=0.06967, over 5705.00 frames. ], tot_loss[loss=0.2011, simple_loss=0.1946, pruned_loss=0.1038, over 1073075.64 frames. ], batch size: 15, lr: 1.94e-02, grad_scale: 16.0
2022-11-15 18:10:07,568 INFO [train.py:899] (1/4) Computing validation loss
2022-11-15 18:10:17,979 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.4755, 3.4350, 3.1456, 3.0072, 2.0711, 3.4315, 2.1874, 2.8489],
       device='cuda:1'), covar=tensor([0.0168, 0.0066, 0.0066, 0.0145, 0.0229, 0.0057, 0.0159, 0.0044],
       device='cuda:1'), in_proj_covar=tensor([0.0146, 0.0094, 0.0110, 0.0115, 0.0145, 0.0106, 0.0127, 0.0092],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0002],
       device='cuda:1')
2022-11-15 18:10:20,998 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.4399, 2.0377, 2.6231, 3.2854, 3.4653, 2.4194, 1.6125, 3.4910],
       device='cuda:1'), covar=tensor([0.0327, 0.3838, 0.3591, 0.1739, 0.0799, 0.3176, 0.3037, 0.0198],
       device='cuda:1'), in_proj_covar=tensor([0.0147, 0.0220, 0.0231, 0.0272, 0.0201, 0.0229, 0.0207, 0.0146],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0003],
       device='cuda:1')
2022-11-15 18:10:26,938 INFO [train.py:908] (1/4) Epoch 4, validation: loss=0.1712, simple_loss=0.1916, pruned_loss=0.07544, over 1530663.00 frames. 
2022-11-15 18:10:26,940 INFO [train.py:909] (1/4) Maximum memory allocated so far is 4576MB
2022-11-15 18:10:33,618 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=24826.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 18:10:48,969 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=24848.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 18:10:49,002 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.8094, 2.8285, 2.3630, 1.1337, 2.5126, 2.8809, 2.7766, 2.9119],
       device='cuda:1'), covar=tensor([0.1382, 0.1175, 0.0755, 0.1950, 0.0221, 0.0233, 0.0250, 0.0341],
       device='cuda:1'), in_proj_covar=tensor([0.0183, 0.0182, 0.0133, 0.0188, 0.0127, 0.0121, 0.0118, 0.0137],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0003, 0.0002, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002],
       device='cuda:1')
2022-11-15 18:11:28,027 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=24903.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 18:11:32,537 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=24909.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 18:11:34,406 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.259e+02 1.907e+02 2.538e+02 3.082e+02 5.544e+02, threshold=5.077e+02, percent-clipped=4.0
2022-11-15 18:11:37,840 INFO [train.py:876] (1/4) Epoch 4, batch 3100, loss[loss=0.2391, simple_loss=0.2082, pruned_loss=0.135, over 4634.00 frames. ], tot_loss[loss=0.2015, simple_loss=0.1955, pruned_loss=0.1037, over 1081771.86 frames. ], batch size: 135, lr: 1.93e-02, grad_scale: 8.0
2022-11-15 18:11:43,319 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=24925.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 18:12:16,545 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.3736, 4.6511, 3.4499, 4.5619, 3.5910, 3.4600, 2.4598, 4.1330],
       device='cuda:1'), covar=tensor([0.1551, 0.0172, 0.0836, 0.0198, 0.0417, 0.0659, 0.1926, 0.0156],
       device='cuda:1'), in_proj_covar=tensor([0.0181, 0.0118, 0.0167, 0.0114, 0.0156, 0.0178, 0.0193, 0.0124],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0002, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003, 0.0002],
       device='cuda:1')
2022-11-15 18:12:27,808 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.7089, 3.7749, 3.7036, 3.6592, 3.8440, 3.4087, 1.2542, 3.8633],
       device='cuda:1'), covar=tensor([0.0354, 0.0362, 0.0295, 0.0249, 0.0351, 0.0393, 0.3216, 0.0241],
       device='cuda:1'), in_proj_covar=tensor([0.0089, 0.0067, 0.0069, 0.0059, 0.0084, 0.0065, 0.0122, 0.0091],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0001, 0.0002, 0.0001, 0.0002, 0.0001, 0.0002, 0.0002],
       device='cuda:1')
2022-11-15 18:12:32,052 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.9286, 3.6573, 3.7387, 3.2935, 4.0154, 3.6733, 1.4198, 4.1054],
       device='cuda:1'), covar=tensor([0.0320, 0.0477, 0.0381, 0.0432, 0.0320, 0.0357, 0.2884, 0.0259],
       device='cuda:1'), in_proj_covar=tensor([0.0089, 0.0067, 0.0069, 0.0059, 0.0084, 0.0065, 0.0122, 0.0091],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0001, 0.0002, 0.0001, 0.0002, 0.0001, 0.0002, 0.0002],
       device='cuda:1')
2022-11-15 18:12:33,568 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=24995.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 18:12:33,844 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=2.08 vs. limit=2.0
2022-11-15 18:12:42,965 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=2.00 vs. limit=2.0
2022-11-15 18:12:48,704 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.164e+02 2.138e+02 2.743e+02 3.438e+02 6.298e+02, threshold=5.486e+02, percent-clipped=1.0
2022-11-15 18:12:52,455 INFO [train.py:876] (1/4) Epoch 4, batch 3200, loss[loss=0.2267, simple_loss=0.2207, pruned_loss=0.1163, over 5728.00 frames. ], tot_loss[loss=0.2036, simple_loss=0.1968, pruned_loss=0.1051, over 1077353.12 frames. ], batch size: 20, lr: 1.93e-02, grad_scale: 8.0
2022-11-15 18:12:56,006 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.6925, 3.0428, 3.1204, 1.1503, 2.9753, 3.4906, 3.2659, 3.4536],
       device='cuda:1'), covar=tensor([0.1992, 0.1181, 0.0669, 0.2309, 0.0166, 0.0223, 0.0216, 0.0250],
       device='cuda:1'), in_proj_covar=tensor([0.0190, 0.0185, 0.0135, 0.0189, 0.0130, 0.0126, 0.0121, 0.0142],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0003, 0.0002, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002],
       device='cuda:1')
2022-11-15 18:13:20,289 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=25056.0, num_to_drop=1, layers_to_drop={2}
2022-11-15 18:13:33,351 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.7266, 4.3257, 3.8590, 3.6091, 2.4306, 4.3449, 2.4158, 3.7779],
       device='cuda:1'), covar=tensor([0.0248, 0.0077, 0.0114, 0.0156, 0.0346, 0.0052, 0.0218, 0.0036],
       device='cuda:1'), in_proj_covar=tensor([0.0149, 0.0095, 0.0113, 0.0118, 0.0148, 0.0110, 0.0129, 0.0094],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0002],
       device='cuda:1')
2022-11-15 18:13:52,277 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.1755, 0.6256, 1.0060, 0.7797, 1.1450, 1.6279, 1.3083, 0.9313],
       device='cuda:1'), covar=tensor([0.0298, 0.0489, 0.0500, 0.0405, 0.0639, 0.0401, 0.0282, 0.1045],
       device='cuda:1'), in_proj_covar=tensor([0.0008, 0.0012, 0.0009, 0.0009, 0.0010, 0.0009, 0.0010, 0.0009],
       device='cuda:1'), out_proj_covar=tensor([3.0588e-05, 3.7782e-05, 3.3137e-05, 3.3898e-05, 3.4912e-05, 3.1867e-05,
        3.3834e-05, 3.2295e-05], device='cuda:1')
2022-11-15 18:14:01,367 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.332e+02 2.126e+02 2.620e+02 3.307e+02 8.462e+02, threshold=5.241e+02, percent-clipped=1.0
2022-11-15 18:14:05,069 INFO [train.py:876] (1/4) Epoch 4, batch 3300, loss[loss=0.27, simple_loss=0.2331, pruned_loss=0.1535, over 4958.00 frames. ], tot_loss[loss=0.2032, simple_loss=0.197, pruned_loss=0.1047, over 1080790.73 frames. ], batch size: 109, lr: 1.93e-02, grad_scale: 8.0
2022-11-15 18:14:07,999 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=25121.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 18:14:16,709 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=2.35 vs. limit=2.0
2022-11-15 18:15:06,861 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=25203.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 18:15:08,284 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=25204.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 18:15:13,949 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.413e+02 1.803e+02 2.408e+02 3.153e+02 7.479e+02, threshold=4.816e+02, percent-clipped=4.0
2022-11-15 18:15:17,452 INFO [train.py:876] (1/4) Epoch 4, batch 3400, loss[loss=0.2311, simple_loss=0.2027, pruned_loss=0.1298, over 4700.00 frames. ], tot_loss[loss=0.1998, simple_loss=0.1951, pruned_loss=0.1022, over 1088575.88 frames. ], batch size: 135, lr: 1.92e-02, grad_scale: 8.0
2022-11-15 18:15:23,194 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=25225.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 18:15:41,055 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=25251.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 18:15:56,859 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=25273.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 18:16:02,080 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=4.64 vs. limit=5.0
2022-11-15 18:16:10,224 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=2.37 vs. limit=2.0
2022-11-15 18:16:23,810 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.200e+02 1.900e+02 2.223e+02 2.867e+02 4.399e+02, threshold=4.447e+02, percent-clipped=0.0
2022-11-15 18:16:27,922 INFO [train.py:876] (1/4) Epoch 4, batch 3500, loss[loss=0.266, simple_loss=0.2437, pruned_loss=0.1442, over 5362.00 frames. ], tot_loss[loss=0.2004, simple_loss=0.1951, pruned_loss=0.1029, over 1081689.70 frames. ], batch size: 70, lr: 1.92e-02, grad_scale: 8.0
2022-11-15 18:16:51,495 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=25351.0, num_to_drop=1, layers_to_drop={1}
2022-11-15 18:17:29,868 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=4.83 vs. limit=5.0
2022-11-15 18:17:34,609 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.212e+02 2.249e+02 2.867e+02 3.402e+02 1.165e+03, threshold=5.733e+02, percent-clipped=11.0
2022-11-15 18:17:38,070 INFO [train.py:876] (1/4) Epoch 4, batch 3600, loss[loss=0.3321, simple_loss=0.2614, pruned_loss=0.2014, over 5484.00 frames. ], tot_loss[loss=0.2011, simple_loss=0.1959, pruned_loss=0.1032, over 1087786.66 frames. ], batch size: 17, lr: 1.91e-02, grad_scale: 8.0
2022-11-15 18:17:41,237 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=25421.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 18:17:46,138 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=25428.0, num_to_drop=1, layers_to_drop={0}
2022-11-15 18:18:15,273 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=25469.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 18:18:25,871 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=2.07 vs. limit=2.0
2022-11-15 18:18:30,217 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=25489.0, num_to_drop=1, layers_to_drop={3}
2022-11-15 18:18:40,595 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=25504.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 18:18:45,860 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.206e+02 2.020e+02 2.444e+02 3.029e+02 5.693e+02, threshold=4.888e+02, percent-clipped=0.0
2022-11-15 18:18:49,296 INFO [train.py:876] (1/4) Epoch 4, batch 3700, loss[loss=0.1803, simple_loss=0.1846, pruned_loss=0.08805, over 5694.00 frames. ], tot_loss[loss=0.2013, simple_loss=0.1964, pruned_loss=0.1031, over 1082986.73 frames. ], batch size: 12, lr: 1.91e-02, grad_scale: 8.0
2022-11-15 18:18:53,141 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=5.00 vs. limit=5.0
2022-11-15 18:19:04,548 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.2407, 4.8743, 3.6351, 2.2709, 4.6627, 1.6324, 4.5647, 2.7680],
       device='cuda:1'), covar=tensor([0.0934, 0.0109, 0.0408, 0.1996, 0.0109, 0.1966, 0.0146, 0.1597],
       device='cuda:1'), in_proj_covar=tensor([0.0131, 0.0096, 0.0099, 0.0122, 0.0099, 0.0135, 0.0086, 0.0126],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0003, 0.0003, 0.0004, 0.0003, 0.0004, 0.0003, 0.0004],
       device='cuda:1')
2022-11-15 18:19:14,619 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=25552.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 18:19:57,015 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.296e+02 2.082e+02 2.548e+02 3.444e+02 5.526e+02, threshold=5.097e+02, percent-clipped=3.0
2022-11-15 18:20:00,474 INFO [train.py:876] (1/4) Epoch 4, batch 3800, loss[loss=0.1925, simple_loss=0.1829, pruned_loss=0.1011, over 5620.00 frames. ], tot_loss[loss=0.1991, simple_loss=0.1948, pruned_loss=0.1018, over 1087778.47 frames. ], batch size: 29, lr: 1.91e-02, grad_scale: 8.0
2022-11-15 18:20:09,493 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.9723, 1.3946, 1.6602, 1.4083, 1.9208, 1.4734, 1.0737, 1.9728],
       device='cuda:1'), covar=tensor([0.0187, 0.1159, 0.0846, 0.0607, 0.0415, 0.0839, 0.1382, 0.0238],
       device='cuda:1'), in_proj_covar=tensor([0.0143, 0.0211, 0.0219, 0.0274, 0.0200, 0.0225, 0.0196, 0.0145],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0004, 0.0004, 0.0005, 0.0004, 0.0004, 0.0004, 0.0003],
       device='cuda:1')
2022-11-15 18:20:24,497 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=25651.0, num_to_drop=1, layers_to_drop={1}
2022-11-15 18:20:30,313 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.50 vs. limit=2.0
2022-11-15 18:20:44,698 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.3137, 1.3635, 1.8108, 1.7847, 1.1620, 1.1246, 2.3099, 1.3742],
       device='cuda:1'), covar=tensor([0.0013, 0.0048, 0.0031, 0.0016, 0.0061, 0.0039, 0.0012, 0.0023],
       device='cuda:1'), in_proj_covar=tensor([0.0013, 0.0014, 0.0012, 0.0014, 0.0014, 0.0014, 0.0015, 0.0014],
       device='cuda:1'), out_proj_covar=tensor([1.4504e-05, 1.6262e-05, 1.3844e-05, 1.6160e-05, 1.3944e-05, 1.5885e-05,
        1.7110e-05, 1.7436e-05], device='cuda:1')
2022-11-15 18:20:58,561 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=25699.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 18:21:08,419 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 9.968e+01 1.976e+02 2.317e+02 2.935e+02 6.102e+02, threshold=4.634e+02, percent-clipped=2.0
2022-11-15 18:21:11,944 INFO [train.py:876] (1/4) Epoch 4, batch 3900, loss[loss=0.2181, simple_loss=0.196, pruned_loss=0.1201, over 4698.00 frames. ], tot_loss[loss=0.1978, simple_loss=0.1937, pruned_loss=0.101, over 1088611.14 frames. ], batch size: 135, lr: 1.90e-02, grad_scale: 8.0
2022-11-15 18:21:52,387 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.4574, 2.0395, 1.7206, 1.2661, 1.5090, 2.2303, 1.9005, 2.4060],
       device='cuda:1'), covar=tensor([0.1316, 0.0916, 0.0863, 0.1564, 0.0483, 0.0279, 0.0317, 0.0376],
       device='cuda:1'), in_proj_covar=tensor([0.0189, 0.0177, 0.0131, 0.0188, 0.0128, 0.0127, 0.0121, 0.0142],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0003, 0.0002, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002],
       device='cuda:1')
2022-11-15 18:21:59,895 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=25784.0, num_to_drop=1, layers_to_drop={0}
2022-11-15 18:22:20,040 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 9.927e+01 1.909e+02 2.418e+02 3.208e+02 6.074e+02, threshold=4.836e+02, percent-clipped=3.0
2022-11-15 18:22:24,191 INFO [train.py:876] (1/4) Epoch 4, batch 4000, loss[loss=0.2512, simple_loss=0.2193, pruned_loss=0.1415, over 4695.00 frames. ], tot_loss[loss=0.1977, simple_loss=0.1934, pruned_loss=0.101, over 1089354.06 frames. ], batch size: 135, lr: 1.90e-02, grad_scale: 8.0
2022-11-15 18:22:52,058 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=25858.0, num_to_drop=1, layers_to_drop={0}
2022-11-15 18:23:22,489 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.34 vs. limit=2.0
2022-11-15 18:23:30,893 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.220e+02 1.955e+02 2.286e+02 3.069e+02 5.405e+02, threshold=4.573e+02, percent-clipped=2.0
2022-11-15 18:23:35,101 INFO [train.py:876] (1/4) Epoch 4, batch 4100, loss[loss=0.1014, simple_loss=0.1173, pruned_loss=0.04276, over 4817.00 frames. ], tot_loss[loss=0.1969, simple_loss=0.1925, pruned_loss=0.1007, over 1081844.76 frames. ], batch size: 5, lr: 1.90e-02, grad_scale: 8.0
2022-11-15 18:23:37,076 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=25919.0, num_to_drop=1, layers_to_drop={3}
2022-11-15 18:23:45,416 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=2.05 vs. limit=2.0
2022-11-15 18:24:01,609 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.3288, 1.7025, 2.8449, 2.4687, 3.0357, 1.7441, 2.7366, 3.2560],
       device='cuda:1'), covar=tensor([0.0132, 0.0603, 0.0221, 0.0534, 0.0167, 0.0592, 0.0336, 0.0194],
       device='cuda:1'), in_proj_covar=tensor([0.0152, 0.0181, 0.0158, 0.0195, 0.0147, 0.0172, 0.0213, 0.0172],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0004, 0.0003],
       device='cuda:1')
2022-11-15 18:24:42,056 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.193e+02 2.057e+02 2.578e+02 3.231e+02 5.725e+02, threshold=5.157e+02, percent-clipped=4.0
2022-11-15 18:24:44,830 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([4.4225, 3.9867, 4.2272, 4.4234, 3.8766, 3.8077, 4.7173, 4.2239],
       device='cuda:1'), covar=tensor([0.0302, 0.0813, 0.0268, 0.0750, 0.0458, 0.0296, 0.0548, 0.0393],
       device='cuda:1'), in_proj_covar=tensor([0.0061, 0.0081, 0.0067, 0.0080, 0.0063, 0.0053, 0.0102, 0.0068],
       device='cuda:1'), out_proj_covar=tensor([0.0001, 0.0002, 0.0002, 0.0002, 0.0001, 0.0001, 0.0003, 0.0002],
       device='cuda:1')
2022-11-15 18:24:45,827 INFO [train.py:876] (1/4) Epoch 4, batch 4200, loss[loss=0.1663, simple_loss=0.1646, pruned_loss=0.08406, over 5736.00 frames. ], tot_loss[loss=0.1966, simple_loss=0.1926, pruned_loss=0.1003, over 1086998.98 frames. ], batch size: 27, lr: 1.89e-02, grad_scale: 8.0
2022-11-15 18:24:45,924 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.9474, 2.3805, 2.0540, 1.3957, 2.3639, 1.1207, 2.3467, 1.4197],
       device='cuda:1'), covar=tensor([0.0743, 0.0182, 0.0537, 0.1224, 0.0209, 0.1591, 0.0195, 0.1168],
       device='cuda:1'), in_proj_covar=tensor([0.0131, 0.0095, 0.0103, 0.0120, 0.0099, 0.0135, 0.0086, 0.0124],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0003, 0.0003, 0.0004, 0.0003, 0.0004, 0.0003, 0.0004],
       device='cuda:1')
2022-11-15 18:24:53,258 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=5.37 vs. limit=5.0
2022-11-15 18:25:02,632 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([0.9385, 1.3945, 1.3192, 1.1744, 0.5814, 1.7385, 1.1213, 0.9550],
       device='cuda:1'), covar=tensor([0.0456, 0.0237, 0.0368, 0.0645, 0.1062, 0.0159, 0.0906, 0.0757],
       device='cuda:1'), in_proj_covar=tensor([0.0034, 0.0032, 0.0032, 0.0036, 0.0032, 0.0027, 0.0029, 0.0035],
       device='cuda:1'), out_proj_covar=tensor([5.9142e-05, 5.0893e-05, 5.0149e-05, 6.7901e-05, 5.7596e-05, 5.0604e-05,
        5.1078e-05, 5.8927e-05], device='cuda:1')
2022-11-15 18:25:34,270 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=26084.0, num_to_drop=1, layers_to_drop={1}
2022-11-15 18:25:46,699 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=26102.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 18:25:53,374 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.334e+02 1.847e+02 2.412e+02 3.140e+02 6.094e+02, threshold=4.824e+02, percent-clipped=3.0
2022-11-15 18:25:56,766 INFO [train.py:876] (1/4) Epoch 4, batch 4300, loss[loss=0.2305, simple_loss=0.219, pruned_loss=0.121, over 5571.00 frames. ], tot_loss[loss=0.1966, simple_loss=0.1927, pruned_loss=0.1002, over 1084053.06 frames. ], batch size: 30, lr: 1.89e-02, grad_scale: 8.0
2022-11-15 18:26:08,217 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=26132.0, num_to_drop=1, layers_to_drop={0}
2022-11-15 18:26:29,699 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=26163.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 18:26:33,038 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=26168.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 18:26:46,120 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([4.5074, 4.5097, 4.8095, 4.7842, 4.0954, 3.9661, 5.0387, 4.4448],
       device='cuda:1'), covar=tensor([0.0446, 0.0671, 0.0270, 0.0547, 0.0486, 0.0255, 0.0643, 0.0323],
       device='cuda:1'), in_proj_covar=tensor([0.0060, 0.0079, 0.0065, 0.0079, 0.0061, 0.0052, 0.0100, 0.0067],
       device='cuda:1'), out_proj_covar=tensor([0.0001, 0.0002, 0.0002, 0.0002, 0.0001, 0.0001, 0.0003, 0.0002],
       device='cuda:1')
2022-11-15 18:26:48,746 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=5.15 vs. limit=5.0
2022-11-15 18:26:50,157 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=1.91 vs. limit=2.0
2022-11-15 18:26:59,466 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.53 vs. limit=2.0
2022-11-15 18:27:04,694 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.262e+02 2.078e+02 2.562e+02 3.309e+02 6.433e+02, threshold=5.124e+02, percent-clipped=7.0
2022-11-15 18:27:05,624 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([0.9763, 1.0382, 1.0896, 0.8655, 1.3226, 1.3915, 0.9159, 1.3773],
       device='cuda:1'), covar=tensor([0.0015, 0.0011, 0.0009, 0.0009, 0.0010, 0.0008, 0.0017, 0.0007],
       device='cuda:1'), in_proj_covar=tensor([0.0021, 0.0021, 0.0020, 0.0019, 0.0020, 0.0018, 0.0019, 0.0019],
       device='cuda:1'), out_proj_covar=tensor([2.4899e-05, 2.4076e-05, 1.9052e-05, 1.9120e-05, 1.9870e-05, 1.5550e-05,
        2.5856e-05, 1.9186e-05], device='cuda:1')
2022-11-15 18:27:06,220 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=26214.0, num_to_drop=1, layers_to_drop={2}
2022-11-15 18:27:08,249 INFO [train.py:876] (1/4) Epoch 4, batch 4400, loss[loss=0.2224, simple_loss=0.2188, pruned_loss=0.113, over 5716.00 frames. ], tot_loss[loss=0.1992, simple_loss=0.1946, pruned_loss=0.1019, over 1084960.14 frames. ], batch size: 15, lr: 1.89e-02, grad_scale: 8.0
2022-11-15 18:27:16,421 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=26229.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 18:27:17,783 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([0.8770, 1.1395, 1.1711, 0.7213, 1.4698, 1.4330, 0.9550, 1.4558],
       device='cuda:1'), covar=tensor([0.0024, 0.0019, 0.0014, 0.0019, 0.0019, 0.0012, 0.0032, 0.0012],
       device='cuda:1'), in_proj_covar=tensor([0.0021, 0.0020, 0.0020, 0.0019, 0.0020, 0.0018, 0.0019, 0.0019],
       device='cuda:1'), out_proj_covar=tensor([2.4536e-05, 2.3892e-05, 1.8681e-05, 1.8849e-05, 1.9691e-05, 1.5241e-05,
        2.5376e-05, 1.8765e-05], device='cuda:1')
2022-11-15 18:27:32,228 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=26250.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 18:27:50,104 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.99 vs. limit=2.0
2022-11-15 18:28:03,469 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([4.6818, 4.4989, 4.7123, 4.7446, 4.2362, 3.8276, 5.2122, 4.6783],
       device='cuda:1'), covar=tensor([0.0397, 0.1005, 0.0339, 0.0797, 0.0501, 0.0397, 0.0766, 0.0340],
       device='cuda:1'), in_proj_covar=tensor([0.0062, 0.0082, 0.0069, 0.0083, 0.0064, 0.0055, 0.0105, 0.0068],
       device='cuda:1'), out_proj_covar=tensor([0.0001, 0.0002, 0.0002, 0.0002, 0.0002, 0.0001, 0.0003, 0.0002],
       device='cuda:1')
2022-11-15 18:28:15,298 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=26311.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 18:28:15,742 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.392e+02 2.026e+02 2.337e+02 2.838e+02 7.809e+02, threshold=4.674e+02, percent-clipped=2.0
2022-11-15 18:28:16,669 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.2833, 3.2279, 2.8523, 1.3639, 2.9851, 3.4427, 3.1619, 3.4331],
       device='cuda:1'), covar=tensor([0.1372, 0.1062, 0.0583, 0.2106, 0.0217, 0.0164, 0.0214, 0.0262],
       device='cuda:1'), in_proj_covar=tensor([0.0184, 0.0176, 0.0127, 0.0187, 0.0128, 0.0123, 0.0117, 0.0142],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0003, 0.0002, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002],
       device='cuda:1')
2022-11-15 18:28:19,245 INFO [train.py:876] (1/4) Epoch 4, batch 4500, loss[loss=0.1641, simple_loss=0.1782, pruned_loss=0.07495, over 5630.00 frames. ], tot_loss[loss=0.1968, simple_loss=0.193, pruned_loss=0.1003, over 1086731.41 frames. ], batch size: 23, lr: 1.88e-02, grad_scale: 8.0
2022-11-15 18:28:21,722 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=5.38 vs. limit=5.0
2022-11-15 18:29:27,464 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.298e+02 1.949e+02 2.521e+02 3.180e+02 6.694e+02, threshold=5.042e+02, percent-clipped=2.0
2022-11-15 18:29:29,014 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=26414.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 18:29:31,202 INFO [train.py:876] (1/4) Epoch 4, batch 4600, loss[loss=0.1308, simple_loss=0.1505, pruned_loss=0.05559, over 4575.00 frames. ], tot_loss[loss=0.1976, simple_loss=0.1936, pruned_loss=0.1008, over 1084685.09 frames. ], batch size: 5, lr: 1.88e-02, grad_scale: 8.0
2022-11-15 18:29:53,775 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.8772, 4.3552, 3.7873, 4.4594, 4.3470, 3.5206, 3.7056, 3.1823],
       device='cuda:1'), covar=tensor([0.0555, 0.0476, 0.1460, 0.0275, 0.0349, 0.0464, 0.0595, 0.0812],
       device='cuda:1'), in_proj_covar=tensor([0.0109, 0.0127, 0.0202, 0.0127, 0.0158, 0.0134, 0.0132, 0.0120],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0004, 0.0002, 0.0003, 0.0002, 0.0002, 0.0002],
       device='cuda:1')
2022-11-15 18:29:59,368 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=26458.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 18:30:12,137 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=26475.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 18:30:27,097 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([0.9452, 1.6066, 1.7928, 1.0020, 0.7185, 1.5650, 0.9783, 1.0147],
       device='cuda:1'), covar=tensor([0.0448, 0.0439, 0.0455, 0.0695, 0.0941, 0.0847, 0.0847, 0.0745],
       device='cuda:1'), in_proj_covar=tensor([0.0036, 0.0034, 0.0034, 0.0037, 0.0034, 0.0030, 0.0030, 0.0036],
       device='cuda:1'), out_proj_covar=tensor([6.2327e-05, 5.4450e-05, 5.3487e-05, 7.0254e-05, 6.2216e-05, 5.5357e-05,
        5.3781e-05, 6.2244e-05], device='cuda:1')
2022-11-15 18:30:37,114 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.423e+02 1.888e+02 2.493e+02 3.125e+02 5.400e+02, threshold=4.987e+02, percent-clipped=2.0
2022-11-15 18:30:38,703 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=26514.0, num_to_drop=1, layers_to_drop={0}
2022-11-15 18:30:40,593 INFO [train.py:876] (1/4) Epoch 4, batch 4700, loss[loss=0.2404, simple_loss=0.2152, pruned_loss=0.1328, over 5113.00 frames. ], tot_loss[loss=0.1947, simple_loss=0.1917, pruned_loss=0.09888, over 1084566.47 frames. ], batch size: 91, lr: 1.88e-02, grad_scale: 8.0
2022-11-15 18:30:46,184 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=26524.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 18:31:12,678 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=26562.0, num_to_drop=1, layers_to_drop={0}
2022-11-15 18:31:16,499 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=2.02 vs. limit=2.0
2022-11-15 18:31:43,653 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=26606.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 18:31:46,459 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.0038, 2.6091, 2.1671, 1.4650, 2.4277, 1.1498, 2.6429, 1.5424],
       device='cuda:1'), covar=tensor([0.0901, 0.0201, 0.0620, 0.1708, 0.0291, 0.1821, 0.0178, 0.1405],
       device='cuda:1'), in_proj_covar=tensor([0.0131, 0.0097, 0.0102, 0.0122, 0.0101, 0.0136, 0.0086, 0.0123],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0003, 0.0003, 0.0004, 0.0003, 0.0004, 0.0003, 0.0004],
       device='cuda:1')
2022-11-15 18:31:47,743 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.209e+02 2.139e+02 2.674e+02 3.379e+02 6.556e+02, threshold=5.348e+02, percent-clipped=3.0
2022-11-15 18:31:47,887 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.7898, 4.1416, 3.5892, 4.2375, 4.1658, 3.4409, 3.8411, 3.3891],
       device='cuda:1'), covar=tensor([0.0456, 0.0390, 0.1297, 0.0377, 0.0424, 0.0529, 0.0409, 0.0764],
       device='cuda:1'), in_proj_covar=tensor([0.0107, 0.0124, 0.0199, 0.0126, 0.0154, 0.0132, 0.0130, 0.0117],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0003, 0.0002, 0.0003, 0.0002, 0.0002, 0.0002],
       device='cuda:1')
2022-11-15 18:31:51,252 INFO [train.py:876] (1/4) Epoch 4, batch 4800, loss[loss=0.1186, simple_loss=0.1345, pruned_loss=0.0514, over 5235.00 frames. ], tot_loss[loss=0.1953, simple_loss=0.1917, pruned_loss=0.09949, over 1083829.78 frames. ], batch size: 7, lr: 1.87e-02, grad_scale: 8.0
2022-11-15 18:32:57,069 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.6778, 1.7294, 2.0253, 2.3950, 2.5236, 1.9888, 1.4767, 2.6722],
       device='cuda:1'), covar=tensor([0.0243, 0.1704, 0.1304, 0.0570, 0.0471, 0.1776, 0.1687, 0.0236],
       device='cuda:1'), in_proj_covar=tensor([0.0148, 0.0213, 0.0216, 0.0284, 0.0203, 0.0225, 0.0197, 0.0157],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0004, 0.0004, 0.0005, 0.0004, 0.0004, 0.0004, 0.0003],
       device='cuda:1')
2022-11-15 18:32:58,144 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.132e+02 1.842e+02 2.215e+02 2.988e+02 4.976e+02, threshold=4.429e+02, percent-clipped=0.0
2022-11-15 18:33:01,600 INFO [train.py:876] (1/4) Epoch 4, batch 4900, loss[loss=0.2079, simple_loss=0.204, pruned_loss=0.1059, over 5702.00 frames. ], tot_loss[loss=0.1962, simple_loss=0.1921, pruned_loss=0.1001, over 1081128.06 frames. ], batch size: 28, lr: 1.87e-02, grad_scale: 8.0
2022-11-15 18:33:12,081 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.8433, 2.0206, 2.6188, 3.6461, 3.6047, 2.9022, 2.3734, 3.7548],
       device='cuda:1'), covar=tensor([0.0155, 0.2889, 0.1987, 0.1945, 0.0624, 0.2589, 0.1962, 0.0222],
       device='cuda:1'), in_proj_covar=tensor([0.0148, 0.0211, 0.0215, 0.0281, 0.0201, 0.0223, 0.0196, 0.0155],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0004, 0.0004, 0.0005, 0.0004, 0.0004, 0.0004, 0.0003],
       device='cuda:1')
2022-11-15 18:33:31,038 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=26758.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 18:33:39,435 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=26770.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 18:33:44,991 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.76 vs. limit=2.0
2022-11-15 18:34:05,206 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=26806.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 18:34:09,164 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.286e+02 1.967e+02 2.433e+02 3.040e+02 5.263e+02, threshold=4.865e+02, percent-clipped=3.0
2022-11-15 18:34:12,717 INFO [train.py:876] (1/4) Epoch 4, batch 5000, loss[loss=0.2248, simple_loss=0.2079, pruned_loss=0.1208, over 5566.00 frames. ], tot_loss[loss=0.1943, simple_loss=0.1909, pruned_loss=0.09881, over 1074811.98 frames. ], batch size: 46, lr: 1.87e-02, grad_scale: 8.0
2022-11-15 18:34:17,614 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=26824.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 18:34:34,738 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.4367, 0.9642, 1.1111, 1.0717, 1.5019, 0.8041, 1.1214, 1.0698],
       device='cuda:1'), covar=tensor([0.0242, 0.0381, 0.0584, 0.0665, 0.1357, 0.0293, 0.0538, 0.0629],
       device='cuda:1'), in_proj_covar=tensor([0.0007, 0.0010, 0.0008, 0.0008, 0.0008, 0.0007, 0.0009, 0.0007],
       device='cuda:1'), out_proj_covar=tensor([2.8158e-05, 3.5609e-05, 2.9674e-05, 3.3093e-05, 3.0400e-05, 2.7579e-05,
        3.0989e-05, 2.9025e-05], device='cuda:1')
2022-11-15 18:34:49,877 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.1116, 3.2547, 3.3185, 1.2620, 3.4620, 3.5563, 3.4393, 3.3014],
       device='cuda:1'), covar=tensor([0.1474, 0.0844, 0.0371, 0.1938, 0.0152, 0.0154, 0.0167, 0.0259],
       device='cuda:1'), in_proj_covar=tensor([0.0188, 0.0176, 0.0128, 0.0184, 0.0131, 0.0127, 0.0116, 0.0147],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0003, 0.0002, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002],
       device='cuda:1')
2022-11-15 18:34:51,695 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=26872.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 18:35:12,083 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.1931, 1.0113, 1.0211, 0.8804, 1.6525, 0.8023, 0.9914, 1.0125],
       device='cuda:1'), covar=tensor([0.0453, 0.0350, 0.1097, 0.1951, 0.0571, 0.0200, 0.1113, 0.0571],
       device='cuda:1'), in_proj_covar=tensor([0.0007, 0.0010, 0.0008, 0.0008, 0.0008, 0.0007, 0.0009, 0.0008],
       device='cuda:1'), out_proj_covar=tensor([2.9115e-05, 3.6497e-05, 3.0767e-05, 3.3521e-05, 3.1717e-05, 2.8064e-05,
        3.2321e-05, 3.0009e-05], device='cuda:1')
2022-11-15 18:35:14,871 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=26904.0, num_to_drop=1, layers_to_drop={1}
2022-11-15 18:35:16,191 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=26906.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 18:35:20,043 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.243e+02 1.925e+02 2.492e+02 3.201e+02 4.823e+02, threshold=4.984e+02, percent-clipped=0.0
2022-11-15 18:35:20,161 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([4.5977, 4.6377, 4.6134, 4.7695, 4.0448, 3.9947, 5.2015, 4.3997],
       device='cuda:1'), covar=tensor([0.0339, 0.0654, 0.0274, 0.0518, 0.0589, 0.0238, 0.0452, 0.0316],
       device='cuda:1'), in_proj_covar=tensor([0.0060, 0.0079, 0.0066, 0.0080, 0.0063, 0.0053, 0.0101, 0.0066],
       device='cuda:1'), out_proj_covar=tensor([0.0001, 0.0002, 0.0002, 0.0002, 0.0001, 0.0001, 0.0003, 0.0002],
       device='cuda:1')
2022-11-15 18:35:23,730 INFO [train.py:876] (1/4) Epoch 4, batch 5100, loss[loss=0.1572, simple_loss=0.1801, pruned_loss=0.06718, over 5746.00 frames. ], tot_loss[loss=0.193, simple_loss=0.1906, pruned_loss=0.09767, over 1082052.35 frames. ], batch size: 16, lr: 1.86e-02, grad_scale: 16.0
2022-11-15 18:35:46,958 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=26950.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 18:35:47,185 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.96 vs. limit=2.0
2022-11-15 18:35:50,396 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=26954.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 18:35:58,384 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=26965.0, num_to_drop=1, layers_to_drop={2}
2022-11-15 18:36:31,255 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=27011.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 18:36:31,700 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.350e+02 2.232e+02 2.660e+02 3.188e+02 6.115e+02, threshold=5.320e+02, percent-clipped=2.0
2022-11-15 18:36:35,115 INFO [train.py:876] (1/4) Epoch 4, batch 5200, loss[loss=0.1333, simple_loss=0.1438, pruned_loss=0.06138, over 5231.00 frames. ], tot_loss[loss=0.1943, simple_loss=0.1917, pruned_loss=0.09845, over 1082466.24 frames. ], batch size: 7, lr: 1.86e-02, grad_scale: 16.0
2022-11-15 18:36:44,707 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([4.0725, 2.0925, 3.2173, 2.7500, 3.8267, 2.1929, 3.2490, 3.6242],
       device='cuda:1'), covar=tensor([0.0125, 0.0781, 0.0289, 0.0722, 0.0142, 0.0613, 0.0488, 0.0269],
       device='cuda:1'), in_proj_covar=tensor([0.0158, 0.0183, 0.0162, 0.0197, 0.0152, 0.0175, 0.0216, 0.0176],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0004, 0.0003],
       device='cuda:1')
2022-11-15 18:37:12,296 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=27070.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 18:37:17,054 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=2.21 vs. limit=2.0
2022-11-15 18:37:31,850 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.5261, 3.6196, 2.7674, 1.6736, 3.5827, 1.3146, 3.4795, 1.9195],
       device='cuda:1'), covar=tensor([0.1009, 0.0151, 0.0717, 0.1913, 0.0168, 0.1952, 0.0173, 0.1501],
       device='cuda:1'), in_proj_covar=tensor([0.0130, 0.0097, 0.0101, 0.0122, 0.0098, 0.0132, 0.0085, 0.0123],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0003, 0.0003, 0.0004, 0.0003, 0.0004, 0.0003, 0.0004],
       device='cuda:1')
2022-11-15 18:37:42,556 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.152e+02 1.845e+02 2.257e+02 3.098e+02 5.332e+02, threshold=4.514e+02, percent-clipped=1.0
2022-11-15 18:37:45,683 INFO [train.py:876] (1/4) Epoch 4, batch 5300, loss[loss=0.2452, simple_loss=0.2198, pruned_loss=0.1352, over 5671.00 frames. ], tot_loss[loss=0.1952, simple_loss=0.1918, pruned_loss=0.09933, over 1079254.93 frames. ], batch size: 36, lr: 1.86e-02, grad_scale: 8.0
2022-11-15 18:37:46,367 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=27118.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 18:37:47,770 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.7292, 4.2243, 3.5784, 4.1777, 4.1681, 3.3579, 3.7598, 3.3108],
       device='cuda:1'), covar=tensor([0.0574, 0.0325, 0.1311, 0.0280, 0.0398, 0.0404, 0.0389, 0.0638],
       device='cuda:1'), in_proj_covar=tensor([0.0106, 0.0122, 0.0193, 0.0124, 0.0153, 0.0129, 0.0129, 0.0118],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0003, 0.0002, 0.0003, 0.0002, 0.0002, 0.0002],
       device='cuda:1')
2022-11-15 18:38:07,342 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=27148.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 18:38:19,308 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.7341, 2.0020, 1.6888, 1.2929, 1.7548, 2.3549, 2.0225, 2.2376],
       device='cuda:1'), covar=tensor([0.1132, 0.0819, 0.0873, 0.1497, 0.0449, 0.0243, 0.0189, 0.0404],
       device='cuda:1'), in_proj_covar=tensor([0.0185, 0.0180, 0.0127, 0.0184, 0.0134, 0.0129, 0.0117, 0.0146],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0003, 0.0002, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002],
       device='cuda:1')
2022-11-15 18:38:50,773 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=27209.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 18:38:53,684 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.431e+02 2.106e+02 2.706e+02 3.414e+02 5.155e+02, threshold=5.411e+02, percent-clipped=7.0
2022-11-15 18:38:56,361 INFO [train.py:876] (1/4) Epoch 4, batch 5400, loss[loss=0.2076, simple_loss=0.1816, pruned_loss=0.1168, over 4674.00 frames. ], tot_loss[loss=0.1979, simple_loss=0.1929, pruned_loss=0.1014, over 1074556.87 frames. ], batch size: 135, lr: 1.85e-02, grad_scale: 8.0
2022-11-15 18:39:20,607 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=2.07 vs. limit=2.0
2022-11-15 18:39:26,838 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=27260.0, num_to_drop=1, layers_to_drop={0}
2022-11-15 18:39:55,580 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.8010, 2.1901, 2.0036, 1.2055, 2.1167, 2.5869, 2.3256, 2.6226],
       device='cuda:1'), covar=tensor([0.1115, 0.1017, 0.0592, 0.1723, 0.0320, 0.0268, 0.0179, 0.0341],
       device='cuda:1'), in_proj_covar=tensor([0.0187, 0.0181, 0.0128, 0.0188, 0.0133, 0.0131, 0.0120, 0.0149],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0003, 0.0002, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002],
       device='cuda:1')
2022-11-15 18:39:58,545 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=1.92 vs. limit=2.0
2022-11-15 18:39:59,501 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=27306.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 18:40:04,134 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.144e+02 2.138e+02 2.582e+02 3.197e+02 8.943e+02, threshold=5.164e+02, percent-clipped=1.0
2022-11-15 18:40:07,247 INFO [train.py:876] (1/4) Epoch 4, batch 5500, loss[loss=0.174, simple_loss=0.1733, pruned_loss=0.08733, over 5524.00 frames. ], tot_loss[loss=0.1994, simple_loss=0.1943, pruned_loss=0.1022, over 1078620.85 frames. ], batch size: 12, lr: 1.85e-02, grad_scale: 8.0
2022-11-15 18:40:10,473 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.5500, 2.0554, 2.7274, 3.5555, 4.0085, 2.9004, 2.3685, 4.0146],
       device='cuda:1'), covar=tensor([0.0235, 0.3502, 0.2437, 0.2971, 0.0511, 0.2742, 0.2364, 0.0170],
       device='cuda:1'), in_proj_covar=tensor([0.0149, 0.0215, 0.0214, 0.0293, 0.0199, 0.0224, 0.0202, 0.0160],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0004, 0.0004, 0.0005, 0.0004, 0.0004, 0.0004, 0.0003],
       device='cuda:1')
2022-11-15 18:40:10,797 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=2.05 vs. limit=2.0
2022-11-15 18:41:15,201 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.296e+02 2.174e+02 2.548e+02 3.213e+02 6.484e+02, threshold=5.095e+02, percent-clipped=3.0
2022-11-15 18:41:17,888 INFO [train.py:876] (1/4) Epoch 4, batch 5600, loss[loss=0.1537, simple_loss=0.1591, pruned_loss=0.07418, over 5684.00 frames. ], tot_loss[loss=0.1964, simple_loss=0.1924, pruned_loss=0.1001, over 1080060.41 frames. ], batch size: 11, lr: 1.85e-02, grad_scale: 8.0
2022-11-15 18:41:27,561 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.9856, 2.2163, 1.8016, 2.3562, 1.6732, 1.8298, 1.8776, 2.6775],
       device='cuda:1'), covar=tensor([0.0695, 0.0966, 0.1858, 0.1794, 0.2012, 0.1543, 0.1457, 0.2827],
       device='cuda:1'), in_proj_covar=tensor([0.0049, 0.0054, 0.0068, 0.0043, 0.0060, 0.0052, 0.0061, 0.0046],
       device='cuda:1'), out_proj_covar=tensor([0.0001, 0.0001, 0.0002, 0.0001, 0.0002, 0.0002, 0.0002, 0.0001],
       device='cuda:1')
2022-11-15 18:42:01,789 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=2.10 vs. limit=2.0
2022-11-15 18:42:08,919 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([5.4858, 4.9338, 5.2931, 4.8471, 5.4750, 5.4254, 4.7626, 5.5527],
       device='cuda:1'), covar=tensor([0.0265, 0.0237, 0.0347, 0.0283, 0.0359, 0.0076, 0.0168, 0.0169],
       device='cuda:1'), in_proj_covar=tensor([0.0090, 0.0096, 0.0078, 0.0106, 0.0104, 0.0059, 0.0085, 0.0095],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0001, 0.0002, 0.0002],
       device='cuda:1')
2022-11-15 18:42:12,098 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([0.7053, 0.5360, 0.6006, 0.7967, 0.7733, 0.7629, 0.6401, 0.6623],
       device='cuda:1'), covar=tensor([0.0213, 0.0207, 0.0351, 0.0336, 0.0363, 0.0224, 0.0413, 0.0289],
       device='cuda:1'), in_proj_covar=tensor([0.0007, 0.0010, 0.0008, 0.0009, 0.0008, 0.0007, 0.0009, 0.0008],
       device='cuda:1'), out_proj_covar=tensor([2.9269e-05, 3.5283e-05, 3.1784e-05, 3.4102e-05, 3.1528e-05, 2.8687e-05,
        3.3473e-05, 3.0957e-05], device='cuda:1')
2022-11-15 18:42:19,421 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=27504.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 18:42:25,764 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.283e+02 2.178e+02 2.574e+02 3.004e+02 8.808e+02, threshold=5.148e+02, percent-clipped=2.0
2022-11-15 18:42:28,790 INFO [train.py:876] (1/4) Epoch 4, batch 5700, loss[loss=0.204, simple_loss=0.2065, pruned_loss=0.1007, over 5817.00 frames. ], tot_loss[loss=0.1949, simple_loss=0.1913, pruned_loss=0.09923, over 1077082.67 frames. ], batch size: 18, lr: 1.84e-02, grad_scale: 8.0
2022-11-15 18:42:42,787 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.0481, 1.9130, 2.0564, 2.8702, 2.9996, 2.0464, 1.7869, 3.2273],
       device='cuda:1'), covar=tensor([0.0365, 0.3940, 0.3490, 0.2978, 0.0948, 0.3589, 0.3024, 0.0302],
       device='cuda:1'), in_proj_covar=tensor([0.0151, 0.0213, 0.0219, 0.0287, 0.0199, 0.0223, 0.0198, 0.0161],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0004, 0.0004, 0.0005, 0.0004, 0.0004, 0.0004, 0.0003],
       device='cuda:1')
2022-11-15 18:42:58,708 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=4.89 vs. limit=5.0
2022-11-15 18:42:59,123 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=27560.0, num_to_drop=1, layers_to_drop={1}
2022-11-15 18:43:12,304 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.9556, 4.3469, 3.7118, 3.5342, 2.6434, 4.5981, 2.4694, 3.9852],
       device='cuda:1'), covar=tensor([0.0227, 0.0089, 0.0096, 0.0193, 0.0296, 0.0048, 0.0243, 0.0042],
       device='cuda:1'), in_proj_covar=tensor([0.0154, 0.0100, 0.0119, 0.0128, 0.0152, 0.0116, 0.0136, 0.0101],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002, 0.0003, 0.0002],
       device='cuda:1')
2022-11-15 18:43:32,361 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=27606.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 18:43:33,704 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=27608.0, num_to_drop=1, layers_to_drop={1}
2022-11-15 18:43:37,001 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.377e+02 1.840e+02 2.310e+02 2.841e+02 5.066e+02, threshold=4.620e+02, percent-clipped=0.0
2022-11-15 18:43:39,922 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=1.92 vs. limit=2.0
2022-11-15 18:43:40,072 INFO [train.py:876] (1/4) Epoch 4, batch 5800, loss[loss=0.183, simple_loss=0.1856, pruned_loss=0.09014, over 5565.00 frames. ], tot_loss[loss=0.1951, simple_loss=0.1918, pruned_loss=0.09922, over 1083350.28 frames. ], batch size: 15, lr: 1.84e-02, grad_scale: 8.0
2022-11-15 18:43:47,625 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=3.89 vs. limit=5.0
2022-11-15 18:43:51,655 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.8035, 4.3851, 3.4371, 2.1650, 4.3359, 1.6297, 4.2710, 2.4021],
       device='cuda:1'), covar=tensor([0.1091, 0.0122, 0.0424, 0.1951, 0.0132, 0.1855, 0.0104, 0.1679],
       device='cuda:1'), in_proj_covar=tensor([0.0127, 0.0096, 0.0100, 0.0119, 0.0096, 0.0129, 0.0085, 0.0122],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0003, 0.0003, 0.0004, 0.0003, 0.0004, 0.0003, 0.0004],
       device='cuda:1')
2022-11-15 18:44:06,337 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=27654.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 18:44:15,116 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.6800, 4.3192, 3.2425, 2.1016, 4.1789, 1.3006, 4.0417, 2.3318],
       device='cuda:1'), covar=tensor([0.1062, 0.0136, 0.0535, 0.2022, 0.0147, 0.2082, 0.0145, 0.1643],
       device='cuda:1'), in_proj_covar=tensor([0.0128, 0.0097, 0.0100, 0.0119, 0.0096, 0.0129, 0.0085, 0.0122],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0003, 0.0003, 0.0004, 0.0003, 0.0004, 0.0003, 0.0004],
       device='cuda:1')
2022-11-15 18:44:22,242 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.7490, 3.9418, 3.5178, 3.6414, 3.7795, 3.5953, 1.3622, 3.8751],
       device='cuda:1'), covar=tensor([0.0349, 0.0243, 0.0443, 0.0390, 0.0447, 0.0428, 0.3640, 0.0319],
       device='cuda:1'), in_proj_covar=tensor([0.0092, 0.0069, 0.0070, 0.0059, 0.0087, 0.0068, 0.0127, 0.0093],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0001, 0.0002, 0.0002, 0.0003, 0.0002],
       device='cuda:1')
2022-11-15 18:44:47,987 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.281e+02 1.945e+02 2.573e+02 2.996e+02 4.462e+02, threshold=5.147e+02, percent-clipped=0.0
2022-11-15 18:44:48,881 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=27714.0, num_to_drop=1, layers_to_drop={0}
2022-11-15 18:44:51,048 INFO [train.py:876] (1/4) Epoch 4, batch 5900, loss[loss=0.113, simple_loss=0.133, pruned_loss=0.04647, over 5469.00 frames. ], tot_loss[loss=0.1905, simple_loss=0.1889, pruned_loss=0.09604, over 1084378.81 frames. ], batch size: 12, lr: 1.84e-02, grad_scale: 8.0
2022-11-15 18:45:20,622 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=4.28 vs. limit=5.0
2022-11-15 18:45:32,351 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=27775.0, num_to_drop=1, layers_to_drop={2}
2022-11-15 18:45:53,389 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=27804.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 18:45:59,280 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.246e+02 2.057e+02 2.608e+02 3.378e+02 5.938e+02, threshold=5.215e+02, percent-clipped=4.0
2022-11-15 18:46:02,455 INFO [train.py:876] (1/4) Epoch 4, batch 6000, loss[loss=0.2417, simple_loss=0.2254, pruned_loss=0.129, over 5621.00 frames. ], tot_loss[loss=0.1908, simple_loss=0.1892, pruned_loss=0.09616, over 1087337.15 frames. ], batch size: 38, lr: 1.83e-02, grad_scale: 8.0
2022-11-15 18:46:02,455 INFO [train.py:899] (1/4) Computing validation loss
2022-11-15 18:46:20,379 INFO [train.py:908] (1/4) Epoch 4, validation: loss=0.1691, simple_loss=0.1898, pruned_loss=0.07419, over 1530663.00 frames. 
2022-11-15 18:46:20,380 INFO [train.py:909] (1/4) Maximum memory allocated so far is 4576MB
2022-11-15 18:46:45,373 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=27852.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 18:47:28,451 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.161e+02 1.961e+02 2.307e+02 2.838e+02 4.570e+02, threshold=4.614e+02, percent-clipped=0.0
2022-11-15 18:47:31,206 INFO [train.py:876] (1/4) Epoch 4, batch 6100, loss[loss=0.1998, simple_loss=0.2021, pruned_loss=0.09873, over 5621.00 frames. ], tot_loss[loss=0.1879, simple_loss=0.1868, pruned_loss=0.09451, over 1082653.71 frames. ], batch size: 18, lr: 1.83e-02, grad_scale: 8.0
2022-11-15 18:47:37,203 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.6694, 4.6879, 3.3506, 4.4551, 3.6779, 3.4229, 2.3229, 4.1600],
       device='cuda:1'), covar=tensor([0.1204, 0.0134, 0.0794, 0.0199, 0.0387, 0.0679, 0.1670, 0.0131],
       device='cuda:1'), in_proj_covar=tensor([0.0176, 0.0124, 0.0168, 0.0122, 0.0154, 0.0175, 0.0187, 0.0124],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0002, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003, 0.0002],
       device='cuda:1')
2022-11-15 18:48:12,111 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.8127, 4.7083, 3.7908, 3.6365, 2.8146, 4.5855, 2.5393, 4.1786],
       device='cuda:1'), covar=tensor([0.0254, 0.0136, 0.0123, 0.0170, 0.0304, 0.0083, 0.0220, 0.0037],
       device='cuda:1'), in_proj_covar=tensor([0.0149, 0.0101, 0.0117, 0.0126, 0.0149, 0.0116, 0.0134, 0.0098],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0002],
       device='cuda:1')
2022-11-15 18:48:39,806 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 8.715e+01 1.962e+02 2.542e+02 3.499e+02 5.895e+02, threshold=5.084e+02, percent-clipped=10.0
2022-11-15 18:48:42,558 INFO [train.py:876] (1/4) Epoch 4, batch 6200, loss[loss=0.1614, simple_loss=0.1735, pruned_loss=0.07463, over 5672.00 frames. ], tot_loss[loss=0.1874, simple_loss=0.1868, pruned_loss=0.09401, over 1087547.47 frames. ], batch size: 19, lr: 1.83e-02, grad_scale: 8.0
2022-11-15 18:49:19,869 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=28070.0, num_to_drop=1, layers_to_drop={1}
2022-11-15 18:49:21,974 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.4796, 2.0853, 2.5019, 3.5274, 3.6073, 2.5105, 2.0616, 3.7918],
       device='cuda:1'), covar=tensor([0.0241, 0.2900, 0.2509, 0.2747, 0.0676, 0.2983, 0.2270, 0.0197],
       device='cuda:1'), in_proj_covar=tensor([0.0153, 0.0214, 0.0219, 0.0292, 0.0202, 0.0223, 0.0196, 0.0163],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0004, 0.0004, 0.0005, 0.0004, 0.0004, 0.0004, 0.0003],
       device='cuda:1')
2022-11-15 18:49:23,373 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.62 vs. limit=2.0
2022-11-15 18:49:50,343 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.357e+02 2.008e+02 2.464e+02 2.967e+02 7.434e+02, threshold=4.928e+02, percent-clipped=2.0
2022-11-15 18:49:53,145 INFO [train.py:876] (1/4) Epoch 4, batch 6300, loss[loss=0.2094, simple_loss=0.2133, pruned_loss=0.1027, over 5732.00 frames. ], tot_loss[loss=0.1881, simple_loss=0.1877, pruned_loss=0.09422, over 1088204.50 frames. ], batch size: 27, lr: 1.82e-02, grad_scale: 8.0
2022-11-15 18:50:27,682 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.2653, 4.8453, 3.8015, 2.1708, 4.6960, 2.0962, 4.4639, 2.8364],
       device='cuda:1'), covar=tensor([0.1198, 0.0307, 0.0415, 0.2346, 0.0243, 0.2054, 0.0191, 0.1997],
       device='cuda:1'), in_proj_covar=tensor([0.0128, 0.0099, 0.0101, 0.0121, 0.0101, 0.0130, 0.0087, 0.0124],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0003, 0.0003, 0.0004, 0.0003, 0.0004, 0.0003, 0.0004],
       device='cuda:1')
2022-11-15 18:50:31,494 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=4.20 vs. limit=5.0
2022-11-15 18:50:55,765 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.7612, 3.5868, 3.6999, 4.2246, 3.7347, 3.2111, 1.4850, 3.7087],
       device='cuda:1'), covar=tensor([0.1185, 0.1389, 0.0875, 0.0329, 0.0983, 0.0878, 0.5341, 0.1284],
       device='cuda:1'), in_proj_covar=tensor([0.0091, 0.0069, 0.0071, 0.0057, 0.0086, 0.0067, 0.0123, 0.0094],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0001, 0.0002, 0.0001, 0.0002, 0.0002],
       device='cuda:1')
2022-11-15 18:50:58,130 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=4.56 vs. limit=5.0
2022-11-15 18:51:00,495 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.320e+02 2.107e+02 2.497e+02 3.273e+02 5.114e+02, threshold=4.994e+02, percent-clipped=2.0
2022-11-15 18:51:04,030 INFO [train.py:876] (1/4) Epoch 4, batch 6400, loss[loss=0.1613, simple_loss=0.1646, pruned_loss=0.079, over 5440.00 frames. ], tot_loss[loss=0.1891, simple_loss=0.1877, pruned_loss=0.09526, over 1085181.37 frames. ], batch size: 11, lr: 1.82e-02, grad_scale: 8.0
2022-11-15 18:51:12,363 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=28229.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 18:51:30,762 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=28255.0, num_to_drop=1, layers_to_drop={1}
2022-11-15 18:51:53,832 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=28287.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 18:51:55,858 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=28290.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 18:52:01,735 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=4.85 vs. limit=5.0
2022-11-15 18:52:11,784 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.188e+02 2.095e+02 2.644e+02 3.190e+02 6.758e+02, threshold=5.289e+02, percent-clipped=3.0
2022-11-15 18:52:14,078 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=28316.0, num_to_drop=1, layers_to_drop={3}
2022-11-15 18:52:14,563 INFO [train.py:876] (1/4) Epoch 4, batch 6500, loss[loss=0.1922, simple_loss=0.2016, pruned_loss=0.09133, over 5762.00 frames. ], tot_loss[loss=0.1885, simple_loss=0.1874, pruned_loss=0.09482, over 1090564.35 frames. ], batch size: 20, lr: 1.82e-02, grad_scale: 8.0
2022-11-15 18:52:26,128 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.53 vs. limit=2.0
2022-11-15 18:52:36,613 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=28348.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 18:52:52,122 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=28370.0, num_to_drop=1, layers_to_drop={2}
2022-11-15 18:53:01,646 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=4.85 vs. limit=5.0
2022-11-15 18:53:22,963 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.292e+02 1.962e+02 2.374e+02 2.918e+02 5.741e+02, threshold=4.749e+02, percent-clipped=1.0
2022-11-15 18:53:26,219 INFO [train.py:876] (1/4) Epoch 4, batch 6600, loss[loss=0.1621, simple_loss=0.166, pruned_loss=0.07907, over 5691.00 frames. ], tot_loss[loss=0.1875, simple_loss=0.187, pruned_loss=0.09402, over 1091085.37 frames. ], batch size: 11, lr: 1.81e-02, grad_scale: 8.0
2022-11-15 18:53:26,944 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=28418.0, num_to_drop=1, layers_to_drop={1}
2022-11-15 18:54:08,186 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=2.02 vs. limit=2.0
2022-11-15 18:54:14,659 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=28486.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 18:54:19,425 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=28492.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 18:54:21,147 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([0.4056, 1.0846, 1.3408, 0.8466, 1.1304, 1.1401, 0.5239, 1.1787],
       device='cuda:1'), covar=tensor([0.0018, 0.0010, 0.0012, 0.0013, 0.0015, 0.0012, 0.0030, 0.0016],
       device='cuda:1'), in_proj_covar=tensor([0.0023, 0.0021, 0.0023, 0.0024, 0.0024, 0.0021, 0.0022, 0.0021],
       device='cuda:1'), out_proj_covar=tensor([2.5072e-05, 2.4957e-05, 2.1303e-05, 2.2721e-05, 2.1895e-05, 1.7723e-05,
        2.8894e-05, 2.0343e-05], device='cuda:1')
2022-11-15 18:54:33,674 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.274e+02 2.033e+02 2.580e+02 2.965e+02 5.128e+02, threshold=5.159e+02, percent-clipped=4.0
2022-11-15 18:54:36,432 INFO [train.py:876] (1/4) Epoch 4, batch 6700, loss[loss=0.2338, simple_loss=0.2092, pruned_loss=0.1292, over 5324.00 frames. ], tot_loss[loss=0.1916, simple_loss=0.1902, pruned_loss=0.09652, over 1094308.74 frames. ], batch size: 79, lr: 1.81e-02, grad_scale: 8.0
2022-11-15 18:54:44,483 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.4449, 1.4587, 1.7258, 1.2181, 1.7760, 1.3483, 1.9242, 1.3275],
       device='cuda:1'), covar=tensor([0.0015, 0.0050, 0.0027, 0.0019, 0.0042, 0.0062, 0.0016, 0.0032],
       device='cuda:1'), in_proj_covar=tensor([0.0015, 0.0015, 0.0014, 0.0016, 0.0015, 0.0015, 0.0017, 0.0016],
       device='cuda:1'), out_proj_covar=tensor([1.6465e-05, 1.7512e-05, 1.5626e-05, 1.6975e-05, 1.5603e-05, 1.7155e-05,
        1.8382e-05, 2.0467e-05], device='cuda:1')
2022-11-15 18:54:55,698 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=2.00 vs. limit=2.0
2022-11-15 18:54:57,425 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=28547.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 18:55:02,300 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=28553.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 18:55:18,167 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.1925, 1.4576, 1.5332, 1.9328, 1.0967, 1.3245, 1.3608, 1.6439],
       device='cuda:1'), covar=tensor([0.0919, 0.1501, 0.1873, 0.0691, 0.1822, 0.2100, 0.1793, 0.0886],
       device='cuda:1'), in_proj_covar=tensor([0.0049, 0.0055, 0.0074, 0.0047, 0.0065, 0.0053, 0.0067, 0.0048],
       device='cuda:1'), out_proj_covar=tensor([0.0001, 0.0002, 0.0002, 0.0001, 0.0002, 0.0002, 0.0002, 0.0001],
       device='cuda:1')
2022-11-15 18:55:24,587 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=28585.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 18:55:43,575 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=28611.0, num_to_drop=1, layers_to_drop={2}
2022-11-15 18:55:44,799 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.410e+02 2.021e+02 2.337e+02 3.022e+02 5.149e+02, threshold=4.674e+02, percent-clipped=0.0
2022-11-15 18:55:47,615 INFO [train.py:876] (1/4) Epoch 4, batch 6800, loss[loss=0.1926, simple_loss=0.2007, pruned_loss=0.09232, over 5627.00 frames. ], tot_loss[loss=0.1928, simple_loss=0.1908, pruned_loss=0.09744, over 1090394.06 frames. ], batch size: 29, lr: 1.81e-02, grad_scale: 8.0
2022-11-15 18:56:06,105 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=28643.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 18:56:06,139 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.0980, 2.8756, 2.3070, 1.4932, 2.7788, 1.0110, 2.9016, 1.5732],
       device='cuda:1'), covar=tensor([0.0881, 0.0165, 0.0734, 0.1677, 0.0200, 0.1883, 0.0161, 0.1481],
       device='cuda:1'), in_proj_covar=tensor([0.0126, 0.0099, 0.0102, 0.0122, 0.0101, 0.0129, 0.0086, 0.0125],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0003, 0.0003, 0.0004, 0.0003, 0.0004, 0.0003, 0.0004],
       device='cuda:1')
2022-11-15 18:56:18,196 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.2235, 1.0646, 0.8198, 1.0870, 1.3331, 1.1479, 0.9475, 0.9688],
       device='cuda:1'), covar=tensor([0.0692, 0.0460, 0.0438, 0.0962, 0.0353, 0.1006, 0.0536, 0.0466],
       device='cuda:1'), in_proj_covar=tensor([0.0008, 0.0011, 0.0009, 0.0010, 0.0008, 0.0008, 0.0010, 0.0008],
       device='cuda:1'), out_proj_covar=tensor([3.3340e-05, 3.8956e-05, 3.4702e-05, 3.8651e-05, 3.3055e-05, 3.0938e-05,
        3.6804e-05, 3.3167e-05], device='cuda:1')
2022-11-15 18:56:27,970 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=2.21 vs. limit=2.0
2022-11-15 18:56:30,855 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([4.4341, 4.4257, 4.2665, 4.6450, 3.7959, 3.4542, 5.0536, 4.2297],
       device='cuda:1'), covar=tensor([0.0338, 0.0653, 0.0419, 0.0640, 0.0473, 0.0356, 0.0710, 0.0380],
       device='cuda:1'), in_proj_covar=tensor([0.0062, 0.0079, 0.0068, 0.0083, 0.0063, 0.0054, 0.0106, 0.0068],
       device='cuda:1'), out_proj_covar=tensor([0.0001, 0.0002, 0.0002, 0.0002, 0.0002, 0.0001, 0.0003, 0.0002],
       device='cuda:1')
2022-11-15 18:56:37,264 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=1.96 vs. limit=2.0
2022-11-15 18:56:56,415 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.127e+02 2.083e+02 2.579e+02 3.189e+02 6.516e+02, threshold=5.157e+02, percent-clipped=5.0
2022-11-15 18:56:57,442 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=2.00 vs. limit=2.0
2022-11-15 18:56:59,135 INFO [train.py:876] (1/4) Epoch 4, batch 6900, loss[loss=0.2253, simple_loss=0.2152, pruned_loss=0.1177, over 5653.00 frames. ], tot_loss[loss=0.1918, simple_loss=0.1899, pruned_loss=0.09687, over 1082468.52 frames. ], batch size: 29, lr: 1.80e-02, grad_scale: 8.0
2022-11-15 18:57:01,302 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.9854, 4.3168, 3.3748, 1.9961, 4.1121, 1.6368, 4.2576, 2.3795],
       device='cuda:1'), covar=tensor([0.0943, 0.0089, 0.0398, 0.1932, 0.0148, 0.1909, 0.0106, 0.1767],
       device='cuda:1'), in_proj_covar=tensor([0.0126, 0.0098, 0.0101, 0.0121, 0.0101, 0.0128, 0.0085, 0.0125],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0003, 0.0003, 0.0004, 0.0003, 0.0004, 0.0003, 0.0004],
       device='cuda:1')
2022-11-15 18:57:46,405 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.8364, 1.2349, 1.5120, 1.4000, 1.8120, 1.4665, 1.1942, 1.8583],
       device='cuda:1'), covar=tensor([0.0312, 0.1494, 0.0974, 0.1075, 0.0550, 0.1208, 0.1619, 0.0439],
       device='cuda:1'), in_proj_covar=tensor([0.0158, 0.0215, 0.0218, 0.0293, 0.0207, 0.0223, 0.0198, 0.0168],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0004, 0.0004, 0.0005, 0.0004, 0.0004, 0.0004, 0.0003],
       device='cuda:1')
2022-11-15 18:58:06,674 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.66 vs. limit=2.0
2022-11-15 18:58:07,454 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 9.482e+01 2.092e+02 2.563e+02 3.027e+02 6.161e+02, threshold=5.126e+02, percent-clipped=1.0
2022-11-15 18:58:10,632 INFO [train.py:876] (1/4) Epoch 4, batch 7000, loss[loss=0.1236, simple_loss=0.1406, pruned_loss=0.05337, over 5183.00 frames. ], tot_loss[loss=0.1892, simple_loss=0.1879, pruned_loss=0.09528, over 1079832.19 frames. ], batch size: 8, lr: 1.80e-02, grad_scale: 8.0
2022-11-15 18:58:11,009 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=2.08 vs. limit=2.0
2022-11-15 18:58:28,007 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=28842.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 18:58:32,051 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=28848.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 18:58:35,091 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=3.86 vs. limit=5.0
2022-11-15 18:58:41,461 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=28861.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 18:58:58,310 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=28885.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 18:59:01,047 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.4860, 1.7030, 1.3360, 1.6032, 1.9566, 1.3148, 1.8179, 1.4585],
       device='cuda:1'), covar=tensor([0.0025, 0.0037, 0.0050, 0.0013, 0.0048, 0.0112, 0.0056, 0.0028],
       device='cuda:1'), in_proj_covar=tensor([0.0014, 0.0015, 0.0014, 0.0015, 0.0015, 0.0015, 0.0016, 0.0016],
       device='cuda:1'), out_proj_covar=tensor([1.5486e-05, 1.6507e-05, 1.5091e-05, 1.5977e-05, 1.5085e-05, 1.7187e-05,
        1.7527e-05, 1.8886e-05], device='cuda:1')
2022-11-15 18:59:05,045 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.2222, 4.7102, 3.6298, 2.0384, 4.4186, 1.5313, 4.2600, 2.5033],
       device='cuda:1'), covar=tensor([0.0898, 0.0083, 0.0301, 0.2097, 0.0116, 0.2013, 0.0125, 0.1889],
       device='cuda:1'), in_proj_covar=tensor([0.0127, 0.0100, 0.0102, 0.0122, 0.0101, 0.0132, 0.0088, 0.0126],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0003, 0.0003, 0.0004, 0.0003, 0.0004, 0.0003, 0.0004],
       device='cuda:1')
2022-11-15 18:59:16,483 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=28911.0, num_to_drop=1, layers_to_drop={2}
2022-11-15 18:59:17,665 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.222e+02 2.242e+02 2.603e+02 3.137e+02 5.359e+02, threshold=5.206e+02, percent-clipped=2.0
2022-11-15 18:59:21,222 INFO [train.py:876] (1/4) Epoch 4, batch 7100, loss[loss=0.1482, simple_loss=0.1794, pruned_loss=0.05853, over 5735.00 frames. ], tot_loss[loss=0.1906, simple_loss=0.1894, pruned_loss=0.09588, over 1082318.49 frames. ], batch size: 15, lr: 1.80e-02, grad_scale: 8.0
2022-11-15 18:59:24,862 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=28922.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 18:59:32,541 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=28933.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 18:59:39,668 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=28943.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 18:59:50,848 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=28959.0, num_to_drop=1, layers_to_drop={0}
2022-11-15 18:59:52,306 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([0.9680, 1.3003, 1.4206, 1.0586, 1.6421, 1.2897, 1.7906, 0.8896],
       device='cuda:1'), covar=tensor([0.0011, 0.0035, 0.0032, 0.0014, 0.0013, 0.0058, 0.0012, 0.0024],
       device='cuda:1'), in_proj_covar=tensor([0.0013, 0.0014, 0.0013, 0.0015, 0.0014, 0.0014, 0.0016, 0.0015],
       device='cuda:1'), out_proj_covar=tensor([1.4640e-05, 1.5395e-05, 1.4072e-05, 1.5343e-05, 1.4369e-05, 1.6170e-05,
        1.6772e-05, 1.7801e-05], device='cuda:1')
2022-11-15 18:59:53,025 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([0.3942, 0.6681, 0.5304, 0.4294, 0.8502, 0.5796, 0.2741, 0.7375],
       device='cuda:1'), covar=tensor([0.0024, 0.0019, 0.0017, 0.0008, 0.0019, 0.0012, 0.0034, 0.0015],
       device='cuda:1'), in_proj_covar=tensor([0.0024, 0.0022, 0.0023, 0.0024, 0.0023, 0.0021, 0.0022, 0.0021],
       device='cuda:1'), out_proj_covar=tensor([2.5973e-05, 2.5409e-05, 2.1377e-05, 2.2708e-05, 2.1287e-05, 1.7944e-05,
        2.8069e-05, 1.9769e-05], device='cuda:1')
2022-11-15 19:00:00,519 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.2321, 1.1888, 1.3838, 0.7929, 1.5421, 1.1300, 1.6004, 0.8119],
       device='cuda:1'), covar=tensor([0.0015, 0.0036, 0.0027, 0.0017, 0.0025, 0.0046, 0.0019, 0.0027],
       device='cuda:1'), in_proj_covar=tensor([0.0013, 0.0014, 0.0013, 0.0015, 0.0014, 0.0014, 0.0016, 0.0015],
       device='cuda:1'), out_proj_covar=tensor([1.4539e-05, 1.5251e-05, 1.3940e-05, 1.5314e-05, 1.4267e-05, 1.6080e-05,
        1.6664e-05, 1.7783e-05], device='cuda:1')
2022-11-15 19:00:13,729 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=28991.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 19:00:21,857 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=29002.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 19:00:29,545 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.083e+02 2.015e+02 2.566e+02 3.105e+02 6.744e+02, threshold=5.133e+02, percent-clipped=2.0
2022-11-15 19:00:32,347 INFO [train.py:876] (1/4) Epoch 4, batch 7200, loss[loss=0.2343, simple_loss=0.2253, pruned_loss=0.1217, over 5740.00 frames. ], tot_loss[loss=0.1902, simple_loss=0.1891, pruned_loss=0.09569, over 1089995.14 frames. ], batch size: 27, lr: 1.80e-02, grad_scale: 8.0
2022-11-15 19:00:56,191 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([6.0874, 5.4026, 5.7396, 5.1949, 6.0230, 5.9315, 5.0034, 5.8502],
       device='cuda:1'), covar=tensor([0.0236, 0.0232, 0.0314, 0.0309, 0.0259, 0.0086, 0.0223, 0.0228],
       device='cuda:1'), in_proj_covar=tensor([0.0093, 0.0100, 0.0080, 0.0110, 0.0106, 0.0063, 0.0086, 0.0099],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0001, 0.0002, 0.0002],
       device='cuda:1')
2022-11-15 19:01:03,722 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=29063.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 19:02:11,328 INFO [train.py:876] (1/4) Epoch 5, batch 0, loss[loss=0.1662, simple_loss=0.1857, pruned_loss=0.07337, over 5629.00 frames. ], tot_loss[loss=0.1662, simple_loss=0.1857, pruned_loss=0.07337, over 5629.00 frames. ], batch size: 29, lr: 1.67e-02, grad_scale: 16.0
2022-11-15 19:02:11,328 INFO [train.py:899] (1/4) Computing validation loss
2022-11-15 19:02:25,266 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.0097, 1.2619, 0.8948, 0.8177, 1.1473, 1.4214, 1.0156, 1.0394],
       device='cuda:1'), covar=tensor([0.1227, 0.0389, 0.0310, 0.1757, 0.1638, 0.0753, 0.0781, 0.0671],
       device='cuda:1'), in_proj_covar=tensor([0.0009, 0.0011, 0.0010, 0.0010, 0.0009, 0.0008, 0.0010, 0.0009],
       device='cuda:1'), out_proj_covar=tensor([3.5605e-05, 4.2313e-05, 3.7726e-05, 4.1032e-05, 3.6362e-05, 3.2453e-05,
        3.8988e-05, 3.6036e-05], device='cuda:1')
2022-11-15 19:02:28,899 INFO [train.py:908] (1/4) Epoch 5, validation: loss=0.1679, simple_loss=0.1892, pruned_loss=0.07329, over 1530663.00 frames. 
2022-11-15 19:02:28,900 INFO [train.py:909] (1/4) Maximum memory allocated so far is 4576MB
2022-11-15 19:02:45,211 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([4.0892, 2.2832, 3.6820, 3.1384, 4.0969, 2.5167, 3.3907, 3.9590],
       device='cuda:1'), covar=tensor([0.0163, 0.0867, 0.0252, 0.0825, 0.0181, 0.0761, 0.0570, 0.0263],
       device='cuda:1'), in_proj_covar=tensor([0.0166, 0.0192, 0.0168, 0.0205, 0.0165, 0.0187, 0.0221, 0.0188],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0004, 0.0003],
       device='cuda:1')
2022-11-15 19:02:46,020 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.011e+02 1.898e+02 2.233e+02 2.969e+02 5.666e+02, threshold=4.467e+02, percent-clipped=2.0
2022-11-15 19:03:06,473 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=29142.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 19:03:10,783 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=29148.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 19:03:40,110 INFO [train.py:876] (1/4) Epoch 5, batch 100, loss[loss=0.2014, simple_loss=0.2073, pruned_loss=0.0978, over 5587.00 frames. ], tot_loss[loss=0.19, simple_loss=0.1896, pruned_loss=0.09521, over 434836.34 frames. ], batch size: 22, lr: 1.67e-02, grad_scale: 16.0
2022-11-15 19:03:41,272 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=29190.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 19:03:45,647 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=29196.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 19:03:58,637 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.157e+02 1.864e+02 2.257e+02 2.875e+02 4.325e+02, threshold=4.514e+02, percent-clipped=0.0
2022-11-15 19:04:01,604 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=29217.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 19:04:16,096 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=29236.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 19:04:54,395 INFO [train.py:876] (1/4) Epoch 5, batch 200, loss[loss=0.1728, simple_loss=0.1786, pruned_loss=0.0835, over 5747.00 frames. ], tot_loss[loss=0.1904, simple_loss=0.1894, pruned_loss=0.09575, over 688062.31 frames. ], batch size: 16, lr: 1.66e-02, grad_scale: 16.0
2022-11-15 19:05:00,112 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=29297.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 19:05:11,281 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.075e+02 1.852e+02 2.311e+02 2.896e+02 4.298e+02, threshold=4.622e+02, percent-clipped=0.0
2022-11-15 19:05:12,115 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.7307, 1.9053, 1.7670, 1.7638, 1.8710, 1.8444, 0.8317, 1.8994],
       device='cuda:1'), covar=tensor([0.0349, 0.0220, 0.0255, 0.0207, 0.0265, 0.0247, 0.1735, 0.0285],
       device='cuda:1'), in_proj_covar=tensor([0.0092, 0.0069, 0.0070, 0.0059, 0.0085, 0.0070, 0.0127, 0.0093],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0001, 0.0002, 0.0002, 0.0003, 0.0002],
       device='cuda:1')
2022-11-15 19:05:43,283 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=29358.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 19:06:04,996 INFO [train.py:876] (1/4) Epoch 5, batch 300, loss[loss=0.1884, simple_loss=0.1895, pruned_loss=0.09361, over 5725.00 frames. ], tot_loss[loss=0.1857, simple_loss=0.1867, pruned_loss=0.09231, over 844351.51 frames. ], batch size: 17, lr: 1.66e-02, grad_scale: 8.0
2022-11-15 19:06:22,467 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.196e+02 1.934e+02 2.477e+02 3.130e+02 8.486e+02, threshold=4.954e+02, percent-clipped=7.0
2022-11-15 19:07:15,086 INFO [train.py:876] (1/4) Epoch 5, batch 400, loss[loss=0.1811, simple_loss=0.1897, pruned_loss=0.08631, over 5593.00 frames. ], tot_loss[loss=0.1853, simple_loss=0.1869, pruned_loss=0.09182, over 943596.00 frames. ], batch size: 22, lr: 1.66e-02, grad_scale: 8.0
2022-11-15 19:07:32,203 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.241e+02 1.992e+02 2.391e+02 2.865e+02 5.865e+02, threshold=4.782e+02, percent-clipped=1.0
2022-11-15 19:07:34,762 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=29517.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 19:07:56,623 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.94 vs. limit=2.0
2022-11-15 19:07:58,391 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=29551.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 19:08:07,906 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=29565.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 19:08:25,427 INFO [train.py:876] (1/4) Epoch 5, batch 500, loss[loss=0.1892, simple_loss=0.1727, pruned_loss=0.1028, over 5166.00 frames. ], tot_loss[loss=0.1849, simple_loss=0.1868, pruned_loss=0.09149, over 1002641.70 frames. ], batch size: 91, lr: 1.66e-02, grad_scale: 8.0
2022-11-15 19:08:27,520 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=29592.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 19:08:28,862 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.9174, 4.4669, 3.4208, 2.0498, 4.3147, 1.5003, 4.2293, 2.4423],
       device='cuda:1'), covar=tensor([0.0955, 0.0114, 0.0532, 0.1886, 0.0150, 0.1962, 0.0113, 0.1424],
       device='cuda:1'), in_proj_covar=tensor([0.0128, 0.0099, 0.0105, 0.0121, 0.0099, 0.0132, 0.0088, 0.0123],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0003, 0.0003, 0.0004, 0.0003, 0.0004, 0.0003, 0.0004],
       device='cuda:1')
2022-11-15 19:08:41,579 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=29612.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 19:08:42,744 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 9.299e+01 1.690e+02 2.176e+02 2.799e+02 4.262e+02, threshold=4.352e+02, percent-clipped=0.0
2022-11-15 19:09:14,441 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=29658.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 19:09:17,212 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=29662.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 19:09:36,296 INFO [train.py:876] (1/4) Epoch 5, batch 600, loss[loss=0.1644, simple_loss=0.1774, pruned_loss=0.07573, over 5730.00 frames. ], tot_loss[loss=0.1845, simple_loss=0.1864, pruned_loss=0.09132, over 1036666.98 frames. ], batch size: 16, lr: 1.65e-02, grad_scale: 8.0
2022-11-15 19:09:48,476 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=29706.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 19:09:49,397 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=7.48 vs. limit=5.0
2022-11-15 19:09:53,665 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 9.408e+01 2.026e+02 2.597e+02 3.156e+02 6.029e+02, threshold=5.193e+02, percent-clipped=5.0
2022-11-15 19:09:59,860 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=29723.0, num_to_drop=1, layers_to_drop={2}
2022-11-15 19:10:46,602 INFO [train.py:876] (1/4) Epoch 5, batch 700, loss[loss=0.143, simple_loss=0.157, pruned_loss=0.06445, over 5557.00 frames. ], tot_loss[loss=0.1874, simple_loss=0.1878, pruned_loss=0.09355, over 1047888.05 frames. ], batch size: 14, lr: 1.65e-02, grad_scale: 8.0
2022-11-15 19:10:56,336 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=29802.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 19:10:59,775 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=3.98 vs. limit=5.0
2022-11-15 19:11:04,298 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.261e+02 2.007e+02 2.393e+02 2.831e+02 4.977e+02, threshold=4.787e+02, percent-clipped=0.0
2022-11-15 19:11:28,605 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.7052, 2.9125, 2.8013, 2.7525, 2.8273, 2.8337, 0.9829, 2.8575],
       device='cuda:1'), covar=tensor([0.0334, 0.0188, 0.0236, 0.0203, 0.0315, 0.0250, 0.2739, 0.0345],
       device='cuda:1'), in_proj_covar=tensor([0.0096, 0.0071, 0.0073, 0.0062, 0.0090, 0.0072, 0.0128, 0.0097],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0001, 0.0002, 0.0002, 0.0003, 0.0002],
       device='cuda:1')
2022-11-15 19:11:39,263 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=29863.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 19:11:57,079 INFO [train.py:876] (1/4) Epoch 5, batch 800, loss[loss=0.1582, simple_loss=0.17, pruned_loss=0.07324, over 5710.00 frames. ], tot_loss[loss=0.1867, simple_loss=0.1872, pruned_loss=0.09308, over 1062754.06 frames. ], batch size: 15, lr: 1.65e-02, grad_scale: 8.0
2022-11-15 19:11:59,158 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=29892.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 19:12:10,344 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=29907.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 19:12:15,044 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.261e+02 1.917e+02 2.325e+02 2.760e+02 6.321e+02, threshold=4.650e+02, percent-clipped=1.0
2022-11-15 19:12:33,174 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=29940.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 19:13:07,972 INFO [train.py:876] (1/4) Epoch 5, batch 900, loss[loss=0.2423, simple_loss=0.2162, pruned_loss=0.1341, over 3049.00 frames. ], tot_loss[loss=0.1885, simple_loss=0.1883, pruned_loss=0.09438, over 1069055.41 frames. ], batch size: 284, lr: 1.65e-02, grad_scale: 8.0
2022-11-15 19:13:29,502 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 9.538e+01 1.888e+02 2.305e+02 2.835e+02 5.650e+02, threshold=4.611e+02, percent-clipped=1.0
2022-11-15 19:13:32,278 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=30018.0, num_to_drop=1, layers_to_drop={3}
2022-11-15 19:14:01,350 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.7755, 3.2668, 2.3666, 3.0710, 2.1636, 2.3832, 1.6493, 2.6420],
       device='cuda:1'), covar=tensor([0.1254, 0.0124, 0.0746, 0.0225, 0.0608, 0.0781, 0.1701, 0.0247],
       device='cuda:1'), in_proj_covar=tensor([0.0178, 0.0120, 0.0164, 0.0121, 0.0156, 0.0178, 0.0185, 0.0131],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0002, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003, 0.0002],
       device='cuda:1')
2022-11-15 19:14:22,091 INFO [train.py:876] (1/4) Epoch 5, batch 1000, loss[loss=0.1329, simple_loss=0.1498, pruned_loss=0.05798, over 5707.00 frames. ], tot_loss[loss=0.1849, simple_loss=0.186, pruned_loss=0.09191, over 1074612.95 frames. ], batch size: 12, lr: 1.64e-02, grad_scale: 8.0
2022-11-15 19:14:39,368 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 9.933e+01 1.915e+02 2.282e+02 2.914e+02 7.246e+02, threshold=4.564e+02, percent-clipped=3.0
2022-11-15 19:14:47,775 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=30125.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 19:15:00,805 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=2.15 vs. limit=2.0
2022-11-15 19:15:10,216 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=30158.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 19:15:30,417 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=30186.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 19:15:32,271 INFO [train.py:876] (1/4) Epoch 5, batch 1100, loss[loss=0.201, simple_loss=0.2092, pruned_loss=0.09642, over 5627.00 frames. ], tot_loss[loss=0.1834, simple_loss=0.1851, pruned_loss=0.09083, over 1085272.10 frames. ], batch size: 38, lr: 1.64e-02, grad_scale: 8.0
2022-11-15 19:15:39,587 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.30 vs. limit=2.0
2022-11-15 19:15:45,337 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=30207.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 19:15:46,764 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=30209.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 19:15:49,988 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.297e+02 1.933e+02 2.265e+02 2.887e+02 4.331e+02, threshold=4.530e+02, percent-clipped=0.0
2022-11-15 19:16:19,262 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=30255.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 19:16:21,634 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=2.02 vs. limit=2.0
2022-11-15 19:16:28,012 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=2.22 vs. limit=2.0
2022-11-15 19:16:30,094 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=30270.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 19:16:43,129 INFO [train.py:876] (1/4) Epoch 5, batch 1200, loss[loss=0.1591, simple_loss=0.169, pruned_loss=0.07462, over 5725.00 frames. ], tot_loss[loss=0.1816, simple_loss=0.1844, pruned_loss=0.08947, over 1086769.31 frames. ], batch size: 28, lr: 1.64e-02, grad_scale: 8.0
2022-11-15 19:16:59,512 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.6601, 1.4508, 1.7818, 1.7119, 1.4358, 1.7119, 1.1851, 1.1031],
       device='cuda:1'), covar=tensor([0.0011, 0.0028, 0.0015, 0.0011, 0.0019, 0.0039, 0.0016, 0.0025],
       device='cuda:1'), in_proj_covar=tensor([0.0014, 0.0014, 0.0014, 0.0016, 0.0015, 0.0015, 0.0017, 0.0016],
       device='cuda:1'), out_proj_covar=tensor([1.5435e-05, 1.6086e-05, 1.4770e-05, 1.6283e-05, 1.5613e-05, 1.6398e-05,
        1.8151e-05, 1.8975e-05], device='cuda:1')
2022-11-15 19:17:00,684 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.148e+02 1.969e+02 2.334e+02 2.925e+02 5.027e+02, threshold=4.667e+02, percent-clipped=3.0
2022-11-15 19:17:03,525 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=30318.0, num_to_drop=1, layers_to_drop={2}
2022-11-15 19:17:33,183 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=30360.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 19:17:37,209 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=30366.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 19:17:44,002 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.2806, 1.2149, 1.1231, 0.7452, 0.7971, 1.5376, 1.1396, 1.1994],
       device='cuda:1'), covar=tensor([0.0028, 0.0030, 0.0025, 0.0027, 0.0038, 0.0017, 0.0037, 0.0049],
       device='cuda:1'), in_proj_covar=tensor([0.0027, 0.0027, 0.0027, 0.0027, 0.0027, 0.0025, 0.0025, 0.0024],
       device='cuda:1'), out_proj_covar=tensor([2.8421e-05, 3.0920e-05, 2.4575e-05, 2.5504e-05, 2.5338e-05, 2.0516e-05,
        3.1064e-05, 2.3063e-05], device='cuda:1')
2022-11-15 19:17:47,323 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.0957, 4.0815, 2.5921, 3.8320, 3.0875, 2.4789, 1.9847, 3.2568],
       device='cuda:1'), covar=tensor([0.2326, 0.0246, 0.1422, 0.0410, 0.0753, 0.1654, 0.2445, 0.0396],
       device='cuda:1'), in_proj_covar=tensor([0.0176, 0.0119, 0.0166, 0.0123, 0.0162, 0.0178, 0.0185, 0.0132],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0002, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003, 0.0002],
       device='cuda:1')
2022-11-15 19:17:52,997 INFO [train.py:876] (1/4) Epoch 5, batch 1300, loss[loss=0.1287, simple_loss=0.1564, pruned_loss=0.0505, over 5127.00 frames. ], tot_loss[loss=0.1809, simple_loss=0.1839, pruned_loss=0.08897, over 1091543.97 frames. ], batch size: 8, lr: 1.63e-02, grad_scale: 8.0
2022-11-15 19:18:10,523 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.384e+02 1.960e+02 2.546e+02 3.212e+02 9.234e+02, threshold=5.093e+02, percent-clipped=6.0
2022-11-15 19:18:15,964 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=30421.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 19:18:42,364 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=30458.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 19:18:58,171 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=30481.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 19:19:04,003 INFO [train.py:876] (1/4) Epoch 5, batch 1400, loss[loss=0.1175, simple_loss=0.1253, pruned_loss=0.05485, over 4570.00 frames. ], tot_loss[loss=0.1793, simple_loss=0.1819, pruned_loss=0.08834, over 1086694.75 frames. ], batch size: 5, lr: 1.63e-02, grad_scale: 8.0
2022-11-15 19:19:13,703 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.5351, 1.3433, 1.2849, 1.3170, 1.0475, 1.7328, 1.2576, 1.0366],
       device='cuda:1'), covar=tensor([0.0015, 0.0046, 0.0037, 0.0019, 0.0046, 0.0022, 0.0026, 0.0039],
       device='cuda:1'), in_proj_covar=tensor([0.0016, 0.0015, 0.0015, 0.0016, 0.0016, 0.0016, 0.0018, 0.0017],
       device='cuda:1'), out_proj_covar=tensor([1.6673e-05, 1.6783e-05, 1.5676e-05, 1.7093e-05, 1.6667e-05, 1.7156e-05,
        1.9344e-05, 2.0038e-05], device='cuda:1')
2022-11-15 19:19:14,123 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=2.01 vs. limit=2.0
2022-11-15 19:19:15,746 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=30506.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 19:19:21,872 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.110e+02 1.868e+02 2.246e+02 2.844e+02 4.562e+02, threshold=4.491e+02, percent-clipped=0.0
2022-11-15 19:19:57,521 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=30565.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 19:19:59,611 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.4056, 3.1134, 3.2645, 3.0444, 3.3902, 3.2879, 3.2415, 3.3307],
       device='cuda:1'), covar=tensor([0.0344, 0.0306, 0.0362, 0.0358, 0.0377, 0.0149, 0.0240, 0.0381],
       device='cuda:1'), in_proj_covar=tensor([0.0100, 0.0106, 0.0082, 0.0114, 0.0111, 0.0066, 0.0092, 0.0099],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0001, 0.0002, 0.0002],
       device='cuda:1')
2022-11-15 19:20:00,328 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([5.4725, 4.9037, 5.3157, 4.9856, 5.4202, 5.4839, 4.7416, 5.4909],
       device='cuda:1'), covar=tensor([0.0374, 0.0255, 0.0362, 0.0288, 0.0430, 0.0097, 0.0212, 0.0278],
       device='cuda:1'), in_proj_covar=tensor([0.0100, 0.0106, 0.0082, 0.0114, 0.0111, 0.0066, 0.0092, 0.0099],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0001, 0.0002, 0.0002],
       device='cuda:1')
2022-11-15 19:20:14,011 INFO [train.py:876] (1/4) Epoch 5, batch 1500, loss[loss=0.1189, simple_loss=0.1342, pruned_loss=0.05186, over 5555.00 frames. ], tot_loss[loss=0.1821, simple_loss=0.1836, pruned_loss=0.09027, over 1085736.29 frames. ], batch size: 13, lr: 1.63e-02, grad_scale: 8.0
2022-11-15 19:20:31,689 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.176e+02 1.945e+02 2.500e+02 2.887e+02 6.503e+02, threshold=4.999e+02, percent-clipped=3.0
2022-11-15 19:20:48,092 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([4.6029, 5.3338, 4.6297, 5.3256, 5.3700, 4.6109, 4.7196, 4.7387],
       device='cuda:1'), covar=tensor([0.0215, 0.0390, 0.1471, 0.0255, 0.0329, 0.0387, 0.0302, 0.0345],
       device='cuda:1'), in_proj_covar=tensor([0.0117, 0.0136, 0.0216, 0.0135, 0.0167, 0.0140, 0.0141, 0.0124],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0004, 0.0002, 0.0003, 0.0002, 0.0002, 0.0002],
       device='cuda:1')
2022-11-15 19:21:01,542 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=30655.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 19:21:13,789 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.0844, 0.7336, 1.1995, 1.1569, 1.4913, 1.4498, 1.1062, 1.0511],
       device='cuda:1'), covar=tensor([0.1708, 0.0610, 0.0675, 0.1468, 0.1028, 0.0946, 0.0897, 0.0748],
       device='cuda:1'), in_proj_covar=tensor([0.0008, 0.0011, 0.0009, 0.0010, 0.0009, 0.0008, 0.0010, 0.0009],
       device='cuda:1'), out_proj_covar=tensor([3.5216e-05, 4.2622e-05, 3.6655e-05, 4.1141e-05, 3.6940e-05, 3.3566e-05,
        3.9107e-05, 3.6867e-05], device='cuda:1')
2022-11-15 19:21:16,483 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.9399, 4.3479, 3.7449, 4.3722, 4.3606, 3.6375, 3.8185, 3.6210],
       device='cuda:1'), covar=tensor([0.0494, 0.0376, 0.1476, 0.0302, 0.0353, 0.0386, 0.0547, 0.0501],
       device='cuda:1'), in_proj_covar=tensor([0.0117, 0.0136, 0.0211, 0.0133, 0.0165, 0.0139, 0.0140, 0.0123],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0004, 0.0002, 0.0003, 0.0002, 0.0002, 0.0002],
       device='cuda:1')
2022-11-15 19:21:25,659 INFO [train.py:876] (1/4) Epoch 5, batch 1600, loss[loss=0.1744, simple_loss=0.1922, pruned_loss=0.07828, over 5503.00 frames. ], tot_loss[loss=0.1785, simple_loss=0.1817, pruned_loss=0.08764, over 1084987.43 frames. ], batch size: 17, lr: 1.63e-02, grad_scale: 8.0
2022-11-15 19:21:43,137 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.104e+02 1.815e+02 2.150e+02 2.703e+02 4.613e+02, threshold=4.301e+02, percent-clipped=0.0
2022-11-15 19:21:44,626 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=30716.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 19:21:44,730 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=30716.0, num_to_drop=1, layers_to_drop={2}
2022-11-15 19:22:15,609 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([5.3298, 4.7609, 4.9936, 4.8427, 5.4717, 5.1709, 4.5160, 5.2925],
       device='cuda:1'), covar=tensor([0.0302, 0.0178, 0.0425, 0.0193, 0.0168, 0.0093, 0.0206, 0.0202],
       device='cuda:1'), in_proj_covar=tensor([0.0098, 0.0104, 0.0081, 0.0112, 0.0109, 0.0067, 0.0089, 0.0100],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0001, 0.0002, 0.0002],
       device='cuda:1')
2022-11-15 19:22:31,301 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=30781.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 19:22:36,908 INFO [train.py:876] (1/4) Epoch 5, batch 1700, loss[loss=0.1236, simple_loss=0.146, pruned_loss=0.05061, over 5466.00 frames. ], tot_loss[loss=0.1794, simple_loss=0.1828, pruned_loss=0.08799, over 1086777.39 frames. ], batch size: 11, lr: 1.62e-02, grad_scale: 8.0
2022-11-15 19:22:54,316 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.089e+02 1.936e+02 2.464e+02 3.039e+02 4.896e+02, threshold=4.928e+02, percent-clipped=3.0
2022-11-15 19:23:04,933 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=30829.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 19:23:09,507 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([0.5823, 0.9441, 0.8504, 0.6612, 0.8051, 0.7535, 0.6259, 1.0617],
       device='cuda:1'), covar=tensor([0.0023, 0.0014, 0.0023, 0.0011, 0.0020, 0.0019, 0.0025, 0.0012],
       device='cuda:1'), in_proj_covar=tensor([0.0025, 0.0024, 0.0026, 0.0025, 0.0025, 0.0024, 0.0023, 0.0023],
       device='cuda:1'), out_proj_covar=tensor([2.6499e-05, 2.7915e-05, 2.4420e-05, 2.3666e-05, 2.3877e-05, 1.9677e-05,
        2.8090e-05, 2.1647e-05], device='cuda:1')
2022-11-15 19:23:29,933 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=30865.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 19:23:38,393 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.0215, 0.8172, 0.7129, 0.6984, 0.9861, 1.1320, 0.7057, 0.7040],
       device='cuda:1'), covar=tensor([0.0469, 0.0453, 0.0578, 0.0766, 0.0319, 0.0247, 0.0694, 0.0636],
       device='cuda:1'), in_proj_covar=tensor([0.0009, 0.0012, 0.0009, 0.0010, 0.0009, 0.0008, 0.0011, 0.0009],
       device='cuda:1'), out_proj_covar=tensor([3.6515e-05, 4.4166e-05, 3.8344e-05, 4.2229e-05, 3.7562e-05, 3.4869e-05,
        4.1166e-05, 3.8795e-05], device='cuda:1')
2022-11-15 19:23:45,849 INFO [train.py:876] (1/4) Epoch 5, batch 1800, loss[loss=0.2063, simple_loss=0.2027, pruned_loss=0.105, over 5684.00 frames. ], tot_loss[loss=0.1827, simple_loss=0.1846, pruned_loss=0.09045, over 1086343.97 frames. ], batch size: 36, lr: 1.62e-02, grad_scale: 8.0
2022-11-15 19:23:56,003 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=30903.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 19:24:02,785 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=30913.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 19:24:03,361 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.082e+02 1.810e+02 2.217e+02 2.817e+02 4.516e+02, threshold=4.435e+02, percent-clipped=0.0
2022-11-15 19:24:10,689 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=30925.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 19:24:16,528 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=30934.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 19:24:37,861 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=30964.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 19:24:52,287 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=30986.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 19:24:54,008 INFO [train.py:876] (1/4) Epoch 5, batch 1900, loss[loss=0.1931, simple_loss=0.1837, pruned_loss=0.1012, over 5722.00 frames. ], tot_loss[loss=0.1806, simple_loss=0.1835, pruned_loss=0.08884, over 1092769.55 frames. ], batch size: 14, lr: 1.62e-02, grad_scale: 8.0
2022-11-15 19:24:58,418 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=30995.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 19:25:10,260 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=31011.0, num_to_drop=1, layers_to_drop={2}
2022-11-15 19:25:10,324 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=31011.0, num_to_drop=1, layers_to_drop={1}
2022-11-15 19:25:12,009 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.128e+02 1.895e+02 2.325e+02 2.903e+02 5.344e+02, threshold=4.651e+02, percent-clipped=5.0
2022-11-15 19:25:13,452 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=31016.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 19:25:36,823 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.92 vs. limit=2.0
2022-11-15 19:25:44,436 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.7312, 1.1527, 1.1627, 1.1242, 1.5517, 1.3233, 1.6168, 1.3373],
       device='cuda:1'), covar=tensor([0.0338, 0.0589, 0.1189, 0.0854, 0.0654, 0.1648, 0.0727, 0.0427],
       device='cuda:1'), in_proj_covar=tensor([0.0009, 0.0011, 0.0009, 0.0010, 0.0009, 0.0008, 0.0010, 0.0009],
       device='cuda:1'), out_proj_covar=tensor([3.5594e-05, 4.3116e-05, 3.7120e-05, 4.1148e-05, 3.6710e-05, 3.3389e-05,
        4.0078e-05, 3.8010e-05], device='cuda:1')
2022-11-15 19:25:46,274 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=31064.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 19:25:51,701 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=31072.0, num_to_drop=1, layers_to_drop={0}
2022-11-15 19:25:55,631 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([4.3832, 5.1024, 4.3530, 5.0344, 5.0497, 4.3798, 4.5784, 4.4152],
       device='cuda:1'), covar=tensor([0.0282, 0.0296, 0.1405, 0.0310, 0.0334, 0.0424, 0.0471, 0.0348],
       device='cuda:1'), in_proj_covar=tensor([0.0114, 0.0133, 0.0214, 0.0133, 0.0164, 0.0138, 0.0139, 0.0123],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0004, 0.0002, 0.0003, 0.0002, 0.0002, 0.0002],
       device='cuda:1')
2022-11-15 19:26:02,297 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.2591, 1.0053, 1.0186, 0.8981, 1.3188, 1.2268, 1.1874, 1.0363],
       device='cuda:1'), covar=tensor([0.1094, 0.0668, 0.0529, 0.1404, 0.2757, 0.0544, 0.0762, 0.0890],
       device='cuda:1'), in_proj_covar=tensor([0.0009, 0.0012, 0.0009, 0.0010, 0.0009, 0.0008, 0.0010, 0.0009],
       device='cuda:1'), out_proj_covar=tensor([3.6169e-05, 4.3979e-05, 3.7575e-05, 4.2031e-05, 3.7360e-05, 3.4057e-05,
        4.0520e-05, 3.8684e-05], device='cuda:1')
2022-11-15 19:26:02,814 INFO [train.py:876] (1/4) Epoch 5, batch 2000, loss[loss=0.1893, simple_loss=0.2055, pruned_loss=0.08657, over 5624.00 frames. ], tot_loss[loss=0.1815, simple_loss=0.184, pruned_loss=0.0895, over 1083009.27 frames. ], batch size: 23, lr: 1.62e-02, grad_scale: 8.0
2022-11-15 19:26:07,193 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.9464, 1.7172, 2.2207, 2.8202, 2.7832, 2.0952, 1.6652, 3.1530],
       device='cuda:1'), covar=tensor([0.0445, 0.3014, 0.1927, 0.1413, 0.0775, 0.2482, 0.2178, 0.0247],
       device='cuda:1'), in_proj_covar=tensor([0.0164, 0.0214, 0.0213, 0.0302, 0.0211, 0.0228, 0.0209, 0.0165],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0004, 0.0004, 0.0005, 0.0004, 0.0005, 0.0004, 0.0003],
       device='cuda:1')
2022-11-15 19:26:20,066 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.071e+02 1.737e+02 2.220e+02 2.843e+02 5.773e+02, threshold=4.440e+02, percent-clipped=3.0
2022-11-15 19:27:10,091 INFO [train.py:876] (1/4) Epoch 5, batch 2100, loss[loss=0.167, simple_loss=0.1832, pruned_loss=0.07545, over 5748.00 frames. ], tot_loss[loss=0.1807, simple_loss=0.1836, pruned_loss=0.08892, over 1089338.52 frames. ], batch size: 20, lr: 1.61e-02, grad_scale: 8.0
2022-11-15 19:27:17,815 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.5025, 1.1501, 1.2336, 0.7968, 1.4336, 1.5073, 0.7409, 1.4979],
       device='cuda:1'), covar=tensor([0.0017, 0.0016, 0.0025, 0.0025, 0.0025, 0.0016, 0.0042, 0.0022],
       device='cuda:1'), in_proj_covar=tensor([0.0025, 0.0025, 0.0026, 0.0025, 0.0026, 0.0023, 0.0024, 0.0023],
       device='cuda:1'), out_proj_covar=tensor([2.5482e-05, 2.8663e-05, 2.4219e-05, 2.3953e-05, 2.3971e-05, 1.9331e-05,
        2.9053e-05, 2.1747e-05], device='cuda:1')
2022-11-15 19:27:26,926 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.254e+02 1.972e+02 2.588e+02 3.306e+02 8.013e+02, threshold=5.176e+02, percent-clipped=4.0
2022-11-15 19:27:43,326 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=4.41 vs. limit=5.0
2022-11-15 19:27:58,196 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=31259.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 19:28:13,292 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=31281.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 19:28:18,979 INFO [train.py:876] (1/4) Epoch 5, batch 2200, loss[loss=0.2681, simple_loss=0.2427, pruned_loss=0.1467, over 5448.00 frames. ], tot_loss[loss=0.1819, simple_loss=0.184, pruned_loss=0.0899, over 1087486.36 frames. ], batch size: 64, lr: 1.61e-02, grad_scale: 8.0
2022-11-15 19:28:19,189 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.2880, 3.9833, 3.4010, 3.0847, 2.1190, 3.4921, 2.2386, 3.2814],
       device='cuda:1'), covar=tensor([0.0404, 0.0130, 0.0134, 0.0311, 0.0418, 0.0115, 0.0289, 0.0067],
       device='cuda:1'), in_proj_covar=tensor([0.0162, 0.0114, 0.0128, 0.0141, 0.0156, 0.0128, 0.0144, 0.0113],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0002, 0.0002, 0.0003, 0.0003, 0.0002, 0.0003, 0.0002],
       device='cuda:1')
2022-11-15 19:28:19,738 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=31290.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 19:28:33,497 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=31311.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 19:28:35,400 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.134e+02 2.016e+02 2.479e+02 3.242e+02 5.312e+02, threshold=4.958e+02, percent-clipped=2.0
2022-11-15 19:29:06,517 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=31359.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 19:29:11,637 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=31367.0, num_to_drop=1, layers_to_drop={0}
2022-11-15 19:29:15,827 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.32 vs. limit=2.0
2022-11-15 19:29:26,895 INFO [train.py:876] (1/4) Epoch 5, batch 2300, loss[loss=0.1633, simple_loss=0.1669, pruned_loss=0.07986, over 5474.00 frames. ], tot_loss[loss=0.1833, simple_loss=0.185, pruned_loss=0.09076, over 1088275.87 frames. ], batch size: 12, lr: 1.61e-02, grad_scale: 16.0
2022-11-15 19:29:30,384 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.9502, 2.5910, 2.6025, 1.1576, 2.6672, 3.3581, 3.2089, 3.5169],
       device='cuda:1'), covar=tensor([0.1685, 0.1302, 0.0730, 0.2225, 0.0325, 0.0279, 0.0232, 0.0353],
       device='cuda:1'), in_proj_covar=tensor([0.0187, 0.0184, 0.0143, 0.0194, 0.0145, 0.0144, 0.0129, 0.0160],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0003, 0.0002, 0.0003, 0.0002, 0.0002, 0.0002, 0.0003],
       device='cuda:1')
2022-11-15 19:29:33,641 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.85 vs. limit=2.0
2022-11-15 19:29:41,105 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=31409.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 19:29:44,269 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.150e+02 1.900e+02 2.299e+02 2.871e+02 4.466e+02, threshold=4.598e+02, percent-clipped=0.0
2022-11-15 19:30:22,598 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=31470.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 19:30:35,177 INFO [train.py:876] (1/4) Epoch 5, batch 2400, loss[loss=0.1774, simple_loss=0.1727, pruned_loss=0.09103, over 5352.00 frames. ], tot_loss[loss=0.1827, simple_loss=0.1848, pruned_loss=0.09031, over 1090216.90 frames. ], batch size: 9, lr: 1.61e-02, grad_scale: 16.0
2022-11-15 19:30:37,445 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=31491.0, num_to_drop=1, layers_to_drop={0}
2022-11-15 19:30:53,270 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.223e+02 1.788e+02 2.240e+02 2.771e+02 4.453e+02, threshold=4.479e+02, percent-clipped=0.0
2022-11-15 19:31:19,169 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=31552.0, num_to_drop=1, layers_to_drop={1}
2022-11-15 19:31:24,380 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=31559.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 19:31:38,726 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=31581.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 19:31:38,800 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.3855, 1.7115, 1.9279, 1.9012, 2.3080, 1.8036, 1.4289, 2.3054],
       device='cuda:1'), covar=tensor([0.0328, 0.1346, 0.0793, 0.0813, 0.0540, 0.1326, 0.1735, 0.0426],
       device='cuda:1'), in_proj_covar=tensor([0.0166, 0.0213, 0.0213, 0.0308, 0.0213, 0.0228, 0.0209, 0.0170],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0004, 0.0004, 0.0005, 0.0004, 0.0005, 0.0004, 0.0003],
       device='cuda:1')
2022-11-15 19:31:43,846 INFO [train.py:876] (1/4) Epoch 5, batch 2500, loss[loss=0.1617, simple_loss=0.1685, pruned_loss=0.07744, over 5506.00 frames. ], tot_loss[loss=0.1809, simple_loss=0.1839, pruned_loss=0.08892, over 1088315.36 frames. ], batch size: 13, lr: 1.60e-02, grad_scale: 16.0
2022-11-15 19:31:44,620 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=31590.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 19:31:55,404 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.1845, 1.3149, 1.2060, 0.8434, 0.6403, 1.8105, 1.2082, 1.0503],
       device='cuda:1'), covar=tensor([0.0687, 0.0498, 0.0668, 0.1394, 0.1345, 0.0369, 0.1102, 0.0951],
       device='cuda:1'), in_proj_covar=tensor([0.0042, 0.0038, 0.0041, 0.0048, 0.0040, 0.0034, 0.0036, 0.0041],
       device='cuda:1'), out_proj_covar=tensor([7.7066e-05, 6.9508e-05, 7.2668e-05, 9.3125e-05, 7.5890e-05, 6.9232e-05,
        6.7326e-05, 7.4057e-05], device='cuda:1')
2022-11-15 19:31:56,591 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=31607.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 19:32:01,409 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.094e+02 1.811e+02 2.202e+02 2.747e+02 5.680e+02, threshold=4.404e+02, percent-clipped=5.0
2022-11-15 19:32:04,480 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.1477, 2.8095, 2.0662, 3.2053, 2.0253, 2.9894, 2.5115, 2.9645],
       device='cuda:1'), covar=tensor([0.0923, 0.1478, 0.4462, 0.1201, 0.1985, 0.1128, 0.1970, 0.4126],
       device='cuda:1'), in_proj_covar=tensor([0.0053, 0.0060, 0.0077, 0.0051, 0.0065, 0.0055, 0.0069, 0.0051],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
       device='cuda:1')
2022-11-15 19:32:11,674 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=31629.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 19:32:14,395 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.2205, 1.2938, 1.3873, 0.9849, 0.7154, 1.8914, 1.2192, 1.1417],
       device='cuda:1'), covar=tensor([0.0597, 0.0454, 0.0512, 0.1060, 0.1048, 0.0586, 0.1036, 0.0709],
       device='cuda:1'), in_proj_covar=tensor([0.0042, 0.0038, 0.0042, 0.0048, 0.0041, 0.0035, 0.0037, 0.0041],
       device='cuda:1'), out_proj_covar=tensor([7.7689e-05, 6.9473e-05, 7.3214e-05, 9.3591e-05, 7.6605e-05, 7.0072e-05,
        6.7796e-05, 7.4333e-05], device='cuda:1')
2022-11-15 19:32:17,651 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=31638.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 19:32:25,501 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.64 vs. limit=2.0
2022-11-15 19:32:34,120 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.8288, 2.1544, 1.8071, 2.3621, 1.6725, 1.8056, 1.7483, 2.2781],
       device='cuda:1'), covar=tensor([0.0881, 0.1279, 0.2604, 0.0798, 0.1583, 0.0889, 0.1658, 0.1068],
       device='cuda:1'), in_proj_covar=tensor([0.0052, 0.0059, 0.0075, 0.0050, 0.0065, 0.0054, 0.0068, 0.0050],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
       device='cuda:1')
2022-11-15 19:32:37,445 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=31667.0, num_to_drop=1, layers_to_drop={0}
2022-11-15 19:32:47,276 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.0466, 0.4873, 1.3770, 1.6864, 1.1631, 2.2499, 1.5611, 1.5304],
       device='cuda:1'), covar=tensor([0.0046, 0.0130, 0.0053, 0.0019, 0.0063, 0.0033, 0.0116, 0.0027],
       device='cuda:1'), in_proj_covar=tensor([0.0016, 0.0015, 0.0015, 0.0017, 0.0017, 0.0015, 0.0018, 0.0017],
       device='cuda:1'), out_proj_covar=tensor([1.6097e-05, 1.6776e-05, 1.5562e-05, 1.7844e-05, 1.7290e-05, 1.6283e-05,
        1.9786e-05, 2.0296e-05], device='cuda:1')
2022-11-15 19:32:52,306 INFO [train.py:876] (1/4) Epoch 5, batch 2600, loss[loss=0.2225, simple_loss=0.2033, pruned_loss=0.1208, over 5458.00 frames. ], tot_loss[loss=0.1809, simple_loss=0.1833, pruned_loss=0.08921, over 1084317.20 frames. ], batch size: 53, lr: 1.60e-02, grad_scale: 16.0
2022-11-15 19:33:02,100 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=31704.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 19:33:05,338 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.1817, 4.7049, 3.1027, 4.2651, 3.5396, 3.2098, 2.2780, 3.9647],
       device='cuda:1'), covar=tensor([0.1828, 0.0127, 0.0954, 0.0344, 0.0528, 0.0923, 0.2134, 0.0211],
       device='cuda:1'), in_proj_covar=tensor([0.0177, 0.0123, 0.0167, 0.0125, 0.0160, 0.0177, 0.0190, 0.0135],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0002, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003, 0.0002],
       device='cuda:1')
2022-11-15 19:33:08,478 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.148e+02 1.912e+02 2.361e+02 2.985e+02 5.385e+02, threshold=4.723e+02, percent-clipped=4.0
2022-11-15 19:33:09,210 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=31715.0, num_to_drop=1, layers_to_drop={1}
2022-11-15 19:33:17,537 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([5.6715, 4.9528, 5.3788, 4.9957, 5.6975, 5.5226, 4.6363, 5.5658],
       device='cuda:1'), covar=tensor([0.0231, 0.0286, 0.0336, 0.0290, 0.0181, 0.0076, 0.0220, 0.0204],
       device='cuda:1'), in_proj_covar=tensor([0.0096, 0.0106, 0.0083, 0.0113, 0.0115, 0.0067, 0.0090, 0.0103],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0001, 0.0002, 0.0002],
       device='cuda:1')
2022-11-15 19:33:18,826 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([4.0816, 4.2947, 4.2411, 4.4367, 3.7122, 3.4292, 4.7603, 4.0105],
       device='cuda:1'), covar=tensor([0.0424, 0.0566, 0.0335, 0.0683, 0.0485, 0.0370, 0.0640, 0.0440],
       device='cuda:1'), in_proj_covar=tensor([0.0063, 0.0083, 0.0068, 0.0085, 0.0067, 0.0055, 0.0109, 0.0070],
       device='cuda:1'), out_proj_covar=tensor([0.0001, 0.0002, 0.0002, 0.0002, 0.0002, 0.0001, 0.0003, 0.0002],
       device='cuda:1')
2022-11-15 19:33:43,345 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=31765.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 19:33:43,441 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=31765.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 19:33:44,802 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([4.0136, 2.1783, 3.6744, 3.0011, 4.1103, 2.6468, 3.6565, 3.9809],
       device='cuda:1'), covar=tensor([0.0274, 0.1305, 0.0409, 0.1082, 0.0235, 0.1013, 0.0659, 0.0382],
       device='cuda:1'), in_proj_covar=tensor([0.0179, 0.0193, 0.0175, 0.0207, 0.0179, 0.0186, 0.0223, 0.0199],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0004, 0.0003, 0.0003, 0.0004, 0.0003],
       device='cuda:1')
2022-11-15 19:34:00,076 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=31788.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 19:34:00,580 INFO [train.py:876] (1/4) Epoch 5, batch 2700, loss[loss=0.2174, simple_loss=0.2103, pruned_loss=0.1123, over 5454.00 frames. ], tot_loss[loss=0.1788, simple_loss=0.1824, pruned_loss=0.08759, over 1085937.18 frames. ], batch size: 53, lr: 1.60e-02, grad_scale: 16.0
2022-11-15 19:34:05,924 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([0.7051, 1.2834, 1.1310, 1.3221, 0.9532, 1.3318, 1.0347, 1.3232],
       device='cuda:1'), covar=tensor([0.0917, 0.0637, 0.0712, 0.0278, 0.1022, 0.0825, 0.0806, 0.0303],
       device='cuda:1'), in_proj_covar=tensor([0.0054, 0.0061, 0.0078, 0.0051, 0.0066, 0.0056, 0.0070, 0.0051],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
       device='cuda:1')
2022-11-15 19:34:17,214 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.174e+02 1.996e+02 2.440e+02 3.153e+02 7.916e+02, threshold=4.880e+02, percent-clipped=8.0
2022-11-15 19:34:23,139 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=31823.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 19:34:37,446 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.9807, 5.4607, 4.0084, 2.8036, 5.2704, 2.1964, 4.9752, 3.3874],
       device='cuda:1'), covar=tensor([0.0685, 0.0070, 0.0390, 0.1656, 0.0096, 0.1361, 0.0115, 0.1040],
       device='cuda:1'), in_proj_covar=tensor([0.0128, 0.0096, 0.0106, 0.0119, 0.0098, 0.0130, 0.0086, 0.0122],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0003, 0.0003, 0.0004, 0.0003, 0.0004, 0.0003, 0.0004],
       device='cuda:1')
2022-11-15 19:34:40,080 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=31847.0, num_to_drop=1, layers_to_drop={2}
2022-11-15 19:34:41,487 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=31849.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 19:34:43,414 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.3229, 0.7886, 1.2568, 1.0969, 0.9237, 1.3322, 0.8887, 0.6799],
       device='cuda:1'), covar=tensor([0.0015, 0.0061, 0.0022, 0.0024, 0.0048, 0.0022, 0.0034, 0.0035],
       device='cuda:1'), in_proj_covar=tensor([0.0016, 0.0015, 0.0015, 0.0017, 0.0017, 0.0015, 0.0018, 0.0016],
       device='cuda:1'), out_proj_covar=tensor([1.6270e-05, 1.6909e-05, 1.5562e-05, 1.7492e-05, 1.7194e-05, 1.6004e-05,
        1.9472e-05, 1.9503e-05], device='cuda:1')
2022-11-15 19:35:00,776 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=31878.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 19:35:05,094 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=31884.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 19:35:08,456 INFO [train.py:876] (1/4) Epoch 5, batch 2800, loss[loss=0.2052, simple_loss=0.1895, pruned_loss=0.1104, over 5547.00 frames. ], tot_loss[loss=0.1803, simple_loss=0.1829, pruned_loss=0.08886, over 1075789.94 frames. ], batch size: 21, lr: 1.60e-02, grad_scale: 16.0
2022-11-15 19:35:25,010 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.103e+02 1.889e+02 2.395e+02 3.111e+02 5.606e+02, threshold=4.789e+02, percent-clipped=5.0
2022-11-15 19:35:25,902 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=31915.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 19:35:35,288 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.99 vs. limit=2.0
2022-11-15 19:35:42,278 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=31939.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 19:35:50,333 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=31950.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 19:36:05,216 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.0516, 2.0046, 1.7729, 2.1967, 1.7055, 1.4365, 1.6084, 2.3916],
       device='cuda:1'), covar=tensor([0.0664, 0.1022, 0.2009, 0.0517, 0.1426, 0.0933, 0.1329, 0.0536],
       device='cuda:1'), in_proj_covar=tensor([0.0051, 0.0058, 0.0076, 0.0048, 0.0063, 0.0053, 0.0066, 0.0049],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
       device='cuda:1')
2022-11-15 19:36:07,074 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=31976.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 19:36:15,579 INFO [train.py:876] (1/4) Epoch 5, batch 2900, loss[loss=0.1948, simple_loss=0.1961, pruned_loss=0.09675, over 5782.00 frames. ], tot_loss[loss=0.1807, simple_loss=0.1832, pruned_loss=0.08908, over 1081917.74 frames. ], batch size: 21, lr: 1.59e-02, grad_scale: 16.0
2022-11-15 19:36:15,807 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.7202, 1.8124, 1.8175, 1.6899, 1.0550, 1.6846, 1.2006, 1.2392],
       device='cuda:1'), covar=tensor([0.0067, 0.0021, 0.0039, 0.0038, 0.0102, 0.0032, 0.0081, 0.0047],
       device='cuda:1'), in_proj_covar=tensor([0.0161, 0.0113, 0.0128, 0.0140, 0.0155, 0.0127, 0.0142, 0.0111],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002, 0.0003, 0.0002],
       device='cuda:1')
2022-11-15 19:36:31,838 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=32011.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 19:36:33,617 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.337e+02 1.876e+02 2.342e+02 2.951e+02 6.735e+02, threshold=4.684e+02, percent-clipped=4.0
2022-11-15 19:36:44,988 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([4.5782, 4.7562, 4.9170, 4.9394, 4.1316, 3.9522, 5.5292, 4.6643],
       device='cuda:1'), covar=tensor([0.0453, 0.1041, 0.0357, 0.1048, 0.0592, 0.0332, 0.0703, 0.0347],
       device='cuda:1'), in_proj_covar=tensor([0.0065, 0.0084, 0.0070, 0.0085, 0.0067, 0.0055, 0.0107, 0.0070],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0001, 0.0003, 0.0002],
       device='cuda:1')
2022-11-15 19:36:54,577 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=1.94 vs. limit=2.0
2022-11-15 19:37:03,751 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.4491, 3.7230, 2.8629, 1.8306, 3.5836, 1.2036, 3.5280, 1.8009],
       device='cuda:1'), covar=tensor([0.1259, 0.0153, 0.0660, 0.1831, 0.0173, 0.2089, 0.0180, 0.1850],
       device='cuda:1'), in_proj_covar=tensor([0.0130, 0.0099, 0.0108, 0.0122, 0.0100, 0.0133, 0.0090, 0.0124],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0003, 0.0004, 0.0004, 0.0003, 0.0004, 0.0003, 0.0004],
       device='cuda:1')
2022-11-15 19:37:04,953 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=32060.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 19:37:05,740 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.9517, 2.7658, 3.3049, 1.9101, 2.9145, 3.6775, 3.1380, 3.5091],
       device='cuda:1'), covar=tensor([0.1584, 0.1099, 0.0611, 0.1684, 0.0226, 0.0252, 0.0247, 0.0317],
       device='cuda:1'), in_proj_covar=tensor([0.0181, 0.0178, 0.0135, 0.0182, 0.0137, 0.0138, 0.0124, 0.0156],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0003, 0.0002, 0.0003, 0.0002, 0.0002, 0.0002, 0.0003],
       device='cuda:1')
2022-11-15 19:37:08,612 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=32065.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 19:37:24,195 INFO [train.py:876] (1/4) Epoch 5, batch 3000, loss[loss=0.2676, simple_loss=0.2381, pruned_loss=0.1485, over 5449.00 frames. ], tot_loss[loss=0.1813, simple_loss=0.1831, pruned_loss=0.08977, over 1084395.69 frames. ], batch size: 58, lr: 1.59e-02, grad_scale: 16.0
2022-11-15 19:37:24,196 INFO [train.py:899] (1/4) Computing validation loss
2022-11-15 19:37:31,327 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([0.7356, 1.2562, 1.3387, 0.8870, 1.6452, 1.3567, 0.7657, 1.3214],
       device='cuda:1'), covar=tensor([0.0018, 0.0006, 0.0011, 0.0009, 0.0013, 0.0010, 0.0027, 0.0015],
       device='cuda:1'), in_proj_covar=tensor([0.0026, 0.0025, 0.0026, 0.0025, 0.0026, 0.0023, 0.0025, 0.0024],
       device='cuda:1'), out_proj_covar=tensor([2.6604e-05, 2.8484e-05, 2.4220e-05, 2.3762e-05, 2.4406e-05, 1.8899e-05,
        2.9662e-05, 2.2361e-05], device='cuda:1')
2022-11-15 19:37:37,194 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([4.0970, 2.3577, 3.6609, 3.1092, 4.1556, 2.4833, 3.5614, 4.0976],
       device='cuda:1'), covar=tensor([0.0233, 0.1286, 0.0413, 0.1102, 0.0159, 0.1102, 0.0627, 0.0360],
       device='cuda:1'), in_proj_covar=tensor([0.0179, 0.0192, 0.0175, 0.0206, 0.0179, 0.0186, 0.0221, 0.0198],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0004, 0.0003],
       device='cuda:1')
2022-11-15 19:37:41,542 INFO [train.py:908] (1/4) Epoch 5, validation: loss=0.1632, simple_loss=0.186, pruned_loss=0.07021, over 1530663.00 frames. 
2022-11-15 19:37:41,542 INFO [train.py:909] (1/4) Maximum memory allocated so far is 4664MB
2022-11-15 19:37:58,635 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=32113.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 19:37:59,205 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.218e+02 2.101e+02 2.644e+02 3.414e+02 5.284e+02, threshold=5.288e+02, percent-clipped=5.0
2022-11-15 19:38:19,078 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=32144.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 19:38:21,090 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=32147.0, num_to_drop=1, layers_to_drop={1}
2022-11-15 19:38:43,308 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=32179.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 19:38:49,858 INFO [train.py:876] (1/4) Epoch 5, batch 3100, loss[loss=0.1257, simple_loss=0.1382, pruned_loss=0.05656, over 5174.00 frames. ], tot_loss[loss=0.1813, simple_loss=0.1832, pruned_loss=0.08975, over 1087698.49 frames. ], batch size: 8, lr: 1.59e-02, grad_scale: 16.0
2022-11-15 19:38:51,296 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.8492, 2.1580, 3.0171, 3.6665, 4.1308, 3.2841, 2.4197, 3.9659],
       device='cuda:1'), covar=tensor([0.0276, 0.3821, 0.2335, 0.3561, 0.0716, 0.2383, 0.2609, 0.0223],
       device='cuda:1'), in_proj_covar=tensor([0.0170, 0.0214, 0.0210, 0.0311, 0.0216, 0.0222, 0.0204, 0.0171],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0004, 0.0004, 0.0005, 0.0004, 0.0004, 0.0004, 0.0004],
       device='cuda:1')
2022-11-15 19:38:53,718 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=32195.0, num_to_drop=1, layers_to_drop={0}
2022-11-15 19:39:07,482 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.018e+02 2.024e+02 2.459e+02 3.147e+02 6.395e+02, threshold=4.918e+02, percent-clipped=1.0
2022-11-15 19:39:11,575 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.95 vs. limit=2.0
2022-11-15 19:39:21,168 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=32234.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 19:39:46,917 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=32271.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 19:39:51,603 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([5.3104, 4.8571, 5.1010, 4.7711, 5.4248, 5.3474, 4.6019, 5.3800],
       device='cuda:1'), covar=tensor([0.0309, 0.0207, 0.0339, 0.0289, 0.0300, 0.0090, 0.0191, 0.0178],
       device='cuda:1'), in_proj_covar=tensor([0.0099, 0.0106, 0.0085, 0.0116, 0.0114, 0.0068, 0.0093, 0.0105],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0001, 0.0002, 0.0002],
       device='cuda:1')
2022-11-15 19:39:58,835 INFO [train.py:876] (1/4) Epoch 5, batch 3200, loss[loss=0.181, simple_loss=0.179, pruned_loss=0.09149, over 5571.00 frames. ], tot_loss[loss=0.1822, simple_loss=0.184, pruned_loss=0.09016, over 1079674.81 frames. ], batch size: 22, lr: 1.59e-02, grad_scale: 16.0
2022-11-15 19:40:04,099 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.0270, 3.1833, 2.7438, 3.1321, 3.2171, 2.8047, 2.6391, 2.6807],
       device='cuda:1'), covar=tensor([0.0883, 0.0484, 0.1588, 0.0547, 0.0485, 0.0470, 0.0741, 0.0683],
       device='cuda:1'), in_proj_covar=tensor([0.0117, 0.0136, 0.0219, 0.0139, 0.0164, 0.0140, 0.0148, 0.0131],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0004, 0.0002, 0.0003, 0.0002, 0.0002, 0.0002],
       device='cuda:1')
2022-11-15 19:40:10,372 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=32306.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 19:40:16,204 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.227e+02 1.788e+02 2.177e+02 2.789e+02 5.595e+02, threshold=4.355e+02, percent-clipped=3.0
2022-11-15 19:40:39,308 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=1.94 vs. limit=2.0
2022-11-15 19:40:47,295 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=32360.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 19:41:07,144 INFO [train.py:876] (1/4) Epoch 5, batch 3300, loss[loss=0.1428, simple_loss=0.1544, pruned_loss=0.06563, over 5469.00 frames. ], tot_loss[loss=0.1804, simple_loss=0.183, pruned_loss=0.08885, over 1086947.60 frames. ], batch size: 10, lr: 1.58e-02, grad_scale: 16.0
2022-11-15 19:41:19,784 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=32408.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 19:41:24,093 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.275e+02 1.817e+02 2.244e+02 2.768e+02 6.144e+02, threshold=4.488e+02, percent-clipped=4.0
2022-11-15 19:41:41,353 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.3423, 0.8701, 1.5456, 0.7846, 1.0550, 1.2878, 1.0198, 1.0685],
       device='cuda:1'), covar=tensor([0.0744, 0.0890, 0.0822, 0.1847, 0.1764, 0.0765, 0.1540, 0.0904],
       device='cuda:1'), in_proj_covar=tensor([0.0008, 0.0012, 0.0009, 0.0010, 0.0009, 0.0008, 0.0010, 0.0009],
       device='cuda:1'), out_proj_covar=tensor([3.5202e-05, 4.6392e-05, 3.7992e-05, 4.2052e-05, 3.8423e-05, 3.4616e-05,
        4.0143e-05, 3.8311e-05], device='cuda:1')
2022-11-15 19:41:41,653 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.81 vs. limit=2.0
2022-11-15 19:41:44,488 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=32444.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 19:42:05,441 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.1544, 1.4705, 1.1446, 0.8493, 1.2654, 0.7796, 0.9163, 1.4454],
       device='cuda:1'), covar=tensor([0.0018, 0.0013, 0.0016, 0.0022, 0.0018, 0.0016, 0.0030, 0.0015],
       device='cuda:1'), in_proj_covar=tensor([0.0026, 0.0025, 0.0025, 0.0025, 0.0026, 0.0023, 0.0025, 0.0023],
       device='cuda:1'), out_proj_covar=tensor([2.6526e-05, 2.7488e-05, 2.3774e-05, 2.3585e-05, 2.4272e-05, 1.8882e-05,
        2.8828e-05, 2.2106e-05], device='cuda:1')
2022-11-15 19:42:08,055 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=32479.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 19:42:15,149 INFO [train.py:876] (1/4) Epoch 5, batch 3400, loss[loss=0.1357, simple_loss=0.1612, pruned_loss=0.05515, over 5722.00 frames. ], tot_loss[loss=0.1783, simple_loss=0.1815, pruned_loss=0.08755, over 1085785.73 frames. ], batch size: 11, lr: 1.58e-02, grad_scale: 16.0
2022-11-15 19:42:17,570 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=32492.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 19:42:27,659 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.3205, 3.2576, 3.1515, 3.0111, 1.9928, 3.2358, 2.0284, 2.8658],
       device='cuda:1'), covar=tensor([0.0245, 0.0104, 0.0082, 0.0175, 0.0277, 0.0101, 0.0239, 0.0056],
       device='cuda:1'), in_proj_covar=tensor([0.0161, 0.0116, 0.0128, 0.0142, 0.0157, 0.0128, 0.0145, 0.0111],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0002, 0.0002, 0.0003, 0.0003, 0.0002, 0.0003, 0.0002],
       device='cuda:1')
2022-11-15 19:42:32,056 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.133e+02 1.882e+02 2.362e+02 2.947e+02 5.374e+02, threshold=4.725e+02, percent-clipped=3.0
2022-11-15 19:42:36,873 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([4.3815, 2.6596, 3.9358, 3.1973, 4.5751, 3.0341, 4.1491, 4.4150],
       device='cuda:1'), covar=tensor([0.0197, 0.0797, 0.0349, 0.0936, 0.0083, 0.0843, 0.0501, 0.0271],
       device='cuda:1'), in_proj_covar=tensor([0.0180, 0.0192, 0.0173, 0.0202, 0.0176, 0.0185, 0.0218, 0.0195],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0004, 0.0003],
       device='cuda:1')
2022-11-15 19:42:40,957 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=32527.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 19:42:41,346 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=1.93 vs. limit=2.0
2022-11-15 19:42:46,042 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=32534.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 19:43:02,181 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.83 vs. limit=2.0
2022-11-15 19:43:10,881 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=32571.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 19:43:16,031 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.9789, 2.2507, 2.8167, 3.8385, 4.2240, 3.3389, 2.9177, 4.2458],
       device='cuda:1'), covar=tensor([0.0249, 0.4264, 0.2520, 0.2533, 0.0664, 0.2550, 0.2067, 0.0261],
       device='cuda:1'), in_proj_covar=tensor([0.0171, 0.0217, 0.0218, 0.0314, 0.0218, 0.0225, 0.0203, 0.0171],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0004, 0.0004, 0.0005, 0.0004, 0.0005, 0.0004, 0.0004],
       device='cuda:1')
2022-11-15 19:43:18,440 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=32582.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 19:43:23,545 INFO [train.py:876] (1/4) Epoch 5, batch 3500, loss[loss=0.1452, simple_loss=0.1685, pruned_loss=0.06093, over 5577.00 frames. ], tot_loss[loss=0.1782, simple_loss=0.1813, pruned_loss=0.08755, over 1084132.13 frames. ], batch size: 16, lr: 1.58e-02, grad_scale: 16.0
2022-11-15 19:43:35,711 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=32606.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 19:43:40,884 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.289e+02 1.935e+02 2.270e+02 2.895e+02 5.164e+02, threshold=4.540e+02, percent-clipped=2.0
2022-11-15 19:43:44,153 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=32619.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 19:44:04,988 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.98 vs. limit=2.0
2022-11-15 19:44:08,842 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=32654.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 19:44:32,332 INFO [train.py:876] (1/4) Epoch 5, batch 3600, loss[loss=0.2595, simple_loss=0.2346, pruned_loss=0.1422, over 5554.00 frames. ], tot_loss[loss=0.1775, simple_loss=0.1814, pruned_loss=0.08682, over 1087423.56 frames. ], batch size: 43, lr: 1.58e-02, grad_scale: 16.0
2022-11-15 19:44:49,900 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.117e+02 1.827e+02 2.423e+02 3.084e+02 7.397e+02, threshold=4.846e+02, percent-clipped=5.0
2022-11-15 19:45:02,546 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.2991, 0.9191, 1.4531, 0.7110, 1.2458, 0.9682, 1.2716, 1.4688],
       device='cuda:1'), covar=tensor([0.0034, 0.0035, 0.0027, 0.0021, 0.0024, 0.0016, 0.0025, 0.0044],
       device='cuda:1'), in_proj_covar=tensor([0.0027, 0.0024, 0.0026, 0.0025, 0.0026, 0.0023, 0.0025, 0.0024],
       device='cuda:1'), out_proj_covar=tensor([2.7322e-05, 2.7219e-05, 2.4387e-05, 2.3604e-05, 2.3967e-05, 1.9294e-05,
        2.9354e-05, 2.2225e-05], device='cuda:1')
2022-11-15 19:45:40,986 INFO [train.py:876] (1/4) Epoch 5, batch 3700, loss[loss=0.1948, simple_loss=0.1958, pruned_loss=0.09692, over 5541.00 frames. ], tot_loss[loss=0.1797, simple_loss=0.1826, pruned_loss=0.0884, over 1078628.16 frames. ], batch size: 43, lr: 1.58e-02, grad_scale: 16.0
2022-11-15 19:45:46,833 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=4.76 vs. limit=5.0
2022-11-15 19:45:57,989 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.334e+02 2.092e+02 2.533e+02 3.307e+02 5.477e+02, threshold=5.066e+02, percent-clipped=1.0
2022-11-15 19:46:03,143 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.45 vs. limit=2.0
2022-11-15 19:46:05,815 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=1.94 vs. limit=2.0
2022-11-15 19:46:26,449 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.65 vs. limit=2.0
2022-11-15 19:46:33,001 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.1931, 1.3798, 1.6551, 1.0076, 0.9629, 1.8691, 1.2513, 0.9487],
       device='cuda:1'), covar=tensor([0.0629, 0.0562, 0.0446, 0.1110, 0.1570, 0.0359, 0.0841, 0.0942],
       device='cuda:1'), in_proj_covar=tensor([0.0047, 0.0040, 0.0043, 0.0051, 0.0044, 0.0037, 0.0039, 0.0041],
       device='cuda:1'), out_proj_covar=tensor([8.6908e-05, 7.4928e-05, 7.7642e-05, 9.9434e-05, 8.3415e-05, 7.5335e-05,
        7.3655e-05, 7.6138e-05], device='cuda:1')
2022-11-15 19:46:34,389 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.1768, 3.6568, 3.1864, 3.0953, 2.0263, 3.4225, 1.9702, 3.1170],
       device='cuda:1'), covar=tensor([0.0365, 0.0124, 0.0124, 0.0272, 0.0410, 0.0100, 0.0361, 0.0083],
       device='cuda:1'), in_proj_covar=tensor([0.0164, 0.0117, 0.0133, 0.0146, 0.0159, 0.0129, 0.0148, 0.0111],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0002, 0.0002, 0.0003, 0.0003, 0.0002, 0.0003, 0.0002],
       device='cuda:1')
2022-11-15 19:46:49,250 INFO [train.py:876] (1/4) Epoch 5, batch 3800, loss[loss=0.2663, simple_loss=0.2196, pruned_loss=0.1565, over 3048.00 frames. ], tot_loss[loss=0.1785, simple_loss=0.1822, pruned_loss=0.08742, over 1084611.49 frames. ], batch size: 284, lr: 1.57e-02, grad_scale: 16.0
2022-11-15 19:47:00,342 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.6208, 3.7355, 3.3953, 3.2860, 2.1893, 3.7680, 2.1850, 3.0695],
       device='cuda:1'), covar=tensor([0.0244, 0.0107, 0.0094, 0.0203, 0.0278, 0.0064, 0.0285, 0.0072],
       device='cuda:1'), in_proj_covar=tensor([0.0161, 0.0116, 0.0131, 0.0143, 0.0156, 0.0126, 0.0146, 0.0110],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0002, 0.0002, 0.0003, 0.0003, 0.0002, 0.0003, 0.0002],
       device='cuda:1')
2022-11-15 19:47:05,910 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.156e+02 1.821e+02 2.317e+02 3.245e+02 5.660e+02, threshold=4.635e+02, percent-clipped=3.0
2022-11-15 19:47:38,648 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.3598, 2.8311, 2.1931, 3.0198, 2.0370, 2.4507, 2.4138, 2.8582],
       device='cuda:1'), covar=tensor([0.0521, 0.0849, 0.2844, 0.2144, 0.2038, 0.1871, 0.1726, 0.1244],
       device='cuda:1'), in_proj_covar=tensor([0.0051, 0.0058, 0.0075, 0.0049, 0.0063, 0.0054, 0.0068, 0.0046],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
       device='cuda:1')
2022-11-15 19:47:42,313 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=32966.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 19:47:47,603 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.51 vs. limit=2.0
2022-11-15 19:47:57,891 INFO [train.py:876] (1/4) Epoch 5, batch 3900, loss[loss=0.2149, simple_loss=0.2098, pruned_loss=0.11, over 5421.00 frames. ], tot_loss[loss=0.1798, simple_loss=0.1833, pruned_loss=0.08816, over 1081371.11 frames. ], batch size: 58, lr: 1.57e-02, grad_scale: 16.0
2022-11-15 19:48:15,130 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.080e+02 1.831e+02 2.324e+02 2.912e+02 5.041e+02, threshold=4.648e+02, percent-clipped=1.0
2022-11-15 19:48:24,287 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=33027.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 19:48:34,387 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.7137, 2.0604, 1.7097, 1.1791, 1.6996, 2.4138, 1.8794, 2.2156],
       device='cuda:1'), covar=tensor([0.1967, 0.1389, 0.1688, 0.2793, 0.0760, 0.0515, 0.0581, 0.0844],
       device='cuda:1'), in_proj_covar=tensor([0.0190, 0.0186, 0.0142, 0.0199, 0.0148, 0.0149, 0.0135, 0.0175],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0002, 0.0003],
       device='cuda:1')
2022-11-15 19:48:52,391 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=33069.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 19:48:56,339 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=4.67 vs. limit=5.0
2022-11-15 19:49:06,330 INFO [train.py:876] (1/4) Epoch 5, batch 4000, loss[loss=0.1482, simple_loss=0.1675, pruned_loss=0.06447, over 5767.00 frames. ], tot_loss[loss=0.1798, simple_loss=0.1831, pruned_loss=0.08825, over 1083841.74 frames. ], batch size: 27, lr: 1.57e-02, grad_scale: 16.0
2022-11-15 19:49:23,825 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.282e+02 1.884e+02 2.400e+02 2.913e+02 6.279e+02, threshold=4.801e+02, percent-clipped=5.0
2022-11-15 19:49:34,156 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=33130.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 19:49:51,335 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=33155.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 19:50:13,957 INFO [train.py:876] (1/4) Epoch 5, batch 4100, loss[loss=0.1646, simple_loss=0.1753, pruned_loss=0.07692, over 5494.00 frames. ], tot_loss[loss=0.177, simple_loss=0.1812, pruned_loss=0.08642, over 1088631.29 frames. ], batch size: 12, lr: 1.57e-02, grad_scale: 8.0
2022-11-15 19:50:32,026 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.183e+02 1.879e+02 2.350e+02 3.001e+02 5.532e+02, threshold=4.700e+02, percent-clipped=2.0
2022-11-15 19:50:32,854 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=33216.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 19:51:22,796 INFO [train.py:876] (1/4) Epoch 5, batch 4200, loss[loss=0.2619, simple_loss=0.2426, pruned_loss=0.1406, over 5556.00 frames. ], tot_loss[loss=0.1781, simple_loss=0.1821, pruned_loss=0.08701, over 1086548.54 frames. ], batch size: 54, lr: 1.56e-02, grad_scale: 8.0
2022-11-15 19:51:27,504 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.9083, 2.4162, 1.9414, 2.6091, 1.7848, 1.9621, 2.1512, 2.6360],
       device='cuda:1'), covar=tensor([0.0937, 0.1150, 0.2568, 0.1000, 0.1541, 0.0935, 0.1371, 0.1986],
       device='cuda:1'), in_proj_covar=tensor([0.0054, 0.0062, 0.0077, 0.0051, 0.0066, 0.0058, 0.0071, 0.0049],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
       device='cuda:1')
2022-11-15 19:51:31,635 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.60 vs. limit=2.0
2022-11-15 19:51:40,446 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.157e+02 1.845e+02 2.173e+02 2.647e+02 4.072e+02, threshold=4.345e+02, percent-clipped=0.0
2022-11-15 19:51:45,062 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=33322.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 19:51:46,560 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=4.92 vs. limit=5.0
2022-11-15 19:52:16,616 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=4.10 vs. limit=5.0
2022-11-15 19:52:30,460 INFO [train.py:876] (1/4) Epoch 5, batch 4300, loss[loss=0.2136, simple_loss=0.1998, pruned_loss=0.1137, over 5553.00 frames. ], tot_loss[loss=0.1778, simple_loss=0.1822, pruned_loss=0.08668, over 1081593.66 frames. ], batch size: 54, lr: 1.56e-02, grad_scale: 8.0
2022-11-15 19:52:39,237 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.7495, 0.3868, 2.1977, 1.6209, 0.7052, 1.7844, 1.6682, 1.4422],
       device='cuda:1'), covar=tensor([0.0040, 0.0081, 0.0017, 0.0030, 0.0183, 0.0053, 0.0016, 0.0023],
       device='cuda:1'), in_proj_covar=tensor([0.0016, 0.0015, 0.0015, 0.0017, 0.0017, 0.0016, 0.0018, 0.0016],
       device='cuda:1'), out_proj_covar=tensor([1.6627e-05, 1.6267e-05, 1.5892e-05, 1.6958e-05, 1.6960e-05, 1.6420e-05,
        1.9231e-05, 1.8911e-05], device='cuda:1')
2022-11-15 19:52:49,001 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 9.372e+01 1.969e+02 2.435e+02 3.163e+02 9.091e+02, threshold=4.870e+02, percent-clipped=6.0
2022-11-15 19:52:55,802 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=33425.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 19:53:28,328 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=33472.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 19:53:39,864 INFO [train.py:876] (1/4) Epoch 5, batch 4400, loss[loss=0.2075, simple_loss=0.1934, pruned_loss=0.1108, over 5433.00 frames. ], tot_loss[loss=0.174, simple_loss=0.1794, pruned_loss=0.08432, over 1079133.76 frames. ], batch size: 58, lr: 1.56e-02, grad_scale: 8.0
2022-11-15 19:53:55,857 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=33511.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 19:53:58,512 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.090e+02 1.879e+02 2.441e+02 2.964e+02 5.680e+02, threshold=4.882e+02, percent-clipped=2.0
2022-11-15 19:54:12,028 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=33533.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 19:54:23,358 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.8850, 2.2426, 3.3904, 2.9281, 3.8094, 2.4848, 3.4098, 3.9517],
       device='cuda:1'), covar=tensor([0.0296, 0.1061, 0.0428, 0.0991, 0.0395, 0.0991, 0.0853, 0.0452],
       device='cuda:1'), in_proj_covar=tensor([0.0181, 0.0190, 0.0177, 0.0206, 0.0176, 0.0185, 0.0220, 0.0198],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0004, 0.0003, 0.0003, 0.0004, 0.0003],
       device='cuda:1')
2022-11-15 19:54:50,505 INFO [train.py:876] (1/4) Epoch 5, batch 4500, loss[loss=0.1736, simple_loss=0.1865, pruned_loss=0.08035, over 5621.00 frames. ], tot_loss[loss=0.1767, simple_loss=0.1813, pruned_loss=0.086, over 1082160.55 frames. ], batch size: 24, lr: 1.56e-02, grad_scale: 8.0
2022-11-15 19:55:08,210 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.222e+02 1.892e+02 2.378e+02 2.959e+02 6.563e+02, threshold=4.756e+02, percent-clipped=3.0
2022-11-15 19:55:13,239 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=33622.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 19:55:45,884 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=33670.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 19:55:50,870 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=33677.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 19:55:58,824 INFO [train.py:876] (1/4) Epoch 5, batch 4600, loss[loss=0.1478, simple_loss=0.1657, pruned_loss=0.06492, over 5607.00 frames. ], tot_loss[loss=0.179, simple_loss=0.1824, pruned_loss=0.08779, over 1085842.35 frames. ], batch size: 18, lr: 1.55e-02, grad_scale: 8.0
2022-11-15 19:56:08,152 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=2.06 vs. limit=2.0
2022-11-15 19:56:16,174 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.284e+02 1.825e+02 2.230e+02 2.892e+02 8.047e+02, threshold=4.459e+02, percent-clipped=4.0
2022-11-15 19:56:22,342 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.84 vs. limit=2.0
2022-11-15 19:56:23,211 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=33725.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 19:56:32,049 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=33738.0, num_to_drop=1, layers_to_drop={0}
2022-11-15 19:56:55,503 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=33773.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 19:57:06,414 INFO [train.py:876] (1/4) Epoch 5, batch 4700, loss[loss=0.151, simple_loss=0.1643, pruned_loss=0.0689, over 5700.00 frames. ], tot_loss[loss=0.1771, simple_loss=0.1813, pruned_loss=0.08647, over 1088816.57 frames. ], batch size: 19, lr: 1.55e-02, grad_scale: 8.0
2022-11-15 19:57:07,316 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.1604, 4.3567, 3.8287, 3.4126, 2.7105, 4.5408, 2.5366, 3.9231],
       device='cuda:1'), covar=tensor([0.0285, 0.0159, 0.0166, 0.0321, 0.0343, 0.0063, 0.0305, 0.0058],
       device='cuda:1'), in_proj_covar=tensor([0.0165, 0.0119, 0.0132, 0.0145, 0.0158, 0.0127, 0.0150, 0.0113],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0002, 0.0002, 0.0003, 0.0003, 0.0002, 0.0003, 0.0002],
       device='cuda:1')
2022-11-15 19:57:22,563 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=33811.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 19:57:25,038 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.135e+02 1.755e+02 2.231e+02 2.801e+02 4.827e+02, threshold=4.463e+02, percent-clipped=3.0
2022-11-15 19:57:28,110 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=1.97 vs. limit=2.0
2022-11-15 19:57:33,505 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=33828.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 19:57:44,867 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.2585, 1.2187, 1.4246, 1.4613, 1.3023, 1.5903, 1.1501, 1.1022],
       device='cuda:1'), covar=tensor([0.0018, 0.0033, 0.0017, 0.0018, 0.0016, 0.0018, 0.0017, 0.0019],
       device='cuda:1'), in_proj_covar=tensor([0.0017, 0.0016, 0.0016, 0.0017, 0.0016, 0.0017, 0.0018, 0.0017],
       device='cuda:1'), out_proj_covar=tensor([1.7019e-05, 1.6776e-05, 1.6559e-05, 1.7167e-05, 1.6700e-05, 1.7364e-05,
        1.8785e-05, 1.9279e-05], device='cuda:1')
2022-11-15 19:57:51,934 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=3.70 vs. limit=5.0
2022-11-15 19:57:55,048 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=33859.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 19:58:00,717 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.6210, 1.9448, 3.1545, 2.5461, 3.3384, 2.0019, 2.9415, 3.6050],
       device='cuda:1'), covar=tensor([0.0432, 0.1405, 0.0438, 0.1293, 0.0560, 0.1195, 0.0805, 0.0522],
       device='cuda:1'), in_proj_covar=tensor([0.0182, 0.0192, 0.0177, 0.0208, 0.0177, 0.0184, 0.0221, 0.0201],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0004, 0.0003, 0.0003, 0.0004, 0.0004],
       device='cuda:1')
2022-11-15 19:58:15,453 INFO [train.py:876] (1/4) Epoch 5, batch 4800, loss[loss=0.1769, simple_loss=0.1917, pruned_loss=0.08106, over 5800.00 frames. ], tot_loss[loss=0.1784, simple_loss=0.1823, pruned_loss=0.08723, over 1083766.12 frames. ], batch size: 22, lr: 1.55e-02, grad_scale: 8.0
2022-11-15 19:58:33,232 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.053e+02 1.864e+02 2.250e+02 2.859e+02 4.870e+02, threshold=4.500e+02, percent-clipped=2.0
2022-11-15 19:58:38,277 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.7244, 4.3469, 3.4870, 2.0217, 4.1921, 1.7287, 4.3429, 2.4184],
       device='cuda:1'), covar=tensor([0.1106, 0.0107, 0.0354, 0.1861, 0.0133, 0.1693, 0.0087, 0.1516],
       device='cuda:1'), in_proj_covar=tensor([0.0129, 0.0100, 0.0109, 0.0119, 0.0101, 0.0131, 0.0090, 0.0122],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0003, 0.0004, 0.0004, 0.0003, 0.0004, 0.0003, 0.0004],
       device='cuda:1')
2022-11-15 19:58:49,524 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=33939.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 19:58:59,520 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([4.5582, 2.8305, 3.2974, 4.0080, 5.0119, 3.7122, 3.2313, 4.4962],
       device='cuda:1'), covar=tensor([0.0247, 0.4500, 0.1478, 0.5450, 0.0365, 0.2241, 0.2054, 0.0204],
       device='cuda:1'), in_proj_covar=tensor([0.0178, 0.0218, 0.0219, 0.0325, 0.0216, 0.0228, 0.0208, 0.0177],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0004, 0.0004, 0.0006, 0.0004, 0.0005, 0.0004, 0.0004],
       device='cuda:1')
2022-11-15 19:59:23,238 INFO [train.py:876] (1/4) Epoch 5, batch 4900, loss[loss=0.2188, simple_loss=0.2042, pruned_loss=0.1167, over 5452.00 frames. ], tot_loss[loss=0.1767, simple_loss=0.1812, pruned_loss=0.0861, over 1086273.49 frames. ], batch size: 58, lr: 1.55e-02, grad_scale: 8.0
2022-11-15 19:59:31,330 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=34000.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 19:59:32,629 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.6678, 0.9226, 1.8549, 1.0336, 1.4935, 1.5411, 1.2472, 1.3650],
       device='cuda:1'), covar=tensor([0.1281, 0.0576, 0.0700, 0.1138, 0.1152, 0.1414, 0.0987, 0.2504],
       device='cuda:1'), in_proj_covar=tensor([0.0009, 0.0012, 0.0009, 0.0010, 0.0010, 0.0009, 0.0010, 0.0009],
       device='cuda:1'), out_proj_covar=tensor([3.7194e-05, 4.7973e-05, 3.8258e-05, 4.2872e-05, 4.0860e-05, 3.7935e-05,
        4.0453e-05, 4.0334e-05], device='cuda:1')
2022-11-15 19:59:34,739 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.59 vs. limit=2.0
2022-11-15 19:59:41,366 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.343e+02 1.963e+02 2.433e+02 3.223e+02 8.796e+02, threshold=4.867e+02, percent-clipped=10.0
2022-11-15 19:59:50,801 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([4.1437, 2.3647, 3.3986, 2.8764, 4.0118, 2.7762, 3.5918, 4.1037],
       device='cuda:1'), covar=tensor([0.0257, 0.0989, 0.0426, 0.1116, 0.0198, 0.0847, 0.0612, 0.0280],
       device='cuda:1'), in_proj_covar=tensor([0.0179, 0.0187, 0.0176, 0.0204, 0.0175, 0.0182, 0.0219, 0.0199],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0004, 0.0003],
       device='cuda:1')
2022-11-15 19:59:53,933 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=34033.0, num_to_drop=1, layers_to_drop={0}
2022-11-15 20:00:01,245 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=34044.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 20:00:32,066 INFO [train.py:876] (1/4) Epoch 5, batch 5000, loss[loss=0.1651, simple_loss=0.1764, pruned_loss=0.07686, over 5564.00 frames. ], tot_loss[loss=0.1761, simple_loss=0.1807, pruned_loss=0.08578, over 1081625.38 frames. ], batch size: 24, lr: 1.55e-02, grad_scale: 8.0
2022-11-15 20:00:36,218 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=3.82 vs. limit=5.0
2022-11-15 20:00:42,665 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=34105.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 20:00:49,471 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.164e+02 1.808e+02 2.328e+02 2.773e+02 5.652e+02, threshold=4.656e+02, percent-clipped=1.0
2022-11-15 20:00:49,952 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.42 vs. limit=2.0
2022-11-15 20:00:58,876 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=34128.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 20:01:10,304 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=34145.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 20:01:11,055 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.2395, 1.8754, 1.6615, 0.9990, 0.9990, 1.5629, 1.1797, 2.0232],
       device='cuda:1'), covar=tensor([0.0026, 0.0028, 0.0020, 0.0060, 0.0025, 0.0015, 0.0021, 0.0020],
       device='cuda:1'), in_proj_covar=tensor([0.0028, 0.0027, 0.0028, 0.0027, 0.0027, 0.0025, 0.0028, 0.0025],
       device='cuda:1'), out_proj_covar=tensor([2.7436e-05, 2.9669e-05, 2.6065e-05, 2.4164e-05, 2.5166e-05, 2.0538e-05,
        3.2215e-05, 2.2959e-05], device='cuda:1')
2022-11-15 20:01:31,144 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=34176.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 20:01:36,200 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([4.4014, 4.4468, 4.3733, 4.6807, 3.9712, 3.7531, 4.9686, 4.4200],
       device='cuda:1'), covar=tensor([0.0418, 0.1217, 0.0370, 0.1037, 0.0680, 0.0325, 0.0932, 0.0462],
       device='cuda:1'), in_proj_covar=tensor([0.0067, 0.0089, 0.0075, 0.0090, 0.0071, 0.0060, 0.0117, 0.0076],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0001, 0.0003, 0.0002],
       device='cuda:1')
2022-11-15 20:01:40,502 INFO [train.py:876] (1/4) Epoch 5, batch 5100, loss[loss=0.1469, simple_loss=0.1591, pruned_loss=0.06739, over 5583.00 frames. ], tot_loss[loss=0.1753, simple_loss=0.1805, pruned_loss=0.08507, over 1087895.04 frames. ], batch size: 23, lr: 1.54e-02, grad_scale: 8.0
2022-11-15 20:01:51,374 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.5489, 0.9701, 1.5096, 1.1371, 1.5353, 1.3115, 1.0775, 1.2510],
       device='cuda:1'), covar=tensor([0.0771, 0.0559, 0.0417, 0.1361, 0.1084, 0.0877, 0.0909, 0.0377],
       device='cuda:1'), in_proj_covar=tensor([0.0010, 0.0013, 0.0010, 0.0011, 0.0010, 0.0010, 0.0011, 0.0009],
       device='cuda:1'), out_proj_covar=tensor([4.0338e-05, 5.1790e-05, 4.1444e-05, 4.6313e-05, 4.3803e-05, 4.0934e-05,
        4.3262e-05, 4.2048e-05], device='cuda:1')
2022-11-15 20:01:52,694 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=34206.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 20:01:58,447 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.276e+02 1.924e+02 2.234e+02 2.951e+02 5.133e+02, threshold=4.468e+02, percent-clipped=1.0
2022-11-15 20:02:49,026 INFO [train.py:876] (1/4) Epoch 5, batch 5200, loss[loss=0.169, simple_loss=0.1854, pruned_loss=0.07628, over 5617.00 frames. ], tot_loss[loss=0.174, simple_loss=0.1793, pruned_loss=0.08432, over 1078935.89 frames. ], batch size: 24, lr: 1.54e-02, grad_scale: 8.0
2022-11-15 20:02:53,492 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=34295.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 20:03:07,059 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.117e+02 1.891e+02 2.372e+02 3.198e+02 5.762e+02, threshold=4.744e+02, percent-clipped=5.0
2022-11-15 20:03:19,805 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=34333.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 20:03:52,328 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=34381.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 20:03:57,988 INFO [train.py:876] (1/4) Epoch 5, batch 5300, loss[loss=0.159, simple_loss=0.1653, pruned_loss=0.07639, over 5603.00 frames. ], tot_loss[loss=0.1745, simple_loss=0.1799, pruned_loss=0.08458, over 1083263.25 frames. ], batch size: 23, lr: 1.54e-02, grad_scale: 8.0
2022-11-15 20:04:05,523 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=34400.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 20:04:15,583 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.165e+02 1.782e+02 2.113e+02 2.792e+02 4.181e+02, threshold=4.226e+02, percent-clipped=0.0
2022-11-15 20:05:06,442 INFO [train.py:876] (1/4) Epoch 5, batch 5400, loss[loss=0.1619, simple_loss=0.1732, pruned_loss=0.07535, over 5755.00 frames. ], tot_loss[loss=0.1751, simple_loss=0.1805, pruned_loss=0.08482, over 1085073.74 frames. ], batch size: 20, lr: 1.54e-02, grad_scale: 8.0
2022-11-15 20:05:14,773 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=34501.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 20:05:24,229 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.200e+02 1.783e+02 2.368e+02 3.183e+02 6.760e+02, threshold=4.736e+02, percent-clipped=8.0
2022-11-15 20:06:05,057 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.6768, 3.4881, 3.5106, 3.7738, 3.3590, 2.8988, 4.1246, 3.6470],
       device='cuda:1'), covar=tensor([0.0376, 0.0826, 0.0451, 0.0781, 0.0633, 0.0443, 0.0746, 0.0499],
       device='cuda:1'), in_proj_covar=tensor([0.0068, 0.0089, 0.0075, 0.0091, 0.0070, 0.0060, 0.0117, 0.0076],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0001, 0.0003, 0.0002],
       device='cuda:1')
2022-11-15 20:06:14,513 INFO [train.py:876] (1/4) Epoch 5, batch 5500, loss[loss=0.2118, simple_loss=0.2025, pruned_loss=0.1106, over 5697.00 frames. ], tot_loss[loss=0.1766, simple_loss=0.1818, pruned_loss=0.08569, over 1087610.70 frames. ], batch size: 34, lr: 1.53e-02, grad_scale: 8.0
2022-11-15 20:06:17,330 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=34593.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 20:06:18,643 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=34595.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 20:06:25,010 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.5367, 0.9980, 1.5198, 1.0217, 1.3043, 1.1563, 1.2786, 1.1042],
       device='cuda:1'), covar=tensor([0.1228, 0.0717, 0.1232, 0.1755, 0.1702, 0.1999, 0.1112, 0.0799],
       device='cuda:1'), in_proj_covar=tensor([0.0009, 0.0013, 0.0010, 0.0011, 0.0010, 0.0010, 0.0011, 0.0009],
       device='cuda:1'), out_proj_covar=tensor([3.9387e-05, 5.2018e-05, 4.2166e-05, 4.7246e-05, 4.3548e-05, 4.1492e-05,
        4.4853e-05, 4.2473e-05], device='cuda:1')
2022-11-15 20:06:32,588 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.119e+02 1.877e+02 2.418e+02 2.886e+02 5.617e+02, threshold=4.837e+02, percent-clipped=2.0
2022-11-15 20:06:37,689 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=34622.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 20:06:40,303 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=34626.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 20:06:51,537 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=34643.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 20:06:59,163 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=34654.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 20:07:19,523 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=34683.0, num_to_drop=1, layers_to_drop={1}
2022-11-15 20:07:22,488 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=34687.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 20:07:23,629 INFO [train.py:876] (1/4) Epoch 5, batch 5600, loss[loss=0.1899, simple_loss=0.1911, pruned_loss=0.09435, over 5122.00 frames. ], tot_loss[loss=0.1753, simple_loss=0.1802, pruned_loss=0.08521, over 1082721.95 frames. ], batch size: 91, lr: 1.53e-02, grad_scale: 8.0
2022-11-15 20:07:31,129 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=34700.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 20:07:37,944 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=34710.0, num_to_drop=1, layers_to_drop={1}
2022-11-15 20:07:41,445 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.115e+02 1.835e+02 2.169e+02 2.808e+02 5.282e+02, threshold=4.338e+02, percent-clipped=2.0
2022-11-15 20:08:03,952 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=34748.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 20:08:19,703 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=34771.0, num_to_drop=1, layers_to_drop={1}
2022-11-15 20:08:32,089 INFO [train.py:876] (1/4) Epoch 5, batch 5700, loss[loss=0.1408, simple_loss=0.1583, pruned_loss=0.0616, over 5791.00 frames. ], tot_loss[loss=0.1734, simple_loss=0.1792, pruned_loss=0.08384, over 1086497.23 frames. ], batch size: 21, lr: 1.53e-02, grad_scale: 8.0
2022-11-15 20:08:40,359 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=34801.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 20:08:40,583 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.89 vs. limit=2.0
2022-11-15 20:08:49,698 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.053e+02 1.820e+02 2.216e+02 2.818e+02 4.619e+02, threshold=4.433e+02, percent-clipped=3.0
2022-11-15 20:09:10,573 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.0486, 2.7009, 2.1400, 1.3307, 2.6229, 1.1486, 2.6712, 1.4799],
       device='cuda:1'), covar=tensor([0.0935, 0.0185, 0.0748, 0.1789, 0.0227, 0.1996, 0.0224, 0.1525],
       device='cuda:1'), in_proj_covar=tensor([0.0129, 0.0104, 0.0111, 0.0122, 0.0105, 0.0136, 0.0095, 0.0123],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0003, 0.0004, 0.0004, 0.0003, 0.0004, 0.0003, 0.0004],
       device='cuda:1')
2022-11-15 20:09:13,152 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=34849.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 20:09:16,106 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.3721, 3.9502, 3.4241, 3.9545, 3.9297, 3.4151, 3.5595, 3.2696],
       device='cuda:1'), covar=tensor([0.0767, 0.0457, 0.1510, 0.0384, 0.0419, 0.0379, 0.0400, 0.0520],
       device='cuda:1'), in_proj_covar=tensor([0.0115, 0.0141, 0.0226, 0.0138, 0.0170, 0.0144, 0.0149, 0.0132],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0004, 0.0002, 0.0003, 0.0002, 0.0002, 0.0002],
       device='cuda:1')
2022-11-15 20:09:18,475 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=2.07 vs. limit=2.0
2022-11-15 20:09:24,832 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.7491, 1.5502, 1.5447, 1.5288, 1.0748, 1.4647, 1.8509, 1.3544],
       device='cuda:1'), covar=tensor([0.0025, 0.0066, 0.0031, 0.0022, 0.0072, 0.0082, 0.0022, 0.0027],
       device='cuda:1'), in_proj_covar=tensor([0.0017, 0.0015, 0.0016, 0.0018, 0.0017, 0.0016, 0.0018, 0.0017],
       device='cuda:1'), out_proj_covar=tensor([1.7047e-05, 1.6544e-05, 1.5781e-05, 1.7642e-05, 1.7183e-05, 1.6579e-05,
        1.8726e-05, 1.8899e-05], device='cuda:1')
2022-11-15 20:09:28,460 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.66 vs. limit=2.0
2022-11-15 20:09:37,986 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.5990, 1.7114, 1.4647, 1.3639, 1.2889, 1.6231, 1.4093, 1.0198],
       device='cuda:1'), covar=tensor([0.0016, 0.0030, 0.0020, 0.0018, 0.0035, 0.0027, 0.0020, 0.0031],
       device='cuda:1'), in_proj_covar=tensor([0.0017, 0.0016, 0.0016, 0.0018, 0.0017, 0.0016, 0.0018, 0.0017],
       device='cuda:1'), out_proj_covar=tensor([1.7130e-05, 1.6784e-05, 1.6056e-05, 1.7975e-05, 1.7371e-05, 1.6824e-05,
        1.9023e-05, 1.9361e-05], device='cuda:1')
2022-11-15 20:09:40,485 INFO [train.py:876] (1/4) Epoch 5, batch 5800, loss[loss=0.196, simple_loss=0.1722, pruned_loss=0.1098, over 4125.00 frames. ], tot_loss[loss=0.1762, simple_loss=0.1807, pruned_loss=0.08581, over 1084082.07 frames. ], batch size: 181, lr: 1.53e-02, grad_scale: 8.0
2022-11-15 20:09:58,512 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.085e+02 1.871e+02 2.247e+02 2.954e+02 6.973e+02, threshold=4.493e+02, percent-clipped=4.0
2022-11-15 20:10:21,822 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=34949.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 20:10:40,994 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=34978.0, num_to_drop=1, layers_to_drop={1}
2022-11-15 20:10:44,254 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=34982.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 20:10:48,843 INFO [train.py:876] (1/4) Epoch 5, batch 5900, loss[loss=0.2038, simple_loss=0.2031, pruned_loss=0.1022, over 5602.00 frames. ], tot_loss[loss=0.175, simple_loss=0.1797, pruned_loss=0.08516, over 1081185.58 frames. ], batch size: 22, lr: 1.53e-02, grad_scale: 8.0
2022-11-15 20:11:00,750 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([4.0420, 4.1601, 3.9653, 3.8389, 4.0159, 3.6034, 1.3633, 4.2043],
       device='cuda:1'), covar=tensor([0.0270, 0.0203, 0.0303, 0.0246, 0.0344, 0.0423, 0.2999, 0.0286],
       device='cuda:1'), in_proj_covar=tensor([0.0097, 0.0071, 0.0074, 0.0063, 0.0088, 0.0074, 0.0126, 0.0096],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0001, 0.0002, 0.0002, 0.0003, 0.0002],
       device='cuda:1')
2022-11-15 20:11:09,454 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.095e+02 2.067e+02 2.510e+02 3.048e+02 6.634e+02, threshold=5.021e+02, percent-clipped=2.0
2022-11-15 20:11:24,972 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.94 vs. limit=2.0
2022-11-15 20:11:30,968 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=1.98 vs. limit=2.0
2022-11-15 20:11:44,829 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=35066.0, num_to_drop=1, layers_to_drop={2}
2022-11-15 20:12:00,906 INFO [train.py:876] (1/4) Epoch 5, batch 6000, loss[loss=0.2812, simple_loss=0.2497, pruned_loss=0.1564, over 5569.00 frames. ], tot_loss[loss=0.1721, simple_loss=0.1777, pruned_loss=0.08323, over 1081440.37 frames. ], batch size: 46, lr: 1.52e-02, grad_scale: 8.0
2022-11-15 20:12:00,906 INFO [train.py:899] (1/4) Computing validation loss
2022-11-15 20:12:18,599 INFO [train.py:908] (1/4) Epoch 5, validation: loss=0.1648, simple_loss=0.1864, pruned_loss=0.07158, over 1530663.00 frames. 
2022-11-15 20:12:18,600 INFO [train.py:909] (1/4) Maximum memory allocated so far is 4664MB
2022-11-15 20:12:20,801 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=35092.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 20:12:21,638 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=6.12 vs. limit=5.0
2022-11-15 20:12:36,105 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 9.732e+01 1.810e+02 2.246e+02 2.914e+02 5.187e+02, threshold=4.493e+02, percent-clipped=1.0
2022-11-15 20:13:02,269 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=35153.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 20:13:16,434 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.9060, 3.5415, 3.7883, 3.5643, 3.9661, 3.4854, 3.5885, 3.8532],
       device='cuda:1'), covar=tensor([0.0298, 0.0267, 0.0339, 0.0282, 0.0280, 0.0383, 0.0276, 0.0385],
       device='cuda:1'), in_proj_covar=tensor([0.0103, 0.0112, 0.0084, 0.0114, 0.0115, 0.0068, 0.0095, 0.0108],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0001, 0.0002, 0.0002],
       device='cuda:1')
2022-11-15 20:13:26,555 INFO [train.py:876] (1/4) Epoch 5, batch 6100, loss[loss=0.2213, simple_loss=0.2025, pruned_loss=0.1201, over 5027.00 frames. ], tot_loss[loss=0.1705, simple_loss=0.1767, pruned_loss=0.08217, over 1086358.77 frames. ], batch size: 110, lr: 1.52e-02, grad_scale: 16.0
2022-11-15 20:13:29,324 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.4782, 1.4251, 1.3750, 1.3388, 1.3125, 1.4752, 1.2475, 1.0212],
       device='cuda:1'), covar=tensor([0.0026, 0.0051, 0.0027, 0.0022, 0.0028, 0.0044, 0.0020, 0.0040],
       device='cuda:1'), in_proj_covar=tensor([0.0016, 0.0016, 0.0016, 0.0018, 0.0017, 0.0016, 0.0017, 0.0017],
       device='cuda:1'), out_proj_covar=tensor([1.6499e-05, 1.6616e-05, 1.5906e-05, 1.7878e-05, 1.6977e-05, 1.6900e-05,
        1.8161e-05, 1.9631e-05], device='cuda:1')
2022-11-15 20:13:44,499 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.122e+02 1.904e+02 2.292e+02 2.845e+02 6.036e+02, threshold=4.585e+02, percent-clipped=4.0
2022-11-15 20:14:07,829 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=35249.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 20:14:19,608 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.5042, 2.5825, 2.0334, 2.9141, 1.6741, 2.3389, 2.4350, 3.1470],
       device='cuda:1'), covar=tensor([0.0624, 0.1148, 0.2751, 0.0721, 0.1887, 0.0988, 0.1507, 0.0776],
       device='cuda:1'), in_proj_covar=tensor([0.0056, 0.0065, 0.0081, 0.0053, 0.0066, 0.0060, 0.0073, 0.0052],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
       device='cuda:1')
2022-11-15 20:14:24,078 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.1590, 2.3780, 2.3248, 2.2611, 2.3263, 2.3328, 1.1446, 2.3478],
       device='cuda:1'), covar=tensor([0.0331, 0.0214, 0.0203, 0.0214, 0.0274, 0.0261, 0.1926, 0.0322],
       device='cuda:1'), in_proj_covar=tensor([0.0098, 0.0072, 0.0074, 0.0064, 0.0088, 0.0074, 0.0128, 0.0098],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0001, 0.0002, 0.0002, 0.0003, 0.0002],
       device='cuda:1')
2022-11-15 20:14:28,470 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=35278.0, num_to_drop=1, layers_to_drop={0}
2022-11-15 20:14:31,245 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=35282.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 20:14:36,327 INFO [train.py:876] (1/4) Epoch 5, batch 6200, loss[loss=0.1241, simple_loss=0.1406, pruned_loss=0.05385, over 5710.00 frames. ], tot_loss[loss=0.1717, simple_loss=0.1774, pruned_loss=0.08303, over 1085904.87 frames. ], batch size: 17, lr: 1.52e-02, grad_scale: 16.0
2022-11-15 20:14:41,928 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=35297.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 20:14:55,053 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.170e+02 1.804e+02 2.260e+02 2.687e+02 5.215e+02, threshold=4.521e+02, percent-clipped=1.0
2022-11-15 20:14:57,211 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([0.4995, 1.4054, 1.1064, 1.0012, 0.7079, 1.9875, 1.3615, 1.0193],
       device='cuda:1'), covar=tensor([0.0831, 0.0590, 0.0852, 0.1596, 0.2228, 0.0873, 0.0913, 0.1048],
       device='cuda:1'), in_proj_covar=tensor([0.0046, 0.0041, 0.0042, 0.0050, 0.0042, 0.0037, 0.0037, 0.0040],
       device='cuda:1'), out_proj_covar=tensor([8.7592e-05, 7.8939e-05, 8.0566e-05, 1.0078e-04, 8.3768e-05, 7.7146e-05,
        7.4578e-05, 7.8121e-05], device='cuda:1')
2022-11-15 20:15:02,893 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=35326.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 20:15:05,493 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=4.68 vs. limit=5.0
2022-11-15 20:15:05,750 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=35330.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 20:15:16,310 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=35345.0, num_to_drop=1, layers_to_drop={1}
2022-11-15 20:15:18,468 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.9312, 2.1628, 3.4426, 2.8947, 3.9118, 2.4704, 3.3138, 3.9249],
       device='cuda:1'), covar=tensor([0.0278, 0.1394, 0.0444, 0.1338, 0.0253, 0.1145, 0.0910, 0.0457],
       device='cuda:1'), in_proj_covar=tensor([0.0191, 0.0190, 0.0185, 0.0211, 0.0177, 0.0188, 0.0226, 0.0204],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0004, 0.0003, 0.0003, 0.0004, 0.0004],
       device='cuda:1')
2022-11-15 20:15:30,945 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=35366.0, num_to_drop=1, layers_to_drop={2}
2022-11-15 20:15:36,810 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=35374.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 20:15:47,103 INFO [train.py:876] (1/4) Epoch 5, batch 6300, loss[loss=0.2376, simple_loss=0.2187, pruned_loss=0.1282, over 5479.00 frames. ], tot_loss[loss=0.1719, simple_loss=0.1778, pruned_loss=0.08306, over 1088836.50 frames. ], batch size: 49, lr: 1.52e-02, grad_scale: 16.0
2022-11-15 20:15:59,512 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=35406.0, num_to_drop=1, layers_to_drop={3}
2022-11-15 20:16:04,764 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=35414.0, num_to_drop=1, layers_to_drop={0}
2022-11-15 20:16:05,294 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.022e+02 1.779e+02 2.287e+02 3.039e+02 6.063e+02, threshold=4.574e+02, percent-clipped=3.0
2022-11-15 20:16:20,125 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=35435.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 20:16:28,627 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=35448.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 20:16:57,613 INFO [train.py:876] (1/4) Epoch 5, batch 6400, loss[loss=0.1618, simple_loss=0.1714, pruned_loss=0.07613, over 5549.00 frames. ], tot_loss[loss=0.1732, simple_loss=0.1781, pruned_loss=0.08411, over 1084331.08 frames. ], batch size: 21, lr: 1.52e-02, grad_scale: 16.0
2022-11-15 20:17:14,788 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.260e+02 1.875e+02 2.323e+02 3.297e+02 5.699e+02, threshold=4.646e+02, percent-clipped=4.0
2022-11-15 20:17:20,743 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=1.97 vs. limit=2.0
2022-11-15 20:17:25,523 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=35530.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 20:17:28,686 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=7.91 vs. limit=5.0
2022-11-15 20:18:05,885 INFO [train.py:876] (1/4) Epoch 5, batch 6500, loss[loss=0.1483, simple_loss=0.1613, pruned_loss=0.06768, over 5378.00 frames. ], tot_loss[loss=0.1756, simple_loss=0.1795, pruned_loss=0.08578, over 1078247.83 frames. ], batch size: 9, lr: 1.51e-02, grad_scale: 16.0
2022-11-15 20:18:07,317 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=35591.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 20:18:08,608 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.0491, 0.8330, 1.0506, 1.0934, 1.0765, 1.3983, 0.9551, 1.2451],
       device='cuda:1'), covar=tensor([0.0595, 0.0818, 0.1350, 0.0935, 0.2699, 0.0747, 0.1865, 0.0854],
       device='cuda:1'), in_proj_covar=tensor([0.0009, 0.0013, 0.0010, 0.0011, 0.0010, 0.0010, 0.0011, 0.0010],
       device='cuda:1'), out_proj_covar=tensor([4.0841e-05, 5.3944e-05, 4.3598e-05, 4.9042e-05, 4.5402e-05, 4.2927e-05,
        4.6654e-05, 4.4706e-05], device='cuda:1')
2022-11-15 20:18:11,912 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.1374, 1.2651, 1.1878, 0.6768, 0.8013, 1.3941, 0.6475, 1.5251],
       device='cuda:1'), covar=tensor([0.0022, 0.0028, 0.0019, 0.0026, 0.0021, 0.0016, 0.0044, 0.0029],
       device='cuda:1'), in_proj_covar=tensor([0.0027, 0.0025, 0.0027, 0.0026, 0.0024, 0.0024, 0.0026, 0.0022],
       device='cuda:1'), out_proj_covar=tensor([2.6005e-05, 2.6632e-05, 2.5113e-05, 2.3649e-05, 2.1682e-05, 2.0041e-05,
        2.8842e-05, 1.9414e-05], device='cuda:1')
2022-11-15 20:18:17,943 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=1.96 vs. limit=2.0
2022-11-15 20:18:23,695 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.209e+02 1.920e+02 2.418e+02 3.178e+02 5.825e+02, threshold=4.835e+02, percent-clipped=5.0
2022-11-15 20:18:35,274 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.1001, 3.7061, 3.8280, 1.4322, 3.2745, 3.8810, 3.6408, 4.2952],
       device='cuda:1'), covar=tensor([0.1805, 0.0968, 0.0522, 0.2509, 0.0228, 0.0289, 0.0281, 0.0297],
       device='cuda:1'), in_proj_covar=tensor([0.0182, 0.0182, 0.0139, 0.0191, 0.0150, 0.0146, 0.0136, 0.0173],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0002, 0.0003],
       device='cuda:1')
2022-11-15 20:19:14,314 INFO [train.py:876] (1/4) Epoch 5, batch 6600, loss[loss=0.1151, simple_loss=0.1326, pruned_loss=0.04882, over 5161.00 frames. ], tot_loss[loss=0.1732, simple_loss=0.178, pruned_loss=0.0842, over 1077994.81 frames. ], batch size: 8, lr: 1.51e-02, grad_scale: 16.0
2022-11-15 20:19:22,590 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=35701.0, num_to_drop=1, layers_to_drop={0}
2022-11-15 20:19:31,772 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.292e+02 1.753e+02 2.153e+02 2.756e+02 5.336e+02, threshold=4.306e+02, percent-clipped=2.0
2022-11-15 20:19:42,128 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=35730.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 20:19:48,478 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=2.10 vs. limit=2.0
2022-11-15 20:19:53,291 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.31 vs. limit=2.0
2022-11-15 20:19:54,536 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=35748.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 20:20:09,981 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=35771.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 20:20:16,773 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([4.3932, 5.0420, 4.4001, 5.0859, 5.0131, 4.2004, 4.3096, 4.3848],
       device='cuda:1'), covar=tensor([0.0190, 0.0366, 0.1235, 0.0307, 0.0293, 0.0377, 0.0394, 0.0363],
       device='cuda:1'), in_proj_covar=tensor([0.0114, 0.0140, 0.0220, 0.0138, 0.0170, 0.0142, 0.0151, 0.0131],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0004, 0.0002, 0.0003, 0.0002, 0.0002, 0.0002],
       device='cuda:1')
2022-11-15 20:20:22,005 INFO [train.py:876] (1/4) Epoch 5, batch 6700, loss[loss=0.1993, simple_loss=0.2306, pruned_loss=0.08402, over 5566.00 frames. ], tot_loss[loss=0.1741, simple_loss=0.1796, pruned_loss=0.08434, over 1080137.06 frames. ], batch size: 22, lr: 1.51e-02, grad_scale: 16.0
2022-11-15 20:20:26,994 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=35796.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 20:20:38,038 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=35811.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 20:20:40,468 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.143e+02 1.856e+02 2.372e+02 2.960e+02 5.756e+02, threshold=4.743e+02, percent-clipped=4.0
2022-11-15 20:20:52,210 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=35832.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 20:20:55,719 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.95 vs. limit=2.0
2022-11-15 20:21:19,384 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=35872.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 20:21:28,459 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=35886.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 20:21:30,775 INFO [train.py:876] (1/4) Epoch 5, batch 6800, loss[loss=0.1076, simple_loss=0.1236, pruned_loss=0.04576, over 5175.00 frames. ], tot_loss[loss=0.1748, simple_loss=0.1803, pruned_loss=0.08468, over 1080299.15 frames. ], batch size: 8, lr: 1.51e-02, grad_scale: 16.0
2022-11-15 20:21:35,851 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=5.15 vs. limit=5.0
2022-11-15 20:21:40,546 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.27 vs. limit=2.0
2022-11-15 20:21:41,161 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.3107, 2.7678, 2.9199, 1.6382, 2.8370, 3.0096, 2.6002, 3.4717],
       device='cuda:1'), covar=tensor([0.1400, 0.1123, 0.0613, 0.1884, 0.0281, 0.0361, 0.0276, 0.0414],
       device='cuda:1'), in_proj_covar=tensor([0.0179, 0.0182, 0.0137, 0.0189, 0.0147, 0.0147, 0.0133, 0.0172],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0002, 0.0003],
       device='cuda:1')
2022-11-15 20:21:48,382 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.265e+02 1.967e+02 2.535e+02 3.123e+02 6.625e+02, threshold=5.070e+02, percent-clipped=2.0
2022-11-15 20:21:53,178 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=4.52 vs. limit=5.0
2022-11-15 20:22:27,673 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.3063, 4.0493, 2.9758, 3.8158, 3.0994, 2.8948, 2.0518, 3.1654],
       device='cuda:1'), covar=tensor([0.1524, 0.0195, 0.0939, 0.0357, 0.0646, 0.1026, 0.1919, 0.0294],
       device='cuda:1'), in_proj_covar=tensor([0.0177, 0.0131, 0.0168, 0.0129, 0.0169, 0.0180, 0.0182, 0.0141],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0002, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003, 0.0003],
       device='cuda:1')
2022-11-15 20:22:28,629 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=4.15 vs. limit=5.0
2022-11-15 20:22:29,865 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=2.05 vs. limit=2.0
2022-11-15 20:22:32,965 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.7774, 4.5178, 3.7961, 3.4728, 2.3931, 4.1551, 2.4899, 3.4031],
       device='cuda:1'), covar=tensor([0.0373, 0.0085, 0.0122, 0.0273, 0.0377, 0.0077, 0.0305, 0.0091],
       device='cuda:1'), in_proj_covar=tensor([0.0167, 0.0125, 0.0135, 0.0148, 0.0162, 0.0134, 0.0150, 0.0120],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0002, 0.0002, 0.0003, 0.0003, 0.0002, 0.0003, 0.0002],
       device='cuda:1')
2022-11-15 20:22:38,598 INFO [train.py:876] (1/4) Epoch 5, batch 6900, loss[loss=0.1312, simple_loss=0.148, pruned_loss=0.0572, over 5693.00 frames. ], tot_loss[loss=0.1755, simple_loss=0.1807, pruned_loss=0.08514, over 1082495.36 frames. ], batch size: 12, lr: 1.51e-02, grad_scale: 16.0
2022-11-15 20:22:46,844 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=36001.0, num_to_drop=1, layers_to_drop={2}
2022-11-15 20:22:56,602 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.081e+02 1.741e+02 2.226e+02 2.702e+02 5.830e+02, threshold=4.452e+02, percent-clipped=1.0
2022-11-15 20:23:05,172 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=2.03 vs. limit=2.0
2022-11-15 20:23:07,223 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=36030.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 20:23:19,732 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=36049.0, num_to_drop=1, layers_to_drop={1}
2022-11-15 20:23:20,544 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.6511, 2.2443, 2.0648, 1.4516, 1.9515, 2.4639, 2.2548, 2.6230],
       device='cuda:1'), covar=tensor([0.1429, 0.1119, 0.0898, 0.1861, 0.0470, 0.0436, 0.0313, 0.0591],
       device='cuda:1'), in_proj_covar=tensor([0.0185, 0.0187, 0.0140, 0.0193, 0.0149, 0.0149, 0.0137, 0.0176],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0002, 0.0003],
       device='cuda:1')
2022-11-15 20:23:39,889 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=36078.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 20:23:47,621 INFO [train.py:876] (1/4) Epoch 5, batch 7000, loss[loss=0.2737, simple_loss=0.218, pruned_loss=0.1647, over 3113.00 frames. ], tot_loss[loss=0.1739, simple_loss=0.1792, pruned_loss=0.08429, over 1080144.30 frames. ], batch size: 284, lr: 1.50e-02, grad_scale: 16.0
2022-11-15 20:23:49,148 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.0175, 1.0154, 1.5119, 0.6323, 1.1845, 0.9547, 0.9677, 1.3322],
       device='cuda:1'), covar=tensor([0.0032, 0.0039, 0.0029, 0.0034, 0.0024, 0.0034, 0.0042, 0.0021],
       device='cuda:1'), in_proj_covar=tensor([0.0030, 0.0027, 0.0030, 0.0028, 0.0026, 0.0027, 0.0028, 0.0024],
       device='cuda:1'), out_proj_covar=tensor([2.9008e-05, 2.8705e-05, 2.7340e-05, 2.5921e-05, 2.3701e-05, 2.2588e-05,
        3.0880e-05, 2.1374e-05], device='cuda:1')
2022-11-15 20:24:05,015 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.119e+02 1.861e+02 2.290e+02 2.878e+02 5.762e+02, threshold=4.579e+02, percent-clipped=5.0
2022-11-15 20:24:13,301 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=36127.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 20:24:40,737 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=36167.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 20:24:51,033 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=36181.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 20:24:54,729 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=36186.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 20:24:56,579 INFO [train.py:876] (1/4) Epoch 5, batch 7100, loss[loss=0.1577, simple_loss=0.1725, pruned_loss=0.07148, over 5541.00 frames. ], tot_loss[loss=0.1736, simple_loss=0.1798, pruned_loss=0.08364, over 1083412.33 frames. ], batch size: 14, lr: 1.50e-02, grad_scale: 16.0
2022-11-15 20:24:58,752 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.1739, 3.6618, 3.9900, 1.8017, 3.5331, 4.2467, 4.0693, 4.6323],
       device='cuda:1'), covar=tensor([0.2024, 0.1209, 0.0416, 0.2513, 0.0230, 0.0192, 0.0217, 0.0195],
       device='cuda:1'), in_proj_covar=tensor([0.0181, 0.0182, 0.0139, 0.0190, 0.0147, 0.0147, 0.0132, 0.0175],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0002, 0.0003],
       device='cuda:1')
2022-11-15 20:25:14,390 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 9.219e+01 1.811e+02 2.272e+02 2.779e+02 4.389e+02, threshold=4.544e+02, percent-clipped=0.0
2022-11-15 20:25:27,658 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=36234.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 20:25:33,402 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=36242.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 20:26:03,514 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.4620, 4.0319, 3.0846, 1.9456, 3.9198, 1.2945, 3.9932, 2.1583],
       device='cuda:1'), covar=tensor([0.1482, 0.0162, 0.0659, 0.2329, 0.0204, 0.2347, 0.0202, 0.1829],
       device='cuda:1'), in_proj_covar=tensor([0.0131, 0.0103, 0.0111, 0.0122, 0.0104, 0.0134, 0.0095, 0.0122],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0003, 0.0004, 0.0004, 0.0003, 0.0004, 0.0003, 0.0004],
       device='cuda:1')
2022-11-15 20:26:05,725 INFO [train.py:876] (1/4) Epoch 5, batch 7200, loss[loss=0.1745, simple_loss=0.186, pruned_loss=0.08147, over 5549.00 frames. ], tot_loss[loss=0.1762, simple_loss=0.1813, pruned_loss=0.08559, over 1080644.85 frames. ], batch size: 14, lr: 1.50e-02, grad_scale: 16.0
2022-11-15 20:26:16,289 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.8625, 2.1448, 1.7513, 2.2959, 1.5982, 1.6792, 1.7057, 2.4237],
       device='cuda:1'), covar=tensor([0.0989, 0.1279, 0.2420, 0.0685, 0.1954, 0.1909, 0.1994, 0.0909],
       device='cuda:1'), in_proj_covar=tensor([0.0060, 0.0065, 0.0085, 0.0054, 0.0068, 0.0061, 0.0075, 0.0053],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
       device='cuda:1')
2022-11-15 20:26:22,592 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 9.732e+01 1.770e+02 2.199e+02 2.603e+02 4.829e+02, threshold=4.399e+02, percent-clipped=1.0
2022-11-15 20:26:33,368 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.53 vs. limit=2.0
2022-11-15 20:26:43,767 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.6851, 5.0766, 3.6807, 4.6101, 3.7035, 3.4311, 3.0209, 4.2471],
       device='cuda:1'), covar=tensor([0.1385, 0.0120, 0.0713, 0.0266, 0.0426, 0.0857, 0.1636, 0.0203],
       device='cuda:1'), in_proj_covar=tensor([0.0173, 0.0130, 0.0165, 0.0130, 0.0168, 0.0180, 0.0183, 0.0142],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0002, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003, 0.0003],
       device='cuda:1')
2022-11-15 20:27:38,810 INFO [train.py:876] (1/4) Epoch 6, batch 0, loss[loss=0.2037, simple_loss=0.2013, pruned_loss=0.1031, over 5687.00 frames. ], tot_loss[loss=0.2037, simple_loss=0.2013, pruned_loss=0.1031, over 5687.00 frames. ], batch size: 34, lr: 1.40e-02, grad_scale: 16.0
2022-11-15 20:27:38,810 INFO [train.py:899] (1/4) Computing validation loss
2022-11-15 20:27:55,406 INFO [train.py:908] (1/4) Epoch 6, validation: loss=0.1637, simple_loss=0.1861, pruned_loss=0.07065, over 1530663.00 frames. 
2022-11-15 20:27:55,407 INFO [train.py:909] (1/4) Maximum memory allocated so far is 4664MB
2022-11-15 20:27:59,128 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=4.49 vs. limit=5.0
2022-11-15 20:28:27,182 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=1.78 vs. limit=2.0
2022-11-15 20:28:31,820 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.207e+02 1.895e+02 2.226e+02 2.646e+02 4.624e+02, threshold=4.452e+02, percent-clipped=2.0
2022-11-15 20:28:33,286 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.3528, 4.9625, 3.7233, 2.4261, 4.7092, 2.0364, 4.5879, 2.8063],
       device='cuda:1'), covar=tensor([0.0964, 0.0090, 0.0347, 0.1919, 0.0113, 0.1760, 0.0134, 0.1524],
       device='cuda:1'), in_proj_covar=tensor([0.0133, 0.0105, 0.0112, 0.0123, 0.0105, 0.0136, 0.0097, 0.0124],
       device='cuda:1'), out_proj_covar=tensor([0.0005, 0.0003, 0.0004, 0.0004, 0.0003, 0.0004, 0.0003, 0.0004],
       device='cuda:1')
2022-11-15 20:28:40,308 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=36427.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 20:28:54,119 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.6534, 4.4311, 3.4217, 2.0143, 4.1093, 1.4362, 4.0445, 2.5421],
       device='cuda:1'), covar=tensor([0.1471, 0.0152, 0.0509, 0.2140, 0.0255, 0.2331, 0.0225, 0.1640],
       device='cuda:1'), in_proj_covar=tensor([0.0132, 0.0104, 0.0112, 0.0123, 0.0105, 0.0136, 0.0097, 0.0124],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0003, 0.0004, 0.0004, 0.0003, 0.0004, 0.0003, 0.0004],
       device='cuda:1')
2022-11-15 20:29:03,066 INFO [train.py:876] (1/4) Epoch 6, batch 100, loss[loss=0.2137, simple_loss=0.2033, pruned_loss=0.1121, over 5553.00 frames. ], tot_loss[loss=0.1675, simple_loss=0.1764, pruned_loss=0.07934, over 438091.42 frames. ], batch size: 54, lr: 1.40e-02, grad_scale: 16.0
2022-11-15 20:29:07,140 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=36467.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 20:29:12,766 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=36475.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 20:29:40,202 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.130e+02 1.873e+02 2.283e+02 2.904e+02 6.033e+02, threshold=4.566e+02, percent-clipped=4.0
2022-11-15 20:29:40,277 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=36515.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 20:29:55,294 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=36537.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 20:29:58,050 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.2796, 0.6840, 0.9541, 0.7852, 0.8960, 0.9886, 0.6724, 0.8073],
       device='cuda:1'), covar=tensor([0.0381, 0.0433, 0.0527, 0.1131, 0.0805, 0.0585, 0.0876, 0.0479],
       device='cuda:1'), in_proj_covar=tensor([0.0009, 0.0012, 0.0009, 0.0010, 0.0010, 0.0009, 0.0011, 0.0009],
       device='cuda:1'), out_proj_covar=tensor([3.8595e-05, 5.1544e-05, 4.1261e-05, 4.6406e-05, 4.3567e-05, 4.0417e-05,
        4.5513e-05, 4.2138e-05], device='cuda:1')
2022-11-15 20:30:11,761 INFO [train.py:876] (1/4) Epoch 6, batch 200, loss[loss=0.1325, simple_loss=0.1627, pruned_loss=0.0511, over 5552.00 frames. ], tot_loss[loss=0.1696, simple_loss=0.177, pruned_loss=0.0811, over 693012.04 frames. ], batch size: 13, lr: 1.39e-02, grad_scale: 16.0
2022-11-15 20:30:33,612 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.47 vs. limit=2.0
2022-11-15 20:30:42,296 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=36605.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 20:30:44,351 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=36608.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 20:30:46,962 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=36612.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 20:30:48,739 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.138e+02 1.665e+02 2.149e+02 2.847e+02 6.157e+02, threshold=4.299e+02, percent-clipped=2.0
2022-11-15 20:30:54,664 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=4.69 vs. limit=5.0
2022-11-15 20:31:13,507 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.4585, 4.5960, 2.8701, 4.2834, 3.3554, 3.1462, 2.4226, 3.6738],
       device='cuda:1'), covar=tensor([0.1597, 0.0158, 0.1215, 0.0331, 0.0517, 0.0978, 0.1903, 0.0325],
       device='cuda:1'), in_proj_covar=tensor([0.0174, 0.0130, 0.0167, 0.0131, 0.0169, 0.0181, 0.0184, 0.0142],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0002, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003, 0.0003],
       device='cuda:1')
2022-11-15 20:31:20,153 INFO [train.py:876] (1/4) Epoch 6, batch 300, loss[loss=0.1525, simple_loss=0.1718, pruned_loss=0.06661, over 5600.00 frames. ], tot_loss[loss=0.1681, simple_loss=0.1754, pruned_loss=0.08038, over 849235.64 frames. ], batch size: 18, lr: 1.39e-02, grad_scale: 16.0
2022-11-15 20:31:23,586 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=36666.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 20:31:25,558 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=36669.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 20:31:28,129 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=36673.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 20:31:46,945 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=36700.0, num_to_drop=1, layers_to_drop={0}
2022-11-15 20:31:50,046 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=2.12 vs. limit=2.0
2022-11-15 20:31:56,888 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.229e+02 1.849e+02 2.219e+02 2.840e+02 6.377e+02, threshold=4.439e+02, percent-clipped=4.0
2022-11-15 20:32:00,595 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=1.95 vs. limit=2.0
2022-11-15 20:32:27,628 INFO [train.py:876] (1/4) Epoch 6, batch 400, loss[loss=0.1832, simple_loss=0.1876, pruned_loss=0.08945, over 5732.00 frames. ], tot_loss[loss=0.1681, simple_loss=0.1754, pruned_loss=0.08044, over 943314.40 frames. ], batch size: 14, lr: 1.39e-02, grad_scale: 16.0
2022-11-15 20:32:27,802 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=36761.0, num_to_drop=1, layers_to_drop={3}
2022-11-15 20:32:48,923 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([0.4249, 0.6873, 0.7345, 0.2854, 0.7634, 0.6158, 0.4495, 0.7189],
       device='cuda:1'), covar=tensor([0.0017, 0.0008, 0.0013, 0.0007, 0.0012, 0.0011, 0.0022, 0.0008],
       device='cuda:1'), in_proj_covar=tensor([0.0029, 0.0026, 0.0028, 0.0027, 0.0025, 0.0026, 0.0028, 0.0023],
       device='cuda:1'), out_proj_covar=tensor([2.8115e-05, 2.8175e-05, 2.5602e-05, 2.4857e-05, 2.2471e-05, 2.1906e-05,
        3.0536e-05, 2.0569e-05], device='cuda:1')
2022-11-15 20:32:58,159 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=36805.0, num_to_drop=1, layers_to_drop={0}
2022-11-15 20:33:04,837 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.163e+02 1.826e+02 2.118e+02 2.813e+02 4.458e+02, threshold=4.236e+02, percent-clipped=1.0
2022-11-15 20:33:08,009 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.7518, 2.4261, 2.6218, 3.8951, 3.6697, 3.0001, 2.2516, 3.6442],
       device='cuda:1'), covar=tensor([0.0313, 0.3274, 0.2246, 0.2254, 0.0894, 0.2689, 0.2143, 0.0738],
       device='cuda:1'), in_proj_covar=tensor([0.0183, 0.0210, 0.0205, 0.0319, 0.0216, 0.0220, 0.0195, 0.0182],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0004, 0.0004, 0.0006, 0.0005, 0.0005, 0.0004, 0.0004],
       device='cuda:1')
2022-11-15 20:33:14,947 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.6018, 1.4962, 1.5086, 1.0494, 0.6184, 2.4988, 1.7792, 1.4806],
       device='cuda:1'), covar=tensor([0.0644, 0.0884, 0.0674, 0.1709, 0.2284, 0.2192, 0.1002, 0.0593],
       device='cuda:1'), in_proj_covar=tensor([0.0050, 0.0042, 0.0044, 0.0052, 0.0046, 0.0038, 0.0040, 0.0042],
       device='cuda:1'), out_proj_covar=tensor([9.5169e-05, 8.3165e-05, 8.5483e-05, 1.0559e-04, 9.2459e-05, 8.0917e-05,
        8.1837e-05, 8.3488e-05], device='cuda:1')
2022-11-15 20:33:16,583 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=2.05 vs. limit=2.0
2022-11-15 20:33:20,217 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=36837.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 20:33:24,842 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([4.1895, 2.3552, 3.8037, 3.1790, 4.3535, 2.8756, 3.7953, 4.3783],
       device='cuda:1'), covar=tensor([0.0307, 0.1231, 0.0427, 0.1232, 0.0147, 0.1098, 0.0713, 0.0318],
       device='cuda:1'), in_proj_covar=tensor([0.0196, 0.0189, 0.0183, 0.0209, 0.0180, 0.0187, 0.0221, 0.0201],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0003, 0.0003, 0.0004, 0.0003, 0.0003, 0.0004, 0.0004],
       device='cuda:1')
2022-11-15 20:33:31,100 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=4.45 vs. limit=5.0
2022-11-15 20:33:35,934 INFO [train.py:876] (1/4) Epoch 6, batch 500, loss[loss=0.1529, simple_loss=0.1673, pruned_loss=0.06925, over 5719.00 frames. ], tot_loss[loss=0.1699, simple_loss=0.1768, pruned_loss=0.08146, over 991924.71 frames. ], batch size: 19, lr: 1.39e-02, grad_scale: 16.0
2022-11-15 20:33:40,080 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=36866.0, num_to_drop=1, layers_to_drop={1}
2022-11-15 20:33:42,715 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.6275, 3.9265, 3.7229, 3.2634, 2.1251, 4.0594, 2.3191, 3.5542],
       device='cuda:1'), covar=tensor([0.0327, 0.0203, 0.0162, 0.0294, 0.0469, 0.0084, 0.0346, 0.0094],
       device='cuda:1'), in_proj_covar=tensor([0.0162, 0.0122, 0.0138, 0.0148, 0.0160, 0.0135, 0.0151, 0.0120],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0002, 0.0002, 0.0003, 0.0003, 0.0002, 0.0003, 0.0002],
       device='cuda:1')
2022-11-15 20:33:53,147 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=36885.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 20:34:06,682 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=3.70 vs. limit=5.0
2022-11-15 20:34:10,489 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=36911.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 20:34:13,304 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.178e+02 1.807e+02 2.308e+02 2.926e+02 6.442e+02, threshold=4.616e+02, percent-clipped=7.0
2022-11-15 20:34:24,523 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.7314, 2.5477, 2.0616, 2.6799, 1.9487, 2.1073, 2.3546, 3.0481],
       device='cuda:1'), covar=tensor([0.0837, 0.1180, 0.3460, 0.1099, 0.2405, 0.2037, 0.1736, 0.1596],
       device='cuda:1'), in_proj_covar=tensor([0.0061, 0.0070, 0.0087, 0.0057, 0.0071, 0.0063, 0.0079, 0.0056],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
       device='cuda:1')
2022-11-15 20:34:43,144 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=36958.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 20:34:44,968 INFO [train.py:876] (1/4) Epoch 6, batch 600, loss[loss=0.1619, simple_loss=0.1714, pruned_loss=0.07622, over 5685.00 frames. ], tot_loss[loss=0.1677, simple_loss=0.1756, pruned_loss=0.07992, over 1034412.71 frames. ], batch size: 28, lr: 1.39e-02, grad_scale: 16.0
2022-11-15 20:34:45,044 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=36961.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 20:34:47,035 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=36964.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 20:34:49,625 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=36968.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 20:34:50,815 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=4.57 vs. limit=5.0
2022-11-15 20:34:52,736 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=36972.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 20:35:15,260 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=37004.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 20:35:22,242 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.158e+02 1.873e+02 2.337e+02 2.752e+02 4.766e+02, threshold=4.674e+02, percent-clipped=2.0
2022-11-15 20:35:25,079 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=37019.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 20:35:45,133 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=2.02 vs. limit=2.0
2022-11-15 20:35:51,225 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=37056.0, num_to_drop=1, layers_to_drop={0}
2022-11-15 20:35:54,388 INFO [train.py:876] (1/4) Epoch 6, batch 700, loss[loss=0.1575, simple_loss=0.1806, pruned_loss=0.06719, over 5728.00 frames. ], tot_loss[loss=0.169, simple_loss=0.1765, pruned_loss=0.08078, over 1054118.85 frames. ], batch size: 20, lr: 1.38e-02, grad_scale: 16.0
2022-11-15 20:35:57,286 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=37065.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 20:36:07,881 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.0044, 0.7382, 0.9707, 0.8476, 1.0660, 1.1336, 0.7918, 0.8954],
       device='cuda:1'), covar=tensor([0.0772, 0.0521, 0.1449, 0.0946, 0.1348, 0.0556, 0.0710, 0.0812],
       device='cuda:1'), in_proj_covar=tensor([0.0009, 0.0013, 0.0010, 0.0011, 0.0011, 0.0009, 0.0012, 0.0010],
       device='cuda:1'), out_proj_covar=tensor([4.0825e-05, 5.4906e-05, 4.3156e-05, 4.9945e-05, 4.6989e-05, 4.1786e-05,
        4.8932e-05, 4.4531e-05], device='cuda:1')
2022-11-15 20:36:31,398 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 9.989e+01 2.001e+02 2.497e+02 2.973e+02 6.578e+02, threshold=4.994e+02, percent-clipped=4.0
2022-11-15 20:36:38,235 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.0115, 2.8148, 2.7851, 1.4428, 2.5571, 2.8168, 2.9684, 3.0559],
       device='cuda:1'), covar=tensor([0.1681, 0.1202, 0.0903, 0.2182, 0.0365, 0.0657, 0.0249, 0.0578],
       device='cuda:1'), in_proj_covar=tensor([0.0187, 0.0188, 0.0146, 0.0192, 0.0153, 0.0154, 0.0134, 0.0185],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0002, 0.0003],
       device='cuda:1')
2022-11-15 20:37:02,432 INFO [train.py:876] (1/4) Epoch 6, batch 800, loss[loss=0.1629, simple_loss=0.1734, pruned_loss=0.0762, over 5846.00 frames. ], tot_loss[loss=0.1687, simple_loss=0.1766, pruned_loss=0.08038, over 1068979.89 frames. ], batch size: 18, lr: 1.38e-02, grad_scale: 16.0
2022-11-15 20:37:02,514 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=37161.0, num_to_drop=1, layers_to_drop={0}
2022-11-15 20:37:13,948 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.3468, 2.3893, 1.8795, 2.5398, 1.8071, 1.9587, 2.1903, 2.8073],
       device='cuda:1'), covar=tensor([0.0717, 0.1138, 0.2255, 0.0616, 0.1854, 0.1179, 0.1410, 0.1621],
       device='cuda:1'), in_proj_covar=tensor([0.0061, 0.0066, 0.0082, 0.0055, 0.0069, 0.0061, 0.0075, 0.0053],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
       device='cuda:1')
2022-11-15 20:37:40,547 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.103e+02 1.784e+02 2.226e+02 2.677e+02 4.647e+02, threshold=4.452e+02, percent-clipped=0.0
2022-11-15 20:37:43,871 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.99 vs. limit=2.0
2022-11-15 20:38:11,376 INFO [train.py:876] (1/4) Epoch 6, batch 900, loss[loss=0.1724, simple_loss=0.1778, pruned_loss=0.08353, over 5686.00 frames. ], tot_loss[loss=0.1698, simple_loss=0.1772, pruned_loss=0.08126, over 1077150.96 frames. ], batch size: 36, lr: 1.38e-02, grad_scale: 16.0
2022-11-15 20:38:11,489 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=37261.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 20:38:13,405 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=37264.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 20:38:15,264 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=37267.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 20:38:15,959 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=37268.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 20:38:15,993 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=37268.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 20:38:22,718 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([4.5297, 4.0693, 4.0842, 4.0115, 4.6110, 4.2531, 3.9727, 4.3795],
       device='cuda:1'), covar=tensor([0.0568, 0.0593, 0.0877, 0.0900, 0.0493, 0.0366, 0.0648, 0.0652],
       device='cuda:1'), in_proj_covar=tensor([0.0102, 0.0111, 0.0085, 0.0114, 0.0119, 0.0071, 0.0097, 0.0106],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0001, 0.0002, 0.0002],
       device='cuda:1')
2022-11-15 20:38:29,927 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=4.23 vs. limit=5.0
2022-11-15 20:38:43,256 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=37309.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 20:38:45,287 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=37312.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 20:38:46,653 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=37314.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 20:38:48,411 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.96 vs. limit=2.0
2022-11-15 20:38:48,597 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.068e+02 1.992e+02 2.315e+02 2.795e+02 5.537e+02, threshold=4.630e+02, percent-clipped=3.0
2022-11-15 20:38:48,678 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=37316.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 20:38:57,779 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=37329.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 20:39:15,675 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=37356.0, num_to_drop=1, layers_to_drop={2}
2022-11-15 20:39:18,339 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=37360.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 20:39:18,954 INFO [train.py:876] (1/4) Epoch 6, batch 1000, loss[loss=0.1005, simple_loss=0.1292, pruned_loss=0.03595, over 5491.00 frames. ], tot_loss[loss=0.1702, simple_loss=0.1773, pruned_loss=0.0816, over 1082252.74 frames. ], batch size: 10, lr: 1.38e-02, grad_scale: 16.0
2022-11-15 20:39:21,053 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=37364.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 20:39:48,184 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=37404.0, num_to_drop=1, layers_to_drop={1}
2022-11-15 20:39:52,985 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.5565, 5.2339, 3.6816, 2.1739, 4.9594, 2.3301, 4.9857, 2.7486],
       device='cuda:1'), covar=tensor([0.0888, 0.0077, 0.0396, 0.2010, 0.0103, 0.1488, 0.0090, 0.1528],
       device='cuda:1'), in_proj_covar=tensor([0.0124, 0.0101, 0.0109, 0.0121, 0.0101, 0.0130, 0.0093, 0.0120],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0003, 0.0004, 0.0004, 0.0003, 0.0004, 0.0003, 0.0004],
       device='cuda:1')
2022-11-15 20:39:56,108 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 9.744e+01 1.732e+02 2.123e+02 2.683e+02 6.509e+02, threshold=4.246e+02, percent-clipped=3.0
2022-11-15 20:40:02,451 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=37425.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 20:40:26,881 INFO [train.py:876] (1/4) Epoch 6, batch 1100, loss[loss=0.1827, simple_loss=0.1694, pruned_loss=0.09804, over 4234.00 frames. ], tot_loss[loss=0.1675, simple_loss=0.1755, pruned_loss=0.07973, over 1084163.18 frames. ], batch size: 181, lr: 1.38e-02, grad_scale: 16.0
2022-11-15 20:40:26,993 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=37461.0, num_to_drop=1, layers_to_drop={1}
2022-11-15 20:40:28,929 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.5279, 4.7699, 3.0181, 4.4950, 3.6352, 3.3427, 2.6343, 4.1137],
       device='cuda:1'), covar=tensor([0.1528, 0.0166, 0.1006, 0.0250, 0.0413, 0.0808, 0.1679, 0.0212],
       device='cuda:1'), in_proj_covar=tensor([0.0180, 0.0134, 0.0173, 0.0134, 0.0171, 0.0183, 0.0186, 0.0145],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0002, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003, 0.0003],
       device='cuda:1')
2022-11-15 20:40:59,805 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=37509.0, num_to_drop=1, layers_to_drop={0}
2022-11-15 20:41:04,181 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.065e+02 1.745e+02 2.111e+02 2.538e+02 7.660e+02, threshold=4.223e+02, percent-clipped=2.0
2022-11-15 20:41:07,067 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.8843, 1.3234, 1.4261, 1.3363, 1.3028, 1.4528, 1.6494, 1.3387],
       device='cuda:1'), covar=tensor([0.0017, 0.0055, 0.0044, 0.0019, 0.0020, 0.0041, 0.0016, 0.0020],
       device='cuda:1'), in_proj_covar=tensor([0.0017, 0.0017, 0.0017, 0.0020, 0.0018, 0.0017, 0.0018, 0.0019],
       device='cuda:1'), out_proj_covar=tensor([1.7066e-05, 1.7873e-05, 1.6894e-05, 1.9384e-05, 1.7853e-05, 1.7744e-05,
        1.8113e-05, 2.1735e-05], device='cuda:1')
2022-11-15 20:41:13,636 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.9394, 2.7239, 2.1600, 1.5049, 2.6189, 1.0763, 2.7207, 1.5488],
       device='cuda:1'), covar=tensor([0.1021, 0.0184, 0.0640, 0.1570, 0.0205, 0.1860, 0.0199, 0.1409],
       device='cuda:1'), in_proj_covar=tensor([0.0124, 0.0101, 0.0109, 0.0120, 0.0102, 0.0131, 0.0092, 0.0121],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0003, 0.0004, 0.0004, 0.0003, 0.0004, 0.0003, 0.0004],
       device='cuda:1')
2022-11-15 20:41:13,897 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=6.19 vs. limit=5.0
2022-11-15 20:41:35,079 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.25 vs. limit=2.0
2022-11-15 20:41:35,287 INFO [train.py:876] (1/4) Epoch 6, batch 1200, loss[loss=0.1094, simple_loss=0.1304, pruned_loss=0.04424, over 5476.00 frames. ], tot_loss[loss=0.1655, simple_loss=0.1738, pruned_loss=0.07857, over 1082490.78 frames. ], batch size: 10, lr: 1.38e-02, grad_scale: 16.0
2022-11-15 20:41:36,699 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.0234, 2.6661, 2.7557, 1.2494, 2.6866, 3.2190, 2.6692, 3.2291],
       device='cuda:1'), covar=tensor([0.1845, 0.1431, 0.0837, 0.3023, 0.0418, 0.0428, 0.0386, 0.0586],
       device='cuda:1'), in_proj_covar=tensor([0.0184, 0.0182, 0.0142, 0.0190, 0.0152, 0.0152, 0.0137, 0.0178],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
       device='cuda:1')
2022-11-15 20:41:39,297 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=37567.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 20:42:11,413 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=37614.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 20:42:12,013 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=37615.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 20:42:12,626 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.202e+02 1.872e+02 2.304e+02 2.879e+02 7.161e+02, threshold=4.608e+02, percent-clipped=4.0
2022-11-15 20:42:18,026 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=37624.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 20:42:42,620 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=37660.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 20:42:43,124 INFO [train.py:876] (1/4) Epoch 6, batch 1300, loss[loss=0.2456, simple_loss=0.2073, pruned_loss=0.142, over 4188.00 frames. ], tot_loss[loss=0.1657, simple_loss=0.1745, pruned_loss=0.07842, over 1078304.68 frames. ], batch size: 181, lr: 1.37e-02, grad_scale: 16.0
2022-11-15 20:42:43,839 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=37662.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 20:43:15,365 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=37708.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 20:43:20,505 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.128e+02 1.632e+02 1.886e+02 2.277e+02 3.768e+02, threshold=3.772e+02, percent-clipped=0.0
2022-11-15 20:43:23,148 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=37720.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 20:43:27,009 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.6102, 2.8206, 2.0631, 2.9619, 2.0920, 3.0450, 2.7049, 3.8512],
       device='cuda:1'), covar=tensor([0.0852, 0.1427, 0.3129, 0.1127, 0.2220, 0.0616, 0.1898, 0.1473],
       device='cuda:1'), in_proj_covar=tensor([0.0065, 0.0072, 0.0087, 0.0058, 0.0073, 0.0064, 0.0081, 0.0058],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
       device='cuda:1')
2022-11-15 20:43:48,401 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=1.90 vs. limit=2.0
2022-11-15 20:43:51,753 INFO [train.py:876] (1/4) Epoch 6, batch 1400, loss[loss=0.1646, simple_loss=0.1819, pruned_loss=0.07369, over 5553.00 frames. ], tot_loss[loss=0.1656, simple_loss=0.1745, pruned_loss=0.07837, over 1083554.76 frames. ], batch size: 15, lr: 1.37e-02, grad_scale: 16.0
2022-11-15 20:44:25,914 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.6430, 0.7920, 1.5930, 1.0442, 1.3481, 1.1853, 1.2042, 0.7688],
       device='cuda:1'), covar=tensor([0.0022, 0.0072, 0.0045, 0.0041, 0.0067, 0.0044, 0.0030, 0.0061],
       device='cuda:1'), in_proj_covar=tensor([0.0018, 0.0017, 0.0017, 0.0020, 0.0018, 0.0018, 0.0019, 0.0020],
       device='cuda:1'), out_proj_covar=tensor([1.7816e-05, 1.7540e-05, 1.7268e-05, 2.0295e-05, 1.8312e-05, 1.8363e-05,
        1.9070e-05, 2.2897e-05], device='cuda:1')
2022-11-15 20:44:31,663 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.336e+02 1.794e+02 2.213e+02 2.826e+02 4.726e+02, threshold=4.425e+02, percent-clipped=5.0
2022-11-15 20:45:01,660 INFO [train.py:876] (1/4) Epoch 6, batch 1500, loss[loss=0.1271, simple_loss=0.1486, pruned_loss=0.05277, over 5462.00 frames. ], tot_loss[loss=0.1664, simple_loss=0.1751, pruned_loss=0.07888, over 1083920.64 frames. ], batch size: 11, lr: 1.37e-02, grad_scale: 16.0
2022-11-15 20:45:05,414 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.5255, 1.9937, 2.3118, 3.2387, 3.1438, 2.4693, 2.0887, 3.4612],
       device='cuda:1'), covar=tensor([0.0435, 0.3455, 0.2255, 0.3095, 0.1010, 0.3253, 0.2290, 0.0486],
       device='cuda:1'), in_proj_covar=tensor([0.0187, 0.0210, 0.0208, 0.0322, 0.0217, 0.0218, 0.0201, 0.0185],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0004, 0.0004, 0.0006, 0.0005, 0.0005, 0.0004, 0.0004],
       device='cuda:1')
2022-11-15 20:45:21,736 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([0.7206, 1.2274, 1.4464, 0.9262, 1.3573, 1.2457, 0.8693, 1.2072],
       device='cuda:1'), covar=tensor([0.0031, 0.0031, 0.0024, 0.0034, 0.0023, 0.0020, 0.0034, 0.0041],
       device='cuda:1'), in_proj_covar=tensor([0.0031, 0.0029, 0.0029, 0.0029, 0.0028, 0.0026, 0.0030, 0.0025],
       device='cuda:1'), out_proj_covar=tensor([2.9512e-05, 3.0260e-05, 2.6468e-05, 2.6936e-05, 2.5041e-05, 2.2061e-05,
        3.2435e-05, 2.1895e-05], device='cuda:1')
2022-11-15 20:45:24,024 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.46 vs. limit=2.0
2022-11-15 20:45:38,927 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.056e+02 1.859e+02 2.319e+02 2.620e+02 5.467e+02, threshold=4.638e+02, percent-clipped=1.0
2022-11-15 20:45:45,057 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=37924.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 20:45:56,418 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.4116, 1.3212, 1.3964, 1.0210, 1.3691, 1.2402, 1.0497, 0.7649],
       device='cuda:1'), covar=tensor([0.0018, 0.0035, 0.0032, 0.0025, 0.0018, 0.0029, 0.0022, 0.0037],
       device='cuda:1'), in_proj_covar=tensor([0.0018, 0.0017, 0.0017, 0.0020, 0.0018, 0.0017, 0.0018, 0.0020],
       device='cuda:1'), out_proj_covar=tensor([1.7811e-05, 1.7082e-05, 1.7343e-05, 2.0323e-05, 1.7922e-05, 1.7991e-05,
        1.8621e-05, 2.2663e-05], device='cuda:1')
2022-11-15 20:46:10,112 INFO [train.py:876] (1/4) Epoch 6, batch 1600, loss[loss=0.1809, simple_loss=0.1883, pruned_loss=0.0868, over 5648.00 frames. ], tot_loss[loss=0.1667, simple_loss=0.1749, pruned_loss=0.07926, over 1079695.94 frames. ], batch size: 38, lr: 1.37e-02, grad_scale: 16.0
2022-11-15 20:46:11,600 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.6519, 2.3290, 2.5151, 3.6453, 3.5382, 2.7367, 2.4939, 3.7017],
       device='cuda:1'), covar=tensor([0.0445, 0.2844, 0.2309, 0.2237, 0.0856, 0.2545, 0.1965, 0.0444],
       device='cuda:1'), in_proj_covar=tensor([0.0187, 0.0212, 0.0210, 0.0322, 0.0218, 0.0218, 0.0204, 0.0187],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0004, 0.0004, 0.0006, 0.0005, 0.0005, 0.0004, 0.0004],
       device='cuda:1')
2022-11-15 20:46:17,394 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=37972.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 20:46:22,788 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=37979.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 20:46:47,655 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 8.872e+01 1.813e+02 2.310e+02 2.979e+02 5.455e+02, threshold=4.619e+02, percent-clipped=4.0
2022-11-15 20:46:50,388 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=38020.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 20:47:03,882 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=38040.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 20:47:18,026 INFO [train.py:876] (1/4) Epoch 6, batch 1700, loss[loss=0.1264, simple_loss=0.1506, pruned_loss=0.05112, over 5497.00 frames. ], tot_loss[loss=0.1674, simple_loss=0.1757, pruned_loss=0.07956, over 1086960.92 frames. ], batch size: 10, lr: 1.37e-02, grad_scale: 16.0
2022-11-15 20:47:22,635 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=38068.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 20:47:43,818 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.6346, 3.5414, 3.4941, 3.7828, 3.3236, 3.0700, 4.0263, 3.5636],
       device='cuda:1'), covar=tensor([0.0447, 0.0803, 0.0461, 0.0804, 0.0664, 0.0468, 0.0675, 0.0528],
       device='cuda:1'), in_proj_covar=tensor([0.0068, 0.0089, 0.0074, 0.0092, 0.0070, 0.0058, 0.0116, 0.0077],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0001, 0.0003, 0.0002],
       device='cuda:1')
2022-11-15 20:47:55,396 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.122e+02 1.764e+02 2.104e+02 2.685e+02 5.145e+02, threshold=4.208e+02, percent-clipped=1.0
2022-11-15 20:47:57,274 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=1.90 vs. limit=2.0
2022-11-15 20:48:25,387 INFO [train.py:876] (1/4) Epoch 6, batch 1800, loss[loss=0.1946, simple_loss=0.1753, pruned_loss=0.1069, over 4186.00 frames. ], tot_loss[loss=0.1671, simple_loss=0.1754, pruned_loss=0.07937, over 1089282.62 frames. ], batch size: 181, lr: 1.36e-02, grad_scale: 16.0
2022-11-15 20:49:03,152 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.164e+02 1.837e+02 2.239e+02 2.713e+02 4.527e+02, threshold=4.477e+02, percent-clipped=1.0
2022-11-15 20:49:05,592 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.3408, 3.0955, 3.1225, 2.9910, 3.3890, 3.1659, 3.1386, 3.2804],
       device='cuda:1'), covar=tensor([0.0618, 0.0733, 0.0814, 0.0931, 0.0695, 0.0457, 0.0694, 0.0976],
       device='cuda:1'), in_proj_covar=tensor([0.0108, 0.0116, 0.0088, 0.0118, 0.0125, 0.0075, 0.0099, 0.0111],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0002],
       device='cuda:1')
2022-11-15 20:49:24,316 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.4824, 1.7006, 1.5148, 0.9843, 0.6342, 2.3270, 1.7657, 1.1603],
       device='cuda:1'), covar=tensor([0.0819, 0.0679, 0.1101, 0.1712, 0.2580, 0.0468, 0.0735, 0.0829],
       device='cuda:1'), in_proj_covar=tensor([0.0053, 0.0045, 0.0047, 0.0056, 0.0047, 0.0038, 0.0045, 0.0046],
       device='cuda:1'), out_proj_covar=tensor([1.0342e-04, 8.9960e-05, 9.4723e-05, 1.1471e-04, 9.7893e-05, 8.3667e-05,
        9.1052e-05, 9.1478e-05], device='cuda:1')
2022-11-15 20:49:33,775 INFO [train.py:876] (1/4) Epoch 6, batch 1900, loss[loss=0.1143, simple_loss=0.1441, pruned_loss=0.04227, over 5459.00 frames. ], tot_loss[loss=0.1655, simple_loss=0.1743, pruned_loss=0.07839, over 1094107.05 frames. ], batch size: 11, lr: 1.36e-02, grad_scale: 16.0
2022-11-15 20:49:38,591 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=1.89 vs. limit=2.0
2022-11-15 20:49:57,477 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=2.02 vs. limit=2.0
2022-11-15 20:49:58,043 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=4.31 vs. limit=5.0
2022-11-15 20:50:10,565 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.124e+02 1.862e+02 2.216e+02 2.632e+02 5.559e+02, threshold=4.433e+02, percent-clipped=2.0
2022-11-15 20:50:24,248 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=38335.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 20:50:38,702 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=1.92 vs. limit=2.0
2022-11-15 20:50:40,941 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=38360.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 20:50:41,460 INFO [train.py:876] (1/4) Epoch 6, batch 2000, loss[loss=0.1329, simple_loss=0.1583, pruned_loss=0.05378, over 5496.00 frames. ], tot_loss[loss=0.1681, simple_loss=0.1758, pruned_loss=0.08017, over 1086956.63 frames. ], batch size: 12, lr: 1.36e-02, grad_scale: 16.0
2022-11-15 20:51:19,232 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.233e+02 2.027e+02 2.499e+02 3.028e+02 6.402e+02, threshold=4.998e+02, percent-clipped=6.0
2022-11-15 20:51:22,848 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=38421.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 20:51:50,149 INFO [train.py:876] (1/4) Epoch 6, batch 2100, loss[loss=0.1547, simple_loss=0.1624, pruned_loss=0.07352, over 5064.00 frames. ], tot_loss[loss=0.1675, simple_loss=0.1753, pruned_loss=0.07984, over 1082035.70 frames. ], batch size: 7, lr: 1.36e-02, grad_scale: 16.0
2022-11-15 20:52:27,550 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 9.554e+01 1.866e+02 2.249e+02 2.710e+02 6.180e+02, threshold=4.497e+02, percent-clipped=1.0
2022-11-15 20:52:28,590 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=8.31 vs. limit=5.0
2022-11-15 20:52:58,526 INFO [train.py:876] (1/4) Epoch 6, batch 2200, loss[loss=0.1133, simple_loss=0.1385, pruned_loss=0.04405, over 4372.00 frames. ], tot_loss[loss=0.1673, simple_loss=0.1758, pruned_loss=0.07938, over 1078358.06 frames. ], batch size: 5, lr: 1.36e-02, grad_scale: 16.0
2022-11-15 20:53:02,948 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=2.05 vs. limit=2.0
2022-11-15 20:53:33,277 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([4.8173, 4.9495, 4.4942, 4.5540, 4.7552, 4.5503, 2.0445, 5.0595],
       device='cuda:1'), covar=tensor([0.0227, 0.0152, 0.0242, 0.0248, 0.0245, 0.0313, 0.2826, 0.0176],
       device='cuda:1'), in_proj_covar=tensor([0.0100, 0.0075, 0.0077, 0.0067, 0.0094, 0.0081, 0.0130, 0.0099],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0001, 0.0002, 0.0002, 0.0003, 0.0002],
       device='cuda:1')
2022-11-15 20:53:36,405 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.012e+02 1.801e+02 2.106e+02 2.533e+02 3.933e+02, threshold=4.211e+02, percent-clipped=0.0
2022-11-15 20:53:37,627 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.85 vs. limit=2.0
2022-11-15 20:53:49,027 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=38635.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 20:53:55,170 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.0332, 2.9703, 2.5312, 2.9689, 2.9448, 2.5178, 2.6473, 2.5829],
       device='cuda:1'), covar=tensor([0.0265, 0.0553, 0.1807, 0.0552, 0.0561, 0.0730, 0.0657, 0.0602],
       device='cuda:1'), in_proj_covar=tensor([0.0116, 0.0146, 0.0232, 0.0146, 0.0179, 0.0152, 0.0155, 0.0142],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0004, 0.0002, 0.0003, 0.0002, 0.0002, 0.0002],
       device='cuda:1')
2022-11-15 20:54:06,823 INFO [train.py:876] (1/4) Epoch 6, batch 2300, loss[loss=0.1512, simple_loss=0.1648, pruned_loss=0.06887, over 5622.00 frames. ], tot_loss[loss=0.1636, simple_loss=0.1727, pruned_loss=0.07728, over 1079337.74 frames. ], batch size: 29, lr: 1.36e-02, grad_scale: 16.0
2022-11-15 20:54:21,935 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=38683.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 20:54:39,837 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=1.98 vs. limit=2.0
2022-11-15 20:54:44,925 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.033e+02 1.846e+02 2.203e+02 3.021e+02 7.472e+02, threshold=4.405e+02, percent-clipped=8.0
2022-11-15 20:54:45,031 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=38716.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 20:55:14,847 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=2.06 vs. limit=2.0
2022-11-15 20:55:15,139 INFO [train.py:876] (1/4) Epoch 6, batch 2400, loss[loss=0.1934, simple_loss=0.1869, pruned_loss=0.09998, over 5555.00 frames. ], tot_loss[loss=0.1664, simple_loss=0.1741, pruned_loss=0.07937, over 1079328.80 frames. ], batch size: 40, lr: 1.35e-02, grad_scale: 16.0
2022-11-15 20:55:49,335 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([0.9863, 1.0316, 1.1240, 0.7822, 1.0240, 1.1349, 0.9463, 0.8145],
       device='cuda:1'), covar=tensor([0.0031, 0.0031, 0.0036, 0.0035, 0.0028, 0.0025, 0.0043, 0.0044],
       device='cuda:1'), in_proj_covar=tensor([0.0031, 0.0029, 0.0030, 0.0031, 0.0028, 0.0028, 0.0030, 0.0027],
       device='cuda:1'), out_proj_covar=tensor([2.9165e-05, 3.0770e-05, 2.7683e-05, 2.8095e-05, 2.5306e-05, 2.3632e-05,
        3.2233e-05, 2.3958e-05], device='cuda:1')
2022-11-15 20:55:52,457 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.056e+02 1.810e+02 2.219e+02 2.775e+02 4.582e+02, threshold=4.438e+02, percent-clipped=1.0
2022-11-15 20:55:55,236 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=1.99 vs. limit=2.0
2022-11-15 20:55:57,932 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=38823.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 20:56:09,240 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.91 vs. limit=2.0
2022-11-15 20:56:09,567 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.5196, 1.7212, 1.8077, 2.4053, 2.6118, 1.9956, 1.5332, 2.7903],
       device='cuda:1'), covar=tensor([0.0883, 0.2841, 0.2577, 0.1541, 0.1050, 0.2632, 0.2508, 0.0808],
       device='cuda:1'), in_proj_covar=tensor([0.0187, 0.0205, 0.0204, 0.0323, 0.0215, 0.0217, 0.0201, 0.0186],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0004, 0.0004, 0.0006, 0.0005, 0.0005, 0.0004, 0.0004],
       device='cuda:1')
2022-11-15 20:56:16,019 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.1165, 1.1213, 1.2347, 0.9009, 0.5654, 1.5976, 1.2095, 1.1582],
       device='cuda:1'), covar=tensor([0.0948, 0.0453, 0.0732, 0.1626, 0.1146, 0.0280, 0.1391, 0.1145],
       device='cuda:1'), in_proj_covar=tensor([0.0053, 0.0044, 0.0046, 0.0058, 0.0046, 0.0037, 0.0043, 0.0046],
       device='cuda:1'), out_proj_covar=tensor([1.0445e-04, 8.8945e-05, 9.3236e-05, 1.1718e-04, 9.6760e-05, 8.4040e-05,
        8.9520e-05, 9.3038e-05], device='cuda:1')
2022-11-15 20:56:23,604 INFO [train.py:876] (1/4) Epoch 6, batch 2500, loss[loss=0.1863, simple_loss=0.1982, pruned_loss=0.08717, over 5598.00 frames. ], tot_loss[loss=0.1663, simple_loss=0.1746, pruned_loss=0.07898, over 1082305.14 frames. ], batch size: 18, lr: 1.35e-02, grad_scale: 16.0
2022-11-15 20:56:39,546 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=38884.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 20:57:01,241 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.111e+02 1.730e+02 2.141e+02 2.666e+02 7.999e+02, threshold=4.283e+02, percent-clipped=2.0
2022-11-15 20:57:31,861 INFO [train.py:876] (1/4) Epoch 6, batch 2600, loss[loss=0.1315, simple_loss=0.1473, pruned_loss=0.05779, over 5780.00 frames. ], tot_loss[loss=0.1662, simple_loss=0.1747, pruned_loss=0.0789, over 1083005.48 frames. ], batch size: 16, lr: 1.35e-02, grad_scale: 16.0
2022-11-15 20:58:02,735 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.7147, 2.1290, 2.7224, 3.5579, 3.5720, 2.7655, 2.4734, 3.6755],
       device='cuda:1'), covar=tensor([0.0337, 0.3036, 0.2270, 0.3864, 0.0952, 0.2726, 0.2072, 0.0378],
       device='cuda:1'), in_proj_covar=tensor([0.0189, 0.0209, 0.0208, 0.0334, 0.0216, 0.0219, 0.0202, 0.0190],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0004, 0.0004, 0.0006, 0.0005, 0.0005, 0.0004, 0.0004],
       device='cuda:1')
2022-11-15 20:58:05,439 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([4.2543, 2.3805, 3.8054, 3.3033, 4.2592, 2.8191, 3.7224, 4.4579],
       device='cuda:1'), covar=tensor([0.0278, 0.1146, 0.0450, 0.1260, 0.0240, 0.1008, 0.0838, 0.0325],
       device='cuda:1'), in_proj_covar=tensor([0.0197, 0.0187, 0.0186, 0.0204, 0.0186, 0.0186, 0.0221, 0.0206],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0003, 0.0003, 0.0004, 0.0003, 0.0003, 0.0004, 0.0004],
       device='cuda:1')
2022-11-15 20:58:09,806 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.231e+02 1.750e+02 2.073e+02 2.691e+02 5.649e+02, threshold=4.146e+02, percent-clipped=5.0
2022-11-15 20:58:09,955 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=39016.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 20:58:40,660 INFO [train.py:876] (1/4) Epoch 6, batch 2700, loss[loss=0.1359, simple_loss=0.1598, pruned_loss=0.05593, over 5562.00 frames. ], tot_loss[loss=0.1638, simple_loss=0.1726, pruned_loss=0.07747, over 1076822.36 frames. ], batch size: 15, lr: 1.35e-02, grad_scale: 16.0
2022-11-15 20:58:42,652 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=39064.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 20:58:51,450 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([0.9289, 0.9346, 1.2160, 1.0547, 1.2096, 1.2689, 1.0073, 1.1365],
       device='cuda:1'), covar=tensor([0.0048, 0.0075, 0.0035, 0.0045, 0.0046, 0.0066, 0.0042, 0.0041],
       device='cuda:1'), in_proj_covar=tensor([0.0017, 0.0016, 0.0017, 0.0020, 0.0018, 0.0016, 0.0019, 0.0019],
       device='cuda:1'), out_proj_covar=tensor([1.7055e-05, 1.6732e-05, 1.6662e-05, 1.9995e-05, 1.7880e-05, 1.6922e-05,
        1.8558e-05, 2.0706e-05], device='cuda:1')
2022-11-15 20:59:01,920 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.0663, 4.8419, 3.5397, 1.9213, 4.4469, 2.2710, 4.6101, 2.2182],
       device='cuda:1'), covar=tensor([0.1147, 0.0086, 0.0474, 0.2287, 0.0160, 0.1562, 0.0131, 0.2015],
       device='cuda:1'), in_proj_covar=tensor([0.0127, 0.0102, 0.0110, 0.0119, 0.0103, 0.0131, 0.0094, 0.0121],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0003, 0.0004, 0.0004, 0.0003, 0.0004, 0.0003, 0.0004],
       device='cuda:1')
2022-11-15 20:59:15,364 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.8694, 2.2365, 2.9508, 3.5574, 3.8965, 2.9630, 2.3554, 3.9713],
       device='cuda:1'), covar=tensor([0.0472, 0.3513, 0.2229, 0.4166, 0.0837, 0.2986, 0.2338, 0.0401],
       device='cuda:1'), in_proj_covar=tensor([0.0190, 0.0209, 0.0207, 0.0327, 0.0215, 0.0216, 0.0202, 0.0188],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0004, 0.0004, 0.0006, 0.0005, 0.0005, 0.0004, 0.0004],
       device='cuda:1')
2022-11-15 20:59:18,425 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.170e+02 1.741e+02 2.185e+02 2.571e+02 4.809e+02, threshold=4.370e+02, percent-clipped=1.0
2022-11-15 20:59:35,758 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.29 vs. limit=2.0
2022-11-15 20:59:49,229 INFO [train.py:876] (1/4) Epoch 6, batch 2800, loss[loss=0.08641, simple_loss=0.1151, pruned_loss=0.02887, over 3922.00 frames. ], tot_loss[loss=0.1623, simple_loss=0.1718, pruned_loss=0.07644, over 1080906.37 frames. ], batch size: 4, lr: 1.35e-02, grad_scale: 16.0
2022-11-15 21:00:01,217 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=39179.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 21:00:02,882 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.43 vs. limit=2.0
2022-11-15 21:00:05,534 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=39185.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 21:00:14,158 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([4.4485, 5.0136, 4.3567, 5.0771, 5.0087, 4.3261, 4.4133, 4.1279],
       device='cuda:1'), covar=tensor([0.0195, 0.0349, 0.1360, 0.0314, 0.0373, 0.0339, 0.0651, 0.0786],
       device='cuda:1'), in_proj_covar=tensor([0.0113, 0.0146, 0.0231, 0.0144, 0.0177, 0.0150, 0.0157, 0.0141],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0004, 0.0002, 0.0003, 0.0002, 0.0002, 0.0002],
       device='cuda:1')
2022-11-15 21:00:27,552 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.069e+02 1.875e+02 2.211e+02 2.740e+02 7.049e+02, threshold=4.422e+02, percent-clipped=6.0
2022-11-15 21:00:33,888 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.8950, 2.4605, 2.9038, 3.6718, 3.8549, 2.9366, 2.5653, 3.8691],
       device='cuda:1'), covar=tensor([0.0477, 0.3310, 0.3190, 0.3360, 0.0967, 0.3283, 0.2486, 0.0427],
       device='cuda:1'), in_proj_covar=tensor([0.0192, 0.0208, 0.0207, 0.0331, 0.0218, 0.0217, 0.0204, 0.0190],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0004, 0.0004, 0.0006, 0.0005, 0.0005, 0.0004, 0.0004],
       device='cuda:1')
2022-11-15 21:00:47,918 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=39246.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 21:00:48,572 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.0202, 2.9916, 2.9788, 1.5301, 2.8605, 3.2452, 3.1781, 3.4938],
       device='cuda:1'), covar=tensor([0.2595, 0.1452, 0.1011, 0.3142, 0.0396, 0.0497, 0.0399, 0.0685],
       device='cuda:1'), in_proj_covar=tensor([0.0187, 0.0193, 0.0147, 0.0198, 0.0158, 0.0160, 0.0139, 0.0184],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
       device='cuda:1')
2022-11-15 21:00:49,477 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([4.5725, 4.3729, 4.3215, 4.3211, 4.7122, 4.5652, 4.1629, 4.6105],
       device='cuda:1'), covar=tensor([0.0768, 0.0634, 0.0924, 0.0868, 0.0768, 0.0406, 0.0646, 0.1206],
       device='cuda:1'), in_proj_covar=tensor([0.0105, 0.0114, 0.0086, 0.0115, 0.0122, 0.0074, 0.0099, 0.0111],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0002],
       device='cuda:1')
2022-11-15 21:00:55,450 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.3790, 1.1425, 1.7192, 1.1712, 1.5573, 1.4631, 1.3748, 1.3371],
       device='cuda:1'), covar=tensor([0.0027, 0.0043, 0.0018, 0.0026, 0.0029, 0.0059, 0.0023, 0.0049],
       device='cuda:1'), in_proj_covar=tensor([0.0017, 0.0015, 0.0017, 0.0020, 0.0018, 0.0016, 0.0018, 0.0019],
       device='cuda:1'), out_proj_covar=tensor([1.6781e-05, 1.6103e-05, 1.6803e-05, 1.9727e-05, 1.7930e-05, 1.7057e-05,
        1.8055e-05, 2.0737e-05], device='cuda:1')
2022-11-15 21:00:58,295 INFO [train.py:876] (1/4) Epoch 6, batch 2900, loss[loss=0.1123, simple_loss=0.1351, pruned_loss=0.04475, over 5473.00 frames. ], tot_loss[loss=0.1633, simple_loss=0.1723, pruned_loss=0.07712, over 1081729.68 frames. ], batch size: 10, lr: 1.35e-02, grad_scale: 16.0
2022-11-15 21:01:13,866 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=39284.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 21:01:36,727 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.430e+02 2.016e+02 2.489e+02 3.062e+02 5.776e+02, threshold=4.978e+02, percent-clipped=1.0
2022-11-15 21:01:55,765 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=39345.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 21:02:06,700 INFO [train.py:876] (1/4) Epoch 6, batch 3000, loss[loss=0.1857, simple_loss=0.1882, pruned_loss=0.09158, over 5591.00 frames. ], tot_loss[loss=0.166, simple_loss=0.1741, pruned_loss=0.07893, over 1083842.02 frames. ], batch size: 50, lr: 1.34e-02, grad_scale: 16.0
2022-11-15 21:02:06,700 INFO [train.py:899] (1/4) Computing validation loss
2022-11-15 21:02:17,045 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.7528, 3.3155, 3.7799, 3.3335, 3.6827, 3.2000, 1.3350, 3.7301],
       device='cuda:1'), covar=tensor([0.0293, 0.0437, 0.0174, 0.0241, 0.0323, 0.0374, 0.3573, 0.0315],
       device='cuda:1'), in_proj_covar=tensor([0.0098, 0.0076, 0.0077, 0.0068, 0.0091, 0.0080, 0.0129, 0.0099],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
       device='cuda:1')
2022-11-15 21:02:24,359 INFO [train.py:908] (1/4) Epoch 6, validation: loss=0.1626, simple_loss=0.1844, pruned_loss=0.07046, over 1530663.00 frames. 
2022-11-15 21:02:24,359 INFO [train.py:909] (1/4) Maximum memory allocated so far is 4664MB
2022-11-15 21:03:01,108 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.8816, 4.2720, 3.8091, 3.5052, 2.3885, 4.3346, 2.3284, 3.8023],
       device='cuda:1'), covar=tensor([0.0339, 0.0168, 0.0176, 0.0256, 0.0479, 0.0103, 0.0395, 0.0115],
       device='cuda:1'), in_proj_covar=tensor([0.0167, 0.0127, 0.0141, 0.0159, 0.0161, 0.0141, 0.0154, 0.0130],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0002, 0.0002, 0.0003, 0.0003, 0.0002, 0.0003, 0.0002],
       device='cuda:1')
2022-11-15 21:03:01,502 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.163e+02 1.785e+02 2.182e+02 2.915e+02 6.384e+02, threshold=4.364e+02, percent-clipped=3.0
2022-11-15 21:03:31,201 INFO [train.py:876] (1/4) Epoch 6, batch 3100, loss[loss=0.1798, simple_loss=0.178, pruned_loss=0.09078, over 5158.00 frames. ], tot_loss[loss=0.1639, simple_loss=0.1731, pruned_loss=0.07735, over 1090507.10 frames. ], batch size: 91, lr: 1.34e-02, grad_scale: 16.0
2022-11-15 21:03:33,040 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=39463.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 21:03:43,781 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=39479.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 21:04:00,979 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.5231, 1.4457, 1.6076, 1.1308, 1.5967, 1.3079, 1.5678, 1.2977],
       device='cuda:1'), covar=tensor([0.0056, 0.0062, 0.0052, 0.0026, 0.0060, 0.0091, 0.0020, 0.0049],
       device='cuda:1'), in_proj_covar=tensor([0.0017, 0.0015, 0.0017, 0.0019, 0.0018, 0.0017, 0.0018, 0.0019],
       device='cuda:1'), out_proj_covar=tensor([1.7000e-05, 1.5970e-05, 1.7123e-05, 1.9407e-05, 1.7630e-05, 1.7216e-05,
        1.8334e-05, 2.1108e-05], device='cuda:1')
2022-11-15 21:04:09,320 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.059e+02 1.769e+02 2.283e+02 2.689e+02 7.122e+02, threshold=4.567e+02, percent-clipped=2.0
2022-11-15 21:04:14,709 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=39524.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 21:04:16,933 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=39527.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 21:04:26,501 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=39541.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 21:04:40,020 INFO [train.py:876] (1/4) Epoch 6, batch 3200, loss[loss=0.223, simple_loss=0.2033, pruned_loss=0.1213, over 5262.00 frames. ], tot_loss[loss=0.1646, simple_loss=0.1734, pruned_loss=0.07786, over 1092534.79 frames. ], batch size: 79, lr: 1.34e-02, grad_scale: 16.0
2022-11-15 21:05:18,392 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.194e+02 1.784e+02 2.150e+02 2.757e+02 5.278e+02, threshold=4.299e+02, percent-clipped=1.0
2022-11-15 21:05:30,850 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.5151, 1.7287, 1.4164, 0.9199, 1.2159, 2.2036, 1.8699, 1.1413],
       device='cuda:1'), covar=tensor([0.0782, 0.0903, 0.0759, 0.2718, 0.2471, 0.0982, 0.1186, 0.1701],
       device='cuda:1'), in_proj_covar=tensor([0.0058, 0.0047, 0.0050, 0.0061, 0.0052, 0.0042, 0.0047, 0.0051],
       device='cuda:1'), out_proj_covar=tensor([1.1594e-04, 9.6519e-05, 1.0245e-04, 1.2585e-04, 1.0840e-04, 9.3029e-05,
        9.9283e-05, 1.0317e-04], device='cuda:1')
2022-11-15 21:05:33,687 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=39639.0, num_to_drop=1, layers_to_drop={0}
2022-11-15 21:05:34,266 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=39640.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 21:05:48,168 INFO [train.py:876] (1/4) Epoch 6, batch 3300, loss[loss=0.1714, simple_loss=0.1817, pruned_loss=0.08054, over 5585.00 frames. ], tot_loss[loss=0.1655, simple_loss=0.1741, pruned_loss=0.07851, over 1092821.79 frames. ], batch size: 25, lr: 1.34e-02, grad_scale: 16.0
2022-11-15 21:05:54,615 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.6276, 1.9262, 1.6803, 1.0936, 1.8949, 0.8067, 1.9053, 1.2129],
       device='cuda:1'), covar=tensor([0.0875, 0.0256, 0.0530, 0.1184, 0.0244, 0.1952, 0.0264, 0.1313],
       device='cuda:1'), in_proj_covar=tensor([0.0128, 0.0102, 0.0109, 0.0118, 0.0104, 0.0130, 0.0095, 0.0122],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0003, 0.0004, 0.0004, 0.0003, 0.0004, 0.0003, 0.0004],
       device='cuda:1')
2022-11-15 21:06:15,362 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=39700.0, num_to_drop=1, layers_to_drop={1}
2022-11-15 21:06:27,137 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.198e+02 1.777e+02 2.323e+02 2.808e+02 5.808e+02, threshold=4.646e+02, percent-clipped=1.0
2022-11-15 21:06:57,085 INFO [train.py:876] (1/4) Epoch 6, batch 3400, loss[loss=0.1605, simple_loss=0.1642, pruned_loss=0.07839, over 5283.00 frames. ], tot_loss[loss=0.1646, simple_loss=0.1734, pruned_loss=0.07789, over 1089333.29 frames. ], batch size: 79, lr: 1.34e-02, grad_scale: 16.0
2022-11-15 21:07:01,526 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=39767.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 21:07:16,633 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.7524, 4.3448, 3.6685, 3.3533, 2.5539, 4.2530, 2.2586, 3.5604],
       device='cuda:1'), covar=tensor([0.0355, 0.0102, 0.0145, 0.0359, 0.0402, 0.0084, 0.0387, 0.0105],
       device='cuda:1'), in_proj_covar=tensor([0.0168, 0.0132, 0.0143, 0.0163, 0.0165, 0.0142, 0.0157, 0.0130],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0002, 0.0002, 0.0003, 0.0003, 0.0002, 0.0003, 0.0002],
       device='cuda:1')
2022-11-15 21:07:27,564 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.8554, 2.7622, 2.2577, 2.5222, 1.5587, 2.2315, 1.6711, 2.5128],
       device='cuda:1'), covar=tensor([0.0862, 0.0179, 0.0622, 0.0301, 0.1077, 0.0666, 0.1280, 0.0271],
       device='cuda:1'), in_proj_covar=tensor([0.0178, 0.0132, 0.0172, 0.0137, 0.0166, 0.0183, 0.0180, 0.0142],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0002, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
       device='cuda:1')
2022-11-15 21:07:34,872 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=39815.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 21:07:36,023 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.067e+02 1.758e+02 2.190e+02 2.600e+02 4.839e+02, threshold=4.379e+02, percent-clipped=2.0
2022-11-15 21:07:37,419 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=39819.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 21:07:43,468 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=39828.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 21:07:52,336 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=39841.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 21:08:06,130 INFO [train.py:876] (1/4) Epoch 6, batch 3500, loss[loss=0.2064, simple_loss=0.2016, pruned_loss=0.1056, over 5570.00 frames. ], tot_loss[loss=0.1661, simple_loss=0.1746, pruned_loss=0.07876, over 1085356.48 frames. ], batch size: 43, lr: 1.34e-02, grad_scale: 16.0
2022-11-15 21:08:16,399 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=39876.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 21:08:24,879 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=39889.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 21:08:28,160 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.9155, 3.3072, 2.3651, 3.0632, 2.2594, 2.3837, 1.8059, 2.9916],
       device='cuda:1'), covar=tensor([0.1252, 0.0190, 0.0932, 0.0292, 0.0815, 0.0887, 0.1652, 0.0285],
       device='cuda:1'), in_proj_covar=tensor([0.0176, 0.0131, 0.0171, 0.0136, 0.0166, 0.0183, 0.0179, 0.0141],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0002, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
       device='cuda:1')
2022-11-15 21:08:33,984 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([4.3943, 3.9232, 4.2410, 3.9194, 4.4827, 4.2398, 3.9956, 4.3726],
       device='cuda:1'), covar=tensor([0.0362, 0.0327, 0.0402, 0.0298, 0.0357, 0.0231, 0.0301, 0.0369],
       device='cuda:1'), in_proj_covar=tensor([0.0108, 0.0114, 0.0086, 0.0117, 0.0123, 0.0075, 0.0102, 0.0115],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0002],
       device='cuda:1')
2022-11-15 21:08:43,941 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.235e+02 1.932e+02 2.210e+02 2.836e+02 6.294e+02, threshold=4.421e+02, percent-clipped=3.0
2022-11-15 21:08:59,709 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=39940.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 21:09:06,194 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.3143, 1.4659, 1.2312, 1.0210, 1.1750, 1.2696, 1.0158, 0.8708],
       device='cuda:1'), covar=tensor([0.0016, 0.0013, 0.0031, 0.0023, 0.0018, 0.0020, 0.0021, 0.0028],
       device='cuda:1'), in_proj_covar=tensor([0.0017, 0.0015, 0.0018, 0.0019, 0.0018, 0.0017, 0.0019, 0.0019],
       device='cuda:1'), out_proj_covar=tensor([1.6814e-05, 1.5871e-05, 1.7144e-05, 1.8872e-05, 1.7535e-05, 1.7535e-05,
        1.8568e-05, 2.0626e-05], device='cuda:1')
2022-11-15 21:09:14,037 INFO [train.py:876] (1/4) Epoch 6, batch 3600, loss[loss=0.1564, simple_loss=0.1638, pruned_loss=0.07455, over 5727.00 frames. ], tot_loss[loss=0.1664, simple_loss=0.1747, pruned_loss=0.07908, over 1085797.99 frames. ], batch size: 15, lr: 1.33e-02, grad_scale: 16.0
2022-11-15 21:09:32,386 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=39988.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 21:09:35,194 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=4.12 vs. limit=5.0
2022-11-15 21:09:36,964 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=39995.0, num_to_drop=1, layers_to_drop={2}
2022-11-15 21:09:52,645 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.1323, 2.5015, 2.7376, 2.5611, 1.6479, 2.6077, 1.7698, 1.8755],
       device='cuda:1'), covar=tensor([0.0192, 0.0073, 0.0076, 0.0109, 0.0214, 0.0071, 0.0217, 0.0105],
       device='cuda:1'), in_proj_covar=tensor([0.0166, 0.0130, 0.0144, 0.0160, 0.0162, 0.0142, 0.0156, 0.0130],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0002, 0.0002, 0.0003, 0.0003, 0.0002, 0.0003, 0.0002],
       device='cuda:1')
2022-11-15 21:09:55,016 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.137e+02 1.820e+02 2.295e+02 3.006e+02 4.723e+02, threshold=4.590e+02, percent-clipped=2.0
2022-11-15 21:10:23,931 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.3466, 0.7948, 1.1821, 0.9366, 1.3785, 1.0591, 0.6563, 1.0048],
       device='cuda:1'), covar=tensor([0.0869, 0.0909, 0.0649, 0.0947, 0.0544, 0.1093, 0.1706, 0.0998],
       device='cuda:1'), in_proj_covar=tensor([0.0009, 0.0013, 0.0009, 0.0011, 0.0010, 0.0009, 0.0012, 0.0009],
       device='cuda:1'), out_proj_covar=tensor([4.1799e-05, 5.4932e-05, 4.3024e-05, 4.9691e-05, 4.5402e-05, 4.2524e-05,
        5.0925e-05, 4.4768e-05], device='cuda:1')
2022-11-15 21:10:25,134 INFO [train.py:876] (1/4) Epoch 6, batch 3700, loss[loss=0.2007, simple_loss=0.1956, pruned_loss=0.1029, over 5164.00 frames. ], tot_loss[loss=0.166, simple_loss=0.1747, pruned_loss=0.07871, over 1082969.80 frames. ], batch size: 91, lr: 1.33e-02, grad_scale: 16.0
2022-11-15 21:11:03,523 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.059e+02 1.767e+02 2.199e+02 2.713e+02 5.676e+02, threshold=4.399e+02, percent-clipped=2.0
2022-11-15 21:11:04,981 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=40119.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 21:11:07,570 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=40123.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 21:11:33,225 INFO [train.py:876] (1/4) Epoch 6, batch 3800, loss[loss=0.2189, simple_loss=0.2062, pruned_loss=0.1158, over 5706.00 frames. ], tot_loss[loss=0.1656, simple_loss=0.1746, pruned_loss=0.07829, over 1086434.65 frames. ], batch size: 36, lr: 1.33e-02, grad_scale: 16.0
2022-11-15 21:11:37,517 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=40167.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 21:11:40,240 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=40171.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 21:11:57,149 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=40195.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 21:12:11,859 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.095e+02 1.630e+02 2.050e+02 2.494e+02 4.190e+02, threshold=4.099e+02, percent-clipped=0.0
2022-11-15 21:12:13,029 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=40218.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 21:12:39,060 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=40256.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 21:12:42,144 INFO [train.py:876] (1/4) Epoch 6, batch 3900, loss[loss=0.2111, simple_loss=0.1979, pruned_loss=0.1121, over 5376.00 frames. ], tot_loss[loss=0.1665, simple_loss=0.1751, pruned_loss=0.07892, over 1089670.43 frames. ], batch size: 70, lr: 1.33e-02, grad_scale: 16.0
2022-11-15 21:12:49,550 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=40272.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 21:12:54,516 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=40279.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 21:13:03,984 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.7165, 1.8031, 1.6632, 2.1446, 1.5481, 1.5229, 1.6818, 1.9604],
       device='cuda:1'), covar=tensor([0.1509, 0.1649, 0.1970, 0.0903, 0.1675, 0.2233, 0.1858, 0.0731],
       device='cuda:1'), in_proj_covar=tensor([0.0067, 0.0073, 0.0087, 0.0062, 0.0071, 0.0065, 0.0079, 0.0057],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
       device='cuda:1')
2022-11-15 21:13:05,286 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=40295.0, num_to_drop=1, layers_to_drop={2}
2022-11-15 21:13:06,215 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=4.71 vs. limit=5.0
2022-11-15 21:13:17,410 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=4.68 vs. limit=5.0
2022-11-15 21:13:20,314 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.159e+02 1.970e+02 2.299e+02 2.764e+02 4.240e+02, threshold=4.598e+02, percent-clipped=2.0
2022-11-15 21:13:21,766 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([5.4725, 4.9137, 5.2817, 5.0585, 5.5707, 5.5263, 4.8141, 5.4837],
       device='cuda:1'), covar=tensor([0.0291, 0.0249, 0.0400, 0.0218, 0.0248, 0.0072, 0.0184, 0.0196],
       device='cuda:1'), in_proj_covar=tensor([0.0108, 0.0117, 0.0089, 0.0119, 0.0126, 0.0075, 0.0102, 0.0116],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0002],
       device='cuda:1')
2022-11-15 21:13:28,945 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=40330.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 21:13:31,211 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=40333.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 21:13:37,590 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=40343.0, num_to_drop=1, layers_to_drop={0}
2022-11-15 21:13:44,423 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.3182, 1.5543, 1.4855, 1.7746, 1.2574, 1.3829, 1.4197, 1.4577],
       device='cuda:1'), covar=tensor([0.2441, 0.2302, 0.2684, 0.1288, 0.2974, 0.2438, 0.2705, 0.1051],
       device='cuda:1'), in_proj_covar=tensor([0.0069, 0.0074, 0.0089, 0.0063, 0.0073, 0.0066, 0.0081, 0.0059],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
       device='cuda:1')
2022-11-15 21:13:47,931 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.93 vs. limit=2.0
2022-11-15 21:13:49,826 INFO [train.py:876] (1/4) Epoch 6, batch 4000, loss[loss=0.1165, simple_loss=0.1444, pruned_loss=0.04434, over 5745.00 frames. ], tot_loss[loss=0.1646, simple_loss=0.1738, pruned_loss=0.07771, over 1089463.80 frames. ], batch size: 14, lr: 1.33e-02, grad_scale: 16.0
2022-11-15 21:14:10,424 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=40391.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 21:14:28,143 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.247e+02 1.803e+02 2.226e+02 2.834e+02 5.770e+02, threshold=4.452e+02, percent-clipped=4.0
2022-11-15 21:14:32,577 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=40423.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 21:14:54,238 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.0363, 2.1901, 1.9113, 2.2247, 1.9015, 1.7776, 1.9574, 2.4224],
       device='cuda:1'), covar=tensor([0.1076, 0.1571, 0.2747, 0.0990, 0.1924, 0.1606, 0.1887, 0.2580],
       device='cuda:1'), in_proj_covar=tensor([0.0068, 0.0074, 0.0089, 0.0063, 0.0072, 0.0066, 0.0081, 0.0057],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
       device='cuda:1')
2022-11-15 21:14:58,064 INFO [train.py:876] (1/4) Epoch 6, batch 4100, loss[loss=0.1774, simple_loss=0.1853, pruned_loss=0.08479, over 5585.00 frames. ], tot_loss[loss=0.1633, simple_loss=0.1727, pruned_loss=0.07695, over 1089234.77 frames. ], batch size: 24, lr: 1.33e-02, grad_scale: 16.0
2022-11-15 21:15:04,545 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=40471.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 21:15:04,626 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=40471.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 21:15:10,587 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.5176, 2.0074, 2.1801, 2.6349, 2.7238, 2.2417, 1.7120, 3.0153],
       device='cuda:1'), covar=tensor([0.0878, 0.2038, 0.1621, 0.1213, 0.0682, 0.1871, 0.1931, 0.0430],
       device='cuda:1'), in_proj_covar=tensor([0.0195, 0.0211, 0.0203, 0.0320, 0.0219, 0.0216, 0.0197, 0.0188],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0004, 0.0004, 0.0006, 0.0005, 0.0005, 0.0004, 0.0004],
       device='cuda:1')
2022-11-15 21:15:19,099 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=40492.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 21:15:36,004 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.131e+02 1.881e+02 2.239e+02 2.711e+02 4.699e+02, threshold=4.478e+02, percent-clipped=1.0
2022-11-15 21:15:37,058 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.91 vs. limit=2.0
2022-11-15 21:15:37,404 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=40519.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 21:15:59,201 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=40551.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 21:16:00,604 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=40553.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 21:16:05,971 INFO [train.py:876] (1/4) Epoch 6, batch 4200, loss[loss=0.1396, simple_loss=0.1592, pruned_loss=0.05998, over 5518.00 frames. ], tot_loss[loss=0.162, simple_loss=0.1717, pruned_loss=0.07619, over 1083336.01 frames. ], batch size: 17, lr: 1.32e-02, grad_scale: 16.0
2022-11-15 21:16:14,943 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=40574.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 21:16:30,601 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=5.71 vs. limit=5.0
2022-11-15 21:16:44,495 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.208e+02 1.657e+02 2.106e+02 2.806e+02 4.425e+02, threshold=4.213e+02, percent-clipped=0.0
2022-11-15 21:16:52,157 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=40628.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 21:17:08,264 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=40651.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 21:17:14,809 INFO [train.py:876] (1/4) Epoch 6, batch 4300, loss[loss=0.2676, simple_loss=0.2201, pruned_loss=0.1575, over 3037.00 frames. ], tot_loss[loss=0.1609, simple_loss=0.1718, pruned_loss=0.07503, over 1080785.16 frames. ], batch size: 284, lr: 1.32e-02, grad_scale: 16.0
2022-11-15 21:17:32,058 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=40686.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 21:17:49,660 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=40712.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 21:17:52,814 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 9.535e+01 1.873e+02 2.249e+02 2.828e+02 5.659e+02, threshold=4.498e+02, percent-clipped=5.0
2022-11-15 21:18:23,387 INFO [train.py:876] (1/4) Epoch 6, batch 4400, loss[loss=0.264, simple_loss=0.2375, pruned_loss=0.1453, over 5489.00 frames. ], tot_loss[loss=0.1602, simple_loss=0.1715, pruned_loss=0.07446, over 1079842.12 frames. ], batch size: 64, lr: 1.32e-02, grad_scale: 16.0
2022-11-15 21:19:01,939 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.034e+02 1.711e+02 2.029e+02 2.549e+02 3.838e+02, threshold=4.057e+02, percent-clipped=0.0
2022-11-15 21:19:11,215 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=2.00 vs. limit=2.0
2022-11-15 21:19:20,413 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.7288, 4.0544, 3.7653, 3.9212, 3.9709, 4.0033, 1.4179, 4.0345],
       device='cuda:1'), covar=tensor([0.0548, 0.0509, 0.0549, 0.0312, 0.0497, 0.0673, 0.3959, 0.0541],
       device='cuda:1'), in_proj_covar=tensor([0.0098, 0.0078, 0.0078, 0.0068, 0.0091, 0.0079, 0.0125, 0.0099],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0001, 0.0002, 0.0002, 0.0003, 0.0002],
       device='cuda:1')
2022-11-15 21:19:23,027 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=40848.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 21:19:24,982 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=40851.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 21:19:32,350 INFO [train.py:876] (1/4) Epoch 6, batch 4500, loss[loss=0.1615, simple_loss=0.1789, pruned_loss=0.0721, over 5587.00 frames. ], tot_loss[loss=0.1633, simple_loss=0.1736, pruned_loss=0.07654, over 1077141.67 frames. ], batch size: 22, lr: 1.32e-02, grad_scale: 16.0
2022-11-15 21:19:35,157 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=40865.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 21:19:41,104 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=40874.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 21:19:58,075 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=40899.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 21:19:58,863 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=40900.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 21:20:10,192 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.352e+02 1.848e+02 2.167e+02 2.574e+02 4.684e+02, threshold=4.333e+02, percent-clipped=2.0
2022-11-15 21:20:13,541 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=40922.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 21:20:16,358 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=40926.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 21:20:17,593 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=40928.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 21:20:39,753 INFO [train.py:876] (1/4) Epoch 6, batch 4600, loss[loss=0.1507, simple_loss=0.1705, pruned_loss=0.0655, over 5802.00 frames. ], tot_loss[loss=0.164, simple_loss=0.1739, pruned_loss=0.07704, over 1077178.60 frames. ], batch size: 22, lr: 1.32e-02, grad_scale: 16.0
2022-11-15 21:20:39,929 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=40961.0, num_to_drop=1, layers_to_drop={1}
2022-11-15 21:20:50,074 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=40976.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 21:20:56,729 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=40986.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 21:21:04,225 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=40997.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 21:21:04,992 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.8567, 1.9876, 3.3192, 2.8359, 3.8324, 2.1721, 3.1747, 3.8388],
       device='cuda:1'), covar=tensor([0.0414, 0.1644, 0.0654, 0.1546, 0.0309, 0.1457, 0.1056, 0.0551],
       device='cuda:1'), in_proj_covar=tensor([0.0206, 0.0188, 0.0189, 0.0206, 0.0190, 0.0187, 0.0223, 0.0209],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0003, 0.0003, 0.0004, 0.0004, 0.0003, 0.0004, 0.0004],
       device='cuda:1')
2022-11-15 21:21:11,463 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=41007.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 21:21:17,997 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.184e+02 1.825e+02 2.193e+02 2.554e+02 5.272e+02, threshold=4.385e+02, percent-clipped=4.0
2022-11-15 21:21:27,108 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.9724, 2.9316, 3.1915, 1.4667, 3.0609, 3.5632, 3.4127, 3.3698],
       device='cuda:1'), covar=tensor([0.2991, 0.2130, 0.0904, 0.3471, 0.0586, 0.0463, 0.0423, 0.0971],
       device='cuda:1'), in_proj_covar=tensor([0.0186, 0.0193, 0.0150, 0.0197, 0.0165, 0.0165, 0.0142, 0.0181],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
       device='cuda:1')
2022-11-15 21:21:29,541 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=41034.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 21:21:36,931 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=41045.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 21:21:41,852 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.0437, 1.6963, 2.1015, 1.2978, 1.3435, 2.4795, 1.7591, 1.9142],
       device='cuda:1'), covar=tensor([0.0464, 0.0731, 0.0585, 0.1830, 0.3139, 0.1289, 0.1874, 0.0502],
       device='cuda:1'), in_proj_covar=tensor([0.0057, 0.0045, 0.0048, 0.0061, 0.0051, 0.0040, 0.0045, 0.0050],
       device='cuda:1'), out_proj_covar=tensor([1.1486e-04, 9.5417e-05, 9.9301e-05, 1.2547e-04, 1.0861e-04, 9.1299e-05,
        9.6898e-05, 1.0236e-04], device='cuda:1')
2022-11-15 21:21:45,914 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=41058.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 21:21:48,093 INFO [train.py:876] (1/4) Epoch 6, batch 4700, loss[loss=0.1514, simple_loss=0.1642, pruned_loss=0.06936, over 5603.00 frames. ], tot_loss[loss=0.1613, simple_loss=0.1722, pruned_loss=0.0752, over 1086790.39 frames. ], batch size: 24, lr: 1.32e-02, grad_scale: 16.0
2022-11-15 21:22:16,159 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=41102.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 21:22:18,828 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=41106.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 21:22:26,238 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 9.964e+01 1.808e+02 2.339e+02 2.942e+02 4.729e+02, threshold=4.678e+02, percent-clipped=2.0
2022-11-15 21:22:44,722 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=1.87 vs. limit=2.0
2022-11-15 21:22:45,552 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.25 vs. limit=2.0
2022-11-15 21:22:47,066 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=41148.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 21:22:56,341 INFO [train.py:876] (1/4) Epoch 6, batch 4800, loss[loss=0.1278, simple_loss=0.1375, pruned_loss=0.05899, over 5448.00 frames. ], tot_loss[loss=0.1636, simple_loss=0.173, pruned_loss=0.07713, over 1078007.01 frames. ], batch size: 11, lr: 1.31e-02, grad_scale: 16.0
2022-11-15 21:22:57,799 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=41163.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 21:23:19,852 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=41196.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 21:23:21,840 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.0217, 1.5240, 1.3801, 0.7795, 1.1345, 1.2803, 0.9674, 0.8461],
       device='cuda:1'), covar=tensor([0.0017, 0.0016, 0.0022, 0.0027, 0.0023, 0.0020, 0.0022, 0.0027],
       device='cuda:1'), in_proj_covar=tensor([0.0019, 0.0018, 0.0019, 0.0021, 0.0019, 0.0018, 0.0021, 0.0021],
       device='cuda:1'), out_proj_covar=tensor([1.8284e-05, 1.7865e-05, 1.8827e-05, 2.1319e-05, 1.8761e-05, 1.8661e-05,
        2.0803e-05, 2.2541e-05], device='cuda:1')
2022-11-15 21:23:35,272 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.017e+02 1.896e+02 2.366e+02 3.104e+02 6.971e+02, threshold=4.733e+02, percent-clipped=2.0
2022-11-15 21:23:37,410 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=41221.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 21:24:00,965 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=41256.0, num_to_drop=1, layers_to_drop={0}
2022-11-15 21:24:01,587 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.8947, 2.8457, 2.4581, 2.8035, 2.8312, 2.5006, 2.3837, 2.5785],
       device='cuda:1'), covar=tensor([0.0283, 0.0663, 0.1817, 0.0575, 0.0652, 0.0569, 0.0998, 0.0618],
       device='cuda:1'), in_proj_covar=tensor([0.0114, 0.0153, 0.0241, 0.0148, 0.0182, 0.0154, 0.0163, 0.0148],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0004, 0.0002, 0.0003, 0.0002, 0.0002, 0.0002],
       device='cuda:1')
2022-11-15 21:24:04,477 INFO [train.py:876] (1/4) Epoch 6, batch 4900, loss[loss=0.1387, simple_loss=0.168, pruned_loss=0.05471, over 5568.00 frames. ], tot_loss[loss=0.1633, simple_loss=0.1727, pruned_loss=0.07698, over 1074628.27 frames. ], batch size: 16, lr: 1.31e-02, grad_scale: 16.0
2022-11-15 21:24:09,806 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=1.78 vs. limit=2.0
2022-11-15 21:24:35,576 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=41307.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 21:24:43,023 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.121e+02 1.647e+02 1.947e+02 2.444e+02 4.412e+02, threshold=3.894e+02, percent-clipped=0.0
2022-11-15 21:25:01,113 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=1.97 vs. limit=2.0
2022-11-15 21:25:07,251 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=41353.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 21:25:08,583 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=41355.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 21:25:10,719 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=1.94 vs. limit=2.0
2022-11-15 21:25:12,444 INFO [train.py:876] (1/4) Epoch 6, batch 5000, loss[loss=0.1127, simple_loss=0.1394, pruned_loss=0.04293, over 5445.00 frames. ], tot_loss[loss=0.1598, simple_loss=0.1706, pruned_loss=0.07449, over 1080699.67 frames. ], batch size: 11, lr: 1.31e-02, grad_scale: 16.0
2022-11-15 21:25:39,898 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=41401.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 21:25:51,843 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.095e+02 1.916e+02 2.252e+02 2.845e+02 5.364e+02, threshold=4.504e+02, percent-clipped=7.0
2022-11-15 21:26:08,820 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=4.91 vs. limit=5.0
2022-11-15 21:26:18,841 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=41458.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 21:26:20,687 INFO [train.py:876] (1/4) Epoch 6, batch 5100, loss[loss=0.1668, simple_loss=0.1823, pruned_loss=0.07567, over 5746.00 frames. ], tot_loss[loss=0.1599, simple_loss=0.1709, pruned_loss=0.07444, over 1084583.81 frames. ], batch size: 16, lr: 1.31e-02, grad_scale: 16.0
2022-11-15 21:26:23,554 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=2.30 vs. limit=2.0
2022-11-15 21:26:59,644 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.110e+02 1.689e+02 2.100e+02 2.600e+02 5.796e+02, threshold=4.200e+02, percent-clipped=2.0
2022-11-15 21:27:02,069 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=41521.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 21:27:11,977 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.6105, 2.8936, 2.2169, 3.0985, 2.0313, 2.9212, 2.4515, 3.6717],
       device='cuda:1'), covar=tensor([0.0931, 0.1116, 0.3126, 0.0677, 0.1799, 0.1081, 0.1734, 0.1277],
       device='cuda:1'), in_proj_covar=tensor([0.0068, 0.0072, 0.0087, 0.0063, 0.0070, 0.0066, 0.0079, 0.0056],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
       device='cuda:1')
2022-11-15 21:27:25,838 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=41556.0, num_to_drop=1, layers_to_drop={2}
2022-11-15 21:27:27,920 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.4461, 4.0744, 3.4047, 3.5145, 2.0927, 3.8039, 2.1861, 3.1054],
       device='cuda:1'), covar=tensor([0.0417, 0.0158, 0.0223, 0.0323, 0.0475, 0.0134, 0.0417, 0.0140],
       device='cuda:1'), in_proj_covar=tensor([0.0171, 0.0135, 0.0151, 0.0167, 0.0169, 0.0148, 0.0163, 0.0137],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0002, 0.0002, 0.0003, 0.0003, 0.0003, 0.0003, 0.0002],
       device='cuda:1')
2022-11-15 21:27:28,986 INFO [train.py:876] (1/4) Epoch 6, batch 5200, loss[loss=0.1434, simple_loss=0.1662, pruned_loss=0.06037, over 5712.00 frames. ], tot_loss[loss=0.1611, simple_loss=0.1714, pruned_loss=0.07541, over 1081521.40 frames. ], batch size: 17, lr: 1.31e-02, grad_scale: 16.0
2022-11-15 21:27:34,214 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=41569.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 21:27:53,632 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.5803, 4.7211, 3.1219, 4.4702, 3.3193, 3.1992, 2.6314, 3.9589],
       device='cuda:1'), covar=tensor([0.1576, 0.0128, 0.1071, 0.0248, 0.0631, 0.1036, 0.1920, 0.0220],
       device='cuda:1'), in_proj_covar=tensor([0.0176, 0.0134, 0.0172, 0.0140, 0.0173, 0.0184, 0.0182, 0.0144],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0004, 0.0003, 0.0003],
       device='cuda:1')
2022-11-15 21:27:58,401 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=41604.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 21:28:08,059 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.086e+02 1.794e+02 2.245e+02 2.810e+02 6.868e+02, threshold=4.491e+02, percent-clipped=3.0
2022-11-15 21:28:14,204 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([4.4465, 4.9496, 4.4653, 5.0668, 5.0144, 4.0441, 4.5199, 4.1113],
       device='cuda:1'), covar=tensor([0.0225, 0.0438, 0.1437, 0.0383, 0.0460, 0.0552, 0.0586, 0.0742],
       device='cuda:1'), in_proj_covar=tensor([0.0117, 0.0156, 0.0243, 0.0149, 0.0188, 0.0157, 0.0165, 0.0152],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0003, 0.0004, 0.0002, 0.0003, 0.0002, 0.0002, 0.0002],
       device='cuda:1')
2022-11-15 21:28:20,144 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([4.2184, 4.6165, 4.1077, 4.7095, 4.6819, 3.8421, 4.4068, 3.8413],
       device='cuda:1'), covar=tensor([0.0252, 0.0445, 0.1350, 0.0337, 0.0451, 0.0508, 0.0212, 0.0574],
       device='cuda:1'), in_proj_covar=tensor([0.0118, 0.0156, 0.0243, 0.0149, 0.0189, 0.0157, 0.0165, 0.0152],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0003, 0.0004, 0.0002, 0.0003, 0.0002, 0.0002, 0.0002],
       device='cuda:1')
2022-11-15 21:28:24,478 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=4.82 vs. limit=5.0
2022-11-15 21:28:32,309 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=41653.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 21:28:33,020 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=41654.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 21:28:37,522 INFO [train.py:876] (1/4) Epoch 6, batch 5300, loss[loss=0.1506, simple_loss=0.1661, pruned_loss=0.06755, over 5453.00 frames. ], tot_loss[loss=0.1631, simple_loss=0.1726, pruned_loss=0.07685, over 1077049.95 frames. ], batch size: 11, lr: 1.31e-02, grad_scale: 16.0
2022-11-15 21:28:39,897 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=1.90 vs. limit=2.0
2022-11-15 21:29:05,163 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=41701.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 21:29:05,237 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=41701.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 21:29:15,013 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=41715.0, num_to_drop=1, layers_to_drop={0}
2022-11-15 21:29:16,828 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.330e+02 1.882e+02 2.155e+02 2.589e+02 5.849e+02, threshold=4.310e+02, percent-clipped=2.0
2022-11-15 21:29:18,508 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=3.68 vs. limit=5.0
2022-11-15 21:29:38,513 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=41749.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 21:29:44,843 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=41758.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 21:29:46,714 INFO [train.py:876] (1/4) Epoch 6, batch 5400, loss[loss=0.2069, simple_loss=0.2041, pruned_loss=0.1048, over 5424.00 frames. ], tot_loss[loss=0.1638, simple_loss=0.1735, pruned_loss=0.07706, over 1085898.85 frames. ], batch size: 58, lr: 1.31e-02, grad_scale: 16.0
2022-11-15 21:29:58,203 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.0694, 1.8325, 2.1484, 1.1212, 0.8899, 2.3626, 2.0406, 1.2435],
       device='cuda:1'), covar=tensor([0.0560, 0.0666, 0.0506, 0.2270, 0.1838, 0.2982, 0.0626, 0.0894],
       device='cuda:1'), in_proj_covar=tensor([0.0056, 0.0045, 0.0049, 0.0060, 0.0051, 0.0040, 0.0044, 0.0050],
       device='cuda:1'), out_proj_covar=tensor([1.1370e-04, 9.4243e-05, 1.0056e-04, 1.2462e-04, 1.0790e-04, 9.0493e-05,
        9.5985e-05, 1.0297e-04], device='cuda:1')
2022-11-15 21:30:02,200 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.9668, 1.8428, 2.6556, 2.4260, 2.4539, 1.7095, 2.4202, 2.8174],
       device='cuda:1'), covar=tensor([0.0341, 0.1047, 0.0499, 0.0842, 0.0543, 0.1005, 0.0760, 0.0599],
       device='cuda:1'), in_proj_covar=tensor([0.0211, 0.0193, 0.0194, 0.0208, 0.0196, 0.0187, 0.0230, 0.0214],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004],
       device='cuda:1')
2022-11-15 21:30:17,680 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=41806.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 21:30:24,194 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.7960, 4.1503, 3.6252, 4.1212, 4.0751, 3.4093, 3.7185, 3.5090],
       device='cuda:1'), covar=tensor([0.0473, 0.0462, 0.1647, 0.0499, 0.0535, 0.0529, 0.0649, 0.0945],
       device='cuda:1'), in_proj_covar=tensor([0.0116, 0.0158, 0.0245, 0.0150, 0.0187, 0.0158, 0.0166, 0.0153],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0003, 0.0004, 0.0002, 0.0003, 0.0002, 0.0002, 0.0002],
       device='cuda:1')
2022-11-15 21:30:26,061 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.040e+02 1.844e+02 2.196e+02 2.605e+02 6.100e+02, threshold=4.391e+02, percent-clipped=2.0
2022-11-15 21:30:55,102 INFO [train.py:876] (1/4) Epoch 6, batch 5500, loss[loss=0.2726, simple_loss=0.2454, pruned_loss=0.15, over 5456.00 frames. ], tot_loss[loss=0.162, simple_loss=0.1727, pruned_loss=0.07567, over 1088305.71 frames. ], batch size: 64, lr: 1.30e-02, grad_scale: 16.0
2022-11-15 21:31:12,199 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.35 vs. limit=2.0
2022-11-15 21:31:21,488 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.7880, 1.4727, 1.5349, 1.4148, 1.6121, 1.4123, 1.3725, 1.4161],
       device='cuda:1'), covar=tensor([0.0026, 0.0063, 0.0053, 0.0023, 0.0034, 0.0061, 0.0020, 0.0039],
       device='cuda:1'), in_proj_covar=tensor([0.0018, 0.0017, 0.0018, 0.0020, 0.0018, 0.0018, 0.0019, 0.0020],
       device='cuda:1'), out_proj_covar=tensor([1.7726e-05, 1.6720e-05, 1.7858e-05, 2.0012e-05, 1.7607e-05, 1.8088e-05,
        1.8891e-05, 2.1198e-05], device='cuda:1')
2022-11-15 21:31:25,967 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=41906.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 21:31:33,899 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.068e+02 1.786e+02 2.219e+02 2.876e+02 6.539e+02, threshold=4.438e+02, percent-clipped=3.0
2022-11-15 21:31:54,697 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=41948.0, num_to_drop=1, layers_to_drop={1}
2022-11-15 21:31:55,530 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.42 vs. limit=2.0
2022-11-15 21:32:03,399 INFO [train.py:876] (1/4) Epoch 6, batch 5600, loss[loss=0.1494, simple_loss=0.1588, pruned_loss=0.07007, over 5692.00 frames. ], tot_loss[loss=0.1624, simple_loss=0.1726, pruned_loss=0.07611, over 1085143.05 frames. ], batch size: 34, lr: 1.30e-02, grad_scale: 16.0
2022-11-15 21:32:07,836 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=41967.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 21:32:21,858 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.2017, 5.0703, 3.7051, 2.0701, 4.8745, 2.3363, 4.7859, 2.9383],
       device='cuda:1'), covar=tensor([0.1135, 0.0141, 0.0517, 0.2358, 0.0118, 0.1652, 0.0147, 0.1538],
       device='cuda:1'), in_proj_covar=tensor([0.0128, 0.0100, 0.0112, 0.0117, 0.0105, 0.0127, 0.0095, 0.0118],
       device='cuda:1'), out_proj_covar=tensor([0.0005, 0.0003, 0.0004, 0.0004, 0.0003, 0.0004, 0.0003, 0.0004],
       device='cuda:1')
2022-11-15 21:32:36,391 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=42009.0, num_to_drop=1, layers_to_drop={0}
2022-11-15 21:32:36,938 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=42010.0, num_to_drop=1, layers_to_drop={0}
2022-11-15 21:32:42,424 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.145e+02 1.893e+02 2.253e+02 2.739e+02 4.723e+02, threshold=4.505e+02, percent-clipped=2.0
2022-11-15 21:32:45,017 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.0168, 1.1385, 1.4711, 0.5857, 0.9680, 1.1660, 1.0782, 1.2998],
       device='cuda:1'), covar=tensor([0.0037, 0.0035, 0.0028, 0.0042, 0.0038, 0.0023, 0.0032, 0.0060],
       device='cuda:1'), in_proj_covar=tensor([0.0035, 0.0031, 0.0034, 0.0034, 0.0032, 0.0030, 0.0034, 0.0028],
       device='cuda:1'), out_proj_covar=tensor([3.3322e-05, 3.0964e-05, 3.0641e-05, 3.1258e-05, 2.8752e-05, 2.5391e-05,
        3.4553e-05, 2.5366e-05], device='cuda:1')
2022-11-15 21:32:49,018 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([0.6241, 0.8404, 0.6751, 0.6151, 0.8291, 1.0400, 0.3264, 1.0845],
       device='cuda:1'), covar=tensor([0.0038, 0.0016, 0.0027, 0.0022, 0.0024, 0.0024, 0.0063, 0.0019],
       device='cuda:1'), in_proj_covar=tensor([0.0035, 0.0032, 0.0034, 0.0034, 0.0032, 0.0030, 0.0034, 0.0028],
       device='cuda:1'), out_proj_covar=tensor([3.3329e-05, 3.1051e-05, 3.0646e-05, 3.1235e-05, 2.8786e-05, 2.5444e-05,
        3.4545e-05, 2.5359e-05], device='cuda:1')
2022-11-15 21:32:52,069 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.9272, 2.0032, 3.3204, 2.9503, 3.8559, 2.2567, 3.2831, 3.9876],
       device='cuda:1'), covar=tensor([0.0373, 0.1812, 0.0956, 0.1474, 0.0406, 0.1516, 0.1105, 0.0601],
       device='cuda:1'), in_proj_covar=tensor([0.0211, 0.0190, 0.0191, 0.0210, 0.0195, 0.0187, 0.0228, 0.0213],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004],
       device='cuda:1')
2022-11-15 21:33:11,599 INFO [train.py:876] (1/4) Epoch 6, batch 5700, loss[loss=0.1377, simple_loss=0.1606, pruned_loss=0.05739, over 5500.00 frames. ], tot_loss[loss=0.1588, simple_loss=0.1702, pruned_loss=0.07367, over 1087171.43 frames. ], batch size: 17, lr: 1.30e-02, grad_scale: 16.0
2022-11-15 21:33:18,643 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.8425, 4.0043, 3.7314, 3.6838, 3.9475, 3.6471, 1.4471, 4.0011],
       device='cuda:1'), covar=tensor([0.0288, 0.0261, 0.0288, 0.0242, 0.0298, 0.0391, 0.3259, 0.0306],
       device='cuda:1'), in_proj_covar=tensor([0.0100, 0.0076, 0.0078, 0.0070, 0.0093, 0.0080, 0.0129, 0.0100],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
       device='cuda:1')
2022-11-15 21:33:33,883 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([4.7232, 4.6489, 4.5059, 4.1643, 4.8783, 4.1122, 2.1720, 4.9935],
       device='cuda:1'), covar=tensor([0.0244, 0.0268, 0.0277, 0.0307, 0.0282, 0.0435, 0.2529, 0.0299],
       device='cuda:1'), in_proj_covar=tensor([0.0099, 0.0075, 0.0077, 0.0069, 0.0092, 0.0079, 0.0128, 0.0099],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
       device='cuda:1')
2022-11-15 21:33:38,904 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=2.13 vs. limit=2.0
2022-11-15 21:33:51,625 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.009e+02 1.803e+02 2.125e+02 2.518e+02 5.093e+02, threshold=4.250e+02, percent-clipped=1.0
2022-11-15 21:34:04,170 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=4.34 vs. limit=5.0
2022-11-15 21:34:16,737 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=1.97 vs. limit=2.0
2022-11-15 21:34:20,851 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=3.98 vs. limit=5.0
2022-11-15 21:34:23,228 INFO [train.py:876] (1/4) Epoch 6, batch 5800, loss[loss=0.1171, simple_loss=0.1435, pruned_loss=0.04539, over 5543.00 frames. ], tot_loss[loss=0.16, simple_loss=0.1706, pruned_loss=0.07472, over 1083823.27 frames. ], batch size: 13, lr: 1.30e-02, grad_scale: 16.0
2022-11-15 21:34:53,815 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.42 vs. limit=2.0
2022-11-15 21:35:01,870 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.108e+02 1.784e+02 2.140e+02 2.674e+02 6.368e+02, threshold=4.280e+02, percent-clipped=2.0
2022-11-15 21:35:31,646 INFO [train.py:876] (1/4) Epoch 6, batch 5900, loss[loss=0.1438, simple_loss=0.1706, pruned_loss=0.05849, over 5477.00 frames. ], tot_loss[loss=0.1598, simple_loss=0.1705, pruned_loss=0.07461, over 1087658.07 frames. ], batch size: 17, lr: 1.30e-02, grad_scale: 16.0
2022-11-15 21:35:32,376 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=42262.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 21:36:00,790 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=42304.0, num_to_drop=1, layers_to_drop={0}
2022-11-15 21:36:05,187 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=42310.0, num_to_drop=1, layers_to_drop={2}
2022-11-15 21:36:10,905 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.198e+02 1.865e+02 2.230e+02 2.875e+02 6.515e+02, threshold=4.459e+02, percent-clipped=7.0
2022-11-15 21:36:37,638 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=42358.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 21:36:39,539 INFO [train.py:876] (1/4) Epoch 6, batch 6000, loss[loss=0.1725, simple_loss=0.1835, pruned_loss=0.08078, over 5601.00 frames. ], tot_loss[loss=0.1589, simple_loss=0.1699, pruned_loss=0.07396, over 1088668.80 frames. ], batch size: 50, lr: 1.30e-02, grad_scale: 8.0
2022-11-15 21:36:39,539 INFO [train.py:899] (1/4) Computing validation loss
2022-11-15 21:36:54,498 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.5280, 3.7682, 3.6215, 3.3962, 3.5237, 3.5768, 1.3933, 3.7498],
       device='cuda:1'), covar=tensor([0.0272, 0.0125, 0.0222, 0.0253, 0.0300, 0.0214, 0.3047, 0.0233],
       device='cuda:1'), in_proj_covar=tensor([0.0103, 0.0079, 0.0079, 0.0072, 0.0098, 0.0083, 0.0134, 0.0103],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
       device='cuda:1')
2022-11-15 21:36:55,708 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.5189, 1.8284, 1.7419, 2.2963, 1.7172, 1.8285, 1.7851, 2.0763],
       device='cuda:1'), covar=tensor([0.2521, 0.2061, 0.1860, 0.0894, 0.2119, 0.2080, 0.2105, 0.0887],
       device='cuda:1'), in_proj_covar=tensor([0.0068, 0.0070, 0.0086, 0.0063, 0.0070, 0.0066, 0.0080, 0.0055],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
       device='cuda:1')
2022-11-15 21:36:57,489 INFO [train.py:908] (1/4) Epoch 6, validation: loss=0.1626, simple_loss=0.1837, pruned_loss=0.07077, over 1530663.00 frames. 
2022-11-15 21:36:57,490 INFO [train.py:909] (1/4) Maximum memory allocated so far is 4664MB
2022-11-15 21:37:07,882 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.8065, 4.3160, 3.7532, 3.7592, 2.3579, 4.1953, 2.3104, 3.4210],
       device='cuda:1'), covar=tensor([0.0349, 0.0106, 0.0135, 0.0227, 0.0447, 0.0113, 0.0415, 0.0147],
       device='cuda:1'), in_proj_covar=tensor([0.0169, 0.0135, 0.0147, 0.0162, 0.0166, 0.0145, 0.0159, 0.0133],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0002, 0.0002, 0.0003, 0.0003, 0.0002, 0.0003, 0.0002],
       device='cuda:1')
2022-11-15 21:37:09,886 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=42379.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 21:37:37,846 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.029e+02 1.691e+02 2.055e+02 2.547e+02 4.668e+02, threshold=4.111e+02, percent-clipped=1.0
2022-11-15 21:37:41,829 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.4893, 4.7588, 3.2252, 4.4720, 3.5392, 3.1825, 2.7172, 4.0942],
       device='cuda:1'), covar=tensor([0.1357, 0.0160, 0.0882, 0.0242, 0.0456, 0.0803, 0.1576, 0.0204],
       device='cuda:1'), in_proj_covar=tensor([0.0177, 0.0132, 0.0167, 0.0137, 0.0170, 0.0178, 0.0181, 0.0143],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
       device='cuda:1')
2022-11-15 21:37:52,178 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=42440.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 21:38:03,664 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=2.01 vs. limit=2.0
2022-11-15 21:38:06,269 INFO [train.py:876] (1/4) Epoch 6, batch 6100, loss[loss=0.09198, simple_loss=0.1256, pruned_loss=0.02917, over 5554.00 frames. ], tot_loss[loss=0.1571, simple_loss=0.1687, pruned_loss=0.07278, over 1087476.20 frames. ], batch size: 13, lr: 1.29e-02, grad_scale: 8.0
2022-11-15 21:38:10,631 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.56 vs. limit=2.0
2022-11-15 21:38:11,795 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.5415, 2.3113, 1.5823, 2.2142, 2.2181, 2.2253, 2.1643, 2.2832],
       device='cuda:1'), covar=tensor([0.0524, 0.1416, 0.3418, 0.1395, 0.1590, 0.0907, 0.1332, 0.1011],
       device='cuda:1'), in_proj_covar=tensor([0.0116, 0.0156, 0.0239, 0.0151, 0.0186, 0.0156, 0.0165, 0.0150],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0003, 0.0004, 0.0002, 0.0003, 0.0002, 0.0002, 0.0002],
       device='cuda:1')
2022-11-15 21:38:16,502 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.2090, 1.6715, 1.6547, 0.7378, 0.9723, 1.5796, 1.0780, 1.6846],
       device='cuda:1'), covar=tensor([0.0032, 0.0030, 0.0021, 0.0032, 0.0029, 0.0023, 0.0024, 0.0035],
       device='cuda:1'), in_proj_covar=tensor([0.0037, 0.0033, 0.0036, 0.0035, 0.0034, 0.0031, 0.0036, 0.0029],
       device='cuda:1'), out_proj_covar=tensor([3.4850e-05, 3.2618e-05, 3.2605e-05, 3.2127e-05, 2.9960e-05, 2.6228e-05,
        3.6137e-05, 2.6339e-05], device='cuda:1')
2022-11-15 21:38:37,133 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=42506.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 21:38:45,892 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.054e+02 1.891e+02 2.304e+02 2.895e+02 7.790e+02, threshold=4.608e+02, percent-clipped=4.0
2022-11-15 21:39:14,508 INFO [train.py:876] (1/4) Epoch 6, batch 6200, loss[loss=0.1056, simple_loss=0.1374, pruned_loss=0.03691, over 5753.00 frames. ], tot_loss[loss=0.1608, simple_loss=0.1709, pruned_loss=0.07539, over 1081031.03 frames. ], batch size: 13, lr: 1.29e-02, grad_scale: 8.0
2022-11-15 21:39:15,265 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=42562.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 21:39:18,946 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=42567.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 21:39:44,655 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=42604.0, num_to_drop=1, layers_to_drop={2}
2022-11-15 21:39:48,429 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=42610.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 21:39:50,743 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=2.02 vs. limit=2.0
2022-11-15 21:39:54,749 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 7.838e+01 1.745e+02 2.107e+02 2.704e+02 4.645e+02, threshold=4.215e+02, percent-clipped=1.0
2022-11-15 21:40:15,005 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=42649.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 21:40:17,232 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=42652.0, num_to_drop=1, layers_to_drop={1}
2022-11-15 21:40:23,151 INFO [train.py:876] (1/4) Epoch 6, batch 6300, loss[loss=0.1663, simple_loss=0.1691, pruned_loss=0.08177, over 5587.00 frames. ], tot_loss[loss=0.1599, simple_loss=0.1705, pruned_loss=0.0746, over 1086569.33 frames. ], batch size: 54, lr: 1.29e-02, grad_scale: 8.0
2022-11-15 21:40:36,562 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.9510, 2.3608, 3.3913, 3.1428, 3.9472, 2.4648, 3.4528, 3.9496],
       device='cuda:1'), covar=tensor([0.0405, 0.1492, 0.0590, 0.1287, 0.0433, 0.1355, 0.0827, 0.0591],
       device='cuda:1'), in_proj_covar=tensor([0.0213, 0.0192, 0.0192, 0.0208, 0.0192, 0.0186, 0.0226, 0.0213],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0003, 0.0004, 0.0004],
       device='cuda:1')
2022-11-15 21:40:53,796 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([5.7136, 5.2039, 5.5258, 5.1079, 5.8081, 5.7130, 4.8901, 5.7943],
       device='cuda:1'), covar=tensor([0.0354, 0.0224, 0.0420, 0.0299, 0.0306, 0.0093, 0.0220, 0.0183],
       device='cuda:1'), in_proj_covar=tensor([0.0116, 0.0122, 0.0093, 0.0125, 0.0134, 0.0079, 0.0106, 0.0121],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0003],
       device='cuda:1')
2022-11-15 21:40:55,891 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=42710.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 21:41:02,049 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 8.507e+01 1.912e+02 2.400e+02 2.974e+02 5.468e+02, threshold=4.801e+02, percent-clipped=3.0
2022-11-15 21:41:13,146 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=42735.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 21:41:31,361 INFO [train.py:876] (1/4) Epoch 6, batch 6400, loss[loss=0.1869, simple_loss=0.1881, pruned_loss=0.09282, over 5595.00 frames. ], tot_loss[loss=0.1594, simple_loss=0.17, pruned_loss=0.07434, over 1082444.38 frames. ], batch size: 50, lr: 1.29e-02, grad_scale: 8.0
2022-11-15 21:42:11,496 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.096e+02 1.772e+02 2.214e+02 2.586e+02 5.921e+02, threshold=4.429e+02, percent-clipped=3.0
2022-11-15 21:42:13,619 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([5.1889, 4.6913, 4.9354, 4.6579, 5.2809, 5.1842, 4.6549, 5.2300],
       device='cuda:1'), covar=tensor([0.0259, 0.0222, 0.0390, 0.0240, 0.0218, 0.0080, 0.0203, 0.0224],
       device='cuda:1'), in_proj_covar=tensor([0.0115, 0.0122, 0.0093, 0.0124, 0.0133, 0.0080, 0.0106, 0.0122],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0003],
       device='cuda:1')
2022-11-15 21:42:27,025 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.1836, 4.3290, 4.1078, 1.9733, 3.9538, 4.1882, 3.9745, 4.9590],
       device='cuda:1'), covar=tensor([0.1273, 0.0697, 0.0325, 0.1977, 0.0158, 0.0210, 0.0213, 0.0233],
       device='cuda:1'), in_proj_covar=tensor([0.0179, 0.0184, 0.0144, 0.0192, 0.0156, 0.0164, 0.0133, 0.0175],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
       device='cuda:1')
2022-11-15 21:42:35,507 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.7916, 2.3582, 2.6857, 3.5835, 3.8333, 2.8963, 2.4406, 3.7061],
       device='cuda:1'), covar=tensor([0.0323, 0.3375, 0.2424, 0.4704, 0.0950, 0.3239, 0.2457, 0.0625],
       device='cuda:1'), in_proj_covar=tensor([0.0195, 0.0207, 0.0198, 0.0324, 0.0219, 0.0212, 0.0194, 0.0195],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0004, 0.0004, 0.0006, 0.0005, 0.0005, 0.0004, 0.0004],
       device='cuda:1')
2022-11-15 21:42:37,968 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.7017, 3.0315, 2.9932, 2.9403, 2.8617, 2.9802, 1.1052, 2.9922],
       device='cuda:1'), covar=tensor([0.0521, 0.0322, 0.0365, 0.0254, 0.0492, 0.0405, 0.3748, 0.0473],
       device='cuda:1'), in_proj_covar=tensor([0.0099, 0.0077, 0.0077, 0.0068, 0.0094, 0.0080, 0.0128, 0.0101],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0001, 0.0002, 0.0002, 0.0003, 0.0002],
       device='cuda:1')
2022-11-15 21:42:38,699 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=42859.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 21:42:39,353 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.0802, 2.9143, 2.2447, 1.6372, 2.7933, 1.0776, 2.8825, 1.7635],
       device='cuda:1'), covar=tensor([0.1041, 0.0182, 0.0901, 0.1550, 0.0221, 0.1872, 0.0196, 0.1357],
       device='cuda:1'), in_proj_covar=tensor([0.0128, 0.0101, 0.0113, 0.0117, 0.0106, 0.0128, 0.0096, 0.0120],
       device='cuda:1'), out_proj_covar=tensor([0.0005, 0.0003, 0.0004, 0.0004, 0.0003, 0.0004, 0.0003, 0.0004],
       device='cuda:1')
2022-11-15 21:42:39,913 INFO [train.py:876] (1/4) Epoch 6, batch 6500, loss[loss=0.162, simple_loss=0.1646, pruned_loss=0.07969, over 5014.00 frames. ], tot_loss[loss=0.1598, simple_loss=0.1704, pruned_loss=0.07453, over 1082278.99 frames. ], batch size: 109, lr: 1.29e-02, grad_scale: 8.0
2022-11-15 21:42:40,664 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=42862.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 21:42:52,368 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=42879.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 21:42:54,532 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.93 vs. limit=2.0
2022-11-15 21:43:00,644 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([4.2175, 4.1425, 4.1930, 4.4091, 3.6859, 3.3069, 4.7752, 4.2496],
       device='cuda:1'), covar=tensor([0.0375, 0.0772, 0.0362, 0.0955, 0.0559, 0.0433, 0.0756, 0.0512],
       device='cuda:1'), in_proj_covar=tensor([0.0073, 0.0094, 0.0079, 0.0100, 0.0076, 0.0066, 0.0126, 0.0083],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
       device='cuda:1')
2022-11-15 21:43:19,261 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.054e+02 1.824e+02 2.207e+02 2.735e+02 7.842e+02, threshold=4.414e+02, percent-clipped=4.0
2022-11-15 21:43:20,110 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=42920.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 21:43:33,142 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.8267, 2.8022, 2.2923, 3.1744, 2.3721, 2.8302, 2.7987, 3.6212],
       device='cuda:1'), covar=tensor([0.1035, 0.1290, 0.3252, 0.1125, 0.2092, 0.1048, 0.1960, 0.1761],
       device='cuda:1'), in_proj_covar=tensor([0.0072, 0.0072, 0.0090, 0.0066, 0.0074, 0.0070, 0.0083, 0.0058],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
       device='cuda:1')
2022-11-15 21:43:33,785 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=42940.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 21:43:47,834 INFO [train.py:876] (1/4) Epoch 6, batch 6600, loss[loss=0.1931, simple_loss=0.1843, pruned_loss=0.101, over 5393.00 frames. ], tot_loss[loss=0.1593, simple_loss=0.1699, pruned_loss=0.07434, over 1085561.40 frames. ], batch size: 70, lr: 1.29e-02, grad_scale: 8.0
2022-11-15 21:44:00,268 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.4464, 1.1687, 1.6375, 1.2663, 1.4756, 1.7163, 1.2588, 1.3872],
       device='cuda:1'), covar=tensor([0.0040, 0.0046, 0.0038, 0.0028, 0.0091, 0.0060, 0.0022, 0.0041],
       device='cuda:1'), in_proj_covar=tensor([0.0017, 0.0017, 0.0017, 0.0020, 0.0018, 0.0017, 0.0019, 0.0020],
       device='cuda:1'), out_proj_covar=tensor([1.6447e-05, 1.6765e-05, 1.6715e-05, 1.9791e-05, 1.7745e-05, 1.6968e-05,
        1.8082e-05, 2.0941e-05], device='cuda:1')
2022-11-15 21:44:18,663 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=43005.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 21:44:25,724 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.79 vs. limit=2.0
2022-11-15 21:44:28,196 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.144e+02 1.711e+02 2.097e+02 2.455e+02 4.370e+02, threshold=4.194e+02, percent-clipped=0.0
2022-11-15 21:44:39,645 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=43035.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 21:44:50,517 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.1219, 2.0805, 1.9250, 2.3423, 1.8564, 1.6626, 1.8488, 2.4487],
       device='cuda:1'), covar=tensor([0.1111, 0.1859, 0.2887, 0.1223, 0.2024, 0.2269, 0.1967, 0.1377],
       device='cuda:1'), in_proj_covar=tensor([0.0071, 0.0071, 0.0087, 0.0064, 0.0073, 0.0069, 0.0081, 0.0057],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
       device='cuda:1')
2022-11-15 21:44:56,951 INFO [train.py:876] (1/4) Epoch 6, batch 6700, loss[loss=0.151, simple_loss=0.1795, pruned_loss=0.06128, over 5589.00 frames. ], tot_loss[loss=0.1597, simple_loss=0.1702, pruned_loss=0.07459, over 1080956.24 frames. ], batch size: 22, lr: 1.29e-02, grad_scale: 8.0
2022-11-15 21:45:12,508 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=43083.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 21:45:36,325 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 9.495e+01 1.976e+02 2.503e+02 2.987e+02 6.000e+02, threshold=5.005e+02, percent-clipped=7.0
2022-11-15 21:46:04,886 INFO [train.py:876] (1/4) Epoch 6, batch 6800, loss[loss=0.1385, simple_loss=0.1583, pruned_loss=0.05934, over 5735.00 frames. ], tot_loss[loss=0.1622, simple_loss=0.1719, pruned_loss=0.07622, over 1082051.66 frames. ], batch size: 13, lr: 1.28e-02, grad_scale: 8.0
2022-11-15 21:46:05,669 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=43162.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 21:46:31,218 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([4.3805, 2.3945, 3.9438, 3.4980, 4.3509, 2.4864, 3.8043, 4.2651],
       device='cuda:1'), covar=tensor([0.0413, 0.1892, 0.0636, 0.1554, 0.0243, 0.1574, 0.0836, 0.0630],
       device='cuda:1'), in_proj_covar=tensor([0.0210, 0.0192, 0.0189, 0.0212, 0.0195, 0.0184, 0.0224, 0.0208],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0004, 0.0003, 0.0004, 0.0004, 0.0003, 0.0004, 0.0004],
       device='cuda:1')
2022-11-15 21:46:38,996 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=43210.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 21:46:42,319 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=43215.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 21:46:44,823 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.047e+02 1.755e+02 2.083e+02 2.590e+02 5.758e+02, threshold=4.166e+02, percent-clipped=2.0
2022-11-15 21:46:53,372 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.6460, 0.9617, 1.5241, 1.3307, 1.4759, 1.2743, 1.3371, 1.1342],
       device='cuda:1'), covar=tensor([0.0035, 0.0068, 0.0035, 0.0032, 0.0060, 0.0084, 0.0031, 0.0040],
       device='cuda:1'), in_proj_covar=tensor([0.0017, 0.0017, 0.0018, 0.0020, 0.0019, 0.0017, 0.0019, 0.0020],
       device='cuda:1'), out_proj_covar=tensor([1.6424e-05, 1.7611e-05, 1.7536e-05, 2.0272e-05, 1.8200e-05, 1.7676e-05,
        1.8801e-05, 2.1765e-05], device='cuda:1')
2022-11-15 21:46:55,883 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=43235.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 21:47:09,581 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.2854, 1.9781, 2.4011, 3.2798, 3.1543, 2.4660, 2.0267, 3.4011],
       device='cuda:1'), covar=tensor([0.0645, 0.3305, 0.2354, 0.2608, 0.1164, 0.2707, 0.2224, 0.0400],
       device='cuda:1'), in_proj_covar=tensor([0.0197, 0.0212, 0.0201, 0.0326, 0.0221, 0.0214, 0.0194, 0.0200],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0005, 0.0004, 0.0006, 0.0005, 0.0005, 0.0004, 0.0004],
       device='cuda:1')
2022-11-15 21:47:13,949 INFO [train.py:876] (1/4) Epoch 6, batch 6900, loss[loss=0.1657, simple_loss=0.17, pruned_loss=0.08073, over 5629.00 frames. ], tot_loss[loss=0.1618, simple_loss=0.1711, pruned_loss=0.07629, over 1071858.97 frames. ], batch size: 29, lr: 1.28e-02, grad_scale: 8.0
2022-11-15 21:47:14,809 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.9787, 1.8567, 2.6974, 2.4805, 2.4847, 1.8458, 2.3843, 2.9977],
       device='cuda:1'), covar=tensor([0.0453, 0.1085, 0.0505, 0.0965, 0.0559, 0.1157, 0.0766, 0.0538],
       device='cuda:1'), in_proj_covar=tensor([0.0213, 0.0193, 0.0191, 0.0212, 0.0196, 0.0185, 0.0226, 0.0208],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0003, 0.0004, 0.0004],
       device='cuda:1')
2022-11-15 21:47:33,462 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.8235, 2.1913, 1.5829, 1.2090, 1.9097, 2.3878, 2.1118, 2.5290],
       device='cuda:1'), covar=tensor([0.1490, 0.1173, 0.1753, 0.2412, 0.0699, 0.0563, 0.0296, 0.0651],
       device='cuda:1'), in_proj_covar=tensor([0.0184, 0.0187, 0.0146, 0.0189, 0.0161, 0.0166, 0.0136, 0.0178],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
       device='cuda:1')
2022-11-15 21:47:41,669 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.1999, 4.2187, 2.6614, 3.9979, 3.1681, 2.8608, 2.1917, 3.4449],
       device='cuda:1'), covar=tensor([0.1408, 0.0128, 0.0889, 0.0232, 0.0622, 0.0797, 0.1767, 0.0293],
       device='cuda:1'), in_proj_covar=tensor([0.0173, 0.0130, 0.0166, 0.0137, 0.0171, 0.0178, 0.0179, 0.0142],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
       device='cuda:1')
2022-11-15 21:47:44,593 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=43305.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 21:47:49,384 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.7293, 2.3431, 2.9453, 3.7251, 3.8208, 2.8620, 2.1731, 3.8419],
       device='cuda:1'), covar=tensor([0.0605, 0.3084, 0.2189, 0.3061, 0.0829, 0.3032, 0.2687, 0.0379],
       device='cuda:1'), in_proj_covar=tensor([0.0199, 0.0212, 0.0202, 0.0329, 0.0222, 0.0217, 0.0196, 0.0200],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0005, 0.0004, 0.0006, 0.0005, 0.0005, 0.0004, 0.0004],
       device='cuda:1')
2022-11-15 21:47:53,736 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.277e+02 1.786e+02 2.260e+02 2.890e+02 4.786e+02, threshold=4.520e+02, percent-clipped=4.0
2022-11-15 21:47:55,792 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.87 vs. limit=2.0
2022-11-15 21:48:09,666 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([4.1703, 4.2378, 4.3515, 3.9853, 4.2886, 4.2161, 2.0760, 4.4954],
       device='cuda:1'), covar=tensor([0.0289, 0.0242, 0.0211, 0.0231, 0.0203, 0.0249, 0.2551, 0.0209],
       device='cuda:1'), in_proj_covar=tensor([0.0097, 0.0075, 0.0076, 0.0067, 0.0091, 0.0079, 0.0123, 0.0098],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0001, 0.0002, 0.0002, 0.0002, 0.0002],
       device='cuda:1')
2022-11-15 21:48:16,709 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=43353.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 21:48:22,248 INFO [train.py:876] (1/4) Epoch 6, batch 7000, loss[loss=0.1904, simple_loss=0.1956, pruned_loss=0.09256, over 5606.00 frames. ], tot_loss[loss=0.1617, simple_loss=0.1712, pruned_loss=0.07609, over 1073956.19 frames. ], batch size: 23, lr: 1.28e-02, grad_scale: 8.0
2022-11-15 21:49:02,129 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.099e+02 1.834e+02 2.170e+02 2.645e+02 5.568e+02, threshold=4.340e+02, percent-clipped=1.0
2022-11-15 21:49:30,777 INFO [train.py:876] (1/4) Epoch 6, batch 7100, loss[loss=0.1482, simple_loss=0.1717, pruned_loss=0.06239, over 5544.00 frames. ], tot_loss[loss=0.1597, simple_loss=0.1706, pruned_loss=0.07434, over 1081385.61 frames. ], batch size: 17, lr: 1.28e-02, grad_scale: 8.0
2022-11-15 21:49:42,052 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([4.6681, 4.3668, 4.5354, 4.2728, 4.7816, 4.6492, 4.2145, 4.7291],
       device='cuda:1'), covar=tensor([0.0428, 0.0237, 0.0446, 0.0296, 0.0370, 0.0145, 0.0286, 0.0295],
       device='cuda:1'), in_proj_covar=tensor([0.0117, 0.0124, 0.0093, 0.0124, 0.0135, 0.0081, 0.0107, 0.0124],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0003],
       device='cuda:1')
2022-11-15 21:50:06,734 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=43514.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 21:50:07,728 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=43515.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 21:50:10,160 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 8.966e+01 1.749e+02 2.086e+02 2.685e+02 6.877e+02, threshold=4.173e+02, percent-clipped=3.0
2022-11-15 21:50:21,417 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=43535.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 21:50:38,609 INFO [train.py:876] (1/4) Epoch 6, batch 7200, loss[loss=0.1597, simple_loss=0.1753, pruned_loss=0.07205, over 5769.00 frames. ], tot_loss[loss=0.1599, simple_loss=0.1705, pruned_loss=0.07468, over 1084267.92 frames. ], batch size: 16, lr: 1.28e-02, grad_scale: 8.0
2022-11-15 21:50:40,018 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=43563.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 21:50:48,390 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=43575.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 21:50:53,857 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=43583.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 21:51:17,828 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.100e+02 1.746e+02 2.258e+02 2.937e+02 6.701e+02, threshold=4.517e+02, percent-clipped=5.0
2022-11-15 21:52:13,099 INFO [train.py:876] (1/4) Epoch 7, batch 0, loss[loss=0.1909, simple_loss=0.1823, pruned_loss=0.09973, over 5301.00 frames. ], tot_loss[loss=0.1909, simple_loss=0.1823, pruned_loss=0.09973, over 5301.00 frames. ], batch size: 79, lr: 1.20e-02, grad_scale: 8.0
2022-11-15 21:52:13,099 INFO [train.py:899] (1/4) Computing validation loss
2022-11-15 21:52:27,864 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.9156, 3.1268, 3.1026, 2.9874, 3.0608, 3.0019, 1.3835, 3.1496],
       device='cuda:1'), covar=tensor([0.0214, 0.0121, 0.0161, 0.0128, 0.0223, 0.0214, 0.2284, 0.0172],
       device='cuda:1'), in_proj_covar=tensor([0.0100, 0.0077, 0.0078, 0.0068, 0.0094, 0.0082, 0.0127, 0.0100],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0001, 0.0002, 0.0002, 0.0003, 0.0002],
       device='cuda:1')
2022-11-15 21:52:29,702 INFO [train.py:908] (1/4) Epoch 7, validation: loss=0.1631, simple_loss=0.1871, pruned_loss=0.06958, over 1530663.00 frames. 
2022-11-15 21:52:29,702 INFO [train.py:909] (1/4) Maximum memory allocated so far is 4664MB
2022-11-15 21:52:54,728 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.48 vs. limit=2.0
2022-11-15 21:53:28,696 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.081e+02 1.724e+02 2.075e+02 2.427e+02 4.341e+02, threshold=4.150e+02, percent-clipped=0.0
2022-11-15 21:53:32,142 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.8766, 2.0517, 1.8183, 2.1686, 1.7492, 1.6649, 1.7381, 2.2604],
       device='cuda:1'), covar=tensor([0.1219, 0.1427, 0.2730, 0.1115, 0.1884, 0.1626, 0.1886, 0.1003],
       device='cuda:1'), in_proj_covar=tensor([0.0070, 0.0070, 0.0087, 0.0062, 0.0072, 0.0069, 0.0081, 0.0055],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
       device='cuda:1')
2022-11-15 21:53:37,918 INFO [train.py:876] (1/4) Epoch 7, batch 100, loss[loss=0.2062, simple_loss=0.1931, pruned_loss=0.1097, over 5490.00 frames. ], tot_loss[loss=0.1573, simple_loss=0.1701, pruned_loss=0.07229, over 429176.66 frames. ], batch size: 49, lr: 1.20e-02, grad_scale: 8.0
2022-11-15 21:53:48,841 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.5978, 2.0437, 2.2889, 2.6014, 2.8186, 2.1595, 1.6763, 2.8849],
       device='cuda:1'), covar=tensor([0.0961, 0.2413, 0.1887, 0.2709, 0.0873, 0.2924, 0.2307, 0.0716],
       device='cuda:1'), in_proj_covar=tensor([0.0200, 0.0211, 0.0201, 0.0325, 0.0223, 0.0218, 0.0196, 0.0204],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0005, 0.0004, 0.0006, 0.0005, 0.0005, 0.0004, 0.0004],
       device='cuda:1')
2022-11-15 21:54:02,808 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.5278, 4.6494, 3.1116, 4.4030, 3.5332, 2.9929, 2.3689, 3.9039],
       device='cuda:1'), covar=tensor([0.1485, 0.0158, 0.0864, 0.0238, 0.0436, 0.0930, 0.1894, 0.0250],
       device='cuda:1'), in_proj_covar=tensor([0.0174, 0.0132, 0.0167, 0.0137, 0.0172, 0.0180, 0.0182, 0.0145],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0004, 0.0004, 0.0003],
       device='cuda:1')
2022-11-15 21:54:15,351 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=43787.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 21:54:37,877 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.176e+02 1.863e+02 2.234e+02 2.721e+02 4.230e+02, threshold=4.468e+02, percent-clipped=1.0
2022-11-15 21:54:47,141 INFO [train.py:876] (1/4) Epoch 7, batch 200, loss[loss=0.1195, simple_loss=0.1476, pruned_loss=0.04574, over 5710.00 frames. ], tot_loss[loss=0.1583, simple_loss=0.1705, pruned_loss=0.07301, over 687535.86 frames. ], batch size: 15, lr: 1.19e-02, grad_scale: 8.0
2022-11-15 21:54:57,707 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=43848.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 21:55:01,724 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.0854, 1.8085, 2.7562, 2.3245, 2.6134, 1.9555, 2.5027, 3.0019],
       device='cuda:1'), covar=tensor([0.0492, 0.1344, 0.0599, 0.1263, 0.0554, 0.1250, 0.0982, 0.0696],
       device='cuda:1'), in_proj_covar=tensor([0.0213, 0.0193, 0.0191, 0.0211, 0.0195, 0.0187, 0.0226, 0.0210],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004],
       device='cuda:1')
2022-11-15 21:55:08,055 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=2.02 vs. limit=2.0
2022-11-15 21:55:12,846 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=43870.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 21:55:14,216 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.0316, 4.2239, 3.7339, 3.7195, 2.6209, 4.4567, 2.3963, 3.8044],
       device='cuda:1'), covar=tensor([0.0328, 0.0173, 0.0199, 0.0384, 0.0457, 0.0128, 0.0484, 0.0154],
       device='cuda:1'), in_proj_covar=tensor([0.0175, 0.0141, 0.0156, 0.0173, 0.0174, 0.0154, 0.0167, 0.0142],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0002, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0002],
       device='cuda:1')
2022-11-15 21:55:38,975 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=43909.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 21:55:41,007 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([0.9481, 1.4611, 0.9522, 1.0516, 1.4858, 1.5427, 0.6117, 1.4110],
       device='cuda:1'), covar=tensor([0.0030, 0.0015, 0.0028, 0.0029, 0.0024, 0.0023, 0.0052, 0.0027],
       device='cuda:1'), in_proj_covar=tensor([0.0036, 0.0032, 0.0035, 0.0035, 0.0032, 0.0030, 0.0035, 0.0028],
       device='cuda:1'), out_proj_covar=tensor([3.3015e-05, 3.1028e-05, 3.2106e-05, 3.2492e-05, 2.7884e-05, 2.5123e-05,
        3.4667e-05, 2.5301e-05], device='cuda:1')
2022-11-15 21:55:46,088 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.324e+02 1.863e+02 2.345e+02 2.603e+02 4.668e+02, threshold=4.689e+02, percent-clipped=1.0
2022-11-15 21:55:51,251 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=1.91 vs. limit=2.0
2022-11-15 21:55:55,858 INFO [train.py:876] (1/4) Epoch 7, batch 300, loss[loss=0.2643, simple_loss=0.2288, pruned_loss=0.1499, over 3006.00 frames. ], tot_loss[loss=0.1565, simple_loss=0.1691, pruned_loss=0.07198, over 847416.15 frames. ], batch size: 284, lr: 1.19e-02, grad_scale: 8.0
2022-11-15 21:56:03,931 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.2250, 3.0958, 2.7700, 3.1488, 3.1340, 2.8029, 2.7217, 2.7975],
       device='cuda:1'), covar=tensor([0.0271, 0.0551, 0.1458, 0.0435, 0.0545, 0.0510, 0.0691, 0.0552],
       device='cuda:1'), in_proj_covar=tensor([0.0118, 0.0152, 0.0242, 0.0151, 0.0187, 0.0154, 0.0165, 0.0149],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0004, 0.0002, 0.0003, 0.0002, 0.0002, 0.0002],
       device='cuda:1')
2022-11-15 21:56:13,542 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=43959.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 21:56:14,900 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([0.9327, 1.4137, 1.0482, 0.8452, 1.4835, 1.3896, 0.6138, 1.2880],
       device='cuda:1'), covar=tensor([0.0030, 0.0020, 0.0029, 0.0029, 0.0022, 0.0020, 0.0051, 0.0031],
       device='cuda:1'), in_proj_covar=tensor([0.0037, 0.0033, 0.0037, 0.0036, 0.0033, 0.0030, 0.0036, 0.0029],
       device='cuda:1'), out_proj_covar=tensor([3.4104e-05, 3.2221e-05, 3.3374e-05, 3.3261e-05, 2.8754e-05, 2.5813e-05,
        3.5895e-05, 2.6173e-05], device='cuda:1')
2022-11-15 21:56:21,759 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=43970.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 21:56:54,566 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.186e+02 1.760e+02 2.035e+02 2.652e+02 4.590e+02, threshold=4.070e+02, percent-clipped=0.0
2022-11-15 21:56:55,808 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=44020.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 21:57:01,455 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.1304, 3.0277, 2.8473, 1.2381, 2.6001, 3.2746, 3.0206, 3.3170],
       device='cuda:1'), covar=tensor([0.1937, 0.1301, 0.0936, 0.2858, 0.0694, 0.0435, 0.0379, 0.0586],
       device='cuda:1'), in_proj_covar=tensor([0.0189, 0.0191, 0.0148, 0.0192, 0.0163, 0.0168, 0.0141, 0.0180],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
       device='cuda:1')
2022-11-15 21:57:02,450 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.92 vs. limit=2.0
2022-11-15 21:57:04,544 INFO [train.py:876] (1/4) Epoch 7, batch 400, loss[loss=0.1995, simple_loss=0.196, pruned_loss=0.1014, over 5596.00 frames. ], tot_loss[loss=0.1591, simple_loss=0.1705, pruned_loss=0.07386, over 943160.57 frames. ], batch size: 46, lr: 1.19e-02, grad_scale: 8.0
2022-11-15 21:57:37,872 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=2.07 vs. limit=2.0
2022-11-15 21:57:52,633 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=3.90 vs. limit=5.0
2022-11-15 21:58:02,998 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.245e+02 1.796e+02 2.180e+02 2.809e+02 7.513e+02, threshold=4.360e+02, percent-clipped=4.0
2022-11-15 21:58:13,183 INFO [train.py:876] (1/4) Epoch 7, batch 500, loss[loss=0.1477, simple_loss=0.1641, pruned_loss=0.06566, over 5767.00 frames. ], tot_loss[loss=0.1564, simple_loss=0.1688, pruned_loss=0.07196, over 1002100.08 frames. ], batch size: 21, lr: 1.19e-02, grad_scale: 8.0
2022-11-15 21:58:20,227 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=44143.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 21:58:37,763 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=44170.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 21:59:10,361 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=44218.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 21:59:10,883 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.014e+02 1.778e+02 2.186e+02 2.838e+02 5.081e+02, threshold=4.371e+02, percent-clipped=2.0
2022-11-15 21:59:13,045 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.9829, 2.9340, 2.4902, 2.9558, 2.5190, 3.0458, 3.1704, 3.5044],
       device='cuda:1'), covar=tensor([0.0827, 0.1286, 0.3256, 0.2827, 0.1910, 0.1377, 0.1416, 0.1539],
       device='cuda:1'), in_proj_covar=tensor([0.0073, 0.0075, 0.0091, 0.0066, 0.0076, 0.0071, 0.0084, 0.0058],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0003, 0.0003, 0.0002, 0.0003, 0.0002, 0.0003, 0.0002],
       device='cuda:1')
2022-11-15 21:59:20,341 INFO [train.py:876] (1/4) Epoch 7, batch 600, loss[loss=0.1482, simple_loss=0.1583, pruned_loss=0.06909, over 5618.00 frames. ], tot_loss[loss=0.1567, simple_loss=0.1688, pruned_loss=0.0723, over 1033708.37 frames. ], batch size: 23, lr: 1.19e-02, grad_scale: 8.0
2022-11-15 21:59:21,704 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([4.0821, 4.0437, 4.0526, 3.5880, 4.2125, 3.7948, 1.5151, 4.3577],
       device='cuda:1'), covar=tensor([0.0273, 0.0246, 0.0271, 0.0278, 0.0236, 0.0322, 0.3203, 0.0247],
       device='cuda:1'), in_proj_covar=tensor([0.0102, 0.0077, 0.0079, 0.0069, 0.0095, 0.0082, 0.0128, 0.0104],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
       device='cuda:1')
2022-11-15 21:59:42,356 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=44265.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 22:00:16,426 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=44315.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 22:00:18,959 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.189e+02 1.730e+02 2.067e+02 2.557e+02 5.519e+02, threshold=4.134e+02, percent-clipped=3.0
2022-11-15 22:00:19,957 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=1.94 vs. limit=2.0
2022-11-15 22:00:25,692 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.7514, 1.0204, 1.2894, 0.9575, 1.2941, 1.2650, 1.1510, 1.1541],
       device='cuda:1'), covar=tensor([0.0247, 0.1149, 0.0522, 0.1919, 0.1866, 0.0445, 0.0734, 0.1008],
       device='cuda:1'), in_proj_covar=tensor([0.0010, 0.0014, 0.0011, 0.0013, 0.0012, 0.0010, 0.0014, 0.0010],
       device='cuda:1'), out_proj_covar=tensor([4.9332e-05, 6.3941e-05, 5.0178e-05, 5.8334e-05, 5.4249e-05, 4.9416e-05,
        6.0092e-05, 5.0329e-05], device='cuda:1')
2022-11-15 22:00:28,128 INFO [train.py:876] (1/4) Epoch 7, batch 700, loss[loss=0.2041, simple_loss=0.1957, pruned_loss=0.1063, over 5487.00 frames. ], tot_loss[loss=0.1561, simple_loss=0.1684, pruned_loss=0.07191, over 1052365.43 frames. ], batch size: 58, lr: 1.19e-02, grad_scale: 16.0
2022-11-15 22:01:07,929 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=1.98 vs. limit=2.0
2022-11-15 22:01:25,378 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.5272, 1.4830, 1.6334, 1.3073, 1.8399, 1.4242, 1.1396, 1.7097],
       device='cuda:1'), covar=tensor([0.0810, 0.1549, 0.1106, 0.1691, 0.0736, 0.1069, 0.2123, 0.1031],
       device='cuda:1'), in_proj_covar=tensor([0.0203, 0.0207, 0.0205, 0.0336, 0.0224, 0.0216, 0.0193, 0.0207],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0004, 0.0005, 0.0006, 0.0005, 0.0005, 0.0004, 0.0005],
       device='cuda:1')
2022-11-15 22:01:27,712 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.022e+02 1.682e+02 2.055e+02 2.418e+02 5.378e+02, threshold=4.109e+02, percent-clipped=3.0
2022-11-15 22:01:29,180 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.5247, 4.5813, 3.2853, 4.4924, 3.6300, 3.1075, 2.6024, 3.9420],
       device='cuda:1'), covar=tensor([0.1345, 0.0222, 0.0870, 0.0256, 0.0544, 0.0883, 0.1853, 0.0250],
       device='cuda:1'), in_proj_covar=tensor([0.0173, 0.0136, 0.0168, 0.0139, 0.0177, 0.0183, 0.0182, 0.0147],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0004, 0.0004, 0.0003],
       device='cuda:1')
2022-11-15 22:01:29,818 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.3105, 2.3688, 2.0344, 2.3285, 2.3987, 2.2031, 2.0592, 2.2683],
       device='cuda:1'), covar=tensor([0.0389, 0.0679, 0.1688, 0.0646, 0.0575, 0.0467, 0.1018, 0.0576],
       device='cuda:1'), in_proj_covar=tensor([0.0120, 0.0158, 0.0248, 0.0156, 0.0192, 0.0156, 0.0169, 0.0155],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0003, 0.0004, 0.0002, 0.0003, 0.0002, 0.0002, 0.0002],
       device='cuda:1')
2022-11-15 22:01:36,449 INFO [train.py:876] (1/4) Epoch 7, batch 800, loss[loss=0.1198, simple_loss=0.1542, pruned_loss=0.04268, over 5742.00 frames. ], tot_loss[loss=0.1553, simple_loss=0.1679, pruned_loss=0.0713, over 1065683.76 frames. ], batch size: 17, lr: 1.19e-02, grad_scale: 8.0
2022-11-15 22:01:43,085 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=44443.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 22:02:15,858 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=44491.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 22:02:35,511 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.359e+02 1.866e+02 2.294e+02 2.881e+02 8.701e+02, threshold=4.588e+02, percent-clipped=3.0
2022-11-15 22:02:40,764 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=44527.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 22:02:44,440 INFO [train.py:876] (1/4) Epoch 7, batch 900, loss[loss=0.1625, simple_loss=0.1707, pruned_loss=0.07718, over 5740.00 frames. ], tot_loss[loss=0.1542, simple_loss=0.1676, pruned_loss=0.07042, over 1075582.87 frames. ], batch size: 15, lr: 1.19e-02, grad_scale: 8.0
2022-11-15 22:02:52,766 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([4.0104, 3.5874, 3.8765, 3.5114, 4.0185, 3.7330, 3.6058, 3.9759],
       device='cuda:1'), covar=tensor([0.0301, 0.0317, 0.0384, 0.0361, 0.0340, 0.0332, 0.0309, 0.0317],
       device='cuda:1'), in_proj_covar=tensor([0.0112, 0.0121, 0.0092, 0.0123, 0.0132, 0.0078, 0.0105, 0.0122],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0003],
       device='cuda:1')
2022-11-15 22:02:56,146 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=44550.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 22:03:06,235 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=44565.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 22:03:22,310 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=44588.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 22:03:37,753 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=44611.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 22:03:39,299 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=44613.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 22:03:40,642 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=44615.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 22:03:44,048 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.116e+02 1.775e+02 2.262e+02 2.701e+02 4.427e+02, threshold=4.524e+02, percent-clipped=0.0
2022-11-15 22:03:52,911 INFO [train.py:876] (1/4) Epoch 7, batch 1000, loss[loss=0.1943, simple_loss=0.1896, pruned_loss=0.09948, over 5741.00 frames. ], tot_loss[loss=0.1542, simple_loss=0.1679, pruned_loss=0.07026, over 1083557.03 frames. ], batch size: 20, lr: 1.18e-02, grad_scale: 8.0
2022-11-15 22:04:09,892 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.6685, 2.1901, 2.7782, 3.3884, 3.4714, 2.6812, 2.0339, 3.7533],
       device='cuda:1'), covar=tensor([0.0581, 0.3839, 0.2944, 0.3871, 0.1452, 0.3525, 0.2643, 0.0589],
       device='cuda:1'), in_proj_covar=tensor([0.0205, 0.0208, 0.0205, 0.0331, 0.0225, 0.0218, 0.0194, 0.0208],
       device='cuda:1'), out_proj_covar=tensor([0.0005, 0.0004, 0.0005, 0.0006, 0.0005, 0.0005, 0.0004, 0.0005],
       device='cuda:1')
2022-11-15 22:04:13,008 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=44663.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 22:04:29,451 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.3827, 0.7980, 0.9920, 0.7798, 1.1436, 1.0867, 0.7517, 0.9691],
       device='cuda:1'), covar=tensor([0.0249, 0.0334, 0.0446, 0.0877, 0.0514, 0.0362, 0.0764, 0.0246],
       device='cuda:1'), in_proj_covar=tensor([0.0010, 0.0015, 0.0011, 0.0013, 0.0012, 0.0011, 0.0014, 0.0011],
       device='cuda:1'), out_proj_covar=tensor([5.1354e-05, 6.6537e-05, 5.2992e-05, 6.1897e-05, 5.6471e-05, 5.2869e-05,
        6.3607e-05, 5.1882e-05], device='cuda:1')
2022-11-15 22:04:52,369 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.130e+02 1.670e+02 2.114e+02 2.520e+02 5.115e+02, threshold=4.229e+02, percent-clipped=2.0
2022-11-15 22:05:01,298 INFO [train.py:876] (1/4) Epoch 7, batch 1100, loss[loss=0.153, simple_loss=0.175, pruned_loss=0.06549, over 5644.00 frames. ], tot_loss[loss=0.1545, simple_loss=0.1683, pruned_loss=0.07037, over 1082598.74 frames. ], batch size: 32, lr: 1.18e-02, grad_scale: 8.0
2022-11-15 22:05:09,327 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.2148, 3.8062, 2.9014, 1.7789, 3.6554, 1.3435, 3.4054, 1.8604],
       device='cuda:1'), covar=tensor([0.1493, 0.0175, 0.0622, 0.2333, 0.0188, 0.2217, 0.0257, 0.1950],
       device='cuda:1'), in_proj_covar=tensor([0.0131, 0.0103, 0.0114, 0.0120, 0.0105, 0.0129, 0.0098, 0.0121],
       device='cuda:1'), out_proj_covar=tensor([0.0005, 0.0003, 0.0004, 0.0004, 0.0003, 0.0004, 0.0003, 0.0004],
       device='cuda:1')
2022-11-15 22:05:12,730 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.3247, 0.7434, 0.9373, 0.8321, 1.1140, 1.1671, 0.6227, 0.9050],
       device='cuda:1'), covar=tensor([0.0574, 0.0483, 0.0384, 0.1628, 0.0805, 0.0343, 0.1003, 0.0485],
       device='cuda:1'), in_proj_covar=tensor([0.0010, 0.0015, 0.0011, 0.0013, 0.0012, 0.0010, 0.0014, 0.0010],
       device='cuda:1'), out_proj_covar=tensor([4.9521e-05, 6.4595e-05, 5.0844e-05, 5.9709e-05, 5.4779e-05, 5.0645e-05,
        6.1418e-05, 5.0358e-05], device='cuda:1')
2022-11-15 22:05:18,351 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=4.10 vs. limit=5.0
2022-11-15 22:05:26,426 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.1226, 4.9684, 3.7724, 2.2860, 4.6817, 2.1390, 4.4995, 2.7633],
       device='cuda:1'), covar=tensor([0.1151, 0.0089, 0.0368, 0.1898, 0.0139, 0.1733, 0.0174, 0.1773],
       device='cuda:1'), in_proj_covar=tensor([0.0129, 0.0102, 0.0112, 0.0117, 0.0103, 0.0127, 0.0096, 0.0119],
       device='cuda:1'), out_proj_covar=tensor([0.0005, 0.0003, 0.0004, 0.0004, 0.0003, 0.0004, 0.0003, 0.0004],
       device='cuda:1')
2022-11-15 22:05:35,721 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=2.44 vs. limit=2.0
2022-11-15 22:05:47,656 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([5.9175, 5.3643, 5.8574, 5.1987, 5.9611, 5.8639, 4.9147, 5.8211],
       device='cuda:1'), covar=tensor([0.0249, 0.0203, 0.0251, 0.0300, 0.0239, 0.0084, 0.0177, 0.0187],
       device='cuda:1'), in_proj_covar=tensor([0.0113, 0.0123, 0.0091, 0.0125, 0.0135, 0.0080, 0.0106, 0.0123],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0003],
       device='cuda:1')
2022-11-15 22:06:00,677 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.112e+02 1.756e+02 2.130e+02 2.754e+02 4.425e+02, threshold=4.261e+02, percent-clipped=1.0
2022-11-15 22:06:08,893 INFO [train.py:876] (1/4) Epoch 7, batch 1200, loss[loss=0.1894, simple_loss=0.193, pruned_loss=0.09294, over 5747.00 frames. ], tot_loss[loss=0.1549, simple_loss=0.1679, pruned_loss=0.07093, over 1086737.03 frames. ], batch size: 31, lr: 1.18e-02, grad_scale: 8.0
2022-11-15 22:06:12,078 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.4199, 2.2219, 2.6565, 3.4152, 3.4059, 2.7235, 1.9857, 3.5030],
       device='cuda:1'), covar=tensor([0.0479, 0.2674, 0.2126, 0.2212, 0.0971, 0.2402, 0.1993, 0.0380],
       device='cuda:1'), in_proj_covar=tensor([0.0203, 0.0205, 0.0204, 0.0330, 0.0222, 0.0216, 0.0191, 0.0206],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0004, 0.0005, 0.0006, 0.0005, 0.0005, 0.0004, 0.0005],
       device='cuda:1')
2022-11-15 22:06:21,185 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=4.47 vs. limit=5.0
2022-11-15 22:06:42,959 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=44883.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 22:06:59,232 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=44906.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 22:07:08,225 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.257e+02 1.841e+02 2.145e+02 2.633e+02 4.840e+02, threshold=4.289e+02, percent-clipped=5.0
2022-11-15 22:07:16,620 INFO [train.py:876] (1/4) Epoch 7, batch 1300, loss[loss=0.07113, simple_loss=0.1038, pruned_loss=0.01921, over 5191.00 frames. ], tot_loss[loss=0.1532, simple_loss=0.1665, pruned_loss=0.06992, over 1088068.15 frames. ], batch size: 8, lr: 1.18e-02, grad_scale: 8.0
2022-11-15 22:07:18,073 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.2764, 3.5522, 2.6113, 1.7002, 3.3827, 1.3229, 3.2898, 1.7326],
       device='cuda:1'), covar=tensor([0.1395, 0.0153, 0.0879, 0.2082, 0.0216, 0.2205, 0.0248, 0.1812],
       device='cuda:1'), in_proj_covar=tensor([0.0130, 0.0103, 0.0113, 0.0118, 0.0105, 0.0129, 0.0097, 0.0120],
       device='cuda:1'), out_proj_covar=tensor([0.0005, 0.0003, 0.0004, 0.0004, 0.0003, 0.0004, 0.0003, 0.0004],
       device='cuda:1')
2022-11-15 22:07:18,796 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.7169, 2.3550, 3.0373, 3.8347, 3.8930, 2.6205, 2.0711, 3.7800],
       device='cuda:1'), covar=tensor([0.0387, 0.2680, 0.2088, 0.2389, 0.0798, 0.3076, 0.2232, 0.0409],
       device='cuda:1'), in_proj_covar=tensor([0.0201, 0.0206, 0.0202, 0.0329, 0.0222, 0.0216, 0.0193, 0.0207],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0004, 0.0005, 0.0006, 0.0005, 0.0005, 0.0004, 0.0005],
       device='cuda:1')
2022-11-15 22:07:19,755 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=1.93 vs. limit=2.0
2022-11-15 22:07:25,656 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([4.0793, 3.6246, 3.8862, 3.9804, 4.1348, 3.5404, 1.4141, 4.2063],
       device='cuda:1'), covar=tensor([0.0280, 0.0536, 0.0333, 0.0274, 0.0270, 0.0534, 0.3422, 0.0360],
       device='cuda:1'), in_proj_covar=tensor([0.0101, 0.0077, 0.0077, 0.0070, 0.0095, 0.0081, 0.0128, 0.0102],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
       device='cuda:1')
2022-11-15 22:07:27,248 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=1.96 vs. limit=2.0
2022-11-15 22:07:31,638 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.7335, 1.2170, 1.9008, 1.4204, 1.3905, 1.7434, 1.8414, 1.7526],
       device='cuda:1'), covar=tensor([0.0044, 0.0085, 0.0065, 0.0026, 0.0033, 0.0043, 0.0021, 0.0022],
       device='cuda:1'), in_proj_covar=tensor([0.0018, 0.0018, 0.0018, 0.0022, 0.0021, 0.0018, 0.0021, 0.0021],
       device='cuda:1'), out_proj_covar=tensor([1.7019e-05, 1.7794e-05, 1.7637e-05, 2.1915e-05, 1.9822e-05, 1.8163e-05,
        2.1131e-05, 2.2392e-05], device='cuda:1')
2022-11-15 22:08:19,522 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 9.856e+01 1.627e+02 2.176e+02 2.698e+02 5.044e+02, threshold=4.352e+02, percent-clipped=2.0
2022-11-15 22:08:28,064 INFO [train.py:876] (1/4) Epoch 7, batch 1400, loss[loss=0.1061, simple_loss=0.1312, pruned_loss=0.0405, over 5527.00 frames. ], tot_loss[loss=0.1532, simple_loss=0.1665, pruned_loss=0.06993, over 1090477.15 frames. ], batch size: 13, lr: 1.18e-02, grad_scale: 8.0
2022-11-15 22:08:34,972 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=2.04 vs. limit=2.0
2022-11-15 22:08:43,537 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=45056.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 22:08:49,928 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=4.81 vs. limit=5.0
2022-11-15 22:09:00,839 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=45081.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 22:09:24,840 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=45117.0, num_to_drop=1, layers_to_drop={0}
2022-11-15 22:09:25,741 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.33 vs. limit=2.0
2022-11-15 22:09:26,571 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.027e+02 1.653e+02 2.032e+02 2.682e+02 5.131e+02, threshold=4.064e+02, percent-clipped=2.0
2022-11-15 22:09:35,807 INFO [train.py:876] (1/4) Epoch 7, batch 1500, loss[loss=0.1367, simple_loss=0.1711, pruned_loss=0.0512, over 5717.00 frames. ], tot_loss[loss=0.1562, simple_loss=0.1684, pruned_loss=0.07204, over 1078261.12 frames. ], batch size: 19, lr: 1.18e-02, grad_scale: 8.0
2022-11-15 22:09:41,809 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=45142.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 22:10:07,663 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([5.7248, 5.0615, 5.5742, 5.0025, 5.7742, 5.7437, 4.8049, 5.6878],
       device='cuda:1'), covar=tensor([0.0299, 0.0230, 0.0341, 0.0286, 0.0324, 0.0104, 0.0209, 0.0144],
       device='cuda:1'), in_proj_covar=tensor([0.0112, 0.0124, 0.0091, 0.0124, 0.0133, 0.0079, 0.0105, 0.0121],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0002],
       device='cuda:1')
2022-11-15 22:10:08,794 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.93 vs. limit=2.0
2022-11-15 22:10:09,047 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=45183.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 22:10:24,971 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=45206.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 22:10:31,408 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.9045, 1.2161, 1.7595, 1.2330, 1.3778, 1.3753, 1.8011, 1.5722],
       device='cuda:1'), covar=tensor([0.0043, 0.0053, 0.0047, 0.0028, 0.0112, 0.0038, 0.0025, 0.0028],
       device='cuda:1'), in_proj_covar=tensor([0.0019, 0.0019, 0.0019, 0.0023, 0.0021, 0.0019, 0.0023, 0.0023],
       device='cuda:1'), out_proj_covar=tensor([1.8184e-05, 1.8968e-05, 1.8581e-05, 2.3134e-05, 2.0527e-05, 1.9009e-05,
        2.2548e-05, 2.4343e-05], device='cuda:1')
2022-11-15 22:10:34,225 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 9.120e+01 1.667e+02 2.029e+02 2.581e+02 4.326e+02, threshold=4.059e+02, percent-clipped=3.0
2022-11-15 22:10:41,633 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=45231.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 22:10:42,909 INFO [train.py:876] (1/4) Epoch 7, batch 1600, loss[loss=0.211, simple_loss=0.1893, pruned_loss=0.1163, over 3100.00 frames. ], tot_loss[loss=0.154, simple_loss=0.167, pruned_loss=0.0705, over 1076076.21 frames. ], batch size: 284, lr: 1.18e-02, grad_scale: 8.0
2022-11-15 22:10:45,980 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([4.7209, 4.5276, 4.7229, 4.8133, 4.3977, 4.4758, 5.3150, 4.6405],
       device='cuda:1'), covar=tensor([0.0346, 0.1185, 0.0322, 0.1094, 0.0377, 0.0202, 0.0653, 0.0505],
       device='cuda:1'), in_proj_covar=tensor([0.0077, 0.0097, 0.0082, 0.0104, 0.0078, 0.0068, 0.0130, 0.0086],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
       device='cuda:1')
2022-11-15 22:10:57,952 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=45254.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 22:11:25,356 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.1166, 3.7397, 3.2251, 3.6426, 3.7379, 3.0187, 3.2756, 3.0872],
       device='cuda:1'), covar=tensor([0.1256, 0.0479, 0.1530, 0.0456, 0.0474, 0.0522, 0.0642, 0.0624],
       device='cuda:1'), in_proj_covar=tensor([0.0119, 0.0155, 0.0247, 0.0155, 0.0191, 0.0154, 0.0166, 0.0148],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0004, 0.0002, 0.0003, 0.0002, 0.0002, 0.0002],
       device='cuda:1')
2022-11-15 22:11:42,141 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.135e+02 1.688e+02 2.070e+02 2.514e+02 3.710e+02, threshold=4.140e+02, percent-clipped=0.0
2022-11-15 22:11:51,081 INFO [train.py:876] (1/4) Epoch 7, batch 1700, loss[loss=0.1623, simple_loss=0.1747, pruned_loss=0.07493, over 5566.00 frames. ], tot_loss[loss=0.1537, simple_loss=0.1669, pruned_loss=0.07028, over 1080987.68 frames. ], batch size: 15, lr: 1.18e-02, grad_scale: 8.0
2022-11-15 22:12:01,490 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=45348.0, num_to_drop=1, layers_to_drop={0}
2022-11-15 22:12:42,835 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=45409.0, num_to_drop=1, layers_to_drop={3}
2022-11-15 22:12:45,014 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=45412.0, num_to_drop=1, layers_to_drop={2}
2022-11-15 22:12:50,413 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.019e+02 1.783e+02 2.189e+02 2.743e+02 5.258e+02, threshold=4.378e+02, percent-clipped=6.0
2022-11-15 22:12:58,913 INFO [train.py:876] (1/4) Epoch 7, batch 1800, loss[loss=0.1536, simple_loss=0.1701, pruned_loss=0.06852, over 5733.00 frames. ], tot_loss[loss=0.1534, simple_loss=0.1668, pruned_loss=0.07001, over 1079826.36 frames. ], batch size: 31, lr: 1.17e-02, grad_scale: 8.0
2022-11-15 22:13:01,572 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=45437.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 22:13:12,344 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.1713, 3.1869, 3.5159, 1.5076, 3.2839, 3.7172, 3.3656, 3.8327],
       device='cuda:1'), covar=tensor([0.2169, 0.1488, 0.0779, 0.3008, 0.0419, 0.0450, 0.0435, 0.0515],
       device='cuda:1'), in_proj_covar=tensor([0.0178, 0.0190, 0.0149, 0.0192, 0.0163, 0.0171, 0.0141, 0.0180],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
       device='cuda:1')
2022-11-15 22:13:57,537 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 9.508e+01 1.821e+02 2.184e+02 2.835e+02 7.738e+02, threshold=4.367e+02, percent-clipped=5.0
2022-11-15 22:13:58,775 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.3639, 2.2383, 2.4553, 3.3604, 3.3031, 2.4907, 1.9589, 3.4296],
       device='cuda:1'), covar=tensor([0.0582, 0.2422, 0.2178, 0.2188, 0.0948, 0.2494, 0.2157, 0.0427],
       device='cuda:1'), in_proj_covar=tensor([0.0200, 0.0204, 0.0200, 0.0319, 0.0221, 0.0216, 0.0193, 0.0202],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0004, 0.0004, 0.0006, 0.0005, 0.0005, 0.0004, 0.0004],
       device='cuda:1')
2022-11-15 22:14:06,281 INFO [train.py:876] (1/4) Epoch 7, batch 1900, loss[loss=0.1223, simple_loss=0.1501, pruned_loss=0.04724, over 5542.00 frames. ], tot_loss[loss=0.1541, simple_loss=0.1678, pruned_loss=0.07023, over 1090172.81 frames. ], batch size: 16, lr: 1.17e-02, grad_scale: 8.0
2022-11-15 22:14:36,561 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.5715, 3.9416, 3.4195, 3.9736, 3.9095, 3.4006, 3.6186, 3.5225],
       device='cuda:1'), covar=tensor([0.0825, 0.0479, 0.1700, 0.0452, 0.0495, 0.0454, 0.0650, 0.0539],
       device='cuda:1'), in_proj_covar=tensor([0.0120, 0.0155, 0.0245, 0.0155, 0.0190, 0.0156, 0.0167, 0.0148],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0004, 0.0002, 0.0003, 0.0002, 0.0002, 0.0002],
       device='cuda:1')
2022-11-15 22:15:04,860 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.287e+02 1.823e+02 2.221e+02 2.683e+02 3.782e+02, threshold=4.442e+02, percent-clipped=0.0
2022-11-15 22:15:13,880 INFO [train.py:876] (1/4) Epoch 7, batch 2000, loss[loss=0.1501, simple_loss=0.1719, pruned_loss=0.06416, over 5591.00 frames. ], tot_loss[loss=0.1557, simple_loss=0.1687, pruned_loss=0.07137, over 1094487.58 frames. ], batch size: 30, lr: 1.17e-02, grad_scale: 8.0
2022-11-15 22:15:23,441 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.91 vs. limit=2.0
2022-11-15 22:15:40,131 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.40 vs. limit=2.0
2022-11-15 22:16:01,064 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=45702.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 22:16:01,854 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.44 vs. limit=2.0
2022-11-15 22:16:02,301 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=45704.0, num_to_drop=1, layers_to_drop={1}
2022-11-15 22:16:07,689 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=45712.0, num_to_drop=1, layers_to_drop={0}
2022-11-15 22:16:12,591 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.145e+02 1.738e+02 2.020e+02 2.541e+02 5.348e+02, threshold=4.040e+02, percent-clipped=1.0
2022-11-15 22:16:21,530 INFO [train.py:876] (1/4) Epoch 7, batch 2100, loss[loss=0.1632, simple_loss=0.1697, pruned_loss=0.07836, over 5517.00 frames. ], tot_loss[loss=0.1556, simple_loss=0.1688, pruned_loss=0.07119, over 1093101.55 frames. ], batch size: 17, lr: 1.17e-02, grad_scale: 8.0
2022-11-15 22:16:24,215 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=45737.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 22:16:29,885 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.7158, 2.1557, 3.2338, 2.7506, 3.6705, 2.1849, 3.0042, 3.7282],
       device='cuda:1'), covar=tensor([0.0562, 0.1794, 0.0854, 0.1889, 0.0477, 0.1690, 0.1237, 0.0873],
       device='cuda:1'), in_proj_covar=tensor([0.0217, 0.0192, 0.0194, 0.0213, 0.0201, 0.0187, 0.0227, 0.0213],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004],
       device='cuda:1')
2022-11-15 22:16:39,951 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=45760.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 22:16:42,025 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=45763.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 22:16:49,027 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=45774.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 22:16:55,979 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=45785.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 22:17:13,155 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.9308, 2.3392, 2.2128, 1.2659, 2.4997, 2.7685, 2.4159, 3.0936],
       device='cuda:1'), covar=tensor([0.1970, 0.1602, 0.1335, 0.2792, 0.0496, 0.0637, 0.0349, 0.0636],
       device='cuda:1'), in_proj_covar=tensor([0.0177, 0.0191, 0.0151, 0.0191, 0.0162, 0.0173, 0.0140, 0.0180],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
       device='cuda:1')
2022-11-15 22:17:20,076 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 9.330e+01 1.725e+02 2.150e+02 2.571e+02 5.272e+02, threshold=4.300e+02, percent-clipped=3.0
2022-11-15 22:17:28,682 INFO [train.py:876] (1/4) Epoch 7, batch 2200, loss[loss=0.1681, simple_loss=0.1743, pruned_loss=0.0809, over 5566.00 frames. ], tot_loss[loss=0.1571, simple_loss=0.1697, pruned_loss=0.07229, over 1090019.97 frames. ], batch size: 25, lr: 1.17e-02, grad_scale: 8.0
2022-11-15 22:17:30,160 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=45835.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 22:17:46,381 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=45859.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 22:17:52,813 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.6690, 4.2091, 3.8075, 4.2934, 4.2754, 3.3997, 3.8250, 3.7768],
       device='cuda:1'), covar=tensor([0.0535, 0.0393, 0.1654, 0.0357, 0.0381, 0.0549, 0.0618, 0.0547],
       device='cuda:1'), in_proj_covar=tensor([0.0122, 0.0155, 0.0252, 0.0159, 0.0193, 0.0160, 0.0170, 0.0152],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0004, 0.0003, 0.0003, 0.0002, 0.0002, 0.0002],
       device='cuda:1')
2022-11-15 22:18:27,932 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.053e+02 1.659e+02 2.110e+02 2.622e+02 5.586e+02, threshold=4.221e+02, percent-clipped=2.0
2022-11-15 22:18:28,120 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=45920.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 22:18:36,860 INFO [train.py:876] (1/4) Epoch 7, batch 2300, loss[loss=0.1373, simple_loss=0.1535, pruned_loss=0.06059, over 5378.00 frames. ], tot_loss[loss=0.1531, simple_loss=0.1661, pruned_loss=0.07003, over 1087236.10 frames. ], batch size: 9, lr: 1.17e-02, grad_scale: 8.0
2022-11-15 22:19:19,750 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=1.80 vs. limit=2.0
2022-11-15 22:19:20,206 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.2000, 3.1504, 2.7637, 3.0868, 3.1805, 2.7652, 2.7507, 2.6760],
       device='cuda:1'), covar=tensor([0.0278, 0.0541, 0.1784, 0.0583, 0.0557, 0.0537, 0.0768, 0.0754],
       device='cuda:1'), in_proj_covar=tensor([0.0126, 0.0156, 0.0259, 0.0162, 0.0196, 0.0162, 0.0171, 0.0156],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0003, 0.0004, 0.0003, 0.0003, 0.0002, 0.0003, 0.0002],
       device='cuda:1')
2022-11-15 22:19:23,474 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.33 vs. limit=2.0
2022-11-15 22:19:25,059 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=46004.0, num_to_drop=1, layers_to_drop={1}
2022-11-15 22:19:35,541 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.089e+02 1.800e+02 2.204e+02 2.753e+02 4.636e+02, threshold=4.408e+02, percent-clipped=3.0
2022-11-15 22:19:44,586 INFO [train.py:876] (1/4) Epoch 7, batch 2400, loss[loss=0.1453, simple_loss=0.1667, pruned_loss=0.06197, over 5557.00 frames. ], tot_loss[loss=0.1525, simple_loss=0.1661, pruned_loss=0.06946, over 1087823.75 frames. ], batch size: 15, lr: 1.17e-02, grad_scale: 8.0
2022-11-15 22:19:57,578 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=46052.0, num_to_drop=1, layers_to_drop={0}
2022-11-15 22:20:01,766 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=46058.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 22:20:26,876 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.8875, 2.5452, 2.4958, 1.4375, 2.4610, 2.8564, 2.4858, 3.0032],
       device='cuda:1'), covar=tensor([0.1951, 0.1637, 0.0967, 0.2818, 0.0505, 0.0577, 0.0533, 0.0776],
       device='cuda:1'), in_proj_covar=tensor([0.0178, 0.0189, 0.0151, 0.0191, 0.0161, 0.0173, 0.0141, 0.0179],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
       device='cuda:1')
2022-11-15 22:20:43,096 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.181e+02 1.760e+02 2.143e+02 2.682e+02 4.652e+02, threshold=4.287e+02, percent-clipped=1.0
2022-11-15 22:20:49,997 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=46130.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 22:20:51,907 INFO [train.py:876] (1/4) Epoch 7, batch 2500, loss[loss=0.1744, simple_loss=0.1748, pruned_loss=0.08703, over 4990.00 frames. ], tot_loss[loss=0.1542, simple_loss=0.1671, pruned_loss=0.07068, over 1081628.30 frames. ], batch size: 109, lr: 1.17e-02, grad_scale: 8.0
2022-11-15 22:20:58,846 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.37 vs. limit=2.0
2022-11-15 22:21:04,235 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=2.01 vs. limit=2.0
2022-11-15 22:21:09,397 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=4.59 vs. limit=5.0
2022-11-15 22:21:12,317 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([0.8648, 1.2418, 1.0026, 0.5342, 1.3510, 1.0570, 0.7450, 1.1874],
       device='cuda:1'), covar=tensor([0.0034, 0.0018, 0.0026, 0.0031, 0.0020, 0.0026, 0.0044, 0.0033],
       device='cuda:1'), in_proj_covar=tensor([0.0036, 0.0033, 0.0035, 0.0035, 0.0032, 0.0029, 0.0034, 0.0028],
       device='cuda:1'), out_proj_covar=tensor([3.2809e-05, 3.1348e-05, 3.1418e-05, 3.2624e-05, 2.8536e-05, 2.4686e-05,
        3.2531e-05, 2.5474e-05], device='cuda:1')
2022-11-15 22:21:47,943 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=46215.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 22:21:51,094 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.093e+02 1.657e+02 1.935e+02 2.390e+02 4.850e+02, threshold=3.869e+02, percent-clipped=1.0
2022-11-15 22:21:59,980 INFO [train.py:876] (1/4) Epoch 7, batch 2600, loss[loss=0.1339, simple_loss=0.1592, pruned_loss=0.05432, over 5493.00 frames. ], tot_loss[loss=0.153, simple_loss=0.1665, pruned_loss=0.06978, over 1083495.95 frames. ], batch size: 17, lr: 1.16e-02, grad_scale: 8.0
2022-11-15 22:22:29,334 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=46276.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 22:22:39,625 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=4.74 vs. limit=5.0
2022-11-15 22:22:42,392 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.34 vs. limit=2.0
2022-11-15 22:22:59,256 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.157e+02 1.863e+02 2.232e+02 2.729e+02 4.275e+02, threshold=4.463e+02, percent-clipped=4.0
2022-11-15 22:23:07,784 INFO [train.py:876] (1/4) Epoch 7, batch 2700, loss[loss=0.1305, simple_loss=0.1574, pruned_loss=0.05179, over 5589.00 frames. ], tot_loss[loss=0.1533, simple_loss=0.167, pruned_loss=0.06981, over 1089651.58 frames. ], batch size: 16, lr: 1.16e-02, grad_scale: 8.0
2022-11-15 22:23:10,626 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=46337.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 22:23:25,117 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=46358.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 22:23:25,893 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.0905, 2.0540, 2.7386, 2.5963, 2.4183, 2.0058, 2.6140, 3.1098],
       device='cuda:1'), covar=tensor([0.0352, 0.1078, 0.0626, 0.0948, 0.0511, 0.1037, 0.0666, 0.0439],
       device='cuda:1'), in_proj_covar=tensor([0.0212, 0.0188, 0.0195, 0.0210, 0.0199, 0.0183, 0.0222, 0.0211],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0003, 0.0004, 0.0004],
       device='cuda:1')
2022-11-15 22:23:59,109 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=46406.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 22:24:09,519 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.125e+02 1.800e+02 2.089e+02 2.479e+02 4.263e+02, threshold=4.179e+02, percent-clipped=0.0
2022-11-15 22:24:16,890 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=46430.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 22:24:18,865 INFO [train.py:876] (1/4) Epoch 7, batch 2800, loss[loss=0.1416, simple_loss=0.1558, pruned_loss=0.06372, over 5547.00 frames. ], tot_loss[loss=0.1521, simple_loss=0.1663, pruned_loss=0.06895, over 1087733.78 frames. ], batch size: 21, lr: 1.16e-02, grad_scale: 16.0
2022-11-15 22:24:49,432 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=46478.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 22:25:05,314 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.32 vs. limit=2.0
2022-11-15 22:25:14,652 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=46515.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 22:25:18,215 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.078e+02 1.794e+02 2.220e+02 2.623e+02 4.968e+02, threshold=4.440e+02, percent-clipped=2.0
2022-11-15 22:25:21,028 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.8112, 1.2148, 1.9285, 1.2765, 1.5740, 1.8574, 1.5366, 1.3909],
       device='cuda:1'), covar=tensor([0.0027, 0.0092, 0.0022, 0.0038, 0.0048, 0.0029, 0.0025, 0.0037],
       device='cuda:1'), in_proj_covar=tensor([0.0017, 0.0018, 0.0018, 0.0021, 0.0019, 0.0018, 0.0022, 0.0021],
       device='cuda:1'), out_proj_covar=tensor([1.5896e-05, 1.7661e-05, 1.7096e-05, 2.1371e-05, 1.8698e-05, 1.7520e-05,
        2.1522e-05, 2.2505e-05], device='cuda:1')
2022-11-15 22:25:25,416 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=2.10 vs. limit=2.0
2022-11-15 22:25:27,097 INFO [train.py:876] (1/4) Epoch 7, batch 2900, loss[loss=0.1254, simple_loss=0.1487, pruned_loss=0.05099, over 5609.00 frames. ], tot_loss[loss=0.1522, simple_loss=0.1657, pruned_loss=0.06931, over 1083573.69 frames. ], batch size: 18, lr: 1.16e-02, grad_scale: 16.0
2022-11-15 22:25:40,109 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=2.01 vs. limit=2.0
2022-11-15 22:25:47,070 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=46563.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 22:26:08,945 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=46595.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 22:26:13,974 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=46602.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 22:26:17,470 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=1.93 vs. limit=2.0
2022-11-15 22:26:26,117 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.182e+02 1.852e+02 2.208e+02 2.830e+02 6.179e+02, threshold=4.416e+02, percent-clipped=4.0
2022-11-15 22:26:26,313 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([0.9810, 0.6938, 0.9892, 0.9936, 0.9768, 1.0944, 0.6866, 0.9908],
       device='cuda:1'), covar=tensor([0.0502, 0.0500, 0.0409, 0.0494, 0.0619, 0.0289, 0.0530, 0.0477],
       device='cuda:1'), in_proj_covar=tensor([0.0011, 0.0016, 0.0011, 0.0013, 0.0012, 0.0010, 0.0015, 0.0011],
       device='cuda:1'), out_proj_covar=tensor([5.3159e-05, 7.0971e-05, 5.4209e-05, 6.1634e-05, 5.7533e-05, 5.2532e-05,
        6.6043e-05, 5.4903e-05], device='cuda:1')
2022-11-15 22:26:34,359 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=46632.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 22:26:34,919 INFO [train.py:876] (1/4) Epoch 7, batch 3000, loss[loss=0.1673, simple_loss=0.1864, pruned_loss=0.07408, over 5566.00 frames. ], tot_loss[loss=0.1515, simple_loss=0.1654, pruned_loss=0.06881, over 1088365.72 frames. ], batch size: 25, lr: 1.16e-02, grad_scale: 16.0
2022-11-15 22:26:34,919 INFO [train.py:899] (1/4) Computing validation loss
2022-11-15 22:26:45,545 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.3625, 4.8175, 3.5815, 2.3194, 4.6107, 2.2607, 3.9501, 3.1361],
       device='cuda:1'), covar=tensor([0.1060, 0.0096, 0.0512, 0.2311, 0.0130, 0.1523, 0.0229, 0.1325],
       device='cuda:1'), in_proj_covar=tensor([0.0127, 0.0105, 0.0116, 0.0119, 0.0106, 0.0129, 0.0097, 0.0121],
       device='cuda:1'), out_proj_covar=tensor([0.0005, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0003, 0.0004],
       device='cuda:1')
2022-11-15 22:26:52,608 INFO [train.py:908] (1/4) Epoch 7, validation: loss=0.1596, simple_loss=0.1815, pruned_loss=0.06886, over 1530663.00 frames. 
2022-11-15 22:26:52,608 INFO [train.py:909] (1/4) Maximum memory allocated so far is 4676MB
2022-11-15 22:27:02,037 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([4.0063, 2.1469, 3.5388, 3.0906, 3.8442, 2.3261, 3.4755, 4.1215],
       device='cuda:1'), covar=tensor([0.0464, 0.1678, 0.0924, 0.1612, 0.0508, 0.1414, 0.0917, 0.0527],
       device='cuda:1'), in_proj_covar=tensor([0.0213, 0.0190, 0.0195, 0.0211, 0.0203, 0.0185, 0.0223, 0.0212],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0003, 0.0004, 0.0004],
       device='cuda:1')
2022-11-15 22:27:08,195 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=46656.0, num_to_drop=1, layers_to_drop={2}
2022-11-15 22:27:12,631 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=46663.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 22:27:24,020 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.3970, 3.3238, 3.3214, 2.8474, 1.9868, 3.3319, 2.0242, 2.6471],
       device='cuda:1'), covar=tensor([0.0313, 0.0123, 0.0150, 0.0374, 0.0415, 0.0130, 0.0376, 0.0135],
       device='cuda:1'), in_proj_covar=tensor([0.0174, 0.0141, 0.0155, 0.0172, 0.0171, 0.0154, 0.0166, 0.0147],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0002, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0002],
       device='cuda:1')
2022-11-15 22:27:30,638 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([5.9757, 5.4348, 5.6648, 5.3042, 6.0431, 5.8993, 4.8978, 5.8537],
       device='cuda:1'), covar=tensor([0.0348, 0.0272, 0.0382, 0.0285, 0.0252, 0.0122, 0.0265, 0.0290],
       device='cuda:1'), in_proj_covar=tensor([0.0116, 0.0126, 0.0093, 0.0125, 0.0138, 0.0081, 0.0108, 0.0124],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0003],
       device='cuda:1')
2022-11-15 22:27:37,206 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([0.7696, 0.9490, 1.1054, 0.7626, 0.8961, 1.1683, 0.5479, 1.0510],
       device='cuda:1'), covar=tensor([0.0036, 0.0018, 0.0029, 0.0029, 0.0021, 0.0021, 0.0049, 0.0027],
       device='cuda:1'), in_proj_covar=tensor([0.0038, 0.0035, 0.0036, 0.0037, 0.0034, 0.0030, 0.0034, 0.0029],
       device='cuda:1'), out_proj_covar=tensor([3.4769e-05, 3.2887e-05, 3.3021e-05, 3.4360e-05, 3.0045e-05, 2.6083e-05,
        3.3319e-05, 2.6275e-05], device='cuda:1')
2022-11-15 22:27:50,896 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 9.581e+01 1.880e+02 2.186e+02 2.617e+02 4.736e+02, threshold=4.372e+02, percent-clipped=3.0
2022-11-15 22:27:59,278 INFO [train.py:876] (1/4) Epoch 7, batch 3100, loss[loss=0.1226, simple_loss=0.1502, pruned_loss=0.04752, over 5718.00 frames. ], tot_loss[loss=0.151, simple_loss=0.1655, pruned_loss=0.06822, over 1093483.60 frames. ], batch size: 14, lr: 1.16e-02, grad_scale: 16.0
2022-11-15 22:28:40,472 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.74 vs. limit=2.0
2022-11-15 22:28:40,896 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.2248, 2.0358, 2.4293, 3.2115, 3.2277, 2.4813, 1.9289, 3.3663],
       device='cuda:1'), covar=tensor([0.0586, 0.2847, 0.2059, 0.2751, 0.1024, 0.2821, 0.2471, 0.0479],
       device='cuda:1'), in_proj_covar=tensor([0.0197, 0.0204, 0.0195, 0.0317, 0.0217, 0.0211, 0.0188, 0.0204],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0004, 0.0004, 0.0006, 0.0005, 0.0005, 0.0004, 0.0004],
       device='cuda:1')
2022-11-15 22:28:51,909 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=46810.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 22:28:57,474 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([0.9483, 1.4207, 1.2951, 1.1631, 1.1498, 1.7156, 1.4307, 1.1508],
       device='cuda:1'), covar=tensor([0.1635, 0.0563, 0.1290, 0.1870, 0.2002, 0.0430, 0.1311, 0.1835],
       device='cuda:1'), in_proj_covar=tensor([0.0065, 0.0051, 0.0055, 0.0068, 0.0055, 0.0045, 0.0050, 0.0056],
       device='cuda:1'), out_proj_covar=tensor([0.0001, 0.0001, 0.0001, 0.0001, 0.0001, 0.0001, 0.0001, 0.0001],
       device='cuda:1')
2022-11-15 22:28:58,608 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 9.858e+01 1.618e+02 2.001e+02 2.391e+02 5.637e+02, threshold=4.002e+02, percent-clipped=1.0
2022-11-15 22:29:07,480 INFO [train.py:876] (1/4) Epoch 7, batch 3200, loss[loss=0.1537, simple_loss=0.166, pruned_loss=0.07066, over 5599.00 frames. ], tot_loss[loss=0.1507, simple_loss=0.1652, pruned_loss=0.06811, over 1088367.64 frames. ], batch size: 18, lr: 1.16e-02, grad_scale: 16.0
2022-11-15 22:29:25,864 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.5597, 1.4908, 1.6540, 1.3251, 1.4912, 1.6714, 1.3741, 0.8980],
       device='cuda:1'), covar=tensor([0.0012, 0.0028, 0.0022, 0.0028, 0.0050, 0.0028, 0.0022, 0.0034],
       device='cuda:1'), in_proj_covar=tensor([0.0017, 0.0018, 0.0018, 0.0022, 0.0020, 0.0018, 0.0022, 0.0022],
       device='cuda:1'), out_proj_covar=tensor([1.6248e-05, 1.7865e-05, 1.7307e-05, 2.1692e-05, 1.8718e-05, 1.8139e-05,
        2.1565e-05, 2.3145e-05], device='cuda:1')
2022-11-15 22:29:33,376 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=46871.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 22:30:06,305 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.017e+02 1.769e+02 2.073e+02 2.656e+02 5.224e+02, threshold=4.147e+02, percent-clipped=4.0
2022-11-15 22:30:14,559 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=46932.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 22:30:15,148 INFO [train.py:876] (1/4) Epoch 7, batch 3300, loss[loss=0.1144, simple_loss=0.1366, pruned_loss=0.04612, over 5719.00 frames. ], tot_loss[loss=0.1501, simple_loss=0.1648, pruned_loss=0.06768, over 1088118.50 frames. ], batch size: 13, lr: 1.16e-02, grad_scale: 16.0
2022-11-15 22:30:27,233 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=46951.0, num_to_drop=1, layers_to_drop={0}
2022-11-15 22:30:32,489 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=46958.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 22:30:47,192 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=46980.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 22:31:13,668 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=1.85 vs. limit=2.0
2022-11-15 22:31:14,069 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.9871, 2.2590, 3.4141, 2.9336, 3.9546, 2.3828, 3.3260, 3.9940],
       device='cuda:1'), covar=tensor([0.0586, 0.2015, 0.0906, 0.1666, 0.0459, 0.1606, 0.1299, 0.0759],
       device='cuda:1'), in_proj_covar=tensor([0.0214, 0.0190, 0.0195, 0.0209, 0.0204, 0.0183, 0.0224, 0.0213],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0003, 0.0004, 0.0004],
       device='cuda:1')
2022-11-15 22:31:14,482 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.138e+02 1.793e+02 2.115e+02 2.507e+02 4.736e+02, threshold=4.229e+02, percent-clipped=3.0
2022-11-15 22:31:15,333 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.1843, 1.8304, 1.4299, 1.2373, 1.0149, 1.1562, 1.0380, 1.6495],
       device='cuda:1'), covar=tensor([0.0036, 0.0033, 0.0026, 0.0036, 0.0032, 0.0023, 0.0027, 0.0036],
       device='cuda:1'), in_proj_covar=tensor([0.0037, 0.0033, 0.0035, 0.0036, 0.0033, 0.0030, 0.0033, 0.0028],
       device='cuda:1'), out_proj_covar=tensor([3.4295e-05, 3.1468e-05, 3.1865e-05, 3.3013e-05, 2.9152e-05, 2.6002e-05,
        3.2097e-05, 2.5535e-05], device='cuda:1')
2022-11-15 22:31:23,349 INFO [train.py:876] (1/4) Epoch 7, batch 3400, loss[loss=0.1123, simple_loss=0.1381, pruned_loss=0.04321, over 5518.00 frames. ], tot_loss[loss=0.1495, simple_loss=0.1646, pruned_loss=0.06722, over 1088510.91 frames. ], batch size: 12, lr: 1.15e-02, grad_scale: 16.0
2022-11-15 22:31:56,352 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.30 vs. limit=2.0
2022-11-15 22:32:03,980 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.40 vs. limit=2.0
2022-11-15 22:32:22,898 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.015e+02 1.842e+02 2.111e+02 2.660e+02 4.907e+02, threshold=4.221e+02, percent-clipped=3.0
2022-11-15 22:32:31,438 INFO [train.py:876] (1/4) Epoch 7, batch 3500, loss[loss=0.127, simple_loss=0.1382, pruned_loss=0.05783, over 5143.00 frames. ], tot_loss[loss=0.1509, simple_loss=0.1654, pruned_loss=0.06824, over 1079639.02 frames. ], batch size: 7, lr: 1.15e-02, grad_scale: 16.0
2022-11-15 22:32:38,055 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=4.43 vs. limit=5.0
2022-11-15 22:32:42,864 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.9185, 1.8388, 2.2713, 2.1691, 1.2604, 2.0644, 1.4381, 1.4467],
       device='cuda:1'), covar=tensor([0.0136, 0.0074, 0.0074, 0.0083, 0.0198, 0.0083, 0.0187, 0.0128],
       device='cuda:1'), in_proj_covar=tensor([0.0178, 0.0145, 0.0158, 0.0175, 0.0173, 0.0157, 0.0170, 0.0151],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
       device='cuda:1')
2022-11-15 22:32:49,741 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.25 vs. limit=2.0
2022-11-15 22:32:54,455 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=47166.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 22:33:30,930 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.117e+02 1.714e+02 2.031e+02 2.581e+02 4.185e+02, threshold=4.062e+02, percent-clipped=0.0
2022-11-15 22:33:39,504 INFO [train.py:876] (1/4) Epoch 7, batch 3600, loss[loss=0.1287, simple_loss=0.1548, pruned_loss=0.05124, over 5627.00 frames. ], tot_loss[loss=0.1518, simple_loss=0.165, pruned_loss=0.06929, over 1070696.47 frames. ], batch size: 29, lr: 1.15e-02, grad_scale: 16.0
2022-11-15 22:33:44,755 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=47241.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 22:33:52,085 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=47251.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 22:33:56,655 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=47258.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 22:34:12,988 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.7301, 2.7132, 2.0850, 2.3623, 1.5444, 2.2572, 1.5693, 2.4286],
       device='cuda:1'), covar=tensor([0.1107, 0.0235, 0.0777, 0.0447, 0.1319, 0.0708, 0.1535, 0.0305],
       device='cuda:1'), in_proj_covar=tensor([0.0171, 0.0135, 0.0169, 0.0140, 0.0174, 0.0180, 0.0175, 0.0145],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0004, 0.0004, 0.0004, 0.0003],
       device='cuda:1')
2022-11-15 22:34:14,335 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.3979, 1.0796, 1.5347, 0.9847, 1.4970, 1.3867, 1.0883, 1.1291],
       device='cuda:1'), covar=tensor([0.1459, 0.0616, 0.0294, 0.0588, 0.1667, 0.0915, 0.1194, 0.0579],
       device='cuda:1'), in_proj_covar=tensor([0.0011, 0.0016, 0.0011, 0.0013, 0.0012, 0.0010, 0.0014, 0.0011],
       device='cuda:1'), out_proj_covar=tensor([5.2776e-05, 6.9753e-05, 5.2926e-05, 6.2031e-05, 5.7799e-05, 5.2468e-05,
        6.5047e-05, 5.3077e-05], device='cuda:1')
2022-11-15 22:34:23,971 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=47299.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 22:34:26,059 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=47302.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 22:34:28,905 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=47306.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 22:34:34,527 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.8289, 2.9117, 2.0994, 2.6130, 1.6921, 2.3140, 1.6937, 2.5814],
       device='cuda:1'), covar=tensor([0.1155, 0.0220, 0.0903, 0.0395, 0.1300, 0.0787, 0.1612, 0.0345],
       device='cuda:1'), in_proj_covar=tensor([0.0172, 0.0135, 0.0170, 0.0140, 0.0175, 0.0180, 0.0176, 0.0146],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0004, 0.0004, 0.0004, 0.0003],
       device='cuda:1')
2022-11-15 22:34:38,257 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.049e+02 1.693e+02 2.082e+02 2.562e+02 5.983e+02, threshold=4.163e+02, percent-clipped=3.0
2022-11-15 22:34:47,572 INFO [train.py:876] (1/4) Epoch 7, batch 3700, loss[loss=0.1429, simple_loss=0.1477, pruned_loss=0.06907, over 4949.00 frames. ], tot_loss[loss=0.1516, simple_loss=0.1653, pruned_loss=0.0689, over 1076758.71 frames. ], batch size: 109, lr: 1.15e-02, grad_scale: 16.0
2022-11-15 22:35:18,575 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=47379.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 22:35:19,876 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.5904, 2.5072, 2.2095, 2.7542, 2.2281, 2.6147, 2.4841, 3.4621],
       device='cuda:1'), covar=tensor([0.1121, 0.2374, 0.3044, 0.2546, 0.2223, 0.1180, 0.2005, 0.0822],
       device='cuda:1'), in_proj_covar=tensor([0.0078, 0.0081, 0.0092, 0.0073, 0.0078, 0.0076, 0.0087, 0.0060],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0002],
       device='cuda:1')
2022-11-15 22:35:45,145 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.8547, 4.8060, 3.7092, 2.0397, 4.5425, 2.1089, 4.6557, 2.8194],
       device='cuda:1'), covar=tensor([0.1308, 0.0097, 0.0435, 0.2260, 0.0127, 0.1664, 0.0087, 0.1535],
       device='cuda:1'), in_proj_covar=tensor([0.0126, 0.0103, 0.0113, 0.0117, 0.0104, 0.0126, 0.0094, 0.0117],
       device='cuda:1'), out_proj_covar=tensor([0.0005, 0.0003, 0.0004, 0.0004, 0.0004, 0.0004, 0.0003, 0.0004],
       device='cuda:1')
2022-11-15 22:35:46,988 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.114e+02 1.850e+02 2.309e+02 2.787e+02 6.530e+02, threshold=4.618e+02, percent-clipped=2.0
2022-11-15 22:35:56,051 INFO [train.py:876] (1/4) Epoch 7, batch 3800, loss[loss=0.1315, simple_loss=0.1588, pruned_loss=0.05212, over 5588.00 frames. ], tot_loss[loss=0.1505, simple_loss=0.1653, pruned_loss=0.0679, over 1083131.30 frames. ], batch size: 18, lr: 1.15e-02, grad_scale: 16.0
2022-11-15 22:36:00,949 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=47440.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 22:36:07,063 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.2504, 2.0206, 2.8254, 2.5632, 2.5659, 2.0948, 2.6689, 3.1947],
       device='cuda:1'), covar=tensor([0.0479, 0.1058, 0.0594, 0.0955, 0.0523, 0.0981, 0.0682, 0.0469],
       device='cuda:1'), in_proj_covar=tensor([0.0215, 0.0190, 0.0196, 0.0211, 0.0205, 0.0181, 0.0223, 0.0214],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0003, 0.0004, 0.0004],
       device='cuda:1')
2022-11-15 22:36:18,969 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=47466.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 22:36:51,694 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=47514.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 22:36:56,172 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.113e+02 1.606e+02 1.959e+02 2.426e+02 3.388e+02, threshold=3.918e+02, percent-clipped=0.0
2022-11-15 22:37:04,432 INFO [train.py:876] (1/4) Epoch 7, batch 3900, loss[loss=0.13, simple_loss=0.1475, pruned_loss=0.05623, over 5407.00 frames. ], tot_loss[loss=0.1528, simple_loss=0.1663, pruned_loss=0.06969, over 1077563.43 frames. ], batch size: 11, lr: 1.15e-02, grad_scale: 8.0
2022-11-15 22:37:47,945 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=47597.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 22:37:50,574 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([0.5652, 0.8145, 0.7851, 0.6037, 0.9439, 1.2067, 1.0106, 0.9057],
       device='cuda:1'), covar=tensor([0.2156, 0.0280, 0.1444, 0.1781, 0.1235, 0.0382, 0.1601, 0.1278],
       device='cuda:1'), in_proj_covar=tensor([0.0066, 0.0051, 0.0056, 0.0070, 0.0056, 0.0047, 0.0051, 0.0058],
       device='cuda:1'), out_proj_covar=tensor([0.0001, 0.0001, 0.0001, 0.0001, 0.0001, 0.0001, 0.0001, 0.0001],
       device='cuda:1')
2022-11-15 22:38:04,271 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.046e+02 1.833e+02 2.156e+02 2.681e+02 5.878e+02, threshold=4.311e+02, percent-clipped=5.0
2022-11-15 22:38:12,272 INFO [train.py:876] (1/4) Epoch 7, batch 4000, loss[loss=0.1343, simple_loss=0.1463, pruned_loss=0.0612, over 4454.00 frames. ], tot_loss[loss=0.1551, simple_loss=0.1679, pruned_loss=0.07112, over 1081694.88 frames. ], batch size: 5, lr: 1.15e-02, grad_scale: 8.0
2022-11-15 22:38:37,074 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.23 vs. limit=2.0
2022-11-15 22:38:39,698 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=1.69 vs. limit=2.0
2022-11-15 22:38:41,737 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=4.25 vs. limit=5.0
2022-11-15 22:39:01,346 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=2.10 vs. limit=2.0
2022-11-15 22:39:12,714 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.180e+02 1.745e+02 2.156e+02 2.532e+02 4.633e+02, threshold=4.312e+02, percent-clipped=4.0
2022-11-15 22:39:20,695 INFO [train.py:876] (1/4) Epoch 7, batch 4100, loss[loss=0.1519, simple_loss=0.1641, pruned_loss=0.06984, over 5548.00 frames. ], tot_loss[loss=0.1528, simple_loss=0.1662, pruned_loss=0.06966, over 1080742.92 frames. ], batch size: 43, lr: 1.15e-02, grad_scale: 8.0
2022-11-15 22:39:21,993 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=47735.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 22:39:24,129 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=47738.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 22:39:58,267 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=47788.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 22:40:05,393 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=47799.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 22:40:12,063 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=47809.0, num_to_drop=1, layers_to_drop={1}
2022-11-15 22:40:20,467 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.020e+02 1.771e+02 2.148e+02 2.600e+02 4.098e+02, threshold=4.296e+02, percent-clipped=0.0
2022-11-15 22:40:29,021 INFO [train.py:876] (1/4) Epoch 7, batch 4200, loss[loss=0.1688, simple_loss=0.1772, pruned_loss=0.0802, over 5695.00 frames. ], tot_loss[loss=0.1532, simple_loss=0.1669, pruned_loss=0.06974, over 1083216.21 frames. ], batch size: 36, lr: 1.14e-02, grad_scale: 8.0
2022-11-15 22:40:39,595 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=47849.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 22:40:50,726 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=1.80 vs. limit=2.0
2022-11-15 22:40:53,490 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=47870.0, num_to_drop=1, layers_to_drop={1}
2022-11-15 22:41:11,964 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=47897.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 22:41:27,582 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.072e+02 1.804e+02 2.056e+02 2.615e+02 5.152e+02, threshold=4.112e+02, percent-clipped=3.0
2022-11-15 22:41:36,123 INFO [train.py:876] (1/4) Epoch 7, batch 4300, loss[loss=0.1534, simple_loss=0.1693, pruned_loss=0.06877, over 5738.00 frames. ], tot_loss[loss=0.152, simple_loss=0.1663, pruned_loss=0.06887, over 1080814.88 frames. ], batch size: 31, lr: 1.14e-02, grad_scale: 8.0
2022-11-15 22:41:44,852 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=47945.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 22:42:00,499 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=1.91 vs. limit=2.0
2022-11-15 22:42:36,450 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.061e+02 1.735e+02 2.013e+02 2.634e+02 5.022e+02, threshold=4.026e+02, percent-clipped=3.0
2022-11-15 22:42:44,692 INFO [train.py:876] (1/4) Epoch 7, batch 4400, loss[loss=0.1565, simple_loss=0.1684, pruned_loss=0.07226, over 5583.00 frames. ], tot_loss[loss=0.1505, simple_loss=0.1652, pruned_loss=0.06792, over 1080534.88 frames. ], batch size: 22, lr: 1.14e-02, grad_scale: 8.0
2022-11-15 22:42:46,465 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=48035.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 22:42:58,377 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.4744, 1.9040, 2.0532, 1.3512, 1.0167, 2.6206, 2.3273, 1.6534],
       device='cuda:1'), covar=tensor([0.0659, 0.0746, 0.0659, 0.2771, 0.3863, 0.4017, 0.1624, 0.1354],
       device='cuda:1'), in_proj_covar=tensor([0.0066, 0.0052, 0.0056, 0.0070, 0.0055, 0.0046, 0.0051, 0.0059],
       device='cuda:1'), out_proj_covar=tensor([0.0001, 0.0001, 0.0001, 0.0001, 0.0001, 0.0001, 0.0001, 0.0001],
       device='cuda:1')
2022-11-15 22:43:11,621 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=48072.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 22:43:18,743 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=48083.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 22:43:26,709 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=48094.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 22:43:44,369 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.086e+02 1.659e+02 2.129e+02 2.741e+02 6.031e+02, threshold=4.258e+02, percent-clipped=4.0
2022-11-15 22:43:52,255 INFO [train.py:876] (1/4) Epoch 7, batch 4500, loss[loss=0.1576, simple_loss=0.176, pruned_loss=0.06963, over 5648.00 frames. ], tot_loss[loss=0.1484, simple_loss=0.1639, pruned_loss=0.06646, over 1085131.97 frames. ], batch size: 11, lr: 1.14e-02, grad_scale: 8.0
2022-11-15 22:43:52,413 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=48133.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 22:43:59,755 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=48144.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 22:44:07,237 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.27 vs. limit=2.0
2022-11-15 22:44:14,571 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=48165.0, num_to_drop=1, layers_to_drop={1}
2022-11-15 22:44:24,182 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([5.1309, 4.7154, 4.7219, 4.5891, 5.2581, 5.1707, 4.5987, 5.1289],
       device='cuda:1'), covar=tensor([0.0338, 0.0260, 0.0489, 0.0315, 0.0273, 0.0103, 0.0267, 0.0259],
       device='cuda:1'), in_proj_covar=tensor([0.0121, 0.0127, 0.0096, 0.0128, 0.0142, 0.0084, 0.0107, 0.0124],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0003],
       device='cuda:1')
2022-11-15 22:44:40,263 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=1.70 vs. limit=2.0
2022-11-15 22:44:44,336 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.2511, 4.3915, 2.9834, 4.0407, 3.3753, 2.9979, 2.2898, 3.7113],
       device='cuda:1'), covar=tensor([0.1657, 0.0191, 0.0942, 0.0372, 0.0527, 0.0933, 0.1789, 0.0313],
       device='cuda:1'), in_proj_covar=tensor([0.0168, 0.0136, 0.0167, 0.0141, 0.0172, 0.0177, 0.0176, 0.0147],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0004, 0.0004, 0.0004, 0.0003],
       device='cuda:1')
2022-11-15 22:44:46,307 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=48212.0, num_to_drop=1, layers_to_drop={0}
2022-11-15 22:44:52,385 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.044e+02 1.660e+02 2.072e+02 2.700e+02 4.661e+02, threshold=4.143e+02, percent-clipped=2.0
2022-11-15 22:45:00,425 INFO [train.py:876] (1/4) Epoch 7, batch 4600, loss[loss=0.1799, simple_loss=0.1878, pruned_loss=0.08597, over 5688.00 frames. ], tot_loss[loss=0.1494, simple_loss=0.1645, pruned_loss=0.06719, over 1090615.49 frames. ], batch size: 34, lr: 1.14e-02, grad_scale: 8.0
2022-11-15 22:45:28,009 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=48273.0, num_to_drop=1, layers_to_drop={0}
2022-11-15 22:45:50,155 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.4079, 3.1538, 3.1158, 2.8342, 1.9418, 3.0880, 2.0466, 2.6685],
       device='cuda:1'), covar=tensor([0.0244, 0.0113, 0.0117, 0.0163, 0.0290, 0.0138, 0.0361, 0.0108],
       device='cuda:1'), in_proj_covar=tensor([0.0179, 0.0146, 0.0159, 0.0177, 0.0173, 0.0158, 0.0169, 0.0151],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
       device='cuda:1')
2022-11-15 22:46:00,361 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.286e+02 1.710e+02 2.127e+02 2.706e+02 4.557e+02, threshold=4.254e+02, percent-clipped=4.0
2022-11-15 22:46:02,400 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=48324.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 22:46:08,676 INFO [train.py:876] (1/4) Epoch 7, batch 4700, loss[loss=0.1088, simple_loss=0.1304, pruned_loss=0.04362, over 5152.00 frames. ], tot_loss[loss=0.1505, simple_loss=0.1647, pruned_loss=0.06819, over 1086700.78 frames. ], batch size: 8, lr: 1.14e-02, grad_scale: 8.0
2022-11-15 22:46:44,372 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=48385.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 22:46:50,277 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=48394.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 22:46:52,221 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=48397.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 22:47:08,411 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.075e+02 1.686e+02 2.046e+02 2.615e+02 4.137e+02, threshold=4.091e+02, percent-clipped=0.0
2022-11-15 22:47:10,265 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=48423.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 22:47:13,451 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=48428.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 22:47:17,033 INFO [train.py:876] (1/4) Epoch 7, batch 4800, loss[loss=0.1628, simple_loss=0.1773, pruned_loss=0.07413, over 5634.00 frames. ], tot_loss[loss=0.1493, simple_loss=0.1637, pruned_loss=0.06746, over 1079090.64 frames. ], batch size: 38, lr: 1.14e-02, grad_scale: 8.0
2022-11-15 22:47:22,997 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=48442.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 22:47:23,163 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.2298, 2.7580, 2.9359, 2.7549, 1.7566, 2.9162, 1.9409, 1.9887],
       device='cuda:1'), covar=tensor([0.0302, 0.0170, 0.0124, 0.0207, 0.0345, 0.0130, 0.0350, 0.0175],
       device='cuda:1'), in_proj_covar=tensor([0.0177, 0.0144, 0.0158, 0.0176, 0.0172, 0.0157, 0.0169, 0.0151],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0002, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
       device='cuda:1')
2022-11-15 22:47:24,425 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=48444.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 22:47:33,545 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=48458.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 22:47:38,228 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=48465.0, num_to_drop=1, layers_to_drop={2}
2022-11-15 22:47:48,100 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([0.7395, 0.9907, 1.0814, 0.7075, 0.7459, 1.0229, 0.8552, 0.9543],
       device='cuda:1'), covar=tensor([0.0011, 0.0012, 0.0007, 0.0009, 0.0018, 0.0011, 0.0017, 0.0016],
       device='cuda:1'), in_proj_covar=tensor([0.0019, 0.0020, 0.0020, 0.0024, 0.0022, 0.0021, 0.0024, 0.0024],
       device='cuda:1'), out_proj_covar=tensor([1.7435e-05, 1.9687e-05, 1.8752e-05, 2.4054e-05, 2.1180e-05, 2.0470e-05,
        2.3488e-05, 2.5507e-05], device='cuda:1')
2022-11-15 22:47:49,067 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.0953, 3.2268, 3.1911, 3.1333, 3.2697, 3.1392, 1.1461, 3.2738],
       device='cuda:1'), covar=tensor([0.0354, 0.0351, 0.0289, 0.0273, 0.0323, 0.0356, 0.3460, 0.0372],
       device='cuda:1'), in_proj_covar=tensor([0.0098, 0.0079, 0.0078, 0.0073, 0.0095, 0.0081, 0.0129, 0.0100],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
       device='cuda:1')
2022-11-15 22:47:51,707 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=48484.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 22:47:57,021 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=48492.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 22:48:01,803 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.3252, 2.4044, 2.1571, 2.4388, 2.0122, 1.7737, 2.3010, 2.6357],
       device='cuda:1'), covar=tensor([0.1222, 0.2049, 0.2420, 0.1662, 0.2098, 0.3287, 0.1992, 0.2103],
       device='cuda:1'), in_proj_covar=tensor([0.0079, 0.0083, 0.0095, 0.0074, 0.0078, 0.0077, 0.0087, 0.0060],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0002],
       device='cuda:1')
2022-11-15 22:48:05,207 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.5481, 3.1705, 3.3569, 1.7427, 3.0420, 3.8693, 3.7703, 3.8901],
       device='cuda:1'), covar=tensor([0.1724, 0.1348, 0.0902, 0.2403, 0.0430, 0.0495, 0.0262, 0.0587],
       device='cuda:1'), in_proj_covar=tensor([0.0178, 0.0191, 0.0153, 0.0189, 0.0168, 0.0172, 0.0142, 0.0184],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0004, 0.0003, 0.0003, 0.0003, 0.0004],
       device='cuda:1')
2022-11-15 22:48:10,992 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=48513.0, num_to_drop=1, layers_to_drop={0}
2022-11-15 22:48:16,162 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.121e+02 1.802e+02 2.155e+02 2.691e+02 6.184e+02, threshold=4.310e+02, percent-clipped=3.0
2022-11-15 22:48:25,048 INFO [train.py:876] (1/4) Epoch 7, batch 4900, loss[loss=0.1408, simple_loss=0.1576, pruned_loss=0.06199, over 5716.00 frames. ], tot_loss[loss=0.1487, simple_loss=0.1634, pruned_loss=0.06702, over 1082620.23 frames. ], batch size: 15, lr: 1.14e-02, grad_scale: 8.0
2022-11-15 22:48:48,179 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=48568.0, num_to_drop=1, layers_to_drop={3}
2022-11-15 22:49:07,839 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.0305, 1.0904, 1.5389, 1.1629, 1.1666, 1.3488, 1.0823, 1.2298],
       device='cuda:1'), covar=tensor([0.0035, 0.0044, 0.0029, 0.0045, 0.0036, 0.0031, 0.0045, 0.0035],
       device='cuda:1'), in_proj_covar=tensor([0.0039, 0.0035, 0.0037, 0.0038, 0.0036, 0.0032, 0.0037, 0.0030],
       device='cuda:1'), out_proj_covar=tensor([3.5430e-05, 3.3176e-05, 3.3629e-05, 3.5103e-05, 3.1857e-05, 2.7637e-05,
        3.5472e-05, 2.6350e-05], device='cuda:1')
2022-11-15 22:49:24,581 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.141e+02 1.657e+02 1.917e+02 2.351e+02 4.435e+02, threshold=3.835e+02, percent-clipped=1.0
2022-11-15 22:49:32,510 INFO [train.py:876] (1/4) Epoch 7, batch 5000, loss[loss=0.2017, simple_loss=0.2042, pruned_loss=0.09961, over 5549.00 frames. ], tot_loss[loss=0.1494, simple_loss=0.1648, pruned_loss=0.06699, over 1087278.42 frames. ], batch size: 46, lr: 1.14e-02, grad_scale: 8.0
2022-11-15 22:49:53,369 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([4.0287, 4.1595, 4.2485, 4.3874, 3.9841, 3.5639, 4.7785, 4.2210],
       device='cuda:1'), covar=tensor([0.0557, 0.0805, 0.0510, 0.0892, 0.0552, 0.0346, 0.0643, 0.0599],
       device='cuda:1'), in_proj_covar=tensor([0.0073, 0.0094, 0.0080, 0.0100, 0.0075, 0.0065, 0.0126, 0.0085],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0001, 0.0003, 0.0002],
       device='cuda:1')
2022-11-15 22:50:04,377 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=48680.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 22:50:07,848 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=2.39 vs. limit=2.0
2022-11-15 22:50:13,858 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=1.97 vs. limit=2.0
2022-11-15 22:50:32,598 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 7.591e+01 1.796e+02 2.203e+02 2.625e+02 4.237e+02, threshold=4.405e+02, percent-clipped=2.0
2022-11-15 22:50:37,381 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=48728.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 22:50:37,459 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.2970, 1.8494, 2.0074, 2.1367, 2.4864, 1.9073, 1.5545, 2.3527],
       device='cuda:1'), covar=tensor([0.1030, 0.1839, 0.1503, 0.0768, 0.0762, 0.1936, 0.1772, 0.1089],
       device='cuda:1'), in_proj_covar=tensor([0.0206, 0.0203, 0.0200, 0.0322, 0.0224, 0.0215, 0.0195, 0.0213],
       device='cuda:1'), out_proj_covar=tensor([0.0005, 0.0005, 0.0005, 0.0006, 0.0005, 0.0005, 0.0005, 0.0005],
       device='cuda:1')
2022-11-15 22:50:40,537 INFO [train.py:876] (1/4) Epoch 7, batch 5100, loss[loss=0.1591, simple_loss=0.1648, pruned_loss=0.07671, over 5127.00 frames. ], tot_loss[loss=0.1472, simple_loss=0.1631, pruned_loss=0.06568, over 1087307.89 frames. ], batch size: 91, lr: 1.13e-02, grad_scale: 8.0
2022-11-15 22:50:53,608 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=48753.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 22:51:09,842 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=48776.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 22:51:12,144 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=48779.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 22:51:39,998 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.029e+02 1.794e+02 2.055e+02 2.515e+02 6.538e+02, threshold=4.110e+02, percent-clipped=4.0
2022-11-15 22:51:40,526 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=48821.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 22:51:48,597 INFO [train.py:876] (1/4) Epoch 7, batch 5200, loss[loss=0.1411, simple_loss=0.1739, pruned_loss=0.05418, over 5767.00 frames. ], tot_loss[loss=0.147, simple_loss=0.1632, pruned_loss=0.06547, over 1090614.26 frames. ], batch size: 16, lr: 1.13e-02, grad_scale: 8.0
2022-11-15 22:51:51,924 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=48838.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 22:52:03,691 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.6664, 4.0615, 3.5758, 4.0068, 4.0667, 3.4059, 3.7208, 3.4404],
       device='cuda:1'), covar=tensor([0.0640, 0.0417, 0.1472, 0.0492, 0.0514, 0.0455, 0.0586, 0.0687],
       device='cuda:1'), in_proj_covar=tensor([0.0121, 0.0158, 0.0250, 0.0156, 0.0197, 0.0159, 0.0169, 0.0156],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0004, 0.0002, 0.0003, 0.0002, 0.0002, 0.0002],
       device='cuda:1')
2022-11-15 22:52:11,481 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=48868.0, num_to_drop=1, layers_to_drop={2}
2022-11-15 22:52:21,489 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=48882.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 22:52:32,596 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=48899.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 22:52:34,137 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.96 vs. limit=2.0
2022-11-15 22:52:42,353 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([4.1894, 4.6394, 3.6407, 4.4594, 4.4486, 4.0869, 4.4778, 4.3313],
       device='cuda:1'), covar=tensor([0.0355, 0.0624, 0.1999, 0.0892, 0.0895, 0.0399, 0.0434, 0.0461],
       device='cuda:1'), in_proj_covar=tensor([0.0120, 0.0156, 0.0245, 0.0154, 0.0193, 0.0156, 0.0167, 0.0154],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0004, 0.0002, 0.0003, 0.0002, 0.0002, 0.0002],
       device='cuda:1')
2022-11-15 22:52:43,687 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=48916.0, num_to_drop=1, layers_to_drop={0}
2022-11-15 22:52:46,877 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.035e+02 1.737e+02 2.203e+02 2.681e+02 5.321e+02, threshold=4.406e+02, percent-clipped=3.0
2022-11-15 22:52:49,953 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=1.97 vs. limit=2.0
2022-11-15 22:52:55,126 INFO [train.py:876] (1/4) Epoch 7, batch 5300, loss[loss=0.146, simple_loss=0.1615, pruned_loss=0.06524, over 5610.00 frames. ], tot_loss[loss=0.147, simple_loss=0.1633, pruned_loss=0.06536, over 1090829.44 frames. ], batch size: 23, lr: 1.13e-02, grad_scale: 8.0
2022-11-15 22:53:24,642 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([0.5628, 1.0022, 0.8755, 0.6655, 0.8604, 1.2528, 0.8523, 0.7927],
       device='cuda:1'), covar=tensor([0.2450, 0.0431, 0.1622, 0.2077, 0.1450, 0.0390, 0.2138, 0.1758],
       device='cuda:1'), in_proj_covar=tensor([0.0066, 0.0054, 0.0055, 0.0071, 0.0055, 0.0046, 0.0052, 0.0058],
       device='cuda:1'), out_proj_covar=tensor([0.0001, 0.0001, 0.0001, 0.0001, 0.0001, 0.0001, 0.0001, 0.0001],
       device='cuda:1')
2022-11-15 22:53:26,617 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=48980.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 22:53:54,574 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.048e+02 1.623e+02 1.921e+02 2.407e+02 5.715e+02, threshold=3.842e+02, percent-clipped=1.0
2022-11-15 22:53:57,963 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.1964, 4.9799, 3.6993, 2.1660, 4.5683, 2.2574, 4.2277, 2.7067],
       device='cuda:1'), covar=tensor([0.0997, 0.0096, 0.0434, 0.1979, 0.0136, 0.1390, 0.0258, 0.1478],
       device='cuda:1'), in_proj_covar=tensor([0.0122, 0.0103, 0.0112, 0.0115, 0.0103, 0.0124, 0.0095, 0.0114],
       device='cuda:1'), out_proj_covar=tensor([0.0005, 0.0004, 0.0004, 0.0004, 0.0003, 0.0004, 0.0003, 0.0004],
       device='cuda:1')
2022-11-15 22:53:59,197 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=49028.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 22:54:02,407 INFO [train.py:876] (1/4) Epoch 7, batch 5400, loss[loss=0.1269, simple_loss=0.1566, pruned_loss=0.04864, over 5730.00 frames. ], tot_loss[loss=0.15, simple_loss=0.1651, pruned_loss=0.0675, over 1081358.93 frames. ], batch size: 14, lr: 1.13e-02, grad_scale: 8.0
2022-11-15 22:54:16,518 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=49053.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 22:54:34,063 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=49079.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 22:54:48,496 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=49101.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 22:55:02,427 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.256e+02 1.756e+02 2.023e+02 2.468e+02 4.836e+02, threshold=4.046e+02, percent-clipped=5.0
2022-11-15 22:55:06,390 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=49127.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 22:55:10,244 INFO [train.py:876] (1/4) Epoch 7, batch 5500, loss[loss=0.07561, simple_loss=0.1037, pruned_loss=0.02378, over 5124.00 frames. ], tot_loss[loss=0.1463, simple_loss=0.1624, pruned_loss=0.06508, over 1083862.40 frames. ], batch size: 7, lr: 1.13e-02, grad_scale: 8.0
2022-11-15 22:55:40,395 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=49177.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 22:55:49,061 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.7966, 2.5699, 3.1896, 1.5276, 2.9712, 3.5687, 3.0752, 3.5558],
       device='cuda:1'), covar=tensor([0.2515, 0.1679, 0.0673, 0.2780, 0.0398, 0.0584, 0.0601, 0.0622],
       device='cuda:1'), in_proj_covar=tensor([0.0178, 0.0192, 0.0152, 0.0189, 0.0168, 0.0175, 0.0146, 0.0183],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0004, 0.0003, 0.0003, 0.0003, 0.0004],
       device='cuda:1')
2022-11-15 22:55:51,691 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=49194.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 22:56:10,382 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.123e+02 1.636e+02 2.022e+02 2.644e+02 5.189e+02, threshold=4.044e+02, percent-clipped=1.0
2022-11-15 22:56:18,734 INFO [train.py:876] (1/4) Epoch 7, batch 5600, loss[loss=0.2052, simple_loss=0.1842, pruned_loss=0.1131, over 3158.00 frames. ], tot_loss[loss=0.1462, simple_loss=0.1628, pruned_loss=0.06477, over 1086583.95 frames. ], batch size: 285, lr: 1.13e-02, grad_scale: 8.0
2022-11-15 22:56:20,826 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=49236.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 22:56:26,120 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([4.2725, 3.9972, 4.3108, 4.5356, 3.6371, 3.8000, 4.8824, 4.2310],
       device='cuda:1'), covar=tensor([0.0472, 0.1336, 0.0466, 0.1157, 0.0870, 0.0460, 0.0868, 0.0804],
       device='cuda:1'), in_proj_covar=tensor([0.0075, 0.0097, 0.0082, 0.0104, 0.0078, 0.0068, 0.0131, 0.0088],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
       device='cuda:1')
2022-11-15 22:56:26,526 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=4.28 vs. limit=5.0
2022-11-15 22:56:30,952 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=1.95 vs. limit=2.0
2022-11-15 22:56:31,517 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.7922, 2.6414, 2.6901, 3.0114, 2.3559, 2.8858, 2.9940, 3.5446],
       device='cuda:1'), covar=tensor([0.2037, 0.2166, 0.2917, 0.2225, 0.2453, 0.0970, 0.2186, 0.2109],
       device='cuda:1'), in_proj_covar=tensor([0.0080, 0.0084, 0.0094, 0.0074, 0.0079, 0.0078, 0.0087, 0.0060],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0002],
       device='cuda:1')
2022-11-15 22:56:33,447 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.1323, 1.1982, 2.1530, 1.4954, 1.4956, 2.0147, 1.6363, 1.6548],
       device='cuda:1'), covar=tensor([0.0014, 0.0084, 0.0025, 0.0037, 0.0044, 0.0044, 0.0029, 0.0037],
       device='cuda:1'), in_proj_covar=tensor([0.0018, 0.0020, 0.0020, 0.0024, 0.0021, 0.0020, 0.0024, 0.0025],
       device='cuda:1'), out_proj_covar=tensor([1.6878e-05, 1.9774e-05, 1.9171e-05, 2.4050e-05, 2.0338e-05, 1.9694e-05,
        2.3191e-05, 2.6180e-05], device='cuda:1')
2022-11-15 22:57:02,613 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=49297.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 22:57:02,720 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.35 vs. limit=2.0
2022-11-15 22:57:18,854 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 8.878e+01 1.572e+02 2.070e+02 2.645e+02 4.455e+02, threshold=4.140e+02, percent-clipped=3.0
2022-11-15 22:57:27,066 INFO [train.py:876] (1/4) Epoch 7, batch 5700, loss[loss=0.1404, simple_loss=0.1541, pruned_loss=0.06339, over 5791.00 frames. ], tot_loss[loss=0.1453, simple_loss=0.162, pruned_loss=0.06426, over 1087801.51 frames. ], batch size: 21, lr: 1.13e-02, grad_scale: 8.0
2022-11-15 22:57:30,142 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.5714, 2.6938, 2.4784, 3.0454, 2.2641, 2.5970, 2.6637, 3.3883],
       device='cuda:1'), covar=tensor([0.1191, 0.2049, 0.3278, 0.1652, 0.2085, 0.0843, 0.2113, 0.2224],
       device='cuda:1'), in_proj_covar=tensor([0.0081, 0.0085, 0.0095, 0.0075, 0.0079, 0.0079, 0.0088, 0.0061],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0002],
       device='cuda:1')
2022-11-15 22:57:59,857 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.5224, 1.0586, 1.4807, 0.7260, 1.3901, 1.3491, 0.9041, 1.2575],
       device='cuda:1'), covar=tensor([0.0853, 0.0591, 0.0929, 0.1165, 0.1351, 0.0607, 0.0859, 0.0461],
       device='cuda:1'), in_proj_covar=tensor([0.0012, 0.0016, 0.0011, 0.0014, 0.0013, 0.0011, 0.0015, 0.0011],
       device='cuda:1'), out_proj_covar=tensor([5.7261e-05, 7.4428e-05, 5.5783e-05, 6.4391e-05, 6.1696e-05, 5.4684e-05,
        6.9218e-05, 5.6519e-05], device='cuda:1')
2022-11-15 22:58:27,014 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.158e+02 1.691e+02 1.989e+02 2.573e+02 4.583e+02, threshold=3.978e+02, percent-clipped=3.0
2022-11-15 22:58:27,809 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=49422.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 22:58:34,809 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=49432.0, num_to_drop=1, layers_to_drop={1}
2022-11-15 22:58:35,270 INFO [train.py:876] (1/4) Epoch 7, batch 5800, loss[loss=0.1084, simple_loss=0.134, pruned_loss=0.04136, over 5703.00 frames. ], tot_loss[loss=0.1462, simple_loss=0.1624, pruned_loss=0.06505, over 1085685.50 frames. ], batch size: 12, lr: 1.13e-02, grad_scale: 8.0
2022-11-15 22:58:48,183 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.4945, 1.8985, 2.0738, 1.2778, 1.0047, 2.5330, 1.7870, 1.5572],
       device='cuda:1'), covar=tensor([0.0918, 0.0947, 0.0740, 0.2409, 0.2547, 0.1028, 0.1192, 0.1119],
       device='cuda:1'), in_proj_covar=tensor([0.0064, 0.0054, 0.0056, 0.0071, 0.0054, 0.0046, 0.0049, 0.0057],
       device='cuda:1'), out_proj_covar=tensor([0.0001, 0.0001, 0.0001, 0.0001, 0.0001, 0.0001, 0.0001, 0.0001],
       device='cuda:1')
2022-11-15 22:58:48,778 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([5.6815, 5.0223, 5.3390, 5.0621, 5.7527, 5.6173, 4.8271, 5.6526],
       device='cuda:1'), covar=tensor([0.0302, 0.0288, 0.0473, 0.0328, 0.0295, 0.0092, 0.0264, 0.0224],
       device='cuda:1'), in_proj_covar=tensor([0.0120, 0.0128, 0.0094, 0.0127, 0.0143, 0.0083, 0.0109, 0.0125],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0003],
       device='cuda:1')
2022-11-15 22:58:58,740 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=4.10 vs. limit=5.0
2022-11-15 22:59:04,664 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=49477.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 22:59:08,971 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=49483.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 22:59:15,734 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=49493.0, num_to_drop=1, layers_to_drop={3}
2022-11-15 22:59:16,289 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=49494.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 22:59:20,149 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=1.84 vs. limit=2.0
2022-11-15 22:59:33,818 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.316e+02 1.742e+02 2.165e+02 2.707e+02 6.167e+02, threshold=4.330e+02, percent-clipped=6.0
2022-11-15 22:59:35,399 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.6804, 4.0105, 3.6871, 3.5702, 2.3162, 4.0476, 2.2773, 3.2463],
       device='cuda:1'), covar=tensor([0.0339, 0.0085, 0.0140, 0.0294, 0.0419, 0.0109, 0.0381, 0.0120],
       device='cuda:1'), in_proj_covar=tensor([0.0178, 0.0143, 0.0159, 0.0176, 0.0171, 0.0157, 0.0169, 0.0149],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0002, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
       device='cuda:1')
2022-11-15 22:59:36,564 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=49525.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 22:59:42,439 INFO [train.py:876] (1/4) Epoch 7, batch 5900, loss[loss=0.1603, simple_loss=0.181, pruned_loss=0.06982, over 5808.00 frames. ], tot_loss[loss=0.145, simple_loss=0.1612, pruned_loss=0.06437, over 1088803.01 frames. ], batch size: 18, lr: 1.12e-02, grad_scale: 16.0
2022-11-15 22:59:48,543 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=49542.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 23:00:21,901 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=49592.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 23:00:42,047 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.096e+02 1.707e+02 2.021e+02 2.580e+02 5.267e+02, threshold=4.043e+02, percent-clipped=3.0
2022-11-15 23:00:50,008 INFO [train.py:876] (1/4) Epoch 7, batch 6000, loss[loss=0.1777, simple_loss=0.1826, pruned_loss=0.08645, over 5589.00 frames. ], tot_loss[loss=0.1454, simple_loss=0.1613, pruned_loss=0.06474, over 1081835.42 frames. ], batch size: 38, lr: 1.12e-02, grad_scale: 16.0
2022-11-15 23:00:50,008 INFO [train.py:899] (1/4) Computing validation loss
2022-11-15 23:01:00,454 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([4.2977, 4.6869, 4.0845, 4.6296, 4.6804, 4.0686, 4.6821, 4.3153],
       device='cuda:1'), covar=tensor([0.0224, 0.0556, 0.1554, 0.0440, 0.0469, 0.0485, 0.0307, 0.0318],
       device='cuda:1'), in_proj_covar=tensor([0.0126, 0.0162, 0.0260, 0.0158, 0.0203, 0.0162, 0.0171, 0.0159],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0003, 0.0004, 0.0002, 0.0003, 0.0002, 0.0002, 0.0002],
       device='cuda:1')
2022-11-15 23:01:07,885 INFO [train.py:908] (1/4) Epoch 7, validation: loss=0.1616, simple_loss=0.1829, pruned_loss=0.07014, over 1530663.00 frames. 
2022-11-15 23:01:07,886 INFO [train.py:909] (1/4) Maximum memory allocated so far is 4676MB
2022-11-15 23:02:07,547 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.086e+02 1.774e+02 2.178e+02 2.539e+02 4.839e+02, threshold=4.355e+02, percent-clipped=2.0
2022-11-15 23:02:15,504 INFO [train.py:876] (1/4) Epoch 7, batch 6100, loss[loss=0.1228, simple_loss=0.1436, pruned_loss=0.05104, over 5578.00 frames. ], tot_loss[loss=0.148, simple_loss=0.1629, pruned_loss=0.06656, over 1078910.59 frames. ], batch size: 24, lr: 1.12e-02, grad_scale: 16.0
2022-11-15 23:02:38,519 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=49766.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 23:02:46,270 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=49778.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 23:02:52,898 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=49788.0, num_to_drop=1, layers_to_drop={2}
2022-11-15 23:03:00,295 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([0.9230, 1.2122, 1.2058, 1.1054, 1.0858, 1.2089, 0.8736, 0.9918],
       device='cuda:1'), covar=tensor([0.0055, 0.0031, 0.0038, 0.0034, 0.0033, 0.0041, 0.0077, 0.0057],
       device='cuda:1'), in_proj_covar=tensor([0.0040, 0.0036, 0.0038, 0.0040, 0.0037, 0.0034, 0.0038, 0.0031],
       device='cuda:1'), out_proj_covar=tensor([3.6441e-05, 3.3376e-05, 3.4707e-05, 3.6192e-05, 3.3242e-05, 2.9686e-05,
        3.6696e-05, 2.7609e-05], device='cuda:1')
2022-11-15 23:03:16,327 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 9.740e+01 1.709e+02 2.118e+02 2.760e+02 4.478e+02, threshold=4.236e+02, percent-clipped=1.0
2022-11-15 23:03:20,313 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.8157, 2.8306, 2.5003, 2.7855, 2.8541, 2.5298, 2.4944, 2.5563],
       device='cuda:1'), covar=tensor([0.0374, 0.0568, 0.1510, 0.0624, 0.0584, 0.0529, 0.0803, 0.0683],
       device='cuda:1'), in_proj_covar=tensor([0.0124, 0.0163, 0.0260, 0.0160, 0.0205, 0.0163, 0.0172, 0.0159],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0003, 0.0004, 0.0003, 0.0003, 0.0002, 0.0002, 0.0002],
       device='cuda:1')
2022-11-15 23:03:20,404 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=49827.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 23:03:24,170 INFO [train.py:876] (1/4) Epoch 7, batch 6200, loss[loss=0.1255, simple_loss=0.1551, pruned_loss=0.04802, over 5733.00 frames. ], tot_loss[loss=0.1489, simple_loss=0.1637, pruned_loss=0.06699, over 1077386.22 frames. ], batch size: 16, lr: 1.12e-02, grad_scale: 16.0
2022-11-15 23:03:50,626 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([5.9492, 5.4514, 5.8103, 5.3450, 6.0383, 5.8687, 5.1065, 5.9481],
       device='cuda:1'), covar=tensor([0.0436, 0.0294, 0.0351, 0.0320, 0.0393, 0.0116, 0.0211, 0.0216],
       device='cuda:1'), in_proj_covar=tensor([0.0121, 0.0129, 0.0096, 0.0129, 0.0142, 0.0085, 0.0109, 0.0127],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0003],
       device='cuda:1')
2022-11-15 23:04:03,705 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=49892.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 23:04:03,945 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.94 vs. limit=2.0
2022-11-15 23:04:16,482 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.6064, 0.9638, 1.7064, 1.3237, 1.0087, 1.5564, 1.3567, 1.4084],
       device='cuda:1'), covar=tensor([0.0021, 0.0098, 0.0035, 0.0041, 0.0095, 0.0056, 0.0028, 0.0042],
       device='cuda:1'), in_proj_covar=tensor([0.0019, 0.0021, 0.0021, 0.0024, 0.0022, 0.0020, 0.0024, 0.0025],
       device='cuda:1'), out_proj_covar=tensor([1.7783e-05, 2.0300e-05, 1.9716e-05, 2.4269e-05, 2.0940e-05, 2.0147e-05,
        2.3532e-05, 2.6534e-05], device='cuda:1')
2022-11-15 23:04:20,716 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.7899, 2.8484, 2.5383, 3.0850, 2.4688, 2.9447, 2.7372, 3.5801],
       device='cuda:1'), covar=tensor([0.1465, 0.1475, 0.2185, 0.0652, 0.1527, 0.0939, 0.1596, 0.1690],
       device='cuda:1'), in_proj_covar=tensor([0.0081, 0.0084, 0.0096, 0.0075, 0.0080, 0.0080, 0.0087, 0.0062],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0002],
       device='cuda:1')
2022-11-15 23:04:23,026 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.007e+02 1.621e+02 1.970e+02 2.358e+02 3.613e+02, threshold=3.939e+02, percent-clipped=0.0
2022-11-15 23:04:31,725 INFO [train.py:876] (1/4) Epoch 7, batch 6300, loss[loss=0.1096, simple_loss=0.1336, pruned_loss=0.04283, over 5468.00 frames. ], tot_loss[loss=0.1473, simple_loss=0.1625, pruned_loss=0.06612, over 1082539.84 frames. ], batch size: 10, lr: 1.12e-02, grad_scale: 16.0
2022-11-15 23:04:36,246 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=49940.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 23:04:52,388 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([5.7675, 5.2170, 5.6021, 5.1390, 5.8347, 5.8394, 4.7834, 5.7793],
       device='cuda:1'), covar=tensor([0.0314, 0.0249, 0.0385, 0.0313, 0.0276, 0.0093, 0.0231, 0.0248],
       device='cuda:1'), in_proj_covar=tensor([0.0120, 0.0127, 0.0094, 0.0126, 0.0139, 0.0083, 0.0108, 0.0125],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0003],
       device='cuda:1')
2022-11-15 23:05:12,749 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=2.05 vs. limit=2.0
2022-11-15 23:05:34,292 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.143e+02 1.742e+02 2.037e+02 2.563e+02 6.362e+02, threshold=4.074e+02, percent-clipped=2.0
2022-11-15 23:05:42,857 INFO [train.py:876] (1/4) Epoch 7, batch 6400, loss[loss=0.1508, simple_loss=0.1676, pruned_loss=0.06703, over 5661.00 frames. ], tot_loss[loss=0.1482, simple_loss=0.1632, pruned_loss=0.06658, over 1090047.79 frames. ], batch size: 32, lr: 1.12e-02, grad_scale: 16.0
2022-11-15 23:05:50,778 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.7377, 1.0448, 1.4530, 0.8655, 1.5101, 1.1206, 1.2093, 1.2839],
       device='cuda:1'), covar=tensor([0.1747, 0.1277, 0.0811, 0.2044, 0.1135, 0.0366, 0.0865, 0.0428],
       device='cuda:1'), in_proj_covar=tensor([0.0011, 0.0016, 0.0011, 0.0013, 0.0013, 0.0010, 0.0015, 0.0011],
       device='cuda:1'), out_proj_covar=tensor([5.5361e-05, 7.3964e-05, 5.5362e-05, 6.3859e-05, 6.0534e-05, 5.3749e-05,
        6.8674e-05, 5.5820e-05], device='cuda:1')
2022-11-15 23:06:13,101 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=50078.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 23:06:20,283 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=50088.0, num_to_drop=1, layers_to_drop={2}
2022-11-15 23:06:21,837 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.93 vs. limit=2.0
2022-11-15 23:06:26,677 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.9618, 3.5172, 3.1197, 3.4713, 3.5267, 2.9327, 3.2730, 3.0849],
       device='cuda:1'), covar=tensor([0.1119, 0.0526, 0.1582, 0.0551, 0.0569, 0.0546, 0.0594, 0.0709],
       device='cuda:1'), in_proj_covar=tensor([0.0119, 0.0158, 0.0253, 0.0154, 0.0198, 0.0158, 0.0167, 0.0155],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0004, 0.0002, 0.0003, 0.0002, 0.0002, 0.0002],
       device='cuda:1')
2022-11-15 23:06:41,517 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.049e+02 1.674e+02 2.100e+02 2.789e+02 6.462e+02, threshold=4.200e+02, percent-clipped=5.0
2022-11-15 23:06:42,284 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=50122.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 23:06:45,242 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=50126.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 23:06:47,023 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=50128.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 23:06:50,152 INFO [train.py:876] (1/4) Epoch 7, batch 6500, loss[loss=0.09052, simple_loss=0.117, pruned_loss=0.03201, over 5318.00 frames. ], tot_loss[loss=0.1492, simple_loss=0.1643, pruned_loss=0.06702, over 1086669.68 frames. ], batch size: 9, lr: 1.12e-02, grad_scale: 16.0
2022-11-15 23:06:52,572 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=50136.0, num_to_drop=1, layers_to_drop={1}
2022-11-15 23:07:28,582 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=50189.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 23:07:34,060 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=50197.0, num_to_drop=1, layers_to_drop={1}
2022-11-15 23:07:49,845 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.163e+02 1.678e+02 2.090e+02 2.492e+02 4.594e+02, threshold=4.179e+02, percent-clipped=1.0
2022-11-15 23:07:58,106 INFO [train.py:876] (1/4) Epoch 7, batch 6600, loss[loss=0.1171, simple_loss=0.1488, pruned_loss=0.04269, over 5708.00 frames. ], tot_loss[loss=0.1488, simple_loss=0.1636, pruned_loss=0.06705, over 1085840.75 frames. ], batch size: 17, lr: 1.12e-02, grad_scale: 16.0
2022-11-15 23:08:11,147 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.89 vs. limit=2.0
2022-11-15 23:08:15,525 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=50258.0, num_to_drop=1, layers_to_drop={3}
2022-11-15 23:08:57,891 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.220e+02 1.709e+02 2.078e+02 2.678e+02 6.792e+02, threshold=4.156e+02, percent-clipped=5.0
2022-11-15 23:09:00,590 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([0.9045, 1.6293, 1.2947, 1.0744, 1.0028, 1.6152, 1.1744, 0.8797],
       device='cuda:1'), covar=tensor([0.2224, 0.0552, 0.1390, 0.1923, 0.2425, 0.0506, 0.1710, 0.2277],
       device='cuda:1'), in_proj_covar=tensor([0.0068, 0.0056, 0.0058, 0.0074, 0.0058, 0.0049, 0.0053, 0.0061],
       device='cuda:1'), out_proj_covar=tensor([0.0001, 0.0001, 0.0001, 0.0002, 0.0001, 0.0001, 0.0001, 0.0001],
       device='cuda:1')
2022-11-15 23:09:05,714 INFO [train.py:876] (1/4) Epoch 7, batch 6700, loss[loss=0.1378, simple_loss=0.1674, pruned_loss=0.0541, over 5624.00 frames. ], tot_loss[loss=0.1476, simple_loss=0.163, pruned_loss=0.06615, over 1085177.60 frames. ], batch size: 29, lr: 1.12e-02, grad_scale: 16.0
2022-11-15 23:09:49,778 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.9662, 1.7398, 2.7427, 2.3416, 2.6482, 1.9012, 2.4699, 2.9554],
       device='cuda:1'), covar=tensor([0.0493, 0.1365, 0.0698, 0.1147, 0.0587, 0.1412, 0.0856, 0.0533],
       device='cuda:1'), in_proj_covar=tensor([0.0215, 0.0187, 0.0194, 0.0202, 0.0204, 0.0186, 0.0218, 0.0209],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004],
       device='cuda:1')
2022-11-15 23:10:05,741 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.161e+02 1.792e+02 2.397e+02 3.058e+02 5.863e+02, threshold=4.794e+02, percent-clipped=9.0
2022-11-15 23:10:06,554 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=50422.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 23:10:12,633 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.6293, 2.0926, 3.3725, 2.8099, 3.3567, 2.3769, 3.1726, 3.6597],
       device='cuda:1'), covar=tensor([0.0565, 0.1398, 0.0647, 0.1162, 0.0502, 0.1224, 0.0878, 0.0687],
       device='cuda:1'), in_proj_covar=tensor([0.0216, 0.0188, 0.0194, 0.0203, 0.0205, 0.0186, 0.0219, 0.0210],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004],
       device='cuda:1')
2022-11-15 23:10:13,767 INFO [train.py:876] (1/4) Epoch 7, batch 6800, loss[loss=0.2331, simple_loss=0.2041, pruned_loss=0.131, over 3040.00 frames. ], tot_loss[loss=0.1477, simple_loss=0.1633, pruned_loss=0.06603, over 1083022.77 frames. ], batch size: 284, lr: 1.11e-02, grad_scale: 16.0
2022-11-15 23:10:19,782 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.3880, 1.1071, 1.7205, 1.1412, 1.2191, 1.7526, 1.2700, 0.9860],
       device='cuda:1'), covar=tensor([0.0016, 0.0046, 0.0022, 0.0031, 0.0041, 0.0017, 0.0025, 0.0045],
       device='cuda:1'), in_proj_covar=tensor([0.0019, 0.0021, 0.0021, 0.0024, 0.0022, 0.0021, 0.0024, 0.0025],
       device='cuda:1'), out_proj_covar=tensor([1.7653e-05, 2.0471e-05, 1.9735e-05, 2.4319e-05, 2.1448e-05, 2.0197e-05,
        2.3876e-05, 2.6991e-05], device='cuda:1')
2022-11-15 23:10:28,594 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.7152, 2.1835, 2.0172, 1.1827, 1.7455, 2.5588, 2.2118, 2.3242],
       device='cuda:1'), covar=tensor([0.2138, 0.1280, 0.1046, 0.2531, 0.0907, 0.0639, 0.0507, 0.1046],
       device='cuda:1'), in_proj_covar=tensor([0.0178, 0.0186, 0.0152, 0.0190, 0.0167, 0.0178, 0.0145, 0.0181],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0004, 0.0003, 0.0003, 0.0003, 0.0003],
       device='cuda:1')
2022-11-15 23:10:38,765 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=50470.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 23:10:40,494 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([0.8372, 1.1830, 1.4849, 0.8118, 1.1502, 1.3709, 1.0960, 0.9101],
       device='cuda:1'), covar=tensor([0.0020, 0.0028, 0.0022, 0.0030, 0.0026, 0.0020, 0.0031, 0.0041],
       device='cuda:1'), in_proj_covar=tensor([0.0019, 0.0021, 0.0021, 0.0025, 0.0023, 0.0021, 0.0024, 0.0026],
       device='cuda:1'), out_proj_covar=tensor([1.7856e-05, 2.0552e-05, 1.9968e-05, 2.4456e-05, 2.1605e-05, 2.0400e-05,
        2.4025e-05, 2.7308e-05], device='cuda:1')
2022-11-15 23:10:45,180 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.49 vs. limit=2.0
2022-11-15 23:10:48,162 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=50484.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 23:11:12,536 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.121e+02 1.731e+02 2.163e+02 2.798e+02 6.704e+02, threshold=4.325e+02, percent-clipped=4.0
2022-11-15 23:11:20,771 INFO [train.py:876] (1/4) Epoch 7, batch 6900, loss[loss=0.1871, simple_loss=0.1954, pruned_loss=0.08935, over 5590.00 frames. ], tot_loss[loss=0.146, simple_loss=0.1624, pruned_loss=0.06483, over 1087090.71 frames. ], batch size: 43, lr: 1.11e-02, grad_scale: 16.0
2022-11-15 23:11:20,961 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.8647, 2.0861, 2.5277, 3.4188, 3.6828, 2.6627, 2.2078, 3.7611],
       device='cuda:1'), covar=tensor([0.0460, 0.3928, 0.3056, 0.3890, 0.1139, 0.3284, 0.2232, 0.0428],
       device='cuda:1'), in_proj_covar=tensor([0.0209, 0.0200, 0.0201, 0.0320, 0.0223, 0.0217, 0.0191, 0.0214],
       device='cuda:1'), out_proj_covar=tensor([0.0005, 0.0004, 0.0005, 0.0006, 0.0005, 0.0005, 0.0004, 0.0005],
       device='cuda:1')
2022-11-15 23:11:23,470 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([4.4505, 4.9988, 4.5349, 5.0230, 5.0505, 4.0653, 4.6706, 4.4361],
       device='cuda:1'), covar=tensor([0.0356, 0.0403, 0.1387, 0.0388, 0.0476, 0.0463, 0.0387, 0.0507],
       device='cuda:1'), in_proj_covar=tensor([0.0119, 0.0158, 0.0249, 0.0153, 0.0196, 0.0158, 0.0168, 0.0156],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0004, 0.0002, 0.0003, 0.0002, 0.0002, 0.0002],
       device='cuda:1')
2022-11-15 23:11:29,489 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=50546.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 23:11:34,013 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=50553.0, num_to_drop=1, layers_to_drop={3}
2022-11-15 23:11:37,641 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.97 vs. limit=2.0
2022-11-15 23:11:46,645 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=4.23 vs. limit=5.0
2022-11-15 23:11:47,493 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=1.92 vs. limit=2.0
2022-11-15 23:12:10,967 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=50607.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 23:12:15,031 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.6037, 1.5751, 1.7031, 1.0478, 1.2575, 0.9729, 1.1957, 1.0095],
       device='cuda:1'), covar=tensor([0.0039, 0.0057, 0.0040, 0.0046, 0.0036, 0.0060, 0.0038, 0.0061],
       device='cuda:1'), in_proj_covar=tensor([0.0042, 0.0037, 0.0040, 0.0041, 0.0039, 0.0035, 0.0039, 0.0032],
       device='cuda:1'), out_proj_covar=tensor([3.7862e-05, 3.4646e-05, 3.6515e-05, 3.7405e-05, 3.4188e-05, 3.0496e-05,
        3.7330e-05, 2.8680e-05], device='cuda:1')
2022-11-15 23:12:20,424 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.075e+02 1.773e+02 2.130e+02 2.487e+02 4.682e+02, threshold=4.260e+02, percent-clipped=1.0
2022-11-15 23:12:24,433 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=4.47 vs. limit=5.0
2022-11-15 23:12:28,770 INFO [train.py:876] (1/4) Epoch 7, batch 7000, loss[loss=0.09252, simple_loss=0.1168, pruned_loss=0.03412, over 5457.00 frames. ], tot_loss[loss=0.1456, simple_loss=0.1619, pruned_loss=0.06466, over 1085282.74 frames. ], batch size: 10, lr: 1.11e-02, grad_scale: 16.0
2022-11-15 23:12:30,996 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=3.38 vs. limit=5.0
2022-11-15 23:12:37,073 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=6.22 vs. limit=5.0
2022-11-15 23:12:40,625 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([4.0620, 3.9626, 3.9520, 4.2164, 3.6775, 3.4258, 4.6555, 3.9674],
       device='cuda:1'), covar=tensor([0.0488, 0.0976, 0.0539, 0.1141, 0.0714, 0.0435, 0.0729, 0.0702],
       device='cuda:1'), in_proj_covar=tensor([0.0077, 0.0097, 0.0083, 0.0107, 0.0080, 0.0069, 0.0132, 0.0090],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
       device='cuda:1')
2022-11-15 23:12:58,167 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=5.06 vs. limit=5.0
2022-11-15 23:13:05,374 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.93 vs. limit=2.0
2022-11-15 23:13:27,405 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.163e+02 1.720e+02 2.093e+02 2.606e+02 4.257e+02, threshold=4.187e+02, percent-clipped=0.0
2022-11-15 23:13:35,680 INFO [train.py:876] (1/4) Epoch 7, batch 7100, loss[loss=0.1532, simple_loss=0.1901, pruned_loss=0.05813, over 5589.00 frames. ], tot_loss[loss=0.1482, simple_loss=0.1635, pruned_loss=0.06646, over 1080675.45 frames. ], batch size: 18, lr: 1.11e-02, grad_scale: 16.0
2022-11-15 23:13:57,175 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.6441, 1.8163, 2.0773, 1.3479, 1.2161, 1.7648, 1.5197, 1.3660],
       device='cuda:1'), covar=tensor([0.0017, 0.0027, 0.0054, 0.0033, 0.0047, 0.0069, 0.0023, 0.0028],
       device='cuda:1'), in_proj_covar=tensor([0.0019, 0.0020, 0.0020, 0.0024, 0.0022, 0.0021, 0.0024, 0.0025],
       device='cuda:1'), out_proj_covar=tensor([1.7662e-05, 2.0025e-05, 1.9051e-05, 2.3600e-05, 2.1459e-05, 2.0234e-05,
        2.3102e-05, 2.6086e-05], device='cuda:1')
2022-11-15 23:14:11,204 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=50782.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 23:14:12,514 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=50784.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 23:14:29,873 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=50808.0, num_to_drop=1, layers_to_drop={0}
2022-11-15 23:14:38,106 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.155e+02 1.697e+02 1.983e+02 2.631e+02 5.249e+02, threshold=3.966e+02, percent-clipped=2.0
2022-11-15 23:14:41,479 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.7983, 1.2490, 1.6466, 1.0135, 1.0094, 1.6284, 0.9490, 1.0404],
       device='cuda:1'), covar=tensor([0.0359, 0.0600, 0.0233, 0.0987, 0.2993, 0.0425, 0.0708, 0.0401],
       device='cuda:1'), in_proj_covar=tensor([0.0011, 0.0016, 0.0011, 0.0014, 0.0013, 0.0011, 0.0015, 0.0011],
       device='cuda:1'), out_proj_covar=tensor([5.5157e-05, 7.4532e-05, 5.6099e-05, 6.5348e-05, 6.1394e-05, 5.5469e-05,
        6.9136e-05, 5.6039e-05], device='cuda:1')
2022-11-15 23:14:45,332 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=50832.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 23:14:45,961 INFO [train.py:876] (1/4) Epoch 7, batch 7200, loss[loss=0.1826, simple_loss=0.1858, pruned_loss=0.08966, over 5458.00 frames. ], tot_loss[loss=0.1493, simple_loss=0.1647, pruned_loss=0.06698, over 1088000.81 frames. ], batch size: 58, lr: 1.11e-02, grad_scale: 16.0
2022-11-15 23:14:52,589 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.0586, 1.3205, 1.0917, 0.8457, 1.2778, 1.1440, 0.5468, 1.1473],
       device='cuda:1'), covar=tensor([0.0028, 0.0017, 0.0028, 0.0033, 0.0022, 0.0023, 0.0050, 0.0021],
       device='cuda:1'), in_proj_covar=tensor([0.0040, 0.0036, 0.0038, 0.0040, 0.0037, 0.0034, 0.0037, 0.0031],
       device='cuda:1'), out_proj_covar=tensor([3.6755e-05, 3.2666e-05, 3.4624e-05, 3.6219e-05, 3.2398e-05, 2.9112e-05,
        3.5563e-05, 2.7620e-05], device='cuda:1')
2022-11-15 23:14:53,254 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=50843.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 23:14:59,653 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=50853.0, num_to_drop=1, layers_to_drop={1}
2022-11-15 23:15:10,557 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=50869.0, num_to_drop=1, layers_to_drop={3}
2022-11-15 23:15:31,054 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=50901.0, num_to_drop=1, layers_to_drop={0}
2022-11-15 23:15:31,697 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=50902.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 23:16:19,011 INFO [train.py:876] (1/4) Epoch 8, batch 0, loss[loss=0.1859, simple_loss=0.1897, pruned_loss=0.09107, over 5471.00 frames. ], tot_loss[loss=0.1859, simple_loss=0.1897, pruned_loss=0.09107, over 5471.00 frames. ], batch size: 53, lr: 1.05e-02, grad_scale: 16.0
2022-11-15 23:16:19,012 INFO [train.py:899] (1/4) Computing validation loss
2022-11-15 23:16:35,653 INFO [train.py:908] (1/4) Epoch 8, validation: loss=0.161, simple_loss=0.1821, pruned_loss=0.06991, over 1530663.00 frames. 
2022-11-15 23:16:35,654 INFO [train.py:909] (1/4) Maximum memory allocated so far is 4676MB
2022-11-15 23:16:38,362 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.0588, 1.5160, 1.1716, 0.8552, 1.0450, 1.3557, 0.8682, 1.0575],
       device='cuda:1'), covar=tensor([0.0035, 0.0028, 0.0040, 0.0037, 0.0034, 0.0029, 0.0068, 0.0041],
       device='cuda:1'), in_proj_covar=tensor([0.0040, 0.0035, 0.0038, 0.0039, 0.0036, 0.0033, 0.0037, 0.0031],
       device='cuda:1'), out_proj_covar=tensor([3.6275e-05, 3.2223e-05, 3.4748e-05, 3.6045e-05, 3.2099e-05, 2.8906e-05,
        3.5462e-05, 2.7360e-05], device='cuda:1')
2022-11-15 23:16:38,477 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=1.65 vs. limit=2.0
2022-11-15 23:16:45,814 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.120e+02 1.842e+02 2.230e+02 2.830e+02 5.263e+02, threshold=4.459e+02, percent-clipped=7.0
2022-11-15 23:17:02,907 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=50946.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 23:17:21,704 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.3998, 4.6130, 2.8654, 4.2587, 3.3709, 3.0373, 2.7005, 3.8029],
       device='cuda:1'), covar=tensor([0.1653, 0.0156, 0.1152, 0.0239, 0.0673, 0.0995, 0.1759, 0.0239],
       device='cuda:1'), in_proj_covar=tensor([0.0170, 0.0137, 0.0166, 0.0141, 0.0174, 0.0176, 0.0177, 0.0150],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0004, 0.0004, 0.0004, 0.0003],
       device='cuda:1')
2022-11-15 23:17:42,749 INFO [train.py:876] (1/4) Epoch 8, batch 100, loss[loss=0.1502, simple_loss=0.1716, pruned_loss=0.06444, over 5538.00 frames. ], tot_loss[loss=0.1471, simple_loss=0.1637, pruned_loss=0.06522, over 435348.30 frames. ], batch size: 16, lr: 1.04e-02, grad_scale: 16.0
2022-11-15 23:17:44,289 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=51007.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 23:17:47,857 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.39 vs. limit=2.0
2022-11-15 23:17:53,333 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.018e+02 1.590e+02 1.934e+02 2.468e+02 5.065e+02, threshold=3.869e+02, percent-clipped=2.0
2022-11-15 23:18:21,356 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=51062.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 23:18:49,819 INFO [train.py:876] (1/4) Epoch 8, batch 200, loss[loss=0.1288, simple_loss=0.1532, pruned_loss=0.05219, over 5696.00 frames. ], tot_loss[loss=0.1468, simple_loss=0.1628, pruned_loss=0.06544, over 689464.56 frames. ], batch size: 19, lr: 1.04e-02, grad_scale: 16.0
2022-11-15 23:19:00,022 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 9.568e+01 1.812e+02 2.179e+02 2.624e+02 4.566e+02, threshold=4.359e+02, percent-clipped=4.0
2022-11-15 23:19:01,576 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=51123.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 23:19:11,883 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=51138.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 23:19:29,235 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=51164.0, num_to_drop=1, layers_to_drop={0}
2022-11-15 23:19:33,355 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=5.51 vs. limit=5.0
2022-11-15 23:19:34,458 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=51172.0, num_to_drop=1, layers_to_drop={1}
2022-11-15 23:19:54,816 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=51202.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 23:19:56,970 INFO [train.py:876] (1/4) Epoch 8, batch 300, loss[loss=0.1456, simple_loss=0.1692, pruned_loss=0.06105, over 5675.00 frames. ], tot_loss[loss=0.1451, simple_loss=0.1615, pruned_loss=0.06433, over 840645.23 frames. ], batch size: 36, lr: 1.04e-02, grad_scale: 16.0
2022-11-15 23:20:07,737 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.034e+02 1.685e+02 2.012e+02 2.730e+02 5.121e+02, threshold=4.024e+02, percent-clipped=2.0
2022-11-15 23:20:15,722 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=51233.0, num_to_drop=1, layers_to_drop={2}
2022-11-15 23:20:27,337 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=51250.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 23:20:28,122 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([4.2822, 2.3901, 3.9211, 3.4211, 4.6495, 2.7035, 3.9747, 4.4664],
       device='cuda:1'), covar=tensor([0.0475, 0.1848, 0.0614, 0.1471, 0.0302, 0.1527, 0.1237, 0.0688],
       device='cuda:1'), in_proj_covar=tensor([0.0218, 0.0191, 0.0199, 0.0208, 0.0212, 0.0188, 0.0222, 0.0217],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004],
       device='cuda:1')
2022-11-15 23:20:48,315 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=1.95 vs. limit=2.0
2022-11-15 23:21:03,054 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=51302.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 23:21:05,008 INFO [train.py:876] (1/4) Epoch 8, batch 400, loss[loss=0.1478, simple_loss=0.1693, pruned_loss=0.06314, over 5545.00 frames. ], tot_loss[loss=0.1427, simple_loss=0.1603, pruned_loss=0.0626, over 941374.72 frames. ], batch size: 14, lr: 1.04e-02, grad_scale: 16.0
2022-11-15 23:21:16,262 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 8.652e+01 1.583e+02 1.915e+02 2.557e+02 6.087e+02, threshold=3.830e+02, percent-clipped=2.0
2022-11-15 23:21:57,207 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=51382.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 23:22:03,768 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=51392.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 23:22:12,920 INFO [train.py:876] (1/4) Epoch 8, batch 500, loss[loss=0.1908, simple_loss=0.2042, pruned_loss=0.08872, over 5651.00 frames. ], tot_loss[loss=0.1429, simple_loss=0.1609, pruned_loss=0.06242, over 1000715.64 frames. ], batch size: 32, lr: 1.04e-02, grad_scale: 16.0
2022-11-15 23:22:21,685 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=51418.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 23:22:23,653 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 7.464e+01 1.684e+02 2.091e+02 2.743e+02 4.142e+02, threshold=4.181e+02, percent-clipped=1.0
2022-11-15 23:22:35,552 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=51438.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 23:22:38,886 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=51443.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 23:22:45,518 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=51453.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 23:22:49,398 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.9803, 2.0055, 2.3762, 1.3829, 1.0534, 2.7439, 2.0967, 1.4467],
       device='cuda:1'), covar=tensor([0.0725, 0.0913, 0.0491, 0.2331, 0.2292, 0.0756, 0.1001, 0.1168],
       device='cuda:1'), in_proj_covar=tensor([0.0070, 0.0057, 0.0061, 0.0076, 0.0061, 0.0048, 0.0055, 0.0062],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0001, 0.0001, 0.0002, 0.0001, 0.0001, 0.0001, 0.0001],
       device='cuda:1')
2022-11-15 23:22:53,359 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=51464.0, num_to_drop=1, layers_to_drop={2}
2022-11-15 23:23:08,423 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=51486.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 23:23:14,476 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=51495.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 23:23:21,004 INFO [train.py:876] (1/4) Epoch 8, batch 600, loss[loss=0.09419, simple_loss=0.1267, pruned_loss=0.03085, over 5546.00 frames. ], tot_loss[loss=0.1438, simple_loss=0.1611, pruned_loss=0.06326, over 1031951.79 frames. ], batch size: 13, lr: 1.04e-02, grad_scale: 32.0
2022-11-15 23:23:26,049 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=51512.0, num_to_drop=1, layers_to_drop={1}
2022-11-15 23:23:26,087 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.5574, 2.7681, 2.8479, 2.5775, 2.8309, 2.8010, 1.0146, 2.8161],
       device='cuda:1'), covar=tensor([0.0599, 0.0375, 0.0388, 0.0371, 0.0454, 0.0403, 0.4112, 0.0556],
       device='cuda:1'), in_proj_covar=tensor([0.0100, 0.0081, 0.0080, 0.0073, 0.0098, 0.0083, 0.0130, 0.0103],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
       device='cuda:1')
2022-11-15 23:23:32,193 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 9.319e+01 1.675e+02 2.028e+02 2.576e+02 4.109e+02, threshold=4.056e+02, percent-clipped=0.0
2022-11-15 23:23:37,220 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=51528.0, num_to_drop=1, layers_to_drop={3}
2022-11-15 23:23:37,976 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.8959, 1.7468, 1.9291, 1.8821, 2.2501, 1.7856, 1.3852, 1.9827],
       device='cuda:1'), covar=tensor([0.1110, 0.1462, 0.0993, 0.0831, 0.0680, 0.1487, 0.1691, 0.1309],
       device='cuda:1'), in_proj_covar=tensor([0.0214, 0.0205, 0.0202, 0.0322, 0.0226, 0.0216, 0.0195, 0.0218],
       device='cuda:1'), out_proj_covar=tensor([0.0005, 0.0005, 0.0005, 0.0006, 0.0005, 0.0005, 0.0005, 0.0005],
       device='cuda:1')
2022-11-15 23:23:56,185 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=51556.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 23:24:28,202 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=51602.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 23:24:30,080 INFO [train.py:876] (1/4) Epoch 8, batch 700, loss[loss=0.2353, simple_loss=0.2078, pruned_loss=0.1314, over 3164.00 frames. ], tot_loss[loss=0.1443, simple_loss=0.1611, pruned_loss=0.06371, over 1053216.60 frames. ], batch size: 284, lr: 1.04e-02, grad_scale: 32.0
2022-11-15 23:24:31,593 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.2419, 1.2351, 1.3455, 0.9755, 0.9861, 1.2912, 0.9662, 0.7478],
       device='cuda:1'), covar=tensor([0.0018, 0.0032, 0.0027, 0.0036, 0.0030, 0.0037, 0.0028, 0.0037],
       device='cuda:1'), in_proj_covar=tensor([0.0020, 0.0021, 0.0021, 0.0025, 0.0024, 0.0022, 0.0025, 0.0026],
       device='cuda:1'), out_proj_covar=tensor([1.8725e-05, 2.0738e-05, 1.9404e-05, 2.5210e-05, 2.2679e-05, 2.1159e-05,
        2.3946e-05, 2.6693e-05], device='cuda:1')
2022-11-15 23:24:38,279 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.2999, 2.0341, 2.9170, 2.6166, 2.8785, 2.0892, 2.6908, 3.2474],
       device='cuda:1'), covar=tensor([0.0551, 0.1323, 0.0725, 0.1438, 0.0676, 0.1264, 0.1066, 0.0664],
       device='cuda:1'), in_proj_covar=tensor([0.0219, 0.0190, 0.0197, 0.0209, 0.0212, 0.0186, 0.0221, 0.0214],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004],
       device='cuda:1')
2022-11-15 23:24:40,706 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 9.048e+01 1.604e+02 2.114e+02 2.490e+02 4.177e+02, threshold=4.229e+02, percent-clipped=3.0
2022-11-15 23:24:57,737 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.33 vs. limit=2.0
2022-11-15 23:25:01,593 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=51650.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 23:25:05,034 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.4588, 1.8531, 1.9845, 2.5527, 2.6140, 1.9924, 1.7031, 2.7449],
       device='cuda:1'), covar=tensor([0.1166, 0.3779, 0.2401, 0.1779, 0.1322, 0.3029, 0.2247, 0.0835],
       device='cuda:1'), in_proj_covar=tensor([0.0215, 0.0207, 0.0200, 0.0323, 0.0226, 0.0215, 0.0195, 0.0220],
       device='cuda:1'), out_proj_covar=tensor([0.0005, 0.0005, 0.0005, 0.0006, 0.0005, 0.0005, 0.0005, 0.0005],
       device='cuda:1')
2022-11-15 23:25:13,737 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=1.89 vs. limit=2.0
2022-11-15 23:25:39,226 INFO [train.py:876] (1/4) Epoch 8, batch 800, loss[loss=0.1354, simple_loss=0.1678, pruned_loss=0.05144, over 5537.00 frames. ], tot_loss[loss=0.1462, simple_loss=0.1623, pruned_loss=0.06507, over 1065596.81 frames. ], batch size: 17, lr: 1.04e-02, grad_scale: 16.0
2022-11-15 23:25:47,920 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=51718.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 23:25:50,398 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 9.606e+01 1.543e+02 1.960e+02 2.359e+02 4.121e+02, threshold=3.919e+02, percent-clipped=0.0
2022-11-15 23:26:01,937 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=51738.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 23:26:07,999 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=51747.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 23:26:08,922 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=51748.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 23:26:13,927 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.4427, 1.7170, 1.6662, 1.0920, 1.3243, 1.7667, 1.1943, 0.9659],
       device='cuda:1'), covar=tensor([0.0017, 0.0024, 0.0024, 0.0055, 0.0035, 0.0047, 0.0027, 0.0046],
       device='cuda:1'), in_proj_covar=tensor([0.0020, 0.0020, 0.0021, 0.0025, 0.0023, 0.0021, 0.0024, 0.0025],
       device='cuda:1'), out_proj_covar=tensor([1.8178e-05, 1.9858e-05, 1.8995e-05, 2.4810e-05, 2.1487e-05, 2.0182e-05,
        2.3277e-05, 2.6013e-05], device='cuda:1')
2022-11-15 23:26:20,919 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=51766.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 23:26:47,892 INFO [train.py:876] (1/4) Epoch 8, batch 900, loss[loss=0.1947, simple_loss=0.1879, pruned_loss=0.1007, over 4670.00 frames. ], tot_loss[loss=0.1451, simple_loss=0.1616, pruned_loss=0.06428, over 1071336.60 frames. ], batch size: 135, lr: 1.04e-02, grad_scale: 16.0
2022-11-15 23:26:50,118 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=51808.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 23:26:59,515 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.277e+02 1.796e+02 2.172e+02 2.751e+02 5.616e+02, threshold=4.345e+02, percent-clipped=4.0
2022-11-15 23:27:03,640 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=51828.0, num_to_drop=1, layers_to_drop={0}
2022-11-15 23:27:19,692 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=51851.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 23:27:37,036 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=51876.0, num_to_drop=1, layers_to_drop={0}
2022-11-15 23:27:57,326 INFO [train.py:876] (1/4) Epoch 8, batch 1000, loss[loss=0.1457, simple_loss=0.1674, pruned_loss=0.06204, over 5582.00 frames. ], tot_loss[loss=0.1455, simple_loss=0.1622, pruned_loss=0.06442, over 1074980.75 frames. ], batch size: 24, lr: 1.04e-02, grad_scale: 16.0
2022-11-15 23:27:59,806 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.76 vs. limit=2.0
2022-11-15 23:28:08,738 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.111e+02 1.780e+02 2.132e+02 2.745e+02 5.068e+02, threshold=4.264e+02, percent-clipped=2.0
2022-11-15 23:28:19,524 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.2046, 1.9761, 2.1482, 1.3173, 1.0006, 2.8678, 2.2897, 1.9304],
       device='cuda:1'), covar=tensor([0.0966, 0.1166, 0.0915, 0.3177, 0.4695, 0.1391, 0.0814, 0.1432],
       device='cuda:1'), in_proj_covar=tensor([0.0070, 0.0058, 0.0061, 0.0076, 0.0059, 0.0048, 0.0053, 0.0062],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0001, 0.0001, 0.0002, 0.0001, 0.0001, 0.0001, 0.0001],
       device='cuda:1')
2022-11-15 23:28:22,187 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.2711, 4.6610, 3.1167, 4.4297, 3.6786, 3.1232, 2.4435, 4.0059],
       device='cuda:1'), covar=tensor([0.1798, 0.0221, 0.1070, 0.0274, 0.0480, 0.1077, 0.2057, 0.0280],
       device='cuda:1'), in_proj_covar=tensor([0.0169, 0.0138, 0.0165, 0.0141, 0.0175, 0.0178, 0.0177, 0.0149],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0004, 0.0004, 0.0004, 0.0003],
       device='cuda:1')
2022-11-15 23:28:43,442 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([4.3225, 4.4715, 4.6220, 4.5973, 4.0346, 3.9693, 5.1151, 4.4982],
       device='cuda:1'), covar=tensor([0.0533, 0.0997, 0.0404, 0.1135, 0.0606, 0.0376, 0.0707, 0.0620],
       device='cuda:1'), in_proj_covar=tensor([0.0078, 0.0098, 0.0085, 0.0108, 0.0080, 0.0071, 0.0133, 0.0092],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0003, 0.0002],
       device='cuda:1')
2022-11-15 23:29:04,721 INFO [train.py:876] (1/4) Epoch 8, batch 1100, loss[loss=0.1551, simple_loss=0.1694, pruned_loss=0.07042, over 5727.00 frames. ], tot_loss[loss=0.1437, simple_loss=0.1611, pruned_loss=0.06314, over 1079095.96 frames. ], batch size: 36, lr: 1.03e-02, grad_scale: 16.0
2022-11-15 23:29:16,567 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 9.856e+01 1.738e+02 2.117e+02 2.536e+02 5.317e+02, threshold=4.235e+02, percent-clipped=1.0
2022-11-15 23:29:27,940 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=52038.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 23:29:29,226 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=52040.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 23:29:34,334 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=52048.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 23:29:56,262 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.4700, 1.0233, 1.5296, 1.3455, 1.1860, 1.5272, 1.1696, 1.3159],
       device='cuda:1'), covar=tensor([0.0025, 0.0109, 0.0073, 0.0075, 0.0100, 0.0082, 0.0031, 0.0081],
       device='cuda:1'), in_proj_covar=tensor([0.0020, 0.0020, 0.0021, 0.0026, 0.0023, 0.0021, 0.0024, 0.0025],
       device='cuda:1'), out_proj_covar=tensor([1.8933e-05, 1.9945e-05, 1.9198e-05, 2.5550e-05, 2.1835e-05, 2.0896e-05,
        2.3797e-05, 2.6288e-05], device='cuda:1')
2022-11-15 23:29:59,641 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=52086.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 23:30:06,068 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=52096.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 23:30:08,630 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.25 vs. limit=2.0
2022-11-15 23:30:09,791 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=52101.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 23:30:10,944 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=52103.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 23:30:12,209 INFO [train.py:876] (1/4) Epoch 8, batch 1200, loss[loss=0.1136, simple_loss=0.1352, pruned_loss=0.04603, over 5542.00 frames. ], tot_loss[loss=0.1427, simple_loss=0.161, pruned_loss=0.06224, over 1089860.71 frames. ], batch size: 25, lr: 1.03e-02, grad_scale: 8.0
2022-11-15 23:30:23,865 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.007e+02 1.672e+02 2.083e+02 2.557e+02 4.587e+02, threshold=4.167e+02, percent-clipped=2.0
2022-11-15 23:30:24,061 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.5169, 3.2056, 3.3188, 1.7231, 3.0502, 3.5395, 3.5026, 3.9175],
       device='cuda:1'), covar=tensor([0.1902, 0.1363, 0.1017, 0.2677, 0.0369, 0.0630, 0.0399, 0.0479],
       device='cuda:1'), in_proj_covar=tensor([0.0182, 0.0191, 0.0161, 0.0193, 0.0174, 0.0182, 0.0153, 0.0190],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0004, 0.0003, 0.0004, 0.0003, 0.0004, 0.0003, 0.0004],
       device='cuda:1')
2022-11-15 23:30:25,584 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=2.05 vs. limit=2.0
2022-11-15 23:30:43,494 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=52151.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 23:31:12,348 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=52193.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 23:31:16,113 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=52199.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 23:31:20,578 INFO [train.py:876] (1/4) Epoch 8, batch 1300, loss[loss=0.11, simple_loss=0.1348, pruned_loss=0.0426, over 5568.00 frames. ], tot_loss[loss=0.1416, simple_loss=0.1593, pruned_loss=0.062, over 1079936.63 frames. ], batch size: 13, lr: 1.03e-02, grad_scale: 8.0
2022-11-15 23:31:32,442 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.004e+02 1.693e+02 2.062e+02 2.550e+02 7.238e+02, threshold=4.125e+02, percent-clipped=3.0
2022-11-15 23:31:48,292 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.37 vs. limit=2.0
2022-11-15 23:31:54,158 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=52254.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 23:32:27,890 INFO [train.py:876] (1/4) Epoch 8, batch 1400, loss[loss=0.1787, simple_loss=0.1749, pruned_loss=0.09126, over 4762.00 frames. ], tot_loss[loss=0.1436, simple_loss=0.1606, pruned_loss=0.06331, over 1077732.05 frames. ], batch size: 135, lr: 1.03e-02, grad_scale: 8.0
2022-11-15 23:32:32,555 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=52312.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 23:32:35,451 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.2174, 1.7547, 1.8302, 1.2135, 1.0411, 2.3051, 1.6658, 1.2417],
       device='cuda:1'), covar=tensor([0.0915, 0.0781, 0.0787, 0.1858, 0.1790, 0.0400, 0.0972, 0.1364],
       device='cuda:1'), in_proj_covar=tensor([0.0067, 0.0058, 0.0059, 0.0073, 0.0056, 0.0047, 0.0053, 0.0061],
       device='cuda:1'), out_proj_covar=tensor([0.0001, 0.0001, 0.0001, 0.0002, 0.0001, 0.0001, 0.0001, 0.0001],
       device='cuda:1')
2022-11-15 23:32:36,163 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.6851, 2.0355, 1.5848, 1.3045, 1.6706, 2.2738, 1.9285, 2.2910],
       device='cuda:1'), covar=tensor([0.1602, 0.1310, 0.1704, 0.2581, 0.0992, 0.0652, 0.0664, 0.0932],
       device='cuda:1'), in_proj_covar=tensor([0.0180, 0.0188, 0.0159, 0.0191, 0.0170, 0.0178, 0.0153, 0.0186],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0004, 0.0003, 0.0004, 0.0003, 0.0003, 0.0003, 0.0004],
       device='cuda:1')
2022-11-15 23:32:39,667 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.080e+02 1.794e+02 2.190e+02 2.627e+02 5.142e+02, threshold=4.380e+02, percent-clipped=4.0
2022-11-15 23:32:51,964 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.6459, 2.4376, 2.1404, 2.6601, 2.1191, 2.1639, 2.3018, 2.7506],
       device='cuda:1'), covar=tensor([0.0971, 0.2315, 0.3037, 0.1316, 0.2084, 0.1609, 0.2069, 0.5803],
       device='cuda:1'), in_proj_covar=tensor([0.0086, 0.0090, 0.0100, 0.0081, 0.0084, 0.0084, 0.0092, 0.0066],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
       device='cuda:1')
2022-11-15 23:33:13,775 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=52373.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 23:33:28,834 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=52396.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 23:33:33,943 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=52403.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 23:33:35,125 INFO [train.py:876] (1/4) Epoch 8, batch 1500, loss[loss=0.1407, simple_loss=0.1579, pruned_loss=0.06175, over 5625.00 frames. ], tot_loss[loss=0.1457, simple_loss=0.1626, pruned_loss=0.06437, over 1084067.38 frames. ], batch size: 32, lr: 1.03e-02, grad_scale: 8.0
2022-11-15 23:33:47,238 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.037e+02 1.630e+02 1.908e+02 2.524e+02 5.804e+02, threshold=3.816e+02, percent-clipped=2.0
2022-11-15 23:34:06,268 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=52451.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 23:34:42,714 INFO [train.py:876] (1/4) Epoch 8, batch 1600, loss[loss=0.1042, simple_loss=0.1394, pruned_loss=0.03447, over 5542.00 frames. ], tot_loss[loss=0.1429, simple_loss=0.1608, pruned_loss=0.06245, over 1092486.43 frames. ], batch size: 16, lr: 1.03e-02, grad_scale: 8.0
2022-11-15 23:34:55,355 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.098e+02 1.681e+02 2.048e+02 2.311e+02 7.167e+02, threshold=4.097e+02, percent-clipped=4.0
2022-11-15 23:35:07,742 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.8027, 2.3491, 2.0476, 1.3064, 2.3563, 1.1220, 2.3863, 1.5122],
       device='cuda:1'), covar=tensor([0.1124, 0.0324, 0.0799, 0.1576, 0.0297, 0.2075, 0.0271, 0.1347],
       device='cuda:1'), in_proj_covar=tensor([0.0127, 0.0106, 0.0117, 0.0116, 0.0106, 0.0127, 0.0100, 0.0117],
       device='cuda:1'), out_proj_covar=tensor([0.0005, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004],
       device='cuda:1')
2022-11-15 23:35:13,813 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=52549.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 23:35:18,143 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=52555.0, num_to_drop=1, layers_to_drop={1}
2022-11-15 23:35:36,418 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.91 vs. limit=2.0
2022-11-15 23:35:53,441 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([5.0077, 4.5034, 4.8052, 4.3859, 5.0600, 4.9296, 4.4098, 5.0009],
       device='cuda:1'), covar=tensor([0.0290, 0.0264, 0.0366, 0.0296, 0.0278, 0.0143, 0.0234, 0.0263],
       device='cuda:1'), in_proj_covar=tensor([0.0123, 0.0131, 0.0099, 0.0129, 0.0145, 0.0087, 0.0109, 0.0130],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0003],
       device='cuda:1')
2022-11-15 23:35:54,042 INFO [train.py:876] (1/4) Epoch 8, batch 1700, loss[loss=0.149, simple_loss=0.1577, pruned_loss=0.07019, over 5582.00 frames. ], tot_loss[loss=0.1436, simple_loss=0.161, pruned_loss=0.06306, over 1089001.25 frames. ], batch size: 22, lr: 1.03e-02, grad_scale: 8.0
2022-11-15 23:36:02,210 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=52616.0, num_to_drop=1, layers_to_drop={1}
2022-11-15 23:36:06,801 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.098e+02 1.756e+02 2.105e+02 2.573e+02 4.026e+02, threshold=4.210e+02, percent-clipped=0.0
2022-11-15 23:36:15,102 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.42 vs. limit=2.0
2022-11-15 23:36:38,983 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=52668.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 23:36:59,024 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=52696.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 23:37:05,446 INFO [train.py:876] (1/4) Epoch 8, batch 1800, loss[loss=0.1067, simple_loss=0.1248, pruned_loss=0.04424, over 5292.00 frames. ], tot_loss[loss=0.1427, simple_loss=0.1607, pruned_loss=0.06239, over 1090809.73 frames. ], batch size: 9, lr: 1.03e-02, grad_scale: 8.0
2022-11-15 23:37:18,116 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.097e+02 1.718e+02 1.975e+02 2.529e+02 4.433e+02, threshold=3.950e+02, percent-clipped=1.0
2022-11-15 23:37:19,604 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.6126, 2.4435, 2.0149, 1.9765, 1.3565, 2.0257, 1.5691, 2.1830],
       device='cuda:1'), covar=tensor([0.1222, 0.0290, 0.0821, 0.0669, 0.1894, 0.0859, 0.1658, 0.0431],
       device='cuda:1'), in_proj_covar=tensor([0.0169, 0.0141, 0.0166, 0.0142, 0.0176, 0.0178, 0.0176, 0.0150],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0003, 0.0004, 0.0003, 0.0004, 0.0004, 0.0004, 0.0003],
       device='cuda:1')
2022-11-15 23:37:33,368 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=52744.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 23:37:38,973 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=52752.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 23:37:42,208 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.9301, 2.5210, 2.5587, 1.4210, 2.4736, 2.7363, 2.7111, 2.8862],
       device='cuda:1'), covar=tensor([0.1823, 0.1590, 0.0864, 0.2655, 0.0544, 0.0619, 0.0358, 0.0877],
       device='cuda:1'), in_proj_covar=tensor([0.0177, 0.0187, 0.0155, 0.0189, 0.0169, 0.0179, 0.0152, 0.0184],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0004, 0.0003, 0.0004, 0.0003, 0.0003, 0.0003, 0.0004],
       device='cuda:1')
2022-11-15 23:38:17,345 INFO [train.py:876] (1/4) Epoch 8, batch 1900, loss[loss=0.1171, simple_loss=0.1395, pruned_loss=0.04734, over 5682.00 frames. ], tot_loss[loss=0.1429, simple_loss=0.1602, pruned_loss=0.06276, over 1083102.87 frames. ], batch size: 19, lr: 1.03e-02, grad_scale: 8.0
2022-11-15 23:38:23,478 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=52813.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 23:38:30,574 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.099e+02 1.627e+02 1.958e+02 2.548e+02 4.819e+02, threshold=3.916e+02, percent-clipped=3.0
2022-11-15 23:38:49,588 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=52849.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 23:38:51,019 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([0.9842, 1.3326, 0.8759, 0.8579, 1.3530, 1.3099, 0.6678, 1.2979],
       device='cuda:1'), covar=tensor([0.0031, 0.0022, 0.0033, 0.0026, 0.0022, 0.0027, 0.0045, 0.0025],
       device='cuda:1'), in_proj_covar=tensor([0.0044, 0.0039, 0.0041, 0.0041, 0.0040, 0.0035, 0.0040, 0.0034],
       device='cuda:1'), out_proj_covar=tensor([3.9645e-05, 3.5288e-05, 3.7371e-05, 3.6893e-05, 3.5104e-05, 3.0537e-05,
        3.8067e-05, 3.0149e-05], device='cuda:1')
2022-11-15 23:38:56,175 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=1.95 vs. limit=2.0
2022-11-15 23:38:58,962 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([4.8618, 4.8173, 5.2778, 5.2426, 4.7736, 4.7435, 5.7451, 5.0560],
       device='cuda:1'), covar=tensor([0.0354, 0.1068, 0.0315, 0.0757, 0.0481, 0.0308, 0.0472, 0.0487],
       device='cuda:1'), in_proj_covar=tensor([0.0079, 0.0103, 0.0088, 0.0112, 0.0084, 0.0073, 0.0139, 0.0094],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0003, 0.0002],
       device='cuda:1')
2022-11-15 23:39:06,054 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.31 vs. limit=2.0
2022-11-15 23:39:10,425 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.2630, 1.6064, 2.1098, 1.2209, 0.8718, 2.6250, 2.0153, 1.5672],
       device='cuda:1'), covar=tensor([0.0927, 0.0932, 0.0671, 0.2367, 0.2040, 0.0762, 0.1002, 0.1078],
       device='cuda:1'), in_proj_covar=tensor([0.0071, 0.0062, 0.0063, 0.0079, 0.0060, 0.0048, 0.0056, 0.0064],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0001, 0.0001, 0.0002, 0.0001, 0.0001, 0.0001, 0.0001],
       device='cuda:1')
2022-11-15 23:39:23,807 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=52897.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 23:39:29,668 INFO [train.py:876] (1/4) Epoch 8, batch 2000, loss[loss=0.1727, simple_loss=0.1761, pruned_loss=0.08469, over 5287.00 frames. ], tot_loss[loss=0.1422, simple_loss=0.1596, pruned_loss=0.06234, over 1079455.70 frames. ], batch size: 79, lr: 1.03e-02, grad_scale: 8.0
2022-11-15 23:39:31,493 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=1.90 vs. limit=2.0
2022-11-15 23:39:33,826 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=52911.0, num_to_drop=1, layers_to_drop={0}
2022-11-15 23:39:42,130 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 9.867e+01 1.663e+02 2.013e+02 2.665e+02 5.051e+02, threshold=4.025e+02, percent-clipped=6.0
2022-11-15 23:39:55,840 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.42 vs. limit=2.0
2022-11-15 23:40:04,602 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.31 vs. limit=2.0
2022-11-15 23:40:14,205 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=52968.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 23:40:40,880 INFO [train.py:876] (1/4) Epoch 8, batch 2100, loss[loss=0.1154, simple_loss=0.134, pruned_loss=0.04841, over 5424.00 frames. ], tot_loss[loss=0.1415, simple_loss=0.1595, pruned_loss=0.06176, over 1083878.76 frames. ], batch size: 11, lr: 1.02e-02, grad_scale: 8.0
2022-11-15 23:40:48,788 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=53016.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 23:40:53,707 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.147e+02 1.690e+02 2.165e+02 2.534e+02 4.185e+02, threshold=4.330e+02, percent-clipped=4.0
2022-11-15 23:41:02,142 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=2.19 vs. limit=2.0
2022-11-15 23:41:17,510 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=53056.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 23:41:22,056 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.91 vs. limit=2.0
2022-11-15 23:41:24,479 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=2.01 vs. limit=2.0
2022-11-15 23:41:31,047 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.4177, 2.0183, 2.4240, 3.1350, 3.3029, 2.5664, 2.0028, 3.3659],
       device='cuda:1'), covar=tensor([0.0745, 0.3640, 0.2652, 0.5819, 0.1185, 0.3511, 0.2503, 0.0771],
       device='cuda:1'), in_proj_covar=tensor([0.0215, 0.0208, 0.0199, 0.0323, 0.0224, 0.0214, 0.0196, 0.0221],
       device='cuda:1'), out_proj_covar=tensor([0.0005, 0.0005, 0.0005, 0.0006, 0.0005, 0.0005, 0.0005, 0.0005],
       device='cuda:1')
2022-11-15 23:41:52,188 INFO [train.py:876] (1/4) Epoch 8, batch 2200, loss[loss=0.1097, simple_loss=0.1448, pruned_loss=0.03731, over 5571.00 frames. ], tot_loss[loss=0.1398, simple_loss=0.158, pruned_loss=0.06079, over 1084732.92 frames. ], batch size: 16, lr: 1.02e-02, grad_scale: 8.0
2022-11-15 23:41:54,666 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=53108.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 23:42:01,093 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=53117.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 23:42:05,401 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.068e+02 1.642e+02 2.019e+02 2.545e+02 4.106e+02, threshold=4.038e+02, percent-clipped=0.0
2022-11-15 23:42:18,849 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.42 vs. limit=2.0
2022-11-15 23:42:29,460 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.1313, 4.6933, 2.6600, 4.4653, 3.4928, 2.6252, 2.3418, 3.7968],
       device='cuda:1'), covar=tensor([0.2492, 0.0247, 0.1775, 0.0383, 0.0759, 0.1556, 0.2459, 0.0413],
       device='cuda:1'), in_proj_covar=tensor([0.0169, 0.0139, 0.0166, 0.0142, 0.0176, 0.0179, 0.0173, 0.0149],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0003, 0.0004, 0.0003, 0.0004, 0.0004, 0.0004, 0.0003],
       device='cuda:1')
2022-11-15 23:42:53,205 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([5.1892, 4.7026, 5.0461, 4.6513, 5.2500, 5.1308, 4.6050, 5.2251],
       device='cuda:1'), covar=tensor([0.0312, 0.0284, 0.0382, 0.0282, 0.0283, 0.0143, 0.0240, 0.0213],
       device='cuda:1'), in_proj_covar=tensor([0.0125, 0.0132, 0.0099, 0.0131, 0.0146, 0.0088, 0.0110, 0.0134],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0003, 0.0002, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003],
       device='cuda:1')
2022-11-15 23:43:05,026 INFO [train.py:876] (1/4) Epoch 8, batch 2300, loss[loss=0.1409, simple_loss=0.1638, pruned_loss=0.05907, over 5581.00 frames. ], tot_loss[loss=0.1381, simple_loss=0.1567, pruned_loss=0.05973, over 1078292.58 frames. ], batch size: 23, lr: 1.02e-02, grad_scale: 8.0
2022-11-15 23:43:09,410 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=53211.0, num_to_drop=1, layers_to_drop={2}
2022-11-15 23:43:17,885 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.001e+02 1.609e+02 1.989e+02 2.421e+02 4.681e+02, threshold=3.978e+02, percent-clipped=2.0
2022-11-15 23:43:28,948 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=1.91 vs. limit=2.0
2022-11-15 23:43:31,400 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=53241.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 23:43:42,920 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=6.39 vs. limit=5.0
2022-11-15 23:43:43,978 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=53259.0, num_to_drop=1, layers_to_drop={1}
2022-11-15 23:44:01,229 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([0.9839, 1.1886, 1.1211, 1.1324, 0.8723, 1.2987, 0.9232, 1.3913],
       device='cuda:1'), covar=tensor([0.0060, 0.0043, 0.0050, 0.0040, 0.0038, 0.0027, 0.0059, 0.0031],
       device='cuda:1'), in_proj_covar=tensor([0.0045, 0.0040, 0.0043, 0.0042, 0.0040, 0.0037, 0.0042, 0.0035],
       device='cuda:1'), out_proj_covar=tensor([4.0988e-05, 3.5942e-05, 3.9046e-05, 3.7546e-05, 3.5992e-05, 3.1711e-05,
        3.9865e-05, 3.1050e-05], device='cuda:1')
2022-11-15 23:44:14,676 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=53302.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 23:44:16,030 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=53304.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 23:44:16,595 INFO [train.py:876] (1/4) Epoch 8, batch 2400, loss[loss=0.1259, simple_loss=0.1486, pruned_loss=0.05153, over 5597.00 frames. ], tot_loss[loss=0.1377, simple_loss=0.1563, pruned_loss=0.05956, over 1072219.30 frames. ], batch size: 24, lr: 1.02e-02, grad_scale: 8.0
2022-11-15 23:44:24,086 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=53315.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 23:44:24,224 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.22 vs. limit=2.0
2022-11-15 23:44:29,615 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.094e+02 1.667e+02 1.893e+02 2.315e+02 4.306e+02, threshold=3.787e+02, percent-clipped=3.0
2022-11-15 23:45:00,227 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=53365.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 23:45:01,573 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=53367.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 23:45:07,911 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=53376.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 23:45:28,834 INFO [train.py:876] (1/4) Epoch 8, batch 2500, loss[loss=0.1011, simple_loss=0.1275, pruned_loss=0.03731, over 5302.00 frames. ], tot_loss[loss=0.1399, simple_loss=0.158, pruned_loss=0.06094, over 1074047.81 frames. ], batch size: 9, lr: 1.02e-02, grad_scale: 8.0
2022-11-15 23:45:31,087 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=53408.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 23:45:33,739 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=53412.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 23:45:41,347 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.144e+02 1.752e+02 2.233e+02 2.745e+02 4.955e+02, threshold=4.465e+02, percent-clipped=8.0
2022-11-15 23:45:44,972 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=53428.0, num_to_drop=1, layers_to_drop={1}
2022-11-15 23:45:52,551 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.4380, 1.1762, 1.5051, 1.0225, 1.5582, 1.1321, 1.2335, 1.3026],
       device='cuda:1'), covar=tensor([0.0880, 0.0818, 0.0370, 0.1653, 0.1425, 0.1434, 0.1711, 0.0985],
       device='cuda:1'), in_proj_covar=tensor([0.0011, 0.0016, 0.0011, 0.0014, 0.0013, 0.0011, 0.0015, 0.0012],
       device='cuda:1'), out_proj_covar=tensor([5.6876e-05, 7.5012e-05, 5.6964e-05, 6.8251e-05, 6.2750e-05, 5.7367e-05,
        7.0522e-05, 5.8797e-05], device='cuda:1')
2022-11-15 23:46:04,893 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=53456.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 23:46:39,616 INFO [train.py:876] (1/4) Epoch 8, batch 2600, loss[loss=0.118, simple_loss=0.1513, pruned_loss=0.04238, over 5730.00 frames. ], tot_loss[loss=0.1399, simple_loss=0.1574, pruned_loss=0.06113, over 1077630.65 frames. ], batch size: 36, lr: 1.02e-02, grad_scale: 8.0
2022-11-15 23:46:45,724 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.8397, 4.0957, 3.7332, 3.4790, 2.2071, 4.1023, 2.1992, 3.1242],
       device='cuda:1'), covar=tensor([0.0390, 0.0139, 0.0186, 0.0410, 0.0570, 0.0122, 0.0502, 0.0227],
       device='cuda:1'), in_proj_covar=tensor([0.0182, 0.0153, 0.0163, 0.0184, 0.0178, 0.0164, 0.0175, 0.0161],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
       device='cuda:1')
2022-11-15 23:46:48,365 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.5129, 4.1278, 3.5184, 3.4311, 2.0914, 3.8048, 2.0529, 3.1943],
       device='cuda:1'), covar=tensor([0.0464, 0.0127, 0.0201, 0.0323, 0.0539, 0.0151, 0.0477, 0.0184],
       device='cuda:1'), in_proj_covar=tensor([0.0182, 0.0153, 0.0163, 0.0184, 0.0178, 0.0164, 0.0175, 0.0161],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
       device='cuda:1')
2022-11-15 23:46:52,576 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 9.516e+01 1.584e+02 1.998e+02 2.446e+02 4.760e+02, threshold=3.997e+02, percent-clipped=2.0
2022-11-15 23:47:21,981 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([4.0011, 3.7295, 3.6693, 3.6440, 4.0361, 3.8410, 3.8377, 3.9315],
       device='cuda:1'), covar=tensor([0.0583, 0.0633, 0.0804, 0.0709, 0.0704, 0.0588, 0.0719, 0.0824],
       device='cuda:1'), in_proj_covar=tensor([0.0124, 0.0134, 0.0100, 0.0133, 0.0148, 0.0089, 0.0111, 0.0131],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0003, 0.0002, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003],
       device='cuda:1')
2022-11-15 23:47:45,387 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=53597.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 23:47:51,091 INFO [train.py:876] (1/4) Epoch 8, batch 2700, loss[loss=0.1508, simple_loss=0.1761, pruned_loss=0.06274, over 5554.00 frames. ], tot_loss[loss=0.138, simple_loss=0.1567, pruned_loss=0.05969, over 1080694.35 frames. ], batch size: 46, lr: 1.02e-02, grad_scale: 8.0
2022-11-15 23:47:57,880 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.88 vs. limit=2.0
2022-11-15 23:48:04,168 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.093e+02 1.781e+02 2.176e+02 2.706e+02 9.486e+02, threshold=4.353e+02, percent-clipped=5.0
2022-11-15 23:48:30,813 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=53660.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 23:48:38,714 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=53671.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 23:48:48,845 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([4.8641, 4.7786, 4.8431, 4.9973, 4.4756, 4.3278, 5.3542, 4.7860],
       device='cuda:1'), covar=tensor([0.0443, 0.0958, 0.0378, 0.1152, 0.0540, 0.0266, 0.0791, 0.0527],
       device='cuda:1'), in_proj_covar=tensor([0.0075, 0.0098, 0.0084, 0.0107, 0.0079, 0.0070, 0.0134, 0.0088],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
       device='cuda:1')
2022-11-15 23:49:02,627 INFO [train.py:876] (1/4) Epoch 8, batch 2800, loss[loss=0.109, simple_loss=0.1323, pruned_loss=0.04281, over 5529.00 frames. ], tot_loss[loss=0.1392, simple_loss=0.1577, pruned_loss=0.06035, over 1084638.67 frames. ], batch size: 14, lr: 1.02e-02, grad_scale: 8.0
2022-11-15 23:49:07,925 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=53712.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 23:49:15,686 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 9.500e+01 1.616e+02 2.009e+02 2.401e+02 5.865e+02, threshold=4.018e+02, percent-clipped=2.0
2022-11-15 23:49:15,807 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=53723.0, num_to_drop=1, layers_to_drop={2}
2022-11-15 23:49:29,846 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.5213, 2.1355, 2.6883, 1.6387, 1.8125, 2.7897, 2.4548, 2.2462],
       device='cuda:1'), covar=tensor([0.0624, 0.0994, 0.0432, 0.2228, 0.2033, 0.3868, 0.0904, 0.0824],
       device='cuda:1'), in_proj_covar=tensor([0.0070, 0.0061, 0.0061, 0.0076, 0.0057, 0.0046, 0.0054, 0.0062],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0001, 0.0001, 0.0002, 0.0001, 0.0001, 0.0001, 0.0001],
       device='cuda:1')
2022-11-15 23:49:42,122 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=53760.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 23:50:06,546 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([0.7677, 1.3677, 1.0602, 0.8782, 1.2553, 1.3421, 0.5455, 1.3139],
       device='cuda:1'), covar=tensor([0.0043, 0.0023, 0.0038, 0.0030, 0.0026, 0.0025, 0.0067, 0.0028],
       device='cuda:1'), in_proj_covar=tensor([0.0045, 0.0040, 0.0043, 0.0041, 0.0041, 0.0037, 0.0042, 0.0035],
       device='cuda:1'), out_proj_covar=tensor([4.1037e-05, 3.6393e-05, 3.9343e-05, 3.7175e-05, 3.6111e-05, 3.1610e-05,
        3.9473e-05, 3.1226e-05], device='cuda:1')
2022-11-15 23:50:15,002 INFO [train.py:876] (1/4) Epoch 8, batch 2900, loss[loss=0.1585, simple_loss=0.1702, pruned_loss=0.0734, over 5703.00 frames. ], tot_loss[loss=0.1386, simple_loss=0.1573, pruned_loss=0.05993, over 1081688.82 frames. ], batch size: 19, lr: 1.02e-02, grad_scale: 8.0
2022-11-15 23:50:27,692 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 9.192e+01 1.630e+02 2.037e+02 2.446e+02 6.104e+02, threshold=4.074e+02, percent-clipped=4.0
2022-11-15 23:50:27,943 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.9455, 1.7591, 2.7773, 2.4059, 2.6484, 1.7598, 2.5278, 2.9414],
       device='cuda:1'), covar=tensor([0.0693, 0.1561, 0.0661, 0.1383, 0.0742, 0.1390, 0.0939, 0.0846],
       device='cuda:1'), in_proj_covar=tensor([0.0227, 0.0198, 0.0202, 0.0215, 0.0220, 0.0194, 0.0224, 0.0221],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004],
       device='cuda:1')
2022-11-15 23:50:51,582 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.2916, 0.9965, 1.1061, 0.7861, 1.2125, 0.9996, 0.9199, 1.0949],
       device='cuda:1'), covar=tensor([0.0529, 0.0589, 0.0384, 0.0957, 0.0406, 0.0726, 0.0744, 0.0389],
       device='cuda:1'), in_proj_covar=tensor([0.0011, 0.0016, 0.0011, 0.0014, 0.0013, 0.0011, 0.0016, 0.0012],
       device='cuda:1'), out_proj_covar=tensor([5.7640e-05, 7.5895e-05, 5.7775e-05, 6.8816e-05, 6.4023e-05, 5.8558e-05,
        7.2658e-05, 5.9297e-05], device='cuda:1')
2022-11-15 23:51:16,253 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([0.9812, 0.7237, 0.6930, 0.7671, 0.9923, 0.7659, 0.7064, 0.7728],
       device='cuda:1'), covar=tensor([0.0254, 0.0595, 0.0542, 0.0710, 0.0473, 0.0516, 0.0770, 0.0519],
       device='cuda:1'), in_proj_covar=tensor([0.0011, 0.0016, 0.0011, 0.0014, 0.0013, 0.0011, 0.0016, 0.0012],
       device='cuda:1'), out_proj_covar=tensor([5.7176e-05, 7.5745e-05, 5.7553e-05, 6.8480e-05, 6.3739e-05, 5.8215e-05,
        7.2506e-05, 5.8930e-05], device='cuda:1')
2022-11-15 23:51:20,329 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=53897.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 23:51:26,049 INFO [train.py:876] (1/4) Epoch 8, batch 3000, loss[loss=0.1415, simple_loss=0.1574, pruned_loss=0.0628, over 5784.00 frames. ], tot_loss[loss=0.1403, simple_loss=0.1583, pruned_loss=0.06111, over 1086940.99 frames. ], batch size: 21, lr: 1.02e-02, grad_scale: 8.0
2022-11-15 23:51:26,050 INFO [train.py:899] (1/4) Computing validation loss
2022-11-15 23:51:36,010 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.8555, 2.1737, 2.2185, 1.4158, 2.0653, 2.7330, 2.4243, 2.7924],
       device='cuda:1'), covar=tensor([0.1900, 0.1488, 0.1567, 0.2804, 0.0764, 0.0842, 0.0310, 0.0868],
       device='cuda:1'), in_proj_covar=tensor([0.0179, 0.0187, 0.0160, 0.0192, 0.0171, 0.0186, 0.0153, 0.0184],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0004, 0.0003, 0.0004, 0.0003, 0.0004, 0.0003, 0.0004],
       device='cuda:1')
2022-11-15 23:51:37,785 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.2347, 5.0943, 3.4955, 4.7957, 4.0177, 4.0734, 3.3352, 4.4229],
       device='cuda:1'), covar=tensor([0.1187, 0.0184, 0.0971, 0.0257, 0.0534, 0.0580, 0.1488, 0.0225],
       device='cuda:1'), in_proj_covar=tensor([0.0170, 0.0142, 0.0168, 0.0142, 0.0178, 0.0179, 0.0175, 0.0154],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0003, 0.0004, 0.0003, 0.0004, 0.0004, 0.0004, 0.0003],
       device='cuda:1')
2022-11-15 23:51:44,990 INFO [train.py:908] (1/4) Epoch 8, validation: loss=0.1608, simple_loss=0.1816, pruned_loss=0.06996, over 1530663.00 frames. 
2022-11-15 23:51:44,991 INFO [train.py:909] (1/4) Maximum memory allocated so far is 4676MB
2022-11-15 23:51:57,592 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 9.245e+01 1.684e+02 1.979e+02 2.404e+02 5.002e+02, threshold=3.957e+02, percent-clipped=2.0
2022-11-15 23:52:13,792 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=53945.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 23:52:24,747 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=53960.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 23:52:32,414 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=53971.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 23:52:39,599 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=2.01 vs. limit=2.0
2022-11-15 23:52:44,317 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=3.65 vs. limit=5.0
2022-11-15 23:52:57,152 INFO [train.py:876] (1/4) Epoch 8, batch 3100, loss[loss=0.1273, simple_loss=0.1544, pruned_loss=0.05013, over 5699.00 frames. ], tot_loss[loss=0.1425, simple_loss=0.1604, pruned_loss=0.06229, over 1091960.80 frames. ], batch size: 17, lr: 1.02e-02, grad_scale: 8.0
2022-11-15 23:52:59,294 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=54008.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 23:53:07,362 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=54019.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 23:53:09,937 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 9.766e+01 1.773e+02 2.219e+02 2.737e+02 4.389e+02, threshold=4.437e+02, percent-clipped=4.0
2022-11-15 23:53:10,106 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=54023.0, num_to_drop=1, layers_to_drop={0}
2022-11-15 23:53:10,753 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.3972, 1.6383, 1.6933, 1.8990, 1.6544, 1.4149, 1.5928, 1.6279],
       device='cuda:1'), covar=tensor([0.2834, 0.2235, 0.2365, 0.1300, 0.2140, 0.3615, 0.2311, 0.0891],
       device='cuda:1'), in_proj_covar=tensor([0.0085, 0.0088, 0.0095, 0.0080, 0.0083, 0.0082, 0.0089, 0.0063],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
       device='cuda:1')
2022-11-15 23:53:32,170 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([4.4265, 4.1822, 4.2417, 3.9849, 4.5082, 4.3891, 4.0972, 4.4635],
       device='cuda:1'), covar=tensor([0.0709, 0.0538, 0.0667, 0.0760, 0.0679, 0.0401, 0.0493, 0.0611],
       device='cuda:1'), in_proj_covar=tensor([0.0122, 0.0132, 0.0100, 0.0131, 0.0145, 0.0088, 0.0109, 0.0130],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0003, 0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0003],
       device='cuda:1')
2022-11-15 23:53:43,827 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=54071.0, num_to_drop=0, layers_to_drop=set()
2022-11-15 23:54:08,038 INFO [train.py:876] (1/4) Epoch 8, batch 3200, loss[loss=0.1114, simple_loss=0.1483, pruned_loss=0.03726, over 5488.00 frames. ], tot_loss[loss=0.1415, simple_loss=0.1596, pruned_loss=0.0617, over 1092221.78 frames. ], batch size: 12, lr: 1.01e-02, grad_scale: 16.0
2022-11-15 23:54:16,133 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.4534, 2.5145, 2.2422, 2.5176, 2.1992, 1.7492, 2.2446, 2.9984],
       device='cuda:1'), covar=tensor([0.1427, 0.1895, 0.2700, 0.2339, 0.2441, 0.4489, 0.2314, 0.1331],
       device='cuda:1'), in_proj_covar=tensor([0.0086, 0.0089, 0.0097, 0.0082, 0.0083, 0.0084, 0.0090, 0.0064],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
       device='cuda:1')
2022-11-15 23:54:21,049 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.083e+02 1.665e+02 2.003e+02 2.661e+02 5.081e+02, threshold=4.007e+02, percent-clipped=1.0
2022-11-15 23:54:49,485 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([4.2908, 4.4492, 4.4579, 4.5297, 4.0787, 3.4994, 4.9978, 4.3261],
       device='cuda:1'), covar=tensor([0.0384, 0.0741, 0.0351, 0.1107, 0.0523, 0.0441, 0.0615, 0.0534],
       device='cuda:1'), in_proj_covar=tensor([0.0077, 0.0101, 0.0086, 0.0110, 0.0081, 0.0072, 0.0137, 0.0090],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0003, 0.0002],
       device='cuda:1')
2022-11-15 23:54:58,925 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.20 vs. limit=2.0
2022-11-15 23:55:12,536 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=2.01 vs. limit=2.0
2022-11-15 23:55:20,029 INFO [train.py:876] (1/4) Epoch 8, batch 3300, loss[loss=0.1613, simple_loss=0.17, pruned_loss=0.07626, over 5601.00 frames. ], tot_loss[loss=0.1403, simple_loss=0.1589, pruned_loss=0.06081, over 1087685.34 frames. ], batch size: 18, lr: 1.01e-02, grad_scale: 16.0
2022-11-15 23:55:32,994 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.066e+02 1.566e+02 1.855e+02 2.366e+02 3.545e+02, threshold=3.710e+02, percent-clipped=0.0
2022-11-15 23:55:40,443 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([0.4633, 0.7287, 0.7173, 0.4140, 0.8626, 0.8186, 0.4615, 0.8123],
       device='cuda:1'), covar=tensor([0.0032, 0.0014, 0.0021, 0.0022, 0.0018, 0.0016, 0.0033, 0.0013],
       device='cuda:1'), in_proj_covar=tensor([0.0045, 0.0040, 0.0043, 0.0041, 0.0041, 0.0037, 0.0042, 0.0035],
       device='cuda:1'), out_proj_covar=tensor([4.0900e-05, 3.6324e-05, 3.9253e-05, 3.7455e-05, 3.6655e-05, 3.2411e-05,
        3.9287e-05, 3.1079e-05], device='cuda:1')
2022-11-15 23:55:44,405 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.6478, 2.2296, 3.2652, 2.9870, 3.3592, 2.0702, 2.9973, 3.6561],
       device='cuda:1'), covar=tensor([0.0557, 0.1510, 0.0733, 0.1415, 0.0628, 0.1765, 0.1247, 0.0710],
       device='cuda:1'), in_proj_covar=tensor([0.0219, 0.0195, 0.0201, 0.0208, 0.0216, 0.0191, 0.0221, 0.0218],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004],
       device='cuda:1')
2022-11-15 23:56:31,635 INFO [train.py:876] (1/4) Epoch 8, batch 3400, loss[loss=0.1566, simple_loss=0.1813, pruned_loss=0.06591, over 5567.00 frames. ], tot_loss[loss=0.1413, simple_loss=0.1595, pruned_loss=0.06152, over 1089377.00 frames. ], batch size: 30, lr: 1.01e-02, grad_scale: 16.0
2022-11-15 23:56:43,987 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.133e+02 1.624e+02 2.119e+02 2.818e+02 4.148e+02, threshold=4.237e+02, percent-clipped=5.0
2022-11-15 23:57:07,194 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.4873, 1.9487, 2.1314, 2.4904, 2.6376, 1.9423, 1.5919, 2.7280],
       device='cuda:1'), covar=tensor([0.1317, 0.2487, 0.2050, 0.1371, 0.1313, 0.3021, 0.2345, 0.0957],
       device='cuda:1'), in_proj_covar=tensor([0.0220, 0.0204, 0.0200, 0.0323, 0.0227, 0.0213, 0.0196, 0.0222],
       device='cuda:1'), out_proj_covar=tensor([0.0005, 0.0005, 0.0005, 0.0006, 0.0005, 0.0005, 0.0005, 0.0005],
       device='cuda:1')
2022-11-15 23:57:42,146 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.4028, 1.2520, 1.8402, 1.3077, 1.4718, 1.9633, 1.3680, 1.5460],
       device='cuda:1'), covar=tensor([0.0046, 0.0059, 0.0025, 0.0044, 0.0034, 0.0050, 0.0030, 0.0036],
       device='cuda:1'), in_proj_covar=tensor([0.0020, 0.0021, 0.0021, 0.0026, 0.0023, 0.0022, 0.0025, 0.0024],
       device='cuda:1'), out_proj_covar=tensor([1.8232e-05, 2.0363e-05, 1.9165e-05, 2.6235e-05, 2.2066e-05, 2.1711e-05,
        2.4583e-05, 2.5481e-05], device='cuda:1')
2022-11-15 23:57:44,048 INFO [train.py:876] (1/4) Epoch 8, batch 3500, loss[loss=0.1561, simple_loss=0.153, pruned_loss=0.07956, over 4162.00 frames. ], tot_loss[loss=0.1403, simple_loss=0.1586, pruned_loss=0.061, over 1090866.25 frames. ], batch size: 181, lr: 1.01e-02, grad_scale: 16.0
2022-11-15 23:57:44,185 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.1479, 1.2008, 1.2963, 0.9233, 0.9869, 1.1551, 0.9611, 0.9222],
       device='cuda:1'), covar=tensor([0.0019, 0.0020, 0.0019, 0.0027, 0.0028, 0.0028, 0.0033, 0.0044],
       device='cuda:1'), in_proj_covar=tensor([0.0020, 0.0021, 0.0021, 0.0026, 0.0023, 0.0022, 0.0025, 0.0024],
       device='cuda:1'), out_proj_covar=tensor([1.8239e-05, 2.0334e-05, 1.9155e-05, 2.6226e-05, 2.2044e-05, 2.1688e-05,
        2.4595e-05, 2.5467e-05], device='cuda:1')
2022-11-15 23:57:49,031 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.5957, 4.0088, 3.6420, 3.1910, 2.1187, 3.9248, 2.2531, 3.0971],
       device='cuda:1'), covar=tensor([0.0393, 0.0216, 0.0145, 0.0512, 0.0524, 0.0126, 0.0515, 0.0149],
       device='cuda:1'), in_proj_covar=tensor([0.0181, 0.0152, 0.0162, 0.0184, 0.0176, 0.0163, 0.0173, 0.0159],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
       device='cuda:1')
2022-11-15 23:57:56,209 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.047e+02 1.748e+02 2.123e+02 2.644e+02 4.958e+02, threshold=4.247e+02, percent-clipped=1.0
2022-11-15 23:58:34,803 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.6909, 1.3653, 1.6043, 1.5338, 1.3665, 1.7259, 1.5963, 1.4663],
       device='cuda:1'), covar=tensor([0.0022, 0.0098, 0.0049, 0.0042, 0.0062, 0.0098, 0.0034, 0.0039],
       device='cuda:1'), in_proj_covar=tensor([0.0020, 0.0021, 0.0021, 0.0026, 0.0023, 0.0022, 0.0025, 0.0024],
       device='cuda:1'), out_proj_covar=tensor([1.8070e-05, 2.0148e-05, 1.8960e-05, 2.5755e-05, 2.1633e-05, 2.1372e-05,
        2.4310e-05, 2.5165e-05], device='cuda:1')
2022-11-15 23:58:38,952 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.8336, 2.0415, 1.8611, 1.4668, 1.9219, 2.4697, 2.0614, 2.5625],
       device='cuda:1'), covar=tensor([0.1589, 0.1232, 0.1611, 0.2140, 0.0757, 0.0670, 0.0712, 0.0844],
       device='cuda:1'), in_proj_covar=tensor([0.0176, 0.0185, 0.0157, 0.0189, 0.0169, 0.0180, 0.0150, 0.0182],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0004, 0.0003, 0.0004, 0.0003, 0.0004, 0.0003, 0.0004],
       device='cuda:1')
2022-11-15 23:58:53,937 INFO [train.py:876] (1/4) Epoch 8, batch 3600, loss[loss=0.08, simple_loss=0.1013, pruned_loss=0.02938, over 4512.00 frames. ], tot_loss[loss=0.1391, simple_loss=0.1579, pruned_loss=0.06013, over 1090067.03 frames. ], batch size: 5, lr: 1.01e-02, grad_scale: 16.0
2022-11-15 23:58:56,991 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.68 vs. limit=2.0
2022-11-15 23:59:05,647 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.193e+02 1.765e+02 2.064e+02 2.542e+02 7.404e+02, threshold=4.127e+02, percent-clipped=4.0
2022-11-15 23:59:10,317 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([4.0727, 2.4897, 3.1481, 3.8745, 3.9921, 3.1710, 2.4260, 3.9429],
       device='cuda:1'), covar=tensor([0.0690, 0.4129, 0.2495, 0.2998, 0.1060, 0.2970, 0.2755, 0.0678],
       device='cuda:1'), in_proj_covar=tensor([0.0222, 0.0203, 0.0202, 0.0323, 0.0225, 0.0215, 0.0197, 0.0225],
       device='cuda:1'), out_proj_covar=tensor([0.0005, 0.0005, 0.0005, 0.0006, 0.0005, 0.0005, 0.0005, 0.0005],
       device='cuda:1')
2022-11-15 23:59:24,214 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.3357, 3.7335, 3.3396, 3.2889, 2.0314, 3.6643, 2.0478, 3.1546],
       device='cuda:1'), covar=tensor([0.0429, 0.0141, 0.0194, 0.0351, 0.0524, 0.0136, 0.0493, 0.0182],
       device='cuda:1'), in_proj_covar=tensor([0.0182, 0.0155, 0.0164, 0.0183, 0.0177, 0.0164, 0.0175, 0.0160],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
       device='cuda:1')
2022-11-15 23:59:40,028 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.31 vs. limit=2.0
2022-11-16 00:00:01,689 INFO [train.py:876] (1/4) Epoch 8, batch 3700, loss[loss=0.1222, simple_loss=0.1516, pruned_loss=0.04643, over 5521.00 frames. ], tot_loss[loss=0.1387, simple_loss=0.1581, pruned_loss=0.05966, over 1088852.50 frames. ], batch size: 17, lr: 1.01e-02, grad_scale: 16.0
2022-11-16 00:00:14,194 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.054e+02 1.627e+02 2.007e+02 2.375e+02 5.660e+02, threshold=4.014e+02, percent-clipped=3.0
2022-11-16 00:00:41,900 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=54664.0, num_to_drop=1, layers_to_drop={1}
2022-11-16 00:01:09,319 INFO [train.py:876] (1/4) Epoch 8, batch 3800, loss[loss=0.1532, simple_loss=0.171, pruned_loss=0.06768, over 5645.00 frames. ], tot_loss[loss=0.1397, simple_loss=0.1585, pruned_loss=0.06043, over 1081579.15 frames. ], batch size: 32, lr: 1.01e-02, grad_scale: 16.0
2022-11-16 00:01:22,414 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.122e+02 1.662e+02 2.074e+02 2.682e+02 3.562e+02, threshold=4.148e+02, percent-clipped=0.0
2022-11-16 00:01:23,825 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=54725.0, num_to_drop=1, layers_to_drop={1}
2022-11-16 00:02:02,403 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.3994, 1.8143, 2.0531, 2.3667, 2.6728, 2.0658, 1.6573, 2.6245],
       device='cuda:1'), covar=tensor([0.1483, 0.2761, 0.2052, 0.1408, 0.1042, 0.2935, 0.2230, 0.1160],
       device='cuda:1'), in_proj_covar=tensor([0.0227, 0.0208, 0.0205, 0.0328, 0.0230, 0.0219, 0.0200, 0.0230],
       device='cuda:1'), out_proj_covar=tensor([0.0005, 0.0005, 0.0005, 0.0006, 0.0005, 0.0005, 0.0005, 0.0005],
       device='cuda:1')
2022-11-16 00:02:17,441 INFO [train.py:876] (1/4) Epoch 8, batch 3900, loss[loss=0.1507, simple_loss=0.1568, pruned_loss=0.07229, over 5549.00 frames. ], tot_loss[loss=0.1394, simple_loss=0.1579, pruned_loss=0.06049, over 1076820.12 frames. ], batch size: 16, lr: 1.01e-02, grad_scale: 16.0
2022-11-16 00:02:20,820 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.6312, 1.2501, 1.7993, 1.1962, 1.4008, 1.6911, 1.3507, 1.2011],
       device='cuda:1'), covar=tensor([0.0024, 0.0053, 0.0017, 0.0042, 0.0037, 0.0035, 0.0028, 0.0039],
       device='cuda:1'), in_proj_covar=tensor([0.0020, 0.0021, 0.0021, 0.0026, 0.0023, 0.0022, 0.0025, 0.0024],
       device='cuda:1'), out_proj_covar=tensor([1.7996e-05, 2.0466e-05, 1.8839e-05, 2.6090e-05, 2.1895e-05, 2.1833e-05,
        2.3991e-05, 2.5206e-05], device='cuda:1')
2022-11-16 00:02:29,730 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 9.833e+01 1.696e+02 2.085e+02 2.412e+02 7.560e+02, threshold=4.170e+02, percent-clipped=1.0
2022-11-16 00:02:31,204 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=3.87 vs. limit=5.0
2022-11-16 00:02:56,164 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=54862.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 00:03:11,219 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=1.96 vs. limit=2.0
2022-11-16 00:03:24,956 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.5436, 1.3237, 1.5614, 1.2194, 1.8144, 1.4829, 1.0547, 1.5756],
       device='cuda:1'), covar=tensor([0.0849, 0.1034, 0.1082, 0.1215, 0.0755, 0.1493, 0.2166, 0.1207],
       device='cuda:1'), in_proj_covar=tensor([0.0225, 0.0206, 0.0204, 0.0323, 0.0227, 0.0216, 0.0197, 0.0226],
       device='cuda:1'), out_proj_covar=tensor([0.0005, 0.0005, 0.0005, 0.0006, 0.0005, 0.0005, 0.0005, 0.0005],
       device='cuda:1')
2022-11-16 00:03:25,451 INFO [train.py:876] (1/4) Epoch 8, batch 4000, loss[loss=0.2264, simple_loss=0.1997, pruned_loss=0.1266, over 3128.00 frames. ], tot_loss[loss=0.1397, simple_loss=0.1583, pruned_loss=0.06055, over 1075802.72 frames. ], batch size: 284, lr: 1.01e-02, grad_scale: 16.0
2022-11-16 00:03:37,028 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.102e+02 1.640e+02 2.022e+02 2.606e+02 3.847e+02, threshold=4.045e+02, percent-clipped=0.0
2022-11-16 00:03:37,220 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=54923.0, num_to_drop=1, layers_to_drop={3}
2022-11-16 00:04:39,876 INFO [train.py:876] (1/4) Epoch 8, batch 4100, loss[loss=0.1783, simple_loss=0.1749, pruned_loss=0.09086, over 5118.00 frames. ], tot_loss[loss=0.1384, simple_loss=0.1579, pruned_loss=0.05949, over 1082335.62 frames. ], batch size: 91, lr: 1.01e-02, grad_scale: 16.0
2022-11-16 00:04:43,285 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.0747, 3.5373, 2.6644, 3.2915, 2.5668, 2.5589, 2.0278, 2.9517],
       device='cuda:1'), covar=tensor([0.1487, 0.0253, 0.0965, 0.0364, 0.0977, 0.1025, 0.1879, 0.0418],
       device='cuda:1'), in_proj_covar=tensor([0.0169, 0.0143, 0.0165, 0.0142, 0.0175, 0.0178, 0.0174, 0.0152],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0003, 0.0004, 0.0003, 0.0004, 0.0004, 0.0004, 0.0003],
       device='cuda:1')
2022-11-16 00:04:43,388 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.3735, 3.1441, 3.1786, 2.9567, 1.9445, 3.1899, 2.0289, 2.3892],
       device='cuda:1'), covar=tensor([0.0335, 0.0171, 0.0142, 0.0259, 0.0410, 0.0173, 0.0413, 0.0172],
       device='cuda:1'), in_proj_covar=tensor([0.0182, 0.0157, 0.0165, 0.0187, 0.0178, 0.0166, 0.0177, 0.0161],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
       device='cuda:1')
2022-11-16 00:04:49,733 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=55020.0, num_to_drop=1, layers_to_drop={1}
2022-11-16 00:04:51,561 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 9.489e+01 1.632e+02 1.927e+02 2.505e+02 4.639e+02, threshold=3.854e+02, percent-clipped=4.0
2022-11-16 00:05:47,253 INFO [train.py:876] (1/4) Epoch 8, batch 4200, loss[loss=0.153, simple_loss=0.1751, pruned_loss=0.06542, over 5565.00 frames. ], tot_loss[loss=0.138, simple_loss=0.1574, pruned_loss=0.05936, over 1088029.46 frames. ], batch size: 21, lr: 1.01e-02, grad_scale: 16.0
2022-11-16 00:05:59,241 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.030e+02 1.648e+02 1.989e+02 2.446e+02 4.173e+02, threshold=3.979e+02, percent-clipped=3.0
2022-11-16 00:06:07,316 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.1234, 2.7210, 3.3688, 1.6468, 3.0010, 3.3429, 3.5077, 3.6095],
       device='cuda:1'), covar=tensor([0.1984, 0.1449, 0.0553, 0.2581, 0.0705, 0.0544, 0.0462, 0.0586],
       device='cuda:1'), in_proj_covar=tensor([0.0171, 0.0181, 0.0156, 0.0187, 0.0168, 0.0180, 0.0147, 0.0184],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0004, 0.0003, 0.0003, 0.0003, 0.0004],
       device='cuda:1')
2022-11-16 00:06:16,052 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=55148.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 00:06:20,439 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.47 vs. limit=2.0
2022-11-16 00:06:45,716 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.3723, 1.5518, 1.7891, 1.8043, 1.5413, 1.4626, 1.5538, 1.6438],
       device='cuda:1'), covar=tensor([0.2988, 0.2628, 0.2697, 0.1641, 0.2306, 0.4226, 0.2342, 0.1105],
       device='cuda:1'), in_proj_covar=tensor([0.0088, 0.0089, 0.0095, 0.0081, 0.0082, 0.0085, 0.0089, 0.0066],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
       device='cuda:1')
2022-11-16 00:06:54,337 INFO [train.py:876] (1/4) Epoch 8, batch 4300, loss[loss=0.1455, simple_loss=0.1619, pruned_loss=0.06458, over 5604.00 frames. ], tot_loss[loss=0.141, simple_loss=0.1593, pruned_loss=0.06137, over 1081545.78 frames. ], batch size: 38, lr: 1.00e-02, grad_scale: 16.0
2022-11-16 00:06:57,944 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=55209.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 00:06:59,230 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=55211.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 00:07:04,173 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=55218.0, num_to_drop=1, layers_to_drop={1}
2022-11-16 00:07:07,358 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 9.645e+01 1.651e+02 2.028e+02 2.598e+02 5.835e+02, threshold=4.056e+02, percent-clipped=3.0
2022-11-16 00:07:40,458 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=55272.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 00:08:02,074 INFO [train.py:876] (1/4) Epoch 8, batch 4400, loss[loss=0.1586, simple_loss=0.1701, pruned_loss=0.07355, over 5505.00 frames. ], tot_loss[loss=0.1402, simple_loss=0.159, pruned_loss=0.06068, over 1086857.03 frames. ], batch size: 49, lr: 1.00e-02, grad_scale: 16.0
2022-11-16 00:08:12,639 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=55320.0, num_to_drop=1, layers_to_drop={2}
2022-11-16 00:08:14,768 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.189e+02 1.701e+02 2.121e+02 2.893e+02 5.250e+02, threshold=4.241e+02, percent-clipped=3.0
2022-11-16 00:08:16,357 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.6425, 3.8548, 3.5726, 3.5086, 2.1570, 3.8321, 2.2395, 2.9237],
       device='cuda:1'), covar=tensor([0.0313, 0.0133, 0.0169, 0.0257, 0.0393, 0.0107, 0.0401, 0.0157],
       device='cuda:1'), in_proj_covar=tensor([0.0178, 0.0153, 0.0162, 0.0182, 0.0175, 0.0162, 0.0173, 0.0157],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
       device='cuda:1')
2022-11-16 00:08:44,934 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=55368.0, num_to_drop=1, layers_to_drop={1}
2022-11-16 00:09:07,927 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.90 vs. limit=2.0
2022-11-16 00:09:10,910 INFO [train.py:876] (1/4) Epoch 8, batch 4500, loss[loss=0.1442, simple_loss=0.1679, pruned_loss=0.06023, over 5814.00 frames. ], tot_loss[loss=0.1407, simple_loss=0.1596, pruned_loss=0.0609, over 1088957.03 frames. ], batch size: 18, lr: 1.00e-02, grad_scale: 16.0
2022-11-16 00:09:22,570 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 7.579e+01 1.575e+02 1.933e+02 2.382e+02 3.910e+02, threshold=3.866e+02, percent-clipped=0.0
2022-11-16 00:10:18,062 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=55504.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 00:10:18,620 INFO [train.py:876] (1/4) Epoch 8, batch 4600, loss[loss=0.1878, simple_loss=0.1891, pruned_loss=0.09323, over 5548.00 frames. ], tot_loss[loss=0.1403, simple_loss=0.1592, pruned_loss=0.06069, over 1086634.89 frames. ], batch size: 54, lr: 1.00e-02, grad_scale: 16.0
2022-11-16 00:10:20,216 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=1.84 vs. limit=2.0
2022-11-16 00:10:27,248 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=55518.0, num_to_drop=1, layers_to_drop={1}
2022-11-16 00:10:30,361 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.015e+02 1.826e+02 2.052e+02 2.615e+02 3.619e+02, threshold=4.103e+02, percent-clipped=0.0
2022-11-16 00:10:44,249 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.8040, 2.5793, 1.8913, 2.4296, 2.4953, 2.3561, 2.3941, 2.5152],
       device='cuda:1'), covar=tensor([0.0398, 0.1028, 0.2639, 0.1208, 0.1072, 0.0858, 0.1279, 0.0758],
       device='cuda:1'), in_proj_covar=tensor([0.0123, 0.0170, 0.0265, 0.0161, 0.0211, 0.0167, 0.0175, 0.0163],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0003, 0.0004, 0.0002, 0.0003, 0.0002, 0.0002, 0.0002],
       device='cuda:1')
2022-11-16 00:10:49,270 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.9300, 2.2248, 2.8896, 1.7642, 1.6383, 3.3613, 2.6564, 2.2639],
       device='cuda:1'), covar=tensor([0.0619, 0.1215, 0.0515, 0.2830, 0.2265, 0.1187, 0.0783, 0.1053],
       device='cuda:1'), in_proj_covar=tensor([0.0077, 0.0066, 0.0065, 0.0082, 0.0063, 0.0050, 0.0058, 0.0067],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0001, 0.0002, 0.0002, 0.0001, 0.0001, 0.0001, 0.0002],
       device='cuda:1')
2022-11-16 00:10:59,622 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=55566.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 00:11:00,309 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=55567.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 00:11:17,176 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([5.0915, 4.6810, 4.8699, 4.7057, 5.0593, 5.0777, 4.5775, 5.0731],
       device='cuda:1'), covar=tensor([0.0798, 0.0513, 0.0918, 0.0689, 0.0906, 0.0366, 0.0423, 0.0673],
       device='cuda:1'), in_proj_covar=tensor([0.0125, 0.0133, 0.0101, 0.0133, 0.0150, 0.0088, 0.0111, 0.0135],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0003, 0.0002, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003],
       device='cuda:1')
2022-11-16 00:11:20,481 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=4.70 vs. limit=5.0
2022-11-16 00:11:26,709 INFO [train.py:876] (1/4) Epoch 8, batch 4700, loss[loss=0.144, simple_loss=0.1615, pruned_loss=0.06323, over 5744.00 frames. ], tot_loss[loss=0.138, simple_loss=0.157, pruned_loss=0.05945, over 1083823.00 frames. ], batch size: 31, lr: 1.00e-02, grad_scale: 16.0
2022-11-16 00:11:38,374 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.046e+02 1.703e+02 2.017e+02 2.735e+02 4.468e+02, threshold=4.034e+02, percent-clipped=2.0
2022-11-16 00:11:39,477 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=4.57 vs. limit=5.0
2022-11-16 00:11:52,789 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.4529, 3.0532, 3.2986, 1.5466, 2.8081, 3.3389, 3.4185, 3.6261],
       device='cuda:1'), covar=tensor([0.1711, 0.1320, 0.0715, 0.2869, 0.0458, 0.0496, 0.0304, 0.0617],
       device='cuda:1'), in_proj_covar=tensor([0.0175, 0.0188, 0.0159, 0.0192, 0.0173, 0.0182, 0.0152, 0.0186],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0004, 0.0003, 0.0004, 0.0003, 0.0004, 0.0003, 0.0004],
       device='cuda:1')
2022-11-16 00:12:03,485 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.2029, 1.6649, 1.6812, 1.3911, 1.4261, 2.2490, 1.5085, 1.3591],
       device='cuda:1'), covar=tensor([0.1555, 0.0950, 0.1083, 0.2124, 0.2060, 0.0400, 0.1457, 0.1928],
       device='cuda:1'), in_proj_covar=tensor([0.0077, 0.0067, 0.0066, 0.0082, 0.0062, 0.0051, 0.0058, 0.0068],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0001, 0.0002, 0.0002, 0.0001, 0.0001, 0.0001, 0.0002],
       device='cuda:1')
2022-11-16 00:12:30,999 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([4.5240, 5.0971, 4.6019, 5.0881, 5.0730, 4.3518, 4.6963, 4.5198],
       device='cuda:1'), covar=tensor([0.0282, 0.0414, 0.1421, 0.0455, 0.0366, 0.0379, 0.0390, 0.0311],
       device='cuda:1'), in_proj_covar=tensor([0.0127, 0.0172, 0.0271, 0.0165, 0.0214, 0.0167, 0.0177, 0.0165],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0003, 0.0004, 0.0003, 0.0003, 0.0002, 0.0003, 0.0002],
       device='cuda:1')
2022-11-16 00:12:33,872 INFO [train.py:876] (1/4) Epoch 8, batch 4800, loss[loss=0.1384, simple_loss=0.1601, pruned_loss=0.05832, over 5627.00 frames. ], tot_loss[loss=0.1364, simple_loss=0.1557, pruned_loss=0.05856, over 1077708.31 frames. ], batch size: 38, lr: 1.00e-02, grad_scale: 16.0
2022-11-16 00:12:46,303 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.028e+02 1.529e+02 1.884e+02 2.231e+02 4.028e+02, threshold=3.767e+02, percent-clipped=0.0
2022-11-16 00:13:02,522 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=55748.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 00:13:40,591 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=55804.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 00:13:41,117 INFO [train.py:876] (1/4) Epoch 8, batch 4900, loss[loss=0.2389, simple_loss=0.2036, pruned_loss=0.1371, over 3130.00 frames. ], tot_loss[loss=0.1387, simple_loss=0.1571, pruned_loss=0.0601, over 1073773.99 frames. ], batch size: 284, lr: 9.99e-03, grad_scale: 16.0
2022-11-16 00:13:43,884 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=55809.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 00:13:53,468 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 9.007e+01 1.783e+02 2.085e+02 2.465e+02 4.573e+02, threshold=4.169e+02, percent-clipped=4.0
2022-11-16 00:13:54,239 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.96 vs. limit=2.0
2022-11-16 00:14:10,699 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=55848.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 00:14:13,176 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=55852.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 00:14:13,858 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.4579, 5.1950, 3.6833, 2.3717, 4.8018, 2.1826, 4.5172, 3.1135],
       device='cuda:1'), covar=tensor([0.0890, 0.0066, 0.0441, 0.1788, 0.0144, 0.1596, 0.0216, 0.1146],
       device='cuda:1'), in_proj_covar=tensor([0.0123, 0.0106, 0.0114, 0.0115, 0.0104, 0.0127, 0.0098, 0.0114],
       device='cuda:1'), out_proj_covar=tensor([0.0005, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004],
       device='cuda:1')
2022-11-16 00:14:23,013 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=55867.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 00:14:29,883 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=1.94 vs. limit=2.0
2022-11-16 00:14:49,101 INFO [train.py:876] (1/4) Epoch 8, batch 5000, loss[loss=0.1033, simple_loss=0.1367, pruned_loss=0.03492, over 5567.00 frames. ], tot_loss[loss=0.1379, simple_loss=0.1564, pruned_loss=0.05968, over 1075841.85 frames. ], batch size: 15, lr: 9.98e-03, grad_scale: 16.0
2022-11-16 00:14:51,914 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=55909.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 00:14:55,671 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=55915.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 00:15:00,898 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 9.639e+01 1.479e+02 1.807e+02 2.290e+02 3.768e+02, threshold=3.615e+02, percent-clipped=0.0
2022-11-16 00:15:37,428 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.7782, 1.0676, 1.4153, 0.9975, 1.0761, 1.5940, 1.0858, 1.2546],
       device='cuda:1'), covar=tensor([0.0642, 0.0608, 0.0858, 0.0800, 0.1755, 0.0567, 0.0886, 0.0817],
       device='cuda:1'), in_proj_covar=tensor([0.0011, 0.0016, 0.0012, 0.0014, 0.0013, 0.0011, 0.0015, 0.0012],
       device='cuda:1'), out_proj_covar=tensor([5.8345e-05, 7.6666e-05, 5.9643e-05, 6.8818e-05, 6.4039e-05, 5.7083e-05,
        7.1923e-05, 5.8873e-05], device='cuda:1')
2022-11-16 00:15:57,402 INFO [train.py:876] (1/4) Epoch 8, batch 5100, loss[loss=0.1912, simple_loss=0.1817, pruned_loss=0.1003, over 5442.00 frames. ], tot_loss[loss=0.1413, simple_loss=0.159, pruned_loss=0.06179, over 1086530.95 frames. ], batch size: 58, lr: 9.97e-03, grad_scale: 16.0
2022-11-16 00:16:09,575 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.082e+02 1.582e+02 1.987e+02 2.357e+02 3.737e+02, threshold=3.975e+02, percent-clipped=1.0
2022-11-16 00:16:31,049 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.5930, 3.3211, 3.4414, 3.1957, 3.6584, 3.5711, 3.3651, 3.6075],
       device='cuda:1'), covar=tensor([0.0412, 0.0346, 0.0495, 0.0419, 0.0364, 0.0181, 0.0288, 0.0387],
       device='cuda:1'), in_proj_covar=tensor([0.0123, 0.0132, 0.0100, 0.0131, 0.0147, 0.0087, 0.0111, 0.0132],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003],
       device='cuda:1')
2022-11-16 00:17:05,608 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=56104.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 00:17:06,565 INFO [train.py:876] (1/4) Epoch 8, batch 5200, loss[loss=0.1262, simple_loss=0.149, pruned_loss=0.05172, over 5564.00 frames. ], tot_loss[loss=0.1424, simple_loss=0.1606, pruned_loss=0.06213, over 1089945.30 frames. ], batch size: 30, lr: 9.96e-03, grad_scale: 32.0
2022-11-16 00:17:18,355 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.081e+02 1.676e+02 2.046e+02 2.590e+02 6.107e+02, threshold=4.093e+02, percent-clipped=5.0
2022-11-16 00:17:32,910 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=56145.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 00:18:04,113 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.2644, 0.9678, 0.8763, 0.7607, 1.1544, 1.3403, 0.6764, 1.0410],
       device='cuda:1'), covar=tensor([0.0720, 0.0536, 0.0844, 0.1091, 0.0568, 0.0476, 0.0977, 0.0956],
       device='cuda:1'), in_proj_covar=tensor([0.0011, 0.0016, 0.0012, 0.0014, 0.0013, 0.0010, 0.0015, 0.0011],
       device='cuda:1'), out_proj_covar=tensor([5.6711e-05, 7.4286e-05, 5.9146e-05, 6.6668e-05, 6.2110e-05, 5.5536e-05,
        6.9590e-05, 5.6830e-05], device='cuda:1')
2022-11-16 00:18:06,741 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.1262, 4.0212, 2.8188, 3.8692, 3.0301, 2.5608, 2.0479, 3.3129],
       device='cuda:1'), covar=tensor([0.1694, 0.0202, 0.1033, 0.0278, 0.0742, 0.1202, 0.2062, 0.0350],
       device='cuda:1'), in_proj_covar=tensor([0.0169, 0.0140, 0.0167, 0.0143, 0.0176, 0.0178, 0.0178, 0.0152],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0003, 0.0004, 0.0003, 0.0004, 0.0004, 0.0004, 0.0003],
       device='cuda:1')
2022-11-16 00:18:10,899 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([4.7362, 4.3314, 4.6031, 4.3118, 4.8147, 4.7850, 4.3521, 4.8180],
       device='cuda:1'), covar=tensor([0.0433, 0.0305, 0.0439, 0.0353, 0.0363, 0.0143, 0.0253, 0.0292],
       device='cuda:1'), in_proj_covar=tensor([0.0124, 0.0132, 0.0101, 0.0131, 0.0148, 0.0088, 0.0112, 0.0131],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0003, 0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0003],
       device='cuda:1')
2022-11-16 00:18:13,846 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=56204.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 00:18:14,419 INFO [train.py:876] (1/4) Epoch 8, batch 5300, loss[loss=0.1576, simple_loss=0.1751, pruned_loss=0.07007, over 5570.00 frames. ], tot_loss[loss=0.1397, simple_loss=0.1587, pruned_loss=0.06034, over 1086338.24 frames. ], batch size: 43, lr: 9.95e-03, grad_scale: 16.0
2022-11-16 00:18:15,306 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=56206.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 00:18:27,817 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.018e+02 1.491e+02 1.984e+02 2.507e+02 5.516e+02, threshold=3.968e+02, percent-clipped=2.0
2022-11-16 00:18:30,281 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.69 vs. limit=2.0
2022-11-16 00:19:22,482 INFO [train.py:876] (1/4) Epoch 8, batch 5400, loss[loss=0.1526, simple_loss=0.175, pruned_loss=0.06512, over 5694.00 frames. ], tot_loss[loss=0.1401, simple_loss=0.1586, pruned_loss=0.06079, over 1083837.16 frames. ], batch size: 36, lr: 9.94e-03, grad_scale: 16.0
2022-11-16 00:19:24,062 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.8992, 2.2812, 1.9761, 1.5508, 2.3961, 2.5346, 2.1541, 2.7202],
       device='cuda:1'), covar=tensor([0.1713, 0.1468, 0.1506, 0.2300, 0.0631, 0.0759, 0.0532, 0.0797],
       device='cuda:1'), in_proj_covar=tensor([0.0175, 0.0186, 0.0159, 0.0188, 0.0171, 0.0181, 0.0156, 0.0184],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0004, 0.0003, 0.0004, 0.0003, 0.0004, 0.0003, 0.0004],
       device='cuda:1')
2022-11-16 00:19:35,869 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.080e+02 1.666e+02 2.112e+02 2.749e+02 4.650e+02, threshold=4.223e+02, percent-clipped=6.0
2022-11-16 00:20:13,473 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.3394, 2.8276, 3.0377, 1.5639, 2.8543, 3.2979, 3.1458, 3.4926],
       device='cuda:1'), covar=tensor([0.1840, 0.1422, 0.1031, 0.2876, 0.0478, 0.0709, 0.0367, 0.0631],
       device='cuda:1'), in_proj_covar=tensor([0.0178, 0.0188, 0.0162, 0.0193, 0.0174, 0.0184, 0.0158, 0.0188],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0004, 0.0003, 0.0004, 0.0003, 0.0004, 0.0003, 0.0004],
       device='cuda:1')
2022-11-16 00:20:16,916 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=1.96 vs. limit=2.0
2022-11-16 00:20:29,856 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=56404.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 00:20:30,393 INFO [train.py:876] (1/4) Epoch 8, batch 5500, loss[loss=0.07908, simple_loss=0.1122, pruned_loss=0.02298, over 4766.00 frames. ], tot_loss[loss=0.1388, simple_loss=0.1577, pruned_loss=0.05994, over 1086246.86 frames. ], batch size: 5, lr: 9.94e-03, grad_scale: 16.0
2022-11-16 00:20:42,594 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.180e+02 1.705e+02 2.205e+02 2.519e+02 5.507e+02, threshold=4.409e+02, percent-clipped=4.0
2022-11-16 00:20:50,570 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.9905, 3.6556, 2.5492, 3.4569, 2.7302, 2.4609, 1.8073, 3.1067],
       device='cuda:1'), covar=tensor([0.1602, 0.0237, 0.1003, 0.0345, 0.0877, 0.1044, 0.2000, 0.0432],
       device='cuda:1'), in_proj_covar=tensor([0.0163, 0.0135, 0.0160, 0.0137, 0.0168, 0.0169, 0.0171, 0.0147],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0004, 0.0004, 0.0004, 0.0003],
       device='cuda:1')
2022-11-16 00:21:02,100 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=56452.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 00:21:24,675 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.9372, 2.4368, 2.3201, 1.4811, 2.5791, 2.8202, 2.4000, 2.8073],
       device='cuda:1'), covar=tensor([0.2012, 0.1554, 0.1911, 0.2761, 0.0694, 0.0906, 0.0751, 0.1034],
       device='cuda:1'), in_proj_covar=tensor([0.0180, 0.0190, 0.0162, 0.0193, 0.0173, 0.0185, 0.0159, 0.0189],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0004, 0.0003, 0.0004, 0.0003, 0.0004, 0.0003, 0.0004],
       device='cuda:1')
2022-11-16 00:21:35,573 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=56501.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 00:21:37,721 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=56504.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 00:21:38,226 INFO [train.py:876] (1/4) Epoch 8, batch 5600, loss[loss=0.1678, simple_loss=0.1631, pruned_loss=0.08623, over 4065.00 frames. ], tot_loss[loss=0.1391, simple_loss=0.158, pruned_loss=0.06014, over 1088717.66 frames. ], batch size: 181, lr: 9.93e-03, grad_scale: 16.0
2022-11-16 00:21:50,140 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=56523.0, num_to_drop=1, layers_to_drop={0}
2022-11-16 00:21:50,546 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.094e+02 1.658e+02 2.017e+02 2.598e+02 4.706e+02, threshold=4.034e+02, percent-clipped=2.0
2022-11-16 00:22:02,727 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.6937, 2.9224, 2.9363, 2.6088, 2.8878, 2.8138, 0.9802, 3.0142],
       device='cuda:1'), covar=tensor([0.0381, 0.0279, 0.0315, 0.0369, 0.0369, 0.0367, 0.3313, 0.0353],
       device='cuda:1'), in_proj_covar=tensor([0.0101, 0.0083, 0.0083, 0.0074, 0.0098, 0.0084, 0.0127, 0.0103],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
       device='cuda:1')
2022-11-16 00:22:09,936 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=56552.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 00:22:15,268 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.4541, 1.6701, 1.7431, 1.5371, 1.1499, 2.4665, 1.9490, 1.6558],
       device='cuda:1'), covar=tensor([0.1082, 0.1050, 0.0885, 0.1946, 0.2386, 0.0312, 0.1001, 0.1175],
       device='cuda:1'), in_proj_covar=tensor([0.0075, 0.0066, 0.0066, 0.0081, 0.0059, 0.0050, 0.0056, 0.0066],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0001, 0.0002, 0.0002, 0.0001, 0.0001, 0.0001, 0.0002],
       device='cuda:1')
2022-11-16 00:22:31,096 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=56584.0, num_to_drop=1, layers_to_drop={3}
2022-11-16 00:22:46,105 INFO [train.py:876] (1/4) Epoch 8, batch 5700, loss[loss=0.09908, simple_loss=0.1287, pruned_loss=0.03471, over 5024.00 frames. ], tot_loss[loss=0.1378, simple_loss=0.1568, pruned_loss=0.05941, over 1084790.04 frames. ], batch size: 6, lr: 9.92e-03, grad_scale: 16.0
2022-11-16 00:22:51,608 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.42 vs. limit=2.0
2022-11-16 00:22:58,079 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.4471, 3.0266, 3.1224, 1.9991, 3.0013, 3.7341, 3.3662, 4.0442],
       device='cuda:1'), covar=tensor([0.1805, 0.1357, 0.0795, 0.2343, 0.0393, 0.0454, 0.0487, 0.0356],
       device='cuda:1'), in_proj_covar=tensor([0.0178, 0.0188, 0.0162, 0.0190, 0.0173, 0.0184, 0.0158, 0.0186],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0004, 0.0003, 0.0004, 0.0003, 0.0004, 0.0003, 0.0004],
       device='cuda:1')
2022-11-16 00:22:58,516 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.019e+02 1.608e+02 1.896e+02 2.176e+02 4.174e+02, threshold=3.791e+02, percent-clipped=1.0
2022-11-16 00:23:15,447 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.1076, 1.2475, 1.2472, 0.9906, 0.8252, 0.9928, 0.9174, 0.8550],
       device='cuda:1'), covar=tensor([0.0015, 0.0015, 0.0014, 0.0023, 0.0020, 0.0029, 0.0025, 0.0033],
       device='cuda:1'), in_proj_covar=tensor([0.0020, 0.0020, 0.0021, 0.0027, 0.0023, 0.0023, 0.0025, 0.0025],
       device='cuda:1'), out_proj_covar=tensor([1.7948e-05, 1.9576e-05, 1.9511e-05, 2.6536e-05, 2.1992e-05, 2.1891e-05,
        2.4437e-05, 2.5417e-05], device='cuda:1')
2022-11-16 00:23:52,798 INFO [train.py:876] (1/4) Epoch 8, batch 5800, loss[loss=0.1266, simple_loss=0.1473, pruned_loss=0.05291, over 5752.00 frames. ], tot_loss[loss=0.1379, simple_loss=0.1566, pruned_loss=0.05961, over 1081728.81 frames. ], batch size: 31, lr: 9.91e-03, grad_scale: 16.0
2022-11-16 00:24:05,869 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.015e+02 1.678e+02 1.927e+02 2.406e+02 3.937e+02, threshold=3.853e+02, percent-clipped=1.0
2022-11-16 00:24:14,607 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=4.13 vs. limit=5.0
2022-11-16 00:24:17,668 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.8934, 2.7387, 2.4826, 1.6192, 2.8235, 2.9903, 2.8640, 3.1214],
       device='cuda:1'), covar=tensor([0.2007, 0.1547, 0.1142, 0.2588, 0.0562, 0.0779, 0.0453, 0.0815],
       device='cuda:1'), in_proj_covar=tensor([0.0179, 0.0187, 0.0163, 0.0189, 0.0172, 0.0185, 0.0156, 0.0186],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0004, 0.0003, 0.0004, 0.0003, 0.0004, 0.0003, 0.0004],
       device='cuda:1')
2022-11-16 00:24:18,939 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.3939, 3.9202, 3.0767, 1.9580, 3.5644, 1.5497, 3.5554, 2.1720],
       device='cuda:1'), covar=tensor([0.1437, 0.0168, 0.0748, 0.1835, 0.0262, 0.2149, 0.0286, 0.1632],
       device='cuda:1'), in_proj_covar=tensor([0.0125, 0.0107, 0.0114, 0.0116, 0.0105, 0.0128, 0.0098, 0.0116],
       device='cuda:1'), out_proj_covar=tensor([0.0005, 0.0004, 0.0004, 0.0004, 0.0004, 0.0005, 0.0004, 0.0004],
       device='cuda:1')
2022-11-16 00:24:57,434 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=56801.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 00:24:58,807 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=56803.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 00:25:00,324 INFO [train.py:876] (1/4) Epoch 8, batch 5900, loss[loss=0.07778, simple_loss=0.1025, pruned_loss=0.02653, over 5088.00 frames. ], tot_loss[loss=0.1365, simple_loss=0.1559, pruned_loss=0.0586, over 1085634.96 frames. ], batch size: 7, lr: 9.90e-03, grad_scale: 16.0
2022-11-16 00:25:01,163 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.3632, 2.0720, 3.0161, 2.4896, 2.9500, 2.0536, 2.8157, 3.3000],
       device='cuda:1'), covar=tensor([0.0672, 0.1604, 0.0815, 0.1779, 0.0642, 0.1601, 0.1224, 0.0869],
       device='cuda:1'), in_proj_covar=tensor([0.0225, 0.0190, 0.0205, 0.0211, 0.0219, 0.0189, 0.0221, 0.0220],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004],
       device='cuda:1')
2022-11-16 00:25:05,638 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.41 vs. limit=2.0
2022-11-16 00:25:13,652 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 9.513e+01 1.636e+02 2.086e+02 2.680e+02 4.178e+02, threshold=4.173e+02, percent-clipped=3.0
2022-11-16 00:25:29,997 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=56849.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 00:25:40,352 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=56864.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 00:25:50,689 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=56879.0, num_to_drop=1, layers_to_drop={3}
2022-11-16 00:25:57,987 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.2875, 3.7316, 3.2985, 3.6679, 3.6966, 3.1192, 3.3465, 3.3204],
       device='cuda:1'), covar=tensor([0.1099, 0.0486, 0.1483, 0.0408, 0.0498, 0.0496, 0.0733, 0.0726],
       device='cuda:1'), in_proj_covar=tensor([0.0126, 0.0168, 0.0266, 0.0160, 0.0209, 0.0164, 0.0176, 0.0164],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0003, 0.0004, 0.0002, 0.0003, 0.0002, 0.0002, 0.0002],
       device='cuda:1')
2022-11-16 00:26:07,758 INFO [train.py:876] (1/4) Epoch 8, batch 6000, loss[loss=0.1905, simple_loss=0.1936, pruned_loss=0.09365, over 5593.00 frames. ], tot_loss[loss=0.1346, simple_loss=0.1544, pruned_loss=0.05736, over 1083031.67 frames. ], batch size: 24, lr: 9.89e-03, grad_scale: 16.0
2022-11-16 00:26:07,759 INFO [train.py:899] (1/4) Computing validation loss
2022-11-16 00:26:16,054 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.9170, 1.5440, 1.5383, 1.2966, 1.4737, 1.6025, 1.3587, 1.1407],
       device='cuda:1'), covar=tensor([0.0017, 0.0084, 0.0037, 0.0053, 0.0042, 0.0044, 0.0029, 0.0051],
       device='cuda:1'), in_proj_covar=tensor([0.0019, 0.0020, 0.0021, 0.0026, 0.0023, 0.0022, 0.0024, 0.0024],
       device='cuda:1'), out_proj_covar=tensor([1.7402e-05, 1.9202e-05, 1.8862e-05, 2.5612e-05, 2.1218e-05, 2.0902e-05,
        2.3324e-05, 2.4615e-05], device='cuda:1')
2022-11-16 00:26:25,620 INFO [train.py:908] (1/4) Epoch 8, validation: loss=0.1622, simple_loss=0.1823, pruned_loss=0.07105, over 1530663.00 frames. 
2022-11-16 00:26:25,621 INFO [train.py:909] (1/4) Maximum memory allocated so far is 4676MB
2022-11-16 00:26:27,748 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=56908.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 00:26:38,697 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 9.650e+01 1.622e+02 2.023e+02 2.494e+02 5.348e+02, threshold=4.047e+02, percent-clipped=2.0
2022-11-16 00:26:56,388 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.2659, 3.1262, 3.0367, 3.4375, 2.5387, 3.5959, 3.7423, 3.6749],
       device='cuda:1'), covar=tensor([0.0566, 0.1104, 0.1641, 0.1189, 0.1928, 0.0717, 0.0832, 0.1443],
       device='cuda:1'), in_proj_covar=tensor([0.0088, 0.0088, 0.0097, 0.0083, 0.0082, 0.0085, 0.0090, 0.0065],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
       device='cuda:1')
2022-11-16 00:27:09,204 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=56969.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 00:27:20,508 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=3.49 vs. limit=5.0
2022-11-16 00:27:25,015 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=56993.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 00:27:26,255 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=56995.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 00:27:32,824 INFO [train.py:876] (1/4) Epoch 8, batch 6100, loss[loss=0.1715, simple_loss=0.18, pruned_loss=0.08145, over 5691.00 frames. ], tot_loss[loss=0.1349, simple_loss=0.1538, pruned_loss=0.05801, over 1076786.82 frames. ], batch size: 36, lr: 9.88e-03, grad_scale: 16.0
2022-11-16 00:27:45,774 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 8.054e+01 1.623e+02 1.859e+02 2.466e+02 4.899e+02, threshold=3.719e+02, percent-clipped=4.0
2022-11-16 00:27:59,679 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=1.96 vs. limit=2.0
2022-11-16 00:28:07,738 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=57054.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 00:28:09,123 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=57056.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 00:28:23,012 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.31 vs. limit=2.0
2022-11-16 00:28:43,871 INFO [train.py:876] (1/4) Epoch 8, batch 6200, loss[loss=0.1005, simple_loss=0.1192, pruned_loss=0.04089, over 5514.00 frames. ], tot_loss[loss=0.1361, simple_loss=0.1548, pruned_loss=0.05872, over 1075050.68 frames. ], batch size: 10, lr: 9.88e-03, grad_scale: 16.0
2022-11-16 00:28:56,820 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.079e+02 1.699e+02 2.012e+02 2.315e+02 3.529e+02, threshold=4.025e+02, percent-clipped=0.0
2022-11-16 00:29:22,010 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=57159.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 00:29:35,669 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=57179.0, num_to_drop=1, layers_to_drop={0}
2022-11-16 00:29:40,829 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=57186.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 00:29:49,412 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=57197.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 00:29:55,083 INFO [train.py:876] (1/4) Epoch 8, batch 6300, loss[loss=0.1447, simple_loss=0.1656, pruned_loss=0.06185, over 5491.00 frames. ], tot_loss[loss=0.1384, simple_loss=0.1568, pruned_loss=0.06003, over 1080390.67 frames. ], batch size: 58, lr: 9.87e-03, grad_scale: 16.0
2022-11-16 00:30:08,135 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.308e+02 1.749e+02 2.073e+02 2.619e+02 6.715e+02, threshold=4.147e+02, percent-clipped=6.0
2022-11-16 00:30:10,296 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=57227.0, num_to_drop=1, layers_to_drop={1}
2022-11-16 00:30:23,464 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=57244.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 00:30:25,514 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=57247.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 00:30:26,119 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.9489, 2.6691, 2.1838, 1.4238, 2.5445, 1.1007, 2.6618, 1.6365],
       device='cuda:1'), covar=tensor([0.1130, 0.0261, 0.0845, 0.1767, 0.0289, 0.2117, 0.0262, 0.1501],
       device='cuda:1'), in_proj_covar=tensor([0.0124, 0.0106, 0.0113, 0.0115, 0.0105, 0.0126, 0.0097, 0.0115],
       device='cuda:1'), out_proj_covar=tensor([0.0005, 0.0004, 0.0004, 0.0004, 0.0004, 0.0005, 0.0003, 0.0004],
       device='cuda:1')
2022-11-16 00:30:33,133 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=57258.0, num_to_drop=1, layers_to_drop={1}
2022-11-16 00:30:33,744 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.1370, 3.5997, 2.5976, 3.3179, 2.7251, 2.6190, 1.9977, 2.9755],
       device='cuda:1'), covar=tensor([0.1382, 0.0262, 0.0991, 0.0361, 0.1003, 0.0954, 0.1917, 0.0401],
       device='cuda:1'), in_proj_covar=tensor([0.0164, 0.0137, 0.0164, 0.0142, 0.0174, 0.0175, 0.0172, 0.0150],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0003, 0.0004, 0.0003, 0.0004, 0.0004, 0.0004, 0.0003],
       device='cuda:1')
2022-11-16 00:30:37,158 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=57264.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 00:31:06,488 INFO [train.py:876] (1/4) Epoch 8, batch 6400, loss[loss=0.1121, simple_loss=0.1442, pruned_loss=0.03999, over 5550.00 frames. ], tot_loss[loss=0.1386, simple_loss=0.1571, pruned_loss=0.06001, over 1079678.19 frames. ], batch size: 16, lr: 9.86e-03, grad_scale: 16.0
2022-11-16 00:31:06,657 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=57305.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 00:31:19,419 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 9.947e+01 1.601e+02 2.011e+02 2.621e+02 5.168e+02, threshold=4.022e+02, percent-clipped=2.0
2022-11-16 00:31:36,920 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=57349.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 00:31:38,738 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=57351.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 00:32:02,308 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.1738, 3.7132, 2.6427, 3.4987, 2.8201, 2.6360, 2.2100, 3.0278],
       device='cuda:1'), covar=tensor([0.1338, 0.0233, 0.1013, 0.0393, 0.0927, 0.1001, 0.1663, 0.0474],
       device='cuda:1'), in_proj_covar=tensor([0.0165, 0.0139, 0.0165, 0.0141, 0.0176, 0.0176, 0.0173, 0.0151],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0003, 0.0004, 0.0003, 0.0004, 0.0004, 0.0004, 0.0003],
       device='cuda:1')
2022-11-16 00:32:11,879 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=57398.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 00:32:17,278 INFO [train.py:876] (1/4) Epoch 8, batch 6500, loss[loss=0.1351, simple_loss=0.1567, pruned_loss=0.05672, over 5709.00 frames. ], tot_loss[loss=0.1378, simple_loss=0.1569, pruned_loss=0.05936, over 1078457.79 frames. ], batch size: 12, lr: 9.85e-03, grad_scale: 16.0
2022-11-16 00:32:30,735 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.052e+02 1.615e+02 1.950e+02 2.299e+02 5.072e+02, threshold=3.899e+02, percent-clipped=1.0
2022-11-16 00:32:33,662 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.1523, 4.1705, 2.7014, 4.0349, 3.2243, 2.7811, 2.4818, 3.4511],
       device='cuda:1'), covar=tensor([0.1493, 0.0228, 0.0986, 0.0272, 0.0648, 0.0974, 0.1601, 0.0324],
       device='cuda:1'), in_proj_covar=tensor([0.0165, 0.0139, 0.0166, 0.0141, 0.0177, 0.0177, 0.0174, 0.0151],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0003, 0.0004, 0.0003, 0.0004, 0.0004, 0.0004, 0.0003],
       device='cuda:1')
2022-11-16 00:32:55,160 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=57459.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 00:32:55,219 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=57459.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 00:32:57,562 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=57462.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 00:33:20,327 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=57495.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 00:33:26,884 INFO [train.py:876] (1/4) Epoch 8, batch 6600, loss[loss=0.1462, simple_loss=0.1545, pruned_loss=0.06896, over 5289.00 frames. ], tot_loss[loss=0.1344, simple_loss=0.1542, pruned_loss=0.05728, over 1081027.02 frames. ], batch size: 79, lr: 9.84e-03, grad_scale: 16.0
2022-11-16 00:33:28,255 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=57507.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 00:33:39,747 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=57523.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 00:33:40,181 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.133e+02 1.548e+02 1.936e+02 2.529e+02 5.371e+02, threshold=3.872e+02, percent-clipped=1.0
2022-11-16 00:33:52,092 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=57542.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 00:33:59,270 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=57553.0, num_to_drop=1, layers_to_drop={2}
2022-11-16 00:34:01,298 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=57556.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 00:34:06,402 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=57564.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 00:34:30,744 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=57600.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 00:34:33,916 INFO [train.py:876] (1/4) Epoch 8, batch 6700, loss[loss=0.1062, simple_loss=0.1457, pruned_loss=0.03332, over 5753.00 frames. ], tot_loss[loss=0.1357, simple_loss=0.1553, pruned_loss=0.05805, over 1087338.61 frames. ], batch size: 14, lr: 9.83e-03, grad_scale: 16.0
2022-11-16 00:34:38,597 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=57612.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 00:34:46,346 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.030e+02 1.668e+02 2.078e+02 2.572e+02 7.235e+02, threshold=4.155e+02, percent-clipped=5.0
2022-11-16 00:34:52,637 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.6639, 3.4171, 3.3146, 3.2836, 3.6004, 3.2756, 1.5016, 3.6215],
       device='cuda:1'), covar=tensor([0.0536, 0.0627, 0.0670, 0.0750, 0.0667, 0.0778, 0.3797, 0.0654],
       device='cuda:1'), in_proj_covar=tensor([0.0100, 0.0083, 0.0083, 0.0073, 0.0099, 0.0084, 0.0126, 0.0104],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
       device='cuda:1')
2022-11-16 00:34:57,676 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.6914, 2.1727, 1.6387, 1.3283, 1.8437, 2.4286, 2.0122, 2.5579],
       device='cuda:1'), covar=tensor([0.1745, 0.1212, 0.1844, 0.2541, 0.0999, 0.0775, 0.0582, 0.0837],
       device='cuda:1'), in_proj_covar=tensor([0.0176, 0.0183, 0.0158, 0.0188, 0.0172, 0.0181, 0.0157, 0.0185],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0004, 0.0003, 0.0004, 0.0003, 0.0004, 0.0003, 0.0004],
       device='cuda:1')
2022-11-16 00:35:04,279 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=57649.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 00:35:05,556 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=57651.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 00:35:36,533 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=57697.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 00:35:37,897 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=57699.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 00:35:41,756 INFO [train.py:876] (1/4) Epoch 8, batch 6800, loss[loss=0.1164, simple_loss=0.1359, pruned_loss=0.0485, over 5685.00 frames. ], tot_loss[loss=0.1348, simple_loss=0.1551, pruned_loss=0.05722, over 1085719.62 frames. ], batch size: 19, lr: 9.82e-03, grad_scale: 16.0
2022-11-16 00:35:53,963 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.090e+02 1.669e+02 2.102e+02 2.619e+02 4.252e+02, threshold=4.204e+02, percent-clipped=2.0
2022-11-16 00:36:00,330 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=57733.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 00:36:14,617 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=57754.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 00:36:31,833 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([4.7981, 4.4221, 4.6993, 4.2654, 4.8692, 4.8448, 4.3920, 4.9578],
       device='cuda:1'), covar=tensor([0.0440, 0.0375, 0.0446, 0.0393, 0.0472, 0.0132, 0.0303, 0.0256],
       device='cuda:1'), in_proj_covar=tensor([0.0128, 0.0137, 0.0105, 0.0134, 0.0154, 0.0089, 0.0115, 0.0138],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003],
       device='cuda:1')
2022-11-16 00:36:41,886 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=57794.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 00:36:49,274 INFO [train.py:876] (1/4) Epoch 8, batch 6900, loss[loss=0.2393, simple_loss=0.2142, pruned_loss=0.1322, over 3082.00 frames. ], tot_loss[loss=0.1344, simple_loss=0.155, pruned_loss=0.05686, over 1082890.86 frames. ], batch size: 284, lr: 9.82e-03, grad_scale: 16.0
2022-11-16 00:36:57,818 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=57818.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 00:37:01,645 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.095e+02 1.691e+02 2.166e+02 2.756e+02 5.042e+02, threshold=4.332e+02, percent-clipped=3.0
2022-11-16 00:37:13,689 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=57842.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 00:37:20,214 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=57851.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 00:37:21,627 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=57853.0, num_to_drop=1, layers_to_drop={0}
2022-11-16 00:37:39,735 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.22 vs. limit=2.0
2022-11-16 00:37:45,646 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=57890.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 00:37:53,395 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=57900.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 00:37:54,292 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=57901.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 00:37:56,852 INFO [train.py:876] (1/4) Epoch 8, batch 7000, loss[loss=0.1531, simple_loss=0.1762, pruned_loss=0.06501, over 5690.00 frames. ], tot_loss[loss=0.1372, simple_loss=0.1566, pruned_loss=0.05894, over 1080291.95 frames. ], batch size: 36, lr: 9.81e-03, grad_scale: 16.0
2022-11-16 00:38:03,533 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.2964, 4.3897, 2.8489, 4.1740, 3.3214, 2.8987, 2.5638, 3.6579],
       device='cuda:1'), covar=tensor([0.1606, 0.0239, 0.1064, 0.0352, 0.0738, 0.1002, 0.1734, 0.0427],
       device='cuda:1'), in_proj_covar=tensor([0.0167, 0.0140, 0.0167, 0.0144, 0.0177, 0.0179, 0.0175, 0.0154],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0003, 0.0004, 0.0003, 0.0004, 0.0004, 0.0004, 0.0003],
       device='cuda:1')
2022-11-16 00:38:09,167 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.116e+02 1.725e+02 2.099e+02 2.587e+02 4.633e+02, threshold=4.198e+02, percent-clipped=1.0
2022-11-16 00:38:25,216 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=57948.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 00:39:03,875 INFO [train.py:876] (1/4) Epoch 8, batch 7100, loss[loss=0.2295, simple_loss=0.2095, pruned_loss=0.1248, over 5474.00 frames. ], tot_loss[loss=0.1366, simple_loss=0.1563, pruned_loss=0.05851, over 1085576.83 frames. ], batch size: 58, lr: 9.80e-03, grad_scale: 16.0
2022-11-16 00:39:16,950 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.016e+02 1.751e+02 2.181e+02 2.576e+02 4.312e+02, threshold=4.361e+02, percent-clipped=1.0
2022-11-16 00:39:36,877 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=58054.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 00:40:00,886 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=58089.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 00:40:09,390 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=58102.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 00:40:11,333 INFO [train.py:876] (1/4) Epoch 8, batch 7200, loss[loss=0.1517, simple_loss=0.1724, pruned_loss=0.06548, over 5596.00 frames. ], tot_loss[loss=0.136, simple_loss=0.156, pruned_loss=0.05801, over 1089020.81 frames. ], batch size: 18, lr: 9.79e-03, grad_scale: 16.0
2022-11-16 00:40:20,260 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=58118.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 00:40:24,026 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 9.930e+01 1.590e+02 1.880e+02 2.458e+02 4.390e+02, threshold=3.761e+02, percent-clipped=1.0
2022-11-16 00:40:36,090 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=58141.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 00:40:38,008 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=58144.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 00:40:40,481 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.1788, 3.3511, 3.2831, 3.2886, 3.4179, 3.2120, 1.3800, 3.4340],
       device='cuda:1'), covar=tensor([0.0373, 0.0259, 0.0331, 0.0217, 0.0315, 0.0470, 0.2969, 0.0347],
       device='cuda:1'), in_proj_covar=tensor([0.0102, 0.0084, 0.0084, 0.0074, 0.0098, 0.0085, 0.0127, 0.0105],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
       device='cuda:1')
2022-11-16 00:40:42,408 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=58151.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 00:40:51,877 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=58166.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 00:41:42,118 INFO [train.py:876] (1/4) Epoch 9, batch 0, loss[loss=0.1509, simple_loss=0.1697, pruned_loss=0.06601, over 5564.00 frames. ], tot_loss[loss=0.1509, simple_loss=0.1697, pruned_loss=0.06601, over 5564.00 frames. ], batch size: 24, lr: 9.26e-03, grad_scale: 16.0
2022-11-16 00:41:42,119 INFO [train.py:899] (1/4) Computing validation loss
2022-11-16 00:41:49,386 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([4.1465, 4.3359, 3.7536, 4.3478, 4.3485, 3.6916, 4.1454, 3.9069],
       device='cuda:1'), covar=tensor([0.0153, 0.0420, 0.1256, 0.0344, 0.0422, 0.0378, 0.0235, 0.0349],
       device='cuda:1'), in_proj_covar=tensor([0.0124, 0.0165, 0.0260, 0.0159, 0.0207, 0.0164, 0.0174, 0.0162],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0004, 0.0002, 0.0003, 0.0002, 0.0002, 0.0002],
       device='cuda:1')
2022-11-16 00:41:58,752 INFO [train.py:908] (1/4) Epoch 9, validation: loss=0.1631, simple_loss=0.1836, pruned_loss=0.0713, over 1530663.00 frames. 
2022-11-16 00:41:58,752 INFO [train.py:909] (1/4) Maximum memory allocated so far is 4676MB
2022-11-16 00:42:13,710 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=58199.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 00:42:16,526 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=58202.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 00:42:18,395 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.8739, 3.3734, 2.9582, 3.3774, 3.3747, 2.9844, 2.9543, 2.9527],
       device='cuda:1'), covar=tensor([0.1598, 0.0568, 0.1563, 0.0452, 0.0531, 0.0526, 0.0890, 0.0713],
       device='cuda:1'), in_proj_covar=tensor([0.0125, 0.0166, 0.0261, 0.0160, 0.0208, 0.0165, 0.0175, 0.0163],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0003, 0.0004, 0.0002, 0.0003, 0.0002, 0.0002, 0.0002],
       device='cuda:1')
2022-11-16 00:42:18,488 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=58205.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 00:42:31,154 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.117e+02 1.772e+02 2.208e+02 2.571e+02 4.464e+02, threshold=4.417e+02, percent-clipped=3.0
2022-11-16 00:43:06,380 INFO [train.py:876] (1/4) Epoch 9, batch 100, loss[loss=0.1778, simple_loss=0.185, pruned_loss=0.08524, over 5579.00 frames. ], tot_loss[loss=0.1384, simple_loss=0.1572, pruned_loss=0.05979, over 432275.98 frames. ], batch size: 46, lr: 9.26e-03, grad_scale: 16.0
2022-11-16 00:43:16,907 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.5491, 1.9266, 2.1621, 2.9448, 2.8511, 2.2578, 1.9348, 2.9022],
       device='cuda:1'), covar=tensor([0.1149, 0.2349, 0.1865, 0.1490, 0.1078, 0.2557, 0.1805, 0.0768],
       device='cuda:1'), in_proj_covar=tensor([0.0223, 0.0203, 0.0196, 0.0323, 0.0224, 0.0211, 0.0195, 0.0227],
       device='cuda:1'), out_proj_covar=tensor([0.0005, 0.0005, 0.0005, 0.0006, 0.0005, 0.0005, 0.0005, 0.0005],
       device='cuda:1')
2022-11-16 00:43:23,341 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([4.9883, 4.7880, 5.2446, 5.0448, 4.4030, 4.3917, 5.7993, 4.8961],
       device='cuda:1'), covar=tensor([0.0510, 0.1132, 0.0337, 0.1028, 0.0442, 0.0394, 0.0799, 0.0510],
       device='cuda:1'), in_proj_covar=tensor([0.0077, 0.0099, 0.0087, 0.0109, 0.0081, 0.0072, 0.0136, 0.0093],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
       device='cuda:1')
2022-11-16 00:43:38,872 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 9.840e+01 1.567e+02 1.869e+02 2.319e+02 4.319e+02, threshold=3.738e+02, percent-clipped=0.0
2022-11-16 00:43:49,742 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.92 vs. limit=2.0
2022-11-16 00:43:59,870 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([4.2342, 4.9498, 4.4071, 5.0013, 4.9853, 4.0928, 4.5191, 4.1030],
       device='cuda:1'), covar=tensor([0.0325, 0.0459, 0.1577, 0.0247, 0.0327, 0.0378, 0.0396, 0.0617],
       device='cuda:1'), in_proj_covar=tensor([0.0125, 0.0166, 0.0263, 0.0160, 0.0208, 0.0166, 0.0175, 0.0163],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0004, 0.0002, 0.0003, 0.0002, 0.0002, 0.0002],
       device='cuda:1')
2022-11-16 00:44:07,182 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.7739, 1.0263, 1.6423, 1.0477, 1.4124, 1.5371, 1.1212, 1.2894],
       device='cuda:1'), covar=tensor([0.0560, 0.0889, 0.0492, 0.1737, 0.1757, 0.1017, 0.1716, 0.1073],
       device='cuda:1'), in_proj_covar=tensor([0.0012, 0.0017, 0.0012, 0.0015, 0.0013, 0.0011, 0.0016, 0.0012],
       device='cuda:1'), out_proj_covar=tensor([6.0754e-05, 8.0593e-05, 6.2737e-05, 7.3446e-05, 6.5901e-05, 5.9948e-05,
        7.5607e-05, 5.9836e-05], device='cuda:1')
2022-11-16 00:44:09,364 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.2011, 5.0821, 3.8781, 2.0771, 4.6860, 2.2373, 4.7142, 2.5935],
       device='cuda:1'), covar=tensor([0.1232, 0.0098, 0.0375, 0.2317, 0.0148, 0.1765, 0.0180, 0.1744],
       device='cuda:1'), in_proj_covar=tensor([0.0128, 0.0108, 0.0116, 0.0118, 0.0109, 0.0128, 0.0099, 0.0118],
       device='cuda:1'), out_proj_covar=tensor([0.0005, 0.0004, 0.0004, 0.0004, 0.0004, 0.0005, 0.0004, 0.0004],
       device='cuda:1')
2022-11-16 00:44:13,057 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.0247, 0.7029, 0.8229, 0.6718, 1.0565, 0.9820, 0.5839, 0.8724],
       device='cuda:1'), covar=tensor([0.0282, 0.0311, 0.0283, 0.0369, 0.0246, 0.0211, 0.0617, 0.0262],
       device='cuda:1'), in_proj_covar=tensor([0.0012, 0.0017, 0.0012, 0.0015, 0.0013, 0.0011, 0.0016, 0.0012],
       device='cuda:1'), out_proj_covar=tensor([6.0531e-05, 8.0401e-05, 6.2493e-05, 7.3276e-05, 6.5678e-05, 5.9763e-05,
        7.5342e-05, 5.9670e-05], device='cuda:1')
2022-11-16 00:44:13,596 INFO [train.py:876] (1/4) Epoch 9, batch 200, loss[loss=0.1648, simple_loss=0.1604, pruned_loss=0.08458, over 4811.00 frames. ], tot_loss[loss=0.1334, simple_loss=0.1537, pruned_loss=0.05656, over 687107.23 frames. ], batch size: 135, lr: 9.25e-03, grad_scale: 16.0
2022-11-16 00:44:22,158 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=58389.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 00:44:46,847 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 9.538e+01 1.502e+02 1.721e+02 2.221e+02 4.054e+02, threshold=3.441e+02, percent-clipped=2.0
2022-11-16 00:44:55,438 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=58437.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 00:45:21,747 INFO [train.py:876] (1/4) Epoch 9, batch 300, loss[loss=0.1189, simple_loss=0.1525, pruned_loss=0.04268, over 5554.00 frames. ], tot_loss[loss=0.1342, simple_loss=0.1537, pruned_loss=0.05734, over 839513.27 frames. ], batch size: 15, lr: 9.24e-03, grad_scale: 16.0
2022-11-16 00:45:35,852 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=58497.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 00:45:37,825 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=58500.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 00:45:53,983 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.037e+02 1.573e+02 2.012e+02 2.567e+02 4.757e+02, threshold=4.023e+02, percent-clipped=7.0
2022-11-16 00:46:02,029 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.3772, 1.5042, 1.6466, 1.1700, 1.2278, 1.4760, 1.2491, 1.7215],
       device='cuda:1'), covar=tensor([0.0041, 0.0047, 0.0041, 0.0052, 0.0038, 0.0035, 0.0038, 0.0067],
       device='cuda:1'), in_proj_covar=tensor([0.0048, 0.0043, 0.0045, 0.0045, 0.0043, 0.0039, 0.0044, 0.0038],
       device='cuda:1'), out_proj_covar=tensor([4.4154e-05, 3.8515e-05, 4.0412e-05, 4.0790e-05, 3.8364e-05, 3.4329e-05,
        4.0753e-05, 3.3885e-05], device='cuda:1')
2022-11-16 00:46:11,084 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.6035, 3.7068, 3.5106, 3.3911, 1.9896, 3.8367, 2.1440, 3.2983],
       device='cuda:1'), covar=tensor([0.0418, 0.0302, 0.0265, 0.0337, 0.0599, 0.0139, 0.0500, 0.0161],
       device='cuda:1'), in_proj_covar=tensor([0.0182, 0.0154, 0.0168, 0.0187, 0.0178, 0.0167, 0.0178, 0.0162],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
       device='cuda:1')
2022-11-16 00:46:29,075 INFO [train.py:876] (1/4) Epoch 9, batch 400, loss[loss=0.1843, simple_loss=0.1757, pruned_loss=0.09641, over 4085.00 frames. ], tot_loss[loss=0.132, simple_loss=0.1532, pruned_loss=0.05539, over 940072.82 frames. ], batch size: 181, lr: 9.23e-03, grad_scale: 16.0
2022-11-16 00:46:46,910 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.7128, 4.5814, 3.5711, 2.0580, 4.1997, 1.8912, 4.2588, 2.5836],
       device='cuda:1'), covar=tensor([0.1248, 0.0128, 0.0594, 0.2139, 0.0173, 0.1805, 0.0193, 0.1462],
       device='cuda:1'), in_proj_covar=tensor([0.0125, 0.0106, 0.0115, 0.0116, 0.0106, 0.0126, 0.0098, 0.0115],
       device='cuda:1'), out_proj_covar=tensor([0.0005, 0.0004, 0.0004, 0.0004, 0.0004, 0.0005, 0.0004, 0.0004],
       device='cuda:1')
2022-11-16 00:47:00,103 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.6465, 1.5938, 1.8901, 1.2932, 1.0915, 2.4445, 1.8897, 1.6305],
       device='cuda:1'), covar=tensor([0.1335, 0.2189, 0.1501, 0.3163, 0.4083, 0.0890, 0.2644, 0.2050],
       device='cuda:1'), in_proj_covar=tensor([0.0078, 0.0069, 0.0068, 0.0080, 0.0061, 0.0052, 0.0058, 0.0066],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0001, 0.0001, 0.0001, 0.0002],
       device='cuda:1')
2022-11-16 00:47:01,901 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.026e+02 1.664e+02 1.953e+02 2.587e+02 4.932e+02, threshold=3.905e+02, percent-clipped=2.0
2022-11-16 00:47:09,270 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.5260, 3.5048, 3.4595, 3.2754, 2.0065, 3.6208, 2.0766, 3.2338],
       device='cuda:1'), covar=tensor([0.0403, 0.0215, 0.0213, 0.0318, 0.0527, 0.0151, 0.0461, 0.0122],
       device='cuda:1'), in_proj_covar=tensor([0.0184, 0.0157, 0.0168, 0.0189, 0.0180, 0.0168, 0.0180, 0.0164],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
       device='cuda:1')
2022-11-16 00:47:14,687 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=3.98 vs. limit=5.0
2022-11-16 00:47:37,284 INFO [train.py:876] (1/4) Epoch 9, batch 500, loss[loss=0.1324, simple_loss=0.1547, pruned_loss=0.05505, over 5582.00 frames. ], tot_loss[loss=0.1334, simple_loss=0.1545, pruned_loss=0.05612, over 998745.87 frames. ], batch size: 43, lr: 9.22e-03, grad_scale: 16.0
2022-11-16 00:47:40,004 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=58681.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 00:47:42,882 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=5.34 vs. limit=5.0
2022-11-16 00:48:05,330 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([4.9799, 4.5362, 4.7453, 4.5173, 5.0251, 4.9034, 4.4397, 5.0172],
       device='cuda:1'), covar=tensor([0.0329, 0.0249, 0.0446, 0.0279, 0.0319, 0.0136, 0.0222, 0.0236],
       device='cuda:1'), in_proj_covar=tensor([0.0123, 0.0134, 0.0102, 0.0132, 0.0152, 0.0087, 0.0112, 0.0134],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0003, 0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0003],
       device='cuda:1')
2022-11-16 00:48:09,720 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.047e+02 1.707e+02 2.003e+02 2.573e+02 4.379e+02, threshold=4.006e+02, percent-clipped=1.0
2022-11-16 00:48:20,972 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=58742.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 00:48:34,115 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([0.8998, 1.3085, 1.1051, 0.8179, 1.1656, 1.0570, 0.5249, 1.3608],
       device='cuda:1'), covar=tensor([0.0036, 0.0023, 0.0035, 0.0033, 0.0028, 0.0029, 0.0059, 0.0027],
       device='cuda:1'), in_proj_covar=tensor([0.0049, 0.0043, 0.0045, 0.0046, 0.0044, 0.0039, 0.0044, 0.0039],
       device='cuda:1'), out_proj_covar=tensor([4.4569e-05, 3.8863e-05, 4.0758e-05, 4.1249e-05, 3.8677e-05, 3.4310e-05,
        4.1002e-05, 3.4141e-05], device='cuda:1')
2022-11-16 00:48:43,670 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=58775.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 00:48:44,825 INFO [train.py:876] (1/4) Epoch 9, batch 600, loss[loss=0.0956, simple_loss=0.1241, pruned_loss=0.03355, over 5599.00 frames. ], tot_loss[loss=0.1318, simple_loss=0.1528, pruned_loss=0.05539, over 1027121.91 frames. ], batch size: 23, lr: 9.22e-03, grad_scale: 16.0
2022-11-16 00:48:58,064 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=58797.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 00:49:00,355 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=58800.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 00:49:17,736 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.043e+02 1.543e+02 1.852e+02 2.303e+02 3.719e+02, threshold=3.705e+02, percent-clipped=0.0
2022-11-16 00:49:25,157 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=58836.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 00:49:29,891 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.68 vs. limit=2.0
2022-11-16 00:49:30,903 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=58845.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 00:49:32,853 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=58848.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 00:49:52,480 INFO [train.py:876] (1/4) Epoch 9, batch 700, loss[loss=0.08381, simple_loss=0.1159, pruned_loss=0.02586, over 5714.00 frames. ], tot_loss[loss=0.1333, simple_loss=0.1544, pruned_loss=0.05609, over 1055315.11 frames. ], batch size: 12, lr: 9.21e-03, grad_scale: 8.0
2022-11-16 00:50:11,746 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=58906.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 00:50:14,522 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.19 vs. limit=2.0
2022-11-16 00:50:25,239 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.031e+02 1.741e+02 2.186e+02 2.790e+02 4.131e+02, threshold=4.372e+02, percent-clipped=5.0
2022-11-16 00:50:49,537 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.1920, 4.4175, 2.6813, 4.2689, 3.4682, 2.7130, 2.3105, 3.8168],
       device='cuda:1'), covar=tensor([0.1977, 0.0230, 0.1337, 0.0311, 0.0579, 0.1357, 0.2156, 0.0305],
       device='cuda:1'), in_proj_covar=tensor([0.0163, 0.0138, 0.0161, 0.0140, 0.0174, 0.0174, 0.0171, 0.0150],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0003, 0.0004, 0.0003, 0.0004, 0.0004, 0.0004, 0.0003],
       device='cuda:1')
2022-11-16 00:50:52,776 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=58967.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 00:50:59,890 INFO [train.py:876] (1/4) Epoch 9, batch 800, loss[loss=0.2217, simple_loss=0.191, pruned_loss=0.1262, over 3096.00 frames. ], tot_loss[loss=0.1324, simple_loss=0.1533, pruned_loss=0.05577, over 1063391.21 frames. ], batch size: 284, lr: 9.20e-03, grad_scale: 8.0
2022-11-16 00:51:33,802 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 8.601e+01 1.692e+02 2.170e+02 2.841e+02 6.263e+02, threshold=4.339e+02, percent-clipped=3.0
2022-11-16 00:51:37,631 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.7057, 1.8992, 2.5307, 2.3584, 2.2334, 1.8281, 2.2278, 2.7545],
       device='cuda:1'), covar=tensor([0.0572, 0.1225, 0.0643, 0.0993, 0.0836, 0.1244, 0.1072, 0.0551],
       device='cuda:1'), in_proj_covar=tensor([0.0228, 0.0194, 0.0206, 0.0210, 0.0226, 0.0194, 0.0221, 0.0225],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004],
       device='cuda:1')
2022-11-16 00:51:41,835 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=59037.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 00:51:45,694 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([4.7585, 4.6377, 4.7255, 4.9085, 4.3668, 4.0697, 5.2798, 4.6011],
       device='cuda:1'), covar=tensor([0.0347, 0.0774, 0.0331, 0.0929, 0.0504, 0.0353, 0.0693, 0.0583],
       device='cuda:1'), in_proj_covar=tensor([0.0077, 0.0098, 0.0087, 0.0109, 0.0081, 0.0072, 0.0136, 0.0092],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
       device='cuda:1')
2022-11-16 00:52:08,557 INFO [train.py:876] (1/4) Epoch 9, batch 900, loss[loss=0.1183, simple_loss=0.139, pruned_loss=0.04879, over 5462.00 frames. ], tot_loss[loss=0.1337, simple_loss=0.1542, pruned_loss=0.05661, over 1066042.43 frames. ], batch size: 12, lr: 9.19e-03, grad_scale: 8.0
2022-11-16 00:52:10,557 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=4.87 vs. limit=5.0
2022-11-16 00:52:20,187 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=2.02 vs. limit=2.0
2022-11-16 00:52:42,260 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 9.620e+01 1.634e+02 1.980e+02 2.467e+02 5.009e+02, threshold=3.960e+02, percent-clipped=1.0
2022-11-16 00:52:44,377 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.4489, 4.0197, 3.5158, 3.9540, 3.9472, 3.3935, 3.5098, 3.3351],
       device='cuda:1'), covar=tensor([0.0775, 0.0497, 0.1528, 0.0420, 0.0427, 0.0462, 0.0764, 0.0643],
       device='cuda:1'), in_proj_covar=tensor([0.0128, 0.0167, 0.0266, 0.0163, 0.0209, 0.0169, 0.0176, 0.0163],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0003, 0.0004, 0.0002, 0.0003, 0.0002, 0.0002, 0.0002],
       device='cuda:1')
2022-11-16 00:52:46,074 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=59131.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 00:52:55,946 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.9580, 3.5618, 3.7570, 3.5759, 4.0142, 3.6915, 3.6022, 3.9637],
       device='cuda:1'), covar=tensor([0.0415, 0.0483, 0.0605, 0.0474, 0.0467, 0.0488, 0.0449, 0.0424],
       device='cuda:1'), in_proj_covar=tensor([0.0126, 0.0138, 0.0106, 0.0136, 0.0157, 0.0089, 0.0116, 0.0139],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0003, 0.0002, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003],
       device='cuda:1')
2022-11-16 00:52:57,304 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.1876, 1.6327, 1.6476, 1.4172, 1.0537, 2.3559, 1.7260, 1.4293],
       device='cuda:1'), covar=tensor([0.1683, 0.1321, 0.1401, 0.2631, 0.2547, 0.0761, 0.1586, 0.1681],
       device='cuda:1'), in_proj_covar=tensor([0.0079, 0.0069, 0.0067, 0.0083, 0.0061, 0.0050, 0.0058, 0.0067],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0001, 0.0001, 0.0002],
       device='cuda:1')
2022-11-16 00:53:08,450 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=59164.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 00:53:16,812 INFO [train.py:876] (1/4) Epoch 9, batch 1000, loss[loss=0.1415, simple_loss=0.1487, pruned_loss=0.06709, over 5096.00 frames. ], tot_loss[loss=0.134, simple_loss=0.1549, pruned_loss=0.05656, over 1078456.46 frames. ], batch size: 5, lr: 9.19e-03, grad_scale: 8.0
2022-11-16 00:53:50,608 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=59225.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 00:53:51,081 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 8.814e+01 1.686e+02 1.957e+02 2.486e+02 6.337e+02, threshold=3.914e+02, percent-clipped=1.0
2022-11-16 00:54:01,216 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.58 vs. limit=2.0
2022-11-16 00:54:18,044 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=59262.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 00:54:28,526 INFO [train.py:876] (1/4) Epoch 9, batch 1100, loss[loss=0.1427, simple_loss=0.167, pruned_loss=0.05919, over 5726.00 frames. ], tot_loss[loss=0.1308, simple_loss=0.1526, pruned_loss=0.05451, over 1080926.00 frames. ], batch size: 19, lr: 9.18e-03, grad_scale: 8.0
2022-11-16 00:55:01,717 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 8.767e+01 1.618e+02 1.962e+02 2.354e+02 6.461e+02, threshold=3.925e+02, percent-clipped=2.0
2022-11-16 00:55:04,151 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.37 vs. limit=2.0
2022-11-16 00:55:08,991 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=59337.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 00:55:36,025 INFO [train.py:876] (1/4) Epoch 9, batch 1200, loss[loss=0.2264, simple_loss=0.212, pruned_loss=0.1204, over 5490.00 frames. ], tot_loss[loss=0.132, simple_loss=0.1534, pruned_loss=0.0553, over 1080027.92 frames. ], batch size: 64, lr: 9.17e-03, grad_scale: 8.0
2022-11-16 00:55:41,355 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=59385.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 00:55:41,510 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.6696, 2.1565, 2.5926, 3.5372, 3.3977, 2.7004, 2.2926, 3.5450],
       device='cuda:1'), covar=tensor([0.0551, 0.3185, 0.2125, 0.2419, 0.1098, 0.2734, 0.2080, 0.0744],
       device='cuda:1'), in_proj_covar=tensor([0.0224, 0.0202, 0.0192, 0.0315, 0.0219, 0.0207, 0.0192, 0.0223],
       device='cuda:1'), out_proj_covar=tensor([0.0005, 0.0005, 0.0005, 0.0006, 0.0005, 0.0005, 0.0005, 0.0005],
       device='cuda:1')
2022-11-16 00:56:09,404 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.118e+02 1.585e+02 1.981e+02 2.415e+02 4.268e+02, threshold=3.961e+02, percent-clipped=1.0
2022-11-16 00:56:12,832 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=59431.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 00:56:14,797 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.3791, 1.0647, 1.0982, 0.6659, 1.1284, 1.1952, 0.6014, 0.8236],
       device='cuda:1'), covar=tensor([0.0307, 0.0473, 0.0361, 0.0918, 0.0393, 0.0367, 0.0837, 0.0490],
       device='cuda:1'), in_proj_covar=tensor([0.0012, 0.0018, 0.0013, 0.0016, 0.0014, 0.0012, 0.0017, 0.0012],
       device='cuda:1'), out_proj_covar=tensor([6.4145e-05, 8.5084e-05, 6.5754e-05, 7.6832e-05, 7.0424e-05, 6.3215e-05,
        7.9697e-05, 6.2766e-05], device='cuda:1')
2022-11-16 00:56:42,731 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=4.09 vs. limit=5.0
2022-11-16 00:56:43,600 INFO [train.py:876] (1/4) Epoch 9, batch 1300, loss[loss=0.1981, simple_loss=0.1972, pruned_loss=0.09953, over 5508.00 frames. ], tot_loss[loss=0.1316, simple_loss=0.1538, pruned_loss=0.05475, over 1085890.79 frames. ], batch size: 58, lr: 9.16e-03, grad_scale: 8.0
2022-11-16 00:56:45,395 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=59479.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 00:56:47,276 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=5.16 vs. limit=5.0
2022-11-16 00:56:57,655 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.41 vs. limit=2.0
2022-11-16 00:57:00,740 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=59502.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 00:57:13,462 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=59520.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 00:57:17,254 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 9.599e+01 1.572e+02 1.990e+02 2.382e+02 3.719e+02, threshold=3.980e+02, percent-clipped=0.0
2022-11-16 00:57:40,984 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=59562.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 00:57:41,697 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=59563.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 00:57:43,319 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.97 vs. limit=2.0
2022-11-16 00:57:51,211 INFO [train.py:876] (1/4) Epoch 9, batch 1400, loss[loss=0.117, simple_loss=0.1418, pruned_loss=0.0461, over 5639.00 frames. ], tot_loss[loss=0.131, simple_loss=0.1526, pruned_loss=0.05469, over 1083712.98 frames. ], batch size: 29, lr: 9.15e-03, grad_scale: 8.0
2022-11-16 00:58:02,078 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=3.59 vs. limit=5.0
2022-11-16 00:58:13,882 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=59610.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 00:58:24,718 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.063e+02 1.626e+02 1.961e+02 2.375e+02 3.725e+02, threshold=3.922e+02, percent-clipped=0.0
2022-11-16 00:58:33,313 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.9144, 3.2726, 2.2449, 2.9422, 2.1384, 2.3933, 1.7846, 2.7989],
       device='cuda:1'), covar=tensor([0.1271, 0.0228, 0.1044, 0.0473, 0.1232, 0.1002, 0.1797, 0.0418],
       device='cuda:1'), in_proj_covar=tensor([0.0164, 0.0138, 0.0163, 0.0141, 0.0173, 0.0176, 0.0171, 0.0152],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0003, 0.0004, 0.0003, 0.0004, 0.0004, 0.0004, 0.0003],
       device='cuda:1')
2022-11-16 00:58:58,825 INFO [train.py:876] (1/4) Epoch 9, batch 1500, loss[loss=0.1238, simple_loss=0.1513, pruned_loss=0.04818, over 5714.00 frames. ], tot_loss[loss=0.1311, simple_loss=0.1524, pruned_loss=0.05493, over 1075203.60 frames. ], batch size: 20, lr: 9.15e-03, grad_scale: 8.0
2022-11-16 00:59:18,362 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.4167, 3.3938, 3.4631, 3.3068, 3.5695, 3.3469, 1.3120, 3.6548],
       device='cuda:1'), covar=tensor([0.0299, 0.0381, 0.0369, 0.0320, 0.0337, 0.0455, 0.3227, 0.0317],
       device='cuda:1'), in_proj_covar=tensor([0.0100, 0.0080, 0.0082, 0.0073, 0.0096, 0.0083, 0.0124, 0.0103],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
       device='cuda:1')
2022-11-16 00:59:31,911 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 7.993e+01 1.447e+02 1.801e+02 2.298e+02 3.676e+02, threshold=3.602e+02, percent-clipped=0.0
2022-11-16 00:59:35,430 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.5304, 1.4989, 1.4728, 0.9123, 1.2903, 1.3434, 1.1462, 1.5832],
       device='cuda:1'), covar=tensor([0.0048, 0.0057, 0.0040, 0.0047, 0.0077, 0.0041, 0.0047, 0.0047],
       device='cuda:1'), in_proj_covar=tensor([0.0049, 0.0043, 0.0046, 0.0046, 0.0044, 0.0040, 0.0044, 0.0040],
       device='cuda:1'), out_proj_covar=tensor([4.5029e-05, 3.9324e-05, 4.1060e-05, 4.1413e-05, 3.9314e-05, 3.4687e-05,
        4.0788e-05, 3.5154e-05], device='cuda:1')
2022-11-16 01:00:06,513 INFO [train.py:876] (1/4) Epoch 9, batch 1600, loss[loss=0.191, simple_loss=0.1945, pruned_loss=0.09372, over 5441.00 frames. ], tot_loss[loss=0.1313, simple_loss=0.1527, pruned_loss=0.05491, over 1083617.00 frames. ], batch size: 58, lr: 9.14e-03, grad_scale: 8.0
2022-11-16 01:00:10,209 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.36 vs. limit=2.0
2022-11-16 01:00:19,662 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.4580, 1.9815, 3.1319, 2.5801, 3.0812, 2.1953, 2.8110, 3.4301],
       device='cuda:1'), covar=tensor([0.0658, 0.1823, 0.0806, 0.1492, 0.0663, 0.1546, 0.1158, 0.0829],
       device='cuda:1'), in_proj_covar=tensor([0.0228, 0.0196, 0.0205, 0.0209, 0.0226, 0.0193, 0.0222, 0.0225],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004],
       device='cuda:1')
2022-11-16 01:00:36,432 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=59820.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 01:00:40,153 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 9.161e+01 1.571e+02 1.942e+02 2.410e+02 4.577e+02, threshold=3.885e+02, percent-clipped=5.0
2022-11-16 01:00:40,261 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([4.4021, 4.3632, 4.4955, 4.6117, 4.2218, 4.0196, 5.1021, 4.4020],
       device='cuda:1'), covar=tensor([0.0448, 0.0768, 0.0368, 0.0935, 0.0555, 0.0385, 0.0651, 0.0596],
       device='cuda:1'), in_proj_covar=tensor([0.0078, 0.0100, 0.0087, 0.0111, 0.0082, 0.0073, 0.0137, 0.0093],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0003, 0.0002],
       device='cuda:1')
2022-11-16 01:00:55,343 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=59848.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 01:01:01,636 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=59858.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 01:01:08,521 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=59868.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 01:01:14,344 INFO [train.py:876] (1/4) Epoch 9, batch 1700, loss[loss=0.1813, simple_loss=0.19, pruned_loss=0.08632, over 5529.00 frames. ], tot_loss[loss=0.1312, simple_loss=0.1525, pruned_loss=0.05495, over 1085871.53 frames. ], batch size: 46, lr: 9.13e-03, grad_scale: 8.0
2022-11-16 01:01:18,383 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.5943, 1.5460, 1.3005, 1.1047, 1.3446, 1.4773, 1.0275, 1.1792],
       device='cuda:1'), covar=tensor([0.0018, 0.0046, 0.0037, 0.0055, 0.0036, 0.0045, 0.0034, 0.0041],
       device='cuda:1'), in_proj_covar=tensor([0.0021, 0.0021, 0.0022, 0.0028, 0.0024, 0.0024, 0.0027, 0.0026],
       device='cuda:1'), out_proj_covar=tensor([1.9594e-05, 2.0515e-05, 1.9899e-05, 2.7663e-05, 2.3164e-05, 2.2947e-05,
        2.5884e-05, 2.6419e-05], device='cuda:1')
2022-11-16 01:01:21,111 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.8204, 1.7950, 1.4451, 1.4665, 1.4482, 1.5944, 1.5502, 1.8371],
       device='cuda:1'), covar=tensor([0.0041, 0.0066, 0.0028, 0.0063, 0.0050, 0.0125, 0.0029, 0.0026],
       device='cuda:1'), in_proj_covar=tensor([0.0021, 0.0021, 0.0022, 0.0028, 0.0024, 0.0024, 0.0027, 0.0026],
       device='cuda:1'), out_proj_covar=tensor([1.9537e-05, 2.0455e-05, 1.9835e-05, 2.7544e-05, 2.3087e-05, 2.2860e-05,
        2.5824e-05, 2.6336e-05], device='cuda:1')
2022-11-16 01:01:22,409 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=59889.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 01:01:35,833 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=59909.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 01:01:47,042 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 9.735e+01 1.514e+02 1.939e+02 2.316e+02 5.054e+02, threshold=3.877e+02, percent-clipped=3.0
2022-11-16 01:02:02,974 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=59950.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 01:02:11,793 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.3563, 3.0852, 3.2527, 3.0319, 1.9583, 3.2802, 2.0677, 2.8156],
       device='cuda:1'), covar=tensor([0.0335, 0.0219, 0.0152, 0.0226, 0.0428, 0.0145, 0.0420, 0.0141],
       device='cuda:1'), in_proj_covar=tensor([0.0188, 0.0162, 0.0174, 0.0193, 0.0184, 0.0173, 0.0183, 0.0170],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
       device='cuda:1')
2022-11-16 01:02:21,361 INFO [train.py:876] (1/4) Epoch 9, batch 1800, loss[loss=0.1741, simple_loss=0.1633, pruned_loss=0.09243, over 4139.00 frames. ], tot_loss[loss=0.129, simple_loss=0.1509, pruned_loss=0.05351, over 1088222.55 frames. ], batch size: 181, lr: 9.12e-03, grad_scale: 8.0
2022-11-16 01:02:59,237 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.022e+02 1.503e+02 1.882e+02 2.236e+02 4.811e+02, threshold=3.764e+02, percent-clipped=2.0
2022-11-16 01:03:08,914 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=60040.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 01:03:16,836 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=60052.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 01:03:25,129 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=60065.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 01:03:33,729 INFO [train.py:876] (1/4) Epoch 9, batch 1900, loss[loss=0.08385, simple_loss=0.1151, pruned_loss=0.02629, over 5698.00 frames. ], tot_loss[loss=0.1305, simple_loss=0.152, pruned_loss=0.05451, over 1085404.53 frames. ], batch size: 11, lr: 9.12e-03, grad_scale: 8.0
2022-11-16 01:03:34,465 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=60078.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 01:03:44,737 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.0801, 1.2353, 1.1253, 0.8229, 1.4244, 1.3907, 0.6888, 1.3642],
       device='cuda:1'), covar=tensor([0.0036, 0.0022, 0.0036, 0.0038, 0.0027, 0.0034, 0.0052, 0.0031],
       device='cuda:1'), in_proj_covar=tensor([0.0049, 0.0043, 0.0044, 0.0045, 0.0044, 0.0039, 0.0044, 0.0038],
       device='cuda:1'), out_proj_covar=tensor([4.4473e-05, 3.9119e-05, 3.9727e-05, 4.0549e-05, 3.8688e-05, 3.4154e-05,
        4.0342e-05, 3.4018e-05], device='cuda:1')
2022-11-16 01:03:49,819 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=60101.0, num_to_drop=1, layers_to_drop={3}
2022-11-16 01:03:57,579 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=60113.0, num_to_drop=1, layers_to_drop={3}
2022-11-16 01:04:06,950 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 9.557e+01 1.713e+02 2.167e+02 2.668e+02 5.052e+02, threshold=4.333e+02, percent-clipped=7.0
2022-11-16 01:04:07,151 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=60126.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 01:04:15,557 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=60139.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 01:04:28,106 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=60158.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 01:04:40,597 INFO [train.py:876] (1/4) Epoch 9, batch 2000, loss[loss=0.1874, simple_loss=0.1881, pruned_loss=0.09334, over 5287.00 frames. ], tot_loss[loss=0.1328, simple_loss=0.1535, pruned_loss=0.05601, over 1082461.58 frames. ], batch size: 79, lr: 9.11e-03, grad_scale: 8.0
2022-11-16 01:04:55,774 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=60198.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 01:04:59,900 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=60204.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 01:05:01,212 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=60206.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 01:05:14,563 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.098e+02 1.629e+02 2.002e+02 2.495e+02 4.506e+02, threshold=4.003e+02, percent-clipped=3.0
2022-11-16 01:05:27,714 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=60245.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 01:05:37,278 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=60259.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 01:05:44,490 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.7727, 1.0027, 1.3016, 1.0961, 1.5318, 1.0463, 1.0259, 1.5254],
       device='cuda:1'), covar=tensor([0.1111, 0.0639, 0.0901, 0.1090, 0.1528, 0.2018, 0.1086, 0.0557],
       device='cuda:1'), in_proj_covar=tensor([0.0012, 0.0018, 0.0013, 0.0016, 0.0014, 0.0012, 0.0016, 0.0012],
       device='cuda:1'), out_proj_covar=tensor([6.3470e-05, 8.4360e-05, 6.4750e-05, 7.6804e-05, 6.9254e-05, 6.3268e-05,
        7.8786e-05, 6.2427e-05], device='cuda:1')
2022-11-16 01:05:49,240 INFO [train.py:876] (1/4) Epoch 9, batch 2100, loss[loss=0.1081, simple_loss=0.1375, pruned_loss=0.03939, over 5747.00 frames. ], tot_loss[loss=0.1325, simple_loss=0.1533, pruned_loss=0.05588, over 1082433.42 frames. ], batch size: 16, lr: 9.10e-03, grad_scale: 8.0
2022-11-16 01:05:51,461 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=1.95 vs. limit=2.0
2022-11-16 01:05:52,721 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=1.98 vs. limit=2.0
2022-11-16 01:06:03,305 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.7017, 1.1032, 1.1458, 1.0457, 1.7123, 0.9492, 0.9622, 1.5809],
       device='cuda:1'), covar=tensor([0.0583, 0.1199, 0.0545, 0.0803, 0.1274, 0.0972, 0.0887, 0.0350],
       device='cuda:1'), in_proj_covar=tensor([0.0012, 0.0018, 0.0012, 0.0016, 0.0014, 0.0012, 0.0016, 0.0012],
       device='cuda:1'), out_proj_covar=tensor([6.2974e-05, 8.3449e-05, 6.4122e-05, 7.6056e-05, 6.8597e-05, 6.2769e-05,
        7.7719e-05, 6.1997e-05], device='cuda:1')
2022-11-16 01:06:22,289 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.109e+02 1.667e+02 2.049e+02 2.499e+02 3.972e+02, threshold=4.098e+02, percent-clipped=0.0
2022-11-16 01:06:51,352 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.29 vs. limit=2.0
2022-11-16 01:06:56,810 INFO [train.py:876] (1/4) Epoch 9, batch 2200, loss[loss=0.157, simple_loss=0.1616, pruned_loss=0.07625, over 4941.00 frames. ], tot_loss[loss=0.1307, simple_loss=0.1522, pruned_loss=0.05458, over 1085565.36 frames. ], batch size: 109, lr: 9.09e-03, grad_scale: 8.0
2022-11-16 01:07:09,675 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=60396.0, num_to_drop=1, layers_to_drop={1}
2022-11-16 01:07:18,000 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=60408.0, num_to_drop=1, layers_to_drop={2}
2022-11-16 01:07:18,936 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=1.95 vs. limit=2.0
2022-11-16 01:07:26,517 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=60421.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 01:07:30,026 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.086e+02 1.625e+02 1.909e+02 2.506e+02 7.347e+02, threshold=3.819e+02, percent-clipped=1.0
2022-11-16 01:07:35,206 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=60434.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 01:08:04,142 INFO [train.py:876] (1/4) Epoch 9, batch 2300, loss[loss=0.09113, simple_loss=0.1294, pruned_loss=0.02641, over 5741.00 frames. ], tot_loss[loss=0.131, simple_loss=0.1524, pruned_loss=0.05483, over 1084965.43 frames. ], batch size: 15, lr: 9.09e-03, grad_scale: 8.0
2022-11-16 01:08:22,440 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=60504.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 01:08:37,684 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 9.337e+01 1.638e+02 1.971e+02 2.511e+02 5.541e+02, threshold=3.943e+02, percent-clipped=0.0
2022-11-16 01:08:44,792 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.0775, 2.1804, 2.5450, 2.3261, 1.4486, 2.3152, 1.7151, 1.8348],
       device='cuda:1'), covar=tensor([0.0235, 0.0118, 0.0123, 0.0148, 0.0339, 0.0132, 0.0334, 0.0190],
       device='cuda:1'), in_proj_covar=tensor([0.0188, 0.0161, 0.0174, 0.0196, 0.0185, 0.0174, 0.0183, 0.0174],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
       device='cuda:1')
2022-11-16 01:08:50,482 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=60545.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 01:08:54,913 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=60552.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 01:08:54,985 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.4261, 4.4310, 2.7824, 4.1403, 3.5840, 3.0139, 2.4560, 3.7592],
       device='cuda:1'), covar=tensor([0.1691, 0.0301, 0.1397, 0.0479, 0.0624, 0.1062, 0.2231, 0.0480],
       device='cuda:1'), in_proj_covar=tensor([0.0160, 0.0138, 0.0161, 0.0140, 0.0171, 0.0172, 0.0171, 0.0153],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0003, 0.0004, 0.0003, 0.0004, 0.0004, 0.0004, 0.0003],
       device='cuda:1')
2022-11-16 01:08:56,293 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=60554.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 01:09:07,199 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=7.10 vs. limit=5.0
2022-11-16 01:09:12,097 INFO [train.py:876] (1/4) Epoch 9, batch 2400, loss[loss=0.1286, simple_loss=0.1635, pruned_loss=0.04686, over 5576.00 frames. ], tot_loss[loss=0.132, simple_loss=0.1536, pruned_loss=0.05525, over 1086817.45 frames. ], batch size: 43, lr: 9.08e-03, grad_scale: 8.0
2022-11-16 01:09:22,867 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=60593.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 01:09:37,435 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.5361, 2.2454, 3.1670, 2.7852, 2.9836, 2.2781, 2.8463, 3.4982],
       device='cuda:1'), covar=tensor([0.0443, 0.1319, 0.0777, 0.1147, 0.0732, 0.1377, 0.1153, 0.0662],
       device='cuda:1'), in_proj_covar=tensor([0.0232, 0.0193, 0.0205, 0.0209, 0.0226, 0.0193, 0.0223, 0.0222],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004],
       device='cuda:1')
2022-11-16 01:09:38,074 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.2075, 2.1075, 2.3998, 3.2478, 3.2221, 2.3804, 2.0109, 3.4053],
       device='cuda:1'), covar=tensor([0.0912, 0.3289, 0.2338, 0.2728, 0.1344, 0.3267, 0.2838, 0.0682],
       device='cuda:1'), in_proj_covar=tensor([0.0229, 0.0202, 0.0195, 0.0318, 0.0224, 0.0206, 0.0193, 0.0229],
       device='cuda:1'), out_proj_covar=tensor([0.0005, 0.0005, 0.0005, 0.0006, 0.0005, 0.0005, 0.0005, 0.0005],
       device='cuda:1')
2022-11-16 01:09:40,008 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.2323, 1.5599, 1.0110, 1.0124, 1.2109, 1.8273, 1.6743, 1.6273],
       device='cuda:1'), covar=tensor([0.0862, 0.0473, 0.1537, 0.1917, 0.0936, 0.0589, 0.0490, 0.1167],
       device='cuda:1'), in_proj_covar=tensor([0.0174, 0.0184, 0.0163, 0.0190, 0.0170, 0.0186, 0.0157, 0.0188],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0004, 0.0003, 0.0004, 0.0003, 0.0004, 0.0003, 0.0004],
       device='cuda:1')
2022-11-16 01:09:44,905 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.073e+02 1.802e+02 2.307e+02 2.858e+02 9.175e+02, threshold=4.615e+02, percent-clipped=3.0
2022-11-16 01:10:18,993 INFO [train.py:876] (1/4) Epoch 9, batch 2500, loss[loss=0.1533, simple_loss=0.1755, pruned_loss=0.06551, over 5502.00 frames. ], tot_loss[loss=0.1312, simple_loss=0.1528, pruned_loss=0.05475, over 1082548.71 frames. ], batch size: 17, lr: 9.07e-03, grad_scale: 8.0
2022-11-16 01:10:31,972 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=60696.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 01:10:40,127 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=60708.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 01:10:46,716 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=60718.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 01:10:48,596 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=60721.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 01:10:51,736 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 9.647e+01 1.621e+02 1.973e+02 2.538e+02 4.790e+02, threshold=3.945e+02, percent-clipped=1.0
2022-11-16 01:10:57,730 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=60734.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 01:11:04,177 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=60744.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 01:11:04,254 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.0977, 1.8989, 2.5932, 1.5908, 1.0381, 2.7591, 2.1275, 2.2729],
       device='cuda:1'), covar=tensor([0.1586, 0.2219, 0.1103, 0.3802, 0.7829, 0.1326, 0.2953, 0.1571],
       device='cuda:1'), in_proj_covar=tensor([0.0080, 0.0071, 0.0071, 0.0083, 0.0063, 0.0050, 0.0061, 0.0069],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0001, 0.0001, 0.0002],
       device='cuda:1')
2022-11-16 01:11:11,855 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=60756.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 01:11:15,196 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.2175, 2.2708, 2.4783, 3.4212, 3.4586, 2.6051, 2.2585, 3.4660],
       device='cuda:1'), covar=tensor([0.0924, 0.2789, 0.2345, 0.2422, 0.0988, 0.2777, 0.2157, 0.0560],
       device='cuda:1'), in_proj_covar=tensor([0.0234, 0.0207, 0.0199, 0.0324, 0.0228, 0.0213, 0.0197, 0.0235],
       device='cuda:1'), out_proj_covar=tensor([0.0005, 0.0005, 0.0005, 0.0006, 0.0005, 0.0005, 0.0005, 0.0005],
       device='cuda:1')
2022-11-16 01:11:20,527 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=60769.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 01:11:25,024 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.0993, 3.0197, 2.8795, 3.1786, 3.0378, 2.7096, 3.4739, 3.0459],
       device='cuda:1'), covar=tensor([0.0631, 0.1025, 0.0754, 0.1320, 0.0774, 0.0592, 0.1026, 0.0976],
       device='cuda:1'), in_proj_covar=tensor([0.0081, 0.0101, 0.0088, 0.0112, 0.0083, 0.0073, 0.0139, 0.0093],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0003, 0.0002],
       device='cuda:1')
2022-11-16 01:11:25,649 INFO [train.py:876] (1/4) Epoch 9, batch 2600, loss[loss=0.1301, simple_loss=0.1495, pruned_loss=0.05535, over 5106.00 frames. ], tot_loss[loss=0.1315, simple_loss=0.1534, pruned_loss=0.05477, over 1085401.89 frames. ], batch size: 91, lr: 9.06e-03, grad_scale: 8.0
2022-11-16 01:11:27,131 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=60779.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 01:11:28,883 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=60782.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 01:11:58,598 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.024e+02 1.669e+02 1.987e+02 2.479e+02 5.022e+02, threshold=3.974e+02, percent-clipped=3.0
2022-11-16 01:12:07,915 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=2.00 vs. limit=2.0
2022-11-16 01:12:18,170 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=60854.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 01:12:33,334 INFO [train.py:876] (1/4) Epoch 9, batch 2700, loss[loss=0.1523, simple_loss=0.1686, pruned_loss=0.06801, over 5674.00 frames. ], tot_loss[loss=0.1289, simple_loss=0.1517, pruned_loss=0.05305, over 1087460.49 frames. ], batch size: 34, lr: 9.06e-03, grad_scale: 16.0
2022-11-16 01:12:49,124 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.8869, 5.0158, 3.1590, 4.6697, 3.5730, 3.5560, 2.5879, 4.3357],
       device='cuda:1'), covar=tensor([0.1226, 0.0183, 0.0949, 0.0289, 0.0623, 0.0684, 0.1760, 0.0255],
       device='cuda:1'), in_proj_covar=tensor([0.0163, 0.0139, 0.0164, 0.0142, 0.0176, 0.0176, 0.0173, 0.0154],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0003, 0.0004, 0.0003, 0.0004, 0.0004, 0.0004, 0.0003],
       device='cuda:1')
2022-11-16 01:12:50,320 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=60902.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 01:12:53,546 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([4.1847, 4.1873, 4.2644, 4.3555, 3.8926, 3.6565, 4.7697, 4.2592],
       device='cuda:1'), covar=tensor([0.0491, 0.0861, 0.0352, 0.0885, 0.0565, 0.0338, 0.0634, 0.0517],
       device='cuda:1'), in_proj_covar=tensor([0.0081, 0.0100, 0.0087, 0.0111, 0.0083, 0.0072, 0.0138, 0.0093],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0003, 0.0002],
       device='cuda:1')
2022-11-16 01:13:06,003 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.108e+02 1.571e+02 1.865e+02 2.553e+02 5.202e+02, threshold=3.729e+02, percent-clipped=2.0
2022-11-16 01:13:38,541 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=2.07 vs. limit=2.0
2022-11-16 01:13:40,748 INFO [train.py:876] (1/4) Epoch 9, batch 2800, loss[loss=0.1285, simple_loss=0.1554, pruned_loss=0.05083, over 5711.00 frames. ], tot_loss[loss=0.1303, simple_loss=0.1518, pruned_loss=0.05435, over 1086415.71 frames. ], batch size: 28, lr: 9.05e-03, grad_scale: 16.0
2022-11-16 01:13:57,365 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.1487, 2.9052, 2.9525, 2.7645, 3.2156, 3.1295, 3.0056, 3.1356],
       device='cuda:1'), covar=tensor([0.0512, 0.0491, 0.0663, 0.0565, 0.0518, 0.0247, 0.0445, 0.0592],
       device='cuda:1'), in_proj_covar=tensor([0.0132, 0.0142, 0.0108, 0.0141, 0.0164, 0.0095, 0.0119, 0.0145],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003],
       device='cuda:1')
2022-11-16 01:14:13,878 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.037e+02 1.565e+02 1.869e+02 2.208e+02 4.201e+02, threshold=3.737e+02, percent-clipped=2.0
2022-11-16 01:14:27,913 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=1.90 vs. limit=2.0
2022-11-16 01:14:37,288 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=61061.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 01:14:46,625 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=61074.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 01:14:48,546 INFO [train.py:876] (1/4) Epoch 9, batch 2900, loss[loss=0.1472, simple_loss=0.1593, pruned_loss=0.06754, over 5153.00 frames. ], tot_loss[loss=0.1321, simple_loss=0.1532, pruned_loss=0.05546, over 1083668.14 frames. ], batch size: 91, lr: 9.04e-03, grad_scale: 16.0
2022-11-16 01:15:18,269 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=61122.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 01:15:21,362 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.003e+02 1.585e+02 1.881e+02 2.261e+02 3.985e+02, threshold=3.762e+02, percent-clipped=2.0
2022-11-16 01:15:39,572 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.7728, 3.9499, 3.8107, 2.0852, 3.1901, 4.0420, 3.9055, 4.3333],
       device='cuda:1'), covar=tensor([0.1706, 0.0875, 0.0473, 0.2353, 0.0517, 0.0419, 0.0331, 0.0398],
       device='cuda:1'), in_proj_covar=tensor([0.0176, 0.0185, 0.0163, 0.0191, 0.0172, 0.0190, 0.0161, 0.0186],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0004, 0.0003, 0.0004, 0.0004, 0.0004, 0.0003, 0.0004],
       device='cuda:1')
2022-11-16 01:15:55,636 INFO [train.py:876] (1/4) Epoch 9, batch 3000, loss[loss=0.1339, simple_loss=0.1603, pruned_loss=0.05374, over 5574.00 frames. ], tot_loss[loss=0.1281, simple_loss=0.1502, pruned_loss=0.05293, over 1090737.36 frames. ], batch size: 24, lr: 9.03e-03, grad_scale: 16.0
2022-11-16 01:15:55,636 INFO [train.py:899] (1/4) Computing validation loss
2022-11-16 01:16:03,171 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.8375, 1.2780, 1.3695, 1.3774, 1.1639, 1.5106, 1.4420, 1.4930],
       device='cuda:1'), covar=tensor([0.0046, 0.0092, 0.0078, 0.0054, 0.0135, 0.0142, 0.0035, 0.0042],
       device='cuda:1'), in_proj_covar=tensor([0.0021, 0.0021, 0.0022, 0.0028, 0.0024, 0.0022, 0.0026, 0.0025],
       device='cuda:1'), out_proj_covar=tensor([1.9213e-05, 1.9829e-05, 1.9593e-05, 2.6915e-05, 2.2621e-05, 2.1729e-05,
        2.5159e-05, 2.5526e-05], device='cuda:1')
2022-11-16 01:16:06,418 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.1248, 1.4683, 1.4391, 1.2091, 1.5840, 1.6999, 1.5634, 1.1075],
       device='cuda:1'), covar=tensor([0.0018, 0.0054, 0.0031, 0.0043, 0.0029, 0.0025, 0.0026, 0.0049],
       device='cuda:1'), in_proj_covar=tensor([0.0021, 0.0021, 0.0022, 0.0028, 0.0024, 0.0022, 0.0026, 0.0025],
       device='cuda:1'), out_proj_covar=tensor([1.9213e-05, 1.9829e-05, 1.9593e-05, 2.6915e-05, 2.2621e-05, 2.1729e-05,
        2.5159e-05, 2.5526e-05], device='cuda:1')
2022-11-16 01:16:08,358 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.9902, 2.4458, 1.7045, 1.4184, 1.8376, 2.5877, 2.3479, 2.6730],
       device='cuda:1'), covar=tensor([0.0957, 0.0506, 0.1947, 0.1567, 0.0752, 0.0591, 0.0344, 0.0556],
       device='cuda:1'), in_proj_covar=tensor([0.0174, 0.0184, 0.0161, 0.0190, 0.0170, 0.0189, 0.0160, 0.0184],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0004, 0.0003, 0.0004, 0.0004, 0.0004, 0.0003, 0.0004],
       device='cuda:1')
2022-11-16 01:16:16,566 INFO [train.py:908] (1/4) Epoch 9, validation: loss=0.1637, simple_loss=0.1831, pruned_loss=0.07219, over 1530663.00 frames. 
2022-11-16 01:16:16,567 INFO [train.py:909] (1/4) Maximum memory allocated so far is 4676MB
2022-11-16 01:16:20,656 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.1076, 3.3311, 3.1341, 1.4729, 2.8715, 3.3900, 3.3981, 3.8708],
       device='cuda:1'), covar=tensor([0.1934, 0.1081, 0.0665, 0.2761, 0.0544, 0.0774, 0.0398, 0.0499],
       device='cuda:1'), in_proj_covar=tensor([0.0174, 0.0183, 0.0161, 0.0189, 0.0170, 0.0189, 0.0159, 0.0184],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0004, 0.0003, 0.0004, 0.0004, 0.0004, 0.0003, 0.0004],
       device='cuda:1')
2022-11-16 01:16:27,349 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.4515, 5.7294, 4.0003, 5.1687, 4.2806, 4.4814, 3.4850, 4.8576],
       device='cuda:1'), covar=tensor([0.0902, 0.0139, 0.0706, 0.0205, 0.0419, 0.0497, 0.1235, 0.0224],
       device='cuda:1'), in_proj_covar=tensor([0.0161, 0.0137, 0.0163, 0.0141, 0.0174, 0.0174, 0.0170, 0.0154],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0003, 0.0004, 0.0003, 0.0004, 0.0004, 0.0004, 0.0003],
       device='cuda:1')
2022-11-16 01:16:49,307 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.005e+02 1.614e+02 2.000e+02 2.380e+02 4.865e+02, threshold=4.000e+02, percent-clipped=3.0
2022-11-16 01:17:20,049 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([5.9335, 5.4846, 5.7428, 5.3172, 5.9682, 5.8522, 4.8920, 5.8672],
       device='cuda:1'), covar=tensor([0.0205, 0.0210, 0.0266, 0.0240, 0.0216, 0.0129, 0.0210, 0.0194],
       device='cuda:1'), in_proj_covar=tensor([0.0130, 0.0141, 0.0105, 0.0140, 0.0163, 0.0093, 0.0118, 0.0145],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003],
       device='cuda:1')
2022-11-16 01:17:23,848 INFO [train.py:876] (1/4) Epoch 9, batch 3100, loss[loss=0.1504, simple_loss=0.1703, pruned_loss=0.06522, over 5688.00 frames. ], tot_loss[loss=0.1295, simple_loss=0.1514, pruned_loss=0.05382, over 1080212.99 frames. ], batch size: 36, lr: 9.03e-03, grad_scale: 16.0
2022-11-16 01:17:26,486 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.65 vs. limit=2.0
2022-11-16 01:17:57,137 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.004e+02 1.659e+02 1.981e+02 2.507e+02 4.168e+02, threshold=3.962e+02, percent-clipped=1.0
2022-11-16 01:18:19,741 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=5.31 vs. limit=5.0
2022-11-16 01:18:30,144 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=61374.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 01:18:31,951 INFO [train.py:876] (1/4) Epoch 9, batch 3200, loss[loss=0.1137, simple_loss=0.1435, pruned_loss=0.04192, over 5764.00 frames. ], tot_loss[loss=0.1299, simple_loss=0.1515, pruned_loss=0.05412, over 1079339.12 frames. ], batch size: 26, lr: 9.02e-03, grad_scale: 16.0
2022-11-16 01:18:39,885 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([4.1519, 4.1204, 4.2642, 4.3875, 3.7710, 3.6480, 4.7130, 4.2218],
       device='cuda:1'), covar=tensor([0.0494, 0.0891, 0.0377, 0.1042, 0.0623, 0.0419, 0.0893, 0.0568],
       device='cuda:1'), in_proj_covar=tensor([0.0082, 0.0103, 0.0090, 0.0115, 0.0085, 0.0075, 0.0142, 0.0096],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0003, 0.0002],
       device='cuda:1')
2022-11-16 01:18:53,363 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.6105, 1.3506, 1.3739, 1.0429, 1.3867, 1.2001, 1.0605, 0.9064],
       device='cuda:1'), covar=tensor([0.0020, 0.0038, 0.0035, 0.0043, 0.0032, 0.0044, 0.0034, 0.0046],
       device='cuda:1'), in_proj_covar=tensor([0.0021, 0.0020, 0.0022, 0.0028, 0.0024, 0.0022, 0.0026, 0.0025],
       device='cuda:1'), out_proj_covar=tensor([1.8916e-05, 1.9283e-05, 1.9642e-05, 2.6914e-05, 2.2469e-05, 2.1569e-05,
        2.5185e-05, 2.5270e-05], device='cuda:1')
2022-11-16 01:18:59,224 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=61417.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 01:19:02,493 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=61422.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 01:19:04,945 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.027e+02 1.596e+02 1.869e+02 2.254e+02 4.160e+02, threshold=3.737e+02, percent-clipped=1.0
2022-11-16 01:19:09,001 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=4.23 vs. limit=5.0
2022-11-16 01:19:23,013 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=2.08 vs. limit=2.0
2022-11-16 01:19:39,535 INFO [train.py:876] (1/4) Epoch 9, batch 3300, loss[loss=0.1276, simple_loss=0.1492, pruned_loss=0.05297, over 5457.00 frames. ], tot_loss[loss=0.1311, simple_loss=0.1523, pruned_loss=0.05501, over 1074705.82 frames. ], batch size: 11, lr: 9.01e-03, grad_scale: 16.0
2022-11-16 01:19:44,248 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.76 vs. limit=2.0
2022-11-16 01:20:12,867 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.100e+02 1.659e+02 1.971e+02 2.388e+02 4.331e+02, threshold=3.941e+02, percent-clipped=1.0
2022-11-16 01:20:29,830 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.4761, 2.6615, 2.3326, 2.7125, 2.2003, 2.3298, 2.3590, 2.7098],
       device='cuda:1'), covar=tensor([0.1430, 0.1524, 0.2800, 0.1892, 0.2135, 0.1153, 0.2118, 0.3697],
       device='cuda:1'), in_proj_covar=tensor([0.0094, 0.0092, 0.0098, 0.0085, 0.0086, 0.0089, 0.0089, 0.0069],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
       device='cuda:1')
2022-11-16 01:20:47,017 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.7289, 2.1007, 2.7605, 3.6114, 3.6292, 2.7917, 2.3614, 3.7393],
       device='cuda:1'), covar=tensor([0.0719, 0.2821, 0.2357, 0.3118, 0.1237, 0.2857, 0.2127, 0.0608],
       device='cuda:1'), in_proj_covar=tensor([0.0226, 0.0201, 0.0193, 0.0313, 0.0222, 0.0203, 0.0191, 0.0227],
       device='cuda:1'), out_proj_covar=tensor([0.0005, 0.0005, 0.0005, 0.0006, 0.0005, 0.0005, 0.0005, 0.0005],
       device='cuda:1')
2022-11-16 01:20:47,469 INFO [train.py:876] (1/4) Epoch 9, batch 3400, loss[loss=0.126, simple_loss=0.1519, pruned_loss=0.05001, over 5560.00 frames. ], tot_loss[loss=0.1296, simple_loss=0.1514, pruned_loss=0.05389, over 1080295.53 frames. ], batch size: 15, lr: 9.01e-03, grad_scale: 16.0
2022-11-16 01:21:17,055 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.5852, 3.8366, 3.4026, 3.8130, 3.8550, 3.2859, 3.3832, 3.3188],
       device='cuda:1'), covar=tensor([0.0696, 0.0543, 0.1443, 0.0483, 0.0457, 0.0555, 0.0785, 0.0685],
       device='cuda:1'), in_proj_covar=tensor([0.0127, 0.0168, 0.0263, 0.0166, 0.0210, 0.0168, 0.0179, 0.0167],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0003, 0.0004, 0.0002, 0.0003, 0.0002, 0.0003, 0.0002],
       device='cuda:1')
2022-11-16 01:21:20,961 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 9.197e+01 1.625e+02 1.885e+02 2.405e+02 4.262e+02, threshold=3.771e+02, percent-clipped=2.0
2022-11-16 01:21:26,972 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([4.0912, 2.4255, 3.6284, 2.9864, 3.9298, 2.5293, 3.4448, 3.9236],
       device='cuda:1'), covar=tensor([0.0643, 0.2327, 0.0788, 0.1761, 0.0741, 0.1736, 0.1334, 0.0908],
       device='cuda:1'), in_proj_covar=tensor([0.0231, 0.0192, 0.0203, 0.0207, 0.0225, 0.0190, 0.0221, 0.0223],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004],
       device='cuda:1')
2022-11-16 01:21:37,456 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([5.5245, 4.9744, 5.2520, 4.8761, 5.6163, 5.4697, 4.7161, 5.4379],
       device='cuda:1'), covar=tensor([0.0314, 0.0259, 0.0382, 0.0275, 0.0282, 0.0119, 0.0212, 0.0237],
       device='cuda:1'), in_proj_covar=tensor([0.0130, 0.0139, 0.0103, 0.0138, 0.0160, 0.0092, 0.0117, 0.0143],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003],
       device='cuda:1')
2022-11-16 01:21:49,920 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.9916, 3.1766, 3.2402, 2.9042, 3.0898, 3.0783, 1.2284, 3.2258],
       device='cuda:1'), covar=tensor([0.0318, 0.0240, 0.0237, 0.0327, 0.0341, 0.0318, 0.3364, 0.0316],
       device='cuda:1'), in_proj_covar=tensor([0.0105, 0.0083, 0.0085, 0.0076, 0.0102, 0.0086, 0.0130, 0.0107],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
       device='cuda:1')
2022-11-16 01:21:55,067 INFO [train.py:876] (1/4) Epoch 9, batch 3500, loss[loss=0.1239, simple_loss=0.1418, pruned_loss=0.05306, over 5507.00 frames. ], tot_loss[loss=0.1304, simple_loss=0.1525, pruned_loss=0.05415, over 1084968.21 frames. ], batch size: 12, lr: 9.00e-03, grad_scale: 16.0
2022-11-16 01:22:16,173 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.0473, 5.2313, 3.8667, 2.1320, 4.7025, 2.1082, 4.4779, 2.7702],
       device='cuda:1'), covar=tensor([0.1212, 0.0065, 0.0418, 0.2194, 0.0183, 0.1648, 0.0188, 0.1331],
       device='cuda:1'), in_proj_covar=tensor([0.0124, 0.0104, 0.0113, 0.0114, 0.0102, 0.0123, 0.0098, 0.0113],
       device='cuda:1'), out_proj_covar=tensor([0.0005, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004],
       device='cuda:1')
2022-11-16 01:22:22,287 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=61717.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 01:22:24,872 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.5013, 4.2340, 3.1422, 1.8530, 3.9333, 1.3965, 3.8896, 2.0939],
       device='cuda:1'), covar=tensor([0.1265, 0.0144, 0.0761, 0.1970, 0.0164, 0.2011, 0.0253, 0.1612],
       device='cuda:1'), in_proj_covar=tensor([0.0123, 0.0104, 0.0113, 0.0113, 0.0102, 0.0122, 0.0098, 0.0113],
       device='cuda:1'), out_proj_covar=tensor([0.0005, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004],
       device='cuda:1')
2022-11-16 01:22:28,020 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.034e+02 1.632e+02 2.023e+02 2.591e+02 5.866e+02, threshold=4.047e+02, percent-clipped=6.0
2022-11-16 01:22:32,168 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=61732.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 01:22:39,369 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=61743.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 01:22:54,365 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=61765.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 01:23:01,744 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.4048, 3.5469, 3.5937, 3.3321, 3.4702, 3.4680, 1.3519, 3.5970],
       device='cuda:1'), covar=tensor([0.0369, 0.0328, 0.0327, 0.0326, 0.0394, 0.0390, 0.3669, 0.0376],
       device='cuda:1'), in_proj_covar=tensor([0.0106, 0.0083, 0.0086, 0.0077, 0.0103, 0.0087, 0.0132, 0.0108],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
       device='cuda:1')
2022-11-16 01:23:02,299 INFO [train.py:876] (1/4) Epoch 9, batch 3600, loss[loss=0.1335, simple_loss=0.1628, pruned_loss=0.05206, over 5694.00 frames. ], tot_loss[loss=0.1315, simple_loss=0.1534, pruned_loss=0.05485, over 1083131.97 frames. ], batch size: 36, lr: 8.99e-03, grad_scale: 16.0
2022-11-16 01:23:12,902 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=61793.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 01:23:20,604 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=61804.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 01:23:23,569 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=4.10 vs. limit=5.0
2022-11-16 01:23:35,484 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.175e+02 1.617e+02 2.067e+02 2.692e+02 5.357e+02, threshold=4.135e+02, percent-clipped=2.0
2022-11-16 01:23:53,329 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([4.4974, 4.6595, 4.4273, 4.7116, 4.3193, 3.7991, 5.2323, 4.5542],
       device='cuda:1'), covar=tensor([0.0457, 0.0609, 0.0368, 0.0903, 0.0405, 0.0370, 0.0578, 0.0611],
       device='cuda:1'), in_proj_covar=tensor([0.0080, 0.0099, 0.0087, 0.0109, 0.0081, 0.0072, 0.0138, 0.0092],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
       device='cuda:1')
2022-11-16 01:24:10,273 INFO [train.py:876] (1/4) Epoch 9, batch 3700, loss[loss=0.123, simple_loss=0.1559, pruned_loss=0.0451, over 5550.00 frames. ], tot_loss[loss=0.1302, simple_loss=0.1523, pruned_loss=0.05402, over 1086416.00 frames. ], batch size: 14, lr: 8.98e-03, grad_scale: 16.0
2022-11-16 01:24:34,709 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=61914.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 01:24:38,515 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.6683, 4.3560, 3.2502, 1.7505, 4.0028, 1.5278, 4.1236, 2.2955],
       device='cuda:1'), covar=tensor([0.1250, 0.0097, 0.0543, 0.2206, 0.0202, 0.1971, 0.0136, 0.1604],
       device='cuda:1'), in_proj_covar=tensor([0.0124, 0.0105, 0.0115, 0.0115, 0.0104, 0.0125, 0.0099, 0.0114],
       device='cuda:1'), out_proj_covar=tensor([0.0005, 0.0004, 0.0004, 0.0004, 0.0004, 0.0005, 0.0004, 0.0004],
       device='cuda:1')
2022-11-16 01:24:42,850 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 8.652e+01 1.593e+02 2.000e+02 2.466e+02 4.913e+02, threshold=3.999e+02, percent-clipped=2.0
2022-11-16 01:24:57,346 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.83 vs. limit=2.0
2022-11-16 01:25:15,827 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=61975.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 01:25:16,948 INFO [train.py:876] (1/4) Epoch 9, batch 3800, loss[loss=0.1569, simple_loss=0.1672, pruned_loss=0.07324, over 5515.00 frames. ], tot_loss[loss=0.1286, simple_loss=0.1514, pruned_loss=0.05292, over 1085014.84 frames. ], batch size: 46, lr: 8.98e-03, grad_scale: 16.0
2022-11-16 01:25:50,159 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 9.003e+01 1.597e+02 1.892e+02 2.479e+02 4.563e+02, threshold=3.783e+02, percent-clipped=2.0
2022-11-16 01:25:52,618 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.6706, 1.9783, 1.9471, 1.4059, 2.0645, 2.5169, 2.2152, 2.4462],
       device='cuda:1'), covar=tensor([0.2233, 0.1736, 0.1707, 0.2889, 0.0781, 0.1010, 0.0657, 0.1056],
       device='cuda:1'), in_proj_covar=tensor([0.0173, 0.0181, 0.0165, 0.0188, 0.0169, 0.0190, 0.0158, 0.0184],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0004, 0.0003, 0.0004, 0.0004, 0.0004, 0.0003, 0.0004],
       device='cuda:1')
2022-11-16 01:25:58,835 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.30 vs. limit=2.0
2022-11-16 01:26:14,386 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.2764, 1.5275, 1.2706, 1.1359, 1.2286, 2.1388, 1.7205, 1.8139],
       device='cuda:1'), covar=tensor([0.1675, 0.1098, 0.1722, 0.2305, 0.1248, 0.0720, 0.0735, 0.1151],
       device='cuda:1'), in_proj_covar=tensor([0.0172, 0.0181, 0.0163, 0.0187, 0.0168, 0.0188, 0.0157, 0.0183],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0004, 0.0003, 0.0004, 0.0003, 0.0004, 0.0003, 0.0004],
       device='cuda:1')
2022-11-16 01:26:24,516 INFO [train.py:876] (1/4) Epoch 9, batch 3900, loss[loss=0.1333, simple_loss=0.1535, pruned_loss=0.05659, over 5577.00 frames. ], tot_loss[loss=0.1275, simple_loss=0.1506, pruned_loss=0.05217, over 1089506.37 frames. ], batch size: 43, lr: 8.97e-03, grad_scale: 16.0
2022-11-16 01:26:31,657 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=62088.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 01:26:39,489 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=62099.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 01:26:55,154 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=62122.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 01:26:57,545 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.082e+02 1.676e+02 2.020e+02 2.333e+02 7.144e+02, threshold=4.039e+02, percent-clipped=2.0
2022-11-16 01:27:08,122 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([4.0152, 4.1066, 4.1237, 3.7202, 4.0695, 3.8160, 1.7147, 4.1822],
       device='cuda:1'), covar=tensor([0.0287, 0.0259, 0.0304, 0.0382, 0.0325, 0.0400, 0.3075, 0.0352],
       device='cuda:1'), in_proj_covar=tensor([0.0107, 0.0084, 0.0086, 0.0077, 0.0103, 0.0089, 0.0131, 0.0109],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
       device='cuda:1')
2022-11-16 01:27:22,808 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=1.71 vs. limit=2.0
2022-11-16 01:27:29,564 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.91 vs. limit=2.0
2022-11-16 01:27:32,456 INFO [train.py:876] (1/4) Epoch 9, batch 4000, loss[loss=0.1114, simple_loss=0.1454, pruned_loss=0.03868, over 5560.00 frames. ], tot_loss[loss=0.1277, simple_loss=0.1506, pruned_loss=0.05246, over 1091248.17 frames. ], batch size: 16, lr: 8.96e-03, grad_scale: 16.0
2022-11-16 01:27:32,639 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.0048, 2.3871, 2.5839, 1.5535, 2.6614, 2.9172, 2.7400, 3.1514],
       device='cuda:1'), covar=tensor([0.2051, 0.1881, 0.1259, 0.2989, 0.0614, 0.0925, 0.0559, 0.0809],
       device='cuda:1'), in_proj_covar=tensor([0.0172, 0.0182, 0.0163, 0.0189, 0.0169, 0.0189, 0.0158, 0.0184],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0004, 0.0003, 0.0004, 0.0004, 0.0004, 0.0003, 0.0004],
       device='cuda:1')
2022-11-16 01:27:36,453 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=62183.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 01:27:50,473 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.8021, 1.3121, 1.7417, 1.0790, 1.3279, 1.2830, 1.2392, 1.2686],
       device='cuda:1'), covar=tensor([0.0028, 0.0079, 0.0041, 0.0050, 0.0046, 0.0070, 0.0035, 0.0041],
       device='cuda:1'), in_proj_covar=tensor([0.0021, 0.0020, 0.0021, 0.0028, 0.0024, 0.0022, 0.0026, 0.0025],
       device='cuda:1'), out_proj_covar=tensor([1.8681e-05, 1.9143e-05, 1.9414e-05, 2.7190e-05, 2.2550e-05, 2.1038e-05,
        2.5231e-05, 2.4980e-05], device='cuda:1')
2022-11-16 01:28:05,699 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 9.381e+01 1.660e+02 2.083e+02 2.529e+02 5.015e+02, threshold=4.165e+02, percent-clipped=1.0
2022-11-16 01:28:22,939 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.4400, 3.5735, 3.5209, 3.7416, 3.2026, 3.1159, 4.0030, 3.4740],
       device='cuda:1'), covar=tensor([0.0442, 0.0690, 0.0519, 0.0912, 0.0641, 0.0387, 0.0713, 0.0572],
       device='cuda:1'), in_proj_covar=tensor([0.0081, 0.0102, 0.0089, 0.0111, 0.0084, 0.0073, 0.0141, 0.0093],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0003, 0.0002],
       device='cuda:1')
2022-11-16 01:28:35,669 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=62270.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 01:28:37,734 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=62273.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 01:28:40,188 INFO [train.py:876] (1/4) Epoch 9, batch 4100, loss[loss=0.1228, simple_loss=0.1468, pruned_loss=0.04941, over 5509.00 frames. ], tot_loss[loss=0.1286, simple_loss=0.1509, pruned_loss=0.05316, over 1090533.29 frames. ], batch size: 49, lr: 8.96e-03, grad_scale: 16.0
2022-11-16 01:29:13,573 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.063e+02 1.483e+02 1.988e+02 2.459e+02 5.062e+02, threshold=3.976e+02, percent-clipped=4.0
2022-11-16 01:29:19,051 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=62334.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 01:29:23,718 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.6293, 2.2020, 3.1775, 2.6630, 3.3064, 2.2679, 2.9776, 3.5708],
       device='cuda:1'), covar=tensor([0.0679, 0.1579, 0.0795, 0.1456, 0.0648, 0.1483, 0.1156, 0.0918],
       device='cuda:1'), in_proj_covar=tensor([0.0232, 0.0194, 0.0208, 0.0206, 0.0225, 0.0191, 0.0223, 0.0225],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004],
       device='cuda:1')
2022-11-16 01:29:29,564 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.2143, 3.5673, 3.2011, 3.4434, 3.5456, 3.0619, 3.1075, 3.0465],
       device='cuda:1'), covar=tensor([0.0865, 0.0478, 0.1162, 0.0496, 0.0441, 0.0532, 0.0775, 0.0615],
       device='cuda:1'), in_proj_covar=tensor([0.0127, 0.0167, 0.0259, 0.0164, 0.0205, 0.0166, 0.0175, 0.0164],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0003, 0.0004, 0.0002, 0.0003, 0.0002, 0.0002, 0.0002],
       device='cuda:1')
2022-11-16 01:29:39,130 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.9671, 4.2753, 4.1304, 3.4788, 2.2135, 4.4004, 2.4301, 3.9019],
       device='cuda:1'), covar=tensor([0.0404, 0.0356, 0.0205, 0.0441, 0.0616, 0.0139, 0.0538, 0.0154],
       device='cuda:1'), in_proj_covar=tensor([0.0185, 0.0160, 0.0168, 0.0190, 0.0181, 0.0171, 0.0180, 0.0169],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
       device='cuda:1')
2022-11-16 01:29:48,369 INFO [train.py:876] (1/4) Epoch 9, batch 4200, loss[loss=0.1381, simple_loss=0.1598, pruned_loss=0.0582, over 5595.00 frames. ], tot_loss[loss=0.1289, simple_loss=0.1515, pruned_loss=0.05318, over 1086918.99 frames. ], batch size: 43, lr: 8.95e-03, grad_scale: 16.0
2022-11-16 01:29:55,574 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=62388.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 01:29:57,577 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=62391.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 01:30:02,849 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=62399.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 01:30:19,440 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.2567, 3.7299, 3.3386, 3.6574, 3.7743, 3.2181, 3.3812, 3.3083],
       device='cuda:1'), covar=tensor([0.0924, 0.0532, 0.1267, 0.0515, 0.0405, 0.0473, 0.0657, 0.0657],
       device='cuda:1'), in_proj_covar=tensor([0.0129, 0.0170, 0.0264, 0.0167, 0.0208, 0.0168, 0.0179, 0.0167],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0003, 0.0004, 0.0002, 0.0003, 0.0002, 0.0002, 0.0002],
       device='cuda:1')
2022-11-16 01:30:21,289 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 9.948e+01 1.584e+02 2.002e+02 2.529e+02 4.819e+02, threshold=4.003e+02, percent-clipped=3.0
2022-11-16 01:30:28,429 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=62436.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 01:30:35,822 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=62447.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 01:30:39,200 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=62452.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 01:30:40,081 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.92 vs. limit=2.0
2022-11-16 01:30:55,988 INFO [train.py:876] (1/4) Epoch 9, batch 4300, loss[loss=0.1661, simple_loss=0.1731, pruned_loss=0.07955, over 5464.00 frames. ], tot_loss[loss=0.1295, simple_loss=0.1519, pruned_loss=0.05349, over 1084532.72 frames. ], batch size: 58, lr: 8.94e-03, grad_scale: 16.0
2022-11-16 01:30:56,685 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=62478.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 01:30:56,779 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.6231, 1.2369, 1.1673, 0.9578, 1.2769, 1.4553, 0.9179, 1.2854],
       device='cuda:1'), covar=tensor([0.0204, 0.0483, 0.1206, 0.0902, 0.1167, 0.0540, 0.1161, 0.0502],
       device='cuda:1'), in_proj_covar=tensor([0.0012, 0.0018, 0.0012, 0.0016, 0.0014, 0.0012, 0.0016, 0.0012],
       device='cuda:1'), out_proj_covar=tensor([6.3685e-05, 8.4908e-05, 6.4605e-05, 7.6112e-05, 6.9102e-05, 6.2997e-05,
        7.8550e-05, 6.2746e-05], device='cuda:1')
2022-11-16 01:31:06,574 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.3549, 2.1688, 3.0951, 2.8193, 2.8693, 2.0724, 2.8527, 3.3587],
       device='cuda:1'), covar=tensor([0.0786, 0.1596, 0.0923, 0.1382, 0.0783, 0.1692, 0.1116, 0.0982],
       device='cuda:1'), in_proj_covar=tensor([0.0231, 0.0192, 0.0207, 0.0207, 0.0226, 0.0190, 0.0223, 0.0224],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004],
       device='cuda:1')
2022-11-16 01:31:28,850 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.018e+02 1.728e+02 2.092e+02 2.577e+02 4.668e+02, threshold=4.183e+02, percent-clipped=3.0
2022-11-16 01:31:42,540 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([0.7735, 1.0319, 1.0333, 0.7361, 0.8329, 0.8752, 0.7797, 0.7423],
       device='cuda:1'), covar=tensor([0.0016, 0.0013, 0.0013, 0.0017, 0.0017, 0.0015, 0.0022, 0.0029],
       device='cuda:1'), in_proj_covar=tensor([0.0021, 0.0021, 0.0022, 0.0028, 0.0024, 0.0022, 0.0027, 0.0026],
       device='cuda:1'), out_proj_covar=tensor([1.9238e-05, 1.9935e-05, 1.9654e-05, 2.7455e-05, 2.2809e-05, 2.1287e-05,
        2.5913e-05, 2.5657e-05], device='cuda:1')
2022-11-16 01:31:42,557 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=62545.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 01:31:48,109 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=4.70 vs. limit=5.0
2022-11-16 01:31:58,786 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=62570.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 01:32:03,250 INFO [train.py:876] (1/4) Epoch 9, batch 4400, loss[loss=0.08424, simple_loss=0.1236, pruned_loss=0.02243, over 5538.00 frames. ], tot_loss[loss=0.1283, simple_loss=0.1515, pruned_loss=0.05258, over 1089348.49 frames. ], batch size: 14, lr: 8.93e-03, grad_scale: 16.0
2022-11-16 01:32:08,315 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.7249, 2.7323, 2.2699, 3.0736, 2.2763, 2.6348, 2.6738, 3.1480],
       device='cuda:1'), covar=tensor([0.1056, 0.1483, 0.2734, 0.0938, 0.1669, 0.1241, 0.1810, 0.2072],
       device='cuda:1'), in_proj_covar=tensor([0.0097, 0.0097, 0.0101, 0.0088, 0.0088, 0.0091, 0.0093, 0.0069],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
       device='cuda:1')
2022-11-16 01:32:08,970 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=62585.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 01:32:23,686 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=62606.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 01:32:31,375 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=62618.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 01:32:36,536 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.118e+02 1.591e+02 1.968e+02 2.413e+02 5.184e+02, threshold=3.935e+02, percent-clipped=2.0
2022-11-16 01:32:38,740 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=62629.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 01:32:51,044 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=62646.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 01:33:04,318 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=62666.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 01:33:05,479 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([5.4671, 4.8637, 5.2111, 4.8896, 5.5238, 5.3751, 4.8079, 5.4453],
       device='cuda:1'), covar=tensor([0.0273, 0.0279, 0.0322, 0.0263, 0.0274, 0.0134, 0.0213, 0.0238],
       device='cuda:1'), in_proj_covar=tensor([0.0132, 0.0142, 0.0104, 0.0139, 0.0162, 0.0094, 0.0117, 0.0145],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003],
       device='cuda:1')
2022-11-16 01:33:07,498 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.9321, 3.7456, 3.6437, 3.4044, 2.2147, 3.8964, 2.2388, 3.1841],
       device='cuda:1'), covar=tensor([0.0314, 0.0234, 0.0163, 0.0364, 0.0445, 0.0149, 0.0414, 0.0139],
       device='cuda:1'), in_proj_covar=tensor([0.0184, 0.0159, 0.0169, 0.0188, 0.0181, 0.0170, 0.0179, 0.0170],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
       device='cuda:1')
2022-11-16 01:33:11,145 INFO [train.py:876] (1/4) Epoch 9, batch 4500, loss[loss=0.1442, simple_loss=0.1658, pruned_loss=0.06128, over 5728.00 frames. ], tot_loss[loss=0.1279, simple_loss=0.1508, pruned_loss=0.0525, over 1086201.44 frames. ], batch size: 31, lr: 8.93e-03, grad_scale: 16.0
2022-11-16 01:33:14,553 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.5656, 4.6481, 3.5067, 1.8925, 4.2602, 1.6594, 4.2434, 2.4053],
       device='cuda:1'), covar=tensor([0.1317, 0.0120, 0.0475, 0.2124, 0.0172, 0.1846, 0.0221, 0.1593],
       device='cuda:1'), in_proj_covar=tensor([0.0123, 0.0104, 0.0115, 0.0114, 0.0104, 0.0123, 0.0099, 0.0114],
       device='cuda:1'), out_proj_covar=tensor([0.0005, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004],
       device='cuda:1')
2022-11-16 01:33:44,304 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 9.986e+01 1.583e+02 2.006e+02 2.339e+02 4.798e+02, threshold=4.012e+02, percent-clipped=3.0
2022-11-16 01:33:45,180 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=62727.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 01:33:58,101 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=62747.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 01:34:16,514 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=62773.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 01:34:18,997 INFO [train.py:876] (1/4) Epoch 9, batch 4600, loss[loss=0.1413, simple_loss=0.1672, pruned_loss=0.0577, over 5587.00 frames. ], tot_loss[loss=0.1279, simple_loss=0.1508, pruned_loss=0.05248, over 1091778.58 frames. ], batch size: 16, lr: 8.92e-03, grad_scale: 16.0
2022-11-16 01:34:19,709 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=62778.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 01:34:29,709 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=4.17 vs. limit=5.0
2022-11-16 01:34:43,769 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=1.70 vs. limit=2.0
2022-11-16 01:34:52,258 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 9.537e+01 1.546e+02 1.870e+02 2.337e+02 4.153e+02, threshold=3.740e+02, percent-clipped=1.0
2022-11-16 01:34:52,343 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=62826.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 01:34:57,803 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=62834.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 01:35:22,548 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([4.2965, 4.2009, 4.3519, 4.4680, 4.0804, 3.3757, 4.7942, 4.2229],
       device='cuda:1'), covar=tensor([0.0427, 0.0747, 0.0263, 0.0846, 0.0415, 0.0428, 0.0566, 0.0523],
       device='cuda:1'), in_proj_covar=tensor([0.0084, 0.0104, 0.0090, 0.0115, 0.0085, 0.0075, 0.0144, 0.0096],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0003, 0.0002],
       device='cuda:1')
2022-11-16 01:35:27,132 INFO [train.py:876] (1/4) Epoch 9, batch 4700, loss[loss=0.182, simple_loss=0.184, pruned_loss=0.08996, over 5397.00 frames. ], tot_loss[loss=0.1289, simple_loss=0.1509, pruned_loss=0.05349, over 1087888.24 frames. ], batch size: 70, lr: 8.91e-03, grad_scale: 32.0
2022-11-16 01:35:35,579 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.0656, 3.0880, 2.3531, 1.5494, 2.9907, 1.2091, 2.9902, 1.8723],
       device='cuda:1'), covar=tensor([0.1111, 0.0163, 0.0959, 0.1885, 0.0236, 0.1927, 0.0232, 0.1293],
       device='cuda:1'), in_proj_covar=tensor([0.0122, 0.0104, 0.0114, 0.0114, 0.0104, 0.0122, 0.0098, 0.0113],
       device='cuda:1'), out_proj_covar=tensor([0.0005, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004],
       device='cuda:1')
2022-11-16 01:35:42,714 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=62901.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 01:36:00,631 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.037e+02 1.617e+02 2.054e+02 2.509e+02 4.948e+02, threshold=4.108e+02, percent-clipped=3.0
2022-11-16 01:36:02,078 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=62929.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 01:36:09,997 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=62941.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 01:36:34,656 INFO [train.py:876] (1/4) Epoch 9, batch 4800, loss[loss=0.2282, simple_loss=0.201, pruned_loss=0.1277, over 3176.00 frames. ], tot_loss[loss=0.1314, simple_loss=0.152, pruned_loss=0.05535, over 1081043.69 frames. ], batch size: 284, lr: 8.91e-03, grad_scale: 16.0
2022-11-16 01:36:34,703 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=62977.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 01:37:05,680 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=63022.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 01:37:09,060 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 9.223e+01 1.584e+02 1.833e+02 2.198e+02 5.399e+02, threshold=3.666e+02, percent-clipped=2.0
2022-11-16 01:37:22,491 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=63047.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 01:37:35,650 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.0586, 2.1469, 2.1513, 2.2298, 1.8708, 1.7039, 1.9042, 2.5216],
       device='cuda:1'), covar=tensor([0.1684, 0.1480, 0.2110, 0.1062, 0.1690, 0.1502, 0.1848, 0.0773],
       device='cuda:1'), in_proj_covar=tensor([0.0096, 0.0094, 0.0099, 0.0087, 0.0087, 0.0090, 0.0092, 0.0069],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
       device='cuda:1')
2022-11-16 01:37:42,690 INFO [train.py:876] (1/4) Epoch 9, batch 4900, loss[loss=0.1167, simple_loss=0.1426, pruned_loss=0.04537, over 5568.00 frames. ], tot_loss[loss=0.1322, simple_loss=0.1534, pruned_loss=0.05556, over 1084996.92 frames. ], batch size: 21, lr: 8.90e-03, grad_scale: 16.0
2022-11-16 01:37:54,805 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=63095.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 01:38:04,364 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.93 vs. limit=2.0
2022-11-16 01:38:17,342 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.017e+02 1.788e+02 2.171e+02 2.737e+02 6.659e+02, threshold=4.342e+02, percent-clipped=3.0
2022-11-16 01:38:18,108 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=63129.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 01:38:49,665 INFO [train.py:876] (1/4) Epoch 9, batch 5000, loss[loss=0.106, simple_loss=0.135, pruned_loss=0.03849, over 5526.00 frames. ], tot_loss[loss=0.1309, simple_loss=0.1524, pruned_loss=0.05472, over 1086539.90 frames. ], batch size: 40, lr: 8.89e-03, grad_scale: 8.0
2022-11-16 01:39:05,902 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([4.9080, 4.4912, 4.6934, 4.5693, 5.0068, 4.9224, 4.4009, 5.0049],
       device='cuda:1'), covar=tensor([0.0432, 0.0294, 0.0478, 0.0312, 0.0397, 0.0150, 0.0263, 0.0277],
       device='cuda:1'), in_proj_covar=tensor([0.0129, 0.0136, 0.0102, 0.0134, 0.0158, 0.0090, 0.0115, 0.0140],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0003, 0.0002, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003],
       device='cuda:1')
2022-11-16 01:39:06,636 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=63201.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 01:39:13,788 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.1219, 1.9694, 2.4778, 1.6858, 1.2123, 3.1189, 2.5267, 2.1914],
       device='cuda:1'), covar=tensor([0.0950, 0.1107, 0.0860, 0.2682, 0.2932, 0.1724, 0.2001, 0.1106],
       device='cuda:1'), in_proj_covar=tensor([0.0082, 0.0074, 0.0073, 0.0085, 0.0063, 0.0055, 0.0062, 0.0072],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0001, 0.0002, 0.0002],
       device='cuda:1')
2022-11-16 01:39:15,168 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([4.0419, 2.2591, 3.5507, 2.9903, 3.9377, 2.5262, 3.4260, 4.0891],
       device='cuda:1'), covar=tensor([0.0679, 0.1805, 0.0726, 0.1869, 0.0631, 0.1504, 0.1244, 0.0689],
       device='cuda:1'), in_proj_covar=tensor([0.0231, 0.0191, 0.0204, 0.0205, 0.0226, 0.0191, 0.0224, 0.0222],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004],
       device='cuda:1')
2022-11-16 01:39:19,706 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=63221.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 01:39:23,489 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([4.0208, 4.0984, 3.8638, 3.7809, 4.2090, 3.9926, 1.6492, 4.4282],
       device='cuda:1'), covar=tensor([0.0314, 0.0386, 0.0393, 0.0297, 0.0309, 0.0429, 0.3296, 0.0301],
       device='cuda:1'), in_proj_covar=tensor([0.0102, 0.0081, 0.0084, 0.0076, 0.0099, 0.0084, 0.0128, 0.0105],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
       device='cuda:1')
2022-11-16 01:39:24,000 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 9.228e+01 1.555e+02 1.927e+02 2.355e+02 4.069e+02, threshold=3.855e+02, percent-clipped=0.0
2022-11-16 01:39:32,908 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=63241.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 01:39:34,756 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=1.87 vs. limit=2.0
2022-11-16 01:39:38,706 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=63249.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 01:39:57,148 INFO [train.py:876] (1/4) Epoch 9, batch 5100, loss[loss=0.0921, simple_loss=0.1224, pruned_loss=0.03089, over 5344.00 frames. ], tot_loss[loss=0.1289, simple_loss=0.1513, pruned_loss=0.05323, over 1087238.38 frames. ], batch size: 9, lr: 8.88e-03, grad_scale: 8.0
2022-11-16 01:39:58,582 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.4565, 2.1415, 2.6910, 1.7408, 1.4846, 3.1681, 2.5971, 2.3230],
       device='cuda:1'), covar=tensor([0.1060, 0.1365, 0.1159, 0.2732, 0.2786, 0.2589, 0.1531, 0.1204],
       device='cuda:1'), in_proj_covar=tensor([0.0082, 0.0074, 0.0072, 0.0085, 0.0063, 0.0055, 0.0062, 0.0073],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0001, 0.0002, 0.0002],
       device='cuda:1')
2022-11-16 01:40:00,532 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=63282.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 01:40:04,995 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=63289.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 01:40:22,223 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.20 vs. limit=2.0
2022-11-16 01:40:27,680 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=63322.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 01:40:31,501 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 9.064e+01 1.589e+02 1.945e+02 2.471e+02 3.864e+02, threshold=3.889e+02, percent-clipped=1.0
2022-11-16 01:40:59,520 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=63370.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 01:41:01,730 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.8020, 2.8375, 2.2170, 2.4232, 1.7339, 2.3380, 1.7072, 2.5728],
       device='cuda:1'), covar=tensor([0.1315, 0.0293, 0.0888, 0.0543, 0.1580, 0.0871, 0.1731, 0.0434],
       device='cuda:1'), in_proj_covar=tensor([0.0161, 0.0137, 0.0161, 0.0139, 0.0174, 0.0169, 0.0167, 0.0154],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0003, 0.0004, 0.0003, 0.0004, 0.0004, 0.0004, 0.0003],
       device='cuda:1')
2022-11-16 01:41:04,331 INFO [train.py:876] (1/4) Epoch 9, batch 5200, loss[loss=0.0863, simple_loss=0.1219, pruned_loss=0.02537, over 5125.00 frames. ], tot_loss[loss=0.1288, simple_loss=0.1514, pruned_loss=0.0531, over 1088354.07 frames. ], batch size: 8, lr: 8.88e-03, grad_scale: 8.0
2022-11-16 01:41:33,495 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=63420.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 01:41:34,780 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=63422.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 01:41:38,978 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.008e+02 1.457e+02 1.778e+02 2.243e+02 4.193e+02, threshold=3.556e+02, percent-clipped=1.0
2022-11-16 01:41:39,812 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=63429.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 01:41:54,625 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=2.06 vs. limit=2.0
2022-11-16 01:42:11,805 INFO [train.py:876] (1/4) Epoch 9, batch 5300, loss[loss=0.155, simple_loss=0.1744, pruned_loss=0.06779, over 5638.00 frames. ], tot_loss[loss=0.1287, simple_loss=0.1515, pruned_loss=0.05296, over 1087685.03 frames. ], batch size: 38, lr: 8.87e-03, grad_scale: 8.0
2022-11-16 01:42:11,848 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=63477.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 01:42:14,604 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=63481.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 01:42:16,189 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=63483.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 01:42:46,192 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 8.109e+01 1.553e+02 1.965e+02 2.267e+02 4.174e+02, threshold=3.929e+02, percent-clipped=2.0
2022-11-16 01:42:47,621 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([5.3840, 4.9290, 5.1820, 4.8439, 5.4703, 5.2639, 4.7415, 5.3820],
       device='cuda:1'), covar=tensor([0.0364, 0.0264, 0.0425, 0.0309, 0.0311, 0.0175, 0.0225, 0.0242],
       device='cuda:1'), in_proj_covar=tensor([0.0130, 0.0137, 0.0103, 0.0136, 0.0159, 0.0091, 0.0116, 0.0140],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003],
       device='cuda:1')
2022-11-16 01:43:07,649 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.8505, 2.1618, 3.3314, 3.0016, 3.7041, 2.2471, 3.3343, 3.7916],
       device='cuda:1'), covar=tensor([0.0739, 0.2028, 0.0995, 0.1803, 0.0597, 0.2109, 0.1391, 0.0886],
       device='cuda:1'), in_proj_covar=tensor([0.0232, 0.0194, 0.0206, 0.0208, 0.0229, 0.0191, 0.0225, 0.0223],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004],
       device='cuda:1')
2022-11-16 01:43:12,833 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.8217, 2.2860, 3.3174, 3.0596, 3.4952, 2.2780, 3.2765, 3.6984],
       device='cuda:1'), covar=tensor([0.0578, 0.1559, 0.0815, 0.1361, 0.0670, 0.1614, 0.1097, 0.0803],
       device='cuda:1'), in_proj_covar=tensor([0.0231, 0.0193, 0.0205, 0.0206, 0.0228, 0.0190, 0.0224, 0.0223],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004],
       device='cuda:1')
2022-11-16 01:43:13,468 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=63569.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 01:43:19,365 INFO [train.py:876] (1/4) Epoch 9, batch 5400, loss[loss=0.1799, simple_loss=0.1714, pruned_loss=0.09421, over 4686.00 frames. ], tot_loss[loss=0.1322, simple_loss=0.1535, pruned_loss=0.0555, over 1077859.68 frames. ], batch size: 135, lr: 8.86e-03, grad_scale: 8.0
2022-11-16 01:43:19,452 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=63577.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 01:43:25,748 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=63586.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 01:43:33,572 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.1971, 3.5310, 3.2986, 1.8116, 3.5171, 3.9002, 3.6915, 4.1852],
       device='cuda:1'), covar=tensor([0.1730, 0.0979, 0.0779, 0.2302, 0.0321, 0.0432, 0.0341, 0.0330],
       device='cuda:1'), in_proj_covar=tensor([0.0173, 0.0183, 0.0166, 0.0189, 0.0173, 0.0192, 0.0159, 0.0187],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0003, 0.0004],
       device='cuda:1')
2022-11-16 01:43:55,258 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.021e+02 1.654e+02 2.116e+02 2.560e+02 5.660e+02, threshold=4.233e+02, percent-clipped=4.0
2022-11-16 01:43:56,864 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=63630.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 01:44:04,948 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.6304, 4.7587, 3.1467, 4.4917, 3.6137, 3.2513, 2.6567, 4.1710],
       device='cuda:1'), covar=tensor([0.1347, 0.0203, 0.0958, 0.0268, 0.0505, 0.0865, 0.1659, 0.0253],
       device='cuda:1'), in_proj_covar=tensor([0.0161, 0.0138, 0.0163, 0.0142, 0.0176, 0.0173, 0.0170, 0.0157],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0003, 0.0004, 0.0003, 0.0004, 0.0004, 0.0004, 0.0003],
       device='cuda:1')
2022-11-16 01:44:09,228 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=63647.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 01:44:28,128 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.9171, 4.2970, 3.7684, 4.1458, 4.1874, 3.6327, 3.9114, 3.6365],
       device='cuda:1'), covar=tensor([0.0547, 0.0397, 0.1574, 0.0508, 0.0425, 0.0470, 0.0478, 0.0536],
       device='cuda:1'), in_proj_covar=tensor([0.0131, 0.0169, 0.0267, 0.0169, 0.0210, 0.0168, 0.0182, 0.0168],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0003, 0.0004, 0.0003, 0.0003, 0.0002, 0.0003, 0.0002],
       device='cuda:1')
2022-11-16 01:44:30,044 INFO [train.py:876] (1/4) Epoch 9, batch 5500, loss[loss=0.101, simple_loss=0.1281, pruned_loss=0.03691, over 5705.00 frames. ], tot_loss[loss=0.1304, simple_loss=0.1524, pruned_loss=0.05423, over 1084264.01 frames. ], batch size: 12, lr: 8.86e-03, grad_scale: 8.0
2022-11-16 01:44:50,617 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=2.10 vs. limit=2.0
2022-11-16 01:44:55,465 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([4.0183, 3.6875, 3.8474, 3.6078, 4.0922, 3.5315, 3.7434, 4.0059],
       device='cuda:1'), covar=tensor([0.0361, 0.0372, 0.0431, 0.0380, 0.0360, 0.0622, 0.0364, 0.0407],
       device='cuda:1'), in_proj_covar=tensor([0.0130, 0.0137, 0.0102, 0.0135, 0.0158, 0.0090, 0.0115, 0.0139],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0003, 0.0002, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003],
       device='cuda:1')
2022-11-16 01:45:04,281 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 8.831e+01 1.633e+02 1.870e+02 2.382e+02 5.170e+02, threshold=3.741e+02, percent-clipped=1.0
2022-11-16 01:45:18,470 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.2558, 3.5741, 2.6681, 1.7625, 3.2709, 1.2650, 3.3490, 1.8455],
       device='cuda:1'), covar=tensor([0.1362, 0.0154, 0.0839, 0.1860, 0.0232, 0.2008, 0.0239, 0.1518],
       device='cuda:1'), in_proj_covar=tensor([0.0121, 0.0104, 0.0111, 0.0112, 0.0102, 0.0122, 0.0096, 0.0111],
       device='cuda:1'), out_proj_covar=tensor([0.0005, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004],
       device='cuda:1')
2022-11-16 01:45:36,334 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.0912, 2.3368, 2.3534, 2.1238, 2.3634, 2.3316, 1.0331, 2.4023],
       device='cuda:1'), covar=tensor([0.0406, 0.0330, 0.0372, 0.0394, 0.0370, 0.0347, 0.2613, 0.0422],
       device='cuda:1'), in_proj_covar=tensor([0.0104, 0.0082, 0.0086, 0.0078, 0.0101, 0.0086, 0.0131, 0.0107],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
       device='cuda:1')
2022-11-16 01:45:36,940 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=63776.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 01:45:37,521 INFO [train.py:876] (1/4) Epoch 9, batch 5600, loss[loss=0.1299, simple_loss=0.1447, pruned_loss=0.05753, over 5304.00 frames. ], tot_loss[loss=0.1299, simple_loss=0.1516, pruned_loss=0.05405, over 1080857.35 frames. ], batch size: 79, lr: 8.85e-03, grad_scale: 8.0
2022-11-16 01:45:38,263 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=63778.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 01:46:00,495 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=63810.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 01:46:12,214 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.070e+02 1.664e+02 2.053e+02 2.570e+02 4.903e+02, threshold=4.106e+02, percent-clipped=3.0
2022-11-16 01:46:23,452 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=63845.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 01:46:41,786 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=63871.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 01:46:42,632 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.75 vs. limit=2.0
2022-11-16 01:46:45,509 INFO [train.py:876] (1/4) Epoch 9, batch 5700, loss[loss=0.1219, simple_loss=0.1408, pruned_loss=0.05152, over 5291.00 frames. ], tot_loss[loss=0.1291, simple_loss=0.1513, pruned_loss=0.05346, over 1080896.14 frames. ], batch size: 79, lr: 8.84e-03, grad_scale: 8.0
2022-11-16 01:46:45,630 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=63877.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 01:46:56,062 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.7610, 1.7766, 1.8787, 2.0082, 1.7496, 1.4139, 1.7929, 2.1776],
       device='cuda:1'), covar=tensor([0.1723, 0.1979, 0.2119, 0.1101, 0.1988, 0.2053, 0.1820, 0.0962],
       device='cuda:1'), in_proj_covar=tensor([0.0097, 0.0096, 0.0100, 0.0089, 0.0088, 0.0092, 0.0094, 0.0070],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
       device='cuda:1')
2022-11-16 01:47:05,281 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=63906.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 01:47:12,365 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=63916.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 01:47:18,379 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=63925.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 01:47:18,408 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=63925.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 01:47:20,208 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 8.040e+01 1.586e+02 1.908e+02 2.453e+02 4.306e+02, threshold=3.816e+02, percent-clipped=1.0
2022-11-16 01:47:29,393 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=63942.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 01:47:53,503 INFO [train.py:876] (1/4) Epoch 9, batch 5800, loss[loss=0.1677, simple_loss=0.161, pruned_loss=0.08722, over 4101.00 frames. ], tot_loss[loss=0.1283, simple_loss=0.1509, pruned_loss=0.05292, over 1074717.96 frames. ], batch size: 181, lr: 8.84e-03, grad_scale: 8.0
2022-11-16 01:47:53,661 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=63977.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 01:48:08,708 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.65 vs. limit=2.0
2022-11-16 01:48:25,314 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=64023.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 01:48:28,336 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 9.198e+01 1.501e+02 1.757e+02 2.288e+02 3.552e+02, threshold=3.514e+02, percent-clipped=0.0
2022-11-16 01:48:31,687 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.8383, 3.4651, 3.5949, 3.4852, 3.9248, 3.6680, 3.6619, 3.8391],
       device='cuda:1'), covar=tensor([0.0702, 0.0767, 0.0799, 0.0770, 0.0855, 0.0623, 0.0621, 0.0905],
       device='cuda:1'), in_proj_covar=tensor([0.0129, 0.0137, 0.0101, 0.0134, 0.0160, 0.0090, 0.0115, 0.0139],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0003, 0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0003],
       device='cuda:1')
2022-11-16 01:49:00,486 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=64076.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 01:49:01,354 INFO [train.py:876] (1/4) Epoch 9, batch 5900, loss[loss=0.1064, simple_loss=0.1491, pruned_loss=0.03189, over 5815.00 frames. ], tot_loss[loss=0.1259, simple_loss=0.1493, pruned_loss=0.05124, over 1080955.29 frames. ], batch size: 18, lr: 8.83e-03, grad_scale: 8.0
2022-11-16 01:49:02,119 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=64078.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 01:49:06,061 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=64084.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 01:49:12,075 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.5445, 2.2373, 2.7118, 3.5100, 3.3928, 2.6261, 2.2254, 3.4809],
       device='cuda:1'), covar=tensor([0.0725, 0.2900, 0.1877, 0.2568, 0.1118, 0.2779, 0.2099, 0.0509],
       device='cuda:1'), in_proj_covar=tensor([0.0238, 0.0202, 0.0192, 0.0319, 0.0221, 0.0208, 0.0192, 0.0234],
       device='cuda:1'), out_proj_covar=tensor([0.0005, 0.0005, 0.0005, 0.0006, 0.0005, 0.0005, 0.0005, 0.0005],
       device='cuda:1')
2022-11-16 01:49:19,947 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=1.76 vs. limit=2.0
2022-11-16 01:49:32,760 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=64124.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 01:49:34,399 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=64126.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 01:49:35,640 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 9.966e+01 1.656e+02 2.045e+02 2.527e+02 4.457e+02, threshold=4.090e+02, percent-clipped=4.0
2022-11-16 01:50:00,871 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=64166.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 01:50:08,147 INFO [train.py:876] (1/4) Epoch 9, batch 6000, loss[loss=0.1622, simple_loss=0.1737, pruned_loss=0.07536, over 5465.00 frames. ], tot_loss[loss=0.1254, simple_loss=0.1484, pruned_loss=0.05122, over 1083838.55 frames. ], batch size: 58, lr: 8.82e-03, grad_scale: 8.0
2022-11-16 01:50:08,147 INFO [train.py:899] (1/4) Computing validation loss
2022-11-16 01:50:15,335 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.6144, 1.3653, 1.5183, 0.9549, 2.2110, 1.6959, 1.4172, 1.2749],
       device='cuda:1'), covar=tensor([0.1168, 0.0844, 0.0422, 0.1367, 0.0446, 0.1396, 0.0523, 0.0847],
       device='cuda:1'), in_proj_covar=tensor([0.0012, 0.0018, 0.0013, 0.0016, 0.0014, 0.0012, 0.0017, 0.0012],
       device='cuda:1'), out_proj_covar=tensor([6.3721e-05, 8.6805e-05, 6.5733e-05, 7.7092e-05, 6.9700e-05, 6.4279e-05,
        8.0105e-05, 6.3644e-05], device='cuda:1')
2022-11-16 01:50:25,110 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([5.1202, 4.7736, 5.2627, 4.7777, 4.0536, 4.8409, 5.3835, 5.3732],
       device='cuda:1'), covar=tensor([0.0201, 0.0814, 0.0233, 0.0810, 0.0320, 0.0180, 0.0456, 0.0251],
       device='cuda:1'), in_proj_covar=tensor([0.0083, 0.0105, 0.0089, 0.0115, 0.0084, 0.0075, 0.0140, 0.0097],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0003, 0.0002],
       device='cuda:1')
2022-11-16 01:50:25,850 INFO [train.py:908] (1/4) Epoch 9, validation: loss=0.1648, simple_loss=0.1829, pruned_loss=0.07333, over 1530663.00 frames. 
2022-11-16 01:50:25,850 INFO [train.py:909] (1/4) Maximum memory allocated so far is 4676MB
2022-11-16 01:50:42,278 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=64201.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 01:50:57,917 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=64225.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 01:50:59,713 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 9.067e+01 1.626e+02 1.990e+02 2.309e+02 5.533e+02, threshold=3.980e+02, percent-clipped=3.0
2022-11-16 01:51:02,868 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=64232.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 01:51:10,131 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=64242.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 01:51:29,642 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=1.78 vs. limit=2.0
2022-11-16 01:51:29,851 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=64272.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 01:51:30,476 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=64273.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 01:51:33,035 INFO [train.py:876] (1/4) Epoch 9, batch 6100, loss[loss=0.07777, simple_loss=0.1067, pruned_loss=0.02443, over 5427.00 frames. ], tot_loss[loss=0.1259, simple_loss=0.1492, pruned_loss=0.05126, over 1089658.77 frames. ], batch size: 10, lr: 8.82e-03, grad_scale: 8.0
2022-11-16 01:51:41,909 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=64290.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 01:51:44,147 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=64293.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 01:51:59,042 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([4.6319, 5.3566, 4.7781, 5.2783, 5.3180, 4.4115, 4.7979, 4.6045],
       device='cuda:1'), covar=tensor([0.0238, 0.0387, 0.1488, 0.0379, 0.0422, 0.0420, 0.0366, 0.0316],
       device='cuda:1'), in_proj_covar=tensor([0.0132, 0.0172, 0.0266, 0.0167, 0.0212, 0.0169, 0.0181, 0.0166],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0003, 0.0004, 0.0002, 0.0003, 0.0002, 0.0002, 0.0002],
       device='cuda:1')
2022-11-16 01:52:07,147 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.015e+02 1.572e+02 1.862e+02 2.390e+02 5.405e+02, threshold=3.724e+02, percent-clipped=2.0
2022-11-16 01:52:18,845 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=64345.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 01:52:40,440 INFO [train.py:876] (1/4) Epoch 9, batch 6200, loss[loss=0.1281, simple_loss=0.1514, pruned_loss=0.05239, over 5530.00 frames. ], tot_loss[loss=0.1262, simple_loss=0.1491, pruned_loss=0.05164, over 1081107.02 frames. ], batch size: 14, lr: 8.81e-03, grad_scale: 8.0
2022-11-16 01:52:41,774 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=64379.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 01:52:43,824 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.7412, 2.0486, 2.1926, 2.8207, 2.7765, 2.2517, 1.9306, 2.9123],
       device='cuda:1'), covar=tensor([0.1118, 0.2612, 0.2002, 0.1525, 0.1212, 0.2627, 0.2183, 0.0951],
       device='cuda:1'), in_proj_covar=tensor([0.0233, 0.0199, 0.0191, 0.0310, 0.0220, 0.0204, 0.0192, 0.0232],
       device='cuda:1'), out_proj_covar=tensor([0.0005, 0.0005, 0.0005, 0.0006, 0.0005, 0.0005, 0.0005, 0.0005],
       device='cuda:1')
2022-11-16 01:53:00,240 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=64406.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 01:53:14,907 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.123e+02 1.648e+02 1.944e+02 2.421e+02 4.973e+02, threshold=3.888e+02, percent-clipped=5.0
2022-11-16 01:53:39,863 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=64465.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 01:53:40,801 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=64466.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 01:53:47,175 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.68 vs. limit=2.0
2022-11-16 01:53:48,093 INFO [train.py:876] (1/4) Epoch 9, batch 6300, loss[loss=0.1204, simple_loss=0.1473, pruned_loss=0.04678, over 5715.00 frames. ], tot_loss[loss=0.1274, simple_loss=0.1503, pruned_loss=0.05224, over 1091035.95 frames. ], batch size: 17, lr: 8.80e-03, grad_scale: 8.0
2022-11-16 01:54:03,893 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=64501.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 01:54:12,480 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=64514.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 01:54:17,233 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.5925, 2.3105, 2.5664, 3.5132, 3.4246, 2.6488, 2.2181, 3.6181],
       device='cuda:1'), covar=tensor([0.0661, 0.2609, 0.2114, 0.2763, 0.1107, 0.2783, 0.2230, 0.0632],
       device='cuda:1'), in_proj_covar=tensor([0.0233, 0.0199, 0.0192, 0.0311, 0.0219, 0.0204, 0.0190, 0.0233],
       device='cuda:1'), out_proj_covar=tensor([0.0005, 0.0005, 0.0005, 0.0006, 0.0005, 0.0005, 0.0005, 0.0005],
       device='cuda:1')
2022-11-16 01:54:18,894 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.2497, 2.0681, 2.6960, 1.6157, 1.4137, 3.1064, 2.4924, 2.2783],
       device='cuda:1'), covar=tensor([0.0900, 0.1072, 0.0649, 0.3201, 0.2574, 0.1033, 0.1000, 0.0990],
       device='cuda:1'), in_proj_covar=tensor([0.0085, 0.0076, 0.0075, 0.0088, 0.0066, 0.0055, 0.0064, 0.0074],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0001, 0.0002, 0.0002],
       device='cuda:1')
2022-11-16 01:54:21,628 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=64526.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 01:54:22,699 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.211e+02 1.573e+02 1.938e+02 2.415e+02 6.064e+02, threshold=3.877e+02, percent-clipped=4.0
2022-11-16 01:54:34,563 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.6575, 1.3922, 1.5366, 1.3523, 1.7377, 1.4426, 1.1139, 1.6346],
       device='cuda:1'), covar=tensor([0.0990, 0.1164, 0.1201, 0.1003, 0.1026, 0.1332, 0.2176, 0.1547],
       device='cuda:1'), in_proj_covar=tensor([0.0234, 0.0199, 0.0193, 0.0310, 0.0220, 0.0205, 0.0190, 0.0233],
       device='cuda:1'), out_proj_covar=tensor([0.0005, 0.0005, 0.0005, 0.0006, 0.0005, 0.0005, 0.0005, 0.0005],
       device='cuda:1')
2022-11-16 01:54:36,383 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=64549.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 01:54:52,157 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=64572.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 01:54:55,717 INFO [train.py:876] (1/4) Epoch 9, batch 6400, loss[loss=0.1137, simple_loss=0.1441, pruned_loss=0.04163, over 5680.00 frames. ], tot_loss[loss=0.1268, simple_loss=0.1496, pruned_loss=0.052, over 1087901.59 frames. ], batch size: 19, lr: 8.80e-03, grad_scale: 8.0
2022-11-16 01:55:03,016 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=64588.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 01:55:03,713 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=64589.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 01:55:24,419 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=64620.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 01:55:30,098 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.065e+02 1.639e+02 1.887e+02 2.519e+02 5.774e+02, threshold=3.775e+02, percent-clipped=3.0
2022-11-16 01:55:43,724 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=64648.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 01:55:45,012 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=64650.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 01:56:02,881 INFO [train.py:876] (1/4) Epoch 9, batch 6500, loss[loss=0.1476, simple_loss=0.1632, pruned_loss=0.066, over 5537.00 frames. ], tot_loss[loss=0.1282, simple_loss=0.151, pruned_loss=0.05276, over 1090628.64 frames. ], batch size: 43, lr: 8.79e-03, grad_scale: 8.0
2022-11-16 01:56:04,244 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.0887, 3.7748, 2.5369, 3.5069, 2.8576, 2.6535, 2.0783, 3.2167],
       device='cuda:1'), covar=tensor([0.1561, 0.0284, 0.1185, 0.0375, 0.1074, 0.1086, 0.1912, 0.0524],
       device='cuda:1'), in_proj_covar=tensor([0.0161, 0.0137, 0.0164, 0.0142, 0.0175, 0.0172, 0.0168, 0.0157],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0003, 0.0004, 0.0003, 0.0004, 0.0004, 0.0004, 0.0003],
       device='cuda:1')
2022-11-16 01:56:04,249 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=64679.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 01:56:05,191 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([5.2370, 4.7285, 5.0806, 4.6678, 5.3295, 5.2027, 4.5229, 5.2825],
       device='cuda:1'), covar=tensor([0.0344, 0.0287, 0.0324, 0.0314, 0.0313, 0.0171, 0.0251, 0.0204],
       device='cuda:1'), in_proj_covar=tensor([0.0133, 0.0139, 0.0102, 0.0138, 0.0162, 0.0093, 0.0117, 0.0141],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003],
       device='cuda:1')
2022-11-16 01:56:19,464 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=64701.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 01:56:20,838 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=64703.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 01:56:24,827 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=64709.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 01:56:28,212 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=3.59 vs. limit=5.0
2022-11-16 01:56:34,272 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([4.1903, 2.4652, 3.8797, 3.2730, 4.0610, 2.5284, 3.7613, 4.2087],
       device='cuda:1'), covar=tensor([0.0385, 0.1540, 0.0612, 0.1289, 0.0403, 0.1445, 0.1023, 0.0592],
       device='cuda:1'), in_proj_covar=tensor([0.0233, 0.0192, 0.0205, 0.0206, 0.0229, 0.0192, 0.0222, 0.0224],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004],
       device='cuda:1')
2022-11-16 01:56:36,723 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=64727.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 01:56:37,276 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 9.652e+01 1.582e+02 1.894e+02 2.392e+02 5.037e+02, threshold=3.789e+02, percent-clipped=1.0
2022-11-16 01:56:38,656 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.1063, 3.0429, 2.8381, 3.2025, 3.0013, 2.7646, 3.4824, 3.1046],
       device='cuda:1'), covar=tensor([0.0601, 0.1085, 0.0664, 0.1267, 0.0651, 0.0510, 0.0878, 0.0849],
       device='cuda:1'), in_proj_covar=tensor([0.0084, 0.0105, 0.0089, 0.0115, 0.0085, 0.0075, 0.0140, 0.0098],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0003, 0.0002],
       device='cuda:1')
2022-11-16 01:56:49,594 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=64745.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 01:56:54,287 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=64752.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 01:57:02,048 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=64764.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 01:57:10,222 INFO [train.py:876] (1/4) Epoch 9, batch 6600, loss[loss=0.08146, simple_loss=0.1212, pruned_loss=0.02085, over 5564.00 frames. ], tot_loss[loss=0.1292, simple_loss=0.1515, pruned_loss=0.0535, over 1083577.43 frames. ], batch size: 15, lr: 8.78e-03, grad_scale: 8.0
2022-11-16 01:57:15,833 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([0.8563, 1.5354, 1.1401, 1.1504, 0.9170, 1.7795, 1.3141, 1.0766],
       device='cuda:1'), covar=tensor([0.2754, 0.0850, 0.2658, 0.3051, 0.3071, 0.0534, 0.1741, 0.3064],
       device='cuda:1'), in_proj_covar=tensor([0.0084, 0.0075, 0.0074, 0.0088, 0.0065, 0.0054, 0.0063, 0.0073],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0001, 0.0002, 0.0002],
       device='cuda:1')
2022-11-16 01:57:30,795 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=64806.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 01:57:35,326 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=64813.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 01:57:40,455 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=64821.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 01:57:44,977 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.136e+02 1.581e+02 1.869e+02 2.492e+02 4.006e+02, threshold=3.739e+02, percent-clipped=2.0
2022-11-16 01:58:18,044 INFO [train.py:876] (1/4) Epoch 9, batch 6700, loss[loss=0.127, simple_loss=0.1584, pruned_loss=0.04776, over 5538.00 frames. ], tot_loss[loss=0.1269, simple_loss=0.15, pruned_loss=0.05192, over 1087171.74 frames. ], batch size: 14, lr: 8.77e-03, grad_scale: 8.0
2022-11-16 01:58:25,437 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=64888.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 01:58:52,429 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 9.525e+01 1.574e+02 2.010e+02 2.472e+02 4.884e+02, threshold=4.021e+02, percent-clipped=4.0
2022-11-16 01:58:57,700 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=64936.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 01:59:03,709 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=64945.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 01:59:25,572 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=64976.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 01:59:26,077 INFO [train.py:876] (1/4) Epoch 9, batch 6800, loss[loss=0.1004, simple_loss=0.1425, pruned_loss=0.02918, over 5765.00 frames. ], tot_loss[loss=0.1288, simple_loss=0.1513, pruned_loss=0.05314, over 1086811.89 frames. ], batch size: 20, lr: 8.77e-03, grad_scale: 8.0
2022-11-16 01:59:45,798 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=65001.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 01:59:46,476 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.4246, 5.0283, 3.7962, 2.3926, 4.6995, 2.1262, 4.8850, 2.7806],
       device='cuda:1'), covar=tensor([0.0936, 0.0098, 0.0371, 0.2083, 0.0129, 0.1752, 0.0106, 0.1515],
       device='cuda:1'), in_proj_covar=tensor([0.0120, 0.0102, 0.0113, 0.0111, 0.0101, 0.0121, 0.0098, 0.0111],
       device='cuda:1'), out_proj_covar=tensor([0.0005, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004],
       device='cuda:1')
2022-11-16 01:59:48,097 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=65004.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 01:59:58,314 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.4175, 1.2803, 1.3925, 1.0926, 1.2012, 1.5120, 1.1429, 0.8711],
       device='cuda:1'), covar=tensor([0.0024, 0.0033, 0.0037, 0.0048, 0.0038, 0.0025, 0.0036, 0.0048],
       device='cuda:1'), in_proj_covar=tensor([0.0023, 0.0023, 0.0024, 0.0031, 0.0026, 0.0025, 0.0029, 0.0029],
       device='cuda:1'), out_proj_covar=tensor([2.1486e-05, 2.1814e-05, 2.2218e-05, 3.0765e-05, 2.4904e-05, 2.4107e-05,
        2.8489e-05, 2.8532e-05], device='cuda:1')
2022-11-16 02:00:04,567 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.135e+02 1.642e+02 2.032e+02 2.678e+02 4.129e+02, threshold=4.063e+02, percent-clipped=1.0
2022-11-16 02:00:09,662 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.96 vs. limit=2.0
2022-11-16 02:00:10,612 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=65037.0, num_to_drop=1, layers_to_drop={3}
2022-11-16 02:00:15,916 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.9463, 1.9052, 2.2939, 2.1511, 1.2935, 2.0824, 1.5328, 1.7217],
       device='cuda:1'), covar=tensor([0.0187, 0.0098, 0.0093, 0.0130, 0.0276, 0.0108, 0.0248, 0.0162],
       device='cuda:1'), in_proj_covar=tensor([0.0187, 0.0165, 0.0173, 0.0197, 0.0184, 0.0171, 0.0184, 0.0174],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
       device='cuda:1')
2022-11-16 02:00:17,162 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.2068, 1.6025, 1.0860, 1.0343, 1.1271, 1.6397, 1.6022, 1.5555],
       device='cuda:1'), covar=tensor([0.1061, 0.0656, 0.1683, 0.2026, 0.1204, 0.0721, 0.0683, 0.1326],
       device='cuda:1'), in_proj_covar=tensor([0.0169, 0.0180, 0.0164, 0.0185, 0.0173, 0.0191, 0.0158, 0.0185],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0004, 0.0003, 0.0004, 0.0004, 0.0004, 0.0003, 0.0004],
       device='cuda:1')
2022-11-16 02:00:18,371 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=65049.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 02:00:19,725 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.6124, 4.0180, 3.6061, 3.9402, 4.0119, 3.3483, 3.6133, 3.4291],
       device='cuda:1'), covar=tensor([0.0698, 0.0417, 0.1344, 0.0507, 0.0415, 0.0525, 0.0634, 0.0499],
       device='cuda:1'), in_proj_covar=tensor([0.0134, 0.0174, 0.0271, 0.0170, 0.0214, 0.0172, 0.0183, 0.0169],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0003, 0.0004, 0.0003, 0.0003, 0.0002, 0.0003, 0.0002],
       device='cuda:1')
2022-11-16 02:00:22,397 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=65055.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 02:00:25,196 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=65059.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 02:00:34,761 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=1.86 vs. limit=2.0
2022-11-16 02:00:37,934 INFO [train.py:876] (1/4) Epoch 9, batch 6900, loss[loss=0.1485, simple_loss=0.1732, pruned_loss=0.06194, over 5543.00 frames. ], tot_loss[loss=0.1313, simple_loss=0.1525, pruned_loss=0.05499, over 1080836.73 frames. ], batch size: 40, lr: 8.76e-03, grad_scale: 8.0
2022-11-16 02:00:53,890 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=65101.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 02:00:58,446 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=65108.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 02:01:04,195 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=65116.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 02:01:07,816 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=65121.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 02:01:12,980 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.038e+02 1.555e+02 1.818e+02 2.213e+02 4.720e+02, threshold=3.636e+02, percent-clipped=2.0
2022-11-16 02:01:40,198 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=65169.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 02:01:45,807 INFO [train.py:876] (1/4) Epoch 9, batch 7000, loss[loss=0.1539, simple_loss=0.1715, pruned_loss=0.06816, over 5555.00 frames. ], tot_loss[loss=0.1296, simple_loss=0.1516, pruned_loss=0.05385, over 1082116.27 frames. ], batch size: 40, lr: 8.75e-03, grad_scale: 16.0
2022-11-16 02:02:17,159 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=1.80 vs. limit=2.0
2022-11-16 02:02:19,940 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.109e+02 1.702e+02 2.050e+02 2.485e+02 3.887e+02, threshold=4.100e+02, percent-clipped=2.0
2022-11-16 02:02:22,389 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=4.44 vs. limit=5.0
2022-11-16 02:02:30,475 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=4.82 vs. limit=5.0
2022-11-16 02:02:32,218 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=65245.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 02:02:47,689 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.62 vs. limit=2.0
2022-11-16 02:02:53,102 INFO [train.py:876] (1/4) Epoch 9, batch 7100, loss[loss=0.1051, simple_loss=0.1322, pruned_loss=0.039, over 5703.00 frames. ], tot_loss[loss=0.1284, simple_loss=0.151, pruned_loss=0.05291, over 1088510.48 frames. ], batch size: 11, lr: 8.75e-03, grad_scale: 16.0
2022-11-16 02:02:54,874 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.5716, 2.5936, 2.2558, 2.6887, 2.0983, 2.1169, 2.1798, 2.9173],
       device='cuda:1'), covar=tensor([0.1327, 0.1657, 0.2620, 0.1480, 0.2144, 0.1447, 0.2115, 0.2665],
       device='cuda:1'), in_proj_covar=tensor([0.0097, 0.0097, 0.0101, 0.0091, 0.0087, 0.0092, 0.0095, 0.0071],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
       device='cuda:1')
2022-11-16 02:02:58,809 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=65285.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 02:03:04,607 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=65293.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 02:03:12,358 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=65304.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 02:03:28,151 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 8.907e+01 1.625e+02 1.964e+02 2.489e+02 4.704e+02, threshold=3.927e+02, percent-clipped=1.0
2022-11-16 02:03:31,217 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=65332.0, num_to_drop=1, layers_to_drop={3}
2022-11-16 02:03:41,026 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=65346.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 02:03:45,049 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=65352.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 02:03:49,611 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=65359.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 02:04:01,553 INFO [train.py:876] (1/4) Epoch 9, batch 7200, loss[loss=0.1014, simple_loss=0.1311, pruned_loss=0.0358, over 5514.00 frames. ], tot_loss[loss=0.1289, simple_loss=0.1515, pruned_loss=0.0532, over 1083078.00 frames. ], batch size: 17, lr: 8.74e-03, grad_scale: 16.0
2022-11-16 02:04:18,231 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=65401.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 02:04:22,061 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=65407.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 02:04:22,782 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=65408.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 02:04:24,630 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=65411.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 02:04:35,328 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 9.623e+01 1.548e+02 1.861e+02 2.163e+02 4.412e+02, threshold=3.722e+02, percent-clipped=1.0
2022-11-16 02:05:33,806 INFO [train.py:876] (1/4) Epoch 10, batch 0, loss[loss=0.1195, simple_loss=0.1541, pruned_loss=0.04244, over 5561.00 frames. ], tot_loss[loss=0.1195, simple_loss=0.1541, pruned_loss=0.04244, over 5561.00 frames. ], batch size: 13, lr: 8.31e-03, grad_scale: 16.0
2022-11-16 02:05:33,806 INFO [train.py:899] (1/4) Computing validation loss
2022-11-16 02:05:40,386 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.9382, 1.3294, 1.7976, 1.2956, 1.6008, 2.0319, 1.5513, 1.3702],
       device='cuda:1'), covar=tensor([0.0023, 0.0120, 0.0049, 0.0055, 0.0047, 0.0026, 0.0040, 0.0055],
       device='cuda:1'), in_proj_covar=tensor([0.0023, 0.0023, 0.0024, 0.0030, 0.0026, 0.0024, 0.0029, 0.0028],
       device='cuda:1'), out_proj_covar=tensor([2.1427e-05, 2.1643e-05, 2.1729e-05, 2.9859e-05, 2.4173e-05, 2.3394e-05,
        2.7580e-05, 2.8184e-05], device='cuda:1')
2022-11-16 02:05:42,477 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([4.8596, 4.5996, 4.4398, 4.6623, 4.9429, 4.8093, 4.5998, 4.9720],
       device='cuda:1'), covar=tensor([0.0339, 0.0337, 0.0492, 0.0382, 0.0308, 0.0204, 0.0191, 0.0254],
       device='cuda:1'), in_proj_covar=tensor([0.0131, 0.0139, 0.0104, 0.0137, 0.0161, 0.0092, 0.0116, 0.0140],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003],
       device='cuda:1')
2022-11-16 02:05:50,439 INFO [train.py:908] (1/4) Epoch 10, validation: loss=0.1665, simple_loss=0.1839, pruned_loss=0.07458, over 1530663.00 frames. 
2022-11-16 02:05:50,440 INFO [train.py:909] (1/4) Maximum memory allocated so far is 4676MB
2022-11-16 02:05:50,496 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=65449.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 02:05:55,444 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=65456.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 02:06:11,229 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.8908, 2.4427, 2.9873, 3.8537, 3.7995, 2.8821, 3.0589, 3.8661],
       device='cuda:1'), covar=tensor([0.0894, 0.3271, 0.2398, 0.3070, 0.1448, 0.3339, 0.1794, 0.0694],
       device='cuda:1'), in_proj_covar=tensor([0.0239, 0.0204, 0.0197, 0.0316, 0.0225, 0.0210, 0.0193, 0.0238],
       device='cuda:1'), out_proj_covar=tensor([0.0005, 0.0005, 0.0005, 0.0006, 0.0005, 0.0005, 0.0005, 0.0005],
       device='cuda:1')
2022-11-16 02:06:12,015 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=3.58 vs. limit=5.0
2022-11-16 02:06:43,804 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 8.371e+01 1.569e+02 1.978e+02 2.490e+02 6.089e+02, threshold=3.956e+02, percent-clipped=4.0
2022-11-16 02:06:46,656 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=65532.0, num_to_drop=1, layers_to_drop={1}
2022-11-16 02:06:57,654 INFO [train.py:876] (1/4) Epoch 10, batch 100, loss[loss=0.1281, simple_loss=0.1475, pruned_loss=0.05434, over 5658.00 frames. ], tot_loss[loss=0.1308, simple_loss=0.1524, pruned_loss=0.05464, over 426441.13 frames. ], batch size: 34, lr: 8.30e-03, grad_scale: 16.0
2022-11-16 02:07:27,703 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=65593.0, num_to_drop=1, layers_to_drop={1}
2022-11-16 02:07:51,874 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 9.404e+01 1.672e+02 2.008e+02 2.472e+02 6.251e+02, threshold=4.017e+02, percent-clipped=3.0
2022-11-16 02:07:54,629 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=65632.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 02:08:00,531 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=65641.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 02:08:05,592 INFO [train.py:876] (1/4) Epoch 10, batch 200, loss[loss=0.1235, simple_loss=0.1549, pruned_loss=0.04602, over 5518.00 frames. ], tot_loss[loss=0.1253, simple_loss=0.1492, pruned_loss=0.05065, over 685624.98 frames. ], batch size: 17, lr: 8.30e-03, grad_scale: 16.0
2022-11-16 02:08:06,383 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.8764, 5.0313, 3.2399, 4.7012, 3.7190, 3.6103, 3.0868, 4.4110],
       device='cuda:1'), covar=tensor([0.1448, 0.0177, 0.1103, 0.0216, 0.0584, 0.0852, 0.1645, 0.0264],
       device='cuda:1'), in_proj_covar=tensor([0.0160, 0.0140, 0.0160, 0.0141, 0.0174, 0.0172, 0.0169, 0.0157],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0003, 0.0004, 0.0003, 0.0004, 0.0004, 0.0004, 0.0003],
       device='cuda:1')
2022-11-16 02:08:12,184 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.7343, 1.9051, 2.2605, 1.4480, 0.8841, 2.7165, 2.0611, 1.8709],
       device='cuda:1'), covar=tensor([0.1111, 0.1032, 0.0951, 0.2868, 0.2138, 0.0929, 0.1780, 0.1180],
       device='cuda:1'), in_proj_covar=tensor([0.0087, 0.0077, 0.0077, 0.0091, 0.0066, 0.0055, 0.0065, 0.0077],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0001, 0.0002, 0.0002],
       device='cuda:1')
2022-11-16 02:08:26,066 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=65680.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 02:08:47,440 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=65711.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 02:08:56,487 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.4407, 4.0029, 2.7578, 3.5951, 3.0068, 2.9544, 2.1335, 3.3416],
       device='cuda:1'), covar=tensor([0.1284, 0.0242, 0.1004, 0.0397, 0.1027, 0.0847, 0.1917, 0.0480],
       device='cuda:1'), in_proj_covar=tensor([0.0160, 0.0140, 0.0160, 0.0142, 0.0174, 0.0173, 0.0169, 0.0158],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0003, 0.0004, 0.0003, 0.0004, 0.0004, 0.0004, 0.0003],
       device='cuda:1')
2022-11-16 02:08:58,246 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 9.788e+01 1.559e+02 1.915e+02 2.411e+02 5.348e+02, threshold=3.830e+02, percent-clipped=2.0
2022-11-16 02:09:12,467 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.2919, 3.7650, 3.3938, 3.7928, 3.7875, 3.2737, 3.3984, 3.2648],
       device='cuda:1'), covar=tensor([0.1269, 0.0499, 0.1506, 0.0458, 0.0459, 0.0490, 0.0649, 0.0622],
       device='cuda:1'), in_proj_covar=tensor([0.0129, 0.0168, 0.0267, 0.0165, 0.0208, 0.0166, 0.0177, 0.0166],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0004, 0.0002, 0.0003, 0.0002, 0.0002, 0.0002],
       device='cuda:1')
2022-11-16 02:09:12,969 INFO [train.py:876] (1/4) Epoch 10, batch 300, loss[loss=0.1803, simple_loss=0.1855, pruned_loss=0.08758, over 5555.00 frames. ], tot_loss[loss=0.1266, simple_loss=0.1488, pruned_loss=0.05218, over 837109.08 frames. ], batch size: 40, lr: 8.29e-03, grad_scale: 16.0
2022-11-16 02:09:19,521 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=65759.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 02:09:25,255 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=1.91 vs. limit=2.0
2022-11-16 02:09:26,404 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([4.0890, 2.1621, 3.5716, 2.9164, 3.9715, 2.1922, 3.3687, 4.0064],
       device='cuda:1'), covar=tensor([0.0646, 0.2425, 0.0921, 0.1894, 0.0532, 0.2094, 0.1458, 0.0867],
       device='cuda:1'), in_proj_covar=tensor([0.0234, 0.0194, 0.0209, 0.0207, 0.0229, 0.0191, 0.0225, 0.0228],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004],
       device='cuda:1')
2022-11-16 02:10:05,914 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 8.600e+01 1.581e+02 1.964e+02 2.494e+02 5.554e+02, threshold=3.929e+02, percent-clipped=0.0
2022-11-16 02:10:10,125 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.33 vs. limit=2.0
2022-11-16 02:10:12,711 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=65838.0, num_to_drop=1, layers_to_drop={0}
2022-11-16 02:10:20,645 INFO [train.py:876] (1/4) Epoch 10, batch 400, loss[loss=0.1296, simple_loss=0.1544, pruned_loss=0.05242, over 5577.00 frames. ], tot_loss[loss=0.1249, simple_loss=0.1485, pruned_loss=0.05062, over 939568.73 frames. ], batch size: 43, lr: 8.28e-03, grad_scale: 16.0
2022-11-16 02:10:29,749 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.76 vs. limit=2.0
2022-11-16 02:10:46,442 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=65888.0, num_to_drop=1, layers_to_drop={1}
2022-11-16 02:10:53,784 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=65899.0, num_to_drop=1, layers_to_drop={2}
2022-11-16 02:11:13,626 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=3.56 vs. limit=5.0
2022-11-16 02:11:13,838 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 9.863e+01 1.601e+02 1.999e+02 2.596e+02 7.493e+02, threshold=3.998e+02, percent-clipped=4.0
2022-11-16 02:11:14,024 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.4212, 2.6356, 2.3035, 2.6996, 2.0877, 2.2260, 2.6175, 3.1472],
       device='cuda:1'), covar=tensor([0.1165, 0.1253, 0.2344, 0.1591, 0.1673, 0.1290, 0.1648, 0.1196],
       device='cuda:1'), in_proj_covar=tensor([0.0099, 0.0097, 0.0101, 0.0092, 0.0088, 0.0094, 0.0095, 0.0072],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
       device='cuda:1')
2022-11-16 02:11:22,470 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=65941.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 02:11:27,626 INFO [train.py:876] (1/4) Epoch 10, batch 500, loss[loss=0.1256, simple_loss=0.1512, pruned_loss=0.04999, over 5684.00 frames. ], tot_loss[loss=0.1243, simple_loss=0.1484, pruned_loss=0.05012, over 1001419.04 frames. ], batch size: 19, lr: 8.28e-03, grad_scale: 16.0
2022-11-16 02:11:35,703 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.29 vs. limit=2.0
2022-11-16 02:11:49,417 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.2539, 1.9524, 2.6681, 1.4331, 1.0955, 3.2317, 2.4666, 2.0772],
       device='cuda:1'), covar=tensor([0.1003, 0.1600, 0.0705, 0.2915, 0.3149, 0.0397, 0.1591, 0.1390],
       device='cuda:1'), in_proj_covar=tensor([0.0086, 0.0078, 0.0077, 0.0090, 0.0067, 0.0054, 0.0065, 0.0077],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0001, 0.0002, 0.0002],
       device='cuda:1')
2022-11-16 02:11:55,177 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=65989.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 02:12:21,980 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 8.783e+01 1.631e+02 2.001e+02 2.434e+02 4.617e+02, threshold=4.002e+02, percent-clipped=2.0
2022-11-16 02:12:35,745 INFO [train.py:876] (1/4) Epoch 10, batch 600, loss[loss=0.0766, simple_loss=0.1058, pruned_loss=0.02368, over 5223.00 frames. ], tot_loss[loss=0.1254, simple_loss=0.1494, pruned_loss=0.05072, over 1032368.10 frames. ], batch size: 8, lr: 8.27e-03, grad_scale: 16.0
2022-11-16 02:12:38,447 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.0028, 1.6064, 1.1504, 1.0002, 1.0430, 0.8446, 1.2696, 1.4392],
       device='cuda:1'), covar=tensor([0.0069, 0.0040, 0.0062, 0.0057, 0.0052, 0.0053, 0.0061, 0.0042],
       device='cuda:1'), in_proj_covar=tensor([0.0052, 0.0046, 0.0048, 0.0049, 0.0048, 0.0044, 0.0045, 0.0041],
       device='cuda:1'), out_proj_covar=tensor([4.7093e-05, 4.2109e-05, 4.3404e-05, 4.4699e-05, 4.2507e-05, 3.7960e-05,
        4.1191e-05, 3.5779e-05], device='cuda:1')
2022-11-16 02:12:49,812 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([4.7519, 4.8252, 4.8544, 4.8952, 4.5816, 4.4399, 5.4753, 4.8384],
       device='cuda:1'), covar=tensor([0.0482, 0.0898, 0.0320, 0.1051, 0.0404, 0.0322, 0.0629, 0.0669],
       device='cuda:1'), in_proj_covar=tensor([0.0086, 0.0106, 0.0090, 0.0115, 0.0085, 0.0076, 0.0142, 0.0099],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0003, 0.0002],
       device='cuda:1')
2022-11-16 02:13:23,981 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([5.2988, 5.0682, 5.5450, 5.2957, 5.0827, 5.1194, 6.0083, 5.3871],
       device='cuda:1'), covar=tensor([0.0341, 0.0926, 0.0279, 0.1244, 0.0213, 0.0175, 0.0475, 0.0422],
       device='cuda:1'), in_proj_covar=tensor([0.0085, 0.0105, 0.0089, 0.0114, 0.0084, 0.0075, 0.0141, 0.0099],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0003, 0.0002],
       device='cuda:1')
2022-11-16 02:13:27,937 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 8.503e+01 1.627e+02 2.016e+02 2.685e+02 4.936e+02, threshold=4.031e+02, percent-clipped=2.0
2022-11-16 02:13:39,969 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=66144.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 02:13:43,119 INFO [train.py:876] (1/4) Epoch 10, batch 700, loss[loss=0.121, simple_loss=0.1548, pruned_loss=0.04362, over 5733.00 frames. ], tot_loss[loss=0.1238, simple_loss=0.1485, pruned_loss=0.04957, over 1055381.14 frames. ], batch size: 27, lr: 8.26e-03, grad_scale: 16.0
2022-11-16 02:13:46,608 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=2.03 vs. limit=2.0
2022-11-16 02:13:50,242 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=66160.0, num_to_drop=1, layers_to_drop={1}
2022-11-16 02:14:08,604 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=66188.0, num_to_drop=1, layers_to_drop={1}
2022-11-16 02:14:12,742 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=66194.0, num_to_drop=1, layers_to_drop={1}
2022-11-16 02:14:21,180 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=66205.0, num_to_drop=1, layers_to_drop={2}
2022-11-16 02:14:25,074 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([4.3468, 4.9009, 4.5322, 4.9699, 4.9119, 4.0292, 4.7448, 4.3328],
       device='cuda:1'), covar=tensor([0.0287, 0.0416, 0.1078, 0.0363, 0.0420, 0.0510, 0.0345, 0.0409],
       device='cuda:1'), in_proj_covar=tensor([0.0130, 0.0173, 0.0269, 0.0167, 0.0212, 0.0170, 0.0181, 0.0168],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0003, 0.0004, 0.0002, 0.0003, 0.0002, 0.0003, 0.0002],
       device='cuda:1')
2022-11-16 02:14:31,678 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=66221.0, num_to_drop=1, layers_to_drop={0}
2022-11-16 02:14:35,978 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 9.700e+01 1.569e+02 1.911e+02 2.505e+02 4.164e+02, threshold=3.822e+02, percent-clipped=1.0
2022-11-16 02:14:41,291 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=66236.0, num_to_drop=1, layers_to_drop={0}
2022-11-16 02:14:50,396 INFO [train.py:876] (1/4) Epoch 10, batch 800, loss[loss=0.122, simple_loss=0.1615, pruned_loss=0.04126, over 5544.00 frames. ], tot_loss[loss=0.1263, simple_loss=0.1501, pruned_loss=0.05124, over 1067650.75 frames. ], batch size: 15, lr: 8.26e-03, grad_scale: 16.0
2022-11-16 02:14:57,073 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=66258.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 02:15:38,166 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=66319.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 02:15:43,767 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.006e+02 1.565e+02 1.875e+02 2.256e+02 4.217e+02, threshold=3.749e+02, percent-clipped=3.0
2022-11-16 02:15:57,483 INFO [train.py:876] (1/4) Epoch 10, batch 900, loss[loss=0.1435, simple_loss=0.1513, pruned_loss=0.06788, over 5470.00 frames. ], tot_loss[loss=0.1275, simple_loss=0.1503, pruned_loss=0.05237, over 1069003.60 frames. ], batch size: 53, lr: 8.25e-03, grad_scale: 16.0
2022-11-16 02:16:11,907 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([5.2419, 4.8118, 5.1033, 4.8400, 5.3495, 5.2488, 4.5980, 5.3452],
       device='cuda:1'), covar=tensor([0.0418, 0.0260, 0.0412, 0.0272, 0.0383, 0.0167, 0.0237, 0.0224],
       device='cuda:1'), in_proj_covar=tensor([0.0134, 0.0143, 0.0104, 0.0139, 0.0164, 0.0094, 0.0117, 0.0142],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003],
       device='cuda:1')
2022-11-16 02:16:51,652 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.310e+02 1.944e+02 2.274e+02 2.934e+02 5.796e+02, threshold=4.548e+02, percent-clipped=10.0
2022-11-16 02:16:59,775 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.9624, 2.5047, 3.3948, 2.8670, 3.8449, 2.4511, 3.4284, 3.9192],
       device='cuda:1'), covar=tensor([0.0710, 0.1587, 0.1078, 0.1790, 0.0454, 0.1728, 0.1286, 0.0968],
       device='cuda:1'), in_proj_covar=tensor([0.0232, 0.0189, 0.0207, 0.0205, 0.0226, 0.0191, 0.0222, 0.0226],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004],
       device='cuda:1')
2022-11-16 02:17:05,482 INFO [train.py:876] (1/4) Epoch 10, batch 1000, loss[loss=0.1212, simple_loss=0.1489, pruned_loss=0.04673, over 5566.00 frames. ], tot_loss[loss=0.1268, simple_loss=0.1506, pruned_loss=0.05155, over 1078510.22 frames. ], batch size: 40, lr: 8.25e-03, grad_scale: 16.0
2022-11-16 02:17:13,701 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=2.03 vs. limit=2.0
2022-11-16 02:17:35,843 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([4.1489, 4.4989, 4.0846, 4.5956, 4.5744, 3.7329, 4.1593, 3.7645],
       device='cuda:1'), covar=tensor([0.0421, 0.0561, 0.1409, 0.0353, 0.0358, 0.0400, 0.0475, 0.0555],
       device='cuda:1'), in_proj_covar=tensor([0.0129, 0.0171, 0.0269, 0.0165, 0.0210, 0.0168, 0.0180, 0.0166],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0003, 0.0004, 0.0002, 0.0003, 0.0002, 0.0002, 0.0002],
       device='cuda:1')
2022-11-16 02:17:35,886 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=66494.0, num_to_drop=1, layers_to_drop={2}
2022-11-16 02:17:39,661 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=66500.0, num_to_drop=1, layers_to_drop={2}
2022-11-16 02:17:50,083 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=66516.0, num_to_drop=1, layers_to_drop={2}
2022-11-16 02:17:53,488 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=66521.0, num_to_drop=1, layers_to_drop={0}
2022-11-16 02:17:58,495 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 9.268e+01 1.607e+02 1.990e+02 2.689e+02 6.236e+02, threshold=3.979e+02, percent-clipped=3.0
2022-11-16 02:18:08,455 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=66542.0, num_to_drop=1, layers_to_drop={0}
2022-11-16 02:18:13,074 INFO [train.py:876] (1/4) Epoch 10, batch 1100, loss[loss=0.0869, simple_loss=0.1302, pruned_loss=0.02182, over 5549.00 frames. ], tot_loss[loss=0.1269, simple_loss=0.1505, pruned_loss=0.05163, over 1078935.03 frames. ], batch size: 15, lr: 8.24e-03, grad_scale: 16.0
2022-11-16 02:18:17,053 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.0313, 1.5386, 2.0195, 1.4847, 1.3335, 1.9116, 1.7570, 1.5019],
       device='cuda:1'), covar=tensor([0.0051, 0.0103, 0.0029, 0.0045, 0.0148, 0.0056, 0.0030, 0.0038],
       device='cuda:1'), in_proj_covar=tensor([0.0023, 0.0022, 0.0023, 0.0031, 0.0026, 0.0024, 0.0029, 0.0028],
       device='cuda:1'), out_proj_covar=tensor([2.1664e-05, 2.1240e-05, 2.1064e-05, 2.9903e-05, 2.3998e-05, 2.3314e-05,
        2.7591e-05, 2.7784e-05], device='cuda:1')
2022-11-16 02:18:28,475 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.9073, 1.3631, 1.7595, 1.3184, 1.2697, 1.7207, 1.4018, 1.4243],
       device='cuda:1'), covar=tensor([0.0028, 0.0062, 0.0028, 0.0042, 0.0062, 0.0053, 0.0037, 0.0038],
       device='cuda:1'), in_proj_covar=tensor([0.0024, 0.0022, 0.0023, 0.0031, 0.0026, 0.0024, 0.0029, 0.0028],
       device='cuda:1'), out_proj_covar=tensor([2.1771e-05, 2.1359e-05, 2.1163e-05, 2.9968e-05, 2.4121e-05, 2.3445e-05,
        2.7815e-05, 2.8044e-05], device='cuda:1')
2022-11-16 02:18:35,125 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=66582.0, num_to_drop=1, layers_to_drop={1}
2022-11-16 02:18:56,849 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=66614.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 02:19:05,751 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 9.897e+01 1.663e+02 2.010e+02 2.428e+02 5.298e+02, threshold=4.020e+02, percent-clipped=1.0
2022-11-16 02:19:20,777 INFO [train.py:876] (1/4) Epoch 10, batch 1200, loss[loss=0.1502, simple_loss=0.1508, pruned_loss=0.07484, over 4165.00 frames. ], tot_loss[loss=0.1246, simple_loss=0.1485, pruned_loss=0.05034, over 1080001.78 frames. ], batch size: 183, lr: 8.23e-03, grad_scale: 16.0
2022-11-16 02:19:22,834 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.4128, 3.9167, 2.9337, 1.9130, 3.7074, 1.3690, 3.5550, 1.9162],
       device='cuda:1'), covar=tensor([0.1270, 0.0150, 0.0873, 0.1891, 0.0214, 0.2001, 0.0253, 0.1588],
       device='cuda:1'), in_proj_covar=tensor([0.0121, 0.0103, 0.0113, 0.0111, 0.0101, 0.0121, 0.0099, 0.0111],
       device='cuda:1'), out_proj_covar=tensor([0.0005, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004],
       device='cuda:1')
2022-11-16 02:19:38,928 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.4856, 3.9293, 3.4902, 3.8824, 3.8862, 3.3347, 3.5148, 3.2200],
       device='cuda:1'), covar=tensor([0.0729, 0.0375, 0.1377, 0.0414, 0.0459, 0.0461, 0.0538, 0.0678],
       device='cuda:1'), in_proj_covar=tensor([0.0128, 0.0168, 0.0267, 0.0165, 0.0210, 0.0168, 0.0182, 0.0167],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0004, 0.0002, 0.0003, 0.0002, 0.0003, 0.0002],
       device='cuda:1')
2022-11-16 02:19:44,502 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.90 vs. limit=2.0
2022-11-16 02:20:13,040 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.003e+02 1.536e+02 1.899e+02 2.389e+02 5.504e+02, threshold=3.797e+02, percent-clipped=2.0
2022-11-16 02:20:15,172 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=66731.0, num_to_drop=1, layers_to_drop={0}
2022-11-16 02:20:27,600 INFO [train.py:876] (1/4) Epoch 10, batch 1300, loss[loss=0.1409, simple_loss=0.1649, pruned_loss=0.0584, over 5600.00 frames. ], tot_loss[loss=0.1264, simple_loss=0.1499, pruned_loss=0.05143, over 1081692.77 frames. ], batch size: 18, lr: 8.23e-03, grad_scale: 16.0
2022-11-16 02:20:56,010 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=66792.0, num_to_drop=1, layers_to_drop={2}
2022-11-16 02:21:00,190 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.7170, 1.6175, 1.7371, 1.0863, 1.3601, 1.5200, 1.3111, 1.0419],
       device='cuda:1'), covar=tensor([0.0054, 0.0041, 0.0024, 0.0045, 0.0063, 0.0077, 0.0036, 0.0046],
       device='cuda:1'), in_proj_covar=tensor([0.0023, 0.0022, 0.0023, 0.0030, 0.0026, 0.0024, 0.0028, 0.0028],
       device='cuda:1'), out_proj_covar=tensor([2.1396e-05, 2.1342e-05, 2.1118e-05, 2.9643e-05, 2.4021e-05, 2.3138e-05,
        2.7531e-05, 2.7920e-05], device='cuda:1')
2022-11-16 02:21:01,746 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=66800.0, num_to_drop=1, layers_to_drop={0}
2022-11-16 02:21:13,037 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=66816.0, num_to_drop=1, layers_to_drop={2}
2022-11-16 02:21:20,621 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.135e+02 1.546e+02 1.789e+02 2.414e+02 5.527e+02, threshold=3.579e+02, percent-clipped=2.0
2022-11-16 02:21:29,564 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.76 vs. limit=2.0
2022-11-16 02:21:33,580 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=66848.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 02:21:34,166 INFO [train.py:876] (1/4) Epoch 10, batch 1400, loss[loss=0.08415, simple_loss=0.1207, pruned_loss=0.02378, over 5472.00 frames. ], tot_loss[loss=0.1242, simple_loss=0.1479, pruned_loss=0.05021, over 1078389.07 frames. ], batch size: 12, lr: 8.22e-03, grad_scale: 16.0
2022-11-16 02:21:44,991 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=66864.0, num_to_drop=1, layers_to_drop={1}
2022-11-16 02:21:53,526 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=66877.0, num_to_drop=1, layers_to_drop={2}
2022-11-16 02:22:02,592 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.8423, 5.0262, 3.1287, 4.5644, 3.7904, 3.2947, 2.7656, 4.2933],
       device='cuda:1'), covar=tensor([0.1356, 0.0142, 0.1055, 0.0357, 0.0579, 0.0836, 0.1893, 0.0261],
       device='cuda:1'), in_proj_covar=tensor([0.0158, 0.0139, 0.0160, 0.0144, 0.0174, 0.0171, 0.0169, 0.0158],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0003, 0.0004, 0.0003, 0.0004, 0.0004, 0.0004, 0.0003],
       device='cuda:1')
2022-11-16 02:22:18,753 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=66914.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 02:22:27,872 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 9.435e+01 1.629e+02 1.952e+02 2.381e+02 3.716e+02, threshold=3.904e+02, percent-clipped=1.0
2022-11-16 02:22:41,671 INFO [train.py:876] (1/4) Epoch 10, batch 1500, loss[loss=0.1412, simple_loss=0.1667, pruned_loss=0.05784, over 5732.00 frames. ], tot_loss[loss=0.1241, simple_loss=0.1483, pruned_loss=0.04993, over 1079600.74 frames. ], batch size: 36, lr: 8.21e-03, grad_scale: 16.0
2022-11-16 02:22:46,957 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=66957.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 02:22:50,116 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=66962.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 02:23:17,547 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.7906, 5.0821, 3.2436, 4.7760, 3.7563, 3.4019, 2.8954, 4.3616],
       device='cuda:1'), covar=tensor([0.1351, 0.0137, 0.1068, 0.0377, 0.0512, 0.0784, 0.1617, 0.0228],
       device='cuda:1'), in_proj_covar=tensor([0.0159, 0.0139, 0.0161, 0.0144, 0.0175, 0.0172, 0.0168, 0.0158],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0003, 0.0004, 0.0003, 0.0004, 0.0004, 0.0004, 0.0003],
       device='cuda:1')
2022-11-16 02:23:26,305 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.31 vs. limit=2.0
2022-11-16 02:23:27,989 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=67018.0, num_to_drop=1, layers_to_drop={2}
2022-11-16 02:23:30,085 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=4.52 vs. limit=5.0
2022-11-16 02:23:34,294 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 7.428e+01 1.625e+02 1.914e+02 2.331e+02 6.825e+02, threshold=3.828e+02, percent-clipped=2.0
2022-11-16 02:23:49,308 INFO [train.py:876] (1/4) Epoch 10, batch 1600, loss[loss=0.08439, simple_loss=0.1201, pruned_loss=0.02434, over 5513.00 frames. ], tot_loss[loss=0.1236, simple_loss=0.1476, pruned_loss=0.0498, over 1082211.63 frames. ], batch size: 10, lr: 8.21e-03, grad_scale: 16.0
2022-11-16 02:23:59,969 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.9444, 3.2344, 3.1343, 3.2937, 2.9538, 3.4012, 3.4860, 3.7493],
       device='cuda:1'), covar=tensor([0.1287, 0.1050, 0.1697, 0.0746, 0.1374, 0.0643, 0.0961, 0.0853],
       device='cuda:1'), in_proj_covar=tensor([0.0100, 0.0097, 0.0101, 0.0093, 0.0089, 0.0094, 0.0097, 0.0073],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
       device='cuda:1')
2022-11-16 02:24:11,980 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=67083.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 02:24:14,888 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=67087.0, num_to_drop=1, layers_to_drop={3}
2022-11-16 02:24:41,917 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.077e+02 1.648e+02 1.940e+02 2.386e+02 4.578e+02, threshold=3.880e+02, percent-clipped=4.0
2022-11-16 02:24:53,231 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=67144.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 02:24:56,729 INFO [train.py:876] (1/4) Epoch 10, batch 1700, loss[loss=0.146, simple_loss=0.158, pruned_loss=0.06697, over 5337.00 frames. ], tot_loss[loss=0.1226, simple_loss=0.1471, pruned_loss=0.04905, over 1085027.80 frames. ], batch size: 79, lr: 8.20e-03, grad_scale: 16.0
2022-11-16 02:25:15,543 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=67177.0, num_to_drop=1, layers_to_drop={1}
2022-11-16 02:25:48,251 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=67225.0, num_to_drop=1, layers_to_drop={0}
2022-11-16 02:25:50,860 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 9.967e+01 1.444e+02 1.809e+02 2.360e+02 5.215e+02, threshold=3.618e+02, percent-clipped=3.0
2022-11-16 02:25:52,315 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([4.5561, 5.2100, 4.3499, 5.1139, 5.2667, 4.8731, 5.1193, 4.8664],
       device='cuda:1'), covar=tensor([0.0376, 0.0786, 0.2138, 0.0806, 0.0783, 0.0500, 0.0966, 0.0662],
       device='cuda:1'), in_proj_covar=tensor([0.0126, 0.0167, 0.0261, 0.0165, 0.0208, 0.0167, 0.0179, 0.0164],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0004, 0.0002, 0.0003, 0.0002, 0.0002, 0.0002],
       device='cuda:1')
2022-11-16 02:26:04,153 INFO [train.py:876] (1/4) Epoch 10, batch 1800, loss[loss=0.1276, simple_loss=0.141, pruned_loss=0.05715, over 5160.00 frames. ], tot_loss[loss=0.1245, simple_loss=0.1484, pruned_loss=0.05031, over 1083989.44 frames. ], batch size: 91, lr: 8.20e-03, grad_scale: 16.0
2022-11-16 02:26:47,968 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=67313.0, num_to_drop=1, layers_to_drop={2}
2022-11-16 02:26:48,999 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.86 vs. limit=2.0
2022-11-16 02:26:58,161 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.062e+02 1.612e+02 1.959e+02 2.585e+02 8.694e+02, threshold=3.917e+02, percent-clipped=8.0
2022-11-16 02:27:11,095 INFO [train.py:876] (1/4) Epoch 10, batch 1900, loss[loss=0.1096, simple_loss=0.129, pruned_loss=0.04513, over 5770.00 frames. ], tot_loss[loss=0.1245, simple_loss=0.1481, pruned_loss=0.05046, over 1087248.21 frames. ], batch size: 14, lr: 8.19e-03, grad_scale: 16.0
2022-11-16 02:27:37,296 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=67387.0, num_to_drop=1, layers_to_drop={2}
2022-11-16 02:27:52,766 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=1.92 vs. limit=2.0
2022-11-16 02:28:05,970 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.083e+02 1.608e+02 1.927e+02 2.290e+02 4.521e+02, threshold=3.854e+02, percent-clipped=3.0
2022-11-16 02:28:10,021 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=67435.0, num_to_drop=1, layers_to_drop={1}
2022-11-16 02:28:12,564 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=67439.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 02:28:14,051 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.9615, 2.4806, 2.7226, 3.9163, 3.8083, 3.1098, 2.8019, 3.9658],
       device='cuda:1'), covar=tensor([0.0587, 0.3079, 0.2459, 0.3040, 0.1368, 0.2880, 0.2003, 0.0578],
       device='cuda:1'), in_proj_covar=tensor([0.0240, 0.0201, 0.0193, 0.0311, 0.0226, 0.0207, 0.0191, 0.0237],
       device='cuda:1'), out_proj_covar=tensor([0.0005, 0.0005, 0.0005, 0.0006, 0.0005, 0.0005, 0.0005, 0.0005],
       device='cuda:1')
2022-11-16 02:28:19,257 INFO [train.py:876] (1/4) Epoch 10, batch 2000, loss[loss=0.07665, simple_loss=0.1119, pruned_loss=0.0207, over 5728.00 frames. ], tot_loss[loss=0.123, simple_loss=0.1475, pruned_loss=0.04931, over 1082129.38 frames. ], batch size: 16, lr: 8.18e-03, grad_scale: 16.0
2022-11-16 02:29:02,513 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=67513.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 02:29:11,392 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=1.94 vs. limit=2.0
2022-11-16 02:29:14,258 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 9.999e+01 1.503e+02 1.762e+02 2.315e+02 5.487e+02, threshold=3.525e+02, percent-clipped=4.0
2022-11-16 02:29:27,324 INFO [train.py:876] (1/4) Epoch 10, batch 2100, loss[loss=0.1663, simple_loss=0.1721, pruned_loss=0.08026, over 4652.00 frames. ], tot_loss[loss=0.1252, simple_loss=0.1486, pruned_loss=0.0509, over 1075986.20 frames. ], batch size: 135, lr: 8.18e-03, grad_scale: 16.0
2022-11-16 02:29:44,915 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=67574.0, num_to_drop=1, layers_to_drop={1}
2022-11-16 02:30:10,111 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.0831, 1.4357, 1.0637, 0.9332, 1.4851, 1.3733, 0.7814, 1.3348],
       device='cuda:1'), covar=tensor([0.0047, 0.0027, 0.0052, 0.0049, 0.0031, 0.0035, 0.0073, 0.0044],
       device='cuda:1'), in_proj_covar=tensor([0.0053, 0.0047, 0.0049, 0.0050, 0.0050, 0.0044, 0.0047, 0.0042],
       device='cuda:1'), out_proj_covar=tensor([4.8111e-05, 4.2546e-05, 4.3731e-05, 4.4954e-05, 4.3968e-05, 3.8655e-05,
        4.2453e-05, 3.6876e-05], device='cuda:1')
2022-11-16 02:30:10,751 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=67613.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 02:30:21,800 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 9.895e+01 1.533e+02 1.917e+02 2.461e+02 4.676e+02, threshold=3.833e+02, percent-clipped=3.0
2022-11-16 02:30:35,270 INFO [train.py:876] (1/4) Epoch 10, batch 2200, loss[loss=0.1392, simple_loss=0.1657, pruned_loss=0.0563, over 5453.00 frames. ], tot_loss[loss=0.1245, simple_loss=0.1481, pruned_loss=0.05045, over 1078956.14 frames. ], batch size: 53, lr: 8.17e-03, grad_scale: 16.0
2022-11-16 02:30:43,329 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=67661.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 02:30:54,564 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.32 vs. limit=2.0
2022-11-16 02:30:56,593 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=67680.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 02:31:04,403 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=67692.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 02:31:09,993 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.2724, 3.2803, 3.3583, 3.1201, 3.2590, 3.2604, 1.3633, 3.4399],
       device='cuda:1'), covar=tensor([0.0303, 0.0363, 0.0284, 0.0330, 0.0431, 0.0472, 0.2990, 0.0314],
       device='cuda:1'), in_proj_covar=tensor([0.0103, 0.0085, 0.0086, 0.0077, 0.0102, 0.0087, 0.0130, 0.0106],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
       device='cuda:1')
2022-11-16 02:31:28,762 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.008e+02 1.628e+02 1.848e+02 2.167e+02 3.547e+02, threshold=3.696e+02, percent-clipped=0.0
2022-11-16 02:31:36,132 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=67739.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 02:31:37,519 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=67741.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 02:31:42,387 INFO [train.py:876] (1/4) Epoch 10, batch 2300, loss[loss=0.09638, simple_loss=0.1303, pruned_loss=0.03124, over 5748.00 frames. ], tot_loss[loss=0.1217, simple_loss=0.1462, pruned_loss=0.04858, over 1088071.19 frames. ], batch size: 16, lr: 8.17e-03, grad_scale: 16.0
2022-11-16 02:31:45,486 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=67753.0, num_to_drop=1, layers_to_drop={1}
2022-11-16 02:31:58,321 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.5921, 2.0140, 1.7409, 1.3755, 1.8646, 2.2891, 2.0195, 2.2393],
       device='cuda:1'), covar=tensor([0.1749, 0.1337, 0.1489, 0.2381, 0.1077, 0.0873, 0.0780, 0.1318],
       device='cuda:1'), in_proj_covar=tensor([0.0169, 0.0182, 0.0163, 0.0189, 0.0177, 0.0191, 0.0163, 0.0185],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0003, 0.0004],
       device='cuda:1')
2022-11-16 02:32:08,278 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=67787.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 02:32:36,226 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 9.663e+01 1.643e+02 1.965e+02 2.550e+02 4.357e+02, threshold=3.931e+02, percent-clipped=5.0
2022-11-16 02:32:46,738 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.4291, 2.5353, 2.2761, 2.6251, 2.0802, 2.1190, 2.1693, 2.7972],
       device='cuda:1'), covar=tensor([0.1069, 0.1044, 0.1922, 0.1112, 0.1615, 0.1531, 0.1707, 0.1870],
       device='cuda:1'), in_proj_covar=tensor([0.0100, 0.0096, 0.0099, 0.0091, 0.0087, 0.0092, 0.0094, 0.0073],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
       device='cuda:1')
2022-11-16 02:32:50,269 INFO [train.py:876] (1/4) Epoch 10, batch 2400, loss[loss=0.09714, simple_loss=0.1225, pruned_loss=0.03591, over 5354.00 frames. ], tot_loss[loss=0.1225, simple_loss=0.1468, pruned_loss=0.04911, over 1083756.28 frames. ], batch size: 9, lr: 8.16e-03, grad_scale: 16.0
2022-11-16 02:33:03,303 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=67869.0, num_to_drop=1, layers_to_drop={2}
2022-11-16 02:33:43,933 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 9.957e+01 1.533e+02 1.852e+02 2.262e+02 4.255e+02, threshold=3.703e+02, percent-clipped=1.0
2022-11-16 02:33:46,954 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.5452, 1.6064, 2.1728, 1.4156, 1.3813, 2.5891, 2.2076, 1.9599],
       device='cuda:1'), covar=tensor([0.1317, 0.1909, 0.1139, 0.2802, 0.2758, 0.0774, 0.1365, 0.1815],
       device='cuda:1'), in_proj_covar=tensor([0.0087, 0.0080, 0.0078, 0.0087, 0.0067, 0.0057, 0.0065, 0.0075],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
       device='cuda:1')
2022-11-16 02:33:58,900 INFO [train.py:876] (1/4) Epoch 10, batch 2500, loss[loss=0.1799, simple_loss=0.1881, pruned_loss=0.08586, over 5434.00 frames. ], tot_loss[loss=0.1213, simple_loss=0.146, pruned_loss=0.04832, over 1079623.72 frames. ], batch size: 58, lr: 8.15e-03, grad_scale: 16.0
2022-11-16 02:34:22,082 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=67981.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 02:34:46,881 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.2088, 2.1054, 2.4141, 3.3084, 3.2195, 2.5845, 2.0527, 3.3457],
       device='cuda:1'), covar=tensor([0.0961, 0.2941, 0.2142, 0.2497, 0.1433, 0.2872, 0.2382, 0.0893],
       device='cuda:1'), in_proj_covar=tensor([0.0235, 0.0198, 0.0189, 0.0304, 0.0219, 0.0203, 0.0189, 0.0234],
       device='cuda:1'), out_proj_covar=tensor([0.0005, 0.0005, 0.0005, 0.0006, 0.0005, 0.0005, 0.0005, 0.0005],
       device='cuda:1')
2022-11-16 02:34:54,543 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.078e+02 1.495e+02 1.844e+02 2.229e+02 3.731e+02, threshold=3.687e+02, percent-clipped=1.0
2022-11-16 02:34:59,156 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=68036.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 02:35:03,038 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=68042.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 02:35:06,809 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=68048.0, num_to_drop=1, layers_to_drop={2}
2022-11-16 02:35:07,301 INFO [train.py:876] (1/4) Epoch 10, batch 2600, loss[loss=0.1153, simple_loss=0.1392, pruned_loss=0.04569, over 5521.00 frames. ], tot_loss[loss=0.123, simple_loss=0.1474, pruned_loss=0.0493, over 1084438.05 frames. ], batch size: 13, lr: 8.15e-03, grad_scale: 16.0
2022-11-16 02:35:16,729 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([4.0813, 3.7557, 3.9341, 3.6802, 4.1290, 3.7733, 3.8512, 4.0809],
       device='cuda:1'), covar=tensor([0.0346, 0.0394, 0.0384, 0.0411, 0.0397, 0.0399, 0.0338, 0.0453],
       device='cuda:1'), in_proj_covar=tensor([0.0132, 0.0141, 0.0103, 0.0138, 0.0164, 0.0096, 0.0116, 0.0140],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003],
       device='cuda:1')
2022-11-16 02:35:33,570 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=68087.0, num_to_drop=1, layers_to_drop={0}
2022-11-16 02:35:39,979 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.2349, 1.7417, 2.1548, 1.6120, 1.3647, 2.0933, 2.2907, 1.5186],
       device='cuda:1'), covar=tensor([0.0037, 0.0062, 0.0034, 0.0042, 0.0167, 0.0052, 0.0025, 0.0041],
       device='cuda:1'), in_proj_covar=tensor([0.0024, 0.0023, 0.0024, 0.0032, 0.0027, 0.0025, 0.0029, 0.0029],
       device='cuda:1'), out_proj_covar=tensor([2.2307e-05, 2.1973e-05, 2.1587e-05, 3.0730e-05, 2.5763e-05, 2.4184e-05,
        2.7963e-05, 2.8657e-05], device='cuda:1')
2022-11-16 02:36:01,565 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.022e+02 1.584e+02 1.812e+02 2.334e+02 4.676e+02, threshold=3.625e+02, percent-clipped=1.0
2022-11-16 02:36:06,000 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=3.66 vs. limit=5.0
2022-11-16 02:36:14,141 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=68148.0, num_to_drop=1, layers_to_drop={1}
2022-11-16 02:36:14,628 INFO [train.py:876] (1/4) Epoch 10, batch 2700, loss[loss=0.1256, simple_loss=0.1539, pruned_loss=0.0487, over 5760.00 frames. ], tot_loss[loss=0.1225, simple_loss=0.1471, pruned_loss=0.04899, over 1085369.12 frames. ], batch size: 16, lr: 8.14e-03, grad_scale: 16.0
2022-11-16 02:36:24,780 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=4.82 vs. limit=5.0
2022-11-16 02:36:28,850 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=68169.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 02:36:52,907 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.0499, 1.6919, 1.7126, 1.2734, 1.6273, 1.7035, 1.6428, 1.5415],
       device='cuda:1'), covar=tensor([0.0028, 0.0067, 0.0038, 0.0047, 0.0078, 0.0073, 0.0033, 0.0047],
       device='cuda:1'), in_proj_covar=tensor([0.0024, 0.0023, 0.0024, 0.0032, 0.0027, 0.0025, 0.0029, 0.0029],
       device='cuda:1'), out_proj_covar=tensor([2.2145e-05, 2.2096e-05, 2.1516e-05, 3.0864e-05, 2.5409e-05, 2.4331e-05,
        2.8120e-05, 2.8814e-05], device='cuda:1')
2022-11-16 02:37:00,604 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=68217.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 02:37:09,358 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 9.044e+01 1.607e+02 1.920e+02 2.533e+02 3.834e+02, threshold=3.840e+02, percent-clipped=3.0
2022-11-16 02:37:22,795 INFO [train.py:876] (1/4) Epoch 10, batch 2800, loss[loss=0.1032, simple_loss=0.1399, pruned_loss=0.03326, over 5772.00 frames. ], tot_loss[loss=0.1215, simple_loss=0.1469, pruned_loss=0.0481, over 1087671.31 frames. ], batch size: 20, lr: 8.14e-03, grad_scale: 16.0
2022-11-16 02:37:54,916 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.1786, 2.1446, 2.1997, 2.1968, 2.0805, 1.9095, 1.9937, 2.5768],
       device='cuda:1'), covar=tensor([0.1280, 0.1929, 0.1789, 0.1350, 0.1711, 0.1561, 0.1633, 0.0820],
       device='cuda:1'), in_proj_covar=tensor([0.0100, 0.0097, 0.0100, 0.0093, 0.0087, 0.0095, 0.0095, 0.0073],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
       device='cuda:1')
2022-11-16 02:38:16,585 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 8.672e+01 1.605e+02 1.834e+02 2.410e+02 3.703e+02, threshold=3.668e+02, percent-clipped=0.0
2022-11-16 02:38:16,811 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.1393, 2.9475, 2.7888, 1.5485, 2.9423, 2.9686, 2.9250, 3.2661],
       device='cuda:1'), covar=tensor([0.1923, 0.1294, 0.1034, 0.2680, 0.0544, 0.1033, 0.0445, 0.0823],
       device='cuda:1'), in_proj_covar=tensor([0.0173, 0.0185, 0.0165, 0.0186, 0.0179, 0.0195, 0.0167, 0.0187],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004],
       device='cuda:1')
2022-11-16 02:38:21,762 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=68336.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 02:38:22,375 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=68337.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 02:38:30,002 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=68348.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 02:38:30,506 INFO [train.py:876] (1/4) Epoch 10, batch 2900, loss[loss=0.08997, simple_loss=0.1101, pruned_loss=0.03491, over 5426.00 frames. ], tot_loss[loss=0.1222, simple_loss=0.1472, pruned_loss=0.04866, over 1088940.06 frames. ], batch size: 9, lr: 8.13e-03, grad_scale: 16.0
2022-11-16 02:38:33,970 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([4.0392, 2.5312, 3.5521, 3.2327, 3.8672, 2.7421, 3.4802, 4.0051],
       device='cuda:1'), covar=tensor([0.0936, 0.1668, 0.0963, 0.1684, 0.0582, 0.1321, 0.1248, 0.0802],
       device='cuda:1'), in_proj_covar=tensor([0.0236, 0.0193, 0.0209, 0.0210, 0.0233, 0.0189, 0.0224, 0.0227],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004],
       device='cuda:1')
2022-11-16 02:38:53,223 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=68384.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 02:38:55,607 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.70 vs. limit=2.0
2022-11-16 02:39:02,030 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=68396.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 02:39:04,133 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=68399.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 02:39:12,775 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([4.5109, 4.1140, 4.1078, 4.0979, 4.5274, 4.2850, 4.2387, 4.4564],
       device='cuda:1'), covar=tensor([0.0669, 0.0967, 0.0989, 0.0911, 0.0769, 0.0614, 0.0777, 0.1118],
       device='cuda:1'), in_proj_covar=tensor([0.0135, 0.0142, 0.0104, 0.0139, 0.0164, 0.0097, 0.0117, 0.0143],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003],
       device='cuda:1')
2022-11-16 02:39:23,979 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.125e+02 1.585e+02 1.960e+02 2.484e+02 4.720e+02, threshold=3.919e+02, percent-clipped=5.0
2022-11-16 02:39:33,254 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=68443.0, num_to_drop=1, layers_to_drop={2}
2022-11-16 02:39:38,223 INFO [train.py:876] (1/4) Epoch 10, batch 3000, loss[loss=0.1097, simple_loss=0.1406, pruned_loss=0.03939, over 5587.00 frames. ], tot_loss[loss=0.124, simple_loss=0.1479, pruned_loss=0.05004, over 1095721.63 frames. ], batch size: 22, lr: 8.12e-03, grad_scale: 16.0
2022-11-16 02:39:38,224 INFO [train.py:899] (1/4) Computing validation loss
2022-11-16 02:39:46,309 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([4.5568, 4.3634, 4.6898, 4.3111, 4.3088, 4.8338, 4.9937, 4.5707],
       device='cuda:1'), covar=tensor([0.0304, 0.1077, 0.0278, 0.0780, 0.0338, 0.0191, 0.0456, 0.0458],
       device='cuda:1'), in_proj_covar=tensor([0.0085, 0.0106, 0.0089, 0.0115, 0.0085, 0.0076, 0.0141, 0.0098],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0003, 0.0002],
       device='cuda:1')
2022-11-16 02:39:46,720 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.8233, 4.3499, 3.8468, 3.4936, 1.9316, 3.9282, 2.2290, 3.4537],
       device='cuda:1'), covar=tensor([0.0431, 0.0092, 0.0146, 0.0362, 0.0705, 0.0174, 0.0555, 0.0213],
       device='cuda:1'), in_proj_covar=tensor([0.0191, 0.0167, 0.0176, 0.0199, 0.0188, 0.0174, 0.0187, 0.0177],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
       device='cuda:1')
2022-11-16 02:39:54,028 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.3618, 2.2178, 2.6611, 3.3191, 3.3460, 2.6202, 2.2510, 3.4331],
       device='cuda:1'), covar=tensor([0.0863, 0.3500, 0.2287, 0.1941, 0.0977, 0.2851, 0.2334, 0.0728],
       device='cuda:1'), in_proj_covar=tensor([0.0244, 0.0206, 0.0196, 0.0315, 0.0226, 0.0208, 0.0194, 0.0241],
       device='cuda:1'), out_proj_covar=tensor([0.0005, 0.0005, 0.0005, 0.0006, 0.0005, 0.0005, 0.0005, 0.0005],
       device='cuda:1')
2022-11-16 02:39:54,469 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.5781, 2.2838, 1.8399, 1.4893, 1.8924, 2.4080, 2.3947, 2.4897],
       device='cuda:1'), covar=tensor([0.1134, 0.0935, 0.1729, 0.1933, 0.0927, 0.0822, 0.0427, 0.0827],
       device='cuda:1'), in_proj_covar=tensor([0.0172, 0.0185, 0.0164, 0.0187, 0.0178, 0.0195, 0.0167, 0.0185],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004],
       device='cuda:1')
2022-11-16 02:39:54,487 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.9054, 2.0610, 2.7469, 2.5313, 2.5802, 2.1254, 2.6000, 2.8959],
       device='cuda:1'), covar=tensor([0.0624, 0.1286, 0.0636, 0.0848, 0.0867, 0.1095, 0.0810, 0.0548],
       device='cuda:1'), in_proj_covar=tensor([0.0237, 0.0193, 0.0210, 0.0210, 0.0234, 0.0191, 0.0226, 0.0228],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004],
       device='cuda:1')
2022-11-16 02:39:56,212 INFO [train.py:908] (1/4) Epoch 10, validation: loss=0.1681, simple_loss=0.1842, pruned_loss=0.07602, over 1530663.00 frames. 
2022-11-16 02:39:56,212 INFO [train.py:909] (1/4) Maximum memory allocated so far is 4676MB
2022-11-16 02:40:03,629 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=68460.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 02:40:49,560 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 9.217e+01 1.619e+02 2.006e+02 2.438e+02 5.141e+02, threshold=4.012e+02, percent-clipped=2.0
2022-11-16 02:41:02,561 INFO [train.py:876] (1/4) Epoch 10, batch 3100, loss[loss=0.1235, simple_loss=0.1521, pruned_loss=0.04744, over 5816.00 frames. ], tot_loss[loss=0.1244, simple_loss=0.1483, pruned_loss=0.0502, over 1089814.65 frames. ], batch size: 18, lr: 8.12e-03, grad_scale: 16.0
2022-11-16 02:41:22,501 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=68578.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 02:41:51,821 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=4.55 vs. limit=5.0
2022-11-16 02:41:57,045 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 9.658e+01 1.525e+02 1.984e+02 2.613e+02 4.758e+02, threshold=3.969e+02, percent-clipped=4.0
2022-11-16 02:42:02,892 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=68637.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 02:42:04,171 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=68639.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 02:42:10,476 INFO [train.py:876] (1/4) Epoch 10, batch 3200, loss[loss=0.1235, simple_loss=0.1537, pruned_loss=0.0466, over 5755.00 frames. ], tot_loss[loss=0.1233, simple_loss=0.1479, pruned_loss=0.04933, over 1093834.20 frames. ], batch size: 16, lr: 8.11e-03, grad_scale: 16.0
2022-11-16 02:42:35,039 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=68685.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 02:42:35,130 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=68685.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 02:43:04,535 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.027e+02 1.562e+02 1.856e+02 2.201e+02 3.564e+02, threshold=3.712e+02, percent-clipped=0.0
2022-11-16 02:43:10,646 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.50 vs. limit=2.0
2022-11-16 02:43:14,417 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=68743.0, num_to_drop=1, layers_to_drop={1}
2022-11-16 02:43:16,473 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=68746.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 02:43:18,250 INFO [train.py:876] (1/4) Epoch 10, batch 3300, loss[loss=0.1078, simple_loss=0.1387, pruned_loss=0.03844, over 5602.00 frames. ], tot_loss[loss=0.1223, simple_loss=0.1472, pruned_loss=0.04871, over 1086886.54 frames. ], batch size: 24, lr: 8.11e-03, grad_scale: 16.0
2022-11-16 02:43:22,186 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=68755.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 02:43:46,717 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=68791.0, num_to_drop=1, layers_to_drop={1}
2022-11-16 02:44:12,127 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 8.117e+01 1.492e+02 1.907e+02 2.389e+02 5.299e+02, threshold=3.813e+02, percent-clipped=1.0
2022-11-16 02:44:25,991 INFO [train.py:876] (1/4) Epoch 10, batch 3400, loss[loss=0.08561, simple_loss=0.1143, pruned_loss=0.02845, over 5732.00 frames. ], tot_loss[loss=0.1235, simple_loss=0.1483, pruned_loss=0.04935, over 1090752.25 frames. ], batch size: 13, lr: 8.10e-03, grad_scale: 16.0
2022-11-16 02:45:09,856 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.0826, 1.9851, 1.9982, 2.1075, 1.7615, 1.4180, 1.7094, 2.2703],
       device='cuda:1'), covar=tensor([0.1713, 0.2141, 0.2056, 0.1561, 0.2011, 0.4980, 0.2071, 0.1422],
       device='cuda:1'), in_proj_covar=tensor([0.0105, 0.0101, 0.0104, 0.0096, 0.0091, 0.0098, 0.0097, 0.0075],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0004, 0.0004, 0.0003, 0.0003, 0.0004, 0.0003, 0.0003],
       device='cuda:1')
2022-11-16 02:45:20,578 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 9.200e+01 1.439e+02 1.799e+02 2.243e+02 3.372e+02, threshold=3.599e+02, percent-clipped=0.0
2022-11-16 02:45:24,300 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=68934.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 02:45:34,200 INFO [train.py:876] (1/4) Epoch 10, batch 3500, loss[loss=0.09419, simple_loss=0.1263, pruned_loss=0.03105, over 5827.00 frames. ], tot_loss[loss=0.1242, simple_loss=0.1485, pruned_loss=0.04998, over 1083291.20 frames. ], batch size: 18, lr: 8.10e-03, grad_scale: 16.0
2022-11-16 02:45:46,611 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.6138, 3.8294, 3.8303, 1.9011, 3.8547, 4.0892, 3.9267, 4.3013],
       device='cuda:1'), covar=tensor([0.1875, 0.1295, 0.0586, 0.2705, 0.0328, 0.0445, 0.0364, 0.0496],
       device='cuda:1'), in_proj_covar=tensor([0.0171, 0.0186, 0.0163, 0.0189, 0.0181, 0.0198, 0.0170, 0.0188],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004],
       device='cuda:1')
2022-11-16 02:46:19,358 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.32 vs. limit=2.0
2022-11-16 02:46:24,584 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.68 vs. limit=2.0
2022-11-16 02:46:28,137 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 9.544e+01 1.634e+02 1.923e+02 2.372e+02 5.246e+02, threshold=3.846e+02, percent-clipped=2.0
2022-11-16 02:46:31,723 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=4.83 vs. limit=5.0
2022-11-16 02:46:36,711 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=69041.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 02:46:38,115 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=69043.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 02:46:41,868 INFO [train.py:876] (1/4) Epoch 10, batch 3600, loss[loss=0.1357, simple_loss=0.1596, pruned_loss=0.05593, over 5592.00 frames. ], tot_loss[loss=0.1245, simple_loss=0.1488, pruned_loss=0.05009, over 1086472.67 frames. ], batch size: 23, lr: 8.09e-03, grad_scale: 16.0
2022-11-16 02:46:46,007 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=69055.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 02:46:57,957 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.0914, 2.0269, 1.9795, 2.1430, 1.8738, 1.6652, 1.8581, 2.2531],
       device='cuda:1'), covar=tensor([0.1714, 0.1829, 0.2261, 0.1255, 0.1811, 0.2319, 0.1843, 0.1140],
       device='cuda:1'), in_proj_covar=tensor([0.0102, 0.0098, 0.0100, 0.0093, 0.0087, 0.0095, 0.0093, 0.0073],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
       device='cuda:1')
2022-11-16 02:47:18,336 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=69103.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 02:47:19,105 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=69104.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 02:47:35,520 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 9.617e+01 1.458e+02 1.877e+02 2.187e+02 3.990e+02, threshold=3.754e+02, percent-clipped=1.0
2022-11-16 02:47:43,632 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.17 vs. limit=2.0
2022-11-16 02:47:49,302 INFO [train.py:876] (1/4) Epoch 10, batch 3700, loss[loss=0.08755, simple_loss=0.1278, pruned_loss=0.02366, over 5538.00 frames. ], tot_loss[loss=0.1242, simple_loss=0.1491, pruned_loss=0.04971, over 1086925.25 frames. ], batch size: 10, lr: 8.08e-03, grad_scale: 32.0
2022-11-16 02:47:58,273 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=69162.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 02:48:02,146 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=69168.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 02:48:36,278 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.24 vs. limit=2.0
2022-11-16 02:48:39,328 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.4852, 3.5283, 3.5349, 3.4056, 3.5488, 3.3990, 1.3739, 3.6649],
       device='cuda:1'), covar=tensor([0.0281, 0.0439, 0.0377, 0.0376, 0.0363, 0.0433, 0.3336, 0.0305],
       device='cuda:1'), in_proj_covar=tensor([0.0103, 0.0085, 0.0085, 0.0078, 0.0100, 0.0087, 0.0128, 0.0107],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
       device='cuda:1')
2022-11-16 02:48:40,045 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=69223.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 02:48:41,329 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=69225.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 02:48:43,925 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=69229.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 02:48:44,356 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 9.159e+01 1.529e+02 2.089e+02 2.315e+02 4.555e+02, threshold=4.177e+02, percent-clipped=1.0
2022-11-16 02:48:44,581 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([4.1592, 2.5056, 2.9516, 3.8843, 3.7719, 3.0582, 2.6048, 3.9765],
       device='cuda:1'), covar=tensor([0.0509, 0.2997, 0.2322, 0.2700, 0.1048, 0.2997, 0.2074, 0.0612],
       device='cuda:1'), in_proj_covar=tensor([0.0243, 0.0203, 0.0192, 0.0315, 0.0229, 0.0209, 0.0192, 0.0243],
       device='cuda:1'), out_proj_covar=tensor([0.0005, 0.0005, 0.0005, 0.0006, 0.0005, 0.0005, 0.0005, 0.0005],
       device='cuda:1')
2022-11-16 02:48:47,070 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=69234.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 02:48:54,611 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=69245.0, num_to_drop=1, layers_to_drop={1}
2022-11-16 02:48:57,848 INFO [train.py:876] (1/4) Epoch 10, batch 3800, loss[loss=0.09208, simple_loss=0.129, pruned_loss=0.02759, over 5470.00 frames. ], tot_loss[loss=0.124, simple_loss=0.1486, pruned_loss=0.04972, over 1079365.44 frames. ], batch size: 12, lr: 8.08e-03, grad_scale: 16.0
2022-11-16 02:49:14,254 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=69273.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 02:49:18,911 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=4.11 vs. limit=5.0
2022-11-16 02:49:20,032 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=69282.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 02:49:22,751 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=69286.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 02:49:36,644 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=69306.0, num_to_drop=1, layers_to_drop={0}
2022-11-16 02:49:45,837 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=69320.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 02:49:53,219 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.037e+02 1.561e+02 1.843e+02 2.119e+02 2.947e+02, threshold=3.686e+02, percent-clipped=0.0
2022-11-16 02:49:55,296 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=69334.0, num_to_drop=1, layers_to_drop={0}
2022-11-16 02:49:59,879 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=69341.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 02:50:05,017 INFO [train.py:876] (1/4) Epoch 10, batch 3900, loss[loss=0.1766, simple_loss=0.1816, pruned_loss=0.08583, over 5467.00 frames. ], tot_loss[loss=0.1247, simple_loss=0.149, pruned_loss=0.0502, over 1081793.36 frames. ], batch size: 64, lr: 8.07e-03, grad_scale: 8.0
2022-11-16 02:50:18,578 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=69368.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 02:50:27,391 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=69381.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 02:50:32,637 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=69389.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 02:50:36,067 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=69394.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 02:50:39,289 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=69399.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 02:50:54,225 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=2.07 vs. limit=2.0
2022-11-16 02:51:00,408 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=69429.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 02:51:01,538 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.012e+02 1.631e+02 1.973e+02 2.599e+02 5.372e+02, threshold=3.946e+02, percent-clipped=3.0
2022-11-16 02:51:13,626 INFO [train.py:876] (1/4) Epoch 10, batch 4000, loss[loss=0.1519, simple_loss=0.1653, pruned_loss=0.06928, over 5460.00 frames. ], tot_loss[loss=0.1242, simple_loss=0.1488, pruned_loss=0.04984, over 1085837.18 frames. ], batch size: 53, lr: 8.07e-03, grad_scale: 8.0
2022-11-16 02:51:17,627 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=69455.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 02:51:59,804 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=69518.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 02:52:03,557 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=69524.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 02:52:08,748 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 9.549e+01 1.604e+02 1.884e+02 2.288e+02 4.952e+02, threshold=3.768e+02, percent-clipped=2.0
2022-11-16 02:52:20,135 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.64 vs. limit=2.0
2022-11-16 02:52:20,881 INFO [train.py:876] (1/4) Epoch 10, batch 4100, loss[loss=0.08931, simple_loss=0.1241, pruned_loss=0.02723, over 5715.00 frames. ], tot_loss[loss=0.1222, simple_loss=0.1472, pruned_loss=0.04858, over 1086710.09 frames. ], batch size: 15, lr: 8.06e-03, grad_scale: 8.0
2022-11-16 02:52:42,294 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=69581.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 02:52:46,405 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.64 vs. limit=2.0
2022-11-16 02:52:56,103 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=69601.0, num_to_drop=1, layers_to_drop={2}
2022-11-16 02:53:14,378 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=69629.0, num_to_drop=1, layers_to_drop={1}
2022-11-16 02:53:15,580 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.074e+02 1.609e+02 2.045e+02 2.634e+02 5.309e+02, threshold=4.090e+02, percent-clipped=7.0
2022-11-16 02:53:23,179 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.3452, 0.9119, 1.2620, 0.8988, 1.1777, 1.5069, 0.7182, 1.2159],
       device='cuda:1'), covar=tensor([0.0698, 0.0796, 0.0341, 0.1072, 0.1759, 0.0570, 0.1351, 0.0325],
       device='cuda:1'), in_proj_covar=tensor([0.0013, 0.0021, 0.0014, 0.0018, 0.0015, 0.0013, 0.0019, 0.0014],
       device='cuda:1'), out_proj_covar=tensor([7.1777e-05, 9.8185e-05, 7.4290e-05, 8.7674e-05, 7.7338e-05, 7.2039e-05,
        9.2394e-05, 7.2061e-05], device='cuda:1')
2022-11-16 02:53:28,115 INFO [train.py:876] (1/4) Epoch 10, batch 4200, loss[loss=0.08646, simple_loss=0.1212, pruned_loss=0.02586, over 5494.00 frames. ], tot_loss[loss=0.1199, simple_loss=0.1458, pruned_loss=0.04702, over 1092294.53 frames. ], batch size: 13, lr: 8.05e-03, grad_scale: 8.0
2022-11-16 02:53:42,453 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([4.8354, 4.3855, 4.6780, 4.3939, 4.9421, 4.7399, 4.3200, 4.9341],
       device='cuda:1'), covar=tensor([0.0389, 0.0374, 0.0432, 0.0377, 0.0373, 0.0219, 0.0278, 0.0276],
       device='cuda:1'), in_proj_covar=tensor([0.0135, 0.0140, 0.0102, 0.0136, 0.0162, 0.0097, 0.0117, 0.0141],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0003, 0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0003],
       device='cuda:1')
2022-11-16 02:53:45,413 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=69674.0, num_to_drop=1, layers_to_drop={0}
2022-11-16 02:53:45,523 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.17 vs. limit=2.0
2022-11-16 02:53:46,614 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=69676.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 02:54:01,573 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.59 vs. limit=2.0
2022-11-16 02:54:01,871 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=69699.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 02:54:01,957 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.8513, 2.2526, 3.5433, 2.9944, 3.7033, 2.3875, 3.3387, 3.9695],
       device='cuda:1'), covar=tensor([0.0788, 0.1846, 0.1048, 0.1696, 0.0717, 0.1670, 0.1236, 0.0997],
       device='cuda:1'), in_proj_covar=tensor([0.0242, 0.0195, 0.0213, 0.0210, 0.0237, 0.0195, 0.0228, 0.0231],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004],
       device='cuda:1')
2022-11-16 02:54:10,645 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.7238, 2.1816, 2.3654, 2.9886, 3.0901, 2.5223, 2.0998, 3.1004],
       device='cuda:1'), covar=tensor([0.1365, 0.2451, 0.1891, 0.2542, 0.1080, 0.2772, 0.2079, 0.1318],
       device='cuda:1'), in_proj_covar=tensor([0.0240, 0.0198, 0.0189, 0.0311, 0.0224, 0.0207, 0.0188, 0.0243],
       device='cuda:1'), out_proj_covar=tensor([0.0005, 0.0005, 0.0005, 0.0006, 0.0005, 0.0005, 0.0005, 0.0005],
       device='cuda:1')
2022-11-16 02:54:18,348 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=69724.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 02:54:23,253 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.003e+02 1.585e+02 1.904e+02 2.422e+02 5.734e+02, threshold=3.808e+02, percent-clipped=2.0
2022-11-16 02:54:23,392 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.0903, 2.3413, 2.3888, 2.0617, 2.3212, 2.3072, 1.0071, 2.4055],
       device='cuda:1'), covar=tensor([0.0433, 0.0395, 0.0303, 0.0417, 0.0456, 0.0413, 0.2806, 0.0405],
       device='cuda:1'), in_proj_covar=tensor([0.0103, 0.0085, 0.0085, 0.0077, 0.0102, 0.0087, 0.0129, 0.0106],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
       device='cuda:1')
2022-11-16 02:54:26,126 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=69735.0, num_to_drop=1, layers_to_drop={0}
2022-11-16 02:54:27,689 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.33 vs. limit=2.0
2022-11-16 02:54:34,707 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=69747.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 02:54:36,044 INFO [train.py:876] (1/4) Epoch 10, batch 4300, loss[loss=0.1444, simple_loss=0.1473, pruned_loss=0.07075, over 4224.00 frames. ], tot_loss[loss=0.1204, simple_loss=0.1458, pruned_loss=0.04753, over 1086328.66 frames. ], batch size: 181, lr: 8.05e-03, grad_scale: 8.0
2022-11-16 02:54:37,119 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=69750.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 02:54:41,287 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=3.93 vs. limit=5.0
2022-11-16 02:55:07,424 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.39 vs. limit=2.0
2022-11-16 02:55:23,537 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=69818.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 02:55:27,397 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=69824.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 02:55:31,844 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 8.497e+01 1.489e+02 1.786e+02 2.151e+02 5.165e+02, threshold=3.571e+02, percent-clipped=4.0
2022-11-16 02:55:44,013 INFO [train.py:876] (1/4) Epoch 10, batch 4400, loss[loss=0.1381, simple_loss=0.1624, pruned_loss=0.05689, over 5518.00 frames. ], tot_loss[loss=0.1202, simple_loss=0.1463, pruned_loss=0.04705, over 1088205.23 frames. ], batch size: 40, lr: 8.04e-03, grad_scale: 8.0
2022-11-16 02:55:56,377 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=69866.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 02:56:00,373 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=69872.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 02:56:06,525 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=69881.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 02:56:06,702 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.20 vs. limit=2.0
2022-11-16 02:56:18,063 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=2.10 vs. limit=2.0
2022-11-16 02:56:19,539 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=69901.0, num_to_drop=1, layers_to_drop={2}
2022-11-16 02:56:38,889 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=69929.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 02:56:38,966 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=69929.0, num_to_drop=1, layers_to_drop={0}
2022-11-16 02:56:40,106 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 9.783e+01 1.456e+02 1.859e+02 2.401e+02 3.905e+02, threshold=3.718e+02, percent-clipped=1.0
2022-11-16 02:56:52,007 INFO [train.py:876] (1/4) Epoch 10, batch 4500, loss[loss=0.09963, simple_loss=0.1395, pruned_loss=0.02988, over 5691.00 frames. ], tot_loss[loss=0.1188, simple_loss=0.1453, pruned_loss=0.04615, over 1088407.78 frames. ], batch size: 15, lr: 8.04e-03, grad_scale: 8.0
2022-11-16 02:56:52,042 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=69949.0, num_to_drop=1, layers_to_drop={0}
2022-11-16 02:57:10,768 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=69976.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 02:57:11,364 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=69977.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 02:57:47,880 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=70024.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 02:57:47,958 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.3943, 4.2333, 3.0097, 3.9905, 3.3430, 2.9552, 2.3606, 3.6384],
       device='cuda:1'), covar=tensor([0.1378, 0.0274, 0.1068, 0.0627, 0.0708, 0.0953, 0.1871, 0.0382],
       device='cuda:1'), in_proj_covar=tensor([0.0155, 0.0138, 0.0160, 0.0145, 0.0172, 0.0170, 0.0164, 0.0156],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0003, 0.0004, 0.0003, 0.0004, 0.0004, 0.0004, 0.0003],
       device='cuda:1')
2022-11-16 02:57:47,964 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=70024.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 02:57:52,468 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=70030.0, num_to_drop=1, layers_to_drop={1}
2022-11-16 02:57:52,995 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 8.972e+01 1.578e+02 1.852e+02 2.258e+02 4.002e+02, threshold=3.705e+02, percent-clipped=2.0
2022-11-16 02:57:58,791 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.2954, 4.3360, 2.8266, 4.1761, 3.4058, 2.9451, 2.2771, 3.7603],
       device='cuda:1'), covar=tensor([0.1592, 0.0224, 0.1440, 0.0302, 0.0814, 0.1100, 0.2037, 0.0348],
       device='cuda:1'), in_proj_covar=tensor([0.0156, 0.0139, 0.0161, 0.0145, 0.0173, 0.0170, 0.0164, 0.0156],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0003, 0.0004, 0.0003, 0.0004, 0.0004, 0.0004, 0.0003],
       device='cuda:1')
2022-11-16 02:58:05,288 INFO [train.py:876] (1/4) Epoch 10, batch 4600, loss[loss=0.1371, simple_loss=0.1526, pruned_loss=0.06078, over 4950.00 frames. ], tot_loss[loss=0.1211, simple_loss=0.1469, pruned_loss=0.04765, over 1080447.60 frames. ], batch size: 109, lr: 8.03e-03, grad_scale: 8.0
2022-11-16 02:58:06,026 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=70050.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 02:58:20,681 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=70072.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 02:58:38,211 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.9674, 2.5607, 3.6555, 3.0975, 3.8039, 2.4783, 3.3049, 3.9827],
       device='cuda:1'), covar=tensor([0.0753, 0.1556, 0.0769, 0.1458, 0.0632, 0.1595, 0.1320, 0.0787],
       device='cuda:1'), in_proj_covar=tensor([0.0240, 0.0196, 0.0213, 0.0210, 0.0235, 0.0193, 0.0228, 0.0229],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004],
       device='cuda:1')
2022-11-16 02:58:38,728 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=70098.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 02:58:46,561 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=70110.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 02:59:00,300 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.197e+02 1.693e+02 2.084e+02 2.528e+02 4.221e+02, threshold=4.168e+02, percent-clipped=4.0
2022-11-16 02:59:13,004 INFO [train.py:876] (1/4) Epoch 10, batch 4700, loss[loss=0.1002, simple_loss=0.1327, pruned_loss=0.03382, over 5677.00 frames. ], tot_loss[loss=0.124, simple_loss=0.1485, pruned_loss=0.04973, over 1082797.52 frames. ], batch size: 11, lr: 8.03e-03, grad_scale: 8.0
2022-11-16 02:59:27,622 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=70171.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 02:59:31,344 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=1.70 vs. limit=2.0
2022-11-16 02:59:53,375 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.7116, 4.0785, 3.7045, 4.0309, 4.0900, 3.6486, 3.7144, 3.7040],
       device='cuda:1'), covar=tensor([0.0873, 0.0397, 0.1331, 0.0448, 0.0459, 0.0492, 0.0603, 0.0589],
       device='cuda:1'), in_proj_covar=tensor([0.0131, 0.0172, 0.0266, 0.0168, 0.0214, 0.0172, 0.0182, 0.0169],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0003, 0.0004, 0.0002, 0.0003, 0.0002, 0.0003, 0.0002],
       device='cuda:1')
2022-11-16 03:00:08,313 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 8.549e+01 1.608e+02 1.952e+02 2.269e+02 5.385e+02, threshold=3.904e+02, percent-clipped=1.0
2022-11-16 03:00:20,900 INFO [train.py:876] (1/4) Epoch 10, batch 4800, loss[loss=0.07776, simple_loss=0.1096, pruned_loss=0.02297, over 5051.00 frames. ], tot_loss[loss=0.1219, simple_loss=0.147, pruned_loss=0.04842, over 1088643.64 frames. ], batch size: 7, lr: 8.02e-03, grad_scale: 8.0
2022-11-16 03:00:28,824 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=70260.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 03:00:34,780 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.21 vs. limit=2.0
2022-11-16 03:00:51,556 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=1.78 vs. limit=2.0
2022-11-16 03:00:59,998 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.9012, 2.5668, 3.0033, 3.7636, 3.8919, 2.9841, 2.5171, 3.8938],
       device='cuda:1'), covar=tensor([0.0604, 0.3305, 0.2025, 0.3281, 0.1057, 0.3230, 0.2099, 0.0620],
       device='cuda:1'), in_proj_covar=tensor([0.0246, 0.0202, 0.0192, 0.0315, 0.0228, 0.0207, 0.0192, 0.0244],
       device='cuda:1'), out_proj_covar=tensor([0.0006, 0.0005, 0.0005, 0.0006, 0.0005, 0.0005, 0.0005, 0.0005],
       device='cuda:1')
2022-11-16 03:01:09,994 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=70321.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 03:01:15,762 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=70330.0, num_to_drop=1, layers_to_drop={0}
2022-11-16 03:01:16,224 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.074e+02 1.701e+02 2.058e+02 2.547e+02 4.780e+02, threshold=4.115e+02, percent-clipped=1.0
2022-11-16 03:01:28,223 INFO [train.py:876] (1/4) Epoch 10, batch 4900, loss[loss=0.09947, simple_loss=0.1306, pruned_loss=0.03418, over 5770.00 frames. ], tot_loss[loss=0.1211, simple_loss=0.1462, pruned_loss=0.04799, over 1089650.05 frames. ], batch size: 16, lr: 8.01e-03, grad_scale: 8.0
2022-11-16 03:01:30,198 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([4.1509, 4.5290, 4.0916, 4.4655, 4.4987, 3.9456, 4.1547, 3.8326],
       device='cuda:1'), covar=tensor([0.0418, 0.0415, 0.1314, 0.0441, 0.0443, 0.0457, 0.0596, 0.0606],
       device='cuda:1'), in_proj_covar=tensor([0.0130, 0.0172, 0.0267, 0.0167, 0.0213, 0.0171, 0.0181, 0.0169],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0003, 0.0004, 0.0002, 0.0003, 0.0002, 0.0002, 0.0002],
       device='cuda:1')
2022-11-16 03:01:47,959 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=70378.0, num_to_drop=1, layers_to_drop={0}
2022-11-16 03:02:24,079 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.085e+02 1.613e+02 1.862e+02 2.297e+02 4.157e+02, threshold=3.724e+02, percent-clipped=1.0
2022-11-16 03:02:34,746 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.50 vs. limit=2.0
2022-11-16 03:02:36,298 INFO [train.py:876] (1/4) Epoch 10, batch 5000, loss[loss=0.2284, simple_loss=0.2029, pruned_loss=0.127, over 3148.00 frames. ], tot_loss[loss=0.1213, simple_loss=0.1461, pruned_loss=0.04826, over 1082382.11 frames. ], batch size: 285, lr: 8.01e-03, grad_scale: 8.0
2022-11-16 03:02:48,236 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=70466.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 03:03:17,516 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.84 vs. limit=2.0
2022-11-16 03:03:32,300 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 7.646e+01 1.626e+02 2.052e+02 2.453e+02 4.423e+02, threshold=4.104e+02, percent-clipped=3.0
2022-11-16 03:03:44,159 INFO [train.py:876] (1/4) Epoch 10, batch 5100, loss[loss=0.1471, simple_loss=0.162, pruned_loss=0.06605, over 5013.00 frames. ], tot_loss[loss=0.1203, simple_loss=0.1459, pruned_loss=0.04738, over 1089585.80 frames. ], batch size: 109, lr: 8.00e-03, grad_scale: 8.0
2022-11-16 03:04:30,171 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=70616.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 03:04:40,395 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 9.739e+01 1.539e+02 1.803e+02 2.270e+02 4.392e+02, threshold=3.606e+02, percent-clipped=1.0
2022-11-16 03:04:52,545 INFO [train.py:876] (1/4) Epoch 10, batch 5200, loss[loss=0.1813, simple_loss=0.18, pruned_loss=0.09132, over 5484.00 frames. ], tot_loss[loss=0.1204, simple_loss=0.1459, pruned_loss=0.04743, over 1094974.04 frames. ], batch size: 64, lr: 8.00e-03, grad_scale: 8.0
2022-11-16 03:05:11,751 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.2343, 2.7893, 2.2809, 1.5628, 2.4709, 2.6838, 2.4344, 3.4075],
       device='cuda:1'), covar=tensor([0.1763, 0.1326, 0.1831, 0.2712, 0.0912, 0.1099, 0.0793, 0.0663],
       device='cuda:1'), in_proj_covar=tensor([0.0174, 0.0188, 0.0165, 0.0188, 0.0180, 0.0200, 0.0169, 0.0189],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004],
       device='cuda:1')
2022-11-16 03:05:19,749 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.3533, 4.2948, 2.9440, 4.0431, 3.3436, 3.0720, 2.2807, 3.5977],
       device='cuda:1'), covar=tensor([0.1568, 0.0235, 0.1128, 0.0370, 0.0735, 0.0952, 0.1965, 0.0386],
       device='cuda:1'), in_proj_covar=tensor([0.0158, 0.0140, 0.0163, 0.0148, 0.0175, 0.0171, 0.0166, 0.0159],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0003, 0.0004, 0.0003, 0.0004, 0.0004, 0.0004, 0.0004],
       device='cuda:1')
2022-11-16 03:05:24,103 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.9108, 3.9130, 4.0252, 4.0822, 3.8689, 3.4391, 4.4445, 3.9748],
       device='cuda:1'), covar=tensor([0.0478, 0.0935, 0.0389, 0.1187, 0.0515, 0.0433, 0.0783, 0.0656],
       device='cuda:1'), in_proj_covar=tensor([0.0086, 0.0105, 0.0091, 0.0115, 0.0085, 0.0077, 0.0143, 0.0100],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0003, 0.0002],
       device='cuda:1')
2022-11-16 03:05:47,144 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 9.458e+01 1.499e+02 1.855e+02 2.184e+02 5.918e+02, threshold=3.711e+02, percent-clipped=4.0
2022-11-16 03:05:59,634 INFO [train.py:876] (1/4) Epoch 10, batch 5300, loss[loss=0.06786, simple_loss=0.1001, pruned_loss=0.01782, over 5134.00 frames. ], tot_loss[loss=0.12, simple_loss=0.1453, pruned_loss=0.04734, over 1089072.79 frames. ], batch size: 7, lr: 7.99e-03, grad_scale: 8.0
2022-11-16 03:06:11,220 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=70766.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 03:06:11,289 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.9572, 2.8664, 2.7789, 1.4323, 2.6473, 3.2283, 2.7861, 3.5008],
       device='cuda:1'), covar=tensor([0.1970, 0.1540, 0.0872, 0.3025, 0.1156, 0.0637, 0.0604, 0.0719],
       device='cuda:1'), in_proj_covar=tensor([0.0175, 0.0188, 0.0165, 0.0189, 0.0181, 0.0201, 0.0168, 0.0189],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004],
       device='cuda:1')
2022-11-16 03:06:26,533 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.8971, 4.2745, 3.9048, 3.6195, 2.2402, 4.1513, 2.3051, 3.6680],
       device='cuda:1'), covar=tensor([0.0406, 0.0151, 0.0244, 0.0373, 0.0644, 0.0173, 0.0535, 0.0154],
       device='cuda:1'), in_proj_covar=tensor([0.0192, 0.0169, 0.0177, 0.0200, 0.0190, 0.0174, 0.0188, 0.0180],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
       device='cuda:1')
2022-11-16 03:06:35,843 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.9975, 3.5091, 3.1623, 3.5142, 3.5323, 3.0424, 3.2022, 3.0955],
       device='cuda:1'), covar=tensor([0.1355, 0.0482, 0.1274, 0.0444, 0.0506, 0.0566, 0.0754, 0.0717],
       device='cuda:1'), in_proj_covar=tensor([0.0130, 0.0174, 0.0268, 0.0166, 0.0212, 0.0173, 0.0182, 0.0171],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0003, 0.0004, 0.0002, 0.0003, 0.0002, 0.0003, 0.0002],
       device='cuda:1')
2022-11-16 03:06:43,991 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=70814.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 03:06:55,260 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 9.500e+01 1.530e+02 1.938e+02 2.261e+02 4.134e+02, threshold=3.876e+02, percent-clipped=2.0
2022-11-16 03:06:55,516 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([4.1150, 2.5747, 3.7451, 3.2054, 3.8473, 2.5854, 3.5375, 3.9447],
       device='cuda:1'), covar=tensor([0.0675, 0.1645, 0.0913, 0.1633, 0.0553, 0.1622, 0.1128, 0.0814],
       device='cuda:1'), in_proj_covar=tensor([0.0236, 0.0193, 0.0210, 0.0207, 0.0233, 0.0191, 0.0225, 0.0227],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004],
       device='cuda:1')
2022-11-16 03:07:07,455 INFO [train.py:876] (1/4) Epoch 10, batch 5400, loss[loss=0.1067, simple_loss=0.1355, pruned_loss=0.039, over 5708.00 frames. ], tot_loss[loss=0.1207, simple_loss=0.1457, pruned_loss=0.04781, over 1081856.87 frames. ], batch size: 17, lr: 7.99e-03, grad_scale: 8.0
2022-11-16 03:07:20,918 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.31 vs. limit=2.0
2022-11-16 03:07:52,773 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=70916.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 03:08:00,889 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.5377, 4.4942, 2.9199, 4.1240, 3.4534, 3.0008, 2.3029, 3.7472],
       device='cuda:1'), covar=tensor([0.1354, 0.0203, 0.1206, 0.0354, 0.0679, 0.0986, 0.1959, 0.0368],
       device='cuda:1'), in_proj_covar=tensor([0.0156, 0.0139, 0.0162, 0.0146, 0.0174, 0.0171, 0.0166, 0.0158],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0003, 0.0004, 0.0003, 0.0004, 0.0004, 0.0004, 0.0004],
       device='cuda:1')
2022-11-16 03:08:01,175 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=3.53 vs. limit=5.0
2022-11-16 03:08:02,764 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.058e+02 1.679e+02 2.107e+02 2.563e+02 5.005e+02, threshold=4.215e+02, percent-clipped=8.0
2022-11-16 03:08:04,206 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.6901, 4.7996, 3.1053, 4.5732, 3.6683, 3.1213, 2.4264, 4.0612],
       device='cuda:1'), covar=tensor([0.1315, 0.0238, 0.1091, 0.0274, 0.0516, 0.0938, 0.1934, 0.0334],
       device='cuda:1'), in_proj_covar=tensor([0.0156, 0.0139, 0.0162, 0.0146, 0.0174, 0.0171, 0.0166, 0.0158],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0003, 0.0004, 0.0003, 0.0004, 0.0004, 0.0004, 0.0004],
       device='cuda:1')
2022-11-16 03:08:14,642 INFO [train.py:876] (1/4) Epoch 10, batch 5500, loss[loss=0.1205, simple_loss=0.1521, pruned_loss=0.0445, over 5714.00 frames. ], tot_loss[loss=0.1212, simple_loss=0.1466, pruned_loss=0.04784, over 1084125.39 frames. ], batch size: 28, lr: 7.98e-03, grad_scale: 8.0
2022-11-16 03:08:21,042 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.7359, 4.6046, 3.5339, 2.0564, 4.3247, 1.9813, 4.4665, 2.5133],
       device='cuda:1'), covar=tensor([0.1259, 0.0113, 0.0412, 0.1888, 0.0156, 0.1589, 0.0132, 0.1481],
       device='cuda:1'), in_proj_covar=tensor([0.0120, 0.0103, 0.0111, 0.0112, 0.0101, 0.0120, 0.0098, 0.0109],
       device='cuda:1'), out_proj_covar=tensor([0.0005, 0.0004, 0.0004, 0.0004, 0.0004, 0.0005, 0.0004, 0.0004],
       device='cuda:1')
2022-11-16 03:08:24,879 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=70964.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 03:08:43,989 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=70992.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 03:08:49,840 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.66 vs. limit=2.0
2022-11-16 03:09:05,573 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=4.51 vs. limit=5.0
2022-11-16 03:09:10,369 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=71030.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 03:09:10,836 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.028e+02 1.597e+02 2.081e+02 2.610e+02 5.785e+02, threshold=4.161e+02, percent-clipped=1.0
2022-11-16 03:09:22,360 INFO [train.py:876] (1/4) Epoch 10, batch 5600, loss[loss=0.1252, simple_loss=0.16, pruned_loss=0.04522, over 5794.00 frames. ], tot_loss[loss=0.1226, simple_loss=0.1473, pruned_loss=0.04894, over 1079843.24 frames. ], batch size: 22, lr: 7.98e-03, grad_scale: 8.0
2022-11-16 03:09:25,137 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=71053.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 03:09:51,307 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=71091.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 03:10:05,473 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=1.82 vs. limit=2.0
2022-11-16 03:10:07,192 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([4.0411, 2.2743, 3.4551, 3.0071, 3.8028, 2.4490, 3.2208, 3.9117],
       device='cuda:1'), covar=tensor([0.0568, 0.1701, 0.0999, 0.1421, 0.0717, 0.1852, 0.1470, 0.0777],
       device='cuda:1'), in_proj_covar=tensor([0.0238, 0.0191, 0.0210, 0.0208, 0.0235, 0.0192, 0.0224, 0.0229],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004],
       device='cuda:1')
2022-11-16 03:10:18,056 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 9.341e+01 1.536e+02 1.905e+02 2.360e+02 4.065e+02, threshold=3.810e+02, percent-clipped=0.0
2022-11-16 03:10:30,666 INFO [train.py:876] (1/4) Epoch 10, batch 5700, loss[loss=0.1271, simple_loss=0.1596, pruned_loss=0.0473, over 5715.00 frames. ], tot_loss[loss=0.1213, simple_loss=0.1466, pruned_loss=0.04806, over 1084216.04 frames. ], batch size: 17, lr: 7.97e-03, grad_scale: 8.0
2022-11-16 03:10:36,481 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.55 vs. limit=2.0
2022-11-16 03:10:40,781 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.1504, 2.1646, 2.9309, 2.6461, 2.5583, 2.0703, 2.6899, 3.2085],
       device='cuda:1'), covar=tensor([0.0525, 0.1229, 0.0804, 0.1060, 0.1255, 0.1314, 0.0944, 0.0805],
       device='cuda:1'), in_proj_covar=tensor([0.0239, 0.0192, 0.0211, 0.0209, 0.0236, 0.0192, 0.0224, 0.0230],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004],
       device='cuda:1')
2022-11-16 03:11:26,879 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 9.887e+01 1.504e+02 1.909e+02 2.394e+02 3.838e+02, threshold=3.819e+02, percent-clipped=2.0
2022-11-16 03:11:37,312 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.3487, 1.4253, 1.3460, 1.2016, 1.1257, 1.2514, 1.1097, 0.9427],
       device='cuda:1'), covar=tensor([0.0027, 0.0037, 0.0036, 0.0042, 0.0044, 0.0037, 0.0038, 0.0053],
       device='cuda:1'), in_proj_covar=tensor([0.0025, 0.0024, 0.0024, 0.0032, 0.0028, 0.0026, 0.0030, 0.0031],
       device='cuda:1'), out_proj_covar=tensor([2.2687e-05, 2.2486e-05, 2.2177e-05, 3.0967e-05, 2.6124e-05, 2.4442e-05,
        2.8946e-05, 3.0273e-05], device='cuda:1')
2022-11-16 03:11:38,466 INFO [train.py:876] (1/4) Epoch 10, batch 5800, loss[loss=0.09016, simple_loss=0.1098, pruned_loss=0.03524, over 5406.00 frames. ], tot_loss[loss=0.1207, simple_loss=0.1463, pruned_loss=0.04755, over 1085400.03 frames. ], batch size: 9, lr: 7.96e-03, grad_scale: 4.0
2022-11-16 03:12:05,991 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.8635, 2.4587, 3.4679, 2.9805, 3.5691, 2.7368, 3.3474, 3.8400],
       device='cuda:1'), covar=tensor([0.0714, 0.1487, 0.0982, 0.1537, 0.0781, 0.1382, 0.1242, 0.0949],
       device='cuda:1'), in_proj_covar=tensor([0.0239, 0.0194, 0.0212, 0.0211, 0.0237, 0.0191, 0.0225, 0.0230],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004],
       device='cuda:1')
2022-11-16 03:12:34,045 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 7.935e+01 1.517e+02 1.924e+02 2.485e+02 4.438e+02, threshold=3.847e+02, percent-clipped=4.0
2022-11-16 03:12:36,871 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.4771, 3.3838, 3.2458, 3.0212, 1.8470, 3.2866, 2.2135, 2.9452],
       device='cuda:1'), covar=tensor([0.0361, 0.0185, 0.0184, 0.0310, 0.0559, 0.0224, 0.0441, 0.0179],
       device='cuda:1'), in_proj_covar=tensor([0.0186, 0.0166, 0.0173, 0.0196, 0.0186, 0.0171, 0.0183, 0.0176],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
       device='cuda:1')
2022-11-16 03:12:44,745 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=71348.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 03:12:44,892 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.6365, 3.5252, 3.4011, 3.1675, 1.9199, 3.4956, 2.2067, 2.8968],
       device='cuda:1'), covar=tensor([0.0374, 0.0205, 0.0239, 0.0402, 0.0637, 0.0213, 0.0472, 0.0220],
       device='cuda:1'), in_proj_covar=tensor([0.0186, 0.0166, 0.0173, 0.0195, 0.0186, 0.0171, 0.0183, 0.0176],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
       device='cuda:1')
2022-11-16 03:12:45,333 INFO [train.py:876] (1/4) Epoch 10, batch 5900, loss[loss=0.1266, simple_loss=0.1505, pruned_loss=0.0513, over 5575.00 frames. ], tot_loss[loss=0.1198, simple_loss=0.1449, pruned_loss=0.04729, over 1079120.04 frames. ], batch size: 25, lr: 7.96e-03, grad_scale: 4.0
2022-11-16 03:13:10,620 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=71386.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 03:13:23,285 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=3.45 vs. limit=5.0
2022-11-16 03:13:42,135 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.076e+02 1.550e+02 1.857e+02 2.377e+02 5.014e+02, threshold=3.713e+02, percent-clipped=7.0
2022-11-16 03:13:53,302 INFO [train.py:876] (1/4) Epoch 10, batch 6000, loss[loss=0.1431, simple_loss=0.1675, pruned_loss=0.05938, over 5633.00 frames. ], tot_loss[loss=0.1187, simple_loss=0.1443, pruned_loss=0.04652, over 1082078.57 frames. ], batch size: 38, lr: 7.95e-03, grad_scale: 8.0
2022-11-16 03:13:53,302 INFO [train.py:899] (1/4) Computing validation loss
2022-11-16 03:14:03,681 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.3456, 1.6873, 1.3728, 1.2879, 1.3437, 1.3370, 1.0951, 1.5224],
       device='cuda:1'), covar=tensor([0.0059, 0.0030, 0.0040, 0.0060, 0.0059, 0.0038, 0.0079, 0.0049],
       device='cuda:1'), in_proj_covar=tensor([0.0055, 0.0051, 0.0053, 0.0054, 0.0054, 0.0047, 0.0049, 0.0045],
       device='cuda:1'), out_proj_covar=tensor([4.9017e-05, 4.5439e-05, 4.7333e-05, 4.8311e-05, 4.8232e-05, 4.0773e-05,
        4.4620e-05, 4.0277e-05], device='cuda:1')
2022-11-16 03:14:11,198 INFO [train.py:908] (1/4) Epoch 10, validation: loss=0.1673, simple_loss=0.1835, pruned_loss=0.0755, over 1530663.00 frames. 
2022-11-16 03:14:11,199 INFO [train.py:909] (1/4) Maximum memory allocated so far is 4676MB
2022-11-16 03:14:21,797 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.8651, 1.8535, 2.4515, 1.5658, 0.9241, 2.9379, 2.2455, 1.7926],
       device='cuda:1'), covar=tensor([0.1114, 0.1382, 0.0762, 0.2588, 0.3499, 0.1274, 0.1114, 0.1654],
       device='cuda:1'), in_proj_covar=tensor([0.0091, 0.0081, 0.0082, 0.0093, 0.0068, 0.0060, 0.0067, 0.0079],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
       device='cuda:1')
2022-11-16 03:15:07,799 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 8.614e+01 1.652e+02 1.842e+02 2.318e+02 4.092e+02, threshold=3.683e+02, percent-clipped=3.0
2022-11-16 03:15:18,741 INFO [train.py:876] (1/4) Epoch 10, batch 6100, loss[loss=0.153, simple_loss=0.1675, pruned_loss=0.06929, over 5106.00 frames. ], tot_loss[loss=0.1194, simple_loss=0.1446, pruned_loss=0.04708, over 1079723.05 frames. ], batch size: 91, lr: 7.95e-03, grad_scale: 8.0
2022-11-16 03:15:42,761 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.77 vs. limit=2.0
2022-11-16 03:15:43,941 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.5791, 1.2013, 1.6577, 1.0761, 1.8391, 1.2855, 1.2808, 1.3215],
       device='cuda:1'), covar=tensor([0.1346, 0.0591, 0.1106, 0.0823, 0.1093, 0.1447, 0.0773, 0.1180],
       device='cuda:1'), in_proj_covar=tensor([0.0014, 0.0021, 0.0015, 0.0018, 0.0015, 0.0014, 0.0020, 0.0014],
       device='cuda:1'), out_proj_covar=tensor([7.5570e-05, 1.0300e-04, 7.8695e-05, 9.2271e-05, 8.0171e-05, 7.4853e-05,
        9.7829e-05, 7.6269e-05], device='cuda:1')
2022-11-16 03:16:04,731 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=71616.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 03:16:16,026 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 8.003e+01 1.497e+02 1.833e+02 2.234e+02 4.359e+02, threshold=3.667e+02, percent-clipped=3.0
2022-11-16 03:16:23,685 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=1.93 vs. limit=2.0
2022-11-16 03:16:26,679 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=71648.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 03:16:27,197 INFO [train.py:876] (1/4) Epoch 10, batch 6200, loss[loss=0.147, simple_loss=0.1783, pruned_loss=0.05786, over 5696.00 frames. ], tot_loss[loss=0.1191, simple_loss=0.1446, pruned_loss=0.04675, over 1082081.48 frames. ], batch size: 28, lr: 7.94e-03, grad_scale: 8.0
2022-11-16 03:16:45,866 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=71677.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 03:16:52,346 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=71686.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 03:16:53,143 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.21 vs. limit=2.0
2022-11-16 03:16:55,878 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.21 vs. limit=2.0
2022-11-16 03:16:58,307 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([4.5884, 5.3019, 4.7668, 5.2813, 5.2788, 4.3600, 5.1236, 4.7278],
       device='cuda:1'), covar=tensor([0.0297, 0.0337, 0.1176, 0.0382, 0.0426, 0.0472, 0.0411, 0.0462],
       device='cuda:1'), in_proj_covar=tensor([0.0130, 0.0171, 0.0267, 0.0172, 0.0213, 0.0172, 0.0183, 0.0171],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0003, 0.0004, 0.0003, 0.0003, 0.0002, 0.0003, 0.0002],
       device='cuda:1')
2022-11-16 03:16:58,946 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=71696.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 03:17:13,337 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.1862, 2.3732, 2.3697, 2.0788, 2.3220, 2.3042, 1.0481, 2.4415],
       device='cuda:1'), covar=tensor([0.0395, 0.0312, 0.0297, 0.0377, 0.0394, 0.0394, 0.2642, 0.0376],
       device='cuda:1'), in_proj_covar=tensor([0.0106, 0.0088, 0.0088, 0.0080, 0.0104, 0.0090, 0.0131, 0.0109],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
       device='cuda:1')
2022-11-16 03:17:23,599 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.040e+02 1.569e+02 1.914e+02 2.269e+02 4.591e+02, threshold=3.828e+02, percent-clipped=5.0
2022-11-16 03:17:24,937 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=71734.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 03:17:31,487 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.2300, 4.5238, 2.6412, 4.2060, 3.5186, 2.7626, 2.3610, 3.8202],
       device='cuda:1'), covar=tensor([0.2090, 0.0308, 0.1759, 0.0483, 0.0783, 0.1515, 0.2605, 0.0432],
       device='cuda:1'), in_proj_covar=tensor([0.0156, 0.0138, 0.0161, 0.0145, 0.0174, 0.0169, 0.0165, 0.0156],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0003, 0.0004, 0.0003, 0.0004, 0.0004, 0.0004, 0.0003],
       device='cuda:1')
2022-11-16 03:17:34,640 INFO [train.py:876] (1/4) Epoch 10, batch 6300, loss[loss=0.111, simple_loss=0.1374, pruned_loss=0.04229, over 5791.00 frames. ], tot_loss[loss=0.1207, simple_loss=0.1459, pruned_loss=0.04777, over 1083052.60 frames. ], batch size: 21, lr: 7.94e-03, grad_scale: 8.0
2022-11-16 03:17:47,221 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.6984, 1.9097, 2.4949, 2.3178, 2.4940, 1.7684, 2.3143, 2.6790],
       device='cuda:1'), covar=tensor([0.0584, 0.1267, 0.0674, 0.0923, 0.0765, 0.1263, 0.0793, 0.0542],
       device='cuda:1'), in_proj_covar=tensor([0.0238, 0.0195, 0.0212, 0.0213, 0.0236, 0.0192, 0.0226, 0.0230],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004],
       device='cuda:1')
2022-11-16 03:18:14,813 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.30 vs. limit=2.0
2022-11-16 03:18:30,418 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.087e+02 1.579e+02 1.935e+02 2.633e+02 4.632e+02, threshold=3.870e+02, percent-clipped=2.0
2022-11-16 03:18:42,503 INFO [train.py:876] (1/4) Epoch 10, batch 6400, loss[loss=0.07207, simple_loss=0.1086, pruned_loss=0.01776, over 5699.00 frames. ], tot_loss[loss=0.1182, simple_loss=0.1446, pruned_loss=0.04596, over 1089410.46 frames. ], batch size: 11, lr: 7.93e-03, grad_scale: 8.0
2022-11-16 03:18:56,153 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.7728, 4.2604, 3.8471, 4.2020, 4.1878, 3.4894, 3.7234, 3.7121],
       device='cuda:1'), covar=tensor([0.0631, 0.0423, 0.1264, 0.0397, 0.0468, 0.0486, 0.0692, 0.0549],
       device='cuda:1'), in_proj_covar=tensor([0.0131, 0.0173, 0.0269, 0.0171, 0.0217, 0.0172, 0.0185, 0.0172],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0003, 0.0004, 0.0003, 0.0003, 0.0002, 0.0003, 0.0002],
       device='cuda:1')
2022-11-16 03:19:29,516 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=71919.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 03:19:37,764 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 9.943e+01 1.534e+02 1.967e+02 2.415e+02 6.448e+02, threshold=3.935e+02, percent-clipped=1.0
2022-11-16 03:19:50,172 INFO [train.py:876] (1/4) Epoch 10, batch 6500, loss[loss=0.1281, simple_loss=0.1445, pruned_loss=0.05583, over 5074.00 frames. ], tot_loss[loss=0.1171, simple_loss=0.1435, pruned_loss=0.04537, over 1087080.11 frames. ], batch size: 91, lr: 7.93e-03, grad_scale: 8.0
2022-11-16 03:19:50,619 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=1.90 vs. limit=2.0
2022-11-16 03:19:59,983 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=6.19 vs. limit=5.0
2022-11-16 03:20:05,471 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=71972.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 03:20:10,803 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=71980.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 03:20:46,046 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 8.311e+01 1.515e+02 1.926e+02 2.349e+02 4.433e+02, threshold=3.852e+02, percent-clipped=3.0
2022-11-16 03:20:57,525 INFO [train.py:876] (1/4) Epoch 10, batch 6600, loss[loss=0.1429, simple_loss=0.1732, pruned_loss=0.0563, over 5623.00 frames. ], tot_loss[loss=0.119, simple_loss=0.1446, pruned_loss=0.0467, over 1082851.73 frames. ], batch size: 23, lr: 7.92e-03, grad_scale: 8.0
2022-11-16 03:21:16,035 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([0.5274, 1.0293, 1.0154, 0.9432, 0.9142, 1.3323, 1.1263, 1.1862],
       device='cuda:1'), covar=tensor([0.3228, 0.0720, 0.2725, 0.2154, 0.1837, 0.0462, 0.1718, 0.1745],
       device='cuda:1'), in_proj_covar=tensor([0.0090, 0.0080, 0.0081, 0.0092, 0.0067, 0.0058, 0.0066, 0.0078],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
       device='cuda:1')
2022-11-16 03:21:51,554 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=72129.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 03:21:53,316 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 9.616e+01 1.605e+02 1.991e+02 2.572e+02 4.942e+02, threshold=3.982e+02, percent-clipped=4.0
2022-11-16 03:22:04,580 INFO [train.py:876] (1/4) Epoch 10, batch 6700, loss[loss=0.115, simple_loss=0.1429, pruned_loss=0.04354, over 5529.00 frames. ], tot_loss[loss=0.1182, simple_loss=0.1438, pruned_loss=0.04625, over 1086185.15 frames. ], batch size: 14, lr: 7.91e-03, grad_scale: 8.0
2022-11-16 03:22:16,671 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.4211, 3.2898, 3.5048, 1.9596, 3.0805, 3.6490, 3.5147, 4.1050],
       device='cuda:1'), covar=tensor([0.2088, 0.1404, 0.0766, 0.2944, 0.0483, 0.0686, 0.0452, 0.0574],
       device='cuda:1'), in_proj_covar=tensor([0.0171, 0.0181, 0.0164, 0.0183, 0.0177, 0.0196, 0.0167, 0.0188],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004],
       device='cuda:1')
2022-11-16 03:22:33,091 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=72190.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 03:23:00,856 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.9779, 2.4894, 3.5760, 3.2666, 3.6507, 2.6226, 3.2399, 3.8597],
       device='cuda:1'), covar=tensor([0.0691, 0.1584, 0.1167, 0.1389, 0.0902, 0.1516, 0.1383, 0.0785],
       device='cuda:1'), in_proj_covar=tensor([0.0232, 0.0191, 0.0206, 0.0208, 0.0229, 0.0190, 0.0221, 0.0225],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004],
       device='cuda:1')
2022-11-16 03:23:01,932 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.034e+02 1.623e+02 1.994e+02 2.476e+02 5.420e+02, threshold=3.989e+02, percent-clipped=4.0
2022-11-16 03:23:03,985 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.9266, 1.5100, 1.5290, 1.3715, 1.5645, 1.6501, 1.4097, 1.6187],
       device='cuda:1'), covar=tensor([0.0028, 0.0085, 0.0082, 0.0068, 0.0104, 0.0059, 0.0048, 0.0064],
       device='cuda:1'), in_proj_covar=tensor([0.0025, 0.0023, 0.0024, 0.0031, 0.0027, 0.0025, 0.0030, 0.0030],
       device='cuda:1'), out_proj_covar=tensor([2.2593e-05, 2.1626e-05, 2.2120e-05, 3.0428e-05, 2.5066e-05, 2.3910e-05,
        2.9321e-05, 2.9601e-05], device='cuda:1')
2022-11-16 03:23:13,011 INFO [train.py:876] (1/4) Epoch 10, batch 6800, loss[loss=0.08472, simple_loss=0.1176, pruned_loss=0.02591, over 5437.00 frames. ], tot_loss[loss=0.121, simple_loss=0.1459, pruned_loss=0.04804, over 1084166.95 frames. ], batch size: 11, lr: 7.91e-03, grad_scale: 8.0
2022-11-16 03:23:28,138 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=72272.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 03:23:30,335 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=72275.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 03:24:02,088 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=72320.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 03:24:06,396 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=72326.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 03:24:11,067 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.013e+02 1.569e+02 1.889e+02 2.290e+02 4.536e+02, threshold=3.778e+02, percent-clipped=2.0
2022-11-16 03:24:23,847 INFO [train.py:876] (1/4) Epoch 10, batch 6900, loss[loss=0.1217, simple_loss=0.1589, pruned_loss=0.0422, over 5769.00 frames. ], tot_loss[loss=0.1183, simple_loss=0.1446, pruned_loss=0.046, over 1091983.22 frames. ], batch size: 21, lr: 7.90e-03, grad_scale: 8.0
2022-11-16 03:24:31,274 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.9499, 2.0094, 2.6263, 2.4374, 2.5739, 1.9242, 2.5252, 2.9695],
       device='cuda:1'), covar=tensor([0.0640, 0.1541, 0.0981, 0.1369, 0.0931, 0.1489, 0.1187, 0.0963],
       device='cuda:1'), in_proj_covar=tensor([0.0233, 0.0191, 0.0207, 0.0208, 0.0229, 0.0190, 0.0221, 0.0226],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004],
       device='cuda:1')
2022-11-16 03:24:49,659 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=72387.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 03:25:08,494 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.69 vs. limit=2.0
2022-11-16 03:25:12,676 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.61 vs. limit=2.0
2022-11-16 03:25:19,931 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 8.314e+01 1.574e+02 1.843e+02 2.228e+02 3.077e+02, threshold=3.686e+02, percent-clipped=0.0
2022-11-16 03:25:32,128 INFO [train.py:876] (1/4) Epoch 10, batch 7000, loss[loss=0.07319, simple_loss=0.1122, pruned_loss=0.0171, over 5521.00 frames. ], tot_loss[loss=0.1172, simple_loss=0.1435, pruned_loss=0.04546, over 1088511.61 frames. ], batch size: 10, lr: 7.90e-03, grad_scale: 8.0
2022-11-16 03:25:56,117 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=72485.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 03:26:12,560 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.9197, 1.6623, 1.8878, 1.3543, 1.6422, 1.4956, 1.1807, 1.7562],
       device='cuda:1'), covar=tensor([0.0045, 0.0048, 0.0052, 0.0049, 0.0040, 0.0042, 0.0040, 0.0050],
       device='cuda:1'), in_proj_covar=tensor([0.0055, 0.0052, 0.0052, 0.0053, 0.0054, 0.0048, 0.0049, 0.0046],
       device='cuda:1'), out_proj_covar=tensor([4.9451e-05, 4.7010e-05, 4.6332e-05, 4.8032e-05, 4.7856e-05, 4.1326e-05,
        4.4001e-05, 4.0559e-05], device='cuda:1')
2022-11-16 03:26:15,175 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.1130, 3.6715, 2.4507, 3.6642, 2.9560, 2.5598, 2.0343, 3.2960],
       device='cuda:1'), covar=tensor([0.1731, 0.0414, 0.1576, 0.0393, 0.1107, 0.1691, 0.2126, 0.0580],
       device='cuda:1'), in_proj_covar=tensor([0.0159, 0.0141, 0.0164, 0.0146, 0.0179, 0.0172, 0.0168, 0.0159],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0003, 0.0004, 0.0003, 0.0004, 0.0004, 0.0004, 0.0004],
       device='cuda:1')
2022-11-16 03:26:27,976 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.005e+02 1.555e+02 1.806e+02 2.267e+02 5.483e+02, threshold=3.612e+02, percent-clipped=3.0
2022-11-16 03:26:38,115 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.33 vs. limit=2.0
2022-11-16 03:26:39,475 INFO [train.py:876] (1/4) Epoch 10, batch 7100, loss[loss=0.1215, simple_loss=0.1364, pruned_loss=0.05334, over 5205.00 frames. ], tot_loss[loss=0.1194, simple_loss=0.1458, pruned_loss=0.04649, over 1090002.09 frames. ], batch size: 8, lr: 7.89e-03, grad_scale: 8.0
2022-11-16 03:26:41,838 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.9637, 3.0994, 3.1468, 2.9086, 3.1136, 3.0734, 1.1403, 3.1785],
       device='cuda:1'), covar=tensor([0.0286, 0.0282, 0.0250, 0.0276, 0.0265, 0.0288, 0.3016, 0.0303],
       device='cuda:1'), in_proj_covar=tensor([0.0102, 0.0083, 0.0085, 0.0078, 0.0100, 0.0087, 0.0127, 0.0105],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
       device='cuda:1')
2022-11-16 03:26:48,185 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.1923, 2.2636, 2.1199, 2.1719, 1.9893, 1.9175, 2.1180, 2.5568],
       device='cuda:1'), covar=tensor([0.1543, 0.1919, 0.3053, 0.1447, 0.2214, 0.1848, 0.2529, 0.0992],
       device='cuda:1'), in_proj_covar=tensor([0.0103, 0.0100, 0.0101, 0.0097, 0.0089, 0.0097, 0.0093, 0.0075],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0004, 0.0004, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
       device='cuda:1')
2022-11-16 03:26:57,715 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=72575.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 03:27:10,682 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.7703, 4.2418, 3.7985, 4.2333, 4.2253, 3.5265, 3.7947, 3.7458],
       device='cuda:1'), covar=tensor([0.0616, 0.0610, 0.1620, 0.0517, 0.0667, 0.0598, 0.0693, 0.0727],
       device='cuda:1'), in_proj_covar=tensor([0.0133, 0.0174, 0.0269, 0.0171, 0.0217, 0.0172, 0.0184, 0.0171],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0003, 0.0004, 0.0002, 0.0003, 0.0002, 0.0003, 0.0002],
       device='cuda:1')
2022-11-16 03:27:12,714 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.3172, 5.1623, 3.5611, 5.0270, 3.7982, 3.5558, 3.0688, 4.5843],
       device='cuda:1'), covar=tensor([0.1122, 0.0184, 0.0997, 0.0201, 0.0598, 0.0829, 0.1567, 0.0237],
       device='cuda:1'), in_proj_covar=tensor([0.0156, 0.0138, 0.0160, 0.0143, 0.0176, 0.0168, 0.0163, 0.0156],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0003, 0.0004, 0.0003, 0.0004, 0.0004, 0.0004, 0.0004],
       device='cuda:1')
2022-11-16 03:27:20,934 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.18 vs. limit=2.0
2022-11-16 03:27:30,437 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=72623.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 03:27:36,241 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.069e+02 1.573e+02 1.962e+02 2.591e+02 6.270e+02, threshold=3.924e+02, percent-clipped=1.0
2022-11-16 03:27:46,255 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.25 vs. limit=2.0
2022-11-16 03:27:47,367 INFO [train.py:876] (1/4) Epoch 10, batch 7200, loss[loss=0.09095, simple_loss=0.1227, pruned_loss=0.02961, over 5537.00 frames. ], tot_loss[loss=0.1201, simple_loss=0.1461, pruned_loss=0.04701, over 1089111.40 frames. ], batch size: 10, lr: 7.89e-03, grad_scale: 8.0
2022-11-16 03:28:02,454 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.27 vs. limit=2.0
2022-11-16 03:28:10,216 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=72682.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 03:28:20,774 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.7720, 2.7792, 2.1225, 2.8453, 2.3106, 2.4028, 2.2562, 3.2281],
       device='cuda:1'), covar=tensor([0.0847, 0.1366, 0.2217, 0.1511, 0.1456, 0.1288, 0.1606, 0.1592],
       device='cuda:1'), in_proj_covar=tensor([0.0104, 0.0101, 0.0103, 0.0097, 0.0089, 0.0098, 0.0093, 0.0075],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0004, 0.0004, 0.0004, 0.0003, 0.0004, 0.0003, 0.0003],
       device='cuda:1')
2022-11-16 03:28:29,311 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.5063, 3.3586, 3.4143, 3.1305, 1.9612, 3.4155, 2.2302, 2.8389],
       device='cuda:1'), covar=tensor([0.0348, 0.0137, 0.0141, 0.0339, 0.0479, 0.0145, 0.0408, 0.0168],
       device='cuda:1'), in_proj_covar=tensor([0.0189, 0.0172, 0.0176, 0.0198, 0.0187, 0.0172, 0.0185, 0.0178],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
       device='cuda:1')
2022-11-16 03:29:18,982 INFO [train.py:876] (1/4) Epoch 11, batch 0, loss[loss=0.1266, simple_loss=0.146, pruned_loss=0.05364, over 4675.00 frames. ], tot_loss[loss=0.1266, simple_loss=0.146, pruned_loss=0.05364, over 4675.00 frames. ], batch size: 135, lr: 7.53e-03, grad_scale: 8.0
2022-11-16 03:29:18,982 INFO [train.py:899] (1/4) Computing validation loss
2022-11-16 03:29:24,556 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([4.8717, 4.9711, 4.9628, 4.5757, 4.8983, 4.6387, 5.3209, 4.7880],
       device='cuda:1'), covar=tensor([0.0259, 0.0616, 0.0308, 0.1092, 0.0236, 0.0196, 0.0493, 0.0410],
       device='cuda:1'), in_proj_covar=tensor([0.0085, 0.0106, 0.0090, 0.0117, 0.0087, 0.0077, 0.0143, 0.0101],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0003, 0.0002],
       device='cuda:1')
2022-11-16 03:29:28,919 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.2989, 5.2469, 3.8895, 2.5989, 4.8445, 2.5880, 4.4508, 3.3227],
       device='cuda:1'), covar=tensor([0.0978, 0.0073, 0.0473, 0.2002, 0.0129, 0.1301, 0.0180, 0.1203],
       device='cuda:1'), in_proj_covar=tensor([0.0119, 0.0104, 0.0113, 0.0112, 0.0101, 0.0119, 0.0097, 0.0111],
       device='cuda:1'), out_proj_covar=tensor([0.0005, 0.0004, 0.0005, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004],
       device='cuda:1')
2022-11-16 03:29:35,596 INFO [train.py:908] (1/4) Epoch 11, validation: loss=0.1663, simple_loss=0.1831, pruned_loss=0.07475, over 1530663.00 frames. 
2022-11-16 03:29:35,596 INFO [train.py:909] (1/4) Maximum memory allocated so far is 4676MB
2022-11-16 03:29:43,100 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 9.965e+01 1.625e+02 2.129e+02 2.463e+02 4.242e+02, threshold=4.258e+02, percent-clipped=1.0
2022-11-16 03:29:55,189 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.4149, 1.3101, 1.4895, 0.9334, 1.4777, 1.6552, 1.0638, 1.3885],
       device='cuda:1'), covar=tensor([0.0976, 0.0424, 0.0240, 0.0721, 0.0875, 0.0481, 0.0516, 0.0293],
       device='cuda:1'), in_proj_covar=tensor([0.0014, 0.0021, 0.0014, 0.0018, 0.0015, 0.0013, 0.0020, 0.0014],
       device='cuda:1'), out_proj_covar=tensor([7.4401e-05, 1.0025e-04, 7.6328e-05, 8.9684e-05, 7.8476e-05, 7.2047e-05,
        9.6225e-05, 7.4294e-05], device='cuda:1')
2022-11-16 03:30:00,324 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([4.3692, 2.7058, 3.9017, 3.1802, 4.4438, 3.2537, 3.8229, 4.5368],
       device='cuda:1'), covar=tensor([0.0778, 0.1393, 0.0763, 0.1358, 0.0304, 0.1218, 0.1358, 0.0610],
       device='cuda:1'), in_proj_covar=tensor([0.0235, 0.0191, 0.0207, 0.0209, 0.0233, 0.0191, 0.0223, 0.0225],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004],
       device='cuda:1')
2022-11-16 03:30:17,735 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=72785.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 03:30:33,422 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=4.99 vs. limit=5.0
2022-11-16 03:30:42,329 INFO [train.py:876] (1/4) Epoch 11, batch 100, loss[loss=0.1242, simple_loss=0.1445, pruned_loss=0.05193, over 5565.00 frames. ], tot_loss[loss=0.116, simple_loss=0.1437, pruned_loss=0.0441, over 438785.57 frames. ], batch size: 40, lr: 7.52e-03, grad_scale: 8.0
2022-11-16 03:30:49,527 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.074e+02 1.571e+02 1.949e+02 2.153e+02 3.381e+02, threshold=3.898e+02, percent-clipped=0.0
2022-11-16 03:30:50,279 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=72833.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 03:31:29,510 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.0952, 2.5214, 3.2304, 2.0683, 1.7075, 3.4668, 2.9881, 2.5053],
       device='cuda:1'), covar=tensor([0.0627, 0.1295, 0.0620, 0.2677, 0.2918, 0.1827, 0.0759, 0.1209],
       device='cuda:1'), in_proj_covar=tensor([0.0092, 0.0082, 0.0084, 0.0092, 0.0068, 0.0060, 0.0069, 0.0080],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
       device='cuda:1')
2022-11-16 03:31:31,487 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=72894.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 03:31:36,167 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.22 vs. limit=2.0
2022-11-16 03:31:36,800 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.2803, 2.7388, 2.9404, 2.6594, 1.6829, 2.7272, 1.9697, 2.3049],
       device='cuda:1'), covar=tensor([0.0308, 0.0168, 0.0156, 0.0264, 0.0422, 0.0177, 0.0373, 0.0187],
       device='cuda:1'), in_proj_covar=tensor([0.0189, 0.0172, 0.0177, 0.0198, 0.0187, 0.0172, 0.0185, 0.0178],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
       device='cuda:1')
2022-11-16 03:31:50,365 INFO [train.py:876] (1/4) Epoch 11, batch 200, loss[loss=0.1, simple_loss=0.1457, pruned_loss=0.02719, over 5613.00 frames. ], tot_loss[loss=0.1145, simple_loss=0.1425, pruned_loss=0.04319, over 698415.00 frames. ], batch size: 23, lr: 7.52e-03, grad_scale: 8.0
2022-11-16 03:31:57,298 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 9.513e+01 1.538e+02 1.800e+02 2.272e+02 4.125e+02, threshold=3.600e+02, percent-clipped=3.0
2022-11-16 03:32:12,303 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=72955.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 03:32:18,265 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=72964.0, num_to_drop=1, layers_to_drop={0}
2022-11-16 03:32:30,967 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=72982.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 03:32:41,370 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([4.0719, 4.4603, 4.0824, 4.5416, 4.4933, 3.7380, 4.1611, 3.7784],
       device='cuda:1'), covar=tensor([0.0426, 0.0488, 0.1329, 0.0387, 0.0474, 0.0520, 0.0747, 0.0752],
       device='cuda:1'), in_proj_covar=tensor([0.0132, 0.0173, 0.0268, 0.0171, 0.0215, 0.0171, 0.0183, 0.0172],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0003, 0.0004, 0.0002, 0.0003, 0.0002, 0.0003, 0.0002],
       device='cuda:1')
2022-11-16 03:32:57,223 INFO [train.py:876] (1/4) Epoch 11, batch 300, loss[loss=0.09878, simple_loss=0.1382, pruned_loss=0.02969, over 5612.00 frames. ], tot_loss[loss=0.1165, simple_loss=0.1438, pruned_loss=0.04457, over 851917.26 frames. ], batch size: 23, lr: 7.51e-03, grad_scale: 8.0
2022-11-16 03:33:00,020 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=73025.0, num_to_drop=1, layers_to_drop={1}
2022-11-16 03:33:03,463 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=73030.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 03:33:04,296 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.3309, 0.9330, 0.9966, 0.9045, 1.0658, 1.1203, 0.6948, 0.9896],
       device='cuda:1'), covar=tensor([0.0228, 0.0511, 0.0332, 0.0648, 0.0451, 0.0348, 0.1083, 0.0557],
       device='cuda:1'), in_proj_covar=tensor([0.0014, 0.0021, 0.0015, 0.0018, 0.0015, 0.0014, 0.0020, 0.0014],
       device='cuda:1'), out_proj_covar=tensor([7.6583e-05, 1.0332e-04, 7.8886e-05, 9.2791e-05, 8.1017e-05, 7.4750e-05,
        9.9571e-05, 7.6613e-05], device='cuda:1')
2022-11-16 03:33:04,727 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.107e+02 1.624e+02 1.928e+02 2.465e+02 5.255e+02, threshold=3.856e+02, percent-clipped=4.0
2022-11-16 03:33:19,138 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.7767, 3.6767, 3.6849, 3.4211, 3.7092, 3.6705, 1.5256, 3.9306],
       device='cuda:1'), covar=tensor([0.0321, 0.0537, 0.0378, 0.0505, 0.0365, 0.0395, 0.3083, 0.0314],
       device='cuda:1'), in_proj_covar=tensor([0.0103, 0.0084, 0.0085, 0.0079, 0.0101, 0.0088, 0.0129, 0.0107],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
       device='cuda:1')
2022-11-16 03:33:49,922 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.8126, 1.2137, 1.8063, 0.9356, 1.5655, 1.4171, 1.1554, 1.5826],
       device='cuda:1'), covar=tensor([0.0455, 0.0882, 0.0377, 0.1274, 0.1205, 0.1084, 0.1060, 0.0503],
       device='cuda:1'), in_proj_covar=tensor([0.0014, 0.0021, 0.0015, 0.0019, 0.0016, 0.0014, 0.0020, 0.0014],
       device='cuda:1'), out_proj_covar=tensor([7.6820e-05, 1.0367e-04, 7.9230e-05, 9.3274e-05, 8.1751e-05, 7.5110e-05,
        9.9657e-05, 7.6471e-05], device='cuda:1')
2022-11-16 03:33:53,681 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.7702, 1.6324, 1.6757, 1.6603, 1.8079, 1.6570, 1.8712, 1.8152],
       device='cuda:1'), covar=tensor([0.0805, 0.1218, 0.0838, 0.1556, 0.0828, 0.0729, 0.1354, 0.1038],
       device='cuda:1'), in_proj_covar=tensor([0.0085, 0.0105, 0.0090, 0.0115, 0.0087, 0.0077, 0.0141, 0.0099],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0003, 0.0002],
       device='cuda:1')
2022-11-16 03:33:55,733 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.2932, 3.7188, 3.3391, 3.1994, 1.8473, 3.4706, 1.9833, 2.9716],
       device='cuda:1'), covar=tensor([0.0445, 0.0171, 0.0202, 0.0346, 0.0628, 0.0174, 0.0533, 0.0221],
       device='cuda:1'), in_proj_covar=tensor([0.0188, 0.0170, 0.0176, 0.0196, 0.0186, 0.0172, 0.0183, 0.0177],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
       device='cuda:1')
2022-11-16 03:34:03,258 INFO [train.py:876] (1/4) Epoch 11, batch 400, loss[loss=0.1596, simple_loss=0.1733, pruned_loss=0.07301, over 5332.00 frames. ], tot_loss[loss=0.1193, simple_loss=0.1459, pruned_loss=0.04639, over 943938.91 frames. ], batch size: 70, lr: 7.51e-03, grad_scale: 8.0
2022-11-16 03:34:11,191 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 9.143e+01 1.547e+02 1.866e+02 2.274e+02 4.703e+02, threshold=3.733e+02, percent-clipped=2.0
2022-11-16 03:35:07,069 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.30 vs. limit=2.0
2022-11-16 03:35:10,797 INFO [train.py:876] (1/4) Epoch 11, batch 500, loss[loss=0.1086, simple_loss=0.1402, pruned_loss=0.03851, over 5650.00 frames. ], tot_loss[loss=0.1169, simple_loss=0.1441, pruned_loss=0.04487, over 1000832.51 frames. ], batch size: 32, lr: 7.50e-03, grad_scale: 8.0
2022-11-16 03:35:11,668 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.4233, 2.3608, 2.5743, 3.3238, 3.3290, 2.5626, 2.1337, 3.3677],
       device='cuda:1'), covar=tensor([0.1164, 0.2977, 0.2285, 0.3922, 0.1420, 0.3601, 0.2435, 0.1344],
       device='cuda:1'), in_proj_covar=tensor([0.0247, 0.0200, 0.0191, 0.0312, 0.0227, 0.0205, 0.0191, 0.0243],
       device='cuda:1'), out_proj_covar=tensor([0.0006, 0.0005, 0.0005, 0.0006, 0.0005, 0.0005, 0.0005, 0.0005],
       device='cuda:1')
2022-11-16 03:35:17,968 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 7.259e+01 1.458e+02 1.748e+02 2.225e+02 4.920e+02, threshold=3.496e+02, percent-clipped=3.0
2022-11-16 03:35:30,811 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=73250.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 03:35:42,307 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=3.08 vs. limit=5.0
2022-11-16 03:35:59,470 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=73293.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 03:36:07,882 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=1.88 vs. limit=2.0
2022-11-16 03:36:18,449 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=73320.0, num_to_drop=1, layers_to_drop={1}
2022-11-16 03:36:19,023 INFO [train.py:876] (1/4) Epoch 11, batch 600, loss[loss=0.08843, simple_loss=0.1242, pruned_loss=0.02633, over 5105.00 frames. ], tot_loss[loss=0.116, simple_loss=0.1435, pruned_loss=0.04425, over 1038259.40 frames. ], batch size: 7, lr: 7.50e-03, grad_scale: 16.0
2022-11-16 03:36:26,010 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 9.407e+01 1.498e+02 1.818e+02 2.192e+02 5.468e+02, threshold=3.637e+02, percent-clipped=3.0
2022-11-16 03:36:41,240 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=73354.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 03:37:09,449 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.7065, 2.2577, 3.2809, 2.8803, 3.5194, 2.3421, 3.1877, 3.7861],
       device='cuda:1'), covar=tensor([0.0838, 0.1541, 0.0978, 0.1660, 0.0755, 0.1736, 0.1172, 0.0856],
       device='cuda:1'), in_proj_covar=tensor([0.0237, 0.0193, 0.0209, 0.0210, 0.0235, 0.0194, 0.0223, 0.0226],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004],
       device='cuda:1')
2022-11-16 03:37:26,415 INFO [train.py:876] (1/4) Epoch 11, batch 700, loss[loss=0.09517, simple_loss=0.1302, pruned_loss=0.0301, over 5512.00 frames. ], tot_loss[loss=0.1188, simple_loss=0.1453, pruned_loss=0.04613, over 1054909.53 frames. ], batch size: 17, lr: 7.49e-03, grad_scale: 16.0
2022-11-16 03:37:33,752 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 8.643e+01 1.493e+02 1.779e+02 2.171e+02 7.161e+02, threshold=3.558e+02, percent-clipped=3.0
2022-11-16 03:38:23,134 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.8083, 2.8433, 2.1463, 2.4252, 1.7039, 2.3196, 1.6210, 2.4326],
       device='cuda:1'), covar=tensor([0.1186, 0.0313, 0.0920, 0.0622, 0.1906, 0.0930, 0.1748, 0.0528],
       device='cuda:1'), in_proj_covar=tensor([0.0157, 0.0140, 0.0159, 0.0145, 0.0177, 0.0169, 0.0164, 0.0157],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0003, 0.0004, 0.0003, 0.0004, 0.0004, 0.0004, 0.0004],
       device='cuda:1')
2022-11-16 03:38:33,544 INFO [train.py:876] (1/4) Epoch 11, batch 800, loss[loss=0.1001, simple_loss=0.1305, pruned_loss=0.03482, over 5722.00 frames. ], tot_loss[loss=0.1191, simple_loss=0.1461, pruned_loss=0.0461, over 1072552.97 frames. ], batch size: 13, lr: 7.49e-03, grad_scale: 8.0
2022-11-16 03:38:41,647 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 9.679e+01 1.505e+02 1.889e+02 2.408e+02 4.187e+02, threshold=3.778e+02, percent-clipped=1.0
2022-11-16 03:38:48,699 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.3005, 2.4243, 2.1716, 2.1951, 2.2163, 1.6772, 2.1339, 2.6313],
       device='cuda:1'), covar=tensor([0.1294, 0.1349, 0.2098, 0.1344, 0.1469, 0.1814, 0.1614, 0.0744],
       device='cuda:1'), in_proj_covar=tensor([0.0104, 0.0100, 0.0103, 0.0097, 0.0089, 0.0098, 0.0093, 0.0075],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0004, 0.0004, 0.0004, 0.0003, 0.0004, 0.0003, 0.0003],
       device='cuda:1')
2022-11-16 03:38:49,025 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=4.73 vs. limit=5.0
2022-11-16 03:38:53,246 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=73550.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 03:39:20,198 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=73590.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 03:39:25,554 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=73598.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 03:39:40,081 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=73620.0, num_to_drop=1, layers_to_drop={0}
2022-11-16 03:39:40,651 INFO [train.py:876] (1/4) Epoch 11, batch 900, loss[loss=0.1622, simple_loss=0.1772, pruned_loss=0.07364, over 5431.00 frames. ], tot_loss[loss=0.1183, simple_loss=0.1447, pruned_loss=0.04593, over 1070454.20 frames. ], batch size: 58, lr: 7.48e-03, grad_scale: 8.0
2022-11-16 03:39:49,605 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 9.416e+01 1.675e+02 2.016e+02 2.471e+02 4.865e+02, threshold=4.032e+02, percent-clipped=2.0
2022-11-16 03:40:00,146 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=73649.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 03:40:01,545 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=73651.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 03:40:09,977 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=3.49 vs. limit=5.0
2022-11-16 03:40:12,985 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=73668.0, num_to_drop=1, layers_to_drop={0}
2022-11-16 03:40:44,243 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.1166, 2.3121, 2.6178, 3.2922, 3.2691, 2.5348, 2.2918, 3.4360],
       device='cuda:1'), covar=tensor([0.1384, 0.3186, 0.1996, 0.1984, 0.1242, 0.2828, 0.2240, 0.0730],
       device='cuda:1'), in_proj_covar=tensor([0.0246, 0.0200, 0.0188, 0.0310, 0.0226, 0.0205, 0.0190, 0.0243],
       device='cuda:1'), out_proj_covar=tensor([0.0006, 0.0005, 0.0005, 0.0006, 0.0005, 0.0005, 0.0005, 0.0005],
       device='cuda:1')
2022-11-16 03:40:47,969 INFO [train.py:876] (1/4) Epoch 11, batch 1000, loss[loss=0.1237, simple_loss=0.1588, pruned_loss=0.04434, over 5802.00 frames. ], tot_loss[loss=0.1166, simple_loss=0.1435, pruned_loss=0.04481, over 1080052.57 frames. ], batch size: 21, lr: 7.48e-03, grad_scale: 8.0
2022-11-16 03:40:55,185 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=73732.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 03:40:55,646 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 9.576e+01 1.693e+02 2.139e+02 2.600e+02 5.774e+02, threshold=4.279e+02, percent-clipped=7.0
2022-11-16 03:41:34,126 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=2.03 vs. limit=2.0
2022-11-16 03:41:36,504 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=73793.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 03:41:55,285 INFO [train.py:876] (1/4) Epoch 11, batch 1100, loss[loss=0.1069, simple_loss=0.1438, pruned_loss=0.03494, over 5751.00 frames. ], tot_loss[loss=0.1161, simple_loss=0.143, pruned_loss=0.04457, over 1079937.85 frames. ], batch size: 20, lr: 7.47e-03, grad_scale: 8.0
2022-11-16 03:42:02,966 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.033e+02 1.524e+02 1.845e+02 2.203e+02 3.683e+02, threshold=3.689e+02, percent-clipped=0.0
2022-11-16 03:42:11,838 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.6927, 2.1542, 3.1589, 2.7886, 3.5604, 2.0672, 2.8973, 3.7404],
       device='cuda:1'), covar=tensor([0.0832, 0.1920, 0.1377, 0.2052, 0.0702, 0.2157, 0.1692, 0.0848],
       device='cuda:1'), in_proj_covar=tensor([0.0236, 0.0191, 0.0209, 0.0208, 0.0233, 0.0192, 0.0222, 0.0225],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004],
       device='cuda:1')
2022-11-16 03:42:33,338 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=2.04 vs. limit=2.0
2022-11-16 03:43:01,960 INFO [train.py:876] (1/4) Epoch 11, batch 1200, loss[loss=0.08492, simple_loss=0.1098, pruned_loss=0.03004, over 5706.00 frames. ], tot_loss[loss=0.1159, simple_loss=0.1427, pruned_loss=0.04459, over 1084464.91 frames. ], batch size: 12, lr: 7.47e-03, grad_scale: 8.0
2022-11-16 03:43:10,219 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 8.261e+01 1.559e+02 1.976e+02 2.426e+02 6.394e+02, threshold=3.952e+02, percent-clipped=4.0
2022-11-16 03:43:15,050 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.9978, 4.1365, 3.9292, 3.7923, 4.0200, 3.7578, 1.5446, 4.1791],
       device='cuda:1'), covar=tensor([0.0253, 0.0219, 0.0295, 0.0293, 0.0308, 0.0394, 0.3170, 0.0254],
       device='cuda:1'), in_proj_covar=tensor([0.0104, 0.0087, 0.0085, 0.0080, 0.0102, 0.0089, 0.0132, 0.0108],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
       device='cuda:1')
2022-11-16 03:43:18,854 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=73946.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 03:43:20,844 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=73949.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 03:43:53,691 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=73997.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 03:44:04,933 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=4.44 vs. limit=5.0
2022-11-16 03:44:10,604 INFO [train.py:876] (1/4) Epoch 11, batch 1300, loss[loss=0.1212, simple_loss=0.1457, pruned_loss=0.0483, over 5741.00 frames. ], tot_loss[loss=0.1154, simple_loss=0.142, pruned_loss=0.04439, over 1086047.47 frames. ], batch size: 21, lr: 7.46e-03, grad_scale: 8.0
2022-11-16 03:44:10,700 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.3014, 3.3554, 3.3970, 3.0657, 3.2494, 3.0506, 1.3870, 3.4305],
       device='cuda:1'), covar=tensor([0.0282, 0.0285, 0.0301, 0.0320, 0.0374, 0.0431, 0.3107, 0.0379],
       device='cuda:1'), in_proj_covar=tensor([0.0104, 0.0087, 0.0086, 0.0080, 0.0103, 0.0089, 0.0132, 0.0108],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
       device='cuda:1')
2022-11-16 03:44:18,270 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 8.904e+01 1.577e+02 1.830e+02 2.359e+02 4.082e+02, threshold=3.660e+02, percent-clipped=1.0
2022-11-16 03:44:38,549 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=74064.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 03:44:55,161 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=74088.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 03:45:12,883 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([4.9974, 4.4414, 4.8011, 4.4725, 5.0279, 4.8045, 4.3706, 5.0129],
       device='cuda:1'), covar=tensor([0.0329, 0.0382, 0.0499, 0.0394, 0.0359, 0.0237, 0.0320, 0.0322],
       device='cuda:1'), in_proj_covar=tensor([0.0143, 0.0150, 0.0111, 0.0146, 0.0175, 0.0102, 0.0123, 0.0149],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003],
       device='cuda:1')
2022-11-16 03:45:16,721 INFO [train.py:876] (1/4) Epoch 11, batch 1400, loss[loss=0.09256, simple_loss=0.1347, pruned_loss=0.02523, over 5529.00 frames. ], tot_loss[loss=0.1144, simple_loss=0.1415, pruned_loss=0.04367, over 1091243.90 frames. ], batch size: 14, lr: 7.46e-03, grad_scale: 8.0
2022-11-16 03:45:19,903 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=74125.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 03:45:25,523 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 7.235e+01 1.555e+02 1.864e+02 2.328e+02 5.952e+02, threshold=3.728e+02, percent-clipped=5.0
2022-11-16 03:46:08,705 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=1.71 vs. limit=2.0
2022-11-16 03:46:24,537 INFO [train.py:876] (1/4) Epoch 11, batch 1500, loss[loss=0.1131, simple_loss=0.1369, pruned_loss=0.04469, over 5711.00 frames. ], tot_loss[loss=0.1149, simple_loss=0.1419, pruned_loss=0.04397, over 1087627.79 frames. ], batch size: 11, lr: 7.45e-03, grad_scale: 8.0
2022-11-16 03:46:32,814 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.078e+02 1.551e+02 1.772e+02 2.146e+02 3.863e+02, threshold=3.544e+02, percent-clipped=1.0
2022-11-16 03:46:37,957 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=74240.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 03:46:42,224 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=74246.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 03:46:46,767 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.6087, 3.7236, 3.6384, 3.5095, 3.5369, 3.5209, 1.6108, 3.7523],
       device='cuda:1'), covar=tensor([0.0294, 0.0323, 0.0401, 0.0332, 0.0440, 0.0538, 0.3125, 0.0315],
       device='cuda:1'), in_proj_covar=tensor([0.0104, 0.0086, 0.0086, 0.0080, 0.0104, 0.0089, 0.0133, 0.0108],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
       device='cuda:1')
2022-11-16 03:47:15,034 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=74294.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 03:47:19,873 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=74301.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 03:47:24,426 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.1260, 1.4204, 1.6555, 1.1562, 1.6326, 1.3880, 1.5555, 1.5780],
       device='cuda:1'), covar=tensor([0.0337, 0.0867, 0.1479, 0.1072, 0.1298, 0.0615, 0.0827, 0.0614],
       device='cuda:1'), in_proj_covar=tensor([0.0014, 0.0022, 0.0015, 0.0019, 0.0016, 0.0014, 0.0021, 0.0015],
       device='cuda:1'), out_proj_covar=tensor([7.8327e-05, 1.0677e-04, 8.1608e-05, 9.6081e-05, 8.2389e-05, 7.6760e-05,
        1.0091e-04, 7.8492e-05], device='cuda:1')
2022-11-16 03:47:33,156 INFO [train.py:876] (1/4) Epoch 11, batch 1600, loss[loss=0.08453, simple_loss=0.1225, pruned_loss=0.02328, over 5732.00 frames. ], tot_loss[loss=0.1144, simple_loss=0.1415, pruned_loss=0.04367, over 1086059.97 frames. ], batch size: 13, lr: 7.45e-03, grad_scale: 8.0
2022-11-16 03:47:40,983 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 9.188e+01 1.509e+02 1.863e+02 2.484e+02 5.200e+02, threshold=3.726e+02, percent-clipped=6.0
2022-11-16 03:47:52,012 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.6885, 2.3579, 2.7447, 2.1783, 1.6880, 3.3906, 2.5597, 2.2738],
       device='cuda:1'), covar=tensor([0.1324, 0.1330, 0.0961, 0.2973, 0.2562, 0.0803, 0.1123, 0.1042],
       device='cuda:1'), in_proj_covar=tensor([0.0099, 0.0085, 0.0088, 0.0097, 0.0071, 0.0064, 0.0073, 0.0085],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
       device='cuda:1')
2022-11-16 03:48:10,640 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.0503, 1.7009, 1.4810, 1.5469, 1.1975, 2.1466, 1.6590, 1.2161],
       device='cuda:1'), covar=tensor([0.2488, 0.1013, 0.2151, 0.2536, 0.2514, 0.0802, 0.1762, 0.2852],
       device='cuda:1'), in_proj_covar=tensor([0.0097, 0.0084, 0.0087, 0.0096, 0.0070, 0.0063, 0.0072, 0.0084],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
       device='cuda:1')
2022-11-16 03:48:10,882 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.52 vs. limit=2.0
2022-11-16 03:48:18,283 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=74388.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 03:48:39,918 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=74420.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 03:48:40,466 INFO [train.py:876] (1/4) Epoch 11, batch 1700, loss[loss=0.1423, simple_loss=0.1644, pruned_loss=0.06012, over 5562.00 frames. ], tot_loss[loss=0.1148, simple_loss=0.142, pruned_loss=0.04381, over 1089277.71 frames. ], batch size: 43, lr: 7.44e-03, grad_scale: 8.0
2022-11-16 03:48:48,599 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.147e+02 1.679e+02 2.068e+02 2.361e+02 5.198e+02, threshold=4.137e+02, percent-clipped=4.0
2022-11-16 03:48:50,642 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=74436.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 03:49:18,283 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.8992, 1.9652, 2.7735, 2.4769, 2.4885, 1.8356, 2.5038, 2.9967],
       device='cuda:1'), covar=tensor([0.0817, 0.1303, 0.0827, 0.1179, 0.0887, 0.1398, 0.1014, 0.0804],
       device='cuda:1'), in_proj_covar=tensor([0.0238, 0.0193, 0.0210, 0.0210, 0.0235, 0.0194, 0.0225, 0.0225],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004],
       device='cuda:1')
2022-11-16 03:49:33,229 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=4.21 vs. limit=5.0
2022-11-16 03:49:48,195 INFO [train.py:876] (1/4) Epoch 11, batch 1800, loss[loss=0.1329, simple_loss=0.1595, pruned_loss=0.05319, over 5684.00 frames. ], tot_loss[loss=0.1168, simple_loss=0.1433, pruned_loss=0.0452, over 1079154.79 frames. ], batch size: 34, lr: 7.44e-03, grad_scale: 8.0
2022-11-16 03:49:55,852 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 9.990e+01 1.615e+02 2.043e+02 2.453e+02 6.860e+02, threshold=4.086e+02, percent-clipped=1.0
2022-11-16 03:50:13,873 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.20 vs. limit=2.0
2022-11-16 03:50:38,139 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=74595.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 03:50:38,730 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=74596.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 03:50:56,052 INFO [train.py:876] (1/4) Epoch 11, batch 1900, loss[loss=0.1725, simple_loss=0.1838, pruned_loss=0.08062, over 5371.00 frames. ], tot_loss[loss=0.1175, simple_loss=0.1433, pruned_loss=0.04586, over 1073887.21 frames. ], batch size: 70, lr: 7.43e-03, grad_scale: 8.0
2022-11-16 03:51:04,169 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 9.647e+01 1.532e+02 1.879e+02 2.235e+02 4.032e+02, threshold=3.759e+02, percent-clipped=0.0
2022-11-16 03:51:06,826 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([4.3931, 3.9646, 4.2430, 4.0075, 4.5053, 4.3196, 4.0816, 4.5313],
       device='cuda:1'), covar=tensor([0.0460, 0.0386, 0.0499, 0.0355, 0.0383, 0.0264, 0.0269, 0.0283],
       device='cuda:1'), in_proj_covar=tensor([0.0141, 0.0146, 0.0109, 0.0142, 0.0171, 0.0100, 0.0121, 0.0147],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003],
       device='cuda:1')
2022-11-16 03:51:08,905 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.0465, 3.0665, 2.3019, 1.6720, 2.9655, 1.1919, 2.9429, 1.8404],
       device='cuda:1'), covar=tensor([0.1108, 0.0243, 0.1256, 0.1677, 0.0251, 0.2011, 0.0317, 0.1284],
       device='cuda:1'), in_proj_covar=tensor([0.0122, 0.0105, 0.0116, 0.0115, 0.0102, 0.0125, 0.0100, 0.0112],
       device='cuda:1'), out_proj_covar=tensor([0.0005, 0.0004, 0.0005, 0.0004, 0.0004, 0.0005, 0.0004, 0.0004],
       device='cuda:1')
2022-11-16 03:51:09,081 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=1.68 vs. limit=2.0
2022-11-16 03:51:19,911 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=74656.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 03:52:03,037 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=74720.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 03:52:03,553 INFO [train.py:876] (1/4) Epoch 11, batch 2000, loss[loss=0.1591, simple_loss=0.1686, pruned_loss=0.07479, over 5361.00 frames. ], tot_loss[loss=0.1179, simple_loss=0.1436, pruned_loss=0.04607, over 1075012.51 frames. ], batch size: 70, lr: 7.43e-03, grad_scale: 8.0
2022-11-16 03:52:12,066 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 7.989e+01 1.482e+02 1.897e+02 2.343e+02 3.956e+02, threshold=3.795e+02, percent-clipped=2.0
2022-11-16 03:52:15,234 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.36 vs. limit=2.0
2022-11-16 03:52:35,420 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=74768.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 03:52:35,584 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.5147, 2.1838, 3.1844, 2.8495, 3.0826, 2.2169, 2.9496, 3.5742],
       device='cuda:1'), covar=tensor([0.0639, 0.1585, 0.0847, 0.1512, 0.0837, 0.1536, 0.1137, 0.0846],
       device='cuda:1'), in_proj_covar=tensor([0.0241, 0.0195, 0.0214, 0.0215, 0.0239, 0.0197, 0.0227, 0.0230],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004],
       device='cuda:1')
2022-11-16 03:52:52,415 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([4.6296, 4.4575, 4.5340, 4.6748, 4.3855, 4.0644, 5.0794, 4.5252],
       device='cuda:1'), covar=tensor([0.0403, 0.0855, 0.0520, 0.1200, 0.0545, 0.0437, 0.0771, 0.0558],
       device='cuda:1'), in_proj_covar=tensor([0.0084, 0.0107, 0.0092, 0.0117, 0.0088, 0.0076, 0.0143, 0.0100],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0003, 0.0002],
       device='cuda:1')
2022-11-16 03:53:11,057 INFO [train.py:876] (1/4) Epoch 11, batch 2100, loss[loss=0.127, simple_loss=0.1403, pruned_loss=0.05685, over 4757.00 frames. ], tot_loss[loss=0.1171, simple_loss=0.1437, pruned_loss=0.04523, over 1077628.81 frames. ], batch size: 135, lr: 7.42e-03, grad_scale: 8.0
2022-11-16 03:53:19,079 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 9.996e+01 1.479e+02 1.848e+02 2.338e+02 4.200e+02, threshold=3.697e+02, percent-clipped=1.0
2022-11-16 03:53:29,016 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.4525, 3.2167, 3.6968, 1.8052, 3.2279, 3.9015, 3.7580, 4.2371],
       device='cuda:1'), covar=tensor([0.1917, 0.1443, 0.0444, 0.2717, 0.0670, 0.0500, 0.0429, 0.0505],
       device='cuda:1'), in_proj_covar=tensor([0.0167, 0.0180, 0.0163, 0.0183, 0.0182, 0.0195, 0.0167, 0.0186],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004],
       device='cuda:1')
2022-11-16 03:54:02,271 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=74896.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 03:54:10,817 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=74909.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 03:54:18,890 INFO [train.py:876] (1/4) Epoch 11, batch 2200, loss[loss=0.09551, simple_loss=0.1198, pruned_loss=0.03562, over 5487.00 frames. ], tot_loss[loss=0.1172, simple_loss=0.1436, pruned_loss=0.0454, over 1081094.90 frames. ], batch size: 11, lr: 7.42e-03, grad_scale: 8.0
2022-11-16 03:54:26,972 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.032e+02 1.575e+02 1.874e+02 2.286e+02 4.723e+02, threshold=3.748e+02, percent-clipped=3.0
2022-11-16 03:54:32,358 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.8258, 2.4404, 2.9356, 2.0765, 1.5958, 3.3782, 2.8131, 2.3512],
       device='cuda:1'), covar=tensor([0.0765, 0.1126, 0.0655, 0.2357, 0.2643, 0.1734, 0.0841, 0.0994],
       device='cuda:1'), in_proj_covar=tensor([0.0097, 0.0085, 0.0086, 0.0095, 0.0071, 0.0063, 0.0073, 0.0084],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
       device='cuda:1')
2022-11-16 03:54:34,898 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=74944.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 03:54:39,525 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=74951.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 03:54:44,508 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=1.96 vs. limit=2.0
2022-11-16 03:54:48,159 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=74964.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 03:54:50,022 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.82 vs. limit=2.0
2022-11-16 03:54:52,448 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=74970.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 03:55:30,346 INFO [train.py:876] (1/4) Epoch 11, batch 2300, loss[loss=0.0922, simple_loss=0.1198, pruned_loss=0.0323, over 5502.00 frames. ], tot_loss[loss=0.1168, simple_loss=0.1434, pruned_loss=0.04508, over 1082803.89 frames. ], batch size: 14, lr: 7.41e-03, grad_scale: 8.0
2022-11-16 03:55:33,379 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=75025.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 03:55:38,335 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 7.756e+01 1.570e+02 1.933e+02 2.290e+02 4.748e+02, threshold=3.866e+02, percent-clipped=2.0
2022-11-16 03:56:34,631 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([4.1060, 2.2783, 3.5328, 3.1675, 4.0944, 2.5243, 3.4597, 4.1185],
       device='cuda:1'), covar=tensor([0.0690, 0.2000, 0.0909, 0.1537, 0.0471, 0.1695, 0.1385, 0.0926],
       device='cuda:1'), in_proj_covar=tensor([0.0236, 0.0193, 0.0210, 0.0210, 0.0236, 0.0194, 0.0222, 0.0227],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004],
       device='cuda:1')
2022-11-16 03:56:37,692 INFO [train.py:876] (1/4) Epoch 11, batch 2400, loss[loss=0.151, simple_loss=0.1596, pruned_loss=0.07121, over 5456.00 frames. ], tot_loss[loss=0.1171, simple_loss=0.1441, pruned_loss=0.04508, over 1086773.49 frames. ], batch size: 64, lr: 7.41e-03, grad_scale: 8.0
2022-11-16 03:56:45,362 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.051e+02 1.612e+02 2.010e+02 2.396e+02 4.325e+02, threshold=4.021e+02, percent-clipped=4.0
2022-11-16 03:56:49,503 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.7579, 2.3320, 2.1308, 1.4960, 2.0912, 2.3884, 2.4311, 2.4594],
       device='cuda:1'), covar=tensor([0.1819, 0.1486, 0.1480, 0.2701, 0.1045, 0.1099, 0.0636, 0.1150],
       device='cuda:1'), in_proj_covar=tensor([0.0168, 0.0181, 0.0164, 0.0184, 0.0182, 0.0198, 0.0169, 0.0188],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004],
       device='cuda:1')
2022-11-16 03:57:45,188 INFO [train.py:876] (1/4) Epoch 11, batch 2500, loss[loss=0.08359, simple_loss=0.1169, pruned_loss=0.02512, over 5497.00 frames. ], tot_loss[loss=0.116, simple_loss=0.1426, pruned_loss=0.04466, over 1086058.64 frames. ], batch size: 12, lr: 7.40e-03, grad_scale: 8.0
2022-11-16 03:57:50,332 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=75228.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 03:57:53,348 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 9.180e+01 1.567e+02 1.927e+02 2.439e+02 5.845e+02, threshold=3.854e+02, percent-clipped=5.0
2022-11-16 03:58:05,555 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=75251.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 03:58:14,708 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=75265.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 03:58:18,695 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=75270.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 03:58:31,491 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=75289.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 03:58:32,869 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.6807, 1.1388, 1.1759, 0.8824, 1.3834, 1.5621, 0.7523, 1.1381],
       device='cuda:1'), covar=tensor([0.0224, 0.0567, 0.0403, 0.0574, 0.0360, 0.0244, 0.0694, 0.0501],
       device='cuda:1'), in_proj_covar=tensor([0.0014, 0.0023, 0.0015, 0.0020, 0.0016, 0.0015, 0.0021, 0.0015],
       device='cuda:1'), out_proj_covar=tensor([7.9434e-05, 1.0916e-04, 8.2296e-05, 9.8818e-05, 8.3677e-05, 7.9660e-05,
        1.0244e-04, 8.0194e-05], device='cuda:1')
2022-11-16 03:58:38,038 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=75299.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 03:58:52,025 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=75320.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 03:58:52,581 INFO [train.py:876] (1/4) Epoch 11, batch 2600, loss[loss=0.08082, simple_loss=0.1241, pruned_loss=0.01877, over 5797.00 frames. ], tot_loss[loss=0.1173, simple_loss=0.1436, pruned_loss=0.04549, over 1080181.58 frames. ], batch size: 22, lr: 7.40e-03, grad_scale: 8.0
2022-11-16 03:59:00,301 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=75331.0, num_to_drop=1, layers_to_drop={3}
2022-11-16 03:59:01,317 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.032e+02 1.425e+02 1.750e+02 2.205e+02 4.754e+02, threshold=3.499e+02, percent-clipped=3.0
2022-11-16 03:59:17,067 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.4355, 1.0372, 1.0518, 0.9495, 1.1293, 1.3664, 0.7970, 1.2246],
       device='cuda:1'), covar=tensor([0.0686, 0.0477, 0.0708, 0.0845, 0.0719, 0.0387, 0.0746, 0.0402],
       device='cuda:1'), in_proj_covar=tensor([0.0014, 0.0023, 0.0016, 0.0020, 0.0016, 0.0015, 0.0021, 0.0015],
       device='cuda:1'), out_proj_covar=tensor([8.0497e-05, 1.1095e-04, 8.3249e-05, 1.0042e-04, 8.5017e-05, 8.0280e-05,
        1.0407e-04, 8.1545e-05], device='cuda:1')
2022-11-16 03:59:27,463 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.48 vs. limit=2.0
2022-11-16 03:59:42,321 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.80 vs. limit=2.0
2022-11-16 04:00:00,560 INFO [train.py:876] (1/4) Epoch 11, batch 2700, loss[loss=0.09356, simple_loss=0.1305, pruned_loss=0.0283, over 5576.00 frames. ], tot_loss[loss=0.1167, simple_loss=0.1431, pruned_loss=0.04518, over 1082272.26 frames. ], batch size: 15, lr: 7.39e-03, grad_scale: 8.0
2022-11-16 04:00:08,241 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 8.727e+01 1.476e+02 1.842e+02 2.376e+02 5.290e+02, threshold=3.683e+02, percent-clipped=4.0
2022-11-16 04:01:07,876 INFO [train.py:876] (1/4) Epoch 11, batch 2800, loss[loss=0.1429, simple_loss=0.1611, pruned_loss=0.06241, over 5203.00 frames. ], tot_loss[loss=0.1166, simple_loss=0.1432, pruned_loss=0.04497, over 1082632.59 frames. ], batch size: 91, lr: 7.39e-03, grad_scale: 16.0
2022-11-16 04:01:15,802 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 9.621e+01 1.514e+02 1.754e+02 2.242e+02 3.721e+02, threshold=3.509e+02, percent-clipped=2.0
2022-11-16 04:01:36,757 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.21 vs. limit=2.0
2022-11-16 04:01:37,946 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=75565.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 04:01:47,872 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.8184, 2.3834, 2.7103, 3.6447, 3.6928, 2.8699, 2.4271, 3.6511],
       device='cuda:1'), covar=tensor([0.0784, 0.3347, 0.2267, 0.2682, 0.1125, 0.2723, 0.2361, 0.0854],
       device='cuda:1'), in_proj_covar=tensor([0.0246, 0.0198, 0.0189, 0.0308, 0.0219, 0.0201, 0.0189, 0.0242],
       device='cuda:1'), out_proj_covar=tensor([0.0006, 0.0005, 0.0005, 0.0006, 0.0005, 0.0005, 0.0005, 0.0005],
       device='cuda:1')
2022-11-16 04:01:50,649 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=75584.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 04:02:10,820 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=75613.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 04:02:15,425 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=75620.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 04:02:15,978 INFO [train.py:876] (1/4) Epoch 11, batch 2900, loss[loss=0.1238, simple_loss=0.1367, pruned_loss=0.05544, over 5766.00 frames. ], tot_loss[loss=0.1167, simple_loss=0.1436, pruned_loss=0.04493, over 1089699.94 frames. ], batch size: 14, lr: 7.38e-03, grad_scale: 16.0
2022-11-16 04:02:19,374 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=75626.0, num_to_drop=1, layers_to_drop={1}
2022-11-16 04:02:23,739 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 7.526e+01 1.563e+02 1.912e+02 2.291e+02 3.744e+02, threshold=3.824e+02, percent-clipped=2.0
2022-11-16 04:02:43,812 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.35 vs. limit=2.0
2022-11-16 04:02:47,903 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=75668.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 04:02:59,031 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([4.3745, 4.3856, 4.3299, 4.2518, 4.2689, 4.2684, 1.8641, 4.4071],
       device='cuda:1'), covar=tensor([0.0264, 0.0253, 0.0324, 0.0502, 0.0302, 0.0307, 0.3331, 0.0301],
       device='cuda:1'), in_proj_covar=tensor([0.0107, 0.0089, 0.0089, 0.0083, 0.0106, 0.0091, 0.0136, 0.0110],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
       device='cuda:1')
2022-11-16 04:03:16,466 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.36 vs. limit=2.0
2022-11-16 04:03:23,300 INFO [train.py:876] (1/4) Epoch 11, batch 3000, loss[loss=0.1062, simple_loss=0.1302, pruned_loss=0.04111, over 4582.00 frames. ], tot_loss[loss=0.1178, simple_loss=0.1437, pruned_loss=0.04595, over 1083890.58 frames. ], batch size: 5, lr: 7.38e-03, grad_scale: 16.0
2022-11-16 04:03:23,300 INFO [train.py:899] (1/4) Computing validation loss
2022-11-16 04:03:35,031 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.3825, 1.8247, 1.4374, 1.3371, 1.4221, 1.4014, 1.0986, 1.5309],
       device='cuda:1'), covar=tensor([0.0051, 0.0024, 0.0043, 0.0064, 0.0053, 0.0036, 0.0073, 0.0054],
       device='cuda:1'), in_proj_covar=tensor([0.0057, 0.0051, 0.0052, 0.0055, 0.0055, 0.0049, 0.0050, 0.0047],
       device='cuda:1'), out_proj_covar=tensor([5.0917e-05, 4.5794e-05, 4.6322e-05, 4.9782e-05, 4.8843e-05, 4.3043e-05,
        4.4822e-05, 4.1569e-05], device='cuda:1')
2022-11-16 04:03:36,556 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.1743, 1.8145, 1.6983, 1.6946, 1.5207, 1.9770, 1.5496, 1.6473],
       device='cuda:1'), covar=tensor([0.0024, 0.0057, 0.0079, 0.0044, 0.0062, 0.0094, 0.0046, 0.0039],
       device='cuda:1'), in_proj_covar=tensor([0.0027, 0.0025, 0.0025, 0.0034, 0.0028, 0.0027, 0.0033, 0.0032],
       device='cuda:1'), out_proj_covar=tensor([2.4446e-05, 2.3207e-05, 2.2916e-05, 3.3102e-05, 2.6241e-05, 2.6085e-05,
        3.1636e-05, 3.1408e-05], device='cuda:1')
2022-11-16 04:03:36,995 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([4.1614, 4.2288, 3.9558, 4.1160, 4.1529, 3.9594, 1.7987, 4.1523],
       device='cuda:1'), covar=tensor([0.0149, 0.0125, 0.0178, 0.0132, 0.0214, 0.0205, 0.2948, 0.0188],
       device='cuda:1'), in_proj_covar=tensor([0.0108, 0.0090, 0.0089, 0.0083, 0.0106, 0.0091, 0.0137, 0.0111],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
       device='cuda:1')
2022-11-16 04:03:39,221 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.8737, 2.7562, 2.7431, 2.4718, 2.9032, 2.8776, 2.9210, 2.9631],
       device='cuda:1'), covar=tensor([0.0422, 0.0447, 0.0456, 0.0677, 0.0492, 0.0254, 0.0288, 0.0451],
       device='cuda:1'), in_proj_covar=tensor([0.0140, 0.0146, 0.0107, 0.0142, 0.0171, 0.0101, 0.0122, 0.0147],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003],
       device='cuda:1')
2022-11-16 04:03:39,852 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.6370, 4.1577, 4.3877, 3.8354, 2.5140, 4.5662, 2.7767, 3.8110],
       device='cuda:1'), covar=tensor([0.0271, 0.0227, 0.0141, 0.0384, 0.0584, 0.0121, 0.0589, 0.0184],
       device='cuda:1'), in_proj_covar=tensor([0.0189, 0.0171, 0.0175, 0.0197, 0.0187, 0.0173, 0.0187, 0.0178],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
       device='cuda:1')
2022-11-16 04:03:40,544 INFO [train.py:908] (1/4) Epoch 11, validation: loss=0.1699, simple_loss=0.1855, pruned_loss=0.07718, over 1530663.00 frames. 
2022-11-16 04:03:40,545 INFO [train.py:909] (1/4) Maximum memory allocated so far is 4676MB
2022-11-16 04:03:48,302 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.213e+02 1.514e+02 1.845e+02 2.226e+02 5.649e+02, threshold=3.690e+02, percent-clipped=5.0
2022-11-16 04:03:50,298 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([4.3478, 4.3134, 4.2571, 4.5080, 4.0597, 3.9209, 4.8840, 4.3294],
       device='cuda:1'), covar=tensor([0.0393, 0.0700, 0.0403, 0.1106, 0.0520, 0.0343, 0.0676, 0.0607],
       device='cuda:1'), in_proj_covar=tensor([0.0086, 0.0109, 0.0094, 0.0119, 0.0089, 0.0078, 0.0144, 0.0102],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0003, 0.0002],
       device='cuda:1')
2022-11-16 04:04:49,201 INFO [train.py:876] (1/4) Epoch 11, batch 3100, loss[loss=0.08165, simple_loss=0.1077, pruned_loss=0.0278, over 5174.00 frames. ], tot_loss[loss=0.1162, simple_loss=0.1431, pruned_loss=0.04469, over 1089868.67 frames. ], batch size: 8, lr: 7.37e-03, grad_scale: 16.0
2022-11-16 04:04:56,075 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=1.95 vs. limit=2.0
2022-11-16 04:04:56,948 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 9.177e+01 1.516e+02 1.803e+02 2.135e+02 3.632e+02, threshold=3.607e+02, percent-clipped=0.0
2022-11-16 04:05:01,793 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.9964, 2.1089, 3.0967, 2.2341, 1.8857, 3.4677, 2.7663, 2.1449],
       device='cuda:1'), covar=tensor([0.0691, 0.1355, 0.0445, 0.2220, 0.2654, 0.3344, 0.1161, 0.1348],
       device='cuda:1'), in_proj_covar=tensor([0.0098, 0.0086, 0.0087, 0.0095, 0.0070, 0.0064, 0.0073, 0.0084],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
       device='cuda:1')
2022-11-16 04:05:06,343 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.7655, 1.3164, 1.5496, 1.1924, 1.7640, 1.7301, 1.0211, 1.4020],
       device='cuda:1'), covar=tensor([0.0425, 0.0443, 0.0285, 0.0813, 0.0321, 0.0266, 0.0811, 0.0304],
       device='cuda:1'), in_proj_covar=tensor([0.0014, 0.0022, 0.0015, 0.0019, 0.0015, 0.0014, 0.0021, 0.0015],
       device='cuda:1'), out_proj_covar=tensor([7.7558e-05, 1.0765e-04, 8.0906e-05, 9.5455e-05, 8.1195e-05, 7.7066e-05,
        1.0105e-04, 7.8654e-05], device='cuda:1')
2022-11-16 04:05:11,093 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.8304, 4.2871, 3.8778, 4.2771, 4.2639, 3.6798, 3.8406, 3.5771],
       device='cuda:1'), covar=tensor([0.0538, 0.0318, 0.1307, 0.0339, 0.0343, 0.0410, 0.0516, 0.0611],
       device='cuda:1'), in_proj_covar=tensor([0.0132, 0.0174, 0.0268, 0.0169, 0.0214, 0.0169, 0.0185, 0.0172],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0003, 0.0004, 0.0002, 0.0003, 0.0002, 0.0003, 0.0002],
       device='cuda:1')
2022-11-16 04:05:31,459 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=75884.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 04:05:47,168 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.7591, 4.9197, 3.3447, 4.7372, 3.7697, 3.3415, 2.8312, 4.1728],
       device='cuda:1'), covar=tensor([0.1352, 0.0306, 0.1083, 0.0300, 0.0547, 0.0785, 0.1707, 0.0307],
       device='cuda:1'), in_proj_covar=tensor([0.0157, 0.0140, 0.0161, 0.0145, 0.0176, 0.0168, 0.0163, 0.0159],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0003, 0.0004, 0.0003, 0.0004, 0.0004, 0.0004, 0.0004],
       device='cuda:1')
2022-11-16 04:05:55,893 INFO [train.py:876] (1/4) Epoch 11, batch 3200, loss[loss=0.1086, simple_loss=0.1355, pruned_loss=0.0408, over 5571.00 frames. ], tot_loss[loss=0.1158, simple_loss=0.1427, pruned_loss=0.0444, over 1091275.74 frames. ], batch size: 22, lr: 7.37e-03, grad_scale: 16.0
2022-11-16 04:05:59,220 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=6.21 vs. limit=5.0
2022-11-16 04:05:59,620 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=75926.0, num_to_drop=1, layers_to_drop={0}
2022-11-16 04:06:04,137 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=75932.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 04:06:04,812 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 9.709e+01 1.702e+02 2.039e+02 2.411e+02 4.513e+02, threshold=4.077e+02, percent-clipped=5.0
2022-11-16 04:06:15,442 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.3420, 3.0723, 2.9281, 1.5588, 2.9587, 3.3371, 3.2714, 3.6350],
       device='cuda:1'), covar=tensor([0.1599, 0.1349, 0.1391, 0.2708, 0.0484, 0.1068, 0.0304, 0.0586],
       device='cuda:1'), in_proj_covar=tensor([0.0168, 0.0182, 0.0164, 0.0182, 0.0180, 0.0198, 0.0167, 0.0186],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004],
       device='cuda:1')
2022-11-16 04:06:31,889 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=75974.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 04:06:58,513 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.1113, 3.0520, 2.7336, 3.0410, 3.0737, 2.6821, 2.6855, 2.7637],
       device='cuda:1'), covar=tensor([0.0291, 0.0573, 0.1544, 0.0494, 0.0566, 0.0540, 0.0975, 0.0693],
       device='cuda:1'), in_proj_covar=tensor([0.0134, 0.0173, 0.0270, 0.0170, 0.0216, 0.0170, 0.0184, 0.0173],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0003, 0.0004, 0.0002, 0.0003, 0.0002, 0.0003, 0.0002],
       device='cuda:1')
2022-11-16 04:07:03,628 INFO [train.py:876] (1/4) Epoch 11, batch 3300, loss[loss=0.1078, simple_loss=0.1448, pruned_loss=0.03539, over 5704.00 frames. ], tot_loss[loss=0.1157, simple_loss=0.1429, pruned_loss=0.04418, over 1087115.12 frames. ], batch size: 36, lr: 7.36e-03, grad_scale: 16.0
2022-11-16 04:07:11,808 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 9.536e+01 1.447e+02 1.827e+02 2.353e+02 6.584e+02, threshold=3.655e+02, percent-clipped=2.0
2022-11-16 04:07:22,126 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.9158, 1.6224, 1.8158, 1.4206, 1.5455, 1.6749, 1.4985, 2.1599],
       device='cuda:1'), covar=tensor([0.0057, 0.0060, 0.0054, 0.0057, 0.0063, 0.0039, 0.0052, 0.0035],
       device='cuda:1'), in_proj_covar=tensor([0.0058, 0.0052, 0.0054, 0.0057, 0.0056, 0.0051, 0.0051, 0.0048],
       device='cuda:1'), out_proj_covar=tensor([5.2481e-05, 4.6352e-05, 4.7512e-05, 5.1219e-05, 5.0152e-05, 4.4281e-05,
        4.5967e-05, 4.2562e-05], device='cuda:1')
2022-11-16 04:08:11,734 INFO [train.py:876] (1/4) Epoch 11, batch 3400, loss[loss=0.1627, simple_loss=0.1749, pruned_loss=0.07523, over 4985.00 frames. ], tot_loss[loss=0.1151, simple_loss=0.1425, pruned_loss=0.04386, over 1087366.02 frames. ], batch size: 110, lr: 7.36e-03, grad_scale: 8.0
2022-11-16 04:08:20,082 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.046e+02 1.517e+02 1.870e+02 2.344e+02 4.526e+02, threshold=3.741e+02, percent-clipped=4.0
2022-11-16 04:08:28,436 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=1.84 vs. limit=2.0
2022-11-16 04:08:28,740 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.4585, 4.1278, 3.2022, 1.8597, 3.8450, 1.5174, 3.8469, 2.1988],
       device='cuda:1'), covar=tensor([0.1490, 0.0160, 0.0662, 0.1973, 0.0208, 0.1982, 0.0227, 0.1625],
       device='cuda:1'), in_proj_covar=tensor([0.0120, 0.0103, 0.0113, 0.0113, 0.0101, 0.0122, 0.0099, 0.0111],
       device='cuda:1'), out_proj_covar=tensor([0.0005, 0.0004, 0.0005, 0.0004, 0.0004, 0.0005, 0.0004, 0.0004],
       device='cuda:1')
2022-11-16 04:08:40,956 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=4.27 vs. limit=5.0
2022-11-16 04:08:44,080 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.6862, 1.5530, 1.4992, 1.3028, 1.4922, 1.3870, 1.2018, 0.8427],
       device='cuda:1'), covar=tensor([0.0027, 0.0030, 0.0025, 0.0047, 0.0036, 0.0072, 0.0039, 0.0075],
       device='cuda:1'), in_proj_covar=tensor([0.0027, 0.0025, 0.0025, 0.0034, 0.0028, 0.0027, 0.0033, 0.0032],
       device='cuda:1'), out_proj_covar=tensor([2.4424e-05, 2.3425e-05, 2.2519e-05, 3.2833e-05, 2.6139e-05, 2.5510e-05,
        3.1534e-05, 3.1294e-05], device='cuda:1')
2022-11-16 04:09:19,518 INFO [train.py:876] (1/4) Epoch 11, batch 3500, loss[loss=0.1065, simple_loss=0.1459, pruned_loss=0.03359, over 5767.00 frames. ], tot_loss[loss=0.1142, simple_loss=0.1415, pruned_loss=0.04349, over 1079586.21 frames. ], batch size: 16, lr: 7.35e-03, grad_scale: 8.0
2022-11-16 04:09:27,971 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 7.997e+01 1.638e+02 2.033e+02 2.357e+02 4.512e+02, threshold=4.066e+02, percent-clipped=3.0
2022-11-16 04:09:30,888 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=4.58 vs. limit=5.0
2022-11-16 04:09:36,313 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([4.6070, 4.5285, 4.2607, 4.2639, 4.5593, 4.3449, 2.2974, 4.5209],
       device='cuda:1'), covar=tensor([0.0189, 0.0283, 0.0253, 0.0373, 0.0326, 0.0327, 0.2642, 0.0310],
       device='cuda:1'), in_proj_covar=tensor([0.0105, 0.0088, 0.0088, 0.0082, 0.0103, 0.0089, 0.0133, 0.0109],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
       device='cuda:1')
2022-11-16 04:09:47,472 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.81 vs. limit=2.0
2022-11-16 04:09:52,291 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=76269.0, num_to_drop=1, layers_to_drop={1}
2022-11-16 04:09:53,529 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.3227, 3.7020, 2.8208, 1.7302, 3.4524, 1.5375, 3.4064, 1.9741],
       device='cuda:1'), covar=tensor([0.1342, 0.0162, 0.0813, 0.2057, 0.0226, 0.1866, 0.0276, 0.1541],
       device='cuda:1'), in_proj_covar=tensor([0.0121, 0.0104, 0.0115, 0.0115, 0.0102, 0.0124, 0.0100, 0.0112],
       device='cuda:1'), out_proj_covar=tensor([0.0005, 0.0004, 0.0005, 0.0004, 0.0004, 0.0005, 0.0004, 0.0004],
       device='cuda:1')
2022-11-16 04:10:08,544 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=76294.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 04:10:27,147 INFO [train.py:876] (1/4) Epoch 11, batch 3600, loss[loss=0.09613, simple_loss=0.1421, pruned_loss=0.02507, over 5766.00 frames. ], tot_loss[loss=0.1135, simple_loss=0.1409, pruned_loss=0.04306, over 1085093.71 frames. ], batch size: 16, lr: 7.35e-03, grad_scale: 8.0
2022-11-16 04:10:28,590 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=76323.0, num_to_drop=1, layers_to_drop={1}
2022-11-16 04:10:33,300 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=76330.0, num_to_drop=1, layers_to_drop={0}
2022-11-16 04:10:35,632 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.020e+02 1.560e+02 1.906e+02 2.408e+02 5.224e+02, threshold=3.812e+02, percent-clipped=4.0
2022-11-16 04:10:49,952 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=76355.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 04:11:06,506 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.8616, 2.2548, 2.9243, 1.9980, 1.8429, 3.2537, 2.7444, 2.2885],
       device='cuda:1'), covar=tensor([0.0763, 0.1398, 0.0589, 0.2355, 0.2499, 0.2307, 0.0952, 0.1226],
       device='cuda:1'), in_proj_covar=tensor([0.0098, 0.0088, 0.0088, 0.0097, 0.0070, 0.0065, 0.0075, 0.0085],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
       device='cuda:1')
2022-11-16 04:11:09,732 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=76384.0, num_to_drop=1, layers_to_drop={0}
2022-11-16 04:11:11,999 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.58 vs. limit=2.0
2022-11-16 04:11:35,224 INFO [train.py:876] (1/4) Epoch 11, batch 3700, loss[loss=0.1201, simple_loss=0.1444, pruned_loss=0.04793, over 5802.00 frames. ], tot_loss[loss=0.1152, simple_loss=0.1421, pruned_loss=0.04419, over 1083757.82 frames. ], batch size: 22, lr: 7.34e-03, grad_scale: 8.0
2022-11-16 04:11:43,592 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 8.959e+01 1.528e+02 1.916e+02 2.228e+02 3.767e+02, threshold=3.832e+02, percent-clipped=0.0
2022-11-16 04:12:01,084 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.89 vs. limit=2.0
2022-11-16 04:12:09,527 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.7385, 1.9193, 2.5252, 3.4987, 3.3252, 2.5352, 2.1358, 3.4957],
       device='cuda:1'), covar=tensor([0.0796, 0.3450, 0.2419, 0.2741, 0.1854, 0.3308, 0.2370, 0.1201],
       device='cuda:1'), in_proj_covar=tensor([0.0247, 0.0202, 0.0190, 0.0308, 0.0224, 0.0203, 0.0190, 0.0246],
       device='cuda:1'), out_proj_covar=tensor([0.0006, 0.0005, 0.0005, 0.0006, 0.0005, 0.0005, 0.0005, 0.0006],
       device='cuda:1')
2022-11-16 04:12:41,659 INFO [train.py:876] (1/4) Epoch 11, batch 3800, loss[loss=0.219, simple_loss=0.1952, pruned_loss=0.1214, over 3100.00 frames. ], tot_loss[loss=0.1139, simple_loss=0.1412, pruned_loss=0.04328, over 1087627.96 frames. ], batch size: 284, lr: 7.34e-03, grad_scale: 8.0
2022-11-16 04:12:50,477 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 9.425e+01 1.575e+02 2.020e+02 2.543e+02 6.057e+02, threshold=4.040e+02, percent-clipped=8.0
2022-11-16 04:13:33,445 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.57 vs. limit=2.0
2022-11-16 04:13:35,422 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.7435, 1.4604, 1.6429, 1.2733, 1.4748, 1.6262, 1.0801, 0.8783],
       device='cuda:1'), covar=tensor([0.0035, 0.0037, 0.0022, 0.0041, 0.0074, 0.0043, 0.0051, 0.0057],
       device='cuda:1'), in_proj_covar=tensor([0.0026, 0.0024, 0.0024, 0.0033, 0.0027, 0.0026, 0.0032, 0.0031],
       device='cuda:1'), out_proj_covar=tensor([2.3796e-05, 2.2779e-05, 2.1673e-05, 3.2252e-05, 2.5683e-05, 2.4952e-05,
        3.1235e-05, 2.9967e-05], device='cuda:1')
2022-11-16 04:13:39,691 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.26 vs. limit=2.0
2022-11-16 04:13:49,822 INFO [train.py:876] (1/4) Epoch 11, batch 3900, loss[loss=0.1055, simple_loss=0.1324, pruned_loss=0.03933, over 5667.00 frames. ], tot_loss[loss=0.1136, simple_loss=0.1414, pruned_loss=0.04287, over 1089898.52 frames. ], batch size: 19, lr: 7.33e-03, grad_scale: 8.0
2022-11-16 04:13:53,082 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=76625.0, num_to_drop=1, layers_to_drop={3}
2022-11-16 04:13:59,641 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 9.483e+01 1.484e+02 1.748e+02 2.175e+02 4.162e+02, threshold=3.496e+02, percent-clipped=1.0
2022-11-16 04:14:11,303 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=76650.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 04:14:31,204 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=76679.0, num_to_drop=1, layers_to_drop={0}
2022-11-16 04:14:31,452 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=1.89 vs. limit=2.0
2022-11-16 04:14:50,204 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.7386, 3.7865, 3.6569, 3.3498, 3.6478, 3.4278, 1.4222, 3.8328],
       device='cuda:1'), covar=tensor([0.0310, 0.0321, 0.0380, 0.0462, 0.0374, 0.0485, 0.3413, 0.0325],
       device='cuda:1'), in_proj_covar=tensor([0.0103, 0.0086, 0.0086, 0.0080, 0.0101, 0.0088, 0.0130, 0.0107],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
       device='cuda:1')
2022-11-16 04:14:59,830 INFO [train.py:876] (1/4) Epoch 11, batch 4000, loss[loss=0.112, simple_loss=0.1528, pruned_loss=0.03557, over 5788.00 frames. ], tot_loss[loss=0.1139, simple_loss=0.1417, pruned_loss=0.04304, over 1088418.74 frames. ], batch size: 21, lr: 7.33e-03, grad_scale: 8.0
2022-11-16 04:15:08,072 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.071e+02 1.537e+02 1.803e+02 2.088e+02 3.858e+02, threshold=3.606e+02, percent-clipped=2.0
2022-11-16 04:15:15,075 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.8183, 1.9495, 2.5015, 2.3237, 2.5185, 1.8177, 2.4309, 2.7908],
       device='cuda:1'), covar=tensor([0.0733, 0.1399, 0.0810, 0.1268, 0.0865, 0.1362, 0.0939, 0.0797],
       device='cuda:1'), in_proj_covar=tensor([0.0244, 0.0192, 0.0214, 0.0211, 0.0238, 0.0196, 0.0228, 0.0231],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004],
       device='cuda:1')
2022-11-16 04:15:48,941 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([5.2650, 4.8357, 5.0419, 4.8679, 5.3630, 5.3004, 4.5072, 5.4201],
       device='cuda:1'), covar=tensor([0.0382, 0.0317, 0.0503, 0.0285, 0.0343, 0.0140, 0.0256, 0.0201],
       device='cuda:1'), in_proj_covar=tensor([0.0138, 0.0146, 0.0108, 0.0141, 0.0170, 0.0102, 0.0121, 0.0146],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003],
       device='cuda:1')
2022-11-16 04:15:57,942 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.47 vs. limit=2.0
2022-11-16 04:15:59,468 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.73 vs. limit=2.0
2022-11-16 04:16:06,066 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.9411, 5.1587, 3.8350, 2.2334, 4.8369, 2.4275, 4.6325, 2.7591],
       device='cuda:1'), covar=tensor([0.1182, 0.0098, 0.0468, 0.1950, 0.0163, 0.1280, 0.0160, 0.1300],
       device='cuda:1'), in_proj_covar=tensor([0.0118, 0.0103, 0.0112, 0.0112, 0.0100, 0.0120, 0.0098, 0.0109],
       device='cuda:1'), out_proj_covar=tensor([0.0005, 0.0004, 0.0005, 0.0004, 0.0004, 0.0005, 0.0004, 0.0004],
       device='cuda:1')
2022-11-16 04:16:07,301 INFO [train.py:876] (1/4) Epoch 11, batch 4100, loss[loss=0.09295, simple_loss=0.1325, pruned_loss=0.0267, over 5682.00 frames. ], tot_loss[loss=0.1122, simple_loss=0.1403, pruned_loss=0.04206, over 1090283.86 frames. ], batch size: 19, lr: 7.32e-03, grad_scale: 8.0
2022-11-16 04:16:15,768 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.037e+02 1.454e+02 1.745e+02 2.235e+02 4.051e+02, threshold=3.490e+02, percent-clipped=2.0
2022-11-16 04:16:16,534 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.2896, 3.9127, 3.0508, 1.7883, 3.6494, 1.5000, 3.8401, 1.8647],
       device='cuda:1'), covar=tensor([0.1562, 0.0168, 0.0761, 0.2227, 0.0245, 0.2129, 0.0224, 0.1802],
       device='cuda:1'), in_proj_covar=tensor([0.0119, 0.0104, 0.0112, 0.0112, 0.0101, 0.0121, 0.0098, 0.0110],
       device='cuda:1'), out_proj_covar=tensor([0.0005, 0.0004, 0.0005, 0.0004, 0.0004, 0.0005, 0.0004, 0.0004],
       device='cuda:1')
2022-11-16 04:16:18,554 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([4.2121, 4.1045, 4.0791, 3.8638, 4.0761, 3.7915, 1.8941, 4.0857],
       device='cuda:1'), covar=tensor([0.0410, 0.0450, 0.0548, 0.0513, 0.0521, 0.0569, 0.3639, 0.0518],
       device='cuda:1'), in_proj_covar=tensor([0.0104, 0.0087, 0.0087, 0.0080, 0.0102, 0.0089, 0.0131, 0.0108],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
       device='cuda:1')
2022-11-16 04:16:19,240 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=76839.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 04:17:00,349 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=76900.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 04:17:14,933 INFO [train.py:876] (1/4) Epoch 11, batch 4200, loss[loss=0.1411, simple_loss=0.1564, pruned_loss=0.06288, over 4720.00 frames. ], tot_loss[loss=0.1135, simple_loss=0.1416, pruned_loss=0.04265, over 1084252.45 frames. ], batch size: 135, lr: 7.32e-03, grad_scale: 8.0
2022-11-16 04:17:17,654 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=76925.0, num_to_drop=1, layers_to_drop={1}
2022-11-16 04:17:23,250 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 7.852e+01 1.372e+02 1.800e+02 2.122e+02 4.143e+02, threshold=3.599e+02, percent-clipped=4.0
2022-11-16 04:17:32,056 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([0.8557, 1.2820, 1.0268, 1.1522, 1.3074, 0.9686, 0.5995, 1.4116],
       device='cuda:1'), covar=tensor([0.0070, 0.0036, 0.0071, 0.0057, 0.0051, 0.0061, 0.0104, 0.0037],
       device='cuda:1'), in_proj_covar=tensor([0.0057, 0.0053, 0.0053, 0.0056, 0.0055, 0.0050, 0.0050, 0.0047],
       device='cuda:1'), out_proj_covar=tensor([5.1216e-05, 4.7028e-05, 4.6674e-05, 5.0386e-05, 4.8997e-05, 4.3597e-05,
        4.4915e-05, 4.1957e-05], device='cuda:1')
2022-11-16 04:17:34,007 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=76950.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 04:17:49,764 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=76973.0, num_to_drop=1, layers_to_drop={0}
2022-11-16 04:17:53,743 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=76979.0, num_to_drop=1, layers_to_drop={0}
2022-11-16 04:18:06,027 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=76998.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 04:18:08,291 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.0343, 1.9668, 2.4431, 1.7648, 1.3085, 2.9012, 2.5076, 1.9734],
       device='cuda:1'), covar=tensor([0.1119, 0.1360, 0.0600, 0.3126, 0.2339, 0.0937, 0.1523, 0.1387],
       device='cuda:1'), in_proj_covar=tensor([0.0100, 0.0088, 0.0088, 0.0098, 0.0070, 0.0064, 0.0074, 0.0086],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
       device='cuda:1')
2022-11-16 04:18:11,629 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.2713, 2.4091, 2.6701, 3.3849, 3.3946, 2.7783, 2.2084, 3.4181],
       device='cuda:1'), covar=tensor([0.1247, 0.2617, 0.2420, 0.2386, 0.1084, 0.2701, 0.2337, 0.1015],
       device='cuda:1'), in_proj_covar=tensor([0.0245, 0.0198, 0.0188, 0.0303, 0.0220, 0.0201, 0.0187, 0.0246],
       device='cuda:1'), out_proj_covar=tensor([0.0006, 0.0005, 0.0005, 0.0006, 0.0005, 0.0005, 0.0005, 0.0006],
       device='cuda:1')
2022-11-16 04:18:21,656 INFO [train.py:876] (1/4) Epoch 11, batch 4300, loss[loss=0.1057, simple_loss=0.1355, pruned_loss=0.03791, over 5584.00 frames. ], tot_loss[loss=0.1135, simple_loss=0.141, pruned_loss=0.04296, over 1081377.02 frames. ], batch size: 24, lr: 7.31e-03, grad_scale: 8.0
2022-11-16 04:18:25,914 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=77027.0, num_to_drop=1, layers_to_drop={0}
2022-11-16 04:18:30,433 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 9.745e+01 1.515e+02 1.890e+02 2.345e+02 3.579e+02, threshold=3.779e+02, percent-clipped=0.0
2022-11-16 04:18:41,763 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.6583, 1.2407, 1.6200, 1.0944, 1.8322, 1.7281, 1.0023, 1.5457],
       device='cuda:1'), covar=tensor([0.0726, 0.0638, 0.0341, 0.0936, 0.0755, 0.0992, 0.2010, 0.0937],
       device='cuda:1'), in_proj_covar=tensor([0.0014, 0.0022, 0.0015, 0.0019, 0.0015, 0.0014, 0.0021, 0.0015],
       device='cuda:1'), out_proj_covar=tensor([7.7795e-05, 1.0806e-04, 8.1447e-05, 9.6273e-05, 8.2325e-05, 7.8022e-05,
        1.0274e-04, 7.9171e-05], device='cuda:1')
2022-11-16 04:19:07,646 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.6451, 2.2703, 3.2003, 2.9435, 3.2424, 2.2291, 3.0681, 3.5725],
       device='cuda:1'), covar=tensor([0.0808, 0.1724, 0.1036, 0.1310, 0.0950, 0.1783, 0.1093, 0.0935],
       device='cuda:1'), in_proj_covar=tensor([0.0245, 0.0194, 0.0215, 0.0212, 0.0239, 0.0197, 0.0226, 0.0230],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004],
       device='cuda:1')
2022-11-16 04:19:11,527 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=77095.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 04:19:27,264 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=5.38 vs. limit=5.0
2022-11-16 04:19:28,273 INFO [train.py:876] (1/4) Epoch 11, batch 4400, loss[loss=0.08595, simple_loss=0.1266, pruned_loss=0.02266, over 5711.00 frames. ], tot_loss[loss=0.1123, simple_loss=0.1407, pruned_loss=0.04193, over 1091609.49 frames. ], batch size: 17, lr: 7.31e-03, grad_scale: 8.0
2022-11-16 04:19:37,948 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 9.506e+01 1.521e+02 1.875e+02 2.343e+02 5.225e+02, threshold=3.749e+02, percent-clipped=3.0
2022-11-16 04:19:52,392 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=77156.0, num_to_drop=1, layers_to_drop={0}
2022-11-16 04:20:06,625 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.1327, 2.9190, 3.2027, 1.5642, 2.9797, 3.5002, 3.1893, 3.7158],
       device='cuda:1'), covar=tensor([0.2041, 0.1741, 0.1298, 0.3313, 0.1085, 0.0863, 0.0819, 0.0745],
       device='cuda:1'), in_proj_covar=tensor([0.0170, 0.0184, 0.0167, 0.0183, 0.0183, 0.0198, 0.0168, 0.0187],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004],
       device='cuda:1')
2022-11-16 04:20:19,046 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=77195.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 04:20:29,846 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=77211.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 04:20:36,407 INFO [train.py:876] (1/4) Epoch 11, batch 4500, loss[loss=0.1362, simple_loss=0.1539, pruned_loss=0.05921, over 5129.00 frames. ], tot_loss[loss=0.1139, simple_loss=0.1417, pruned_loss=0.04303, over 1088306.41 frames. ], batch size: 91, lr: 7.31e-03, grad_scale: 8.0
2022-11-16 04:20:42,750 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([4.2883, 4.5774, 4.1416, 4.6248, 4.6251, 3.8424, 4.2610, 4.1234],
       device='cuda:1'), covar=tensor([0.0336, 0.0424, 0.1435, 0.0443, 0.0450, 0.0504, 0.0681, 0.0540],
       device='cuda:1'), in_proj_covar=tensor([0.0134, 0.0178, 0.0276, 0.0174, 0.0218, 0.0173, 0.0188, 0.0176],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0003, 0.0004, 0.0003, 0.0003, 0.0002, 0.0003, 0.0002],
       device='cuda:1')
2022-11-16 04:20:45,512 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 7.537e+01 1.435e+02 1.838e+02 2.199e+02 4.502e+02, threshold=3.675e+02, percent-clipped=1.0
2022-11-16 04:20:47,322 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.6109, 1.0059, 1.1493, 0.7403, 1.3863, 1.3932, 0.7827, 0.9365],
       device='cuda:1'), covar=tensor([0.0279, 0.0601, 0.0786, 0.1067, 0.0634, 0.0851, 0.0815, 0.0821],
       device='cuda:1'), in_proj_covar=tensor([0.0014, 0.0022, 0.0015, 0.0019, 0.0016, 0.0014, 0.0021, 0.0015],
       device='cuda:1'), out_proj_covar=tensor([7.8036e-05, 1.0838e-04, 8.1916e-05, 9.6144e-05, 8.2739e-05, 7.7712e-05,
        1.0286e-04, 7.9061e-05], device='cuda:1')
2022-11-16 04:21:11,326 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=77272.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 04:21:11,932 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=77273.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 04:21:14,572 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=77277.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 04:21:44,373 INFO [train.py:876] (1/4) Epoch 11, batch 4600, loss[loss=0.1251, simple_loss=0.1377, pruned_loss=0.0563, over 4671.00 frames. ], tot_loss[loss=0.1128, simple_loss=0.1407, pruned_loss=0.04246, over 1089441.70 frames. ], batch size: 135, lr: 7.30e-03, grad_scale: 8.0
2022-11-16 04:21:52,864 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 9.709e+01 1.569e+02 2.032e+02 2.456e+02 5.240e+02, threshold=4.063e+02, percent-clipped=2.0
2022-11-16 04:21:53,055 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=77334.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 04:21:56,319 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=77338.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 04:22:45,184 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([4.1031, 3.9105, 4.2205, 4.1834, 3.7333, 3.6257, 4.5363, 4.0559],
       device='cuda:1'), covar=tensor([0.0406, 0.0804, 0.0329, 0.1057, 0.0654, 0.0407, 0.0630, 0.0613],
       device='cuda:1'), in_proj_covar=tensor([0.0088, 0.0110, 0.0095, 0.0120, 0.0090, 0.0080, 0.0146, 0.0102],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0003, 0.0002],
       device='cuda:1')
2022-11-16 04:22:49,562 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=1.96 vs. limit=2.0
2022-11-16 04:22:52,445 INFO [train.py:876] (1/4) Epoch 11, batch 4700, loss[loss=0.101, simple_loss=0.1384, pruned_loss=0.03181, over 5722.00 frames. ], tot_loss[loss=0.1144, simple_loss=0.142, pruned_loss=0.04339, over 1084943.03 frames. ], batch size: 28, lr: 7.30e-03, grad_scale: 8.0
2022-11-16 04:23:00,908 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 9.694e+01 1.424e+02 1.701e+02 2.094e+02 3.279e+02, threshold=3.401e+02, percent-clipped=0.0
2022-11-16 04:23:08,898 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.8549, 1.8488, 1.9842, 1.6352, 1.3922, 1.5710, 1.4830, 1.6916],
       device='cuda:1'), covar=tensor([0.0049, 0.0057, 0.0037, 0.0050, 0.0049, 0.0043, 0.0045, 0.0064],
       device='cuda:1'), in_proj_covar=tensor([0.0058, 0.0053, 0.0053, 0.0057, 0.0056, 0.0051, 0.0050, 0.0048],
       device='cuda:1'), out_proj_covar=tensor([5.2323e-05, 4.7302e-05, 4.7044e-05, 5.0923e-05, 4.9755e-05, 4.4503e-05,
        4.5125e-05, 4.2764e-05], device='cuda:1')
2022-11-16 04:23:12,367 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=77451.0, num_to_drop=1, layers_to_drop={3}
2022-11-16 04:23:13,240 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.23 vs. limit=2.0
2022-11-16 04:23:21,003 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.5919, 1.7580, 1.9414, 1.7611, 0.9850, 1.5434, 1.2348, 1.3686],
       device='cuda:1'), covar=tensor([0.0130, 0.0067, 0.0066, 0.0079, 0.0208, 0.0090, 0.0147, 0.0110],
       device='cuda:1'), in_proj_covar=tensor([0.0189, 0.0173, 0.0177, 0.0200, 0.0187, 0.0176, 0.0188, 0.0178],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
       device='cuda:1')
2022-11-16 04:23:42,074 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=77495.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 04:24:00,658 INFO [train.py:876] (1/4) Epoch 11, batch 4800, loss[loss=0.1183, simple_loss=0.146, pruned_loss=0.04534, over 5567.00 frames. ], tot_loss[loss=0.1146, simple_loss=0.1416, pruned_loss=0.04375, over 1078642.31 frames. ], batch size: 30, lr: 7.29e-03, grad_scale: 8.0
2022-11-16 04:24:09,188 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 9.251e+01 1.590e+02 1.859e+02 2.447e+02 5.021e+02, threshold=3.719e+02, percent-clipped=6.0
2022-11-16 04:24:15,207 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=77543.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 04:24:32,379 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=77567.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 04:25:05,981 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=77616.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 04:25:09,013 INFO [train.py:876] (1/4) Epoch 11, batch 4900, loss[loss=0.1193, simple_loss=0.1456, pruned_loss=0.04653, over 5700.00 frames. ], tot_loss[loss=0.1128, simple_loss=0.1405, pruned_loss=0.04259, over 1080328.28 frames. ], batch size: 36, lr: 7.29e-03, grad_scale: 8.0
2022-11-16 04:25:14,426 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=77629.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 04:25:17,034 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=77633.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 04:25:17,557 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 8.666e+01 1.544e+02 1.877e+02 2.554e+02 4.573e+02, threshold=3.753e+02, percent-clipped=4.0
2022-11-16 04:25:46,986 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=77677.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 04:25:47,006 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=77677.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 04:26:09,721 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=5.81 vs. limit=5.0
2022-11-16 04:26:16,785 INFO [train.py:876] (1/4) Epoch 11, batch 5000, loss[loss=0.08513, simple_loss=0.1239, pruned_loss=0.0232, over 5756.00 frames. ], tot_loss[loss=0.1132, simple_loss=0.1405, pruned_loss=0.04292, over 1082809.24 frames. ], batch size: 14, lr: 7.28e-03, grad_scale: 8.0
2022-11-16 04:26:17,793 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.67 vs. limit=2.0
2022-11-16 04:26:25,203 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 9.970e+01 1.490e+02 1.911e+02 2.304e+02 5.675e+02, threshold=3.822e+02, percent-clipped=3.0
2022-11-16 04:26:28,013 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=77738.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 04:26:36,334 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=77751.0, num_to_drop=1, layers_to_drop={1}
2022-11-16 04:26:45,591 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.6858, 2.1954, 3.3337, 2.9600, 3.3620, 2.3600, 3.2004, 3.6075],
       device='cuda:1'), covar=tensor([0.0587, 0.1683, 0.0811, 0.1390, 0.0649, 0.1411, 0.1077, 0.0902],
       device='cuda:1'), in_proj_covar=tensor([0.0240, 0.0191, 0.0209, 0.0209, 0.0233, 0.0191, 0.0220, 0.0225],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004],
       device='cuda:1')
2022-11-16 04:27:09,051 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=77799.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 04:27:19,806 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.9165, 1.4510, 1.8356, 1.3550, 1.6930, 1.6917, 1.1524, 1.4527],
       device='cuda:1'), covar=tensor([0.0031, 0.0111, 0.0036, 0.0078, 0.0065, 0.0079, 0.0052, 0.0066],
       device='cuda:1'), in_proj_covar=tensor([0.0027, 0.0025, 0.0025, 0.0034, 0.0028, 0.0027, 0.0033, 0.0032],
       device='cuda:1'), out_proj_covar=tensor([2.5345e-05, 2.3510e-05, 2.2791e-05, 3.3256e-05, 2.6449e-05, 2.5647e-05,
        3.2436e-05, 3.0886e-05], device='cuda:1')
2022-11-16 04:27:23,476 INFO [train.py:876] (1/4) Epoch 11, batch 5100, loss[loss=0.06887, simple_loss=0.1131, pruned_loss=0.01231, over 5713.00 frames. ], tot_loss[loss=0.1144, simple_loss=0.1416, pruned_loss=0.04358, over 1086299.88 frames. ], batch size: 15, lr: 7.28e-03, grad_scale: 8.0
2022-11-16 04:27:32,555 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 8.765e+01 1.557e+02 2.003e+02 2.576e+02 4.677e+02, threshold=4.007e+02, percent-clipped=1.0
2022-11-16 04:27:34,279 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([4.3682, 4.1785, 4.1785, 4.0119, 4.5540, 4.2875, 4.2035, 4.5733],
       device='cuda:1'), covar=tensor([0.0950, 0.0688, 0.0881, 0.0991, 0.0780, 0.0608, 0.0666, 0.0720],
       device='cuda:1'), in_proj_covar=tensor([0.0143, 0.0151, 0.0110, 0.0144, 0.0177, 0.0106, 0.0125, 0.0152],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003],
       device='cuda:1')
2022-11-16 04:27:52,736 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.7915, 4.9795, 3.8512, 2.3072, 4.6377, 2.2039, 4.5040, 2.7948],
       device='cuda:1'), covar=tensor([0.1364, 0.0114, 0.0412, 0.2082, 0.0171, 0.1660, 0.0227, 0.1336],
       device='cuda:1'), in_proj_covar=tensor([0.0120, 0.0103, 0.0111, 0.0112, 0.0100, 0.0121, 0.0098, 0.0110],
       device='cuda:1'), out_proj_covar=tensor([0.0005, 0.0004, 0.0005, 0.0004, 0.0004, 0.0005, 0.0004, 0.0004],
       device='cuda:1')
2022-11-16 04:27:52,902 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.19 vs. limit=2.0
2022-11-16 04:27:54,784 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=77867.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 04:28:26,612 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=77915.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 04:28:30,551 INFO [train.py:876] (1/4) Epoch 11, batch 5200, loss[loss=0.07398, simple_loss=0.1047, pruned_loss=0.02164, over 5300.00 frames. ], tot_loss[loss=0.1137, simple_loss=0.1416, pruned_loss=0.04289, over 1091778.81 frames. ], batch size: 9, lr: 7.27e-03, grad_scale: 8.0
2022-11-16 04:28:35,983 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=77929.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 04:28:38,561 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=77933.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 04:28:39,079 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.034e+02 1.507e+02 1.817e+02 2.273e+02 5.327e+02, threshold=3.634e+02, percent-clipped=3.0
2022-11-16 04:28:49,563 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.0447, 1.6062, 1.7586, 1.5838, 1.4903, 2.3329, 1.7778, 1.3101],
       device='cuda:1'), covar=tensor([0.2205, 0.1572, 0.1594, 0.2598, 0.1974, 0.0793, 0.1812, 0.2643],
       device='cuda:1'), in_proj_covar=tensor([0.0098, 0.0088, 0.0088, 0.0098, 0.0070, 0.0064, 0.0075, 0.0088],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
       device='cuda:1')
2022-11-16 04:29:04,822 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=77972.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 04:29:06,194 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.7172, 4.7381, 3.6859, 2.1570, 4.2953, 2.0690, 4.2969, 2.5604],
       device='cuda:1'), covar=tensor([0.1387, 0.0111, 0.0453, 0.2157, 0.0226, 0.1652, 0.0199, 0.1458],
       device='cuda:1'), in_proj_covar=tensor([0.0120, 0.0103, 0.0112, 0.0113, 0.0101, 0.0122, 0.0099, 0.0110],
       device='cuda:1'), out_proj_covar=tensor([0.0005, 0.0004, 0.0005, 0.0004, 0.0004, 0.0005, 0.0004, 0.0004],
       device='cuda:1')
2022-11-16 04:29:08,137 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=77977.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 04:29:10,793 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=77981.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 04:29:11,553 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.7617, 1.5336, 1.7912, 1.2662, 1.7043, 1.5444, 1.0821, 1.0491],
       device='cuda:1'), covar=tensor([0.0026, 0.0079, 0.0024, 0.0067, 0.0035, 0.0046, 0.0050, 0.0059],
       device='cuda:1'), in_proj_covar=tensor([0.0027, 0.0026, 0.0026, 0.0034, 0.0029, 0.0028, 0.0034, 0.0032],
       device='cuda:1'), out_proj_covar=tensor([2.5303e-05, 2.3950e-05, 2.3143e-05, 3.3702e-05, 2.7000e-05, 2.6274e-05,
        3.2788e-05, 3.1014e-05], device='cuda:1')
2022-11-16 04:29:19,808 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([4.7781, 4.6779, 4.8183, 4.7074, 4.4392, 4.2348, 5.3432, 4.8744],
       device='cuda:1'), covar=tensor([0.0394, 0.0948, 0.0316, 0.1562, 0.0568, 0.0366, 0.0602, 0.0553],
       device='cuda:1'), in_proj_covar=tensor([0.0087, 0.0110, 0.0094, 0.0119, 0.0089, 0.0080, 0.0145, 0.0103],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0003, 0.0002],
       device='cuda:1')
2022-11-16 04:29:36,355 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.48 vs. limit=2.0
2022-11-16 04:29:38,673 INFO [train.py:876] (1/4) Epoch 11, batch 5300, loss[loss=0.08949, simple_loss=0.1215, pruned_loss=0.02872, over 5725.00 frames. ], tot_loss[loss=0.1144, simple_loss=0.142, pruned_loss=0.04346, over 1088610.27 frames. ], batch size: 15, lr: 7.27e-03, grad_scale: 8.0
2022-11-16 04:29:46,505 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=78033.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 04:29:47,076 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 7.555e+01 1.542e+02 1.854e+02 2.251e+02 5.839e+02, threshold=3.709e+02, percent-clipped=3.0
2022-11-16 04:30:40,816 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([4.3816, 4.7718, 4.3446, 4.8488, 4.7638, 4.0645, 4.3728, 4.0933],
       device='cuda:1'), covar=tensor([0.0334, 0.0547, 0.1328, 0.0350, 0.0474, 0.0492, 0.0609, 0.0777],
       device='cuda:1'), in_proj_covar=tensor([0.0135, 0.0178, 0.0275, 0.0174, 0.0219, 0.0173, 0.0187, 0.0175],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0003, 0.0004, 0.0003, 0.0003, 0.0002, 0.0003, 0.0002],
       device='cuda:1')
2022-11-16 04:30:46,414 INFO [train.py:876] (1/4) Epoch 11, batch 5400, loss[loss=0.124, simple_loss=0.1588, pruned_loss=0.0446, over 5551.00 frames. ], tot_loss[loss=0.1156, simple_loss=0.1431, pruned_loss=0.04411, over 1089224.05 frames. ], batch size: 40, lr: 7.26e-03, grad_scale: 16.0
2022-11-16 04:30:55,255 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.062e+02 1.532e+02 1.889e+02 2.326e+02 4.779e+02, threshold=3.778e+02, percent-clipped=5.0
2022-11-16 04:31:10,128 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.18 vs. limit=2.0
2022-11-16 04:31:22,059 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=1.72 vs. limit=2.0
2022-11-16 04:31:22,543 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.6078, 1.3822, 1.5235, 1.3558, 1.2622, 1.2142, 1.3325, 1.3431],
       device='cuda:1'), covar=tensor([0.0095, 0.0097, 0.0050, 0.0081, 0.0134, 0.0169, 0.0074, 0.0072],
       device='cuda:1'), in_proj_covar=tensor([0.0027, 0.0025, 0.0026, 0.0034, 0.0029, 0.0027, 0.0033, 0.0032],
       device='cuda:1'), out_proj_covar=tensor([2.5203e-05, 2.3608e-05, 2.3063e-05, 3.3360e-05, 2.6796e-05, 2.5742e-05,
        3.1781e-05, 3.0664e-05], device='cuda:1')
2022-11-16 04:31:38,313 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.7941, 2.8636, 2.5632, 2.9958, 2.2553, 2.5744, 2.6107, 3.3898],
       device='cuda:1'), covar=tensor([0.1183, 0.1366, 0.1892, 0.1277, 0.1661, 0.1039, 0.1444, 0.1537],
       device='cuda:1'), in_proj_covar=tensor([0.0108, 0.0104, 0.0104, 0.0100, 0.0092, 0.0099, 0.0096, 0.0078],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0004, 0.0004, 0.0004, 0.0003, 0.0004, 0.0003, 0.0003],
       device='cuda:1')
2022-11-16 04:31:39,558 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([5.0082, 4.5300, 4.9216, 4.5692, 5.0898, 4.9901, 4.5066, 5.1170],
       device='cuda:1'), covar=tensor([0.0444, 0.0301, 0.0398, 0.0301, 0.0381, 0.0158, 0.0241, 0.0235],
       device='cuda:1'), in_proj_covar=tensor([0.0142, 0.0151, 0.0110, 0.0143, 0.0176, 0.0106, 0.0124, 0.0151],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003],
       device='cuda:1')
2022-11-16 04:31:55,286 INFO [train.py:876] (1/4) Epoch 11, batch 5500, loss[loss=0.1177, simple_loss=0.1475, pruned_loss=0.04395, over 5743.00 frames. ], tot_loss[loss=0.1143, simple_loss=0.1422, pruned_loss=0.04316, over 1088601.01 frames. ], batch size: 27, lr: 7.26e-03, grad_scale: 16.0
2022-11-16 04:31:58,573 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=3.81 vs. limit=5.0
2022-11-16 04:32:02,851 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=78232.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 04:32:04,000 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.013e+02 1.487e+02 1.903e+02 2.328e+02 5.113e+02, threshold=3.806e+02, percent-clipped=2.0
2022-11-16 04:32:20,031 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=3.95 vs. limit=5.0
2022-11-16 04:32:29,984 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=78272.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 04:32:43,995 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=78293.0, num_to_drop=1, layers_to_drop={2}
2022-11-16 04:33:01,992 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=78320.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 04:33:02,617 INFO [train.py:876] (1/4) Epoch 11, batch 5600, loss[loss=0.1115, simple_loss=0.137, pruned_loss=0.04302, over 5601.00 frames. ], tot_loss[loss=0.1141, simple_loss=0.1418, pruned_loss=0.04323, over 1086517.57 frames. ], batch size: 22, lr: 7.25e-03, grad_scale: 16.0
2022-11-16 04:33:11,296 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=78333.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 04:33:11,813 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 7.428e+01 1.405e+02 1.623e+02 2.102e+02 3.893e+02, threshold=3.245e+02, percent-clipped=1.0
2022-11-16 04:33:43,980 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=78381.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 04:34:04,362 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.4926, 3.8256, 3.4583, 3.7706, 3.8241, 3.2618, 3.4602, 3.3610],
       device='cuda:1'), covar=tensor([0.0837, 0.0539, 0.1388, 0.0614, 0.0574, 0.0503, 0.0766, 0.0730],
       device='cuda:1'), in_proj_covar=tensor([0.0135, 0.0180, 0.0277, 0.0175, 0.0219, 0.0173, 0.0187, 0.0173],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0003, 0.0004, 0.0003, 0.0003, 0.0002, 0.0003, 0.0002],
       device='cuda:1')
2022-11-16 04:34:11,589 INFO [train.py:876] (1/4) Epoch 11, batch 5700, loss[loss=0.15, simple_loss=0.1543, pruned_loss=0.07292, over 4115.00 frames. ], tot_loss[loss=0.1139, simple_loss=0.1413, pruned_loss=0.04331, over 1083950.68 frames. ], batch size: 181, lr: 7.25e-03, grad_scale: 16.0
2022-11-16 04:34:20,541 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 9.114e+01 1.453e+02 1.885e+02 2.462e+02 5.318e+02, threshold=3.770e+02, percent-clipped=5.0
2022-11-16 04:34:30,945 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.15 vs. limit=2.0
2022-11-16 04:34:37,242 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.9622, 3.2892, 2.4923, 1.6473, 3.0819, 1.2632, 3.0904, 1.7032],
       device='cuda:1'), covar=tensor([0.1525, 0.0211, 0.0930, 0.1746, 0.0269, 0.1970, 0.0300, 0.1523],
       device='cuda:1'), in_proj_covar=tensor([0.0122, 0.0105, 0.0115, 0.0114, 0.0101, 0.0123, 0.0099, 0.0112],
       device='cuda:1'), out_proj_covar=tensor([0.0005, 0.0004, 0.0005, 0.0004, 0.0004, 0.0005, 0.0004, 0.0004],
       device='cuda:1')
2022-11-16 04:34:37,883 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=78460.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 04:35:07,872 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.1452, 2.1155, 2.4887, 3.3839, 3.2950, 2.5411, 2.1128, 3.2551],
       device='cuda:1'), covar=tensor([0.1223, 0.2658, 0.2196, 0.1662, 0.1225, 0.2922, 0.2074, 0.1256],
       device='cuda:1'), in_proj_covar=tensor([0.0254, 0.0200, 0.0190, 0.0305, 0.0225, 0.0207, 0.0190, 0.0246],
       device='cuda:1'), out_proj_covar=tensor([0.0006, 0.0005, 0.0005, 0.0006, 0.0005, 0.0005, 0.0005, 0.0006],
       device='cuda:1')
2022-11-16 04:35:18,649 INFO [train.py:876] (1/4) Epoch 11, batch 5800, loss[loss=0.1039, simple_loss=0.1291, pruned_loss=0.03931, over 5538.00 frames. ], tot_loss[loss=0.1135, simple_loss=0.1407, pruned_loss=0.04317, over 1080820.56 frames. ], batch size: 10, lr: 7.24e-03, grad_scale: 16.0
2022-11-16 04:35:18,835 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=78521.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 04:35:27,562 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 9.244e+01 1.530e+02 1.946e+02 2.399e+02 7.039e+02, threshold=3.892e+02, percent-clipped=3.0
2022-11-16 04:35:42,333 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=78556.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 04:36:02,208 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.7201, 1.4891, 1.5875, 1.2203, 1.5216, 1.6148, 1.2170, 0.8147],
       device='cuda:1'), covar=tensor([0.0028, 0.0054, 0.0042, 0.0064, 0.0051, 0.0049, 0.0047, 0.0066],
       device='cuda:1'), in_proj_covar=tensor([0.0027, 0.0025, 0.0026, 0.0034, 0.0029, 0.0027, 0.0033, 0.0032],
       device='cuda:1'), out_proj_covar=tensor([2.5341e-05, 2.3591e-05, 2.3555e-05, 3.3708e-05, 2.6879e-05, 2.5960e-05,
        3.1816e-05, 3.0884e-05], device='cuda:1')
2022-11-16 04:36:03,414 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=78588.0, num_to_drop=1, layers_to_drop={0}
2022-11-16 04:36:08,821 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=2.00 vs. limit=2.0
2022-11-16 04:36:17,536 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.5852, 2.1218, 2.3297, 2.9439, 2.9777, 2.4551, 2.0534, 2.9952],
       device='cuda:1'), covar=tensor([0.1802, 0.1874, 0.1796, 0.1476, 0.1150, 0.2222, 0.1706, 0.1108],
       device='cuda:1'), in_proj_covar=tensor([0.0253, 0.0198, 0.0189, 0.0301, 0.0224, 0.0205, 0.0187, 0.0244],
       device='cuda:1'), out_proj_covar=tensor([0.0006, 0.0005, 0.0005, 0.0006, 0.0005, 0.0005, 0.0005, 0.0006],
       device='cuda:1')
2022-11-16 04:36:23,767 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=78617.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 04:36:26,223 INFO [train.py:876] (1/4) Epoch 11, batch 5900, loss[loss=0.1164, simple_loss=0.129, pruned_loss=0.05191, over 5036.00 frames. ], tot_loss[loss=0.1146, simple_loss=0.1421, pruned_loss=0.04353, over 1081695.31 frames. ], batch size: 110, lr: 7.24e-03, grad_scale: 16.0
2022-11-16 04:36:34,706 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.102e+02 1.483e+02 1.879e+02 2.262e+02 4.846e+02, threshold=3.758e+02, percent-clipped=3.0
2022-11-16 04:37:01,643 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([4.3889, 2.8838, 3.2996, 4.0916, 4.0778, 3.3094, 3.0523, 4.0255],
       device='cuda:1'), covar=tensor([0.0436, 0.2287, 0.1701, 0.2750, 0.0960, 0.2665, 0.1736, 0.0796],
       device='cuda:1'), in_proj_covar=tensor([0.0254, 0.0198, 0.0188, 0.0302, 0.0225, 0.0205, 0.0187, 0.0244],
       device='cuda:1'), out_proj_covar=tensor([0.0006, 0.0005, 0.0005, 0.0006, 0.0005, 0.0005, 0.0005, 0.0006],
       device='cuda:1')
2022-11-16 04:37:24,578 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.3693, 3.4259, 3.3068, 3.0571, 1.9546, 3.4126, 2.1012, 3.0312],
       device='cuda:1'), covar=tensor([0.0458, 0.0191, 0.0215, 0.0413, 0.0597, 0.0212, 0.0583, 0.0188],
       device='cuda:1'), in_proj_covar=tensor([0.0189, 0.0174, 0.0178, 0.0199, 0.0189, 0.0176, 0.0188, 0.0180],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
       device='cuda:1')
2022-11-16 04:37:33,703 INFO [train.py:876] (1/4) Epoch 11, batch 6000, loss[loss=0.1109, simple_loss=0.1375, pruned_loss=0.04222, over 5582.00 frames. ], tot_loss[loss=0.1155, simple_loss=0.1425, pruned_loss=0.0443, over 1087965.07 frames. ], batch size: 25, lr: 7.24e-03, grad_scale: 16.0
2022-11-16 04:37:33,703 INFO [train.py:899] (1/4) Computing validation loss
2022-11-16 04:37:51,351 INFO [train.py:908] (1/4) Epoch 11, validation: loss=0.1691, simple_loss=0.1834, pruned_loss=0.07744, over 1530663.00 frames. 
2022-11-16 04:37:51,351 INFO [train.py:909] (1/4) Maximum memory allocated so far is 4676MB
2022-11-16 04:37:59,811 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.061e+02 1.487e+02 1.823e+02 2.133e+02 3.868e+02, threshold=3.646e+02, percent-clipped=1.0
2022-11-16 04:38:13,906 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([5.0057, 4.5949, 4.8835, 4.5794, 5.0851, 4.9626, 4.4258, 5.0894],
       device='cuda:1'), covar=tensor([0.0423, 0.0339, 0.0398, 0.0280, 0.0411, 0.0213, 0.0270, 0.0245],
       device='cuda:1'), in_proj_covar=tensor([0.0142, 0.0152, 0.0109, 0.0143, 0.0175, 0.0106, 0.0124, 0.0151],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003],
       device='cuda:1')
2022-11-16 04:38:31,441 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([4.5264, 4.9040, 4.4859, 4.9326, 4.8993, 4.0627, 4.5218, 4.1159],
       device='cuda:1'), covar=tensor([0.0273, 0.0317, 0.1181, 0.0332, 0.0411, 0.0566, 0.0439, 0.0538],
       device='cuda:1'), in_proj_covar=tensor([0.0137, 0.0181, 0.0277, 0.0175, 0.0222, 0.0174, 0.0189, 0.0175],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0003, 0.0004, 0.0003, 0.0003, 0.0002, 0.0003, 0.0002],
       device='cuda:1')
2022-11-16 04:38:56,294 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=78816.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 04:38:59,574 INFO [train.py:876] (1/4) Epoch 11, batch 6100, loss[loss=0.07837, simple_loss=0.1241, pruned_loss=0.01633, over 5693.00 frames. ], tot_loss[loss=0.1131, simple_loss=0.141, pruned_loss=0.04257, over 1085101.88 frames. ], batch size: 19, lr: 7.23e-03, grad_scale: 16.0
2022-11-16 04:39:08,232 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 8.645e+01 1.456e+02 1.777e+02 2.158e+02 4.181e+02, threshold=3.555e+02, percent-clipped=3.0
2022-11-16 04:39:44,977 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=78888.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 04:39:56,188 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.8112, 2.8613, 2.5323, 2.9474, 2.5374, 2.4406, 2.7410, 3.3596],
       device='cuda:1'), covar=tensor([0.1410, 0.1529, 0.2024, 0.1203, 0.1592, 0.1626, 0.1636, 0.1474],
       device='cuda:1'), in_proj_covar=tensor([0.0110, 0.0106, 0.0105, 0.0102, 0.0093, 0.0101, 0.0097, 0.0080],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0004, 0.0004, 0.0004, 0.0003, 0.0004, 0.0004, 0.0003],
       device='cuda:1')
2022-11-16 04:40:01,678 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=78912.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 04:40:07,447 INFO [train.py:876] (1/4) Epoch 11, batch 6200, loss[loss=0.0964, simple_loss=0.1333, pruned_loss=0.02973, over 5607.00 frames. ], tot_loss[loss=0.1137, simple_loss=0.1413, pruned_loss=0.04302, over 1084216.98 frames. ], batch size: 22, lr: 7.23e-03, grad_scale: 16.0
2022-11-16 04:40:16,300 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 9.628e+01 1.452e+02 1.821e+02 2.109e+02 4.865e+02, threshold=3.642e+02, percent-clipped=3.0
2022-11-16 04:40:17,678 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=78936.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 04:40:27,043 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.7279, 2.4204, 3.3292, 3.0372, 3.3872, 2.4665, 3.1515, 3.7176],
       device='cuda:1'), covar=tensor([0.0713, 0.1490, 0.0854, 0.1269, 0.0755, 0.1583, 0.1161, 0.0708],
       device='cuda:1'), in_proj_covar=tensor([0.0244, 0.0193, 0.0215, 0.0211, 0.0239, 0.0195, 0.0223, 0.0227],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004],
       device='cuda:1')
2022-11-16 04:40:37,735 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=78965.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 04:41:15,713 INFO [train.py:876] (1/4) Epoch 11, batch 6300, loss[loss=0.1187, simple_loss=0.1416, pruned_loss=0.04786, over 5295.00 frames. ], tot_loss[loss=0.114, simple_loss=0.1417, pruned_loss=0.04316, over 1089274.42 frames. ], batch size: 79, lr: 7.22e-03, grad_scale: 16.0
2022-11-16 04:41:17,745 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.8481, 2.2467, 2.8853, 1.6749, 1.3372, 3.4842, 2.7796, 2.1719],
       device='cuda:1'), covar=tensor([0.0993, 0.1416, 0.0736, 0.3521, 0.3467, 0.1380, 0.1064, 0.1303],
       device='cuda:1'), in_proj_covar=tensor([0.0097, 0.0088, 0.0089, 0.0098, 0.0071, 0.0064, 0.0075, 0.0087],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
       device='cuda:1')
2022-11-16 04:41:19,124 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=79026.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 04:41:24,115 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.143e+02 1.477e+02 1.821e+02 2.187e+02 5.336e+02, threshold=3.643e+02, percent-clipped=2.0
2022-11-16 04:42:19,625 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=79116.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 04:42:23,416 INFO [train.py:876] (1/4) Epoch 11, batch 6400, loss[loss=0.12, simple_loss=0.1566, pruned_loss=0.04166, over 5802.00 frames. ], tot_loss[loss=0.1133, simple_loss=0.1411, pruned_loss=0.04278, over 1088088.65 frames. ], batch size: 22, lr: 7.22e-03, grad_scale: 16.0
2022-11-16 04:42:29,837 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.8668, 1.3654, 1.6021, 1.2848, 1.5907, 1.6970, 1.2831, 0.9878],
       device='cuda:1'), covar=tensor([0.0028, 0.0045, 0.0031, 0.0053, 0.0051, 0.0034, 0.0040, 0.0064],
       device='cuda:1'), in_proj_covar=tensor([0.0027, 0.0025, 0.0025, 0.0034, 0.0029, 0.0027, 0.0033, 0.0032],
       device='cuda:1'), out_proj_covar=tensor([2.4868e-05, 2.3623e-05, 2.2945e-05, 3.3494e-05, 2.7164e-05, 2.5489e-05,
        3.1730e-05, 3.0749e-05], device='cuda:1')
2022-11-16 04:42:32,273 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 9.453e+01 1.576e+02 1.936e+02 2.244e+02 4.119e+02, threshold=3.873e+02, percent-clipped=1.0
2022-11-16 04:42:52,527 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=79164.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 04:43:16,537 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.1005, 4.4024, 4.3216, 3.8669, 2.4848, 4.8644, 2.5620, 3.9923],
       device='cuda:1'), covar=tensor([0.0376, 0.0167, 0.0166, 0.0379, 0.0650, 0.0107, 0.0543, 0.0215],
       device='cuda:1'), in_proj_covar=tensor([0.0187, 0.0172, 0.0176, 0.0197, 0.0186, 0.0174, 0.0186, 0.0177],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
       device='cuda:1')
2022-11-16 04:43:22,073 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=1.99 vs. limit=2.0
2022-11-16 04:43:25,628 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=79212.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 04:43:31,337 INFO [train.py:876] (1/4) Epoch 11, batch 6500, loss[loss=0.1453, simple_loss=0.1694, pruned_loss=0.06058, over 5663.00 frames. ], tot_loss[loss=0.1139, simple_loss=0.1412, pruned_loss=0.04332, over 1086693.19 frames. ], batch size: 36, lr: 7.21e-03, grad_scale: 16.0
2022-11-16 04:43:40,080 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 9.904e+01 1.514e+02 1.877e+02 2.297e+02 4.296e+02, threshold=3.754e+02, percent-clipped=3.0
2022-11-16 04:43:57,774 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=79260.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 04:44:14,393 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=79285.0, num_to_drop=1, layers_to_drop={1}
2022-11-16 04:44:37,863 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([4.1465, 2.7551, 3.2169, 4.0483, 3.9311, 3.0697, 2.4970, 3.9731],
       device='cuda:1'), covar=tensor([0.0683, 0.2256, 0.1679, 0.1961, 0.1002, 0.2908, 0.2257, 0.0823],
       device='cuda:1'), in_proj_covar=tensor([0.0247, 0.0195, 0.0187, 0.0302, 0.0221, 0.0200, 0.0187, 0.0242],
       device='cuda:1'), out_proj_covar=tensor([0.0006, 0.0005, 0.0005, 0.0006, 0.0005, 0.0005, 0.0005, 0.0005],
       device='cuda:1')
2022-11-16 04:44:39,321 INFO [train.py:876] (1/4) Epoch 11, batch 6600, loss[loss=0.07396, simple_loss=0.1109, pruned_loss=0.01851, over 5207.00 frames. ], tot_loss[loss=0.1134, simple_loss=0.1412, pruned_loss=0.04273, over 1085997.08 frames. ], batch size: 8, lr: 7.21e-03, grad_scale: 16.0
2022-11-16 04:44:39,394 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=79321.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 04:44:47,241 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=79333.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 04:44:47,746 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 8.843e+01 1.552e+02 2.036e+02 2.359e+02 4.515e+02, threshold=4.072e+02, percent-clipped=1.0
2022-11-16 04:44:56,161 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=79346.0, num_to_drop=1, layers_to_drop={0}
2022-11-16 04:45:08,449 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=79364.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 04:45:15,644 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=79375.0, num_to_drop=1, layers_to_drop={0}
2022-11-16 04:45:24,286 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.8877, 3.5244, 3.7427, 3.4201, 3.9176, 3.6738, 3.6145, 3.9316],
       device='cuda:1'), covar=tensor([0.0438, 0.0453, 0.0517, 0.0443, 0.0450, 0.0505, 0.0331, 0.0392],
       device='cuda:1'), in_proj_covar=tensor([0.0144, 0.0153, 0.0111, 0.0145, 0.0178, 0.0107, 0.0126, 0.0154],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003],
       device='cuda:1')
2022-11-16 04:45:28,427 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=79394.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 04:45:43,805 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.0601, 1.6300, 1.3981, 1.3871, 1.1174, 1.9673, 1.5383, 1.1772],
       device='cuda:1'), covar=tensor([0.3098, 0.1156, 0.2896, 0.3062, 0.3282, 0.0739, 0.2040, 0.3575],
       device='cuda:1'), in_proj_covar=tensor([0.0099, 0.0090, 0.0090, 0.0099, 0.0072, 0.0064, 0.0075, 0.0088],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
       device='cuda:1')
2022-11-16 04:45:46,987 INFO [train.py:876] (1/4) Epoch 11, batch 6700, loss[loss=0.1221, simple_loss=0.1476, pruned_loss=0.04828, over 5619.00 frames. ], tot_loss[loss=0.1148, simple_loss=0.1418, pruned_loss=0.04386, over 1083116.05 frames. ], batch size: 29, lr: 7.20e-03, grad_scale: 16.0
2022-11-16 04:45:49,762 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=79425.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 04:45:55,337 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 8.416e+01 1.570e+02 1.880e+02 2.430e+02 4.197e+02, threshold=3.759e+02, percent-clipped=3.0
2022-11-16 04:45:56,819 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=79436.0, num_to_drop=1, layers_to_drop={2}
2022-11-16 04:46:54,263 INFO [train.py:876] (1/4) Epoch 11, batch 6800, loss[loss=0.1203, simple_loss=0.1282, pruned_loss=0.0562, over 4137.00 frames. ], tot_loss[loss=0.1127, simple_loss=0.1401, pruned_loss=0.04263, over 1087613.33 frames. ], batch size: 181, lr: 7.20e-03, grad_scale: 16.0
2022-11-16 04:47:03,441 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 7.898e+01 1.544e+02 1.830e+02 2.349e+02 4.429e+02, threshold=3.660e+02, percent-clipped=3.0
2022-11-16 04:47:08,069 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=1.87 vs. limit=2.0
2022-11-16 04:47:38,072 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=79585.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 04:47:44,771 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.5636, 3.4444, 3.5154, 3.3510, 3.5858, 3.4728, 1.4140, 3.6365],
       device='cuda:1'), covar=tensor([0.0279, 0.0353, 0.0360, 0.0352, 0.0385, 0.0349, 0.3162, 0.0325],
       device='cuda:1'), in_proj_covar=tensor([0.0100, 0.0085, 0.0086, 0.0078, 0.0099, 0.0088, 0.0130, 0.0106],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
       device='cuda:1')
2022-11-16 04:48:02,161 INFO [train.py:876] (1/4) Epoch 11, batch 6900, loss[loss=0.1008, simple_loss=0.1418, pruned_loss=0.02987, over 5471.00 frames. ], tot_loss[loss=0.1125, simple_loss=0.1401, pruned_loss=0.04243, over 1087890.15 frames. ], batch size: 12, lr: 7.19e-03, grad_scale: 16.0
2022-11-16 04:48:02,283 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=79621.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 04:48:10,567 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 9.132e+01 1.500e+02 1.797e+02 2.147e+02 3.952e+02, threshold=3.594e+02, percent-clipped=1.0
2022-11-16 04:48:15,837 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=79641.0, num_to_drop=1, layers_to_drop={2}
2022-11-16 04:48:19,219 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=79646.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 04:48:26,773 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=79657.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 04:48:34,565 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=79669.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 04:48:48,059 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=79689.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 04:49:08,148 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=79718.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 04:49:09,332 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=79720.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 04:49:09,914 INFO [train.py:876] (1/4) Epoch 11, batch 7000, loss[loss=0.1184, simple_loss=0.1346, pruned_loss=0.05108, over 5238.00 frames. ], tot_loss[loss=0.1117, simple_loss=0.1397, pruned_loss=0.0419, over 1090483.92 frames. ], batch size: 79, lr: 7.19e-03, grad_scale: 16.0
2022-11-16 04:49:11,379 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.9876, 2.5107, 2.6740, 1.6161, 2.8162, 3.0427, 2.9430, 3.0093],
       device='cuda:1'), covar=tensor([0.1903, 0.1682, 0.0975, 0.2801, 0.0811, 0.0930, 0.0642, 0.0962],
       device='cuda:1'), in_proj_covar=tensor([0.0167, 0.0181, 0.0165, 0.0183, 0.0182, 0.0199, 0.0167, 0.0184],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004],
       device='cuda:1')
2022-11-16 04:49:16,819 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=79731.0, num_to_drop=1, layers_to_drop={1}
2022-11-16 04:49:18,680 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 8.908e+01 1.674e+02 1.897e+02 2.324e+02 4.828e+02, threshold=3.794e+02, percent-clipped=2.0
2022-11-16 04:49:22,715 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([4.9860, 4.9945, 5.1864, 5.1772, 4.9389, 4.5920, 5.7995, 5.0716],
       device='cuda:1'), covar=tensor([0.0393, 0.0943, 0.0293, 0.1445, 0.0302, 0.0355, 0.0469, 0.0851],
       device='cuda:1'), in_proj_covar=tensor([0.0089, 0.0112, 0.0096, 0.0122, 0.0090, 0.0081, 0.0148, 0.0105],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0003, 0.0002, 0.0003, 0.0002, 0.0002, 0.0003, 0.0002],
       device='cuda:1')
2022-11-16 04:49:32,397 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.2667, 2.2036, 2.7463, 1.8460, 1.0846, 3.0759, 2.6417, 2.2725],
       device='cuda:1'), covar=tensor([0.1041, 0.1339, 0.0709, 0.2765, 0.2688, 0.1272, 0.1173, 0.1343],
       device='cuda:1'), in_proj_covar=tensor([0.0100, 0.0091, 0.0091, 0.0099, 0.0073, 0.0065, 0.0076, 0.0087],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
       device='cuda:1')
2022-11-16 04:49:38,293 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=79762.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 04:50:18,629 INFO [train.py:876] (1/4) Epoch 11, batch 7100, loss[loss=0.08325, simple_loss=0.1108, pruned_loss=0.02784, over 5312.00 frames. ], tot_loss[loss=0.1117, simple_loss=0.1395, pruned_loss=0.04193, over 1081696.66 frames. ], batch size: 9, lr: 7.19e-03, grad_scale: 16.0
2022-11-16 04:50:20,098 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=79823.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 04:50:27,110 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.051e+02 1.428e+02 1.794e+02 2.274e+02 4.053e+02, threshold=3.587e+02, percent-clipped=1.0
2022-11-16 04:50:53,435 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.19 vs. limit=2.0
2022-11-16 04:51:20,911 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.1610, 2.6172, 3.3162, 2.2444, 1.7092, 3.7858, 2.8148, 2.3467],
       device='cuda:1'), covar=tensor([0.0675, 0.1328, 0.0557, 0.2453, 0.5024, 0.1186, 0.2861, 0.1154],
       device='cuda:1'), in_proj_covar=tensor([0.0101, 0.0092, 0.0091, 0.0100, 0.0073, 0.0066, 0.0076, 0.0089],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
       device='cuda:1')
2022-11-16 04:51:27,328 INFO [train.py:876] (1/4) Epoch 11, batch 7200, loss[loss=0.0653, simple_loss=0.09253, pruned_loss=0.01903, over 5499.00 frames. ], tot_loss[loss=0.1111, simple_loss=0.1388, pruned_loss=0.04173, over 1077500.53 frames. ], batch size: 10, lr: 7.18e-03, grad_scale: 16.0
2022-11-16 04:51:35,800 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 8.528e+01 1.486e+02 1.793e+02 2.179e+02 3.743e+02, threshold=3.587e+02, percent-clipped=3.0
2022-11-16 04:51:40,436 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=79941.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 04:51:40,480 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=79941.0, num_to_drop=1, layers_to_drop={2}
2022-11-16 04:51:40,631 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.23 vs. limit=2.0
2022-11-16 04:52:06,165 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([5.7234, 5.1233, 5.4940, 5.0334, 5.7420, 5.5550, 4.7616, 5.6656],
       device='cuda:1'), covar=tensor([0.0267, 0.0301, 0.0440, 0.0277, 0.0304, 0.0158, 0.0261, 0.0232],
       device='cuda:1'), in_proj_covar=tensor([0.0142, 0.0153, 0.0110, 0.0143, 0.0177, 0.0105, 0.0124, 0.0152],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003],
       device='cuda:1')
2022-11-16 04:52:11,193 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=79989.0, num_to_drop=1, layers_to_drop={1}
2022-11-16 04:52:11,247 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=79989.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 04:52:57,787 INFO [train.py:876] (1/4) Epoch 12, batch 0, loss[loss=0.08154, simple_loss=0.1193, pruned_loss=0.02188, over 5555.00 frames. ], tot_loss[loss=0.08154, simple_loss=0.1193, pruned_loss=0.02188, over 5555.00 frames. ], batch size: 15, lr: 6.88e-03, grad_scale: 16.0
2022-11-16 04:52:57,788 INFO [train.py:899] (1/4) Computing validation loss
2022-11-16 04:53:01,711 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.3082, 3.7277, 2.7366, 3.5585, 2.8962, 2.7508, 2.1954, 3.1638],
       device='cuda:1'), covar=tensor([0.1271, 0.0259, 0.0902, 0.0324, 0.1010, 0.0943, 0.1754, 0.0447],
       device='cuda:1'), in_proj_covar=tensor([0.0155, 0.0141, 0.0155, 0.0144, 0.0170, 0.0163, 0.0159, 0.0156],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0003, 0.0004, 0.0003, 0.0004, 0.0004, 0.0004, 0.0004],
       device='cuda:1')
2022-11-16 04:53:03,592 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([5.3553, 4.9240, 5.1793, 4.8072, 5.3880, 5.3903, 4.7594, 5.2724],
       device='cuda:1'), covar=tensor([0.0221, 0.0382, 0.0368, 0.0441, 0.0262, 0.0150, 0.0305, 0.0424],
       device='cuda:1'), in_proj_covar=tensor([0.0142, 0.0152, 0.0110, 0.0143, 0.0177, 0.0105, 0.0124, 0.0151],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003],
       device='cuda:1')
2022-11-16 04:53:14,373 INFO [train.py:908] (1/4) Epoch 12, validation: loss=0.1725, simple_loss=0.1858, pruned_loss=0.07956, over 1530663.00 frames. 
2022-11-16 04:53:14,374 INFO [train.py:909] (1/4) Maximum memory allocated so far is 4676MB
2022-11-16 04:53:15,861 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.2304, 2.2677, 2.0337, 2.1171, 1.8821, 1.6966, 1.9723, 2.5592],
       device='cuda:1'), covar=tensor([0.1470, 0.1777, 0.2170, 0.1580, 0.1729, 0.2698, 0.1785, 0.0758],
       device='cuda:1'), in_proj_covar=tensor([0.0109, 0.0104, 0.0105, 0.0102, 0.0092, 0.0101, 0.0097, 0.0079],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0004, 0.0004, 0.0004, 0.0003, 0.0004, 0.0003, 0.0003],
       device='cuda:1')
2022-11-16 04:53:16,466 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.2003, 3.2517, 3.1476, 3.1208, 3.3392, 3.3031, 1.2984, 3.4633],
       device='cuda:1'), covar=tensor([0.0301, 0.0303, 0.0425, 0.0359, 0.0299, 0.0365, 0.3114, 0.0286],
       device='cuda:1'), in_proj_covar=tensor([0.0102, 0.0085, 0.0087, 0.0080, 0.0100, 0.0090, 0.0132, 0.0106],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
       device='cuda:1')
2022-11-16 04:53:31,368 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=80013.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 04:53:36,411 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=80020.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 04:53:43,627 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=80031.0, num_to_drop=1, layers_to_drop={2}
2022-11-16 04:53:45,398 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 9.136e+01 1.488e+02 1.843e+02 2.324e+02 4.228e+02, threshold=3.685e+02, percent-clipped=3.0
2022-11-16 04:53:47,748 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=80037.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 04:54:01,885 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.48 vs. limit=2.0
2022-11-16 04:54:08,554 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=80068.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 04:54:15,972 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=80079.0, num_to_drop=1, layers_to_drop={0}
2022-11-16 04:54:25,344 INFO [train.py:876] (1/4) Epoch 12, batch 100, loss[loss=0.1278, simple_loss=0.1393, pruned_loss=0.05813, over 4177.00 frames. ], tot_loss[loss=0.1158, simple_loss=0.1426, pruned_loss=0.04447, over 429955.40 frames. ], batch size: 183, lr: 6.87e-03, grad_scale: 16.0
2022-11-16 04:54:42,308 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=80118.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 04:54:52,465 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.7056, 1.2220, 1.7433, 1.1281, 1.6084, 1.6056, 1.1705, 1.4173],
       device='cuda:1'), covar=tensor([0.0808, 0.0726, 0.0685, 0.0862, 0.0692, 0.0922, 0.0816, 0.0807],
       device='cuda:1'), in_proj_covar=tensor([0.0014, 0.0023, 0.0016, 0.0020, 0.0016, 0.0015, 0.0022, 0.0015],
       device='cuda:1'), out_proj_covar=tensor([8.0667e-05, 1.1088e-04, 8.3766e-05, 1.0013e-04, 8.6501e-05, 8.0841e-05,
        1.0643e-04, 8.0444e-05], device='cuda:1')
2022-11-16 04:54:52,892 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 8.598e+01 1.606e+02 2.099e+02 2.573e+02 5.035e+02, threshold=4.198e+02, percent-clipped=4.0
2022-11-16 04:55:09,683 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([4.2839, 4.6955, 4.2960, 4.7365, 4.7197, 3.9086, 4.3310, 4.0341],
       device='cuda:1'), covar=tensor([0.0521, 0.0419, 0.1191, 0.0362, 0.0381, 0.0571, 0.0445, 0.0525],
       device='cuda:1'), in_proj_covar=tensor([0.0138, 0.0182, 0.0278, 0.0176, 0.0222, 0.0176, 0.0191, 0.0176],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0003, 0.0004, 0.0003, 0.0003, 0.0002, 0.0003, 0.0002],
       device='cuda:1')
2022-11-16 04:55:32,801 INFO [train.py:876] (1/4) Epoch 12, batch 200, loss[loss=0.09451, simple_loss=0.1288, pruned_loss=0.03012, over 5697.00 frames. ], tot_loss[loss=0.1154, simple_loss=0.1423, pruned_loss=0.04426, over 689992.30 frames. ], batch size: 17, lr: 6.87e-03, grad_scale: 16.0
2022-11-16 04:55:46,823 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=1.93 vs. limit=2.0
2022-11-16 04:56:01,418 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 7.921e+01 1.528e+02 1.725e+02 2.144e+02 5.994e+02, threshold=3.450e+02, percent-clipped=2.0
2022-11-16 04:56:05,509 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=80241.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 04:56:29,395 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.9005, 3.1446, 2.7081, 3.2296, 2.7645, 3.0297, 3.2739, 3.8134],
       device='cuda:1'), covar=tensor([0.1575, 0.1085, 0.1806, 0.0836, 0.1205, 0.0901, 0.0903, 0.0653],
       device='cuda:1'), in_proj_covar=tensor([0.0109, 0.0104, 0.0105, 0.0101, 0.0091, 0.0102, 0.0097, 0.0079],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0004, 0.0004, 0.0004, 0.0003, 0.0004, 0.0004, 0.0003],
       device='cuda:1')
2022-11-16 04:56:33,656 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=80283.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 04:56:37,804 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=80289.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 04:56:40,372 INFO [train.py:876] (1/4) Epoch 12, batch 300, loss[loss=0.08064, simple_loss=0.1147, pruned_loss=0.02331, over 5462.00 frames. ], tot_loss[loss=0.1129, simple_loss=0.1414, pruned_loss=0.04225, over 850679.01 frames. ], batch size: 10, lr: 6.86e-03, grad_scale: 16.0
2022-11-16 04:56:53,754 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=80313.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 04:57:08,169 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 9.446e+01 1.444e+02 1.739e+02 2.202e+02 4.917e+02, threshold=3.479e+02, percent-clipped=4.0
2022-11-16 04:57:12,207 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([4.3515, 3.9521, 4.2094, 3.9231, 4.3800, 4.1978, 3.9868, 4.3843],
       device='cuda:1'), covar=tensor([0.0354, 0.0378, 0.0410, 0.0356, 0.0356, 0.0288, 0.0321, 0.0314],
       device='cuda:1'), in_proj_covar=tensor([0.0143, 0.0155, 0.0111, 0.0144, 0.0179, 0.0106, 0.0127, 0.0154],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003],
       device='cuda:1')
2022-11-16 04:57:14,544 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=80344.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 04:57:25,857 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=80361.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 04:57:36,918 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.6137, 1.2833, 1.6393, 0.8924, 1.3677, 1.8172, 0.9379, 1.3008],
       device='cuda:1'), covar=tensor([0.0355, 0.0784, 0.0419, 0.1186, 0.1474, 0.0347, 0.1255, 0.0461],
       device='cuda:1'), in_proj_covar=tensor([0.0015, 0.0023, 0.0016, 0.0020, 0.0016, 0.0015, 0.0021, 0.0015],
       device='cuda:1'), out_proj_covar=tensor([8.1093e-05, 1.1117e-04, 8.3258e-05, 9.9959e-05, 8.6383e-05, 8.0940e-05,
        1.0613e-04, 8.0370e-05], device='cuda:1')
2022-11-16 04:57:47,433 INFO [train.py:876] (1/4) Epoch 12, batch 400, loss[loss=0.2365, simple_loss=0.2179, pruned_loss=0.1275, over 2937.00 frames. ], tot_loss[loss=0.1118, simple_loss=0.1407, pruned_loss=0.04151, over 944873.82 frames. ], batch size: 284, lr: 6.86e-03, grad_scale: 16.0
2022-11-16 04:57:47,560 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=80393.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 04:58:04,468 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=80418.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 04:58:15,553 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 9.295e+01 1.482e+02 1.820e+02 2.321e+02 3.687e+02, threshold=3.641e+02, percent-clipped=1.0
2022-11-16 04:58:19,503 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([4.5200, 5.2430, 4.7164, 5.2476, 5.1255, 4.3914, 4.7542, 4.4996],
       device='cuda:1'), covar=tensor([0.0346, 0.0470, 0.1635, 0.0348, 0.0454, 0.0518, 0.0650, 0.0611],
       device='cuda:1'), in_proj_covar=tensor([0.0137, 0.0180, 0.0278, 0.0174, 0.0220, 0.0173, 0.0189, 0.0173],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0003, 0.0004, 0.0003, 0.0003, 0.0002, 0.0003, 0.0002],
       device='cuda:1')
2022-11-16 04:58:27,049 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.6674, 1.6973, 1.9056, 1.7306, 1.0155, 1.4696, 1.0860, 1.3693],
       device='cuda:1'), covar=tensor([0.0130, 0.0073, 0.0074, 0.0082, 0.0211, 0.0090, 0.0166, 0.0116],
       device='cuda:1'), in_proj_covar=tensor([0.0193, 0.0177, 0.0181, 0.0202, 0.0192, 0.0180, 0.0191, 0.0183],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
       device='cuda:1')
2022-11-16 04:58:28,294 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=80454.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 04:58:34,737 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=80463.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 04:58:36,493 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=80466.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 04:58:44,845 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.8309, 1.9109, 1.5471, 1.8625, 1.9430, 1.7488, 1.6764, 1.8150],
       device='cuda:1'), covar=tensor([0.0556, 0.0951, 0.2189, 0.1045, 0.0823, 0.0725, 0.1251, 0.0800],
       device='cuda:1'), in_proj_covar=tensor([0.0137, 0.0180, 0.0279, 0.0175, 0.0221, 0.0175, 0.0190, 0.0174],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0003, 0.0004, 0.0003, 0.0003, 0.0002, 0.0003, 0.0002],
       device='cuda:1')
2022-11-16 04:58:54,181 INFO [train.py:876] (1/4) Epoch 12, batch 500, loss[loss=0.1108, simple_loss=0.1456, pruned_loss=0.03803, over 5747.00 frames. ], tot_loss[loss=0.1122, simple_loss=0.1411, pruned_loss=0.04167, over 1000074.70 frames. ], batch size: 16, lr: 6.86e-03, grad_scale: 16.0
2022-11-16 04:58:54,996 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=80494.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 04:59:15,510 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=80524.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 04:59:22,650 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 9.271e+01 1.520e+02 1.906e+02 2.365e+02 4.910e+02, threshold=3.812e+02, percent-clipped=3.0
2022-11-16 04:59:36,592 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=80555.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 04:59:56,233 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.9479, 2.4281, 3.0434, 3.8296, 3.7600, 2.9895, 2.4270, 3.8734],
       device='cuda:1'), covar=tensor([0.0758, 0.3374, 0.2054, 0.2243, 0.1085, 0.2730, 0.2335, 0.0912],
       device='cuda:1'), in_proj_covar=tensor([0.0250, 0.0197, 0.0189, 0.0297, 0.0221, 0.0202, 0.0189, 0.0243],
       device='cuda:1'), out_proj_covar=tensor([0.0006, 0.0005, 0.0005, 0.0006, 0.0005, 0.0005, 0.0005, 0.0005],
       device='cuda:1')
2022-11-16 05:00:01,973 INFO [train.py:876] (1/4) Epoch 12, batch 600, loss[loss=0.1015, simple_loss=0.1373, pruned_loss=0.03283, over 5815.00 frames. ], tot_loss[loss=0.112, simple_loss=0.1404, pruned_loss=0.04182, over 1034845.48 frames. ], batch size: 18, lr: 6.85e-03, grad_scale: 16.0
2022-11-16 05:00:18,038 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.1971, 1.4417, 1.5999, 1.6583, 1.5054, 2.1860, 1.7895, 1.7282],
       device='cuda:1'), covar=tensor([0.0045, 0.0102, 0.0042, 0.0051, 0.0195, 0.0061, 0.0051, 0.0057],
       device='cuda:1'), in_proj_covar=tensor([0.0028, 0.0027, 0.0027, 0.0036, 0.0030, 0.0028, 0.0034, 0.0033],
       device='cuda:1'), out_proj_covar=tensor([2.5934e-05, 2.4844e-05, 2.4104e-05, 3.4714e-05, 2.8365e-05, 2.6146e-05,
        3.2857e-05, 3.2265e-05], device='cuda:1')
2022-11-16 05:00:30,596 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 9.813e+01 1.490e+02 1.792e+02 2.361e+02 3.754e+02, threshold=3.583e+02, percent-clipped=0.0
2022-11-16 05:00:33,645 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=80639.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 05:00:58,626 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.4153, 3.4728, 3.5152, 3.2162, 3.4593, 3.3339, 1.2268, 3.5627],
       device='cuda:1'), covar=tensor([0.0307, 0.0314, 0.0336, 0.0364, 0.0365, 0.0419, 0.3206, 0.0348],
       device='cuda:1'), in_proj_covar=tensor([0.0100, 0.0085, 0.0087, 0.0079, 0.0098, 0.0087, 0.0128, 0.0104],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
       device='cuda:1')
2022-11-16 05:01:07,270 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=1.88 vs. limit=2.0
2022-11-16 05:01:10,385 INFO [train.py:876] (1/4) Epoch 12, batch 700, loss[loss=0.1, simple_loss=0.1383, pruned_loss=0.03086, over 5750.00 frames. ], tot_loss[loss=0.1084, simple_loss=0.1378, pruned_loss=0.03947, over 1056187.01 frames. ], batch size: 20, lr: 6.85e-03, grad_scale: 16.0
2022-11-16 05:01:38,617 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.003e+02 1.475e+02 1.756e+02 2.175e+02 4.412e+02, threshold=3.511e+02, percent-clipped=5.0
2022-11-16 05:01:39,447 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=80736.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 05:01:48,507 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=80749.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 05:01:51,718 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([0.7999, 1.1290, 0.7994, 0.9033, 1.0265, 1.0942, 0.6315, 1.2201],
       device='cuda:1'), covar=tensor([0.0094, 0.0056, 0.0081, 0.0057, 0.0070, 0.0067, 0.0108, 0.0054],
       device='cuda:1'), in_proj_covar=tensor([0.0059, 0.0056, 0.0055, 0.0059, 0.0058, 0.0053, 0.0052, 0.0050],
       device='cuda:1'), out_proj_covar=tensor([5.3344e-05, 4.9708e-05, 4.8423e-05, 5.3276e-05, 5.1080e-05, 4.5964e-05,
        4.6419e-05, 4.3668e-05], device='cuda:1')
2022-11-16 05:02:04,773 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=80773.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 05:02:17,710 INFO [train.py:876] (1/4) Epoch 12, batch 800, loss[loss=0.1383, simple_loss=0.1487, pruned_loss=0.06395, over 5232.00 frames. ], tot_loss[loss=0.1111, simple_loss=0.1396, pruned_loss=0.04133, over 1064117.71 frames. ], batch size: 79, lr: 6.84e-03, grad_scale: 16.0
2022-11-16 05:02:20,483 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=80797.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 05:02:35,206 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=80819.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 05:02:45,864 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=80834.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 05:02:46,324 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 9.454e+01 1.512e+02 1.839e+02 2.382e+02 3.696e+02, threshold=3.678e+02, percent-clipped=2.0
2022-11-16 05:02:56,116 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=80850.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 05:02:56,802 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([4.1100, 4.5602, 4.1267, 4.5820, 4.5376, 3.8523, 4.1124, 3.9145],
       device='cuda:1'), covar=tensor([0.0441, 0.0397, 0.1287, 0.0308, 0.0377, 0.0479, 0.0585, 0.0499],
       device='cuda:1'), in_proj_covar=tensor([0.0137, 0.0180, 0.0277, 0.0174, 0.0220, 0.0173, 0.0190, 0.0174],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0003, 0.0004, 0.0003, 0.0003, 0.0002, 0.0003, 0.0002],
       device='cuda:1')
2022-11-16 05:03:09,630 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=2.00 vs. limit=2.0
2022-11-16 05:03:25,608 INFO [train.py:876] (1/4) Epoch 12, batch 900, loss[loss=0.1051, simple_loss=0.1352, pruned_loss=0.0375, over 5586.00 frames. ], tot_loss[loss=0.1119, simple_loss=0.1402, pruned_loss=0.0418, over 1070929.89 frames. ], batch size: 22, lr: 6.84e-03, grad_scale: 8.0
2022-11-16 05:03:56,033 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.157e+02 1.546e+02 1.867e+02 2.262e+02 5.374e+02, threshold=3.734e+02, percent-clipped=6.0
2022-11-16 05:03:58,292 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=80939.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 05:04:33,105 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=80987.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 05:04:37,285 INFO [train.py:876] (1/4) Epoch 12, batch 1000, loss[loss=0.08046, simple_loss=0.1231, pruned_loss=0.01893, over 5569.00 frames. ], tot_loss[loss=0.1121, simple_loss=0.1403, pruned_loss=0.04191, over 1069334.42 frames. ], batch size: 22, lr: 6.83e-03, grad_scale: 8.0
2022-11-16 05:04:45,946 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.7605, 3.6180, 3.8018, 3.8480, 3.4413, 3.4165, 4.1915, 3.7022],
       device='cuda:1'), covar=tensor([0.0420, 0.0830, 0.0452, 0.1010, 0.0600, 0.0341, 0.0705, 0.0621],
       device='cuda:1'), in_proj_covar=tensor([0.0088, 0.0110, 0.0096, 0.0121, 0.0089, 0.0081, 0.0146, 0.0104],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0003, 0.0002],
       device='cuda:1')
2022-11-16 05:04:57,941 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.5969, 2.2782, 3.2684, 2.8087, 3.2892, 2.2098, 2.9141, 3.5705],
       device='cuda:1'), covar=tensor([0.0549, 0.1419, 0.0772, 0.1269, 0.0614, 0.1491, 0.1200, 0.0737],
       device='cuda:1'), in_proj_covar=tensor([0.0241, 0.0193, 0.0214, 0.0212, 0.0238, 0.0196, 0.0223, 0.0230],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004],
       device='cuda:1')
2022-11-16 05:05:06,152 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 9.560e+01 1.507e+02 1.766e+02 2.175e+02 5.874e+02, threshold=3.531e+02, percent-clipped=3.0
2022-11-16 05:05:15,376 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=81049.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 05:05:16,679 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.0086, 3.3453, 2.5160, 1.7416, 3.2151, 1.3716, 2.9772, 1.7479],
       device='cuda:1'), covar=tensor([0.1455, 0.0184, 0.1020, 0.1644, 0.0224, 0.1935, 0.0368, 0.1470],
       device='cuda:1'), in_proj_covar=tensor([0.0120, 0.0104, 0.0115, 0.0113, 0.0100, 0.0121, 0.0100, 0.0110],
       device='cuda:1'), out_proj_covar=tensor([0.0005, 0.0004, 0.0005, 0.0004, 0.0004, 0.0005, 0.0004, 0.0004],
       device='cuda:1')
2022-11-16 05:05:29,895 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=1.98 vs. limit=2.0
2022-11-16 05:05:43,843 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=81092.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 05:05:44,403 INFO [train.py:876] (1/4) Epoch 12, batch 1100, loss[loss=0.1187, simple_loss=0.1511, pruned_loss=0.04317, over 5576.00 frames. ], tot_loss[loss=0.1134, simple_loss=0.1418, pruned_loss=0.04244, over 1074345.46 frames. ], batch size: 43, lr: 6.83e-03, grad_scale: 8.0
2022-11-16 05:05:47,052 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=81097.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 05:06:00,238 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=81116.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 05:06:02,123 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=81119.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 05:06:09,121 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=81129.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 05:06:09,942 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.4535, 3.0887, 3.3217, 3.1412, 1.8777, 3.2281, 2.1047, 2.9135],
       device='cuda:1'), covar=tensor([0.0321, 0.0216, 0.0160, 0.0229, 0.0467, 0.0190, 0.0427, 0.0173],
       device='cuda:1'), in_proj_covar=tensor([0.0194, 0.0178, 0.0182, 0.0203, 0.0193, 0.0180, 0.0191, 0.0184],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
       device='cuda:1')
2022-11-16 05:06:13,616 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 9.779e+01 1.469e+02 1.860e+02 2.387e+02 4.762e+02, threshold=3.720e+02, percent-clipped=3.0
2022-11-16 05:06:19,085 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.1936, 2.0699, 2.9160, 1.8287, 1.2477, 3.3685, 2.4914, 2.1815],
       device='cuda:1'), covar=tensor([0.1134, 0.1461, 0.0573, 0.2337, 0.3157, 0.0307, 0.1310, 0.1274],
       device='cuda:1'), in_proj_covar=tensor([0.0099, 0.0091, 0.0091, 0.0097, 0.0072, 0.0064, 0.0075, 0.0086],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
       device='cuda:1')
2022-11-16 05:06:20,710 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=3.77 vs. limit=5.0
2022-11-16 05:06:23,049 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=81150.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 05:06:34,436 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=81167.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 05:06:34,672 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.28 vs. limit=2.0
2022-11-16 05:06:41,062 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=81177.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 05:06:43,325 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.6986, 1.8201, 2.5125, 1.7391, 1.1965, 2.8789, 2.3211, 2.0384],
       device='cuda:1'), covar=tensor([0.1323, 0.2103, 0.0937, 0.2860, 0.3164, 0.1569, 0.1438, 0.1695],
       device='cuda:1'), in_proj_covar=tensor([0.0099, 0.0091, 0.0091, 0.0097, 0.0072, 0.0064, 0.0075, 0.0085],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
       device='cuda:1')
2022-11-16 05:06:52,015 INFO [train.py:876] (1/4) Epoch 12, batch 1200, loss[loss=0.09683, simple_loss=0.1267, pruned_loss=0.03347, over 5710.00 frames. ], tot_loss[loss=0.1133, simple_loss=0.1409, pruned_loss=0.04284, over 1069857.03 frames. ], batch size: 11, lr: 6.83e-03, grad_scale: 8.0
2022-11-16 05:06:55,258 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=81198.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 05:07:20,808 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.019e+02 1.439e+02 1.852e+02 2.463e+02 6.772e+02, threshold=3.705e+02, percent-clipped=5.0
2022-11-16 05:07:38,591 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.9746, 1.8933, 1.8884, 1.7508, 2.0160, 1.9278, 1.9922, 2.0027],
       device='cuda:1'), covar=tensor([0.0693, 0.0715, 0.0738, 0.0731, 0.0711, 0.0371, 0.0536, 0.0819],
       device='cuda:1'), in_proj_covar=tensor([0.0142, 0.0155, 0.0112, 0.0144, 0.0179, 0.0107, 0.0126, 0.0152],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003],
       device='cuda:1')
2022-11-16 05:07:59,530 INFO [train.py:876] (1/4) Epoch 12, batch 1300, loss[loss=0.09451, simple_loss=0.1243, pruned_loss=0.03238, over 5642.00 frames. ], tot_loss[loss=0.1118, simple_loss=0.1399, pruned_loss=0.04185, over 1075211.10 frames. ], batch size: 29, lr: 6.82e-03, grad_scale: 8.0
2022-11-16 05:08:03,924 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=81299.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 05:08:05,227 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=81301.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 05:08:28,630 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 8.965e+01 1.370e+02 1.672e+02 2.098e+02 3.683e+02, threshold=3.343e+02, percent-clipped=0.0
2022-11-16 05:08:33,312 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.6791, 3.6131, 3.9349, 3.8465, 3.4937, 3.3476, 4.2333, 3.6962],
       device='cuda:1'), covar=tensor([0.0571, 0.0954, 0.0468, 0.1253, 0.0633, 0.0431, 0.0623, 0.0771],
       device='cuda:1'), in_proj_covar=tensor([0.0087, 0.0109, 0.0094, 0.0119, 0.0089, 0.0080, 0.0145, 0.0102],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0003, 0.0002],
       device='cuda:1')
2022-11-16 05:08:44,925 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=81360.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 05:08:46,222 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=81362.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 05:09:02,298 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.6200, 4.9844, 3.3597, 4.5650, 3.6811, 3.4433, 2.7330, 4.1741],
       device='cuda:1'), covar=tensor([0.1539, 0.0157, 0.0978, 0.0426, 0.0586, 0.0860, 0.1787, 0.0254],
       device='cuda:1'), in_proj_covar=tensor([0.0158, 0.0141, 0.0156, 0.0148, 0.0174, 0.0167, 0.0161, 0.0161],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0003, 0.0004, 0.0003, 0.0004, 0.0004, 0.0004, 0.0004],
       device='cuda:1')
2022-11-16 05:09:06,318 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=81392.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 05:09:06,895 INFO [train.py:876] (1/4) Epoch 12, batch 1400, loss[loss=0.09084, simple_loss=0.1231, pruned_loss=0.02929, over 5601.00 frames. ], tot_loss[loss=0.109, simple_loss=0.1377, pruned_loss=0.0402, over 1080470.33 frames. ], batch size: 23, lr: 6.82e-03, grad_scale: 8.0
2022-11-16 05:09:26,668 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.5613, 1.9727, 1.7827, 1.3986, 1.7746, 2.1798, 2.1249, 2.2857],
       device='cuda:1'), covar=tensor([0.1725, 0.1584, 0.1756, 0.2726, 0.1288, 0.1035, 0.0748, 0.1205],
       device='cuda:1'), in_proj_covar=tensor([0.0165, 0.0180, 0.0165, 0.0184, 0.0182, 0.0201, 0.0166, 0.0186],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004],
       device='cuda:1')
2022-11-16 05:09:27,305 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.8361, 2.2471, 2.8404, 3.5883, 3.6510, 2.7996, 2.4623, 3.8379],
       device='cuda:1'), covar=tensor([0.0622, 0.4201, 0.2040, 0.4055, 0.1186, 0.3347, 0.2437, 0.0814],
       device='cuda:1'), in_proj_covar=tensor([0.0245, 0.0193, 0.0186, 0.0295, 0.0218, 0.0200, 0.0187, 0.0240],
       device='cuda:1'), out_proj_covar=tensor([0.0006, 0.0005, 0.0005, 0.0006, 0.0005, 0.0005, 0.0005, 0.0005],
       device='cuda:1')
2022-11-16 05:09:31,106 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=81429.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 05:09:35,795 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 9.508e+01 1.575e+02 1.879e+02 2.348e+02 6.067e+02, threshold=3.757e+02, percent-clipped=7.0
2022-11-16 05:09:38,803 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=81440.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 05:10:00,100 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=81472.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 05:10:03,341 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=81477.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 05:10:14,234 INFO [train.py:876] (1/4) Epoch 12, batch 1500, loss[loss=0.1496, simple_loss=0.1592, pruned_loss=0.07001, over 5182.00 frames. ], tot_loss[loss=0.1097, simple_loss=0.138, pruned_loss=0.04073, over 1083123.89 frames. ], batch size: 91, lr: 6.81e-03, grad_scale: 8.0
2022-11-16 05:10:33,212 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=1.65 vs. limit=2.0
2022-11-16 05:10:42,646 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 8.569e+01 1.444e+02 1.773e+02 2.242e+02 5.218e+02, threshold=3.547e+02, percent-clipped=2.0
2022-11-16 05:10:48,125 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.8003, 1.2189, 1.6232, 1.6742, 1.5888, 1.9195, 1.6362, 1.5275],
       device='cuda:1'), covar=tensor([0.0052, 0.0131, 0.0057, 0.0057, 0.0112, 0.0062, 0.0057, 0.0053],
       device='cuda:1'), in_proj_covar=tensor([0.0029, 0.0027, 0.0027, 0.0036, 0.0031, 0.0029, 0.0035, 0.0034],
       device='cuda:1'), out_proj_covar=tensor([2.6532e-05, 2.5262e-05, 2.4268e-05, 3.5171e-05, 2.8847e-05, 2.7304e-05,
        3.4278e-05, 3.3054e-05], device='cuda:1')
2022-11-16 05:11:21,230 INFO [train.py:876] (1/4) Epoch 12, batch 1600, loss[loss=0.09943, simple_loss=0.1442, pruned_loss=0.02735, over 5761.00 frames. ], tot_loss[loss=0.11, simple_loss=0.1384, pruned_loss=0.04075, over 1082347.31 frames. ], batch size: 16, lr: 6.81e-03, grad_scale: 8.0
2022-11-16 05:11:32,097 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.2139, 2.3008, 2.9313, 2.6535, 2.6869, 2.1789, 2.6862, 3.1827],
       device='cuda:1'), covar=tensor([0.0633, 0.1199, 0.0708, 0.1097, 0.0816, 0.1194, 0.1007, 0.0649],
       device='cuda:1'), in_proj_covar=tensor([0.0243, 0.0195, 0.0216, 0.0214, 0.0240, 0.0198, 0.0225, 0.0232],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004],
       device='cuda:1')
2022-11-16 05:11:51,016 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 7.578e+01 1.477e+02 1.862e+02 2.272e+02 5.995e+02, threshold=3.723e+02, percent-clipped=4.0
2022-11-16 05:12:04,144 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=81655.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 05:12:05,447 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=81657.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 05:12:14,071 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=81670.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 05:12:29,715 INFO [train.py:876] (1/4) Epoch 12, batch 1700, loss[loss=0.1051, simple_loss=0.1421, pruned_loss=0.03407, over 5582.00 frames. ], tot_loss[loss=0.1092, simple_loss=0.1378, pruned_loss=0.04034, over 1083980.39 frames. ], batch size: 25, lr: 6.80e-03, grad_scale: 8.0
2022-11-16 05:12:55,328 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=81731.0, num_to_drop=1, layers_to_drop={2}
2022-11-16 05:12:59,064 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 9.982e+01 1.420e+02 1.796e+02 2.143e+02 4.079e+02, threshold=3.592e+02, percent-clipped=2.0
2022-11-16 05:13:14,635 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=1.88 vs. limit=2.0
2022-11-16 05:13:23,664 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=81772.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 05:13:37,838 INFO [train.py:876] (1/4) Epoch 12, batch 1800, loss[loss=0.09314, simple_loss=0.1341, pruned_loss=0.02612, over 5572.00 frames. ], tot_loss[loss=0.1096, simple_loss=0.1382, pruned_loss=0.04046, over 1086342.43 frames. ], batch size: 16, lr: 6.80e-03, grad_scale: 8.0
2022-11-16 05:13:45,477 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.0482, 2.3881, 2.7471, 2.4982, 1.5430, 2.4556, 1.7902, 1.9641],
       device='cuda:1'), covar=tensor([0.0307, 0.0186, 0.0168, 0.0221, 0.0431, 0.0217, 0.0404, 0.0219],
       device='cuda:1'), in_proj_covar=tensor([0.0192, 0.0177, 0.0180, 0.0200, 0.0192, 0.0179, 0.0189, 0.0184],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
       device='cuda:1')
2022-11-16 05:13:56,460 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=81820.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 05:14:06,569 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 8.901e+01 1.448e+02 1.812e+02 2.296e+02 5.003e+02, threshold=3.624e+02, percent-clipped=1.0
2022-11-16 05:14:16,596 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.8168, 3.6013, 3.7800, 3.5136, 3.6483, 3.3746, 1.4467, 3.7880],
       device='cuda:1'), covar=tensor([0.0611, 0.0830, 0.0637, 0.0683, 0.0711, 0.1110, 0.4655, 0.0703],
       device='cuda:1'), in_proj_covar=tensor([0.0104, 0.0088, 0.0089, 0.0082, 0.0102, 0.0091, 0.0133, 0.0108],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
       device='cuda:1')
2022-11-16 05:14:45,100 INFO [train.py:876] (1/4) Epoch 12, batch 1900, loss[loss=0.1028, simple_loss=0.1293, pruned_loss=0.03821, over 5752.00 frames. ], tot_loss[loss=0.1096, simple_loss=0.1383, pruned_loss=0.0405, over 1082664.58 frames. ], batch size: 13, lr: 6.80e-03, grad_scale: 8.0
2022-11-16 05:15:14,249 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 9.303e+01 1.364e+02 1.744e+02 2.090e+02 4.733e+02, threshold=3.488e+02, percent-clipped=3.0
2022-11-16 05:15:17,054 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.8658, 2.4638, 3.5015, 3.0617, 3.6073, 2.4438, 3.1954, 3.7987],
       device='cuda:1'), covar=tensor([0.0692, 0.1453, 0.0822, 0.1363, 0.0785, 0.1542, 0.1206, 0.0800],
       device='cuda:1'), in_proj_covar=tensor([0.0241, 0.0192, 0.0213, 0.0209, 0.0235, 0.0195, 0.0221, 0.0228],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004],
       device='cuda:1')
2022-11-16 05:15:27,304 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=81955.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 05:15:28,628 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=81957.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 05:15:33,873 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.6112, 1.4605, 1.5275, 1.2371, 1.5596, 1.7395, 1.4076, 0.8846],
       device='cuda:1'), covar=tensor([0.0039, 0.0051, 0.0037, 0.0066, 0.0079, 0.0075, 0.0054, 0.0082],
       device='cuda:1'), in_proj_covar=tensor([0.0030, 0.0028, 0.0028, 0.0037, 0.0032, 0.0030, 0.0037, 0.0035],
       device='cuda:1'), out_proj_covar=tensor([2.7591e-05, 2.5814e-05, 2.5065e-05, 3.6504e-05, 2.9899e-05, 2.8181e-05,
        3.5585e-05, 3.4316e-05], device='cuda:1')
2022-11-16 05:15:48,682 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=81987.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 05:15:52,893 INFO [train.py:876] (1/4) Epoch 12, batch 2000, loss[loss=0.1706, simple_loss=0.1742, pruned_loss=0.08355, over 5490.00 frames. ], tot_loss[loss=0.1086, simple_loss=0.1375, pruned_loss=0.03986, over 1090828.15 frames. ], batch size: 64, lr: 6.79e-03, grad_scale: 8.0
2022-11-16 05:15:59,641 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=82003.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 05:16:01,283 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=82005.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 05:16:15,351 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=82026.0, num_to_drop=1, layers_to_drop={3}
2022-11-16 05:16:22,027 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 7.158e+01 1.417e+02 1.705e+02 2.224e+02 2.971e+02, threshold=3.410e+02, percent-clipped=0.0
2022-11-16 05:16:30,578 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=82048.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 05:16:31,252 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.2196, 1.5690, 1.9814, 1.8164, 1.6694, 2.0179, 1.9667, 1.7628],
       device='cuda:1'), covar=tensor([0.0034, 0.0142, 0.0048, 0.0060, 0.0188, 0.0333, 0.0054, 0.0076],
       device='cuda:1'), in_proj_covar=tensor([0.0030, 0.0028, 0.0028, 0.0038, 0.0032, 0.0029, 0.0037, 0.0035],
       device='cuda:1'), out_proj_covar=tensor([2.7578e-05, 2.5918e-05, 2.4893e-05, 3.6631e-05, 2.9765e-05, 2.7969e-05,
        3.5685e-05, 3.4344e-05], device='cuda:1')
2022-11-16 05:16:35,238 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=82055.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 05:16:36,620 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.18 vs. limit=2.0
2022-11-16 05:17:00,879 INFO [train.py:876] (1/4) Epoch 12, batch 2100, loss[loss=0.08401, simple_loss=0.1309, pruned_loss=0.01857, over 5549.00 frames. ], tot_loss[loss=0.109, simple_loss=0.1378, pruned_loss=0.04016, over 1088062.68 frames. ], batch size: 21, lr: 6.79e-03, grad_scale: 8.0
2022-11-16 05:17:16,454 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=82116.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 05:17:29,230 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.5051, 1.8257, 2.2784, 2.1860, 2.2863, 1.5815, 2.1597, 2.4595],
       device='cuda:1'), covar=tensor([0.0574, 0.1092, 0.0716, 0.0912, 0.0749, 0.1328, 0.0923, 0.0729],
       device='cuda:1'), in_proj_covar=tensor([0.0243, 0.0194, 0.0217, 0.0213, 0.0239, 0.0198, 0.0226, 0.0229],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004],
       device='cuda:1')
2022-11-16 05:17:29,603 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 9.760e+01 1.480e+02 1.837e+02 2.085e+02 4.685e+02, threshold=3.673e+02, percent-clipped=4.0
2022-11-16 05:17:33,684 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.2646, 2.6705, 2.9577, 2.6810, 1.7354, 2.7455, 1.9466, 2.4904],
       device='cuda:1'), covar=tensor([0.0272, 0.0165, 0.0131, 0.0217, 0.0412, 0.0165, 0.0369, 0.0180],
       device='cuda:1'), in_proj_covar=tensor([0.0191, 0.0176, 0.0180, 0.0200, 0.0192, 0.0179, 0.0187, 0.0184],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
       device='cuda:1')
2022-11-16 05:18:07,794 INFO [train.py:876] (1/4) Epoch 12, batch 2200, loss[loss=0.1216, simple_loss=0.149, pruned_loss=0.04714, over 5655.00 frames. ], tot_loss[loss=0.1091, simple_loss=0.138, pruned_loss=0.04015, over 1087836.47 frames. ], batch size: 29, lr: 6.78e-03, grad_scale: 8.0
2022-11-16 05:18:24,182 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.86 vs. limit=2.0
2022-11-16 05:18:32,848 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([4.4101, 4.9203, 4.5291, 4.9118, 4.8745, 4.2301, 4.5397, 4.3077],
       device='cuda:1'), covar=tensor([0.0310, 0.0409, 0.1265, 0.0354, 0.0355, 0.0448, 0.0405, 0.0391],
       device='cuda:1'), in_proj_covar=tensor([0.0133, 0.0179, 0.0275, 0.0174, 0.0220, 0.0172, 0.0189, 0.0175],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0003, 0.0004, 0.0002, 0.0003, 0.0002, 0.0003, 0.0002],
       device='cuda:1')
2022-11-16 05:18:34,853 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.8259, 1.5173, 1.8298, 1.5046, 1.5653, 1.9598, 1.6785, 1.4240],
       device='cuda:1'), covar=tensor([0.0043, 0.0070, 0.0034, 0.0051, 0.0082, 0.0045, 0.0051, 0.0053],
       device='cuda:1'), in_proj_covar=tensor([0.0029, 0.0027, 0.0026, 0.0036, 0.0031, 0.0028, 0.0035, 0.0034],
       device='cuda:1'), out_proj_covar=tensor([2.6426e-05, 2.4832e-05, 2.3798e-05, 3.4751e-05, 2.8658e-05, 2.6820e-05,
        3.4023e-05, 3.2865e-05], device='cuda:1')
2022-11-16 05:18:37,329 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 9.617e+01 1.469e+02 1.927e+02 2.568e+02 3.955e+02, threshold=3.853e+02, percent-clipped=1.0
2022-11-16 05:18:58,204 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=4.52 vs. limit=5.0
2022-11-16 05:19:11,967 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.4205, 3.3325, 3.3305, 3.1792, 3.3454, 3.2792, 1.3860, 3.3894],
       device='cuda:1'), covar=tensor([0.0398, 0.0609, 0.0683, 0.0651, 0.0577, 0.0810, 0.4142, 0.0650],
       device='cuda:1'), in_proj_covar=tensor([0.0103, 0.0089, 0.0090, 0.0082, 0.0103, 0.0090, 0.0132, 0.0109],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
       device='cuda:1')
2022-11-16 05:19:15,470 INFO [train.py:876] (1/4) Epoch 12, batch 2300, loss[loss=0.1237, simple_loss=0.1466, pruned_loss=0.05039, over 5695.00 frames. ], tot_loss[loss=0.1103, simple_loss=0.1391, pruned_loss=0.04075, over 1092631.39 frames. ], batch size: 19, lr: 6.78e-03, grad_scale: 8.0
2022-11-16 05:19:37,393 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=82326.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 05:19:44,122 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.080e+02 1.401e+02 1.761e+02 2.241e+02 4.168e+02, threshold=3.523e+02, percent-clipped=1.0
2022-11-16 05:19:49,494 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=82343.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 05:19:51,473 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=82346.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 05:20:09,897 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=82374.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 05:20:16,228 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.7259, 1.4538, 1.7337, 1.4390, 1.7156, 1.7366, 1.6154, 1.6720],
       device='cuda:1'), covar=tensor([0.0059, 0.0080, 0.0051, 0.0061, 0.0051, 0.0044, 0.0046, 0.0057],
       device='cuda:1'), in_proj_covar=tensor([0.0061, 0.0057, 0.0056, 0.0061, 0.0058, 0.0054, 0.0053, 0.0051],
       device='cuda:1'), out_proj_covar=tensor([5.4870e-05, 5.0618e-05, 4.9415e-05, 5.4737e-05, 5.1764e-05, 4.7472e-05,
        4.7546e-05, 4.4403e-05], device='cuda:1')
2022-11-16 05:20:22,508 INFO [train.py:876] (1/4) Epoch 12, batch 2400, loss[loss=0.1045, simple_loss=0.1247, pruned_loss=0.04215, over 5475.00 frames. ], tot_loss[loss=0.1096, simple_loss=0.1386, pruned_loss=0.04031, over 1092536.11 frames. ], batch size: 11, lr: 6.78e-03, grad_scale: 8.0
2022-11-16 05:20:24,071 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.3940, 3.1555, 3.2198, 1.6922, 3.1846, 3.4364, 3.5646, 3.9118],
       device='cuda:1'), covar=tensor([0.1939, 0.1709, 0.0881, 0.3164, 0.0496, 0.0757, 0.0429, 0.0670],
       device='cuda:1'), in_proj_covar=tensor([0.0164, 0.0179, 0.0164, 0.0183, 0.0181, 0.0198, 0.0166, 0.0184],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004],
       device='cuda:1')
2022-11-16 05:20:32,558 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=82407.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 05:20:35,155 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=82411.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 05:20:51,657 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 8.786e+01 1.416e+02 1.815e+02 2.094e+02 3.842e+02, threshold=3.631e+02, percent-clipped=3.0
2022-11-16 05:21:18,715 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.31 vs. limit=2.0
2022-11-16 05:21:29,660 INFO [train.py:876] (1/4) Epoch 12, batch 2500, loss[loss=0.1188, simple_loss=0.1458, pruned_loss=0.04584, over 5752.00 frames. ], tot_loss[loss=0.1101, simple_loss=0.1385, pruned_loss=0.04083, over 1091232.95 frames. ], batch size: 27, lr: 6.77e-03, grad_scale: 8.0
2022-11-16 05:21:29,828 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=82493.0, num_to_drop=1, layers_to_drop={0}
2022-11-16 05:21:58,345 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 8.955e+01 1.483e+02 1.924e+02 2.282e+02 6.804e+02, threshold=3.849e+02, percent-clipped=1.0
2022-11-16 05:22:10,926 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=82554.0, num_to_drop=1, layers_to_drop={3}
2022-11-16 05:22:21,432 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=82569.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 05:22:37,473 INFO [train.py:876] (1/4) Epoch 12, batch 2600, loss[loss=0.08886, simple_loss=0.1327, pruned_loss=0.02249, over 5687.00 frames. ], tot_loss[loss=0.1112, simple_loss=0.1397, pruned_loss=0.04134, over 1091307.17 frames. ], batch size: 19, lr: 6.77e-03, grad_scale: 8.0
2022-11-16 05:22:45,401 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.2445, 1.4958, 1.1864, 1.1176, 1.5090, 1.3084, 1.0300, 1.4271],
       device='cuda:1'), covar=tensor([0.0060, 0.0050, 0.0058, 0.0061, 0.0058, 0.0047, 0.0067, 0.0050],
       device='cuda:1'), in_proj_covar=tensor([0.0060, 0.0057, 0.0055, 0.0060, 0.0058, 0.0053, 0.0052, 0.0050],
       device='cuda:1'), out_proj_covar=tensor([5.4347e-05, 5.0394e-05, 4.8546e-05, 5.3625e-05, 5.1338e-05, 4.6714e-05,
        4.6533e-05, 4.4281e-05], device='cuda:1')
2022-11-16 05:22:52,978 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.5189, 2.6618, 2.4271, 2.6234, 2.3052, 2.0080, 2.4992, 3.0750],
       device='cuda:1'), covar=tensor([0.1360, 0.1450, 0.2020, 0.2131, 0.1813, 0.1696, 0.1678, 0.0983],
       device='cuda:1'), in_proj_covar=tensor([0.0114, 0.0107, 0.0106, 0.0106, 0.0094, 0.0103, 0.0100, 0.0081],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0004, 0.0004, 0.0004, 0.0003, 0.0004, 0.0004, 0.0003],
       device='cuda:1')
2022-11-16 05:22:53,630 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.7904, 1.6989, 1.7174, 1.3496, 1.6789, 1.6261, 1.3197, 1.0102],
       device='cuda:1'), covar=tensor([0.0031, 0.0046, 0.0041, 0.0058, 0.0068, 0.0052, 0.0046, 0.0078],
       device='cuda:1'), in_proj_covar=tensor([0.0029, 0.0027, 0.0027, 0.0036, 0.0031, 0.0028, 0.0036, 0.0034],
       device='cuda:1'), out_proj_covar=tensor([2.6581e-05, 2.5232e-05, 2.4008e-05, 3.4611e-05, 2.8951e-05, 2.6786e-05,
        3.4496e-05, 3.3176e-05], device='cuda:1')
2022-11-16 05:23:03,084 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=82630.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 05:23:06,796 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 9.089e+01 1.435e+02 1.814e+02 2.327e+02 4.653e+02, threshold=3.628e+02, percent-clipped=2.0
2022-11-16 05:23:11,771 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=82643.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 05:23:43,822 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=82691.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 05:23:45,098 INFO [train.py:876] (1/4) Epoch 12, batch 2700, loss[loss=0.0929, simple_loss=0.1272, pruned_loss=0.02931, over 5545.00 frames. ], tot_loss[loss=0.1108, simple_loss=0.1396, pruned_loss=0.04096, over 1087649.54 frames. ], batch size: 13, lr: 6.76e-03, grad_scale: 8.0
2022-11-16 05:23:51,442 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=82702.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 05:23:57,154 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=82711.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 05:24:14,436 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.009e+02 1.412e+02 1.711e+02 2.254e+02 4.662e+02, threshold=3.423e+02, percent-clipped=2.0
2022-11-16 05:24:27,190 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.5457, 4.4227, 3.4282, 2.0629, 4.0833, 1.6741, 3.9971, 2.2393],
       device='cuda:1'), covar=tensor([0.1363, 0.0127, 0.0568, 0.1686, 0.0174, 0.1740, 0.0251, 0.1381],
       device='cuda:1'), in_proj_covar=tensor([0.0120, 0.0104, 0.0114, 0.0111, 0.0100, 0.0121, 0.0098, 0.0110],
       device='cuda:1'), out_proj_covar=tensor([0.0005, 0.0004, 0.0005, 0.0004, 0.0004, 0.0005, 0.0004, 0.0004],
       device='cuda:1')
2022-11-16 05:24:29,675 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=82759.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 05:24:43,044 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.2733, 4.1999, 3.2556, 1.8948, 3.7529, 1.6158, 3.8651, 2.2075],
       device='cuda:1'), covar=tensor([0.1713, 0.0150, 0.0673, 0.1912, 0.0237, 0.1897, 0.0312, 0.1635],
       device='cuda:1'), in_proj_covar=tensor([0.0120, 0.0104, 0.0114, 0.0110, 0.0100, 0.0121, 0.0099, 0.0110],
       device='cuda:1'), out_proj_covar=tensor([0.0005, 0.0004, 0.0005, 0.0004, 0.0004, 0.0005, 0.0004, 0.0004],
       device='cuda:1')
2022-11-16 05:24:52,722 INFO [train.py:876] (1/4) Epoch 12, batch 2800, loss[loss=0.06942, simple_loss=0.09665, pruned_loss=0.0211, over 5711.00 frames. ], tot_loss[loss=0.11, simple_loss=0.139, pruned_loss=0.04051, over 1083506.86 frames. ], batch size: 12, lr: 6.76e-03, grad_scale: 8.0
2022-11-16 05:24:54,470 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=1.82 vs. limit=2.0
2022-11-16 05:25:17,688 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=1.77 vs. limit=2.0
2022-11-16 05:25:21,516 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.023e+02 1.398e+02 1.709e+02 2.150e+02 5.035e+02, threshold=3.419e+02, percent-clipped=1.0
2022-11-16 05:25:30,447 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=82849.0, num_to_drop=1, layers_to_drop={2}
2022-11-16 05:25:59,791 INFO [train.py:876] (1/4) Epoch 12, batch 2900, loss[loss=0.1373, simple_loss=0.1491, pruned_loss=0.06276, over 5394.00 frames. ], tot_loss[loss=0.1095, simple_loss=0.1387, pruned_loss=0.04019, over 1088895.86 frames. ], batch size: 70, lr: 6.76e-03, grad_scale: 16.0
2022-11-16 05:26:09,997 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=4.78 vs. limit=5.0
2022-11-16 05:26:19,726 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.1808, 2.6136, 2.7928, 2.6290, 1.6926, 2.7570, 1.8794, 2.4189],
       device='cuda:1'), covar=tensor([0.0314, 0.0190, 0.0151, 0.0265, 0.0416, 0.0170, 0.0403, 0.0191],
       device='cuda:1'), in_proj_covar=tensor([0.0192, 0.0177, 0.0181, 0.0200, 0.0192, 0.0180, 0.0187, 0.0183],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
       device='cuda:1')
2022-11-16 05:26:21,463 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=82925.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 05:26:24,369 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=1.95 vs. limit=2.0
2022-11-16 05:26:28,504 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 7.244e+01 1.420e+02 1.709e+02 2.033e+02 4.998e+02, threshold=3.418e+02, percent-clipped=2.0
2022-11-16 05:26:47,406 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=82963.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 05:27:07,644 INFO [train.py:876] (1/4) Epoch 12, batch 3000, loss[loss=0.1008, simple_loss=0.1304, pruned_loss=0.03566, over 5702.00 frames. ], tot_loss[loss=0.1101, simple_loss=0.1383, pruned_loss=0.04093, over 1081707.99 frames. ], batch size: 28, lr: 6.75e-03, grad_scale: 16.0
2022-11-16 05:27:07,644 INFO [train.py:899] (1/4) Computing validation loss
2022-11-16 05:27:14,668 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([4.3046, 4.8015, 4.2662, 4.8084, 4.7711, 4.0230, 4.6353, 4.1286],
       device='cuda:1'), covar=tensor([0.0152, 0.0306, 0.0852, 0.0227, 0.0358, 0.0304, 0.0184, 0.0254],
       device='cuda:1'), in_proj_covar=tensor([0.0133, 0.0176, 0.0270, 0.0171, 0.0219, 0.0169, 0.0187, 0.0172],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0003, 0.0004, 0.0002, 0.0003, 0.0002, 0.0003, 0.0002],
       device='cuda:1')
2022-11-16 05:27:25,141 INFO [train.py:908] (1/4) Epoch 12, validation: loss=0.1722, simple_loss=0.1854, pruned_loss=0.07947, over 1530663.00 frames. 
2022-11-16 05:27:25,142 INFO [train.py:909] (1/4) Maximum memory allocated so far is 4676MB
2022-11-16 05:27:31,369 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=83002.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 05:27:32,594 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.0278, 3.3982, 2.6464, 1.6121, 3.0948, 1.3113, 3.1198, 1.6750],
       device='cuda:1'), covar=tensor([0.1992, 0.0375, 0.1229, 0.2672, 0.0436, 0.2882, 0.0530, 0.2355],
       device='cuda:1'), in_proj_covar=tensor([0.0123, 0.0105, 0.0116, 0.0113, 0.0102, 0.0123, 0.0100, 0.0112],
       device='cuda:1'), out_proj_covar=tensor([0.0005, 0.0004, 0.0005, 0.0005, 0.0004, 0.0005, 0.0004, 0.0004],
       device='cuda:1')
2022-11-16 05:27:45,965 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=83024.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 05:27:53,838 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 9.307e+01 1.447e+02 1.727e+02 2.150e+02 3.702e+02, threshold=3.454e+02, percent-clipped=1.0
2022-11-16 05:27:58,030 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.3833, 3.1292, 3.0467, 1.4381, 3.0478, 3.5417, 3.4665, 3.7594],
       device='cuda:1'), covar=tensor([0.1558, 0.1372, 0.0814, 0.2780, 0.0413, 0.0681, 0.0434, 0.0657],
       device='cuda:1'), in_proj_covar=tensor([0.0164, 0.0182, 0.0167, 0.0186, 0.0183, 0.0201, 0.0168, 0.0187],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004],
       device='cuda:1')
2022-11-16 05:28:03,084 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=83050.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 05:28:32,007 INFO [train.py:876] (1/4) Epoch 12, batch 3100, loss[loss=0.1302, simple_loss=0.1512, pruned_loss=0.05456, over 5658.00 frames. ], tot_loss[loss=0.1111, simple_loss=0.1395, pruned_loss=0.04133, over 1086299.72 frames. ], batch size: 29, lr: 6.75e-03, grad_scale: 16.0
2022-11-16 05:29:01,264 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.033e+02 1.527e+02 1.920e+02 2.292e+02 4.866e+02, threshold=3.839e+02, percent-clipped=2.0
2022-11-16 05:29:01,512 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.6194, 3.7676, 3.8189, 1.9081, 3.9545, 4.0387, 4.2223, 4.3786],
       device='cuda:1'), covar=tensor([0.1608, 0.1172, 0.0631, 0.2495, 0.0247, 0.0543, 0.0352, 0.0482],
       device='cuda:1'), in_proj_covar=tensor([0.0164, 0.0181, 0.0167, 0.0183, 0.0181, 0.0200, 0.0167, 0.0186],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004],
       device='cuda:1')
2022-11-16 05:29:07,238 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.6266, 2.1771, 1.8330, 1.3958, 2.0404, 2.3067, 2.2277, 2.3207],
       device='cuda:1'), covar=tensor([0.2089, 0.1719, 0.2046, 0.2879, 0.1046, 0.1266, 0.0664, 0.1335],
       device='cuda:1'), in_proj_covar=tensor([0.0164, 0.0181, 0.0166, 0.0183, 0.0180, 0.0200, 0.0167, 0.0186],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004],
       device='cuda:1')
2022-11-16 05:29:09,703 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=83149.0, num_to_drop=1, layers_to_drop={2}
2022-11-16 05:29:10,371 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.2475, 1.5239, 1.1472, 1.0125, 1.1527, 1.7174, 1.6864, 1.5652],
       device='cuda:1'), covar=tensor([0.0992, 0.0739, 0.1813, 0.2074, 0.1243, 0.0940, 0.0719, 0.1098],
       device='cuda:1'), in_proj_covar=tensor([0.0164, 0.0181, 0.0166, 0.0183, 0.0180, 0.0200, 0.0167, 0.0185],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004],
       device='cuda:1')
2022-11-16 05:29:39,572 INFO [train.py:876] (1/4) Epoch 12, batch 3200, loss[loss=0.1143, simple_loss=0.1406, pruned_loss=0.04402, over 5599.00 frames. ], tot_loss[loss=0.1102, simple_loss=0.1395, pruned_loss=0.04047, over 1089211.53 frames. ], batch size: 18, lr: 6.74e-03, grad_scale: 16.0
2022-11-16 05:29:41,734 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=83196.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 05:29:42,239 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=83197.0, num_to_drop=1, layers_to_drop={1}
2022-11-16 05:29:50,778 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.4783, 1.8311, 1.3998, 1.2575, 1.3991, 1.9154, 1.8411, 1.8914],
       device='cuda:1'), covar=tensor([0.1293, 0.1110, 0.1823, 0.2384, 0.1378, 0.1088, 0.0899, 0.1249],
       device='cuda:1'), in_proj_covar=tensor([0.0165, 0.0184, 0.0167, 0.0185, 0.0182, 0.0201, 0.0169, 0.0188],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004],
       device='cuda:1')
2022-11-16 05:30:01,766 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=83225.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 05:30:09,030 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.049e+02 1.526e+02 1.871e+02 2.239e+02 5.623e+02, threshold=3.742e+02, percent-clipped=1.0
2022-11-16 05:30:23,062 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=83257.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 05:30:33,802 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=83273.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 05:30:41,820 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=83284.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 05:30:47,949 INFO [train.py:876] (1/4) Epoch 12, batch 3300, loss[loss=0.1017, simple_loss=0.1285, pruned_loss=0.03742, over 5628.00 frames. ], tot_loss[loss=0.1087, simple_loss=0.1382, pruned_loss=0.03956, over 1087127.96 frames. ], batch size: 29, lr: 6.74e-03, grad_scale: 16.0
2022-11-16 05:30:54,378 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=3.76 vs. limit=5.0
2022-11-16 05:31:05,237 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=83319.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 05:31:17,549 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 7.733e+01 1.415e+02 1.663e+02 2.154e+02 3.672e+02, threshold=3.327e+02, percent-clipped=0.0
2022-11-16 05:31:24,255 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=83345.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 05:31:56,028 INFO [train.py:876] (1/4) Epoch 12, batch 3400, loss[loss=0.04702, simple_loss=0.07567, pruned_loss=0.009183, over 5195.00 frames. ], tot_loss[loss=0.1094, simple_loss=0.1388, pruned_loss=0.04001, over 1089007.59 frames. ], batch size: 6, lr: 6.74e-03, grad_scale: 16.0
2022-11-16 05:32:24,872 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=1.78 vs. limit=2.0
2022-11-16 05:32:25,092 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 9.935e+01 1.460e+02 1.839e+02 2.206e+02 3.947e+02, threshold=3.678e+02, percent-clipped=4.0
2022-11-16 05:32:52,852 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.2781, 2.2130, 2.9667, 2.7430, 2.8974, 2.1981, 2.8156, 3.2466],
       device='cuda:1'), covar=tensor([0.0910, 0.1410, 0.0927, 0.1437, 0.0781, 0.1353, 0.1162, 0.0977],
       device='cuda:1'), in_proj_covar=tensor([0.0242, 0.0194, 0.0216, 0.0212, 0.0238, 0.0198, 0.0223, 0.0230],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004],
       device='cuda:1')
2022-11-16 05:33:01,594 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=3.60 vs. limit=5.0
2022-11-16 05:33:03,154 INFO [train.py:876] (1/4) Epoch 12, batch 3500, loss[loss=0.1104, simple_loss=0.1363, pruned_loss=0.04223, over 5701.00 frames. ], tot_loss[loss=0.1095, simple_loss=0.1386, pruned_loss=0.04017, over 1087582.06 frames. ], batch size: 36, lr: 6.73e-03, grad_scale: 16.0
2022-11-16 05:33:27,946 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.28 vs. limit=2.0
2022-11-16 05:33:32,640 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 8.791e+01 1.416e+02 1.765e+02 2.301e+02 4.941e+02, threshold=3.529e+02, percent-clipped=1.0
2022-11-16 05:33:43,844 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=83552.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 05:34:11,111 INFO [train.py:876] (1/4) Epoch 12, batch 3600, loss[loss=0.0988, simple_loss=0.1249, pruned_loss=0.03633, over 5708.00 frames. ], tot_loss[loss=0.1117, simple_loss=0.1403, pruned_loss=0.04154, over 1084497.50 frames. ], batch size: 17, lr: 6.73e-03, grad_scale: 16.0
2022-11-16 05:34:29,536 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=83619.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 05:34:40,744 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 8.534e+01 1.623e+02 1.893e+02 2.295e+02 4.939e+02, threshold=3.787e+02, percent-clipped=6.0
2022-11-16 05:34:43,451 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=83640.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 05:35:02,006 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=83667.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 05:35:19,166 INFO [train.py:876] (1/4) Epoch 12, batch 3700, loss[loss=0.1108, simple_loss=0.1319, pruned_loss=0.04489, over 4972.00 frames. ], tot_loss[loss=0.1114, simple_loss=0.1406, pruned_loss=0.0411, over 1090332.36 frames. ], batch size: 109, lr: 6.72e-03, grad_scale: 16.0
2022-11-16 05:35:41,547 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.53 vs. limit=2.0
2022-11-16 05:35:48,569 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 9.368e+01 1.468e+02 1.783e+02 2.131e+02 3.533e+02, threshold=3.566e+02, percent-clipped=0.0
2022-11-16 05:36:04,178 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=83760.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 05:36:04,557 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.57 vs. limit=2.0
2022-11-16 05:36:06,105 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.3063, 3.8582, 2.9848, 1.8699, 3.5965, 1.5319, 3.6453, 2.0127],
       device='cuda:1'), covar=tensor([0.1423, 0.0152, 0.0715, 0.1959, 0.0242, 0.1899, 0.0218, 0.1582],
       device='cuda:1'), in_proj_covar=tensor([0.0120, 0.0104, 0.0115, 0.0111, 0.0100, 0.0120, 0.0099, 0.0110],
       device='cuda:1'), out_proj_covar=tensor([0.0005, 0.0004, 0.0005, 0.0004, 0.0004, 0.0005, 0.0004, 0.0004],
       device='cuda:1')
2022-11-16 05:36:19,641 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([0.9428, 1.2296, 1.3605, 1.0660, 1.1097, 1.6524, 1.3585, 1.2865],
       device='cuda:1'), covar=tensor([0.2999, 0.0802, 0.2484, 0.3038, 0.1710, 0.0509, 0.1861, 0.2232],
       device='cuda:1'), in_proj_covar=tensor([0.0102, 0.0093, 0.0093, 0.0099, 0.0074, 0.0066, 0.0077, 0.0087],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
       device='cuda:1')
2022-11-16 05:36:27,061 INFO [train.py:876] (1/4) Epoch 12, batch 3800, loss[loss=0.1467, simple_loss=0.161, pruned_loss=0.06613, over 4703.00 frames. ], tot_loss[loss=0.11, simple_loss=0.1393, pruned_loss=0.0403, over 1089165.49 frames. ], batch size: 135, lr: 6.72e-03, grad_scale: 16.0
2022-11-16 05:36:28,528 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.4382, 1.0766, 1.1388, 0.8822, 1.3079, 1.2545, 0.6701, 0.9710],
       device='cuda:1'), covar=tensor([0.0277, 0.0350, 0.0389, 0.0520, 0.0452, 0.0310, 0.0848, 0.0292],
       device='cuda:1'), in_proj_covar=tensor([0.0014, 0.0023, 0.0016, 0.0020, 0.0017, 0.0015, 0.0022, 0.0016],
       device='cuda:1'), out_proj_covar=tensor([8.1679e-05, 1.1357e-04, 8.6865e-05, 1.0192e-04, 8.9323e-05, 8.2763e-05,
        1.0848e-04, 8.4266e-05], device='cuda:1')
2022-11-16 05:36:46,165 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=83821.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 05:36:56,435 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 8.699e+01 1.465e+02 1.775e+02 2.276e+02 4.868e+02, threshold=3.550e+02, percent-clipped=4.0
2022-11-16 05:37:07,265 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=83852.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 05:37:25,806 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.6163, 2.3820, 2.5146, 3.5594, 3.5274, 2.7405, 2.4384, 3.5266],
       device='cuda:1'), covar=tensor([0.1085, 0.2947, 0.2515, 0.2694, 0.1460, 0.3514, 0.2318, 0.0942],
       device='cuda:1'), in_proj_covar=tensor([0.0255, 0.0200, 0.0189, 0.0304, 0.0226, 0.0207, 0.0191, 0.0249],
       device='cuda:1'), out_proj_covar=tensor([0.0006, 0.0005, 0.0005, 0.0006, 0.0005, 0.0005, 0.0005, 0.0006],
       device='cuda:1')
2022-11-16 05:37:35,200 INFO [train.py:876] (1/4) Epoch 12, batch 3900, loss[loss=0.1089, simple_loss=0.1461, pruned_loss=0.03586, over 5680.00 frames. ], tot_loss[loss=0.1092, simple_loss=0.1387, pruned_loss=0.03979, over 1085843.76 frames. ], batch size: 36, lr: 6.72e-03, grad_scale: 16.0
2022-11-16 05:37:39,878 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=83900.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 05:38:04,277 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 7.940e+01 1.504e+02 1.885e+02 2.376e+02 4.069e+02, threshold=3.770e+02, percent-clipped=4.0
2022-11-16 05:38:05,098 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.7539, 1.9880, 2.1527, 1.3625, 1.2924, 1.9438, 1.5298, 1.4647],
       device='cuda:1'), covar=tensor([0.0046, 0.0033, 0.0025, 0.0070, 0.0113, 0.0074, 0.0047, 0.0066],
       device='cuda:1'), in_proj_covar=tensor([0.0029, 0.0027, 0.0027, 0.0035, 0.0031, 0.0027, 0.0035, 0.0034],
       device='cuda:1'), out_proj_covar=tensor([2.6617e-05, 2.4706e-05, 2.4192e-05, 3.4467e-05, 2.8569e-05, 2.6250e-05,
        3.3740e-05, 3.2581e-05], device='cuda:1')
2022-11-16 05:38:06,663 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.53 vs. limit=2.0
2022-11-16 05:38:07,071 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=83940.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 05:38:13,230 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=83949.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 05:38:26,879 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.4069, 2.3010, 2.2871, 2.4014, 2.4738, 2.2895, 2.6229, 2.4727],
       device='cuda:1'), covar=tensor([0.0670, 0.1070, 0.0701, 0.1300, 0.0728, 0.0595, 0.1058, 0.0876],
       device='cuda:1'), in_proj_covar=tensor([0.0086, 0.0108, 0.0096, 0.0119, 0.0090, 0.0079, 0.0145, 0.0102],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0003, 0.0002],
       device='cuda:1')
2022-11-16 05:38:27,845 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=1.97 vs. limit=2.0
2022-11-16 05:38:37,783 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=83985.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 05:38:39,631 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=83988.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 05:38:43,114 INFO [train.py:876] (1/4) Epoch 12, batch 4000, loss[loss=0.1206, simple_loss=0.1334, pruned_loss=0.0539, over 4984.00 frames. ], tot_loss[loss=0.1096, simple_loss=0.1388, pruned_loss=0.04023, over 1081568.75 frames. ], batch size: 109, lr: 6.71e-03, grad_scale: 16.0
2022-11-16 05:38:54,477 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=84010.0, num_to_drop=1, layers_to_drop={0}
2022-11-16 05:39:11,844 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 8.002e+01 1.513e+02 1.878e+02 2.345e+02 5.861e+02, threshold=3.757e+02, percent-clipped=4.0
2022-11-16 05:39:18,954 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=84046.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 05:39:31,013 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=1.69 vs. limit=2.0
2022-11-16 05:39:45,019 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.8963, 4.3619, 3.9301, 4.3305, 4.3505, 3.6311, 3.8913, 3.6762],
       device='cuda:1'), covar=tensor([0.0599, 0.0408, 0.1253, 0.0427, 0.0408, 0.0472, 0.0708, 0.0671],
       device='cuda:1'), in_proj_covar=tensor([0.0133, 0.0182, 0.0278, 0.0178, 0.0226, 0.0173, 0.0193, 0.0177],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0003, 0.0004, 0.0003, 0.0003, 0.0002, 0.0003, 0.0002],
       device='cuda:1')
2022-11-16 05:39:50,162 INFO [train.py:876] (1/4) Epoch 12, batch 4100, loss[loss=0.1188, simple_loss=0.1417, pruned_loss=0.04794, over 4984.00 frames. ], tot_loss[loss=0.1088, simple_loss=0.1379, pruned_loss=0.0398, over 1084322.88 frames. ], batch size: 109, lr: 6.71e-03, grad_scale: 16.0
2022-11-16 05:39:53,222 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=84097.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 05:40:02,411 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=4.15 vs. limit=5.0
2022-11-16 05:40:06,007 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=84116.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 05:40:17,275 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.6697, 1.3254, 1.2367, 1.0049, 1.3866, 1.6649, 0.8945, 1.1204],
       device='cuda:1'), covar=tensor([0.0396, 0.0328, 0.0329, 0.0719, 0.0793, 0.0423, 0.0759, 0.0656],
       device='cuda:1'), in_proj_covar=tensor([0.0015, 0.0023, 0.0017, 0.0021, 0.0017, 0.0015, 0.0022, 0.0016],
       device='cuda:1'), out_proj_covar=tensor([8.3791e-05, 1.1546e-04, 8.9573e-05, 1.0446e-04, 9.1302e-05, 8.4356e-05,
        1.1108e-04, 8.5675e-05], device='cuda:1')
2022-11-16 05:40:18,962 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.102e+02 1.530e+02 1.828e+02 2.227e+02 3.985e+02, threshold=3.657e+02, percent-clipped=1.0
2022-11-16 05:40:34,669 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=84158.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 05:40:56,962 INFO [train.py:876] (1/4) Epoch 12, batch 4200, loss[loss=0.1098, simple_loss=0.1535, pruned_loss=0.033, over 5598.00 frames. ], tot_loss[loss=0.1088, simple_loss=0.1382, pruned_loss=0.03971, over 1086130.65 frames. ], batch size: 18, lr: 6.70e-03, grad_scale: 16.0
2022-11-16 05:41:01,791 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=84199.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 05:41:10,408 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=3.76 vs. limit=5.0
2022-11-16 05:41:26,497 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 9.244e+01 1.460e+02 1.805e+02 2.127e+02 5.710e+02, threshold=3.610e+02, percent-clipped=1.0
2022-11-16 05:41:26,702 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=84236.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 05:41:42,992 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=84260.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 05:41:59,855 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.1107, 3.2630, 2.9270, 3.2461, 3.3260, 2.8528, 2.9159, 2.9567],
       device='cuda:1'), covar=tensor([0.0975, 0.0641, 0.1579, 0.0584, 0.0586, 0.0572, 0.0998, 0.0762],
       device='cuda:1'), in_proj_covar=tensor([0.0133, 0.0180, 0.0275, 0.0177, 0.0224, 0.0173, 0.0192, 0.0176],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0003, 0.0004, 0.0003, 0.0003, 0.0002, 0.0003, 0.0002],
       device='cuda:1')
2022-11-16 05:42:04,886 INFO [train.py:876] (1/4) Epoch 12, batch 4300, loss[loss=0.1247, simple_loss=0.1574, pruned_loss=0.046, over 5773.00 frames. ], tot_loss[loss=0.1101, simple_loss=0.1392, pruned_loss=0.04055, over 1083518.74 frames. ], batch size: 21, lr: 6.70e-03, grad_scale: 16.0
2022-11-16 05:42:07,606 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=84297.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 05:42:11,486 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.2107, 1.4902, 1.1961, 1.0642, 1.5481, 1.3287, 0.9929, 1.5136],
       device='cuda:1'), covar=tensor([0.0063, 0.0036, 0.0062, 0.0061, 0.0046, 0.0054, 0.0081, 0.0043],
       device='cuda:1'), in_proj_covar=tensor([0.0061, 0.0057, 0.0056, 0.0060, 0.0059, 0.0054, 0.0054, 0.0051],
       device='cuda:1'), out_proj_covar=tensor([5.4835e-05, 5.0800e-05, 4.8958e-05, 5.3491e-05, 5.2383e-05, 4.6884e-05,
        4.7860e-05, 4.4828e-05], device='cuda:1')
2022-11-16 05:42:12,730 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=84305.0, num_to_drop=1, layers_to_drop={1}
2022-11-16 05:42:26,831 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.3800, 2.3291, 2.5611, 3.4874, 3.3280, 2.6120, 2.4233, 3.4603],
       device='cuda:1'), covar=tensor([0.1126, 0.2763, 0.2244, 0.2218, 0.1444, 0.2939, 0.2012, 0.1204],
       device='cuda:1'), in_proj_covar=tensor([0.0251, 0.0198, 0.0186, 0.0302, 0.0224, 0.0204, 0.0188, 0.0247],
       device='cuda:1'), out_proj_covar=tensor([0.0006, 0.0005, 0.0005, 0.0006, 0.0005, 0.0005, 0.0005, 0.0006],
       device='cuda:1')
2022-11-16 05:42:27,474 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.5371, 3.3824, 3.4763, 1.5415, 3.2385, 3.6305, 3.5196, 3.9489],
       device='cuda:1'), covar=tensor([0.1882, 0.1504, 0.0848, 0.3420, 0.0516, 0.0748, 0.0623, 0.0781],
       device='cuda:1'), in_proj_covar=tensor([0.0168, 0.0186, 0.0170, 0.0188, 0.0184, 0.0203, 0.0170, 0.0189],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004],
       device='cuda:1')
2022-11-16 05:42:34,272 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 7.802e+01 1.531e+02 1.904e+02 2.409e+02 4.137e+02, threshold=3.809e+02, percent-clipped=6.0
2022-11-16 05:42:34,456 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=84336.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 05:42:37,624 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=84341.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 05:43:12,340 INFO [train.py:876] (1/4) Epoch 12, batch 4400, loss[loss=0.08207, simple_loss=0.1253, pruned_loss=0.01943, over 5761.00 frames. ], tot_loss[loss=0.111, simple_loss=0.1394, pruned_loss=0.04133, over 1074894.79 frames. ], batch size: 16, lr: 6.70e-03, grad_scale: 16.0
2022-11-16 05:43:14,039 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=1.99 vs. limit=2.0
2022-11-16 05:43:15,056 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=84397.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 05:43:24,976 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([4.7984, 4.5197, 4.7563, 4.7193, 4.3223, 4.3235, 5.0859, 4.7863],
       device='cuda:1'), covar=tensor([0.0316, 0.0924, 0.0354, 0.1197, 0.0447, 0.0310, 0.0615, 0.0396],
       device='cuda:1'), in_proj_covar=tensor([0.0087, 0.0108, 0.0096, 0.0121, 0.0090, 0.0080, 0.0145, 0.0102],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0003, 0.0002],
       device='cuda:1')
2022-11-16 05:43:27,614 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=84416.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 05:43:41,383 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 7.927e+01 1.500e+02 1.777e+02 2.208e+02 3.922e+02, threshold=3.553e+02, percent-clipped=1.0
2022-11-16 05:43:52,911 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=84453.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 05:43:59,962 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=84464.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 05:44:19,825 INFO [train.py:876] (1/4) Epoch 12, batch 4500, loss[loss=0.1208, simple_loss=0.1487, pruned_loss=0.04642, over 5619.00 frames. ], tot_loss[loss=0.1108, simple_loss=0.1392, pruned_loss=0.04116, over 1081961.90 frames. ], batch size: 50, lr: 6.69e-03, grad_scale: 16.0
2022-11-16 05:44:41,052 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=84525.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 05:44:48,042 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.005e+02 1.515e+02 1.740e+02 2.350e+02 4.214e+02, threshold=3.480e+02, percent-clipped=2.0
2022-11-16 05:44:59,677 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.2102, 1.5971, 1.2839, 1.4282, 1.4446, 1.4855, 1.2801, 1.6717],
       device='cuda:1'), covar=tensor([0.0064, 0.0063, 0.0061, 0.0047, 0.0059, 0.0040, 0.0048, 0.0047],
       device='cuda:1'), in_proj_covar=tensor([0.0061, 0.0057, 0.0056, 0.0060, 0.0059, 0.0054, 0.0053, 0.0050],
       device='cuda:1'), out_proj_covar=tensor([5.4828e-05, 5.0496e-05, 4.8961e-05, 5.3299e-05, 5.1846e-05, 4.6848e-05,
        4.7557e-05, 4.4189e-05], device='cuda:1')
2022-11-16 05:45:01,601 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=84555.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 05:45:13,864 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([0.4295, 0.5805, 0.6186, 0.6936, 0.7129, 0.7425, 0.5737, 0.7938],
       device='cuda:1'), covar=tensor([0.0088, 0.0057, 0.0062, 0.0050, 0.0055, 0.0065, 0.0095, 0.0043],
       device='cuda:1'), in_proj_covar=tensor([0.0061, 0.0057, 0.0056, 0.0060, 0.0059, 0.0054, 0.0054, 0.0050],
       device='cuda:1'), out_proj_covar=tensor([5.4836e-05, 5.0595e-05, 4.9088e-05, 5.3430e-05, 5.1802e-05, 4.6973e-05,
        4.7718e-05, 4.4216e-05], device='cuda:1')
2022-11-16 05:45:22,425 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=84586.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 05:45:26,270 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=84592.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 05:45:26,815 INFO [train.py:876] (1/4) Epoch 12, batch 4600, loss[loss=0.1301, simple_loss=0.1569, pruned_loss=0.05164, over 5554.00 frames. ], tot_loss[loss=0.1112, simple_loss=0.1396, pruned_loss=0.04138, over 1079464.38 frames. ], batch size: 40, lr: 6.69e-03, grad_scale: 16.0
2022-11-16 05:45:36,014 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=84605.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 05:45:54,580 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=84633.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 05:45:56,353 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.075e+02 1.464e+02 1.836e+02 2.237e+02 3.755e+02, threshold=3.672e+02, percent-clipped=3.0
2022-11-16 05:45:59,676 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=84641.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 05:46:06,525 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=3.32 vs. limit=5.0
2022-11-16 05:46:08,135 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=84653.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 05:46:25,005 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.8620, 1.7079, 1.7658, 1.4225, 1.7543, 1.7400, 1.4995, 1.3877],
       device='cuda:1'), covar=tensor([0.0029, 0.0076, 0.0059, 0.0061, 0.0049, 0.0057, 0.0040, 0.0060],
       device='cuda:1'), in_proj_covar=tensor([0.0029, 0.0026, 0.0027, 0.0034, 0.0031, 0.0027, 0.0034, 0.0033],
       device='cuda:1'), out_proj_covar=tensor([2.6212e-05, 2.4147e-05, 2.4109e-05, 3.3290e-05, 2.8386e-05, 2.5890e-05,
        3.3141e-05, 3.1662e-05], device='cuda:1')
2022-11-16 05:46:32,292 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=84689.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 05:46:34,316 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=84692.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 05:46:34,898 INFO [train.py:876] (1/4) Epoch 12, batch 4700, loss[loss=0.1215, simple_loss=0.1418, pruned_loss=0.0506, over 5582.00 frames. ], tot_loss[loss=0.1106, simple_loss=0.1388, pruned_loss=0.04123, over 1075481.09 frames. ], batch size: 43, lr: 6.68e-03, grad_scale: 16.0
2022-11-16 05:46:35,703 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=84694.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 05:47:03,945 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 8.103e+01 1.427e+02 1.725e+02 2.096e+02 3.748e+02, threshold=3.451e+02, percent-clipped=1.0
2022-11-16 05:47:15,107 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=84753.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 05:47:30,479 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.5423, 3.5589, 3.7235, 3.2583, 3.6972, 3.3829, 1.4532, 3.7672],
       device='cuda:1'), covar=tensor([0.0339, 0.0317, 0.0368, 0.0499, 0.0322, 0.0466, 0.3277, 0.0336],
       device='cuda:1'), in_proj_covar=tensor([0.0104, 0.0088, 0.0089, 0.0082, 0.0102, 0.0090, 0.0131, 0.0109],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
       device='cuda:1')
2022-11-16 05:47:42,122 INFO [train.py:876] (1/4) Epoch 12, batch 4800, loss[loss=0.105, simple_loss=0.1418, pruned_loss=0.03408, over 5738.00 frames. ], tot_loss[loss=0.1104, simple_loss=0.1388, pruned_loss=0.041, over 1081165.77 frames. ], batch size: 15, lr: 6.68e-03, grad_scale: 16.0
2022-11-16 05:47:47,070 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=84800.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 05:47:47,584 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=84801.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 05:47:52,632 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.1086, 2.7192, 2.5218, 1.5952, 2.6656, 2.9529, 2.8035, 3.2171],
       device='cuda:1'), covar=tensor([0.1875, 0.1470, 0.1183, 0.2621, 0.0980, 0.0850, 0.0675, 0.0887],
       device='cuda:1'), in_proj_covar=tensor([0.0168, 0.0183, 0.0169, 0.0186, 0.0184, 0.0203, 0.0169, 0.0188],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004],
       device='cuda:1')
2022-11-16 05:48:11,628 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 8.403e+01 1.631e+02 1.987e+02 2.475e+02 5.083e+02, threshold=3.974e+02, percent-clipped=5.0
2022-11-16 05:48:19,425 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.9272, 3.8589, 3.8608, 3.9386, 3.5843, 3.5353, 4.3566, 3.8616],
       device='cuda:1'), covar=tensor([0.0419, 0.1018, 0.0403, 0.1329, 0.0514, 0.0413, 0.0778, 0.0635],
       device='cuda:1'), in_proj_covar=tensor([0.0089, 0.0110, 0.0098, 0.0123, 0.0091, 0.0082, 0.0148, 0.0104],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0003, 0.0002],
       device='cuda:1')
2022-11-16 05:48:24,059 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=84855.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 05:48:27,986 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=84861.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 05:48:41,870 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=84881.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 05:48:49,144 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=84892.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 05:48:49,704 INFO [train.py:876] (1/4) Epoch 12, batch 4900, loss[loss=0.08685, simple_loss=0.127, pruned_loss=0.02333, over 5600.00 frames. ], tot_loss[loss=0.1102, simple_loss=0.1385, pruned_loss=0.04095, over 1081687.50 frames. ], batch size: 18, lr: 6.68e-03, grad_scale: 32.0
2022-11-16 05:48:53,022 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([4.1800, 4.3661, 4.0683, 3.8323, 4.1706, 4.0471, 1.9142, 4.3394],
       device='cuda:1'), covar=tensor([0.0232, 0.0195, 0.0283, 0.0310, 0.0251, 0.0300, 0.2733, 0.0285],
       device='cuda:1'), in_proj_covar=tensor([0.0104, 0.0088, 0.0089, 0.0082, 0.0102, 0.0090, 0.0131, 0.0108],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
       device='cuda:1')
2022-11-16 05:48:56,264 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=84903.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 05:49:19,713 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 9.452e+01 1.404e+02 1.712e+02 2.121e+02 6.209e+02, threshold=3.423e+02, percent-clipped=1.0
2022-11-16 05:49:20,665 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.4946, 1.8578, 2.3561, 2.2616, 2.3212, 1.7198, 2.2356, 2.4369],
       device='cuda:1'), covar=tensor([0.0782, 0.1157, 0.0800, 0.0865, 0.0828, 0.1348, 0.0856, 0.0706],
       device='cuda:1'), in_proj_covar=tensor([0.0241, 0.0193, 0.0215, 0.0210, 0.0240, 0.0195, 0.0223, 0.0228],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004],
       device='cuda:1')
2022-11-16 05:49:21,800 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=84940.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 05:49:28,971 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=84951.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 05:49:54,404 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=84989.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 05:49:56,371 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=84992.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 05:49:56,853 INFO [train.py:876] (1/4) Epoch 12, batch 5000, loss[loss=0.1008, simple_loss=0.13, pruned_loss=0.03577, over 5568.00 frames. ], tot_loss[loss=0.1086, simple_loss=0.1373, pruned_loss=0.03993, over 1089752.92 frames. ], batch size: 25, lr: 6.67e-03, grad_scale: 16.0
2022-11-16 05:50:13,403 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=85012.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 05:50:29,276 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 8.668e+01 1.461e+02 1.751e+02 2.205e+02 3.739e+02, threshold=3.502e+02, percent-clipped=4.0
2022-11-16 05:50:31,262 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=85040.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 05:50:46,195 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.5478, 2.3071, 2.8214, 2.0546, 1.6409, 3.2337, 2.4841, 2.3703],
       device='cuda:1'), covar=tensor([0.1135, 0.1356, 0.0856, 0.2296, 0.2154, 0.0761, 0.1602, 0.1431],
       device='cuda:1'), in_proj_covar=tensor([0.0104, 0.0095, 0.0093, 0.0099, 0.0074, 0.0068, 0.0078, 0.0089],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
       device='cuda:1')
2022-11-16 05:51:00,510 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=1.60 vs. limit=2.0
2022-11-16 05:51:06,696 INFO [train.py:876] (1/4) Epoch 12, batch 5100, loss[loss=0.1773, simple_loss=0.17, pruned_loss=0.09229, over 3071.00 frames. ], tot_loss[loss=0.109, simple_loss=0.1384, pruned_loss=0.03981, over 1089228.49 frames. ], batch size: 284, lr: 6.67e-03, grad_scale: 16.0
2022-11-16 05:51:16,479 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=85107.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 05:51:21,648 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=85115.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 05:51:36,164 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 7.733e+01 1.524e+02 1.873e+02 2.260e+02 4.795e+02, threshold=3.745e+02, percent-clipped=3.0
2022-11-16 05:51:49,411 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=85156.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 05:51:57,593 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=85168.0, num_to_drop=1, layers_to_drop={3}
2022-11-16 05:52:03,259 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=85176.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 05:52:06,505 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=85181.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 05:52:14,134 INFO [train.py:876] (1/4) Epoch 12, batch 5200, loss[loss=0.09479, simple_loss=0.1243, pruned_loss=0.03263, over 5446.00 frames. ], tot_loss[loss=0.1077, simple_loss=0.1374, pruned_loss=0.03902, over 1086288.53 frames. ], batch size: 11, lr: 6.66e-03, grad_scale: 16.0
2022-11-16 05:52:15,889 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=1.91 vs. limit=2.0
2022-11-16 05:52:28,385 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=1.96 vs. limit=2.0
2022-11-16 05:52:39,249 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=85229.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 05:52:45,062 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 8.605e+01 1.468e+02 1.779e+02 2.161e+02 4.129e+02, threshold=3.557e+02, percent-clipped=1.0
2022-11-16 05:52:47,285 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.8510, 2.3406, 2.8261, 3.7056, 3.7341, 2.9519, 2.6870, 3.6064],
       device='cuda:1'), covar=tensor([0.0797, 0.2881, 0.2209, 0.2745, 0.1089, 0.2672, 0.1924, 0.1028],
       device='cuda:1'), in_proj_covar=tensor([0.0248, 0.0195, 0.0188, 0.0300, 0.0219, 0.0201, 0.0187, 0.0244],
       device='cuda:1'), out_proj_covar=tensor([0.0006, 0.0005, 0.0005, 0.0006, 0.0005, 0.0005, 0.0005, 0.0006],
       device='cuda:1')
2022-11-16 05:52:54,646 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=1.71 vs. limit=2.0
2022-11-16 05:53:20,074 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=85289.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 05:53:22,519 INFO [train.py:876] (1/4) Epoch 12, batch 5300, loss[loss=0.1528, simple_loss=0.1823, pruned_loss=0.06164, over 5474.00 frames. ], tot_loss[loss=0.1073, simple_loss=0.1374, pruned_loss=0.03856, over 1088993.62 frames. ], batch size: 53, lr: 6.66e-03, grad_scale: 8.0
2022-11-16 05:53:31,521 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=85307.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 05:53:44,256 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.6540, 2.1026, 2.3176, 2.7842, 2.9452, 2.2811, 1.9907, 2.8148],
       device='cuda:1'), covar=tensor([0.1849, 0.2128, 0.2110, 0.1548, 0.1238, 0.2869, 0.1974, 0.1366],
       device='cuda:1'), in_proj_covar=tensor([0.0252, 0.0198, 0.0191, 0.0306, 0.0224, 0.0204, 0.0190, 0.0248],
       device='cuda:1'), out_proj_covar=tensor([0.0006, 0.0005, 0.0005, 0.0006, 0.0005, 0.0005, 0.0005, 0.0006],
       device='cuda:1')
2022-11-16 05:53:52,734 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=85337.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 05:53:53,357 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 9.591e+01 1.461e+02 1.746e+02 2.193e+02 3.892e+02, threshold=3.493e+02, percent-clipped=1.0
2022-11-16 05:54:10,755 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.61 vs. limit=2.0
2022-11-16 05:54:33,130 INFO [train.py:876] (1/4) Epoch 12, batch 5400, loss[loss=0.08003, simple_loss=0.1045, pruned_loss=0.02779, over 5323.00 frames. ], tot_loss[loss=0.1082, simple_loss=0.1378, pruned_loss=0.03931, over 1086603.20 frames. ], batch size: 9, lr: 6.66e-03, grad_scale: 8.0
2022-11-16 05:54:56,710 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.2188, 0.7967, 0.8945, 0.9180, 1.1907, 1.0696, 0.6162, 0.8468],
       device='cuda:1'), covar=tensor([0.0254, 0.0466, 0.0372, 0.0526, 0.0276, 0.0453, 0.0850, 0.0378],
       device='cuda:1'), in_proj_covar=tensor([0.0015, 0.0023, 0.0017, 0.0020, 0.0017, 0.0015, 0.0023, 0.0016],
       device='cuda:1'), out_proj_covar=tensor([8.4359e-05, 1.1559e-04, 8.9828e-05, 1.0329e-04, 9.1382e-05, 8.4945e-05,
        1.1192e-04, 8.6401e-05], device='cuda:1')
2022-11-16 05:54:57,354 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=85428.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 05:55:04,100 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.058e+02 1.454e+02 1.853e+02 2.296e+02 5.814e+02, threshold=3.706e+02, percent-clipped=5.0
2022-11-16 05:55:15,938 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=85456.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 05:55:20,371 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=85463.0, num_to_drop=1, layers_to_drop={2}
2022-11-16 05:55:25,554 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=85471.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 05:55:34,531 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=85483.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 05:55:38,417 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=85489.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 05:55:41,211 INFO [train.py:876] (1/4) Epoch 12, batch 5500, loss[loss=0.103, simple_loss=0.1383, pruned_loss=0.03384, over 5677.00 frames. ], tot_loss[loss=0.1064, simple_loss=0.1366, pruned_loss=0.03807, over 1093638.23 frames. ], batch size: 34, lr: 6.65e-03, grad_scale: 8.0
2022-11-16 05:55:48,422 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=85504.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 05:56:06,094 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=85530.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 05:56:08,450 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.5106, 1.2526, 1.1548, 0.9949, 1.4325, 1.5473, 0.8136, 1.2636],
       device='cuda:1'), covar=tensor([0.0221, 0.0407, 0.0355, 0.0671, 0.0298, 0.0314, 0.0729, 0.0390],
       device='cuda:1'), in_proj_covar=tensor([0.0015, 0.0024, 0.0017, 0.0021, 0.0017, 0.0016, 0.0023, 0.0016],
       device='cuda:1'), out_proj_covar=tensor([8.5463e-05, 1.1757e-04, 9.1553e-05, 1.0498e-04, 9.2857e-05, 8.6775e-05,
        1.1379e-04, 8.7983e-05], device='cuda:1')
2022-11-16 05:56:11,498 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 9.321e+01 1.546e+02 1.853e+02 2.385e+02 3.916e+02, threshold=3.707e+02, percent-clipped=1.0
2022-11-16 05:56:16,105 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=85544.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 05:56:47,710 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=85591.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 05:56:48,892 INFO [train.py:876] (1/4) Epoch 12, batch 5600, loss[loss=0.1044, simple_loss=0.1409, pruned_loss=0.03392, over 5650.00 frames. ], tot_loss[loss=0.1062, simple_loss=0.137, pruned_loss=0.03771, over 1091847.01 frames. ], batch size: 32, lr: 6.65e-03, grad_scale: 8.0
2022-11-16 05:56:58,716 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=85607.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 05:57:10,794 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=85625.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 05:57:20,010 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 8.221e+01 1.474e+02 1.888e+02 2.414e+02 5.206e+02, threshold=3.776e+02, percent-clipped=5.0
2022-11-16 05:57:32,029 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=85655.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 05:57:52,330 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=85686.0, num_to_drop=1, layers_to_drop={3}
2022-11-16 05:57:56,996 INFO [train.py:876] (1/4) Epoch 12, batch 5700, loss[loss=0.1065, simple_loss=0.1202, pruned_loss=0.04644, over 4072.00 frames. ], tot_loss[loss=0.1077, simple_loss=0.1378, pruned_loss=0.03881, over 1085523.00 frames. ], batch size: 181, lr: 6.64e-03, grad_scale: 8.0
2022-11-16 05:57:59,595 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.79 vs. limit=2.0
2022-11-16 05:58:26,981 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 8.513e+01 1.496e+02 1.877e+02 2.228e+02 5.709e+02, threshold=3.754e+02, percent-clipped=3.0
2022-11-16 05:58:43,947 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=85763.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 05:58:49,769 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=85771.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 05:58:58,185 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=85784.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 05:59:04,114 INFO [train.py:876] (1/4) Epoch 12, batch 5800, loss[loss=0.1216, simple_loss=0.1381, pruned_loss=0.05258, over 5597.00 frames. ], tot_loss[loss=0.107, simple_loss=0.137, pruned_loss=0.03846, over 1088305.33 frames. ], batch size: 38, lr: 6.64e-03, grad_scale: 8.0
2022-11-16 05:59:16,819 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=85811.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 05:59:22,783 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=85819.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 05:59:32,021 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.8305, 1.9111, 1.6644, 1.9047, 1.9632, 1.8247, 1.6765, 1.8308],
       device='cuda:1'), covar=tensor([0.0547, 0.1012, 0.1825, 0.0812, 0.0824, 0.0587, 0.1464, 0.0812],
       device='cuda:1'), in_proj_covar=tensor([0.0133, 0.0178, 0.0274, 0.0173, 0.0222, 0.0173, 0.0190, 0.0177],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0003, 0.0004, 0.0002, 0.0003, 0.0002, 0.0003, 0.0002],
       device='cuda:1')
2022-11-16 05:59:35,105 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 9.803e+01 1.482e+02 1.820e+02 2.147e+02 4.590e+02, threshold=3.641e+02, percent-clipped=4.0
2022-11-16 05:59:35,887 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=85839.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 05:59:56,131 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([4.2950, 4.7647, 4.4509, 4.7977, 4.7791, 4.1413, 4.3656, 4.1839],
       device='cuda:1'), covar=tensor([0.0417, 0.0566, 0.1220, 0.0338, 0.0445, 0.0441, 0.0713, 0.0677],
       device='cuda:1'), in_proj_covar=tensor([0.0134, 0.0180, 0.0277, 0.0175, 0.0224, 0.0174, 0.0191, 0.0178],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0003, 0.0004, 0.0002, 0.0003, 0.0002, 0.0003, 0.0002],
       device='cuda:1')
2022-11-16 06:00:00,445 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=85875.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 06:00:04,728 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([0.9592, 1.3024, 1.2395, 1.1852, 1.1487, 1.6767, 1.2379, 1.2619],
       device='cuda:1'), covar=tensor([0.3365, 0.0906, 0.3267, 0.2848, 0.2016, 0.0593, 0.2088, 0.3018],
       device='cuda:1'), in_proj_covar=tensor([0.0103, 0.0095, 0.0094, 0.0099, 0.0073, 0.0066, 0.0078, 0.0088],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
       device='cuda:1')
2022-11-16 06:00:07,908 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=85886.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 06:00:12,394 INFO [train.py:876] (1/4) Epoch 12, batch 5900, loss[loss=0.1791, simple_loss=0.1679, pruned_loss=0.09512, over 3048.00 frames. ], tot_loss[loss=0.1079, simple_loss=0.1372, pruned_loss=0.03932, over 1079398.63 frames. ], batch size: 284, lr: 6.64e-03, grad_scale: 8.0
2022-11-16 06:00:38,038 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=85930.0, num_to_drop=1, layers_to_drop={1}
2022-11-16 06:00:41,973 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=85936.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 06:00:43,059 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 9.779e+01 1.458e+02 1.851e+02 2.281e+02 4.967e+02, threshold=3.703e+02, percent-clipped=4.0
2022-11-16 06:00:55,689 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=85957.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 06:01:12,073 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=85981.0, num_to_drop=1, layers_to_drop={0}
2022-11-16 06:01:12,894 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=1.53 vs. limit=2.0
2022-11-16 06:01:13,740 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.62 vs. limit=2.0
2022-11-16 06:01:18,828 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=85991.0, num_to_drop=1, layers_to_drop={2}
2022-11-16 06:01:19,973 INFO [train.py:876] (1/4) Epoch 12, batch 6000, loss[loss=0.09644, simple_loss=0.1216, pruned_loss=0.03563, over 5586.00 frames. ], tot_loss[loss=0.1075, simple_loss=0.1366, pruned_loss=0.03921, over 1079735.82 frames. ], batch size: 22, lr: 6.63e-03, grad_scale: 8.0
2022-11-16 06:01:19,973 INFO [train.py:899] (1/4) Computing validation loss
2022-11-16 06:01:26,625 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.4162, 3.5468, 3.6171, 1.8978, 3.5079, 3.6481, 3.7167, 4.1778],
       device='cuda:1'), covar=tensor([0.2040, 0.1126, 0.0687, 0.2691, 0.0544, 0.0841, 0.0362, 0.0457],
       device='cuda:1'), in_proj_covar=tensor([0.0164, 0.0180, 0.0165, 0.0183, 0.0182, 0.0200, 0.0166, 0.0185],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004],
       device='cuda:1')
2022-11-16 06:01:37,497 INFO [train.py:908] (1/4) Epoch 12, validation: loss=0.1738, simple_loss=0.1864, pruned_loss=0.08063, over 1530663.00 frames. 
2022-11-16 06:01:37,497 INFO [train.py:909] (1/4) Maximum memory allocated so far is 4676MB
2022-11-16 06:01:43,761 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=86002.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 06:01:54,421 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=86018.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 06:02:08,196 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 7.233e+01 1.359e+02 1.723e+02 2.216e+02 5.600e+02, threshold=3.445e+02, percent-clipped=2.0
2022-11-16 06:02:17,513 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=86052.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 06:02:24,800 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=86063.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 06:02:29,099 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=86069.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 06:02:37,206 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.5589, 1.5245, 1.3886, 1.4267, 1.4227, 1.5962, 1.3163, 0.9084],
       device='cuda:1'), covar=tensor([0.0039, 0.0031, 0.0044, 0.0060, 0.0096, 0.0059, 0.0050, 0.0067],
       device='cuda:1'), in_proj_covar=tensor([0.0029, 0.0027, 0.0027, 0.0035, 0.0031, 0.0028, 0.0035, 0.0033],
       device='cuda:1'), out_proj_covar=tensor([2.6689e-05, 2.4768e-05, 2.4371e-05, 3.3962e-05, 2.8607e-05, 2.6361e-05,
        3.3541e-05, 3.1887e-05], device='cuda:1')
2022-11-16 06:02:39,117 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=86084.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 06:02:45,094 INFO [train.py:876] (1/4) Epoch 12, batch 6100, loss[loss=0.09787, simple_loss=0.1372, pruned_loss=0.02928, over 5748.00 frames. ], tot_loss[loss=0.1075, simple_loss=0.1366, pruned_loss=0.03916, over 1077209.69 frames. ], batch size: 31, lr: 6.63e-03, grad_scale: 8.0
2022-11-16 06:02:51,386 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=3.36 vs. limit=5.0
2022-11-16 06:02:53,061 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([4.3067, 4.3239, 4.2535, 4.4468, 4.0827, 3.6664, 4.8491, 4.2133],
       device='cuda:1'), covar=tensor([0.0516, 0.0816, 0.0431, 0.0988, 0.0523, 0.0459, 0.0772, 0.0730],
       device='cuda:1'), in_proj_covar=tensor([0.0090, 0.0111, 0.0099, 0.0123, 0.0092, 0.0082, 0.0149, 0.0105],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0003, 0.0002],
       device='cuda:1')
2022-11-16 06:02:58,471 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=86113.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 06:03:05,903 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([4.6933, 4.7615, 4.7780, 4.3874, 4.7350, 4.4745, 1.8627, 4.8435],
       device='cuda:1'), covar=tensor([0.0238, 0.0282, 0.0291, 0.0486, 0.0285, 0.0258, 0.3046, 0.0309],
       device='cuda:1'), in_proj_covar=tensor([0.0104, 0.0089, 0.0089, 0.0082, 0.0103, 0.0090, 0.0132, 0.0108],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
       device='cuda:1')
2022-11-16 06:03:10,245 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=86130.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 06:03:11,382 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=86132.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 06:03:15,121 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 9.336e+01 1.468e+02 1.787e+02 2.256e+02 5.479e+02, threshold=3.574e+02, percent-clipped=5.0
2022-11-16 06:03:15,921 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=86139.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 06:03:33,898 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.0708, 2.4866, 2.3618, 1.5536, 2.7956, 2.9536, 2.7239, 3.0787],
       device='cuda:1'), covar=tensor([0.1646, 0.1421, 0.1551, 0.2602, 0.0978, 0.1018, 0.0689, 0.0991],
       device='cuda:1'), in_proj_covar=tensor([0.0163, 0.0178, 0.0163, 0.0182, 0.0180, 0.0198, 0.0164, 0.0183],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004],
       device='cuda:1')
2022-11-16 06:03:47,219 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=86186.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 06:03:47,784 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=86187.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 06:03:51,955 INFO [train.py:876] (1/4) Epoch 12, batch 6200, loss[loss=0.08776, simple_loss=0.1193, pruned_loss=0.02809, over 5471.00 frames. ], tot_loss[loss=0.107, simple_loss=0.1363, pruned_loss=0.03888, over 1078235.36 frames. ], batch size: 11, lr: 6.63e-03, grad_scale: 8.0
2022-11-16 06:03:52,007 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.1845, 3.0375, 3.0579, 3.1833, 3.1464, 2.9358, 3.4451, 3.1437],
       device='cuda:1'), covar=tensor([0.0489, 0.0909, 0.0568, 0.1100, 0.0584, 0.0454, 0.0840, 0.0753],
       device='cuda:1'), in_proj_covar=tensor([0.0088, 0.0110, 0.0098, 0.0122, 0.0090, 0.0081, 0.0147, 0.0104],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0003, 0.0002],
       device='cuda:1')
2022-11-16 06:04:17,339 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=86231.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 06:04:19,251 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=86234.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 06:04:22,081 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 8.231e+01 1.405e+02 1.749e+02 2.219e+02 4.004e+02, threshold=3.499e+02, percent-clipped=3.0
2022-11-16 06:04:27,860 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=86246.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 06:04:51,624 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=86281.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 06:04:54,816 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=86286.0, num_to_drop=1, layers_to_drop={1}
2022-11-16 06:04:59,676 INFO [train.py:876] (1/4) Epoch 12, batch 6300, loss[loss=0.1265, simple_loss=0.16, pruned_loss=0.04651, over 5732.00 frames. ], tot_loss[loss=0.1072, simple_loss=0.1367, pruned_loss=0.03883, over 1079818.71 frames. ], batch size: 27, lr: 6.62e-03, grad_scale: 8.0
2022-11-16 06:05:09,335 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=86307.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 06:05:13,601 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=86313.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 06:05:24,117 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=86329.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 06:05:29,914 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 8.920e+01 1.421e+02 1.647e+02 2.112e+02 5.317e+02, threshold=3.295e+02, percent-clipped=6.0
2022-11-16 06:05:32,350 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.2870, 2.6042, 3.5381, 2.0822, 2.1548, 3.8398, 2.8548, 2.4910],
       device='cuda:1'), covar=tensor([0.0496, 0.1432, 0.0359, 0.2557, 0.1334, 0.1602, 0.0663, 0.1021],
       device='cuda:1'), in_proj_covar=tensor([0.0106, 0.0098, 0.0096, 0.0102, 0.0076, 0.0068, 0.0079, 0.0091],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
       device='cuda:1')
2022-11-16 06:05:44,649 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=86358.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 06:06:07,708 INFO [train.py:876] (1/4) Epoch 12, batch 6400, loss[loss=0.08189, simple_loss=0.1256, pruned_loss=0.0191, over 5795.00 frames. ], tot_loss[loss=0.1072, simple_loss=0.137, pruned_loss=0.03872, over 1081934.00 frames. ], batch size: 21, lr: 6.62e-03, grad_scale: 8.0
2022-11-16 06:06:18,202 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=86408.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 06:06:30,012 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=86425.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 06:06:38,421 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 9.070e+01 1.434e+02 1.773e+02 2.236e+02 3.206e+02, threshold=3.547e+02, percent-clipped=0.0
2022-11-16 06:06:39,878 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=86440.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 06:06:42,662 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=1.69 vs. limit=2.0
2022-11-16 06:06:43,161 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=86445.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 06:07:15,167 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.1010, 1.5897, 1.2134, 1.1983, 1.4453, 1.1793, 0.9528, 1.6242],
       device='cuda:1'), covar=tensor([0.0074, 0.0038, 0.0065, 0.0077, 0.0055, 0.0050, 0.0110, 0.0055],
       device='cuda:1'), in_proj_covar=tensor([0.0061, 0.0057, 0.0056, 0.0060, 0.0058, 0.0055, 0.0054, 0.0052],
       device='cuda:1'), out_proj_covar=tensor([5.5016e-05, 5.0655e-05, 4.8915e-05, 5.3662e-05, 5.1317e-05, 4.7725e-05,
        4.8134e-05, 4.5430e-05], device='cuda:1')
2022-11-16 06:07:15,664 INFO [train.py:876] (1/4) Epoch 12, batch 6500, loss[loss=0.1054, simple_loss=0.1416, pruned_loss=0.03456, over 5649.00 frames. ], tot_loss[loss=0.1087, simple_loss=0.1382, pruned_loss=0.03956, over 1084943.82 frames. ], batch size: 29, lr: 6.61e-03, grad_scale: 8.0
2022-11-16 06:07:21,057 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=86501.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 06:07:25,133 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=86506.0, num_to_drop=1, layers_to_drop={1}
2022-11-16 06:07:42,115 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=86531.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 06:07:45,019 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=3.85 vs. limit=5.0
2022-11-16 06:07:46,550 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 9.116e+01 1.482e+02 1.807e+02 2.369e+02 3.734e+02, threshold=3.614e+02, percent-clipped=1.0
2022-11-16 06:07:47,986 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.8056, 2.8639, 2.6110, 2.8133, 2.5447, 2.3581, 3.0073, 3.2636],
       device='cuda:1'), covar=tensor([0.1076, 0.1438, 0.1782, 0.1459, 0.1435, 0.1515, 0.1144, 0.1084],
       device='cuda:1'), in_proj_covar=tensor([0.0113, 0.0106, 0.0105, 0.0105, 0.0092, 0.0103, 0.0098, 0.0082],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0004, 0.0004, 0.0004, 0.0003, 0.0004, 0.0004, 0.0003],
       device='cuda:1')
2022-11-16 06:08:05,634 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.0736, 3.5290, 2.3431, 3.1818, 2.5228, 2.5841, 2.0025, 2.9724],
       device='cuda:1'), covar=tensor([0.1283, 0.0269, 0.1124, 0.0513, 0.1317, 0.1071, 0.1861, 0.0525],
       device='cuda:1'), in_proj_covar=tensor([0.0154, 0.0143, 0.0158, 0.0150, 0.0174, 0.0167, 0.0158, 0.0159],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0003, 0.0004, 0.0003, 0.0004, 0.0004, 0.0004, 0.0004],
       device='cuda:1')
2022-11-16 06:08:09,646 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=1.59 vs. limit=2.0
2022-11-16 06:08:13,932 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=86579.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 06:08:14,717 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=86580.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 06:08:18,588 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=86586.0, num_to_drop=1, layers_to_drop={2}
2022-11-16 06:08:23,753 INFO [train.py:876] (1/4) Epoch 12, batch 6600, loss[loss=0.09183, simple_loss=0.1409, pruned_loss=0.02139, over 5595.00 frames. ], tot_loss[loss=0.1085, simple_loss=0.1377, pruned_loss=0.03965, over 1083883.67 frames. ], batch size: 18, lr: 6.61e-03, grad_scale: 8.0
2022-11-16 06:08:29,999 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=86602.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 06:08:37,141 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=86613.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 06:08:51,383 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=86634.0, num_to_drop=1, layers_to_drop={0}
2022-11-16 06:08:54,694 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 6.903e+01 1.415e+02 1.832e+02 2.260e+02 3.608e+02, threshold=3.664e+02, percent-clipped=0.0
2022-11-16 06:08:56,849 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=86641.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 06:09:08,013 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=86658.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 06:09:09,957 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=86661.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 06:09:32,603 INFO [train.py:876] (1/4) Epoch 12, batch 6700, loss[loss=0.09687, simple_loss=0.1325, pruned_loss=0.0306, over 5715.00 frames. ], tot_loss[loss=0.1073, simple_loss=0.1367, pruned_loss=0.03897, over 1078893.91 frames. ], batch size: 28, lr: 6.61e-03, grad_scale: 8.0
2022-11-16 06:09:41,149 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=86706.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 06:09:42,515 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=86708.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 06:09:45,902 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.6360, 1.6374, 2.8802, 1.7352, 2.2741, 1.5623, 1.7080, 2.0904],
       device='cuda:1'), covar=tensor([0.1648, 0.1023, 0.0154, 0.0895, 0.0538, 0.1938, 0.0445, 0.0398],
       device='cuda:1'), in_proj_covar=tensor([0.0015, 0.0024, 0.0017, 0.0021, 0.0017, 0.0016, 0.0023, 0.0016],
       device='cuda:1'), out_proj_covar=tensor([8.6177e-05, 1.1923e-04, 9.1906e-05, 1.0586e-04, 9.3972e-05, 8.6710e-05,
        1.1495e-04, 8.8778e-05], device='cuda:1')
2022-11-16 06:09:53,707 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=86725.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 06:09:54,678 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.58 vs. limit=2.0
2022-11-16 06:10:02,549 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.026e+02 1.559e+02 1.954e+02 2.479e+02 4.501e+02, threshold=3.908e+02, percent-clipped=4.0
2022-11-16 06:10:15,000 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=86756.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 06:10:25,964 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=86773.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 06:10:39,694 INFO [train.py:876] (1/4) Epoch 12, batch 6800, loss[loss=0.1466, simple_loss=0.1718, pruned_loss=0.06065, over 5621.00 frames. ], tot_loss[loss=0.1096, simple_loss=0.1386, pruned_loss=0.04029, over 1080654.55 frames. ], batch size: 32, lr: 6.60e-03, grad_scale: 8.0
2022-11-16 06:10:41,681 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=86796.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 06:10:45,595 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=86801.0, num_to_drop=1, layers_to_drop={1}
2022-11-16 06:10:54,172 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=86814.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 06:11:10,427 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.000e+02 1.446e+02 1.789e+02 2.436e+02 4.053e+02, threshold=3.578e+02, percent-clipped=1.0
2022-11-16 06:11:35,467 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=86875.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 06:11:37,376 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=86878.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 06:11:47,374 INFO [train.py:876] (1/4) Epoch 12, batch 6900, loss[loss=0.1026, simple_loss=0.1418, pruned_loss=0.03173, over 5512.00 frames. ], tot_loss[loss=0.1074, simple_loss=0.1372, pruned_loss=0.03887, over 1083799.62 frames. ], batch size: 17, lr: 6.60e-03, grad_scale: 8.0
2022-11-16 06:11:53,839 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=86902.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 06:12:01,516 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=1.89 vs. limit=2.0
2022-11-16 06:12:17,105 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=86936.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 06:12:18,367 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 8.928e+01 1.457e+02 1.817e+02 2.231e+02 4.523e+02, threshold=3.633e+02, percent-clipped=5.0
2022-11-16 06:12:19,208 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=86939.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 06:12:21,969 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([4.4476, 4.3443, 4.5262, 4.4513, 4.0496, 3.8149, 4.8576, 4.2625],
       device='cuda:1'), covar=tensor([0.0476, 0.0959, 0.0484, 0.1067, 0.0582, 0.0457, 0.0652, 0.0773],
       device='cuda:1'), in_proj_covar=tensor([0.0087, 0.0108, 0.0095, 0.0120, 0.0089, 0.0080, 0.0146, 0.0102],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0003, 0.0002],
       device='cuda:1')
2022-11-16 06:12:26,805 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=86950.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 06:12:55,754 INFO [train.py:876] (1/4) Epoch 12, batch 7000, loss[loss=0.1547, simple_loss=0.1651, pruned_loss=0.07211, over 5460.00 frames. ], tot_loss[loss=0.1084, simple_loss=0.1381, pruned_loss=0.03942, over 1082286.24 frames. ], batch size: 64, lr: 6.60e-03, grad_scale: 8.0
2022-11-16 06:12:57,567 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([0.6869, 0.5872, 0.7245, 0.6702, 0.8108, 0.7138, 0.2894, 0.5859],
       device='cuda:1'), covar=tensor([0.0194, 0.0278, 0.0266, 0.0265, 0.0241, 0.0200, 0.0522, 0.0227],
       device='cuda:1'), in_proj_covar=tensor([0.0015, 0.0024, 0.0017, 0.0021, 0.0017, 0.0015, 0.0023, 0.0016],
       device='cuda:1'), out_proj_covar=tensor([8.6689e-05, 1.1913e-04, 9.1689e-05, 1.0581e-04, 9.3600e-05, 8.5913e-05,
        1.1537e-04, 8.8279e-05], device='cuda:1')
2022-11-16 06:13:02,854 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=87002.0, num_to_drop=1, layers_to_drop={1}
2022-11-16 06:13:06,916 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.45 vs. limit=2.0
2022-11-16 06:13:12,725 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([4.0057, 4.3270, 3.9491, 4.3400, 4.4087, 3.6244, 3.8684, 3.8416],
       device='cuda:1'), covar=tensor([0.0484, 0.0592, 0.1336, 0.0469, 0.0429, 0.0706, 0.0779, 0.0688],
       device='cuda:1'), in_proj_covar=tensor([0.0133, 0.0178, 0.0276, 0.0175, 0.0223, 0.0175, 0.0190, 0.0178],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0003, 0.0004, 0.0002, 0.0003, 0.0002, 0.0003, 0.0002],
       device='cuda:1')
2022-11-16 06:13:16,025 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([5.1485, 4.6716, 4.9402, 4.7368, 5.2433, 5.0753, 4.5465, 5.1765],
       device='cuda:1'), covar=tensor([0.0352, 0.0335, 0.0433, 0.0299, 0.0298, 0.0232, 0.0280, 0.0245],
       device='cuda:1'), in_proj_covar=tensor([0.0145, 0.0156, 0.0111, 0.0146, 0.0183, 0.0109, 0.0129, 0.0157],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003],
       device='cuda:1')
2022-11-16 06:13:26,384 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 8.516e+01 1.515e+02 1.846e+02 2.332e+02 4.129e+02, threshold=3.691e+02, percent-clipped=3.0
2022-11-16 06:13:30,458 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.4191, 3.1902, 3.6502, 1.8812, 3.4144, 3.8338, 3.7376, 3.8700],
       device='cuda:1'), covar=tensor([0.2518, 0.1680, 0.0732, 0.3111, 0.0521, 0.0621, 0.0476, 0.0859],
       device='cuda:1'), in_proj_covar=tensor([0.0167, 0.0182, 0.0169, 0.0185, 0.0184, 0.0202, 0.0169, 0.0186],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004],
       device='cuda:1')
2022-11-16 06:13:36,935 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.33 vs. limit=2.0
2022-11-16 06:13:43,352 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=87063.0, num_to_drop=1, layers_to_drop={3}
2022-11-16 06:13:57,610 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.4913, 1.2094, 1.1091, 1.0033, 1.3206, 1.3767, 0.6325, 1.0709],
       device='cuda:1'), covar=tensor([0.0378, 0.0465, 0.0332, 0.0523, 0.0731, 0.0293, 0.1032, 0.0430],
       device='cuda:1'), in_proj_covar=tensor([0.0015, 0.0024, 0.0017, 0.0020, 0.0017, 0.0015, 0.0023, 0.0016],
       device='cuda:1'), out_proj_covar=tensor([8.5665e-05, 1.1814e-04, 9.0914e-05, 1.0462e-04, 9.2479e-05, 8.5293e-05,
        1.1398e-04, 8.7432e-05], device='cuda:1')
2022-11-16 06:14:03,309 INFO [train.py:876] (1/4) Epoch 12, batch 7100, loss[loss=0.1171, simple_loss=0.1482, pruned_loss=0.04296, over 5734.00 frames. ], tot_loss[loss=0.1097, simple_loss=0.1389, pruned_loss=0.04022, over 1081567.61 frames. ], batch size: 27, lr: 6.59e-03, grad_scale: 8.0
2022-11-16 06:14:05,396 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=87096.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 06:14:08,680 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=87101.0, num_to_drop=1, layers_to_drop={2}
2022-11-16 06:14:18,950 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([4.3150, 4.1637, 4.2815, 4.2384, 3.8948, 3.6373, 4.6562, 4.0317],
       device='cuda:1'), covar=tensor([0.0461, 0.0860, 0.0393, 0.1235, 0.0572, 0.0465, 0.0784, 0.0734],
       device='cuda:1'), in_proj_covar=tensor([0.0088, 0.0108, 0.0096, 0.0121, 0.0090, 0.0080, 0.0147, 0.0104],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0003, 0.0002],
       device='cuda:1')
2022-11-16 06:14:33,938 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 9.177e+01 1.551e+02 1.888e+02 2.451e+02 4.689e+02, threshold=3.775e+02, percent-clipped=4.0
2022-11-16 06:14:37,911 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=87144.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 06:14:41,183 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=87149.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 06:14:55,687 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=87170.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 06:15:11,218 INFO [train.py:876] (1/4) Epoch 12, batch 7200, loss[loss=0.1098, simple_loss=0.128, pruned_loss=0.04581, over 5148.00 frames. ], tot_loss[loss=0.1081, simple_loss=0.1376, pruned_loss=0.03933, over 1087154.15 frames. ], batch size: 91, lr: 6.59e-03, grad_scale: 8.0
2022-11-16 06:15:16,265 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.4075, 2.2953, 2.9832, 1.7246, 1.4033, 3.2551, 2.6790, 2.2454],
       device='cuda:1'), covar=tensor([0.1113, 0.1123, 0.0637, 0.2786, 0.3178, 0.1433, 0.1089, 0.1291],
       device='cuda:1'), in_proj_covar=tensor([0.0107, 0.0097, 0.0098, 0.0102, 0.0076, 0.0069, 0.0080, 0.0091],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
       device='cuda:1')
2022-11-16 06:15:36,457 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=87230.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 06:15:39,015 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=87234.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 06:15:40,323 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=87236.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 06:15:41,450 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 9.393e+01 1.550e+02 1.929e+02 2.381e+02 4.425e+02, threshold=3.859e+02, percent-clipped=3.0
2022-11-16 06:15:51,284 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.7183, 3.4875, 3.5630, 3.3681, 2.0751, 3.6214, 2.2909, 2.9697],
       device='cuda:1'), covar=tensor([0.0360, 0.0220, 0.0175, 0.0280, 0.0530, 0.0163, 0.0453, 0.0237],
       device='cuda:1'), in_proj_covar=tensor([0.0195, 0.0181, 0.0183, 0.0205, 0.0193, 0.0182, 0.0189, 0.0185],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
       device='cuda:1')
2022-11-16 06:15:57,207 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.31 vs. limit=2.0
2022-11-16 06:16:42,438 INFO [train.py:876] (1/4) Epoch 13, batch 0, loss[loss=0.1284, simple_loss=0.1598, pruned_loss=0.04852, over 5615.00 frames. ], tot_loss[loss=0.1284, simple_loss=0.1598, pruned_loss=0.04852, over 5615.00 frames. ], batch size: 32, lr: 6.33e-03, grad_scale: 16.0
2022-11-16 06:16:42,438 INFO [train.py:899] (1/4) Computing validation loss
2022-11-16 06:16:58,481 INFO [train.py:908] (1/4) Epoch 13, validation: loss=0.175, simple_loss=0.1891, pruned_loss=0.08049, over 1530663.00 frames. 
2022-11-16 06:16:58,482 INFO [train.py:909] (1/4) Maximum memory allocated so far is 4676MB
2022-11-16 06:17:11,205 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=87284.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 06:17:16,598 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=87291.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 06:17:40,650 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.79 vs. limit=2.0
2022-11-16 06:17:47,396 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 8.806e+01 1.427e+02 1.803e+02 2.265e+02 3.823e+02, threshold=3.607e+02, percent-clipped=0.0
2022-11-16 06:18:01,505 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=87358.0, num_to_drop=1, layers_to_drop={0}
2022-11-16 06:18:04,453 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=87362.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 06:18:06,208 INFO [train.py:876] (1/4) Epoch 13, batch 100, loss[loss=0.1233, simple_loss=0.1504, pruned_loss=0.04809, over 5529.00 frames. ], tot_loss[loss=0.1042, simple_loss=0.1348, pruned_loss=0.03675, over 430566.92 frames. ], batch size: 43, lr: 6.32e-03, grad_scale: 16.0
2022-11-16 06:18:45,448 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=87423.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 06:18:55,226 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 8.013e+01 1.498e+02 1.837e+02 2.189e+02 4.153e+02, threshold=3.674e+02, percent-clipped=6.0
2022-11-16 06:19:10,511 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=87461.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 06:19:12,926 INFO [train.py:876] (1/4) Epoch 13, batch 200, loss[loss=0.07489, simple_loss=0.1166, pruned_loss=0.0166, over 5726.00 frames. ], tot_loss[loss=0.1049, simple_loss=0.135, pruned_loss=0.03736, over 693821.91 frames. ], batch size: 15, lr: 6.32e-03, grad_scale: 16.0
2022-11-16 06:19:14,371 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.6170, 2.4256, 2.7639, 1.9364, 1.4050, 3.4214, 2.6694, 2.4261],
       device='cuda:1'), covar=tensor([0.0921, 0.1224, 0.0936, 0.2382, 0.3563, 0.0807, 0.1195, 0.1143],
       device='cuda:1'), in_proj_covar=tensor([0.0106, 0.0097, 0.0097, 0.0100, 0.0075, 0.0068, 0.0080, 0.0090],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
       device='cuda:1')
2022-11-16 06:19:16,736 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=87470.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 06:19:40,372 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=87505.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 06:19:49,627 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=87518.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 06:19:52,421 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=87522.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 06:20:00,745 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=87534.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 06:20:03,213 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 8.494e+01 1.564e+02 1.812e+02 2.322e+02 4.189e+02, threshold=3.625e+02, percent-clipped=2.0
2022-11-16 06:20:21,144 INFO [train.py:876] (1/4) Epoch 13, batch 300, loss[loss=0.07534, simple_loss=0.1169, pruned_loss=0.01689, over 5258.00 frames. ], tot_loss[loss=0.1073, simple_loss=0.1367, pruned_loss=0.039, over 840590.57 frames. ], batch size: 6, lr: 6.32e-03, grad_scale: 16.0
2022-11-16 06:20:21,980 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=87566.0, num_to_drop=1, layers_to_drop={2}
2022-11-16 06:20:33,024 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=87582.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 06:20:34,409 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=87584.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 06:20:35,587 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=87586.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 06:20:37,650 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=87589.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 06:20:48,693 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=87605.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 06:20:56,366 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.53 vs. limit=2.0
2022-11-16 06:21:05,020 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.7975, 2.6046, 2.7283, 3.8019, 3.8439, 2.8150, 2.5888, 3.8255],
       device='cuda:1'), covar=tensor([0.0792, 0.2223, 0.2042, 0.3626, 0.1146, 0.3252, 0.2003, 0.1438],
       device='cuda:1'), in_proj_covar=tensor([0.0256, 0.0196, 0.0187, 0.0304, 0.0227, 0.0204, 0.0190, 0.0248],
       device='cuda:1'), out_proj_covar=tensor([0.0006, 0.0005, 0.0005, 0.0006, 0.0005, 0.0005, 0.0005, 0.0006],
       device='cuda:1')
2022-11-16 06:21:11,331 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 9.900e+01 1.347e+02 1.607e+02 1.950e+02 4.005e+02, threshold=3.214e+02, percent-clipped=2.0
2022-11-16 06:21:16,210 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=87645.0, num_to_drop=1, layers_to_drop={3}
2022-11-16 06:21:19,732 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=87650.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 06:21:20,044 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=4.49 vs. limit=5.0
2022-11-16 06:21:24,820 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=87658.0, num_to_drop=1, layers_to_drop={1}
2022-11-16 06:21:29,302 INFO [train.py:876] (1/4) Epoch 13, batch 400, loss[loss=0.1176, simple_loss=0.1477, pruned_loss=0.04378, over 5572.00 frames. ], tot_loss[loss=0.1094, simple_loss=0.1388, pruned_loss=0.04002, over 929416.24 frames. ], batch size: 43, lr: 6.31e-03, grad_scale: 16.0
2022-11-16 06:21:30,109 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=87666.0, num_to_drop=1, layers_to_drop={1}
2022-11-16 06:21:30,668 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.0956, 3.1119, 3.1286, 2.9443, 3.1238, 3.0173, 1.2933, 3.0941],
       device='cuda:1'), covar=tensor([0.0455, 0.0582, 0.0609, 0.0655, 0.0603, 0.0646, 0.3942, 0.0580],
       device='cuda:1'), in_proj_covar=tensor([0.0103, 0.0088, 0.0088, 0.0081, 0.0102, 0.0090, 0.0130, 0.0107],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
       device='cuda:1')
2022-11-16 06:21:57,181 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=87706.0, num_to_drop=1, layers_to_drop={0}
2022-11-16 06:22:05,086 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=87718.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 06:22:08,997 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.4519, 4.3326, 2.8879, 4.1739, 3.4022, 2.9352, 2.4167, 3.5811],
       device='cuda:1'), covar=tensor([0.1373, 0.0192, 0.1027, 0.0314, 0.0674, 0.1003, 0.1738, 0.0447],
       device='cuda:1'), in_proj_covar=tensor([0.0154, 0.0143, 0.0156, 0.0148, 0.0173, 0.0168, 0.0158, 0.0159],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0003, 0.0004, 0.0003, 0.0004, 0.0004, 0.0004, 0.0004],
       device='cuda:1')
2022-11-16 06:22:19,046 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 9.955e+01 1.567e+02 1.911e+02 2.428e+02 4.922e+02, threshold=3.823e+02, percent-clipped=4.0
2022-11-16 06:22:22,957 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.29 vs. limit=2.0
2022-11-16 06:22:37,354 INFO [train.py:876] (1/4) Epoch 13, batch 500, loss[loss=0.08406, simple_loss=0.1275, pruned_loss=0.02032, over 5543.00 frames. ], tot_loss[loss=0.1098, simple_loss=0.1387, pruned_loss=0.04042, over 991544.32 frames. ], batch size: 14, lr: 6.31e-03, grad_scale: 16.0
2022-11-16 06:23:00,706 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.16 vs. limit=2.0
2022-11-16 06:23:10,681 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.0646, 3.3357, 2.2887, 3.0867, 2.4131, 2.4269, 1.7826, 2.8414],
       device='cuda:1'), covar=tensor([0.1357, 0.0351, 0.1160, 0.0496, 0.1327, 0.1185, 0.2147, 0.0610],
       device='cuda:1'), in_proj_covar=tensor([0.0154, 0.0143, 0.0156, 0.0147, 0.0173, 0.0169, 0.0158, 0.0158],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0003, 0.0004, 0.0003, 0.0004, 0.0004, 0.0004, 0.0004],
       device='cuda:1')
2022-11-16 06:23:12,964 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=87817.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 06:23:26,585 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 9.493e+01 1.445e+02 1.920e+02 2.398e+02 4.024e+02, threshold=3.840e+02, percent-clipped=2.0
2022-11-16 06:23:33,982 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=2.07 vs. limit=2.0
2022-11-16 06:23:42,718 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=87861.0, num_to_drop=1, layers_to_drop={0}
2022-11-16 06:23:45,205 INFO [train.py:876] (1/4) Epoch 13, batch 600, loss[loss=0.172, simple_loss=0.1842, pruned_loss=0.07993, over 5542.00 frames. ], tot_loss[loss=0.1095, simple_loss=0.1388, pruned_loss=0.04014, over 1028583.04 frames. ], batch size: 46, lr: 6.31e-03, grad_scale: 16.0
2022-11-16 06:23:59,297 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=87886.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 06:24:31,949 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=87934.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 06:24:33,498 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.20 vs. limit=2.0
2022-11-16 06:24:35,162 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 7.722e+01 1.443e+02 1.741e+02 2.053e+02 3.488e+02, threshold=3.481e+02, percent-clipped=0.0
2022-11-16 06:24:35,924 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=87940.0, num_to_drop=1, layers_to_drop={3}
2022-11-16 06:24:38,960 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=2.05 vs. limit=2.0
2022-11-16 06:24:39,201 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=87945.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 06:24:45,881 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.53 vs. limit=2.0
2022-11-16 06:24:49,807 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=87961.0, num_to_drop=1, layers_to_drop={1}
2022-11-16 06:24:52,674 INFO [train.py:876] (1/4) Epoch 13, batch 700, loss[loss=0.09239, simple_loss=0.1374, pruned_loss=0.0237, over 5753.00 frames. ], tot_loss[loss=0.1084, simple_loss=0.1384, pruned_loss=0.03926, over 1052961.47 frames. ], batch size: 16, lr: 6.30e-03, grad_scale: 8.0
2022-11-16 06:25:22,780 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.76 vs. limit=2.0
2022-11-16 06:25:29,005 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=88018.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 06:25:37,329 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.2940, 2.8822, 3.3138, 1.5778, 3.1685, 3.6744, 3.5129, 3.9132],
       device='cuda:1'), covar=tensor([0.2193, 0.1883, 0.1007, 0.3484, 0.0778, 0.0926, 0.0536, 0.0739],
       device='cuda:1'), in_proj_covar=tensor([0.0165, 0.0183, 0.0169, 0.0184, 0.0182, 0.0202, 0.0168, 0.0183],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004],
       device='cuda:1')
2022-11-16 06:25:37,543 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.83 vs. limit=2.0
2022-11-16 06:25:42,922 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 9.823e+01 1.432e+02 1.789e+02 2.095e+02 4.590e+02, threshold=3.577e+02, percent-clipped=1.0
2022-11-16 06:26:00,229 INFO [train.py:876] (1/4) Epoch 13, batch 800, loss[loss=0.1612, simple_loss=0.1735, pruned_loss=0.07442, over 5444.00 frames. ], tot_loss[loss=0.1086, simple_loss=0.1387, pruned_loss=0.03925, over 1066309.09 frames. ], batch size: 53, lr: 6.30e-03, grad_scale: 8.0
2022-11-16 06:26:01,329 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=88066.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 06:26:08,702 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.3379, 2.2864, 2.6536, 3.4343, 3.2571, 2.5836, 2.2793, 3.3432],
       device='cuda:1'), covar=tensor([0.1243, 0.2526, 0.2343, 0.2284, 0.1364, 0.2972, 0.2190, 0.1117],
       device='cuda:1'), in_proj_covar=tensor([0.0255, 0.0196, 0.0187, 0.0301, 0.0226, 0.0202, 0.0190, 0.0248],
       device='cuda:1'), out_proj_covar=tensor([0.0006, 0.0005, 0.0005, 0.0006, 0.0005, 0.0005, 0.0005, 0.0006],
       device='cuda:1')
2022-11-16 06:26:24,667 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=88100.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 06:26:25,762 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.49 vs. limit=2.0
2022-11-16 06:26:29,281 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.1181, 1.7713, 2.0362, 2.0873, 2.4420, 1.9443, 1.5221, 2.1062],
       device='cuda:1'), covar=tensor([0.2088, 0.2172, 0.1376, 0.0969, 0.1111, 0.2276, 0.2524, 0.2225],
       device='cuda:1'), in_proj_covar=tensor([0.0257, 0.0197, 0.0189, 0.0303, 0.0228, 0.0204, 0.0192, 0.0250],
       device='cuda:1'), out_proj_covar=tensor([0.0006, 0.0005, 0.0005, 0.0006, 0.0005, 0.0005, 0.0005, 0.0006],
       device='cuda:1')
2022-11-16 06:26:32,261 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.7629, 1.4950, 1.8369, 1.7645, 1.8545, 1.3056, 1.6971, 1.8389],
       device='cuda:1'), covar=tensor([0.0390, 0.0890, 0.0386, 0.0375, 0.0494, 0.0819, 0.0519, 0.0352],
       device='cuda:1'), in_proj_covar=tensor([0.0246, 0.0194, 0.0217, 0.0214, 0.0243, 0.0196, 0.0228, 0.0229],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004],
       device='cuda:1')
2022-11-16 06:26:36,786 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=88117.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 06:26:51,416 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 9.479e+01 1.431e+02 1.753e+02 2.206e+02 3.833e+02, threshold=3.505e+02, percent-clipped=1.0
2022-11-16 06:26:59,181 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=4.69 vs. limit=5.0
2022-11-16 06:27:05,807 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=88161.0, num_to_drop=1, layers_to_drop={0}
2022-11-16 06:27:05,853 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=88161.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 06:27:08,635 INFO [train.py:876] (1/4) Epoch 13, batch 900, loss[loss=0.1075, simple_loss=0.1413, pruned_loss=0.03686, over 5590.00 frames. ], tot_loss[loss=0.1087, simple_loss=0.1387, pruned_loss=0.03933, over 1069952.95 frames. ], batch size: 43, lr: 6.30e-03, grad_scale: 8.0
2022-11-16 06:27:08,674 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=88165.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 06:27:10,725 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.5018, 1.2682, 1.3178, 1.1899, 1.5176, 1.4814, 0.9226, 1.4248],
       device='cuda:1'), covar=tensor([0.0512, 0.0495, 0.0324, 0.0607, 0.0337, 0.0362, 0.0756, 0.0428],
       device='cuda:1'), in_proj_covar=tensor([0.0015, 0.0023, 0.0017, 0.0020, 0.0017, 0.0015, 0.0023, 0.0016],
       device='cuda:1'), out_proj_covar=tensor([8.3882e-05, 1.1595e-04, 8.8792e-05, 1.0300e-04, 9.0727e-05, 8.5130e-05,
        1.1282e-04, 8.5882e-05], device='cuda:1')
2022-11-16 06:27:38,494 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=88209.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 06:27:59,345 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 8.909e+01 1.508e+02 1.868e+02 2.272e+02 4.107e+02, threshold=3.735e+02, percent-clipped=5.0
2022-11-16 06:28:00,096 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=88240.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 06:28:03,441 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=88245.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 06:28:14,160 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=88261.0, num_to_drop=1, layers_to_drop={1}
2022-11-16 06:28:14,190 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.5188, 1.2753, 1.4018, 1.0042, 1.5573, 1.4697, 0.9044, 1.3456],
       device='cuda:1'), covar=tensor([0.0406, 0.0699, 0.0303, 0.1051, 0.1449, 0.1050, 0.0879, 0.0461],
       device='cuda:1'), in_proj_covar=tensor([0.0015, 0.0024, 0.0017, 0.0021, 0.0017, 0.0016, 0.0023, 0.0016],
       device='cuda:1'), out_proj_covar=tensor([8.5538e-05, 1.1838e-04, 9.0577e-05, 1.0514e-04, 9.2941e-05, 8.6658e-05,
        1.1481e-04, 8.7458e-05], device='cuda:1')
2022-11-16 06:28:16,637 INFO [train.py:876] (1/4) Epoch 13, batch 1000, loss[loss=0.1059, simple_loss=0.1305, pruned_loss=0.04064, over 4972.00 frames. ], tot_loss[loss=0.1071, simple_loss=0.1372, pruned_loss=0.03848, over 1073120.12 frames. ], batch size: 109, lr: 6.29e-03, grad_scale: 8.0
2022-11-16 06:28:32,435 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=88288.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 06:28:34,843 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=88291.0, num_to_drop=1, layers_to_drop={1}
2022-11-16 06:28:36,008 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=88293.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 06:28:41,956 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.9559, 3.0439, 2.7327, 3.2313, 2.4885, 2.8729, 2.8971, 3.5212],
       device='cuda:1'), covar=tensor([0.1190, 0.1085, 0.1733, 0.0905, 0.1510, 0.1167, 0.1253, 0.1741],
       device='cuda:1'), in_proj_covar=tensor([0.0115, 0.0109, 0.0106, 0.0107, 0.0095, 0.0104, 0.0100, 0.0084],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0003],
       device='cuda:1')
2022-11-16 06:28:46,443 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=88309.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 06:29:06,586 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 6.385e+01 1.405e+02 1.701e+02 2.123e+02 3.653e+02, threshold=3.402e+02, percent-clipped=0.0
2022-11-16 06:29:15,997 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=88352.0, num_to_drop=1, layers_to_drop={0}
2022-11-16 06:29:21,063 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([0.8783, 1.2050, 0.8510, 0.9957, 1.0481, 1.1030, 0.6312, 1.2211],
       device='cuda:1'), covar=tensor([0.0084, 0.0054, 0.0070, 0.0063, 0.0072, 0.0057, 0.0103, 0.0052],
       device='cuda:1'), in_proj_covar=tensor([0.0063, 0.0058, 0.0057, 0.0062, 0.0061, 0.0055, 0.0054, 0.0052],
       device='cuda:1'), out_proj_covar=tensor([5.5979e-05, 5.1591e-05, 5.0297e-05, 5.4893e-05, 5.3956e-05, 4.8033e-05,
        4.8222e-05, 4.5921e-05], device='cuda:1')
2022-11-16 06:29:24,127 INFO [train.py:876] (1/4) Epoch 13, batch 1100, loss[loss=0.07483, simple_loss=0.1065, pruned_loss=0.02159, over 5299.00 frames. ], tot_loss[loss=0.1045, simple_loss=0.1356, pruned_loss=0.03676, over 1076797.83 frames. ], batch size: 9, lr: 6.29e-03, grad_scale: 8.0
2022-11-16 06:29:52,998 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.8939, 4.2423, 3.9316, 3.6700, 2.0806, 4.2697, 2.3427, 3.4651],
       device='cuda:1'), covar=tensor([0.0442, 0.0118, 0.0244, 0.0318, 0.0699, 0.0152, 0.0603, 0.0229],
       device='cuda:1'), in_proj_covar=tensor([0.0194, 0.0180, 0.0184, 0.0206, 0.0193, 0.0183, 0.0190, 0.0185],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
       device='cuda:1')
2022-11-16 06:29:59,445 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([4.2219, 2.5904, 2.9938, 3.9329, 3.9949, 3.1831, 2.7280, 3.9710],
       device='cuda:1'), covar=tensor([0.0690, 0.2652, 0.2326, 0.3053, 0.1315, 0.2848, 0.2022, 0.0747],
       device='cuda:1'), in_proj_covar=tensor([0.0257, 0.0197, 0.0189, 0.0301, 0.0225, 0.0202, 0.0190, 0.0248],
       device='cuda:1'), out_proj_covar=tensor([0.0006, 0.0005, 0.0005, 0.0006, 0.0005, 0.0005, 0.0005, 0.0006],
       device='cuda:1')
2022-11-16 06:30:13,855 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 7.379e+01 1.472e+02 1.907e+02 2.402e+02 6.330e+02, threshold=3.813e+02, percent-clipped=8.0
2022-11-16 06:30:22,553 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=3.60 vs. limit=5.0
2022-11-16 06:30:25,733 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=88456.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 06:30:31,424 INFO [train.py:876] (1/4) Epoch 13, batch 1200, loss[loss=0.1155, simple_loss=0.1463, pruned_loss=0.04237, over 5695.00 frames. ], tot_loss[loss=0.1026, simple_loss=0.1344, pruned_loss=0.03538, over 1083380.28 frames. ], batch size: 19, lr: 6.28e-03, grad_scale: 8.0
2022-11-16 06:30:32,885 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.1496, 1.7928, 1.9532, 1.7320, 2.0715, 2.0259, 1.8718, 1.5681],
       device='cuda:1'), covar=tensor([0.0036, 0.0068, 0.0062, 0.0064, 0.0073, 0.0103, 0.0040, 0.0045],
       device='cuda:1'), in_proj_covar=tensor([0.0030, 0.0028, 0.0028, 0.0036, 0.0031, 0.0028, 0.0036, 0.0034],
       device='cuda:1'), out_proj_covar=tensor([2.7636e-05, 2.6157e-05, 2.4844e-05, 3.4254e-05, 2.8881e-05, 2.7034e-05,
        3.4589e-05, 3.2223e-05], device='cuda:1')
2022-11-16 06:31:21,163 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 8.717e+01 1.518e+02 1.854e+02 2.184e+02 7.084e+02, threshold=3.708e+02, percent-clipped=2.0
2022-11-16 06:31:38,930 INFO [train.py:876] (1/4) Epoch 13, batch 1300, loss[loss=0.08586, simple_loss=0.1257, pruned_loss=0.02299, over 5606.00 frames. ], tot_loss[loss=0.1052, simple_loss=0.1362, pruned_loss=0.03709, over 1081195.09 frames. ], batch size: 24, lr: 6.28e-03, grad_scale: 8.0
2022-11-16 06:32:22,524 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=1.84 vs. limit=2.0
2022-11-16 06:32:28,428 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 9.235e+01 1.439e+02 1.728e+02 2.189e+02 4.268e+02, threshold=3.455e+02, percent-clipped=2.0
2022-11-16 06:32:33,693 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=88647.0, num_to_drop=1, layers_to_drop={3}
2022-11-16 06:32:45,384 INFO [train.py:876] (1/4) Epoch 13, batch 1400, loss[loss=0.08852, simple_loss=0.1175, pruned_loss=0.02978, over 5657.00 frames. ], tot_loss[loss=0.1042, simple_loss=0.1351, pruned_loss=0.03659, over 1084955.89 frames. ], batch size: 29, lr: 6.28e-03, grad_scale: 8.0
2022-11-16 06:33:34,910 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.011e+02 1.374e+02 1.560e+02 2.014e+02 3.886e+02, threshold=3.121e+02, percent-clipped=4.0
2022-11-16 06:33:37,397 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=4.68 vs. limit=5.0
2022-11-16 06:33:44,224 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.8901, 2.3258, 3.4075, 2.9529, 3.6553, 2.3809, 3.0950, 3.9235],
       device='cuda:1'), covar=tensor([0.0698, 0.1594, 0.0944, 0.1669, 0.0609, 0.1640, 0.1397, 0.0612],
       device='cuda:1'), in_proj_covar=tensor([0.0243, 0.0192, 0.0217, 0.0210, 0.0241, 0.0197, 0.0225, 0.0227],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004],
       device='cuda:1')
2022-11-16 06:33:46,719 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=88756.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 06:33:52,513 INFO [train.py:876] (1/4) Epoch 13, batch 1500, loss[loss=0.1139, simple_loss=0.1458, pruned_loss=0.041, over 5627.00 frames. ], tot_loss[loss=0.1043, simple_loss=0.1352, pruned_loss=0.03672, over 1089140.60 frames. ], batch size: 29, lr: 6.27e-03, grad_scale: 8.0
2022-11-16 06:34:03,536 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.1503, 2.7789, 3.0980, 1.7289, 2.9914, 3.3513, 3.2040, 3.6972],
       device='cuda:1'), covar=tensor([0.2037, 0.1715, 0.1385, 0.3045, 0.0668, 0.1216, 0.0635, 0.0775],
       device='cuda:1'), in_proj_covar=tensor([0.0167, 0.0184, 0.0170, 0.0184, 0.0183, 0.0204, 0.0170, 0.0184],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004],
       device='cuda:1')
2022-11-16 06:34:19,409 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=88804.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 06:34:29,875 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.8434, 1.4929, 1.8426, 1.8035, 1.8124, 1.3388, 1.7033, 1.8514],
       device='cuda:1'), covar=tensor([0.0426, 0.0903, 0.0479, 0.0434, 0.0592, 0.1040, 0.0530, 0.0422],
       device='cuda:1'), in_proj_covar=tensor([0.0243, 0.0191, 0.0215, 0.0208, 0.0241, 0.0196, 0.0224, 0.0228],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004],
       device='cuda:1')
2022-11-16 06:34:33,982 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.4796, 4.3414, 2.8211, 4.1875, 3.3589, 2.9580, 2.3965, 3.7591],
       device='cuda:1'), covar=tensor([0.1429, 0.0229, 0.1180, 0.0357, 0.0729, 0.0988, 0.1907, 0.0336],
       device='cuda:1'), in_proj_covar=tensor([0.0154, 0.0143, 0.0157, 0.0147, 0.0173, 0.0168, 0.0158, 0.0158],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0003, 0.0004, 0.0003, 0.0004, 0.0004, 0.0004, 0.0004],
       device='cuda:1')
2022-11-16 06:34:37,303 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.7847, 2.2531, 2.2866, 1.3316, 2.4021, 2.7551, 2.4860, 2.6384],
       device='cuda:1'), covar=tensor([0.1972, 0.1877, 0.1392, 0.3155, 0.0915, 0.0900, 0.0696, 0.1118],
       device='cuda:1'), in_proj_covar=tensor([0.0166, 0.0183, 0.0168, 0.0183, 0.0182, 0.0202, 0.0169, 0.0183],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004],
       device='cuda:1')
2022-11-16 06:34:42,718 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.033e+02 1.503e+02 1.931e+02 2.477e+02 5.840e+02, threshold=3.862e+02, percent-clipped=6.0
2022-11-16 06:34:49,920 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.0444, 4.7422, 3.5417, 2.1488, 4.4310, 2.2732, 4.5614, 3.1110],
       device='cuda:1'), covar=tensor([0.1342, 0.0177, 0.0677, 0.2364, 0.0257, 0.1739, 0.0205, 0.1479],
       device='cuda:1'), in_proj_covar=tensor([0.0122, 0.0105, 0.0117, 0.0113, 0.0104, 0.0120, 0.0102, 0.0111],
       device='cuda:1'), out_proj_covar=tensor([0.0005, 0.0004, 0.0005, 0.0005, 0.0004, 0.0005, 0.0004, 0.0004],
       device='cuda:1')
2022-11-16 06:34:51,971 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.8868, 1.9378, 2.5555, 2.3951, 2.3975, 1.8572, 2.4025, 2.8472],
       device='cuda:1'), covar=tensor([0.0858, 0.1565, 0.0941, 0.1337, 0.1012, 0.1631, 0.1114, 0.0833],
       device='cuda:1'), in_proj_covar=tensor([0.0243, 0.0191, 0.0215, 0.0209, 0.0241, 0.0197, 0.0225, 0.0229],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004],
       device='cuda:1')
2022-11-16 06:35:00,132 INFO [train.py:876] (1/4) Epoch 13, batch 1600, loss[loss=0.06836, simple_loss=0.1081, pruned_loss=0.01431, over 4976.00 frames. ], tot_loss[loss=0.1062, simple_loss=0.1361, pruned_loss=0.03811, over 1078520.17 frames. ], batch size: 7, lr: 6.27e-03, grad_scale: 8.0
2022-11-16 06:35:49,234 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.059e+02 1.383e+02 1.790e+02 2.013e+02 5.184e+02, threshold=3.580e+02, percent-clipped=2.0
2022-11-16 06:35:55,087 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=88947.0, num_to_drop=1, layers_to_drop={0}
2022-11-16 06:36:07,119 INFO [train.py:876] (1/4) Epoch 13, batch 1700, loss[loss=0.1006, simple_loss=0.1331, pruned_loss=0.03411, over 5651.00 frames. ], tot_loss[loss=0.1068, simple_loss=0.1364, pruned_loss=0.03866, over 1079218.73 frames. ], batch size: 32, lr: 6.27e-03, grad_scale: 8.0
2022-11-16 06:36:26,872 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=88995.0, num_to_drop=1, layers_to_drop={0}
2022-11-16 06:36:27,888 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=4.47 vs. limit=5.0
2022-11-16 06:36:49,154 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=89027.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 06:36:56,973 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 8.337e+01 1.392e+02 1.730e+02 2.257e+02 5.092e+02, threshold=3.461e+02, percent-clipped=3.0
2022-11-16 06:37:06,589 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([5.6695, 5.4392, 5.6571, 5.2476, 5.0965, 4.9857, 6.1074, 5.5492],
       device='cuda:1'), covar=tensor([0.0557, 0.1211, 0.0361, 0.1484, 0.0515, 0.0391, 0.0716, 0.1077],
       device='cuda:1'), in_proj_covar=tensor([0.0088, 0.0109, 0.0096, 0.0123, 0.0090, 0.0081, 0.0147, 0.0104],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0003, 0.0002],
       device='cuda:1')
2022-11-16 06:37:15,262 INFO [train.py:876] (1/4) Epoch 13, batch 1800, loss[loss=0.1447, simple_loss=0.1614, pruned_loss=0.06399, over 5364.00 frames. ], tot_loss[loss=0.1077, simple_loss=0.1372, pruned_loss=0.03907, over 1078297.46 frames. ], batch size: 70, lr: 6.26e-03, grad_scale: 8.0
2022-11-16 06:37:30,535 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=89088.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 06:37:33,448 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.0312, 2.9400, 2.4862, 3.1590, 2.4284, 3.0691, 2.8486, 3.6051],
       device='cuda:1'), covar=tensor([0.0920, 0.1159, 0.1962, 0.1111, 0.1384, 0.0850, 0.1169, 0.0823],
       device='cuda:1'), in_proj_covar=tensor([0.0114, 0.0108, 0.0106, 0.0107, 0.0094, 0.0104, 0.0099, 0.0084],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0003],
       device='cuda:1')
2022-11-16 06:37:33,732 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=1.91 vs. limit=2.0
2022-11-16 06:37:43,928 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.63 vs. limit=2.0
2022-11-16 06:37:46,160 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.3256, 2.7683, 2.9604, 2.6656, 1.7619, 2.8920, 2.0218, 2.4131],
       device='cuda:1'), covar=tensor([0.0315, 0.0234, 0.0150, 0.0303, 0.0531, 0.0187, 0.0489, 0.0198],
       device='cuda:1'), in_proj_covar=tensor([0.0195, 0.0181, 0.0185, 0.0208, 0.0196, 0.0183, 0.0193, 0.0187],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
       device='cuda:1')
2022-11-16 06:38:04,921 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 9.586e+01 1.379e+02 1.721e+02 2.183e+02 4.295e+02, threshold=3.442e+02, percent-clipped=5.0
2022-11-16 06:38:23,035 INFO [train.py:876] (1/4) Epoch 13, batch 1900, loss[loss=0.1382, simple_loss=0.1638, pruned_loss=0.05635, over 5705.00 frames. ], tot_loss[loss=0.1052, simple_loss=0.1356, pruned_loss=0.03736, over 1084055.40 frames. ], batch size: 28, lr: 6.26e-03, grad_scale: 8.0
2022-11-16 06:38:25,956 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=89169.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 06:38:27,957 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.5567, 3.5092, 3.5449, 3.1822, 1.9491, 3.5296, 2.1670, 3.1575],
       device='cuda:1'), covar=tensor([0.0442, 0.0267, 0.0206, 0.0476, 0.0668, 0.0241, 0.0648, 0.0218],
       device='cuda:1'), in_proj_covar=tensor([0.0195, 0.0181, 0.0186, 0.0207, 0.0197, 0.0183, 0.0193, 0.0187],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
       device='cuda:1')
2022-11-16 06:38:40,759 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.1665, 3.7324, 2.8401, 1.7345, 3.5236, 1.3639, 3.5760, 1.8627],
       device='cuda:1'), covar=tensor([0.1602, 0.0181, 0.0963, 0.2094, 0.0244, 0.2189, 0.0244, 0.1778],
       device='cuda:1'), in_proj_covar=tensor([0.0122, 0.0105, 0.0117, 0.0113, 0.0105, 0.0120, 0.0102, 0.0111],
       device='cuda:1'), out_proj_covar=tensor([0.0005, 0.0004, 0.0005, 0.0005, 0.0004, 0.0005, 0.0004, 0.0004],
       device='cuda:1')
2022-11-16 06:38:49,245 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.9264, 3.7058, 3.8372, 3.9163, 3.5151, 3.3630, 4.3027, 3.7600],
       device='cuda:1'), covar=tensor([0.0398, 0.0742, 0.0526, 0.1151, 0.0648, 0.0484, 0.0660, 0.0731],
       device='cuda:1'), in_proj_covar=tensor([0.0086, 0.0107, 0.0094, 0.0121, 0.0088, 0.0080, 0.0144, 0.0102],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0003, 0.0002],
       device='cuda:1')
2022-11-16 06:39:06,966 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=89230.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 06:39:08,873 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.6548, 1.6422, 1.6544, 1.3326, 1.7349, 1.5731, 1.4747, 1.2992],
       device='cuda:1'), covar=tensor([0.0050, 0.0058, 0.0079, 0.0079, 0.0082, 0.0139, 0.0060, 0.0067],
       device='cuda:1'), in_proj_covar=tensor([0.0030, 0.0027, 0.0028, 0.0036, 0.0031, 0.0028, 0.0035, 0.0034],
       device='cuda:1'), out_proj_covar=tensor([2.7646e-05, 2.5555e-05, 2.5234e-05, 3.4450e-05, 2.8961e-05, 2.7281e-05,
        3.3880e-05, 3.2279e-05], device='cuda:1')
2022-11-16 06:39:12,531 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 7.915e+01 1.392e+02 1.772e+02 2.206e+02 3.328e+02, threshold=3.543e+02, percent-clipped=0.0
2022-11-16 06:39:29,334 INFO [train.py:876] (1/4) Epoch 13, batch 2000, loss[loss=0.1324, simple_loss=0.1444, pruned_loss=0.06024, over 4121.00 frames. ], tot_loss[loss=0.1042, simple_loss=0.135, pruned_loss=0.03673, over 1086264.10 frames. ], batch size: 181, lr: 6.26e-03, grad_scale: 8.0
2022-11-16 06:39:37,808 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([0.9469, 1.2477, 1.1050, 1.0904, 1.0613, 1.5411, 1.3495, 1.2717],
       device='cuda:1'), covar=tensor([0.3764, 0.1254, 0.3474, 0.3668, 0.2649, 0.0772, 0.2032, 0.2789],
       device='cuda:1'), in_proj_covar=tensor([0.0112, 0.0103, 0.0102, 0.0106, 0.0079, 0.0072, 0.0084, 0.0095],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
       device='cuda:1')
2022-11-16 06:39:57,170 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.13 vs. limit=2.0
2022-11-16 06:40:20,291 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 7.714e+01 1.486e+02 1.827e+02 2.274e+02 3.584e+02, threshold=3.655e+02, percent-clipped=1.0
2022-11-16 06:40:37,211 INFO [train.py:876] (1/4) Epoch 13, batch 2100, loss[loss=0.1197, simple_loss=0.1466, pruned_loss=0.04638, over 5555.00 frames. ], tot_loss[loss=0.105, simple_loss=0.1354, pruned_loss=0.03733, over 1080256.73 frames. ], batch size: 40, lr: 6.25e-03, grad_scale: 8.0
2022-11-16 06:40:43,530 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=89374.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 06:40:49,282 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=89383.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 06:40:52,201 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.78 vs. limit=2.0
2022-11-16 06:41:17,726 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=89425.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 06:41:24,431 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=89435.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 06:41:26,874 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 8.665e+01 1.565e+02 1.857e+02 2.395e+02 6.396e+02, threshold=3.713e+02, percent-clipped=5.0
2022-11-16 06:41:27,078 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=89439.0, num_to_drop=1, layers_to_drop={1}
2022-11-16 06:41:29,494 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([4.0659, 3.9295, 3.9334, 4.0670, 3.5965, 3.5061, 4.4752, 4.0026],
       device='cuda:1'), covar=tensor([0.0384, 0.0833, 0.0461, 0.1230, 0.0660, 0.0411, 0.0681, 0.0672],
       device='cuda:1'), in_proj_covar=tensor([0.0087, 0.0107, 0.0095, 0.0122, 0.0089, 0.0080, 0.0146, 0.0102],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0003, 0.0002],
       device='cuda:1')
2022-11-16 06:41:44,654 INFO [train.py:876] (1/4) Epoch 13, batch 2200, loss[loss=0.1024, simple_loss=0.129, pruned_loss=0.03796, over 4736.00 frames. ], tot_loss[loss=0.1059, simple_loss=0.1363, pruned_loss=0.03772, over 1088233.85 frames. ], batch size: 135, lr: 6.25e-03, grad_scale: 8.0
2022-11-16 06:41:58,287 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=89486.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 06:42:07,604 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=89500.0, num_to_drop=1, layers_to_drop={1}
2022-11-16 06:42:14,374 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=89509.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 06:42:24,623 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=89525.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 06:42:33,578 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 8.106e+01 1.371e+02 1.691e+02 2.068e+02 3.234e+02, threshold=3.383e+02, percent-clipped=0.0
2022-11-16 06:42:40,600 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.7340, 4.6199, 3.6583, 2.0653, 4.2834, 2.0081, 4.5420, 2.4689],
       device='cuda:1'), covar=tensor([0.1773, 0.0381, 0.0690, 0.2651, 0.0363, 0.2297, 0.0263, 0.2433],
       device='cuda:1'), in_proj_covar=tensor([0.0121, 0.0104, 0.0116, 0.0111, 0.0104, 0.0119, 0.0102, 0.0109],
       device='cuda:1'), out_proj_covar=tensor([0.0005, 0.0004, 0.0005, 0.0004, 0.0004, 0.0005, 0.0004, 0.0004],
       device='cuda:1')
2022-11-16 06:42:44,818 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.4314, 2.2336, 2.7837, 1.8450, 1.4508, 3.2539, 2.6802, 2.3321],
       device='cuda:1'), covar=tensor([0.1072, 0.1184, 0.0748, 0.2467, 0.2681, 0.2021, 0.1233, 0.1259],
       device='cuda:1'), in_proj_covar=tensor([0.0112, 0.0104, 0.0101, 0.0105, 0.0079, 0.0071, 0.0083, 0.0096],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
       device='cuda:1')
2022-11-16 06:42:51,729 INFO [train.py:876] (1/4) Epoch 13, batch 2300, loss[loss=0.1216, simple_loss=0.1514, pruned_loss=0.04594, over 5644.00 frames. ], tot_loss[loss=0.1057, simple_loss=0.1362, pruned_loss=0.03758, over 1086715.37 frames. ], batch size: 29, lr: 6.25e-03, grad_scale: 8.0
2022-11-16 06:42:55,288 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=89570.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 06:43:10,185 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.4569, 2.9828, 2.9790, 2.9182, 1.8640, 2.9640, 2.0810, 2.6119],
       device='cuda:1'), covar=tensor([0.0309, 0.0156, 0.0187, 0.0245, 0.0494, 0.0176, 0.0452, 0.0172],
       device='cuda:1'), in_proj_covar=tensor([0.0192, 0.0180, 0.0183, 0.0204, 0.0195, 0.0181, 0.0191, 0.0186],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
       device='cuda:1')
2022-11-16 06:43:23,848 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.2414, 2.0630, 2.2831, 3.2599, 3.1531, 2.4712, 2.1778, 3.4233],
       device='cuda:1'), covar=tensor([0.1441, 0.2940, 0.2972, 0.2283, 0.1738, 0.3158, 0.2342, 0.0946],
       device='cuda:1'), in_proj_covar=tensor([0.0258, 0.0198, 0.0188, 0.0298, 0.0227, 0.0203, 0.0189, 0.0250],
       device='cuda:1'), out_proj_covar=tensor([0.0006, 0.0005, 0.0005, 0.0006, 0.0005, 0.0005, 0.0005, 0.0006],
       device='cuda:1')
2022-11-16 06:43:31,781 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([4.9431, 4.8051, 5.0666, 5.0309, 4.5607, 4.3088, 5.4618, 4.9609],
       device='cuda:1'), covar=tensor([0.0344, 0.0631, 0.0334, 0.1124, 0.0444, 0.0344, 0.0512, 0.0501],
       device='cuda:1'), in_proj_covar=tensor([0.0088, 0.0109, 0.0097, 0.0124, 0.0090, 0.0081, 0.0148, 0.0105],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0003, 0.0002],
       device='cuda:1')
2022-11-16 06:43:32,497 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.3893, 2.1934, 2.4202, 3.3516, 3.2791, 2.5191, 2.2047, 3.3329],
       device='cuda:1'), covar=tensor([0.1065, 0.2814, 0.2184, 0.1988, 0.1548, 0.2850, 0.2357, 0.1418],
       device='cuda:1'), in_proj_covar=tensor([0.0257, 0.0197, 0.0188, 0.0297, 0.0226, 0.0202, 0.0188, 0.0249],
       device='cuda:1'), out_proj_covar=tensor([0.0006, 0.0005, 0.0005, 0.0006, 0.0005, 0.0005, 0.0005, 0.0006],
       device='cuda:1')
2022-11-16 06:43:41,342 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 8.175e+01 1.502e+02 1.727e+02 2.123e+02 1.355e+03, threshold=3.453e+02, percent-clipped=6.0
2022-11-16 06:43:54,185 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.8526, 1.7213, 1.8673, 1.5778, 1.5156, 1.5973, 1.6936, 1.4259],
       device='cuda:1'), covar=tensor([0.0058, 0.0044, 0.0047, 0.0046, 0.0072, 0.0095, 0.0050, 0.0054],
       device='cuda:1'), in_proj_covar=tensor([0.0030, 0.0027, 0.0028, 0.0036, 0.0032, 0.0029, 0.0035, 0.0034],
       device='cuda:1'), out_proj_covar=tensor([2.7893e-05, 2.5525e-05, 2.5294e-05, 3.4265e-05, 2.9325e-05, 2.7515e-05,
        3.3786e-05, 3.2595e-05], device='cuda:1')
2022-11-16 06:44:00,257 INFO [train.py:876] (1/4) Epoch 13, batch 2400, loss[loss=0.07821, simple_loss=0.1164, pruned_loss=0.02, over 5217.00 frames. ], tot_loss[loss=0.1065, simple_loss=0.137, pruned_loss=0.03804, over 1084815.52 frames. ], batch size: 7, lr: 6.24e-03, grad_scale: 8.0
2022-11-16 06:44:06,869 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=1.83 vs. limit=2.0
2022-11-16 06:44:07,261 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.1796, 0.9722, 1.0138, 0.9728, 1.2013, 1.0660, 0.6729, 0.9088],
       device='cuda:1'), covar=tensor([0.0297, 0.0414, 0.0356, 0.0630, 0.0458, 0.0407, 0.0938, 0.0387],
       device='cuda:1'), in_proj_covar=tensor([0.0016, 0.0026, 0.0018, 0.0022, 0.0018, 0.0017, 0.0024, 0.0017],
       device='cuda:1'), out_proj_covar=tensor([9.1906e-05, 1.2821e-04, 9.7560e-05, 1.1214e-04, 9.9842e-05, 9.4107e-05,
        1.2175e-04, 9.3069e-05], device='cuda:1')
2022-11-16 06:44:07,616 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=1.69 vs. limit=2.0
2022-11-16 06:44:12,333 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=89680.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 06:44:14,484 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=89683.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 06:44:42,802 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.6486, 2.2745, 1.9743, 1.6922, 1.1630, 1.9745, 1.4488, 1.9047],
       device='cuda:1'), covar=tensor([0.1137, 0.0520, 0.1003, 0.1055, 0.2513, 0.0989, 0.1832, 0.0829],
       device='cuda:1'), in_proj_covar=tensor([0.0153, 0.0141, 0.0155, 0.0147, 0.0170, 0.0167, 0.0156, 0.0157],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0003, 0.0004, 0.0003, 0.0004, 0.0004, 0.0004, 0.0004],
       device='cuda:1')
2022-11-16 06:44:47,034 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=89730.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 06:44:47,657 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=89731.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 06:44:52,830 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.083e+02 1.552e+02 1.853e+02 2.424e+02 4.958e+02, threshold=3.705e+02, percent-clipped=7.0
2022-11-16 06:44:54,412 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=89741.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 06:45:09,831 INFO [train.py:876] (1/4) Epoch 13, batch 2500, loss[loss=0.07421, simple_loss=0.1101, pruned_loss=0.01918, over 5197.00 frames. ], tot_loss[loss=0.1052, simple_loss=0.1357, pruned_loss=0.03739, over 1086814.90 frames. ], batch size: 8, lr: 6.24e-03, grad_scale: 8.0
2022-11-16 06:45:21,169 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=89781.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 06:45:30,640 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=89795.0, num_to_drop=1, layers_to_drop={1}
2022-11-16 06:45:50,793 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=89825.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 06:46:00,865 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 9.702e+01 1.449e+02 1.693e+02 2.128e+02 5.529e+02, threshold=3.385e+02, percent-clipped=3.0
2022-11-16 06:46:03,648 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.7651, 1.8395, 2.1576, 1.7081, 1.5366, 2.6271, 2.0791, 1.7973],
       device='cuda:1'), covar=tensor([0.1469, 0.1685, 0.1427, 0.2802, 0.2962, 0.0722, 0.1192, 0.1856],
       device='cuda:1'), in_proj_covar=tensor([0.0110, 0.0101, 0.0100, 0.0104, 0.0077, 0.0070, 0.0082, 0.0094],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
       device='cuda:1')
2022-11-16 06:46:06,269 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.2619, 2.7170, 2.6873, 1.4534, 2.8885, 3.0331, 2.9800, 3.3808],
       device='cuda:1'), covar=tensor([0.2269, 0.1753, 0.1398, 0.3416, 0.0815, 0.1051, 0.0943, 0.1070],
       device='cuda:1'), in_proj_covar=tensor([0.0167, 0.0182, 0.0171, 0.0185, 0.0182, 0.0204, 0.0169, 0.0183],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004],
       device='cuda:1')
2022-11-16 06:46:17,694 INFO [train.py:876] (1/4) Epoch 13, batch 2600, loss[loss=0.09131, simple_loss=0.1244, pruned_loss=0.02912, over 5524.00 frames. ], tot_loss[loss=0.1057, simple_loss=0.1359, pruned_loss=0.03773, over 1084748.37 frames. ], batch size: 13, lr: 6.24e-03, grad_scale: 8.0
2022-11-16 06:46:17,777 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=89865.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 06:46:17,859 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=89865.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 06:46:23,247 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=89873.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 06:46:56,022 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.6711, 1.8908, 2.2001, 1.8450, 2.6028, 1.9700, 1.8984, 1.5868],
       device='cuda:1'), covar=tensor([0.0181, 0.0607, 0.0372, 0.0623, 0.0622, 0.0804, 0.0703, 0.0536],
       device='cuda:1'), in_proj_covar=tensor([0.0017, 0.0027, 0.0019, 0.0022, 0.0019, 0.0017, 0.0025, 0.0018],
       device='cuda:1'), out_proj_covar=tensor([9.3849e-05, 1.3192e-04, 9.9694e-05, 1.1474e-04, 1.0266e-04, 9.5925e-05,
        1.2518e-04, 9.5539e-05], device='cuda:1')
2022-11-16 06:46:56,739 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.3395, 3.0379, 3.1374, 2.7772, 1.8549, 3.0748, 2.0643, 2.7246],
       device='cuda:1'), covar=tensor([0.0403, 0.0187, 0.0200, 0.0305, 0.0546, 0.0210, 0.0540, 0.0184],
       device='cuda:1'), in_proj_covar=tensor([0.0195, 0.0182, 0.0186, 0.0208, 0.0197, 0.0183, 0.0193, 0.0188],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
       device='cuda:1')
2022-11-16 06:46:58,588 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.7143, 1.4377, 1.5555, 1.0743, 1.7348, 1.8555, 1.1126, 1.4892],
       device='cuda:1'), covar=tensor([0.0651, 0.0636, 0.0795, 0.0737, 0.0810, 0.0811, 0.0808, 0.1143],
       device='cuda:1'), in_proj_covar=tensor([0.0017, 0.0027, 0.0019, 0.0022, 0.0019, 0.0017, 0.0025, 0.0018],
       device='cuda:1'), out_proj_covar=tensor([9.3812e-05, 1.3178e-04, 9.9649e-05, 1.1469e-04, 1.0260e-04, 9.5890e-05,
        1.2507e-04, 9.5446e-05], device='cuda:1')
2022-11-16 06:46:58,603 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=89926.0, num_to_drop=1, layers_to_drop={1}
2022-11-16 06:47:07,226 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 9.464e+01 1.385e+02 1.759e+02 2.199e+02 3.359e+02, threshold=3.518e+02, percent-clipped=0.0
2022-11-16 06:47:24,941 INFO [train.py:876] (1/4) Epoch 13, batch 2700, loss[loss=0.1136, simple_loss=0.1393, pruned_loss=0.04391, over 5740.00 frames. ], tot_loss[loss=0.1052, simple_loss=0.1355, pruned_loss=0.03743, over 1083603.99 frames. ], batch size: 20, lr: 6.23e-03, grad_scale: 16.0
2022-11-16 06:47:25,653 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.8471, 2.7284, 2.6705, 2.8044, 2.7784, 2.5308, 3.0412, 2.8442],
       device='cuda:1'), covar=tensor([0.0557, 0.0888, 0.0772, 0.1299, 0.0685, 0.0635, 0.0969, 0.0855],
       device='cuda:1'), in_proj_covar=tensor([0.0089, 0.0110, 0.0098, 0.0125, 0.0091, 0.0082, 0.0151, 0.0105],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0003, 0.0002],
       device='cuda:1')
2022-11-16 06:47:30,233 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.5079, 1.1047, 1.3154, 0.9744, 1.5485, 1.5653, 0.8192, 1.2608],
       device='cuda:1'), covar=tensor([0.0363, 0.0567, 0.0445, 0.0757, 0.0495, 0.0388, 0.0956, 0.0535],
       device='cuda:1'), in_proj_covar=tensor([0.0016, 0.0026, 0.0018, 0.0022, 0.0019, 0.0017, 0.0025, 0.0017],
       device='cuda:1'), out_proj_covar=tensor([9.2643e-05, 1.2992e-04, 9.8527e-05, 1.1326e-04, 1.0120e-04, 9.4446e-05,
        1.2342e-04, 9.3945e-05], device='cuda:1')
2022-11-16 06:47:32,851 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.9827, 2.5507, 3.4422, 3.1769, 3.7671, 2.5826, 3.3131, 3.9143],
       device='cuda:1'), covar=tensor([0.0579, 0.1485, 0.0972, 0.1306, 0.0623, 0.1561, 0.1147, 0.0684],
       device='cuda:1'), in_proj_covar=tensor([0.0238, 0.0191, 0.0212, 0.0208, 0.0237, 0.0196, 0.0224, 0.0228],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004],
       device='cuda:1')
2022-11-16 06:47:42,637 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.46 vs. limit=2.0
2022-11-16 06:47:55,114 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.20 vs. limit=2.0
2022-11-16 06:47:57,862 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([4.0413, 3.7311, 3.9039, 3.6755, 4.1194, 3.7863, 3.7803, 4.0851],
       device='cuda:1'), covar=tensor([0.0481, 0.0468, 0.0525, 0.0394, 0.0488, 0.0489, 0.0463, 0.0437],
       device='cuda:1'), in_proj_covar=tensor([0.0149, 0.0157, 0.0112, 0.0147, 0.0186, 0.0112, 0.0131, 0.0159],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003],
       device='cuda:1')
2022-11-16 06:48:12,092 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=90030.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 06:48:15,893 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=90036.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 06:48:17,698 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 8.688e+01 1.446e+02 1.718e+02 2.130e+02 5.119e+02, threshold=3.437e+02, percent-clipped=5.0
2022-11-16 06:48:35,916 INFO [train.py:876] (1/4) Epoch 13, batch 2800, loss[loss=0.1246, simple_loss=0.1353, pruned_loss=0.05695, over 4128.00 frames. ], tot_loss[loss=0.1054, simple_loss=0.1352, pruned_loss=0.03778, over 1079985.79 frames. ], batch size: 181, lr: 6.23e-03, grad_scale: 16.0
2022-11-16 06:48:44,255 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=90078.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 06:48:44,422 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.5473, 3.3929, 3.3979, 3.1503, 2.0283, 3.4986, 2.2330, 3.0728],
       device='cuda:1'), covar=tensor([0.0401, 0.0255, 0.0172, 0.0285, 0.0573, 0.0163, 0.0510, 0.0175],
       device='cuda:1'), in_proj_covar=tensor([0.0191, 0.0180, 0.0183, 0.0205, 0.0194, 0.0180, 0.0190, 0.0185],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
       device='cuda:1')
2022-11-16 06:48:46,320 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=90081.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 06:48:51,455 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([4.2601, 4.6321, 4.2780, 4.7214, 4.7031, 3.8808, 4.3340, 4.1595],
       device='cuda:1'), covar=tensor([0.0377, 0.0510, 0.1355, 0.0425, 0.0373, 0.0505, 0.0630, 0.0505],
       device='cuda:1'), in_proj_covar=tensor([0.0132, 0.0180, 0.0278, 0.0178, 0.0224, 0.0177, 0.0192, 0.0178],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0003, 0.0004, 0.0003, 0.0003, 0.0002, 0.0003, 0.0002],
       device='cuda:1')
2022-11-16 06:48:55,330 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=90095.0, num_to_drop=1, layers_to_drop={2}
2022-11-16 06:49:18,683 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=90129.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 06:49:19,461 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=90130.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 06:49:25,057 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 9.858e+01 1.324e+02 1.624e+02 2.114e+02 4.134e+02, threshold=3.247e+02, percent-clipped=3.0
2022-11-16 06:49:27,794 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=90143.0, num_to_drop=1, layers_to_drop={1}
2022-11-16 06:49:40,615 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.7959, 1.4111, 1.8257, 1.7278, 1.8955, 1.2464, 1.7317, 1.8829],
       device='cuda:1'), covar=tensor([0.0372, 0.0903, 0.0445, 0.0421, 0.0475, 0.0946, 0.0586, 0.0435],
       device='cuda:1'), in_proj_covar=tensor([0.0239, 0.0191, 0.0211, 0.0208, 0.0238, 0.0194, 0.0223, 0.0228],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004],
       device='cuda:1')
2022-11-16 06:49:43,061 INFO [train.py:876] (1/4) Epoch 13, batch 2900, loss[loss=0.101, simple_loss=0.1293, pruned_loss=0.03636, over 5776.00 frames. ], tot_loss[loss=0.1041, simple_loss=0.1343, pruned_loss=0.03699, over 1077106.75 frames. ], batch size: 21, lr: 6.23e-03, grad_scale: 16.0
2022-11-16 06:49:43,168 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=90165.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 06:50:00,545 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=90191.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 06:50:08,328 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([4.4945, 4.6060, 4.4823, 4.3158, 4.6088, 4.5366, 1.8343, 4.8090],
       device='cuda:1'), covar=tensor([0.0319, 0.0259, 0.0400, 0.0509, 0.0393, 0.0392, 0.3356, 0.0310],
       device='cuda:1'), in_proj_covar=tensor([0.0106, 0.0090, 0.0089, 0.0083, 0.0103, 0.0090, 0.0132, 0.0109],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
       device='cuda:1')
2022-11-16 06:50:12,357 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.3777, 2.2152, 2.0934, 2.2469, 2.0508, 1.7436, 2.1923, 2.5865],
       device='cuda:1'), covar=tensor([0.1366, 0.1693, 0.1904, 0.1206, 0.1505, 0.1953, 0.1470, 0.0839],
       device='cuda:1'), in_proj_covar=tensor([0.0114, 0.0109, 0.0106, 0.0107, 0.0094, 0.0104, 0.0099, 0.0083],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0004, 0.0004, 0.0004, 0.0003, 0.0004, 0.0004, 0.0003],
       device='cuda:1')
2022-11-16 06:50:16,487 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=90213.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 06:50:21,686 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=90221.0, num_to_drop=1, layers_to_drop={3}
2022-11-16 06:50:24,648 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.86 vs. limit=2.0
2022-11-16 06:50:28,255 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.8689, 3.2360, 2.2800, 3.0079, 2.3004, 2.3447, 1.8888, 2.6658],
       device='cuda:1'), covar=tensor([0.1594, 0.0372, 0.1263, 0.0552, 0.1381, 0.1245, 0.2080, 0.0667],
       device='cuda:1'), in_proj_covar=tensor([0.0155, 0.0143, 0.0156, 0.0149, 0.0171, 0.0169, 0.0159, 0.0159],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0003, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004],
       device='cuda:1')
2022-11-16 06:50:28,898 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=90232.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 06:50:33,305 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 7.557e+01 1.381e+02 1.773e+02 2.128e+02 3.504e+02, threshold=3.546e+02, percent-clipped=3.0
2022-11-16 06:50:51,297 INFO [train.py:876] (1/4) Epoch 13, batch 3000, loss[loss=0.08827, simple_loss=0.1337, pruned_loss=0.02141, over 5712.00 frames. ], tot_loss[loss=0.1048, simple_loss=0.135, pruned_loss=0.03734, over 1076033.23 frames. ], batch size: 27, lr: 6.22e-03, grad_scale: 16.0
2022-11-16 06:50:51,297 INFO [train.py:899] (1/4) Computing validation loss
2022-11-16 06:51:06,226 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.7467, 1.5128, 2.1305, 1.6560, 1.9121, 1.6916, 1.8397, 1.3521],
       device='cuda:1'), covar=tensor([0.0087, 0.0049, 0.0045, 0.0053, 0.0069, 0.0113, 0.0042, 0.0059],
       device='cuda:1'), in_proj_covar=tensor([0.0030, 0.0027, 0.0028, 0.0036, 0.0031, 0.0028, 0.0035, 0.0034],
       device='cuda:1'), out_proj_covar=tensor([2.7871e-05, 2.5456e-05, 2.5137e-05, 3.4283e-05, 2.9077e-05, 2.7169e-05,
        3.3249e-05, 3.2123e-05], device='cuda:1')
2022-11-16 06:51:08,997 INFO [train.py:908] (1/4) Epoch 13, validation: loss=0.1737, simple_loss=0.1855, pruned_loss=0.08091, over 1530663.00 frames. 
2022-11-16 06:51:08,998 INFO [train.py:909] (1/4) Maximum memory allocated so far is 4676MB
2022-11-16 06:51:27,376 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.4680, 3.6859, 3.5310, 3.4685, 3.5495, 3.4534, 1.2857, 3.7260],
       device='cuda:1'), covar=tensor([0.0295, 0.0268, 0.0350, 0.0347, 0.0283, 0.0375, 0.3355, 0.0303],
       device='cuda:1'), in_proj_covar=tensor([0.0107, 0.0091, 0.0090, 0.0084, 0.0104, 0.0091, 0.0133, 0.0111],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
       device='cuda:1')
2022-11-16 06:51:27,464 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=90293.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 06:51:56,872 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=90336.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 06:51:58,705 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 8.650e+01 1.477e+02 1.762e+02 2.223e+02 4.727e+02, threshold=3.524e+02, percent-clipped=4.0
2022-11-16 06:52:06,689 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=90351.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 06:52:16,335 INFO [train.py:876] (1/4) Epoch 13, batch 3100, loss[loss=0.1096, simple_loss=0.1438, pruned_loss=0.0377, over 5611.00 frames. ], tot_loss[loss=0.1065, simple_loss=0.1364, pruned_loss=0.03829, over 1079689.48 frames. ], batch size: 32, lr: 6.22e-03, grad_scale: 16.0
2022-11-16 06:52:29,315 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=90384.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 06:52:47,891 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=90412.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 06:53:06,644 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 8.938e+01 1.382e+02 1.732e+02 2.119e+02 3.320e+02, threshold=3.464e+02, percent-clipped=0.0
2022-11-16 06:53:19,975 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=90459.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 06:53:23,665 INFO [train.py:876] (1/4) Epoch 13, batch 3200, loss[loss=0.1154, simple_loss=0.1499, pruned_loss=0.0405, over 5640.00 frames. ], tot_loss[loss=0.1061, simple_loss=0.1365, pruned_loss=0.03779, over 1088949.98 frames. ], batch size: 32, lr: 6.22e-03, grad_scale: 16.0
2022-11-16 06:53:28,732 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.63 vs. limit=2.0
2022-11-16 06:53:38,086 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=90486.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 06:53:44,977 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=90496.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 06:53:58,062 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.40 vs. limit=2.0
2022-11-16 06:54:00,522 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=90520.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 06:54:01,093 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=90521.0, num_to_drop=1, layers_to_drop={1}
2022-11-16 06:54:13,667 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.039e+02 1.437e+02 1.897e+02 2.279e+02 5.045e+02, threshold=3.794e+02, percent-clipped=5.0
2022-11-16 06:54:25,888 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=90557.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 06:54:30,905 INFO [train.py:876] (1/4) Epoch 13, batch 3300, loss[loss=0.07835, simple_loss=0.1121, pruned_loss=0.02232, over 5463.00 frames. ], tot_loss[loss=0.1055, simple_loss=0.1359, pruned_loss=0.03753, over 1084058.71 frames. ], batch size: 10, lr: 6.21e-03, grad_scale: 16.0
2022-11-16 06:54:33,621 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=90569.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 06:54:46,729 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=90588.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 06:55:21,064 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 7.442e+01 1.383e+02 1.673e+02 2.134e+02 3.431e+02, threshold=3.345e+02, percent-clipped=0.0
2022-11-16 06:55:25,172 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.60 vs. limit=2.0
2022-11-16 06:55:38,732 INFO [train.py:876] (1/4) Epoch 13, batch 3400, loss[loss=0.0922, simple_loss=0.1315, pruned_loss=0.02646, over 5569.00 frames. ], tot_loss[loss=0.103, simple_loss=0.1339, pruned_loss=0.03607, over 1086308.22 frames. ], batch size: 15, lr: 6.21e-03, grad_scale: 16.0
2022-11-16 06:55:44,024 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.6998, 3.5598, 3.7070, 3.6941, 3.5829, 3.3009, 4.1151, 3.6574],
       device='cuda:1'), covar=tensor([0.0401, 0.0924, 0.0526, 0.1280, 0.0558, 0.0526, 0.0748, 0.0643],
       device='cuda:1'), in_proj_covar=tensor([0.0087, 0.0108, 0.0096, 0.0123, 0.0089, 0.0081, 0.0147, 0.0103],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0003, 0.0002],
       device='cuda:1')
2022-11-16 06:56:07,891 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=90707.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 06:56:13,907 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.6485, 1.2437, 1.3580, 1.0763, 1.5278, 1.4633, 0.9685, 1.2923],
       device='cuda:1'), covar=tensor([0.0858, 0.0540, 0.0422, 0.0904, 0.0830, 0.0815, 0.1084, 0.0591],
       device='cuda:1'), in_proj_covar=tensor([0.0016, 0.0025, 0.0018, 0.0021, 0.0018, 0.0016, 0.0023, 0.0017],
       device='cuda:1'), out_proj_covar=tensor([8.8643e-05, 1.2464e-04, 9.4738e-05, 1.0799e-04, 9.6486e-05, 9.0658e-05,
        1.1743e-04, 9.0328e-05], device='cuda:1')
2022-11-16 06:56:29,388 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 9.201e+01 1.464e+02 1.802e+02 2.100e+02 5.077e+02, threshold=3.604e+02, percent-clipped=5.0
2022-11-16 06:56:36,604 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.8589, 2.7265, 2.4925, 3.0282, 2.3440, 2.7840, 2.8406, 3.2191],
       device='cuda:1'), covar=tensor([0.1285, 0.1723, 0.2137, 0.1202, 0.1603, 0.0857, 0.1391, 0.2281],
       device='cuda:1'), in_proj_covar=tensor([0.0114, 0.0108, 0.0105, 0.0106, 0.0093, 0.0103, 0.0098, 0.0082],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0004, 0.0004, 0.0004, 0.0003, 0.0004, 0.0004, 0.0003],
       device='cuda:1')
2022-11-16 06:56:47,179 INFO [train.py:876] (1/4) Epoch 13, batch 3500, loss[loss=0.07078, simple_loss=0.1067, pruned_loss=0.01743, over 5097.00 frames. ], tot_loss[loss=0.1027, simple_loss=0.1332, pruned_loss=0.03611, over 1080242.61 frames. ], batch size: 7, lr: 6.21e-03, grad_scale: 16.0
2022-11-16 06:57:00,811 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=90786.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 06:57:19,874 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.8691, 3.9557, 3.7199, 3.4706, 2.1704, 4.1423, 2.4254, 3.4931],
       device='cuda:1'), covar=tensor([0.0398, 0.0149, 0.0290, 0.0444, 0.0665, 0.0167, 0.0564, 0.0198],
       device='cuda:1'), in_proj_covar=tensor([0.0193, 0.0182, 0.0184, 0.0207, 0.0194, 0.0182, 0.0191, 0.0187],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
       device='cuda:1')
2022-11-16 06:57:21,071 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=90815.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 06:57:26,432 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([0.8303, 1.2197, 0.8521, 0.8896, 1.0650, 1.0887, 0.5943, 1.2313],
       device='cuda:1'), covar=tensor([0.0098, 0.0055, 0.0086, 0.0058, 0.0068, 0.0072, 0.0113, 0.0057],
       device='cuda:1'), in_proj_covar=tensor([0.0064, 0.0059, 0.0060, 0.0064, 0.0062, 0.0058, 0.0057, 0.0054],
       device='cuda:1'), out_proj_covar=tensor([5.7469e-05, 5.2539e-05, 5.2151e-05, 5.6670e-05, 5.4566e-05, 5.0303e-05,
        5.0576e-05, 4.7397e-05], device='cuda:1')
2022-11-16 06:57:33,471 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=90834.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 06:57:36,721 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 7.181e+01 1.483e+02 1.758e+02 2.114e+02 3.884e+02, threshold=3.515e+02, percent-clipped=1.0
2022-11-16 06:57:43,827 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=90849.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 06:57:46,107 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=90852.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 06:57:54,237 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.4571, 2.1600, 2.8481, 1.9362, 1.3552, 3.2015, 2.5904, 2.3685],
       device='cuda:1'), covar=tensor([0.0935, 0.1673, 0.0686, 0.2410, 0.3378, 0.0576, 0.0889, 0.1351],
       device='cuda:1'), in_proj_covar=tensor([0.0112, 0.0104, 0.0101, 0.0105, 0.0078, 0.0072, 0.0082, 0.0095],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
       device='cuda:1')
2022-11-16 06:57:54,735 INFO [train.py:876] (1/4) Epoch 13, batch 3600, loss[loss=0.1234, simple_loss=0.1473, pruned_loss=0.04974, over 5551.00 frames. ], tot_loss[loss=0.103, simple_loss=0.1334, pruned_loss=0.0363, over 1080833.76 frames. ], batch size: 21, lr: 6.20e-03, grad_scale: 16.0
2022-11-16 06:58:01,361 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.6146, 3.6889, 3.7715, 3.5688, 3.7068, 3.5745, 1.3818, 3.8147],
       device='cuda:1'), covar=tensor([0.0265, 0.0384, 0.0230, 0.0304, 0.0266, 0.0398, 0.2998, 0.0317],
       device='cuda:1'), in_proj_covar=tensor([0.0104, 0.0089, 0.0088, 0.0082, 0.0101, 0.0089, 0.0130, 0.0108],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
       device='cuda:1')
2022-11-16 06:58:04,651 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([5.0148, 4.4812, 4.8184, 4.4675, 5.0726, 4.8034, 4.3529, 5.0056],
       device='cuda:1'), covar=tensor([0.0346, 0.0360, 0.0372, 0.0297, 0.0302, 0.0212, 0.0314, 0.0252],
       device='cuda:1'), in_proj_covar=tensor([0.0148, 0.0155, 0.0110, 0.0144, 0.0183, 0.0112, 0.0128, 0.0154],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003],
       device='cuda:1')
2022-11-16 06:58:10,066 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=90888.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 06:58:25,590 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=90910.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 06:58:42,745 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=90936.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 06:58:44,663 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 9.811e+01 1.461e+02 1.838e+02 2.236e+02 5.014e+02, threshold=3.676e+02, percent-clipped=2.0
2022-11-16 06:59:02,754 INFO [train.py:876] (1/4) Epoch 13, batch 3700, loss[loss=0.1251, simple_loss=0.1545, pruned_loss=0.04789, over 5574.00 frames. ], tot_loss[loss=0.1059, simple_loss=0.1361, pruned_loss=0.03783, over 1080307.00 frames. ], batch size: 40, lr: 6.20e-03, grad_scale: 16.0
2022-11-16 06:59:05,541 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.5602, 2.6741, 2.2852, 2.6050, 2.1688, 1.9387, 2.3575, 2.8509],
       device='cuda:1'), covar=tensor([0.1292, 0.1234, 0.1729, 0.1035, 0.1393, 0.1457, 0.1252, 0.1199],
       device='cuda:1'), in_proj_covar=tensor([0.0113, 0.0108, 0.0105, 0.0106, 0.0092, 0.0102, 0.0098, 0.0081],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0004, 0.0004, 0.0004, 0.0003, 0.0004, 0.0004, 0.0003],
       device='cuda:1')
2022-11-16 06:59:30,596 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=91007.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 06:59:34,802 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=3.54 vs. limit=5.0
2022-11-16 06:59:36,069 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.82 vs. limit=2.0
2022-11-16 06:59:37,807 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.3343, 1.5132, 1.4040, 1.4113, 1.5900, 1.5126, 1.3972, 1.7105],
       device='cuda:1'), covar=tensor([0.0095, 0.0067, 0.0071, 0.0059, 0.0059, 0.0052, 0.0080, 0.0059],
       device='cuda:1'), in_proj_covar=tensor([0.0064, 0.0059, 0.0059, 0.0064, 0.0062, 0.0057, 0.0056, 0.0054],
       device='cuda:1'), out_proj_covar=tensor([5.7225e-05, 5.2659e-05, 5.1550e-05, 5.6663e-05, 5.4608e-05, 4.9948e-05,
        4.9836e-05, 4.7320e-05], device='cuda:1')
2022-11-16 06:59:52,311 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 8.488e+01 1.377e+02 1.670e+02 2.030e+02 3.964e+02, threshold=3.341e+02, percent-clipped=2.0
2022-11-16 06:59:57,189 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=1.64 vs. limit=2.0
2022-11-16 07:00:03,056 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=91055.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 07:00:09,530 INFO [train.py:876] (1/4) Epoch 13, batch 3800, loss[loss=0.1191, simple_loss=0.1422, pruned_loss=0.04802, over 5572.00 frames. ], tot_loss[loss=0.1039, simple_loss=0.135, pruned_loss=0.03637, over 1087336.99 frames. ], batch size: 25, lr: 6.19e-03, grad_scale: 16.0
2022-11-16 07:00:12,930 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([4.2561, 2.7584, 3.2470, 3.9401, 4.1231, 3.2373, 2.8428, 4.0260],
       device='cuda:1'), covar=tensor([0.0634, 0.2172, 0.1993, 0.3232, 0.1303, 0.3018, 0.2212, 0.2036],
       device='cuda:1'), in_proj_covar=tensor([0.0260, 0.0199, 0.0190, 0.0303, 0.0226, 0.0205, 0.0192, 0.0253],
       device='cuda:1'), out_proj_covar=tensor([0.0006, 0.0005, 0.0005, 0.0006, 0.0005, 0.0005, 0.0005, 0.0006],
       device='cuda:1')
2022-11-16 07:00:20,357 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.2543, 2.1963, 2.6310, 3.3386, 3.2872, 2.6356, 2.3368, 3.4434],
       device='cuda:1'), covar=tensor([0.1196, 0.2854, 0.1898, 0.2273, 0.1274, 0.2874, 0.2156, 0.1048],
       device='cuda:1'), in_proj_covar=tensor([0.0259, 0.0198, 0.0189, 0.0301, 0.0226, 0.0204, 0.0191, 0.0251],
       device='cuda:1'), out_proj_covar=tensor([0.0006, 0.0005, 0.0005, 0.0006, 0.0005, 0.0005, 0.0005, 0.0006],
       device='cuda:1')
2022-11-16 07:00:28,504 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=3.73 vs. limit=5.0
2022-11-16 07:00:43,431 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=91115.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 07:00:59,664 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 7.615e+01 1.416e+02 1.762e+02 2.192e+02 4.990e+02, threshold=3.525e+02, percent-clipped=3.0
2022-11-16 07:01:08,639 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=91152.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 07:01:15,758 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=91163.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 07:01:17,058 INFO [train.py:876] (1/4) Epoch 13, batch 3900, loss[loss=0.05865, simple_loss=0.09147, pruned_loss=0.01291, over 4443.00 frames. ], tot_loss[loss=0.1043, simple_loss=0.1351, pruned_loss=0.03676, over 1083411.19 frames. ], batch size: 5, lr: 6.19e-03, grad_scale: 16.0
2022-11-16 07:01:41,633 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=91200.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 07:01:44,966 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=91205.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 07:02:07,454 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 9.326e+01 1.380e+02 1.738e+02 2.230e+02 3.262e+02, threshold=3.475e+02, percent-clipped=0.0
2022-11-16 07:02:12,290 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.8172, 1.8746, 2.2757, 1.7387, 1.3719, 2.6432, 2.2534, 1.9385],
       device='cuda:1'), covar=tensor([0.1303, 0.1699, 0.1101, 0.2507, 0.2632, 0.0736, 0.1537, 0.1658],
       device='cuda:1'), in_proj_covar=tensor([0.0110, 0.0100, 0.0099, 0.0103, 0.0076, 0.0071, 0.0081, 0.0093],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
       device='cuda:1')
2022-11-16 07:02:25,432 INFO [train.py:876] (1/4) Epoch 13, batch 4000, loss[loss=0.1014, simple_loss=0.1351, pruned_loss=0.03379, over 5749.00 frames. ], tot_loss[loss=0.1058, simple_loss=0.1363, pruned_loss=0.03765, over 1084143.27 frames. ], batch size: 27, lr: 6.19e-03, grad_scale: 16.0
2022-11-16 07:02:38,641 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=91285.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 07:03:10,249 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=3.61 vs. limit=5.0
2022-11-16 07:03:11,331 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.3745, 4.2126, 3.0180, 3.9647, 3.2392, 2.8293, 2.3109, 3.4715],
       device='cuda:1'), covar=tensor([0.1364, 0.0223, 0.0894, 0.0332, 0.0788, 0.0993, 0.1805, 0.0451],
       device='cuda:1'), in_proj_covar=tensor([0.0154, 0.0141, 0.0154, 0.0148, 0.0170, 0.0166, 0.0157, 0.0158],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0003, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004],
       device='cuda:1')
2022-11-16 07:03:12,607 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.6534, 3.3732, 3.5031, 3.2853, 3.7179, 3.5587, 3.3693, 3.6059],
       device='cuda:1'), covar=tensor([0.0412, 0.0437, 0.0510, 0.0413, 0.0452, 0.0275, 0.0455, 0.0507],
       device='cuda:1'), in_proj_covar=tensor([0.0150, 0.0155, 0.0112, 0.0145, 0.0184, 0.0112, 0.0130, 0.0157],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003],
       device='cuda:1')
2022-11-16 07:03:13,962 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.9395, 2.8936, 2.4823, 3.0743, 2.5412, 2.8367, 2.9880, 3.2734],
       device='cuda:1'), covar=tensor([0.1130, 0.1677, 0.1965, 0.1528, 0.1620, 0.0843, 0.1027, 0.1830],
       device='cuda:1'), in_proj_covar=tensor([0.0114, 0.0109, 0.0106, 0.0107, 0.0094, 0.0105, 0.0098, 0.0084],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0004, 0.0004, 0.0004, 0.0003, 0.0004, 0.0004, 0.0003],
       device='cuda:1')
2022-11-16 07:03:15,062 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 8.467e+01 1.389e+02 1.729e+02 2.051e+02 4.497e+02, threshold=3.458e+02, percent-clipped=2.0
2022-11-16 07:03:19,974 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=91346.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 07:03:22,174 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.9153, 4.1350, 4.0342, 3.9227, 4.0630, 3.8444, 1.7003, 4.1549],
       device='cuda:1'), covar=tensor([0.0287, 0.0281, 0.0299, 0.0301, 0.0315, 0.0478, 0.3104, 0.0345],
       device='cuda:1'), in_proj_covar=tensor([0.0106, 0.0091, 0.0090, 0.0083, 0.0104, 0.0091, 0.0133, 0.0110],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
       device='cuda:1')
2022-11-16 07:03:33,554 INFO [train.py:876] (1/4) Epoch 13, batch 4100, loss[loss=0.09999, simple_loss=0.1381, pruned_loss=0.03095, over 5688.00 frames. ], tot_loss[loss=0.1039, simple_loss=0.1346, pruned_loss=0.03662, over 1081753.22 frames. ], batch size: 17, lr: 6.18e-03, grad_scale: 16.0
2022-11-16 07:04:20,779 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([5.0035, 4.5403, 4.8469, 4.5267, 5.0475, 4.8891, 4.3580, 5.0859],
       device='cuda:1'), covar=tensor([0.0356, 0.0342, 0.0424, 0.0308, 0.0377, 0.0237, 0.0268, 0.0230],
       device='cuda:1'), in_proj_covar=tensor([0.0150, 0.0156, 0.0111, 0.0146, 0.0185, 0.0112, 0.0130, 0.0157],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003],
       device='cuda:1')
2022-11-16 07:04:23,285 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 8.983e+01 1.379e+02 1.736e+02 2.115e+02 4.817e+02, threshold=3.473e+02, percent-clipped=3.0
2022-11-16 07:04:36,337 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.8473, 1.7927, 1.8060, 1.3998, 1.6494, 1.9004, 1.4689, 1.1908],
       device='cuda:1'), covar=tensor([0.0033, 0.0060, 0.0047, 0.0060, 0.0075, 0.0070, 0.0043, 0.0054],
       device='cuda:1'), in_proj_covar=tensor([0.0030, 0.0027, 0.0028, 0.0036, 0.0032, 0.0029, 0.0035, 0.0034],
       device='cuda:1'), out_proj_covar=tensor([2.7972e-05, 2.5385e-05, 2.5430e-05, 3.4315e-05, 2.9296e-05, 2.7336e-05,
        3.3829e-05, 3.2760e-05], device='cuda:1')
2022-11-16 07:04:40,828 INFO [train.py:876] (1/4) Epoch 13, batch 4200, loss[loss=0.09584, simple_loss=0.1398, pruned_loss=0.02592, over 5534.00 frames. ], tot_loss[loss=0.1039, simple_loss=0.1349, pruned_loss=0.03645, over 1084739.88 frames. ], batch size: 16, lr: 6.18e-03, grad_scale: 16.0
2022-11-16 07:04:52,948 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.4955, 1.9105, 2.4123, 2.3450, 2.4532, 1.7090, 2.3029, 2.5155],
       device='cuda:1'), covar=tensor([0.0659, 0.1070, 0.0643, 0.0731, 0.0813, 0.1299, 0.0825, 0.0747],
       device='cuda:1'), in_proj_covar=tensor([0.0241, 0.0191, 0.0213, 0.0209, 0.0237, 0.0194, 0.0222, 0.0226],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004],
       device='cuda:1')
2022-11-16 07:05:03,452 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([4.3683, 4.8146, 4.4082, 4.7687, 4.8484, 4.0421, 4.3054, 4.2253],
       device='cuda:1'), covar=tensor([0.0378, 0.0521, 0.1576, 0.0702, 0.0682, 0.0569, 0.0954, 0.0768],
       device='cuda:1'), in_proj_covar=tensor([0.0130, 0.0180, 0.0273, 0.0175, 0.0223, 0.0173, 0.0188, 0.0177],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0003, 0.0004, 0.0002, 0.0003, 0.0002, 0.0003, 0.0002],
       device='cuda:1')
2022-11-16 07:05:07,943 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=91505.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 07:05:31,428 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 8.444e+01 1.459e+02 1.798e+02 2.244e+02 4.763e+02, threshold=3.595e+02, percent-clipped=2.0
2022-11-16 07:05:33,635 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=91542.0, num_to_drop=1, layers_to_drop={1}
2022-11-16 07:05:40,835 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=91553.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 07:05:48,486 INFO [train.py:876] (1/4) Epoch 13, batch 4300, loss[loss=0.05864, simple_loss=0.09403, pruned_loss=0.01163, over 5725.00 frames. ], tot_loss[loss=0.1045, simple_loss=0.1352, pruned_loss=0.03691, over 1074220.74 frames. ], batch size: 12, lr: 6.18e-03, grad_scale: 16.0
2022-11-16 07:06:06,954 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.9019, 2.9157, 2.3465, 2.7961, 2.4583, 2.9851, 2.9963, 3.2096],
       device='cuda:1'), covar=tensor([0.1174, 0.1518, 0.2418, 0.6571, 0.2149, 0.1436, 0.1471, 0.9864],
       device='cuda:1'), in_proj_covar=tensor([0.0115, 0.0109, 0.0107, 0.0108, 0.0095, 0.0105, 0.0100, 0.0084],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0003],
       device='cuda:1')
2022-11-16 07:06:07,001 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([4.1012, 2.5513, 3.1832, 3.9834, 3.9833, 3.1397, 2.6888, 4.0406],
       device='cuda:1'), covar=tensor([0.0676, 0.2651, 0.1781, 0.2147, 0.1303, 0.2549, 0.2058, 0.0855],
       device='cuda:1'), in_proj_covar=tensor([0.0258, 0.0196, 0.0187, 0.0299, 0.0223, 0.0203, 0.0188, 0.0251],
       device='cuda:1'), out_proj_covar=tensor([0.0006, 0.0005, 0.0005, 0.0006, 0.0005, 0.0005, 0.0005, 0.0006],
       device='cuda:1')
2022-11-16 07:06:15,247 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=91603.0, num_to_drop=1, layers_to_drop={2}
2022-11-16 07:06:31,513 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.62 vs. limit=2.0
2022-11-16 07:06:39,669 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 7.763e+01 1.435e+02 1.703e+02 2.070e+02 3.900e+02, threshold=3.406e+02, percent-clipped=1.0
2022-11-16 07:06:41,067 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=91641.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 07:06:45,814 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.29 vs. limit=2.0
2022-11-16 07:06:48,495 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=3.98 vs. limit=5.0
2022-11-16 07:06:56,954 INFO [train.py:876] (1/4) Epoch 13, batch 4400, loss[loss=0.08493, simple_loss=0.1258, pruned_loss=0.02204, over 5600.00 frames. ], tot_loss[loss=0.1044, simple_loss=0.1353, pruned_loss=0.03668, over 1079291.79 frames. ], batch size: 18, lr: 6.17e-03, grad_scale: 16.0
2022-11-16 07:07:05,091 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.8488, 4.8173, 3.1371, 4.5490, 3.6998, 3.2989, 2.6510, 4.1340],
       device='cuda:1'), covar=tensor([0.1280, 0.0170, 0.1083, 0.0309, 0.0569, 0.0773, 0.1748, 0.0292],
       device='cuda:1'), in_proj_covar=tensor([0.0153, 0.0142, 0.0155, 0.0147, 0.0171, 0.0165, 0.0158, 0.0158],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0003, 0.0004, 0.0003, 0.0004, 0.0004, 0.0004, 0.0004],
       device='cuda:1')
2022-11-16 07:07:46,910 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 8.810e+01 1.451e+02 1.858e+02 2.310e+02 4.864e+02, threshold=3.715e+02, percent-clipped=3.0
2022-11-16 07:07:53,948 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.1394, 3.0905, 3.3046, 3.1803, 3.1129, 2.8347, 3.4699, 3.2172],
       device='cuda:1'), covar=tensor([0.0502, 0.0828, 0.0450, 0.1177, 0.0571, 0.0474, 0.0800, 0.0697],
       device='cuda:1'), in_proj_covar=tensor([0.0087, 0.0107, 0.0095, 0.0122, 0.0089, 0.0080, 0.0147, 0.0104],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0003, 0.0002],
       device='cuda:1')
2022-11-16 07:08:04,751 INFO [train.py:876] (1/4) Epoch 13, batch 4500, loss[loss=0.1775, simple_loss=0.1705, pruned_loss=0.09223, over 5460.00 frames. ], tot_loss[loss=0.1048, simple_loss=0.1358, pruned_loss=0.03694, over 1082110.78 frames. ], batch size: 64, lr: 6.17e-03, grad_scale: 16.0
2022-11-16 07:08:55,631 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 8.055e+01 1.330e+02 1.643e+02 2.153e+02 4.136e+02, threshold=3.287e+02, percent-clipped=1.0
2022-11-16 07:09:05,761 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=3.44 vs. limit=5.0
2022-11-16 07:09:13,844 INFO [train.py:876] (1/4) Epoch 13, batch 4600, loss[loss=0.09744, simple_loss=0.1334, pruned_loss=0.03073, over 5555.00 frames. ], tot_loss[loss=0.1041, simple_loss=0.1349, pruned_loss=0.03671, over 1082525.11 frames. ], batch size: 15, lr: 6.17e-03, grad_scale: 16.0
2022-11-16 07:09:31,312 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=91891.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 07:09:35,818 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=91898.0, num_to_drop=1, layers_to_drop={1}
2022-11-16 07:09:51,815 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([4.9483, 4.4132, 4.7330, 4.3811, 4.9975, 4.8097, 4.4368, 4.9574],
       device='cuda:1'), covar=tensor([0.0295, 0.0369, 0.0403, 0.0330, 0.0295, 0.0217, 0.0297, 0.0263],
       device='cuda:1'), in_proj_covar=tensor([0.0147, 0.0154, 0.0111, 0.0144, 0.0183, 0.0111, 0.0129, 0.0156],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003],
       device='cuda:1')
2022-11-16 07:10:03,760 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 7.956e+01 1.427e+02 1.793e+02 2.306e+02 3.919e+02, threshold=3.587e+02, percent-clipped=3.0
2022-11-16 07:10:05,201 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=91941.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 07:10:12,669 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=91952.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 07:10:14,586 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=91955.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 07:10:21,953 INFO [train.py:876] (1/4) Epoch 13, batch 4700, loss[loss=0.07735, simple_loss=0.1204, pruned_loss=0.01715, over 5547.00 frames. ], tot_loss[loss=0.1035, simple_loss=0.1344, pruned_loss=0.03636, over 1084386.69 frames. ], batch size: 21, lr: 6.16e-03, grad_scale: 32.0
2022-11-16 07:10:32,690 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=91981.0, num_to_drop=1, layers_to_drop={0}
2022-11-16 07:10:38,257 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=91989.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 07:10:51,366 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.8010, 1.4918, 1.6827, 1.3742, 1.8335, 1.6859, 1.1921, 1.6175],
       device='cuda:1'), covar=tensor([0.0357, 0.0597, 0.0529, 0.0644, 0.1017, 0.0812, 0.0788, 0.0389],
       device='cuda:1'), in_proj_covar=tensor([0.0016, 0.0026, 0.0018, 0.0022, 0.0018, 0.0017, 0.0024, 0.0017],
       device='cuda:1'), out_proj_covar=tensor([9.2354e-05, 1.2912e-04, 9.8069e-05, 1.1109e-04, 9.9348e-05, 9.4180e-05,
        1.2230e-04, 9.3028e-05], device='cuda:1')
2022-11-16 07:10:57,215 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=92016.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 07:11:13,171 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 9.635e+01 1.436e+02 1.731e+02 2.246e+02 5.128e+02, threshold=3.463e+02, percent-clipped=1.0
2022-11-16 07:11:14,677 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=92042.0, num_to_drop=1, layers_to_drop={1}
2022-11-16 07:11:29,852 INFO [train.py:876] (1/4) Epoch 13, batch 4800, loss[loss=0.1203, simple_loss=0.1447, pruned_loss=0.04799, over 5535.00 frames. ], tot_loss[loss=0.1044, simple_loss=0.1351, pruned_loss=0.03687, over 1077173.80 frames. ], batch size: 46, lr: 6.16e-03, grad_scale: 16.0
2022-11-16 07:11:53,947 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=4.82 vs. limit=5.0
2022-11-16 07:12:21,126 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.028e+02 1.456e+02 1.773e+02 2.176e+02 4.110e+02, threshold=3.546e+02, percent-clipped=4.0
2022-11-16 07:12:37,615 INFO [train.py:876] (1/4) Epoch 13, batch 4900, loss[loss=0.09775, simple_loss=0.1363, pruned_loss=0.02959, over 5715.00 frames. ], tot_loss[loss=0.1042, simple_loss=0.1348, pruned_loss=0.03678, over 1080697.46 frames. ], batch size: 28, lr: 6.16e-03, grad_scale: 8.0
2022-11-16 07:13:00,126 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=92198.0, num_to_drop=1, layers_to_drop={2}
2022-11-16 07:13:29,749 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 9.574e+01 1.436e+02 1.818e+02 2.548e+02 4.452e+02, threshold=3.637e+02, percent-clipped=5.0
2022-11-16 07:13:33,145 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=92246.0, num_to_drop=1, layers_to_drop={1}
2022-11-16 07:13:33,778 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=92247.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 07:13:41,435 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([0.8731, 1.0285, 0.9799, 0.8254, 0.6549, 0.8437, 0.8411, 0.6493],
       device='cuda:1'), covar=tensor([0.0040, 0.0032, 0.0032, 0.0039, 0.0051, 0.0039, 0.0054, 0.0074],
       device='cuda:1'), in_proj_covar=tensor([0.0031, 0.0028, 0.0029, 0.0037, 0.0032, 0.0029, 0.0036, 0.0035],
       device='cuda:1'), out_proj_covar=tensor([2.8258e-05, 2.5935e-05, 2.6063e-05, 3.5661e-05, 2.9826e-05, 2.7656e-05,
        3.4784e-05, 3.3852e-05], device='cuda:1')
2022-11-16 07:13:45,758 INFO [train.py:876] (1/4) Epoch 13, batch 5000, loss[loss=0.1057, simple_loss=0.1402, pruned_loss=0.03559, over 5623.00 frames. ], tot_loss[loss=0.1055, simple_loss=0.1357, pruned_loss=0.03764, over 1076525.02 frames. ], batch size: 23, lr: 6.15e-03, grad_scale: 8.0
2022-11-16 07:14:00,152 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.4354, 2.0085, 2.1194, 2.5749, 2.8131, 2.1170, 1.7853, 2.7253],
       device='cuda:1'), covar=tensor([0.2161, 0.2174, 0.2103, 0.1133, 0.1255, 0.2864, 0.2343, 0.1424],
       device='cuda:1'), in_proj_covar=tensor([0.0258, 0.0198, 0.0188, 0.0298, 0.0226, 0.0202, 0.0190, 0.0251],
       device='cuda:1'), out_proj_covar=tensor([0.0006, 0.0005, 0.0005, 0.0006, 0.0005, 0.0005, 0.0005, 0.0006],
       device='cuda:1')
2022-11-16 07:14:16,846 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=92311.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 07:14:34,570 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=92337.0, num_to_drop=1, layers_to_drop={3}
2022-11-16 07:14:37,062 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 9.814e+01 1.442e+02 1.699e+02 2.118e+02 7.275e+02, threshold=3.398e+02, percent-clipped=6.0
2022-11-16 07:14:53,720 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=1.65 vs. limit=2.0
2022-11-16 07:14:54,055 INFO [train.py:876] (1/4) Epoch 13, batch 5100, loss[loss=0.08828, simple_loss=0.1214, pruned_loss=0.0276, over 5262.00 frames. ], tot_loss[loss=0.1032, simple_loss=0.1341, pruned_loss=0.03617, over 1078601.85 frames. ], batch size: 79, lr: 6.15e-03, grad_scale: 8.0
2022-11-16 07:14:54,888 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.1752, 1.5202, 1.0980, 1.1195, 1.6033, 1.2736, 0.8691, 1.4982],
       device='cuda:1'), covar=tensor([0.0073, 0.0048, 0.0080, 0.0078, 0.0056, 0.0062, 0.0075, 0.0063],
       device='cuda:1'), in_proj_covar=tensor([0.0066, 0.0061, 0.0061, 0.0066, 0.0063, 0.0059, 0.0057, 0.0055],
       device='cuda:1'), out_proj_covar=tensor([5.9208e-05, 5.4164e-05, 5.2941e-05, 5.8170e-05, 5.5921e-05, 5.1434e-05,
        5.1065e-05, 4.8498e-05], device='cuda:1')
2022-11-16 07:15:18,898 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.8197, 2.8803, 3.0970, 2.8731, 2.9867, 2.9208, 1.3027, 2.9755],
       device='cuda:1'), covar=tensor([0.0419, 0.0433, 0.0306, 0.0325, 0.0428, 0.0414, 0.3189, 0.0486],
       device='cuda:1'), in_proj_covar=tensor([0.0106, 0.0091, 0.0090, 0.0083, 0.0104, 0.0091, 0.0133, 0.0110],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
       device='cuda:1')
2022-11-16 07:15:45,934 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 9.294e+01 1.423e+02 1.797e+02 2.276e+02 4.290e+02, threshold=3.595e+02, percent-clipped=2.0
2022-11-16 07:15:49,964 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.1485, 1.1805, 1.2324, 1.0804, 0.9658, 1.0568, 0.9405, 0.6692],
       device='cuda:1'), covar=tensor([0.0041, 0.0034, 0.0034, 0.0043, 0.0044, 0.0034, 0.0057, 0.0093],
       device='cuda:1'), in_proj_covar=tensor([0.0031, 0.0028, 0.0029, 0.0038, 0.0032, 0.0029, 0.0036, 0.0036],
       device='cuda:1'), out_proj_covar=tensor([2.8615e-05, 2.6056e-05, 2.6312e-05, 3.6158e-05, 2.9905e-05, 2.7854e-05,
        3.4905e-05, 3.4084e-05], device='cuda:1')
2022-11-16 07:15:53,592 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([4.2618, 4.2966, 4.4180, 3.9412, 4.2567, 4.0839, 1.6395, 4.4136],
       device='cuda:1'), covar=tensor([0.0286, 0.0330, 0.0280, 0.0485, 0.0325, 0.0515, 0.3749, 0.0305],
       device='cuda:1'), in_proj_covar=tensor([0.0106, 0.0091, 0.0089, 0.0082, 0.0104, 0.0090, 0.0133, 0.0110],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
       device='cuda:1')
2022-11-16 07:16:02,830 INFO [train.py:876] (1/4) Epoch 13, batch 5200, loss[loss=0.07154, simple_loss=0.1104, pruned_loss=0.01633, over 5559.00 frames. ], tot_loss[loss=0.1032, simple_loss=0.1337, pruned_loss=0.03638, over 1074770.30 frames. ], batch size: 13, lr: 6.15e-03, grad_scale: 8.0
2022-11-16 07:16:14,718 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.80 vs. limit=2.0
2022-11-16 07:16:54,292 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 8.360e+01 1.391e+02 1.845e+02 2.323e+02 4.876e+02, threshold=3.690e+02, percent-clipped=4.0
2022-11-16 07:16:58,333 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=92547.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 07:17:00,623 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.60 vs. limit=2.0
2022-11-16 07:17:10,185 INFO [train.py:876] (1/4) Epoch 13, batch 5300, loss[loss=0.1151, simple_loss=0.1471, pruned_loss=0.04153, over 5594.00 frames. ], tot_loss[loss=0.1022, simple_loss=0.1334, pruned_loss=0.03551, over 1082687.24 frames. ], batch size: 23, lr: 6.14e-03, grad_scale: 8.0
2022-11-16 07:17:29,565 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([5.2007, 4.7909, 4.9643, 4.8359, 5.3315, 5.1879, 4.6897, 5.2881],
       device='cuda:1'), covar=tensor([0.0357, 0.0323, 0.0439, 0.0285, 0.0301, 0.0189, 0.0267, 0.0221],
       device='cuda:1'), in_proj_covar=tensor([0.0150, 0.0157, 0.0113, 0.0146, 0.0185, 0.0114, 0.0131, 0.0158],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003],
       device='cuda:1')
2022-11-16 07:17:30,908 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=92595.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 07:17:41,712 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=92611.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 07:17:42,109 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=1.74 vs. limit=2.0
2022-11-16 07:17:51,958 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=92625.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 07:17:57,922 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=4.07 vs. limit=5.0
2022-11-16 07:17:59,639 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=92637.0, num_to_drop=1, layers_to_drop={0}
2022-11-16 07:18:02,109 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 8.870e+01 1.449e+02 1.761e+02 2.157e+02 4.829e+02, threshold=3.522e+02, percent-clipped=3.0
2022-11-16 07:18:14,398 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=92659.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 07:18:15,890 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([0.3798, 0.8480, 0.4916, 0.7148, 0.7806, 0.6214, 0.5418, 0.7268],
       device='cuda:1'), covar=tensor([0.0069, 0.0042, 0.0053, 0.0036, 0.0042, 0.0053, 0.0061, 0.0029],
       device='cuda:1'), in_proj_covar=tensor([0.0065, 0.0060, 0.0060, 0.0065, 0.0062, 0.0058, 0.0056, 0.0054],
       device='cuda:1'), out_proj_covar=tensor([5.7962e-05, 5.3123e-05, 5.2109e-05, 5.7218e-05, 5.5152e-05, 5.0650e-05,
        5.0127e-05, 4.7547e-05], device='cuda:1')
2022-11-16 07:18:18,364 INFO [train.py:876] (1/4) Epoch 13, batch 5400, loss[loss=0.0858, simple_loss=0.1241, pruned_loss=0.02377, over 5496.00 frames. ], tot_loss[loss=0.1041, simple_loss=0.1346, pruned_loss=0.03683, over 1076980.47 frames. ], batch size: 12, lr: 6.14e-03, grad_scale: 8.0
2022-11-16 07:18:32,611 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=92685.0, num_to_drop=1, layers_to_drop={0}
2022-11-16 07:18:33,347 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=92686.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 07:18:53,558 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=1.79 vs. limit=2.0
2022-11-16 07:18:55,985 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=92720.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 07:19:03,335 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.0113, 3.0430, 3.5746, 1.6554, 3.3926, 3.8035, 3.5502, 3.9554],
       device='cuda:1'), covar=tensor([0.2115, 0.1456, 0.0601, 0.2954, 0.0375, 0.0543, 0.0539, 0.0742],
       device='cuda:1'), in_proj_covar=tensor([0.0166, 0.0182, 0.0169, 0.0186, 0.0184, 0.0204, 0.0170, 0.0185],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004],
       device='cuda:1')
2022-11-16 07:19:10,733 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 8.348e+01 1.471e+02 1.783e+02 2.230e+02 3.628e+02, threshold=3.566e+02, percent-clipped=2.0
2022-11-16 07:19:19,357 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.2864, 4.1501, 3.2193, 1.9212, 3.8793, 1.6540, 3.7721, 2.3446],
       device='cuda:1'), covar=tensor([0.1466, 0.0135, 0.0651, 0.1821, 0.0218, 0.1773, 0.0282, 0.1311],
       device='cuda:1'), in_proj_covar=tensor([0.0120, 0.0104, 0.0114, 0.0111, 0.0102, 0.0119, 0.0101, 0.0109],
       device='cuda:1'), out_proj_covar=tensor([0.0005, 0.0004, 0.0005, 0.0005, 0.0004, 0.0005, 0.0004, 0.0004],
       device='cuda:1')
2022-11-16 07:19:26,810 INFO [train.py:876] (1/4) Epoch 13, batch 5500, loss[loss=0.0983, simple_loss=0.1366, pruned_loss=0.02998, over 5531.00 frames. ], tot_loss[loss=0.1049, simple_loss=0.1352, pruned_loss=0.03732, over 1071149.64 frames. ], batch size: 21, lr: 6.14e-03, grad_scale: 8.0
2022-11-16 07:19:38,283 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=92781.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 07:19:56,275 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([5.8638, 5.2410, 5.6253, 5.1402, 5.9198, 5.7008, 4.8443, 5.8161],
       device='cuda:1'), covar=tensor([0.0312, 0.0326, 0.0364, 0.0433, 0.0305, 0.0194, 0.0293, 0.0204],
       device='cuda:1'), in_proj_covar=tensor([0.0149, 0.0156, 0.0112, 0.0146, 0.0183, 0.0113, 0.0131, 0.0157],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003],
       device='cuda:1')
2022-11-16 07:20:12,844 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=92831.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 07:20:19,501 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 9.251e+01 1.445e+02 1.860e+02 2.400e+02 4.307e+02, threshold=3.721e+02, percent-clipped=4.0
2022-11-16 07:20:23,140 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=3.83 vs. limit=5.0
2022-11-16 07:20:35,691 INFO [train.py:876] (1/4) Epoch 13, batch 5600, loss[loss=0.08037, simple_loss=0.1083, pruned_loss=0.02623, over 5310.00 frames. ], tot_loss[loss=0.1041, simple_loss=0.1346, pruned_loss=0.03684, over 1074249.05 frames. ], batch size: 9, lr: 6.13e-03, grad_scale: 8.0
2022-11-16 07:20:54,527 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=92892.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 07:20:59,098 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=92899.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 07:20:59,506 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.57 vs. limit=2.0
2022-11-16 07:21:08,495 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=3.60 vs. limit=5.0
2022-11-16 07:21:20,277 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=92931.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 07:21:27,403 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 9.557e+01 1.397e+02 1.621e+02 2.063e+02 4.647e+02, threshold=3.241e+02, percent-clipped=3.0
2022-11-16 07:21:40,277 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=92960.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 07:21:43,371 INFO [train.py:876] (1/4) Epoch 13, batch 5700, loss[loss=0.1085, simple_loss=0.1481, pruned_loss=0.03447, over 5739.00 frames. ], tot_loss[loss=0.1036, simple_loss=0.1342, pruned_loss=0.03657, over 1068334.56 frames. ], batch size: 15, lr: 6.13e-03, grad_scale: 8.0
2022-11-16 07:21:50,426 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=92975.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 07:21:54,340 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=92981.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 07:22:01,939 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=92992.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 07:22:13,328 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.4761, 2.6008, 2.6485, 2.3833, 2.5961, 2.5618, 1.3108, 2.7229],
       device='cuda:1'), covar=tensor([0.0342, 0.0378, 0.0378, 0.0411, 0.0454, 0.0447, 0.2951, 0.0410],
       device='cuda:1'), in_proj_covar=tensor([0.0106, 0.0090, 0.0090, 0.0082, 0.0104, 0.0091, 0.0133, 0.0110],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
       device='cuda:1')
2022-11-16 07:22:14,756 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=93010.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 07:22:32,128 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=93036.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 07:22:32,150 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=93036.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 07:22:36,329 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 9.192e+01 1.368e+02 1.655e+02 2.036e+02 3.681e+02, threshold=3.311e+02, percent-clipped=3.0
2022-11-16 07:22:52,166 INFO [train.py:876] (1/4) Epoch 13, batch 5800, loss[loss=0.07855, simple_loss=0.1198, pruned_loss=0.01866, over 5740.00 frames. ], tot_loss[loss=0.1036, simple_loss=0.1339, pruned_loss=0.03668, over 1073097.14 frames. ], batch size: 15, lr: 6.13e-03, grad_scale: 8.0
2022-11-16 07:22:56,538 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=93071.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 07:22:59,759 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=93076.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 07:23:13,885 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=93097.0, num_to_drop=1, layers_to_drop={0}
2022-11-16 07:23:26,245 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=93115.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 07:23:43,301 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 9.091e+01 1.350e+02 1.786e+02 2.182e+02 6.733e+02, threshold=3.572e+02, percent-clipped=3.0
2022-11-16 07:24:00,085 INFO [train.py:876] (1/4) Epoch 13, batch 5900, loss[loss=0.1166, simple_loss=0.1422, pruned_loss=0.04552, over 5704.00 frames. ], tot_loss[loss=0.1029, simple_loss=0.1334, pruned_loss=0.03619, over 1078978.58 frames. ], batch size: 36, lr: 6.12e-03, grad_scale: 8.0
2022-11-16 07:24:07,382 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=93176.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 07:24:14,464 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=93187.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 07:24:27,821 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=1.91 vs. limit=2.0
2022-11-16 07:24:51,120 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.010e+02 1.444e+02 1.638e+02 1.961e+02 3.238e+02, threshold=3.277e+02, percent-clipped=0.0
2022-11-16 07:24:54,416 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.23 vs. limit=2.0
2022-11-16 07:25:00,826 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=93255.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 07:25:07,945 INFO [train.py:876] (1/4) Epoch 13, batch 6000, loss[loss=0.08716, simple_loss=0.1284, pruned_loss=0.02297, over 5597.00 frames. ], tot_loss[loss=0.1024, simple_loss=0.1329, pruned_loss=0.0359, over 1075251.65 frames. ], batch size: 23, lr: 6.12e-03, grad_scale: 8.0
2022-11-16 07:25:07,945 INFO [train.py:899] (1/4) Computing validation loss
2022-11-16 07:25:26,367 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([4.8583, 4.6387, 4.7731, 4.4119, 4.6379, 4.3718, 2.0766, 4.9386],
       device='cuda:1'), covar=tensor([0.0160, 0.0281, 0.0161, 0.0218, 0.0235, 0.0195, 0.2777, 0.0127],
       device='cuda:1'), in_proj_covar=tensor([0.0105, 0.0089, 0.0089, 0.0082, 0.0103, 0.0090, 0.0132, 0.0108],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
       device='cuda:1')
2022-11-16 07:25:31,761 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([4.1400, 3.8104, 4.3159, 3.8169, 3.5693, 4.1577, 4.3844, 4.1730],
       device='cuda:1'), covar=tensor([0.0277, 0.0906, 0.0246, 0.1019, 0.0489, 0.0164, 0.0476, 0.0318],
       device='cuda:1'), in_proj_covar=tensor([0.0087, 0.0108, 0.0096, 0.0122, 0.0089, 0.0080, 0.0146, 0.0104],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0003, 0.0002],
       device='cuda:1')
2022-11-16 07:25:35,118 INFO [train.py:908] (1/4) Epoch 13, validation: loss=0.1768, simple_loss=0.1872, pruned_loss=0.08323, over 1530663.00 frames. 
2022-11-16 07:25:35,118 INFO [train.py:909] (1/4) Maximum memory allocated so far is 4676MB
2022-11-16 07:25:45,577 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=93281.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 07:25:49,444 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=93287.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 07:26:18,402 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=93329.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 07:26:19,779 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=93331.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 07:26:23,782 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.9696, 2.9382, 2.6283, 3.0064, 2.4224, 2.8771, 2.8469, 3.2762],
       device='cuda:1'), covar=tensor([0.0989, 0.1306, 0.1649, 0.1846, 0.1440, 0.2294, 0.1303, 0.2215],
       device='cuda:1'), in_proj_covar=tensor([0.0116, 0.0111, 0.0109, 0.0109, 0.0095, 0.0106, 0.0100, 0.0086],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0003],
       device='cuda:1')
2022-11-16 07:26:26,166 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 8.791e+01 1.381e+02 1.698e+02 2.176e+02 5.974e+02, threshold=3.396e+02, percent-clipped=7.0
2022-11-16 07:26:42,555 INFO [train.py:876] (1/4) Epoch 13, batch 6100, loss[loss=0.092, simple_loss=0.1314, pruned_loss=0.02629, over 5650.00 frames. ], tot_loss[loss=0.1012, simple_loss=0.1328, pruned_loss=0.03484, over 1082155.65 frames. ], batch size: 29, lr: 6.12e-03, grad_scale: 8.0
2022-11-16 07:26:43,301 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=93366.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 07:26:50,785 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=93376.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 07:27:01,540 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=93392.0, num_to_drop=1, layers_to_drop={0}
2022-11-16 07:27:12,580 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.8295, 3.7327, 3.5929, 3.4218, 1.8952, 3.7458, 2.3294, 3.1110],
       device='cuda:1'), covar=tensor([0.0397, 0.0301, 0.0210, 0.0321, 0.0679, 0.0170, 0.0558, 0.0221],
       device='cuda:1'), in_proj_covar=tensor([0.0194, 0.0183, 0.0179, 0.0207, 0.0194, 0.0183, 0.0192, 0.0185],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
       device='cuda:1')
2022-11-16 07:27:23,292 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=93424.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 07:27:30,592 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([4.9901, 4.7407, 5.0759, 4.8973, 4.6797, 4.7115, 5.5275, 5.0771],
       device='cuda:1'), covar=tensor([0.0394, 0.1067, 0.0377, 0.1261, 0.0580, 0.0268, 0.0751, 0.0639],
       device='cuda:1'), in_proj_covar=tensor([0.0087, 0.0109, 0.0096, 0.0123, 0.0090, 0.0080, 0.0147, 0.0105],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0003, 0.0002],
       device='cuda:1')
2022-11-16 07:27:30,865 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=1.92 vs. limit=2.0
2022-11-16 07:27:35,459 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 7.736e+01 1.359e+02 1.712e+02 2.042e+02 3.975e+02, threshold=3.424e+02, percent-clipped=1.0
2022-11-16 07:27:42,053 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.71 vs. limit=2.0
2022-11-16 07:27:51,739 INFO [train.py:876] (1/4) Epoch 13, batch 6200, loss[loss=0.1136, simple_loss=0.1442, pruned_loss=0.04148, over 5553.00 frames. ], tot_loss[loss=0.1025, simple_loss=0.1334, pruned_loss=0.03575, over 1078071.51 frames. ], batch size: 43, lr: 6.12e-03, grad_scale: 8.0
2022-11-16 07:27:55,651 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=93471.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 07:28:06,774 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=93487.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 07:28:19,388 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.7921, 2.1516, 3.2091, 2.6690, 3.5507, 2.1545, 2.9419, 3.6989],
       device='cuda:1'), covar=tensor([0.0709, 0.1870, 0.1219, 0.1746, 0.0770, 0.1853, 0.1542, 0.0970],
       device='cuda:1'), in_proj_covar=tensor([0.0242, 0.0193, 0.0216, 0.0211, 0.0240, 0.0195, 0.0225, 0.0232],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004],
       device='cuda:1')
2022-11-16 07:28:29,999 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.2913, 5.4492, 3.9624, 2.4047, 5.0274, 2.3065, 4.5199, 2.8798],
       device='cuda:1'), covar=tensor([0.1053, 0.0067, 0.0521, 0.1609, 0.0152, 0.1385, 0.0154, 0.1240],
       device='cuda:1'), in_proj_covar=tensor([0.0120, 0.0105, 0.0115, 0.0111, 0.0104, 0.0119, 0.0102, 0.0110],
       device='cuda:1'), out_proj_covar=tensor([0.0005, 0.0004, 0.0005, 0.0005, 0.0004, 0.0005, 0.0004, 0.0004],
       device='cuda:1')
2022-11-16 07:28:38,381 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=93535.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 07:28:39,219 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([4.7264, 3.1916, 4.1966, 3.6861, 4.5928, 3.4523, 4.2969, 4.7616],
       device='cuda:1'), covar=tensor([0.0448, 0.1245, 0.0817, 0.1183, 0.0419, 0.1225, 0.1009, 0.0549],
       device='cuda:1'), in_proj_covar=tensor([0.0242, 0.0192, 0.0215, 0.0210, 0.0240, 0.0194, 0.0224, 0.0231],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004],
       device='cuda:1')
2022-11-16 07:28:42,534 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 8.266e+01 1.465e+02 1.713e+02 2.165e+02 4.081e+02, threshold=3.427e+02, percent-clipped=1.0
2022-11-16 07:28:52,486 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=93555.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 07:28:58,918 INFO [train.py:876] (1/4) Epoch 13, batch 6300, loss[loss=0.06374, simple_loss=0.1016, pruned_loss=0.01293, over 5170.00 frames. ], tot_loss[loss=0.1021, simple_loss=0.1331, pruned_loss=0.03551, over 1081075.45 frames. ], batch size: 8, lr: 6.11e-03, grad_scale: 8.0
2022-11-16 07:29:04,646 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.18 vs. limit=2.0
2022-11-16 07:29:13,678 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=93587.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 07:29:24,622 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=93603.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 07:29:43,328 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=93631.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 07:29:46,176 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=93635.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 07:29:49,998 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 9.661e+01 1.430e+02 1.750e+02 2.354e+02 5.950e+02, threshold=3.500e+02, percent-clipped=2.0
2022-11-16 07:30:07,004 INFO [train.py:876] (1/4) Epoch 13, batch 6400, loss[loss=0.07887, simple_loss=0.1266, pruned_loss=0.01554, over 5696.00 frames. ], tot_loss[loss=0.1038, simple_loss=0.1347, pruned_loss=0.03645, over 1084756.71 frames. ], batch size: 34, lr: 6.11e-03, grad_scale: 8.0
2022-11-16 07:30:07,753 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=93666.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 07:30:16,123 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=93679.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 07:30:24,942 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=93692.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 07:30:39,893 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=93714.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 07:30:57,378 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=93740.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 07:30:57,984 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 9.087e+01 1.406e+02 1.692e+02 2.048e+02 4.065e+02, threshold=3.385e+02, percent-clipped=2.0
2022-11-16 07:31:13,826 INFO [train.py:876] (1/4) Epoch 13, batch 6500, loss[loss=0.1046, simple_loss=0.1406, pruned_loss=0.03431, over 5649.00 frames. ], tot_loss[loss=0.1025, simple_loss=0.1338, pruned_loss=0.03562, over 1082616.85 frames. ], batch size: 29, lr: 6.11e-03, grad_scale: 8.0
2022-11-16 07:31:17,579 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=93770.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 07:31:18,263 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=93771.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 07:31:29,810 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.4258, 1.0198, 1.2385, 1.0962, 1.2210, 1.2700, 0.8582, 1.0921],
       device='cuda:1'), covar=tensor([0.0251, 0.0426, 0.0281, 0.0504, 0.0400, 0.0199, 0.0739, 0.0257],
       device='cuda:1'), in_proj_covar=tensor([0.0016, 0.0026, 0.0018, 0.0022, 0.0018, 0.0017, 0.0024, 0.0017],
       device='cuda:1'), out_proj_covar=tensor([9.2249e-05, 1.2827e-04, 9.8158e-05, 1.1105e-04, 9.9141e-05, 9.3077e-05,
        1.2246e-04, 9.3162e-05], device='cuda:1')
2022-11-16 07:31:46,602 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.1403, 3.7856, 2.5836, 3.5478, 2.8585, 2.6099, 1.9833, 3.0564],
       device='cuda:1'), covar=tensor([0.1415, 0.0267, 0.1310, 0.0422, 0.1200, 0.1106, 0.2063, 0.0614],
       device='cuda:1'), in_proj_covar=tensor([0.0153, 0.0141, 0.0154, 0.0146, 0.0174, 0.0166, 0.0156, 0.0159],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0003, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004],
       device='cuda:1')
2022-11-16 07:31:50,711 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=93819.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 07:31:59,065 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=93831.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 07:32:05,378 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 7.939e+01 1.358e+02 1.733e+02 2.139e+02 3.711e+02, threshold=3.467e+02, percent-clipped=1.0
2022-11-16 07:32:21,362 INFO [train.py:876] (1/4) Epoch 13, batch 6600, loss[loss=0.09266, simple_loss=0.1247, pruned_loss=0.03029, over 5577.00 frames. ], tot_loss[loss=0.1026, simple_loss=0.1338, pruned_loss=0.03576, over 1079962.96 frames. ], batch size: 22, lr: 6.10e-03, grad_scale: 8.0
2022-11-16 07:32:24,133 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.9952, 1.8679, 1.9171, 1.6228, 1.5627, 1.9098, 1.8300, 2.0860],
       device='cuda:1'), covar=tensor([0.0062, 0.0070, 0.0051, 0.0081, 0.0072, 0.0052, 0.0051, 0.0056],
       device='cuda:1'), in_proj_covar=tensor([0.0067, 0.0061, 0.0060, 0.0066, 0.0063, 0.0059, 0.0056, 0.0055],
       device='cuda:1'), out_proj_covar=tensor([5.9403e-05, 5.3828e-05, 5.2533e-05, 5.8420e-05, 5.6120e-05, 5.1570e-05,
        4.9943e-05, 4.8475e-05], device='cuda:1')
2022-11-16 07:32:30,660 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.3489, 4.1780, 2.9123, 3.9382, 3.1118, 2.8141, 2.3908, 3.3187],
       device='cuda:1'), covar=tensor([0.1383, 0.0226, 0.0994, 0.0344, 0.0903, 0.1077, 0.1579, 0.0685],
       device='cuda:1'), in_proj_covar=tensor([0.0154, 0.0142, 0.0155, 0.0147, 0.0173, 0.0167, 0.0157, 0.0159],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0003, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004],
       device='cuda:1')
2022-11-16 07:32:32,312 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.6173, 1.8171, 1.9246, 1.5641, 1.2689, 2.3195, 2.0867, 1.5713],
       device='cuda:1'), covar=tensor([0.1678, 0.1532, 0.1600, 0.2830, 0.2585, 0.0854, 0.1109, 0.2068],
       device='cuda:1'), in_proj_covar=tensor([0.0110, 0.0102, 0.0100, 0.0103, 0.0075, 0.0072, 0.0082, 0.0093],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
       device='cuda:1')
2022-11-16 07:32:45,585 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.0561, 2.5777, 2.5688, 1.6513, 2.7712, 2.9560, 2.9411, 3.2345],
       device='cuda:1'), covar=tensor([0.1920, 0.1807, 0.1464, 0.2721, 0.0831, 0.0935, 0.0666, 0.0859],
       device='cuda:1'), in_proj_covar=tensor([0.0163, 0.0178, 0.0167, 0.0182, 0.0180, 0.0200, 0.0168, 0.0180],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004],
       device='cuda:1')
2022-11-16 07:33:13,070 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.008e+02 1.396e+02 1.723e+02 2.017e+02 3.846e+02, threshold=3.447e+02, percent-clipped=2.0
2022-11-16 07:33:13,856 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.4265, 2.2902, 2.3457, 2.3815, 2.4319, 2.2376, 2.6422, 2.4172],
       device='cuda:1'), covar=tensor([0.0657, 0.1067, 0.0744, 0.1430, 0.0798, 0.0563, 0.1059, 0.1001],
       device='cuda:1'), in_proj_covar=tensor([0.0090, 0.0111, 0.0098, 0.0125, 0.0091, 0.0082, 0.0148, 0.0107],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0003, 0.0002],
       device='cuda:1')
2022-11-16 07:33:17,960 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.88 vs. limit=2.0
2022-11-16 07:33:29,293 INFO [train.py:876] (1/4) Epoch 13, batch 6700, loss[loss=0.1457, simple_loss=0.1615, pruned_loss=0.06495, over 5451.00 frames. ], tot_loss[loss=0.1017, simple_loss=0.1333, pruned_loss=0.03511, over 1081540.30 frames. ], batch size: 53, lr: 6.10e-03, grad_scale: 8.0
2022-11-16 07:33:40,300 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=93981.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 07:34:19,865 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.9428, 4.2659, 3.9631, 3.6118, 2.0354, 4.2512, 2.4226, 3.7247],
       device='cuda:1'), covar=tensor([0.0383, 0.0149, 0.0157, 0.0364, 0.0710, 0.0158, 0.0521, 0.0169],
       device='cuda:1'), in_proj_covar=tensor([0.0194, 0.0183, 0.0181, 0.0209, 0.0196, 0.0185, 0.0194, 0.0187],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
       device='cuda:1')
2022-11-16 07:34:23,829 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 9.687e+01 1.406e+02 1.734e+02 2.317e+02 5.958e+02, threshold=3.468e+02, percent-clipped=4.0
2022-11-16 07:34:25,112 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=94042.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 07:34:36,499 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.6726, 2.3598, 2.9000, 3.5490, 3.5874, 2.7866, 2.5120, 3.5079],
       device='cuda:1'), covar=tensor([0.0982, 0.2964, 0.2142, 0.2767, 0.1210, 0.3015, 0.2315, 0.1180],
       device='cuda:1'), in_proj_covar=tensor([0.0261, 0.0196, 0.0186, 0.0298, 0.0226, 0.0203, 0.0188, 0.0251],
       device='cuda:1'), out_proj_covar=tensor([0.0006, 0.0005, 0.0005, 0.0006, 0.0005, 0.0005, 0.0005, 0.0006],
       device='cuda:1')
2022-11-16 07:34:40,853 INFO [train.py:876] (1/4) Epoch 13, batch 6800, loss[loss=0.1151, simple_loss=0.1346, pruned_loss=0.04778, over 5575.00 frames. ], tot_loss[loss=0.1013, simple_loss=0.133, pruned_loss=0.03484, over 1086765.20 frames. ], batch size: 46, lr: 6.10e-03, grad_scale: 8.0
2022-11-16 07:35:04,655 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.19 vs. limit=2.0
2022-11-16 07:35:22,149 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=94126.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 07:35:32,243 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 9.571e+01 1.399e+02 1.659e+02 1.999e+02 4.068e+02, threshold=3.319e+02, percent-clipped=3.0
2022-11-16 07:35:48,960 INFO [train.py:876] (1/4) Epoch 13, batch 6900, loss[loss=0.09929, simple_loss=0.1395, pruned_loss=0.02955, over 5534.00 frames. ], tot_loss[loss=0.1017, simple_loss=0.1331, pruned_loss=0.03517, over 1084978.00 frames. ], batch size: 21, lr: 6.09e-03, grad_scale: 16.0
2022-11-16 07:36:28,746 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=94223.0, num_to_drop=1, layers_to_drop={1}
2022-11-16 07:36:40,443 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 8.408e+01 1.493e+02 1.868e+02 2.271e+02 3.997e+02, threshold=3.737e+02, percent-clipped=4.0
2022-11-16 07:36:56,958 INFO [train.py:876] (1/4) Epoch 13, batch 7000, loss[loss=0.1291, simple_loss=0.1429, pruned_loss=0.05767, over 4126.00 frames. ], tot_loss[loss=0.1014, simple_loss=0.1327, pruned_loss=0.03502, over 1082264.18 frames. ], batch size: 181, lr: 6.09e-03, grad_scale: 16.0
2022-11-16 07:37:09,849 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=94284.0, num_to_drop=1, layers_to_drop={0}
2022-11-16 07:37:21,679 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.3870, 1.7670, 1.3497, 1.1725, 1.5068, 1.8511, 1.8564, 1.8544],
       device='cuda:1'), covar=tensor([0.1592, 0.1199, 0.2371, 0.2634, 0.1443, 0.1240, 0.1097, 0.1357],
       device='cuda:1'), in_proj_covar=tensor([0.0165, 0.0181, 0.0168, 0.0184, 0.0185, 0.0204, 0.0171, 0.0184],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004],
       device='cuda:1')
2022-11-16 07:37:45,781 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=94337.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 07:37:48,222 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 8.793e+01 1.390e+02 1.725e+02 2.069e+02 3.894e+02, threshold=3.450e+02, percent-clipped=1.0
2022-11-16 07:37:52,958 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=94348.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 07:38:04,148 INFO [train.py:876] (1/4) Epoch 13, batch 7100, loss[loss=0.1017, simple_loss=0.1377, pruned_loss=0.03286, over 5590.00 frames. ], tot_loss[loss=0.102, simple_loss=0.1339, pruned_loss=0.03504, over 1086085.88 frames. ], batch size: 50, lr: 6.09e-03, grad_scale: 16.0
2022-11-16 07:38:21,742 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.37 vs. limit=2.0
2022-11-16 07:38:32,402 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=3.17 vs. limit=5.0
2022-11-16 07:38:34,084 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=94409.0, num_to_drop=1, layers_to_drop={1}
2022-11-16 07:38:45,569 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=94426.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 07:38:56,308 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 7.683e+01 1.440e+02 1.714e+02 2.140e+02 3.966e+02, threshold=3.428e+02, percent-clipped=2.0
2022-11-16 07:38:57,744 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([4.3480, 4.4900, 4.2434, 4.1165, 4.4455, 4.2590, 2.0393, 4.5287],
       device='cuda:1'), covar=tensor([0.0261, 0.0271, 0.0339, 0.0285, 0.0291, 0.0290, 0.2710, 0.0267],
       device='cuda:1'), in_proj_covar=tensor([0.0105, 0.0090, 0.0088, 0.0083, 0.0103, 0.0091, 0.0131, 0.0109],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
       device='cuda:1')
2022-11-16 07:39:12,056 INFO [train.py:876] (1/4) Epoch 13, batch 7200, loss[loss=0.07273, simple_loss=0.1048, pruned_loss=0.02034, over 5386.00 frames. ], tot_loss[loss=0.1005, simple_loss=0.1327, pruned_loss=0.0342, over 1084560.60 frames. ], batch size: 9, lr: 6.08e-03, grad_scale: 16.0
2022-11-16 07:39:18,280 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=94474.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 07:40:43,964 INFO [train.py:876] (1/4) Epoch 14, batch 0, loss[loss=0.09143, simple_loss=0.1281, pruned_loss=0.02736, over 5741.00 frames. ], tot_loss[loss=0.09143, simple_loss=0.1281, pruned_loss=0.02736, over 5741.00 frames. ], batch size: 31, lr: 5.86e-03, grad_scale: 16.0
2022-11-16 07:40:43,964 INFO [train.py:899] (1/4) Computing validation loss
2022-11-16 07:41:00,498 INFO [train.py:908] (1/4) Epoch 14, validation: loss=0.1755, simple_loss=0.1868, pruned_loss=0.08205, over 1530663.00 frames. 
2022-11-16 07:41:00,499 INFO [train.py:909] (1/4) Maximum memory allocated so far is 4676MB
2022-11-16 07:41:03,038 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 7.829e+01 1.398e+02 1.682e+02 2.138e+02 4.621e+02, threshold=3.364e+02, percent-clipped=3.0
2022-11-16 07:41:29,025 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=94579.0, num_to_drop=1, layers_to_drop={2}
2022-11-16 07:41:42,949 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.1038, 1.5105, 1.8486, 1.3743, 1.5935, 1.8138, 1.3556, 1.6815],
       device='cuda:1'), covar=tensor([0.0870, 0.0862, 0.0544, 0.0883, 0.1637, 0.0832, 0.0664, 0.0278],
       device='cuda:1'), in_proj_covar=tensor([0.0016, 0.0026, 0.0018, 0.0022, 0.0018, 0.0016, 0.0024, 0.0017],
       device='cuda:1'), out_proj_covar=tensor([9.1629e-05, 1.2796e-04, 9.8377e-05, 1.1114e-04, 9.9074e-05, 9.2395e-05,
        1.2169e-04, 9.2844e-05], device='cuda:1')
2022-11-16 07:41:44,927 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.8952, 2.6012, 2.6716, 1.4162, 2.8449, 2.9685, 2.8381, 3.1127],
       device='cuda:1'), covar=tensor([0.1954, 0.1765, 0.1106, 0.3149, 0.0714, 0.1067, 0.0624, 0.0987],
       device='cuda:1'), in_proj_covar=tensor([0.0164, 0.0178, 0.0167, 0.0181, 0.0181, 0.0201, 0.0169, 0.0182],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004],
       device='cuda:1')
2022-11-16 07:42:08,084 INFO [train.py:876] (1/4) Epoch 14, batch 100, loss[loss=0.0802, simple_loss=0.1085, pruned_loss=0.02597, over 5445.00 frames. ], tot_loss[loss=0.1049, simple_loss=0.1371, pruned_loss=0.03635, over 434297.42 frames. ], batch size: 11, lr: 5.86e-03, grad_scale: 16.0
2022-11-16 07:42:08,196 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=94637.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 07:42:10,677 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 8.173e+01 1.465e+02 1.762e+02 2.317e+02 5.551e+02, threshold=3.525e+02, percent-clipped=6.0
2022-11-16 07:42:36,819 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.7914, 1.0784, 1.9755, 1.4287, 1.6326, 1.9306, 1.4767, 1.4798],
       device='cuda:1'), covar=tensor([0.0041, 0.0162, 0.0050, 0.0070, 0.0086, 0.0052, 0.0060, 0.0053],
       device='cuda:1'), in_proj_covar=tensor([0.0031, 0.0029, 0.0029, 0.0038, 0.0033, 0.0029, 0.0037, 0.0034],
       device='cuda:1'), out_proj_covar=tensor([2.8677e-05, 2.6953e-05, 2.5800e-05, 3.6032e-05, 3.0345e-05, 2.8100e-05,
        3.5039e-05, 3.2647e-05], device='cuda:1')
2022-11-16 07:42:40,596 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=94685.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 07:42:52,941 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=94704.0, num_to_drop=1, layers_to_drop={1}
2022-11-16 07:43:05,546 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.61 vs. limit=2.0
2022-11-16 07:43:15,765 INFO [train.py:876] (1/4) Epoch 14, batch 200, loss[loss=0.1072, simple_loss=0.1453, pruned_loss=0.03453, over 5800.00 frames. ], tot_loss[loss=0.1045, simple_loss=0.1352, pruned_loss=0.03689, over 690360.59 frames. ], batch size: 26, lr: 5.85e-03, grad_scale: 16.0
2022-11-16 07:43:18,005 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=1.69 vs. limit=2.0
2022-11-16 07:43:18,294 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.022e+02 1.376e+02 1.680e+02 2.123e+02 3.782e+02, threshold=3.359e+02, percent-clipped=1.0
2022-11-16 07:43:58,000 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.0279, 3.1769, 2.4220, 1.7362, 3.0273, 1.4048, 3.0056, 1.8657],
       device='cuda:1'), covar=tensor([0.1490, 0.0231, 0.1055, 0.1634, 0.0285, 0.1859, 0.0307, 0.1421],
       device='cuda:1'), in_proj_covar=tensor([0.0119, 0.0104, 0.0115, 0.0110, 0.0103, 0.0117, 0.0099, 0.0109],
       device='cuda:1'), out_proj_covar=tensor([0.0005, 0.0004, 0.0005, 0.0005, 0.0004, 0.0005, 0.0004, 0.0004],
       device='cuda:1')
2022-11-16 07:44:22,094 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.61 vs. limit=2.0
2022-11-16 07:44:22,890 INFO [train.py:876] (1/4) Epoch 14, batch 300, loss[loss=0.08464, simple_loss=0.1202, pruned_loss=0.02454, over 5568.00 frames. ], tot_loss[loss=0.1043, simple_loss=0.1345, pruned_loss=0.03709, over 843800.83 frames. ], batch size: 15, lr: 5.85e-03, grad_scale: 16.0
2022-11-16 07:44:25,437 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 8.663e+01 1.544e+02 1.893e+02 2.592e+02 6.103e+02, threshold=3.786e+02, percent-clipped=6.0
2022-11-16 07:44:50,717 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=94879.0, num_to_drop=1, layers_to_drop={0}
2022-11-16 07:45:01,491 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=1.84 vs. limit=2.0
2022-11-16 07:45:19,583 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.6833, 1.3995, 1.6787, 1.0287, 1.8126, 1.7911, 0.9627, 1.1942],
       device='cuda:1'), covar=tensor([0.0441, 0.0505, 0.0426, 0.0811, 0.0302, 0.0418, 0.0804, 0.0735],
       device='cuda:1'), in_proj_covar=tensor([0.0016, 0.0026, 0.0018, 0.0022, 0.0018, 0.0017, 0.0025, 0.0017],
       device='cuda:1'), out_proj_covar=tensor([9.3079e-05, 1.3059e-04, 9.9470e-05, 1.1298e-04, 1.0021e-04, 9.3665e-05,
        1.2407e-04, 9.4054e-05], device='cuda:1')
2022-11-16 07:45:22,538 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=94927.0, num_to_drop=1, layers_to_drop={0}
2022-11-16 07:45:29,277 INFO [train.py:876] (1/4) Epoch 14, batch 400, loss[loss=0.09848, simple_loss=0.1411, pruned_loss=0.02792, over 5749.00 frames. ], tot_loss[loss=0.1016, simple_loss=0.1336, pruned_loss=0.03483, over 948088.62 frames. ], batch size: 14, lr: 5.85e-03, grad_scale: 16.0
2022-11-16 07:45:32,605 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 9.318e+01 1.380e+02 1.703e+02 1.935e+02 3.356e+02, threshold=3.406e+02, percent-clipped=0.0
2022-11-16 07:46:19,813 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=95004.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 07:46:29,946 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([4.7764, 4.2974, 4.5063, 4.3067, 4.8246, 4.6248, 4.2474, 4.7895],
       device='cuda:1'), covar=tensor([0.0356, 0.0434, 0.0532, 0.0374, 0.0356, 0.0294, 0.0303, 0.0306],
       device='cuda:1'), in_proj_covar=tensor([0.0147, 0.0157, 0.0113, 0.0147, 0.0188, 0.0113, 0.0130, 0.0159],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003],
       device='cuda:1')
2022-11-16 07:46:34,500 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.7487, 2.0728, 1.7634, 1.3264, 2.0050, 2.3145, 2.1410, 2.3872],
       device='cuda:1'), covar=tensor([0.1665, 0.1550, 0.2147, 0.2740, 0.1264, 0.1076, 0.0851, 0.1060],
       device='cuda:1'), in_proj_covar=tensor([0.0165, 0.0179, 0.0169, 0.0181, 0.0184, 0.0202, 0.0170, 0.0182],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004],
       device='cuda:1')
2022-11-16 07:46:40,791 INFO [train.py:876] (1/4) Epoch 14, batch 500, loss[loss=0.1219, simple_loss=0.1474, pruned_loss=0.04819, over 5112.00 frames. ], tot_loss[loss=0.1008, simple_loss=0.133, pruned_loss=0.03427, over 1002723.47 frames. ], batch size: 91, lr: 5.84e-03, grad_scale: 16.0
2022-11-16 07:46:43,324 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 8.308e+01 1.428e+02 1.816e+02 2.349e+02 3.391e+02, threshold=3.632e+02, percent-clipped=0.0
2022-11-16 07:46:51,590 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=95052.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 07:47:00,957 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.5369, 1.3887, 1.3719, 1.1744, 1.4849, 1.4310, 0.9452, 1.2683],
       device='cuda:1'), covar=tensor([0.0505, 0.0484, 0.0403, 0.0780, 0.0291, 0.0662, 0.0820, 0.0646],
       device='cuda:1'), in_proj_covar=tensor([0.0017, 0.0026, 0.0018, 0.0022, 0.0018, 0.0017, 0.0025, 0.0017],
       device='cuda:1'), out_proj_covar=tensor([9.3212e-05, 1.3084e-04, 9.9017e-05, 1.1338e-04, 9.9644e-05, 9.3655e-05,
        1.2393e-04, 9.3606e-05], device='cuda:1')
2022-11-16 07:47:26,150 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=95105.0, num_to_drop=1, layers_to_drop={1}
2022-11-16 07:47:26,230 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.18 vs. limit=2.0
2022-11-16 07:47:48,216 INFO [train.py:876] (1/4) Epoch 14, batch 600, loss[loss=0.1067, simple_loss=0.1277, pruned_loss=0.04283, over 5222.00 frames. ], tot_loss[loss=0.1004, simple_loss=0.1324, pruned_loss=0.03414, over 1039077.79 frames. ], batch size: 8, lr: 5.84e-03, grad_scale: 16.0
2022-11-16 07:47:50,760 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 6.356e+01 1.449e+02 1.769e+02 2.281e+02 4.546e+02, threshold=3.538e+02, percent-clipped=1.0
2022-11-16 07:48:07,444 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=95166.0, num_to_drop=1, layers_to_drop={3}
2022-11-16 07:48:56,203 INFO [train.py:876] (1/4) Epoch 14, batch 700, loss[loss=0.1483, simple_loss=0.16, pruned_loss=0.06834, over 4707.00 frames. ], tot_loss[loss=0.1016, simple_loss=0.1335, pruned_loss=0.0349, over 1061248.62 frames. ], batch size: 135, lr: 5.84e-03, grad_scale: 16.0
2022-11-16 07:48:58,828 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 9.646e+01 1.509e+02 1.874e+02 2.495e+02 6.608e+02, threshold=3.748e+02, percent-clipped=12.0
2022-11-16 07:49:11,293 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=95260.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 07:49:16,495 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=95268.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 07:49:52,351 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=95321.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 07:49:58,179 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.4010, 4.5175, 2.7883, 4.3129, 3.5939, 3.0117, 2.2469, 3.8716],
       device='cuda:1'), covar=tensor([0.1518, 0.0186, 0.1230, 0.0417, 0.0655, 0.1036, 0.2166, 0.0309],
       device='cuda:1'), in_proj_covar=tensor([0.0153, 0.0140, 0.0153, 0.0147, 0.0172, 0.0166, 0.0156, 0.0156],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0003, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004],
       device='cuda:1')
2022-11-16 07:49:58,237 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=95329.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 07:50:03,505 INFO [train.py:876] (1/4) Epoch 14, batch 800, loss[loss=0.09299, simple_loss=0.1373, pruned_loss=0.02435, over 5603.00 frames. ], tot_loss[loss=0.1013, simple_loss=0.133, pruned_loss=0.03483, over 1070043.29 frames. ], batch size: 23, lr: 5.83e-03, grad_scale: 16.0
2022-11-16 07:50:04,887 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=95339.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 07:50:06,024 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 8.478e+01 1.483e+02 1.769e+02 2.212e+02 4.574e+02, threshold=3.537e+02, percent-clipped=3.0
2022-11-16 07:50:14,295 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.73 vs. limit=2.0
2022-11-16 07:50:26,356 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.1943, 1.6448, 1.2222, 1.1031, 1.5561, 1.0300, 0.8334, 1.5869],
       device='cuda:1'), covar=tensor([0.0071, 0.0041, 0.0056, 0.0079, 0.0050, 0.0069, 0.0104, 0.0047],
       device='cuda:1'), in_proj_covar=tensor([0.0064, 0.0059, 0.0059, 0.0064, 0.0061, 0.0057, 0.0056, 0.0054],
       device='cuda:1'), out_proj_covar=tensor([5.6901e-05, 5.2032e-05, 5.1082e-05, 5.6396e-05, 5.3891e-05, 4.9935e-05,
        4.9219e-05, 4.6873e-05], device='cuda:1')
2022-11-16 07:50:46,450 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=95400.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 07:51:11,128 INFO [train.py:876] (1/4) Epoch 14, batch 900, loss[loss=0.1142, simple_loss=0.1386, pruned_loss=0.04493, over 5776.00 frames. ], tot_loss[loss=0.1018, simple_loss=0.1332, pruned_loss=0.0352, over 1074231.40 frames. ], batch size: 14, lr: 5.83e-03, grad_scale: 16.0
2022-11-16 07:51:13,910 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 8.380e+01 1.449e+02 1.681e+02 2.078e+02 5.193e+02, threshold=3.361e+02, percent-clipped=2.0
2022-11-16 07:51:26,948 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=95461.0, num_to_drop=1, layers_to_drop={1}
2022-11-16 07:51:34,870 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.0545, 3.5804, 2.8160, 1.5833, 3.4287, 1.3615, 3.5163, 1.7274],
       device='cuda:1'), covar=tensor([0.2157, 0.0451, 0.1096, 0.2811, 0.0414, 0.2834, 0.0405, 0.2611],
       device='cuda:1'), in_proj_covar=tensor([0.0119, 0.0104, 0.0115, 0.0111, 0.0103, 0.0118, 0.0099, 0.0108],
       device='cuda:1'), out_proj_covar=tensor([0.0005, 0.0004, 0.0005, 0.0005, 0.0004, 0.0005, 0.0004, 0.0004],
       device='cuda:1')
2022-11-16 07:51:54,439 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.30 vs. limit=2.0
2022-11-16 07:52:17,322 INFO [train.py:876] (1/4) Epoch 14, batch 1000, loss[loss=0.1007, simple_loss=0.1298, pruned_loss=0.03579, over 5117.00 frames. ], tot_loss[loss=0.1009, simple_loss=0.1329, pruned_loss=0.0344, over 1083280.78 frames. ], batch size: 91, lr: 5.83e-03, grad_scale: 16.0
2022-11-16 07:52:19,862 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 8.883e+01 1.427e+02 1.771e+02 2.173e+02 4.557e+02, threshold=3.542e+02, percent-clipped=6.0
2022-11-16 07:52:38,563 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.2494, 1.2232, 1.8858, 1.6766, 1.6257, 1.6480, 1.8838, 1.5973],
       device='cuda:1'), covar=tensor([0.0041, 0.0130, 0.0065, 0.0061, 0.0119, 0.0336, 0.0051, 0.0075],
       device='cuda:1'), in_proj_covar=tensor([0.0032, 0.0029, 0.0030, 0.0038, 0.0033, 0.0030, 0.0037, 0.0036],
       device='cuda:1'), out_proj_covar=tensor([2.9080e-05, 2.7498e-05, 2.6524e-05, 3.6489e-05, 3.0941e-05, 2.8905e-05,
        3.5211e-05, 3.3963e-05], device='cuda:1')
2022-11-16 07:52:41,436 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=1.66 vs. limit=2.0
2022-11-16 07:52:43,861 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.2188, 1.8953, 2.1825, 2.3657, 2.6740, 2.0275, 1.7385, 2.4180],
       device='cuda:1'), covar=tensor([0.2363, 0.2327, 0.1943, 0.1027, 0.1157, 0.2514, 0.2258, 0.1945],
       device='cuda:1'), in_proj_covar=tensor([0.0259, 0.0196, 0.0187, 0.0299, 0.0224, 0.0199, 0.0187, 0.0248],
       device='cuda:1'), out_proj_covar=tensor([0.0006, 0.0005, 0.0005, 0.0006, 0.0005, 0.0005, 0.0005, 0.0006],
       device='cuda:1')
2022-11-16 07:53:11,116 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=95616.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 07:53:11,835 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=95617.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 07:53:16,358 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=95624.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 07:53:24,670 INFO [train.py:876] (1/4) Epoch 14, batch 1100, loss[loss=0.1406, simple_loss=0.1556, pruned_loss=0.06279, over 5433.00 frames. ], tot_loss[loss=0.101, simple_loss=0.133, pruned_loss=0.03447, over 1084681.20 frames. ], batch size: 58, lr: 5.83e-03, grad_scale: 16.0
2022-11-16 07:53:27,206 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 7.869e+01 1.386e+02 1.674e+02 2.201e+02 3.601e+02, threshold=3.349e+02, percent-clipped=2.0
2022-11-16 07:53:40,387 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.62 vs. limit=2.0
2022-11-16 07:53:49,144 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.6987, 2.8108, 2.5102, 2.8909, 2.3332, 2.4942, 2.5491, 3.3519],
       device='cuda:1'), covar=tensor([0.0991, 0.0914, 0.1413, 0.0965, 0.1171, 0.0699, 0.1206, 0.1303],
       device='cuda:1'), in_proj_covar=tensor([0.0116, 0.0110, 0.0109, 0.0110, 0.0095, 0.0105, 0.0100, 0.0086],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0003],
       device='cuda:1')
2022-11-16 07:53:52,124 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=2.09 vs. limit=2.0
2022-11-16 07:53:53,096 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=95678.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 07:54:03,921 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=95695.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 07:54:32,046 INFO [train.py:876] (1/4) Epoch 14, batch 1200, loss[loss=0.09493, simple_loss=0.1198, pruned_loss=0.03502, over 5433.00 frames. ], tot_loss[loss=0.1016, simple_loss=0.1329, pruned_loss=0.03521, over 1077062.44 frames. ], batch size: 11, lr: 5.82e-03, grad_scale: 16.0
2022-11-16 07:54:34,544 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 8.521e+01 1.381e+02 1.760e+02 2.068e+02 4.246e+02, threshold=3.521e+02, percent-clipped=4.0
2022-11-16 07:54:40,616 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.9783, 1.3918, 2.0543, 1.5498, 1.6107, 1.9322, 1.5930, 1.4294],
       device='cuda:1'), covar=tensor([0.0044, 0.0090, 0.0035, 0.0071, 0.0096, 0.0057, 0.0052, 0.0062],
       device='cuda:1'), in_proj_covar=tensor([0.0031, 0.0029, 0.0029, 0.0038, 0.0033, 0.0030, 0.0036, 0.0035],
       device='cuda:1'), out_proj_covar=tensor([2.8437e-05, 2.6978e-05, 2.6018e-05, 3.5975e-05, 3.0395e-05, 2.8391e-05,
        3.4645e-05, 3.3324e-05], device='cuda:1')
2022-11-16 07:54:47,842 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=95761.0, num_to_drop=1, layers_to_drop={2}
2022-11-16 07:55:05,807 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([0.6920, 0.5173, 0.7075, 0.5263, 0.7857, 0.6781, 0.3832, 0.5582],
       device='cuda:1'), covar=tensor([0.0316, 0.0526, 0.0513, 0.0503, 0.0444, 0.0411, 0.0796, 0.0390],
       device='cuda:1'), in_proj_covar=tensor([0.0017, 0.0026, 0.0019, 0.0022, 0.0019, 0.0017, 0.0025, 0.0017],
       device='cuda:1'), out_proj_covar=tensor([9.4247e-05, 1.3138e-04, 1.0085e-04, 1.1406e-04, 1.0185e-04, 9.5262e-05,
        1.2579e-04, 9.4257e-05], device='cuda:1')
2022-11-16 07:55:16,502 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.13 vs. limit=2.0
2022-11-16 07:55:20,102 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=95809.0, num_to_drop=1, layers_to_drop={1}
2022-11-16 07:55:22,115 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=95812.0, num_to_drop=1, layers_to_drop={0}
2022-11-16 07:55:38,695 INFO [train.py:876] (1/4) Epoch 14, batch 1300, loss[loss=0.08236, simple_loss=0.1217, pruned_loss=0.02151, over 5746.00 frames. ], tot_loss[loss=0.1021, simple_loss=0.1335, pruned_loss=0.03538, over 1083874.30 frames. ], batch size: 15, lr: 5.82e-03, grad_scale: 16.0
2022-11-16 07:55:41,903 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 9.562e+01 1.314e+02 1.675e+02 2.012e+02 3.727e+02, threshold=3.350e+02, percent-clipped=1.0
2022-11-16 07:55:42,773 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.5063, 4.4801, 3.2475, 4.4119, 3.4929, 3.0702, 2.6261, 3.7058],
       device='cuda:1'), covar=tensor([0.1409, 0.0257, 0.1010, 0.0277, 0.0827, 0.1024, 0.1903, 0.0550],
       device='cuda:1'), in_proj_covar=tensor([0.0153, 0.0141, 0.0153, 0.0145, 0.0172, 0.0166, 0.0157, 0.0157],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0003, 0.0004, 0.0003, 0.0004, 0.0004, 0.0004, 0.0004],
       device='cuda:1')
2022-11-16 07:55:45,966 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=95847.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 07:56:02,943 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=95873.0, num_to_drop=1, layers_to_drop={1}
2022-11-16 07:56:27,147 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=95908.0, num_to_drop=1, layers_to_drop={2}
2022-11-16 07:56:32,273 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=95916.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 07:56:37,643 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=95924.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 07:56:46,580 INFO [train.py:876] (1/4) Epoch 14, batch 1400, loss[loss=0.1138, simple_loss=0.1338, pruned_loss=0.04692, over 4977.00 frames. ], tot_loss[loss=0.1008, simple_loss=0.1325, pruned_loss=0.03451, over 1086586.95 frames. ], batch size: 109, lr: 5.82e-03, grad_scale: 16.0
2022-11-16 07:56:49,504 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 9.691e+01 1.448e+02 1.696e+02 2.137e+02 4.589e+02, threshold=3.392e+02, percent-clipped=2.0
2022-11-16 07:57:01,993 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.3716, 2.9601, 3.0302, 2.8236, 1.8558, 2.9955, 2.0326, 2.7362],
       device='cuda:1'), covar=tensor([0.0363, 0.0243, 0.0209, 0.0336, 0.0546, 0.0219, 0.0516, 0.0192],
       device='cuda:1'), in_proj_covar=tensor([0.0195, 0.0183, 0.0181, 0.0207, 0.0195, 0.0183, 0.0193, 0.0185],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
       device='cuda:1')
2022-11-16 07:57:03,264 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.6379, 3.8744, 3.5541, 3.3702, 1.9689, 3.7328, 2.2187, 3.1744],
       device='cuda:1'), covar=tensor([0.0414, 0.0194, 0.0205, 0.0345, 0.0634, 0.0224, 0.0558, 0.0168],
       device='cuda:1'), in_proj_covar=tensor([0.0195, 0.0183, 0.0181, 0.0207, 0.0195, 0.0183, 0.0194, 0.0185],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
       device='cuda:1')
2022-11-16 07:57:04,969 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=95964.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 07:57:10,144 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=95972.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 07:57:10,813 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=95973.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 07:57:15,491 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=95980.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 07:57:25,798 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=95995.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 07:57:51,185 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=1.99 vs. limit=2.0
2022-11-16 07:57:54,063 INFO [train.py:876] (1/4) Epoch 14, batch 1500, loss[loss=0.06912, simple_loss=0.1056, pruned_loss=0.0163, over 5711.00 frames. ], tot_loss[loss=0.101, simple_loss=0.1332, pruned_loss=0.03444, over 1084744.24 frames. ], batch size: 11, lr: 5.81e-03, grad_scale: 16.0
2022-11-16 07:57:56,679 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.019e+02 1.465e+02 1.739e+02 2.113e+02 3.912e+02, threshold=3.478e+02, percent-clipped=1.0
2022-11-16 07:57:56,881 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=96041.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 07:57:58,092 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=96043.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 07:58:24,068 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=96080.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 07:58:33,185 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.0976, 4.3701, 4.1580, 3.7564, 2.3213, 4.4773, 2.5307, 4.1093],
       device='cuda:1'), covar=tensor([0.0426, 0.0172, 0.0178, 0.0360, 0.0689, 0.0134, 0.0568, 0.0114],
       device='cuda:1'), in_proj_covar=tensor([0.0196, 0.0183, 0.0182, 0.0208, 0.0196, 0.0184, 0.0195, 0.0186],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
       device='cuda:1')
2022-11-16 07:58:50,357 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=3.59 vs. limit=5.0
2022-11-16 07:59:02,197 INFO [train.py:876] (1/4) Epoch 14, batch 1600, loss[loss=0.1169, simple_loss=0.1484, pruned_loss=0.04269, over 5543.00 frames. ], tot_loss[loss=0.09997, simple_loss=0.1324, pruned_loss=0.03379, over 1084437.30 frames. ], batch size: 40, lr: 5.81e-03, grad_scale: 16.0
2022-11-16 07:59:04,692 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 7.966e+01 1.432e+02 1.726e+02 2.177e+02 5.569e+02, threshold=3.453e+02, percent-clipped=4.0
2022-11-16 07:59:04,908 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=96141.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 07:59:21,829 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=96165.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 07:59:23,742 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=96168.0, num_to_drop=1, layers_to_drop={0}
2022-11-16 07:59:35,490 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([4.7136, 4.3000, 4.5359, 4.3058, 4.8086, 4.5943, 4.1484, 4.7825],
       device='cuda:1'), covar=tensor([0.0326, 0.0329, 0.0421, 0.0318, 0.0297, 0.0255, 0.0295, 0.0244],
       device='cuda:1'), in_proj_covar=tensor([0.0146, 0.0156, 0.0110, 0.0146, 0.0184, 0.0114, 0.0130, 0.0155],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003],
       device='cuda:1')
2022-11-16 07:59:46,891 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=96203.0, num_to_drop=1, layers_to_drop={1}
2022-11-16 08:00:03,439 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=96226.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 08:00:10,794 INFO [train.py:876] (1/4) Epoch 14, batch 1700, loss[loss=0.1063, simple_loss=0.1401, pruned_loss=0.03626, over 5709.00 frames. ], tot_loss[loss=0.1005, simple_loss=0.1326, pruned_loss=0.03417, over 1087569.56 frames. ], batch size: 34, lr: 5.81e-03, grad_scale: 16.0
2022-11-16 08:00:10,922 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.7716, 1.6624, 1.6898, 1.4600, 1.7218, 2.0127, 1.4730, 1.4956],
       device='cuda:1'), covar=tensor([0.0058, 0.0071, 0.0076, 0.0071, 0.0073, 0.0072, 0.0052, 0.0059],
       device='cuda:1'), in_proj_covar=tensor([0.0032, 0.0030, 0.0030, 0.0039, 0.0033, 0.0030, 0.0037, 0.0036],
       device='cuda:1'), out_proj_covar=tensor([2.9202e-05, 2.7893e-05, 2.6908e-05, 3.6919e-05, 3.0737e-05, 2.8796e-05,
        3.5053e-05, 3.4358e-05], device='cuda:1')
2022-11-16 08:00:14,147 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 9.983e+01 1.431e+02 1.731e+02 2.193e+02 6.139e+02, threshold=3.462e+02, percent-clipped=4.0
2022-11-16 08:00:36,046 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=96273.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 08:00:44,082 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=1.74 vs. limit=2.0
2022-11-16 08:00:54,126 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.9303, 3.5170, 3.1865, 3.5178, 3.4997, 3.1177, 3.0756, 3.1578],
       device='cuda:1'), covar=tensor([0.1441, 0.0483, 0.1342, 0.0445, 0.0525, 0.0495, 0.0966, 0.0618],
       device='cuda:1'), in_proj_covar=tensor([0.0132, 0.0179, 0.0273, 0.0176, 0.0221, 0.0174, 0.0191, 0.0177],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0004, 0.0002, 0.0003, 0.0002, 0.0003, 0.0002],
       device='cuda:1')
2022-11-16 08:01:07,790 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=96321.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 08:01:10,180 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=96324.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 08:01:18,262 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=96336.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 08:01:18,842 INFO [train.py:876] (1/4) Epoch 14, batch 1800, loss[loss=0.06859, simple_loss=0.1076, pruned_loss=0.0148, over 5580.00 frames. ], tot_loss[loss=0.1001, simple_loss=0.132, pruned_loss=0.03411, over 1085915.14 frames. ], batch size: 16, lr: 5.80e-03, grad_scale: 16.0
2022-11-16 08:01:22,026 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 8.395e+01 1.406e+02 1.732e+02 2.199e+02 6.902e+02, threshold=3.464e+02, percent-clipped=4.0
2022-11-16 08:01:44,625 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.0007, 2.2054, 2.6632, 2.5634, 2.5169, 2.0674, 2.6085, 2.8960],
       device='cuda:1'), covar=tensor([0.0780, 0.1274, 0.0915, 0.1154, 0.1130, 0.1499, 0.0972, 0.0888],
       device='cuda:1'), in_proj_covar=tensor([0.0245, 0.0193, 0.0214, 0.0211, 0.0240, 0.0194, 0.0222, 0.0231],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004],
       device='cuda:1')
2022-11-16 08:01:46,476 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([4.7524, 4.5615, 4.8237, 4.9054, 4.5974, 4.4428, 5.4303, 4.8212],
       device='cuda:1'), covar=tensor([0.0483, 0.1164, 0.0345, 0.1126, 0.0438, 0.0326, 0.0488, 0.0534],
       device='cuda:1'), in_proj_covar=tensor([0.0091, 0.0112, 0.0097, 0.0124, 0.0091, 0.0083, 0.0148, 0.0108],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0003, 0.0002],
       device='cuda:1')
2022-11-16 08:01:46,560 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.9047, 2.6013, 3.0765, 2.1839, 2.2372, 3.6450, 2.9229, 2.5503],
       device='cuda:1'), covar=tensor([0.0807, 0.1445, 0.0782, 0.2339, 0.1939, 0.0851, 0.0722, 0.1207],
       device='cuda:1'), in_proj_covar=tensor([0.0114, 0.0104, 0.0105, 0.0104, 0.0076, 0.0072, 0.0084, 0.0095],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
       device='cuda:1')
2022-11-16 08:01:50,738 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=96385.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 08:01:54,340 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=96390.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 08:02:06,197 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.7385, 4.8946, 3.1907, 4.6617, 3.6252, 3.3462, 3.0031, 4.0405],
       device='cuda:1'), covar=tensor([0.1393, 0.0178, 0.1051, 0.0438, 0.0570, 0.0878, 0.1513, 0.0445],
       device='cuda:1'), in_proj_covar=tensor([0.0152, 0.0139, 0.0152, 0.0146, 0.0171, 0.0165, 0.0156, 0.0156],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0003, 0.0004, 0.0003, 0.0004, 0.0004, 0.0004, 0.0004],
       device='cuda:1')
2022-11-16 08:02:25,305 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=96436.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 08:02:25,903 INFO [train.py:876] (1/4) Epoch 14, batch 1900, loss[loss=0.07915, simple_loss=0.1152, pruned_loss=0.02153, over 5742.00 frames. ], tot_loss[loss=0.1033, simple_loss=0.1342, pruned_loss=0.03623, over 1084525.38 frames. ], batch size: 13, lr: 5.80e-03, grad_scale: 16.0
2022-11-16 08:02:29,415 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 8.308e+01 1.441e+02 1.720e+02 2.105e+02 7.193e+02, threshold=3.439e+02, percent-clipped=2.0
2022-11-16 08:02:29,634 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.3123, 1.6209, 1.4474, 1.2979, 1.6388, 1.4805, 1.3204, 1.4904],
       device='cuda:1'), covar=tensor([0.0079, 0.0047, 0.0065, 0.0071, 0.0056, 0.0053, 0.0059, 0.0063],
       device='cuda:1'), in_proj_covar=tensor([0.0066, 0.0060, 0.0060, 0.0066, 0.0063, 0.0059, 0.0057, 0.0056],
       device='cuda:1'), out_proj_covar=tensor([5.8522e-05, 5.3427e-05, 5.2092e-05, 5.7792e-05, 5.5751e-05, 5.0685e-05,
        5.0095e-05, 4.8736e-05], device='cuda:1')
2022-11-16 08:02:35,452 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=96451.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 08:02:46,377 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=96468.0, num_to_drop=1, layers_to_drop={0}
2022-11-16 08:02:47,754 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.7873, 2.2686, 2.6357, 3.6076, 3.4837, 2.6064, 2.4566, 3.7039],
       device='cuda:1'), covar=tensor([0.0746, 0.2829, 0.2644, 0.2574, 0.1266, 0.3256, 0.2298, 0.0843],
       device='cuda:1'), in_proj_covar=tensor([0.0261, 0.0197, 0.0188, 0.0297, 0.0226, 0.0201, 0.0190, 0.0248],
       device='cuda:1'), out_proj_covar=tensor([0.0006, 0.0005, 0.0005, 0.0006, 0.0005, 0.0005, 0.0005, 0.0006],
       device='cuda:1')
2022-11-16 08:02:56,231 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.65 vs. limit=2.0
2022-11-16 08:02:58,598 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.2607, 3.7152, 3.3966, 3.7368, 3.7438, 3.1612, 3.3191, 3.2108],
       device='cuda:1'), covar=tensor([0.0992, 0.0496, 0.1249, 0.0462, 0.0451, 0.0540, 0.0900, 0.0836],
       device='cuda:1'), in_proj_covar=tensor([0.0133, 0.0181, 0.0274, 0.0177, 0.0222, 0.0175, 0.0192, 0.0179],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0003, 0.0004, 0.0002, 0.0003, 0.0002, 0.0003, 0.0002],
       device='cuda:1')
2022-11-16 08:03:10,711 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=96503.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 08:03:19,133 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=96516.0, num_to_drop=1, layers_to_drop={1}
2022-11-16 08:03:22,356 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=96521.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 08:03:32,720 INFO [train.py:876] (1/4) Epoch 14, batch 2000, loss[loss=0.0878, simple_loss=0.1322, pruned_loss=0.02169, over 5563.00 frames. ], tot_loss[loss=0.1022, simple_loss=0.1338, pruned_loss=0.03534, over 1087111.63 frames. ], batch size: 25, lr: 5.80e-03, grad_scale: 16.0
2022-11-16 08:03:36,667 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 8.185e+01 1.342e+02 1.750e+02 2.213e+02 4.524e+02, threshold=3.499e+02, percent-clipped=3.0
2022-11-16 08:03:43,304 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=96551.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 08:03:54,068 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.8007, 3.9139, 3.6029, 3.3856, 1.9904, 3.8093, 2.2989, 3.2607],
       device='cuda:1'), covar=tensor([0.0413, 0.0174, 0.0211, 0.0423, 0.0692, 0.0185, 0.0617, 0.0169],
       device='cuda:1'), in_proj_covar=tensor([0.0197, 0.0185, 0.0183, 0.0209, 0.0198, 0.0185, 0.0195, 0.0189],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
       device='cuda:1')
2022-11-16 08:04:02,905 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=1.92 vs. limit=2.0
2022-11-16 08:04:06,255 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.1154, 1.4691, 1.6986, 1.5026, 1.7977, 1.9237, 1.6632, 1.4219],
       device='cuda:1'), covar=tensor([0.0033, 0.0126, 0.0065, 0.0079, 0.0077, 0.0113, 0.0047, 0.0053],
       device='cuda:1'), in_proj_covar=tensor([0.0032, 0.0030, 0.0030, 0.0039, 0.0033, 0.0030, 0.0038, 0.0036],
       device='cuda:1'), out_proj_covar=tensor([2.9505e-05, 2.8140e-05, 2.6876e-05, 3.7569e-05, 3.1088e-05, 2.9254e-05,
        3.5734e-05, 3.4654e-05], device='cuda:1')
2022-11-16 08:04:20,181 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=3.24 vs. limit=5.0
2022-11-16 08:04:38,864 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([5.8522, 5.3842, 5.7296, 5.3200, 5.9262, 5.7260, 4.9646, 5.9727],
       device='cuda:1'), covar=tensor([0.0308, 0.0298, 0.0371, 0.0273, 0.0304, 0.0208, 0.0196, 0.0171],
       device='cuda:1'), in_proj_covar=tensor([0.0145, 0.0155, 0.0109, 0.0145, 0.0182, 0.0113, 0.0128, 0.0155],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0003, 0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0003],
       device='cuda:1')
2022-11-16 08:04:40,271 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=96636.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 08:04:40,789 INFO [train.py:876] (1/4) Epoch 14, batch 2100, loss[loss=0.09003, simple_loss=0.1246, pruned_loss=0.02774, over 5680.00 frames. ], tot_loss[loss=0.1016, simple_loss=0.1336, pruned_loss=0.03481, over 1089438.86 frames. ], batch size: 19, lr: 5.80e-03, grad_scale: 8.0
2022-11-16 08:04:45,309 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 7.473e+01 1.415e+02 1.802e+02 2.261e+02 4.449e+02, threshold=3.604e+02, percent-clipped=2.0
2022-11-16 08:05:10,356 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=96680.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 08:05:12,894 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=96684.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 08:05:48,011 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=96736.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 08:05:48,599 INFO [train.py:876] (1/4) Epoch 14, batch 2200, loss[loss=0.07111, simple_loss=0.1134, pruned_loss=0.01443, over 5715.00 frames. ], tot_loss[loss=0.1002, simple_loss=0.132, pruned_loss=0.03422, over 1086775.71 frames. ], batch size: 17, lr: 5.79e-03, grad_scale: 8.0
2022-11-16 08:05:52,486 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 8.562e+01 1.449e+02 1.748e+02 2.179e+02 3.480e+02, threshold=3.495e+02, percent-clipped=0.0
2022-11-16 08:05:55,269 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=96746.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 08:06:15,845 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=96776.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 08:06:20,965 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=96784.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 08:06:46,717 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=96821.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 08:06:56,976 INFO [train.py:876] (1/4) Epoch 14, batch 2300, loss[loss=0.1362, simple_loss=0.1526, pruned_loss=0.05988, over 5478.00 frames. ], tot_loss[loss=0.09998, simple_loss=0.1316, pruned_loss=0.03418, over 1090660.24 frames. ], batch size: 64, lr: 5.79e-03, grad_scale: 4.0
2022-11-16 08:06:57,154 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=96837.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 08:07:01,480 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 7.903e+01 1.452e+02 1.773e+02 2.447e+02 7.176e+02, threshold=3.545e+02, percent-clipped=7.0
2022-11-16 08:07:09,095 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.64 vs. limit=2.0
2022-11-16 08:07:18,438 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=96869.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 08:07:28,404 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.2843, 3.2037, 2.8799, 3.1944, 3.1920, 2.7788, 2.8415, 2.9754],
       device='cuda:1'), covar=tensor([0.0251, 0.0494, 0.1226, 0.0475, 0.0480, 0.0544, 0.0837, 0.0537],
       device='cuda:1'), in_proj_covar=tensor([0.0134, 0.0179, 0.0272, 0.0175, 0.0222, 0.0174, 0.0190, 0.0178],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0003, 0.0004, 0.0002, 0.0003, 0.0002, 0.0003, 0.0002],
       device='cuda:1')
2022-11-16 08:07:40,864 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.5939, 1.5100, 1.7730, 1.1715, 1.3891, 1.6889, 1.3461, 1.3081],
       device='cuda:1'), covar=tensor([0.0094, 0.0169, 0.0060, 0.0116, 0.0131, 0.0127, 0.0066, 0.0088],
       device='cuda:1'), in_proj_covar=tensor([0.0032, 0.0030, 0.0030, 0.0039, 0.0034, 0.0031, 0.0038, 0.0037],
       device='cuda:1'), out_proj_covar=tensor([2.9528e-05, 2.8101e-05, 2.6608e-05, 3.7382e-05, 3.1422e-05, 2.9479e-05,
        3.5941e-05, 3.5005e-05], device='cuda:1')
2022-11-16 08:08:04,678 INFO [train.py:876] (1/4) Epoch 14, batch 2400, loss[loss=0.09343, simple_loss=0.1383, pruned_loss=0.02429, over 5534.00 frames. ], tot_loss[loss=0.1001, simple_loss=0.1318, pruned_loss=0.03423, over 1086147.28 frames. ], batch size: 17, lr: 5.79e-03, grad_scale: 8.0
2022-11-16 08:08:09,597 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 9.192e+01 1.391e+02 1.679e+02 2.056e+02 5.016e+02, threshold=3.358e+02, percent-clipped=6.0
2022-11-16 08:08:28,654 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.9413, 2.2627, 2.2392, 1.4819, 2.4883, 2.6671, 2.5820, 2.7955],
       device='cuda:1'), covar=tensor([0.1795, 0.1805, 0.1409, 0.2811, 0.0956, 0.1169, 0.0649, 0.1063],
       device='cuda:1'), in_proj_covar=tensor([0.0162, 0.0178, 0.0167, 0.0180, 0.0184, 0.0202, 0.0169, 0.0181],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004],
       device='cuda:1')
2022-11-16 08:08:34,216 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=96980.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 08:08:48,040 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=97000.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 08:08:55,446 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([4.1305, 4.4026, 4.0385, 4.4677, 4.4421, 3.6286, 4.0264, 3.7661],
       device='cuda:1'), covar=tensor([0.0493, 0.0675, 0.1519, 0.0444, 0.0404, 0.0681, 0.0773, 0.0817],
       device='cuda:1'), in_proj_covar=tensor([0.0135, 0.0182, 0.0275, 0.0177, 0.0223, 0.0175, 0.0191, 0.0181],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0003, 0.0004, 0.0002, 0.0003, 0.0002, 0.0003, 0.0002],
       device='cuda:1')
2022-11-16 08:09:06,577 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=97028.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 08:09:12,707 INFO [train.py:876] (1/4) Epoch 14, batch 2500, loss[loss=0.07648, simple_loss=0.1069, pruned_loss=0.02301, over 4527.00 frames. ], tot_loss[loss=0.1002, simple_loss=0.1319, pruned_loss=0.03425, over 1087895.39 frames. ], batch size: 5, lr: 5.78e-03, grad_scale: 8.0
2022-11-16 08:09:17,248 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 7.842e+01 1.491e+02 1.726e+02 2.085e+02 3.787e+02, threshold=3.452e+02, percent-clipped=1.0
2022-11-16 08:09:18,705 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=97046.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 08:09:29,242 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=97061.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 08:09:42,599 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.4524, 4.4302, 2.9957, 4.2547, 3.4919, 2.9736, 2.5318, 3.7761],
       device='cuda:1'), covar=tensor([0.1371, 0.0228, 0.1018, 0.0348, 0.0784, 0.1064, 0.1763, 0.0374],
       device='cuda:1'), in_proj_covar=tensor([0.0152, 0.0140, 0.0153, 0.0147, 0.0172, 0.0166, 0.0157, 0.0157],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0003, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004],
       device='cuda:1')
2022-11-16 08:09:51,073 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=97094.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 08:10:16,529 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=97132.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 08:10:19,678 INFO [train.py:876] (1/4) Epoch 14, batch 2600, loss[loss=0.08301, simple_loss=0.109, pruned_loss=0.02851, over 5759.00 frames. ], tot_loss[loss=0.09891, simple_loss=0.1309, pruned_loss=0.03344, over 1085798.42 frames. ], batch size: 11, lr: 5.78e-03, grad_scale: 8.0
2022-11-16 08:10:24,998 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 8.432e+01 1.490e+02 1.874e+02 2.362e+02 5.488e+02, threshold=3.748e+02, percent-clipped=3.0
2022-11-16 08:10:59,766 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=4.49 vs. limit=5.0
2022-11-16 08:11:22,017 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.22 vs. limit=2.0
2022-11-16 08:11:27,612 INFO [train.py:876] (1/4) Epoch 14, batch 2700, loss[loss=0.07043, simple_loss=0.1036, pruned_loss=0.01864, over 5158.00 frames. ], tot_loss[loss=0.09829, simple_loss=0.1306, pruned_loss=0.03301, over 1088483.14 frames. ], batch size: 8, lr: 5.78e-03, grad_scale: 8.0
2022-11-16 08:11:32,090 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 8.527e+01 1.417e+02 1.707e+02 2.038e+02 4.656e+02, threshold=3.414e+02, percent-clipped=3.0
2022-11-16 08:11:43,154 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=97260.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 08:12:24,359 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=97321.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 08:12:34,932 INFO [train.py:876] (1/4) Epoch 14, batch 2800, loss[loss=0.1031, simple_loss=0.1473, pruned_loss=0.02943, over 5588.00 frames. ], tot_loss[loss=0.1002, simple_loss=0.1319, pruned_loss=0.03429, over 1084384.81 frames. ], batch size: 18, lr: 5.77e-03, grad_scale: 8.0
2022-11-16 08:12:38,285 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=97342.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 08:12:39,404 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 9.283e+01 1.377e+02 1.617e+02 1.956e+02 4.684e+02, threshold=3.233e+02, percent-clipped=2.0
2022-11-16 08:12:41,608 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=97347.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 08:12:47,481 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=97356.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 08:12:51,609 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=3.59 vs. limit=5.0
2022-11-16 08:12:59,838 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=97374.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 08:13:19,929 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=97403.0, num_to_drop=1, layers_to_drop={2}
2022-11-16 08:13:20,504 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.9475, 2.9940, 3.1136, 2.8722, 3.0468, 2.9686, 1.3538, 3.1343],
       device='cuda:1'), covar=tensor([0.0311, 0.0358, 0.0289, 0.0317, 0.0369, 0.0366, 0.2627, 0.0358],
       device='cuda:1'), in_proj_covar=tensor([0.0104, 0.0089, 0.0087, 0.0082, 0.0102, 0.0090, 0.0129, 0.0109],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
       device='cuda:1')
2022-11-16 08:13:23,127 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=97408.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 08:13:39,499 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=97432.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 08:13:39,745 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.53 vs. limit=2.0
2022-11-16 08:13:41,858 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=97435.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 08:13:43,017 INFO [train.py:876] (1/4) Epoch 14, batch 2900, loss[loss=0.07011, simple_loss=0.1031, pruned_loss=0.01857, over 5457.00 frames. ], tot_loss[loss=0.09894, simple_loss=0.1306, pruned_loss=0.03362, over 1086403.80 frames. ], batch size: 9, lr: 5.77e-03, grad_scale: 8.0
2022-11-16 08:13:47,951 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 9.266e+01 1.378e+02 1.705e+02 2.124e+02 3.777e+02, threshold=3.411e+02, percent-clipped=2.0
2022-11-16 08:14:12,011 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=3.47 vs. limit=5.0
2022-11-16 08:14:12,675 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=97480.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 08:14:13,496 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.5534, 1.8753, 1.8176, 1.3005, 1.8909, 2.2194, 2.1179, 2.1147],
       device='cuda:1'), covar=tensor([0.1699, 0.1512, 0.1856, 0.2475, 0.1365, 0.1184, 0.0876, 0.1305],
       device='cuda:1'), in_proj_covar=tensor([0.0163, 0.0178, 0.0167, 0.0181, 0.0186, 0.0203, 0.0170, 0.0182],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004],
       device='cuda:1')
2022-11-16 08:14:20,352 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.38 vs. limit=2.0
2022-11-16 08:14:50,996 INFO [train.py:876] (1/4) Epoch 14, batch 3000, loss[loss=0.1247, simple_loss=0.1513, pruned_loss=0.04908, over 5717.00 frames. ], tot_loss[loss=0.1, simple_loss=0.1314, pruned_loss=0.03432, over 1078437.03 frames. ], batch size: 19, lr: 5.77e-03, grad_scale: 8.0
2022-11-16 08:14:50,997 INFO [train.py:899] (1/4) Computing validation loss
2022-11-16 08:14:59,805 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.8223, 3.9369, 3.8519, 3.4365, 1.9328, 3.8652, 2.3091, 3.3518],
       device='cuda:1'), covar=tensor([0.0433, 0.0182, 0.0163, 0.0349, 0.0749, 0.0178, 0.0566, 0.0173],
       device='cuda:1'), in_proj_covar=tensor([0.0198, 0.0187, 0.0185, 0.0211, 0.0200, 0.0188, 0.0196, 0.0190],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
       device='cuda:1')
2022-11-16 08:15:01,952 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([4.7684, 4.5001, 4.5485, 4.4771, 4.8040, 4.6090, 4.5818, 4.9033],
       device='cuda:1'), covar=tensor([0.0291, 0.0269, 0.0384, 0.0274, 0.0361, 0.0194, 0.0193, 0.0187],
       device='cuda:1'), in_proj_covar=tensor([0.0149, 0.0159, 0.0111, 0.0148, 0.0189, 0.0115, 0.0131, 0.0158],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003],
       device='cuda:1')
2022-11-16 08:15:06,851 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.1274, 2.9763, 2.4662, 2.5251, 1.8698, 2.5530, 1.9286, 2.6485],
       device='cuda:1'), covar=tensor([0.0657, 0.0350, 0.0653, 0.0775, 0.2341, 0.0593, 0.1026, 0.0546],
       device='cuda:1'), in_proj_covar=tensor([0.0153, 0.0141, 0.0154, 0.0148, 0.0173, 0.0166, 0.0157, 0.0157],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0003, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004],
       device='cuda:1')
2022-11-16 08:15:08,554 INFO [train.py:908] (1/4) Epoch 14, validation: loss=0.178, simple_loss=0.188, pruned_loss=0.08395, over 1530663.00 frames. 
2022-11-16 08:15:08,554 INFO [train.py:909] (1/4) Maximum memory allocated so far is 4676MB
2022-11-16 08:15:12,972 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 8.365e+01 1.436e+02 1.776e+02 2.242e+02 5.969e+02, threshold=3.553e+02, percent-clipped=3.0
2022-11-16 08:15:20,365 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=97555.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 08:16:01,563 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=97616.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 08:16:01,654 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=97616.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 08:16:08,477 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([4.0983, 3.8942, 3.9161, 3.6938, 4.0847, 3.7521, 1.8251, 4.2732],
       device='cuda:1'), covar=tensor([0.0271, 0.0557, 0.0346, 0.0366, 0.0309, 0.0513, 0.2956, 0.0289],
       device='cuda:1'), in_proj_covar=tensor([0.0105, 0.0090, 0.0088, 0.0083, 0.0103, 0.0090, 0.0130, 0.0110],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
       device='cuda:1')
2022-11-16 08:16:11,727 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.8701, 3.7225, 3.7157, 3.6473, 3.9113, 3.6786, 1.6388, 3.9789],
       device='cuda:1'), covar=tensor([0.0269, 0.0421, 0.0345, 0.0307, 0.0379, 0.0395, 0.3013, 0.0308],
       device='cuda:1'), in_proj_covar=tensor([0.0105, 0.0090, 0.0088, 0.0083, 0.0103, 0.0091, 0.0130, 0.0110],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
       device='cuda:1')
2022-11-16 08:16:15,589 INFO [train.py:876] (1/4) Epoch 14, batch 3100, loss[loss=0.1272, simple_loss=0.1516, pruned_loss=0.05135, over 5582.00 frames. ], tot_loss[loss=0.09964, simple_loss=0.1316, pruned_loss=0.03382, over 1086056.86 frames. ], batch size: 50, lr: 5.77e-03, grad_scale: 8.0
2022-11-16 08:16:20,444 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 9.977e+01 1.456e+02 1.784e+02 2.207e+02 3.883e+02, threshold=3.567e+02, percent-clipped=1.0
2022-11-16 08:16:28,859 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=97656.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 08:16:41,503 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=97674.0, num_to_drop=1, layers_to_drop={0}
2022-11-16 08:16:46,738 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.8159, 2.6124, 2.9142, 3.8491, 3.7854, 2.8589, 2.5804, 3.7852],
       device='cuda:1'), covar=tensor([0.1008, 0.2192, 0.1927, 0.1802, 0.1170, 0.2787, 0.2015, 0.0772],
       device='cuda:1'), in_proj_covar=tensor([0.0263, 0.0199, 0.0188, 0.0298, 0.0230, 0.0200, 0.0190, 0.0251],
       device='cuda:1'), out_proj_covar=tensor([0.0006, 0.0005, 0.0005, 0.0006, 0.0005, 0.0005, 0.0005, 0.0006],
       device='cuda:1')
2022-11-16 08:16:57,843 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=97698.0, num_to_drop=1, layers_to_drop={3}
2022-11-16 08:17:01,160 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=97703.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 08:17:01,767 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=97704.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 08:17:14,551 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.2447, 3.9400, 2.7564, 3.8344, 3.0975, 2.7356, 2.2502, 3.3481],
       device='cuda:1'), covar=tensor([0.1347, 0.0260, 0.1130, 0.0316, 0.0848, 0.1057, 0.1826, 0.0407],
       device='cuda:1'), in_proj_covar=tensor([0.0153, 0.0141, 0.0154, 0.0147, 0.0173, 0.0165, 0.0156, 0.0158],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0003, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004],
       device='cuda:1')
2022-11-16 08:17:19,793 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=97730.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 08:17:23,173 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=97735.0, num_to_drop=1, layers_to_drop={0}
2022-11-16 08:17:24,288 INFO [train.py:876] (1/4) Epoch 14, batch 3200, loss[loss=0.07953, simple_loss=0.1274, pruned_loss=0.01582, over 5666.00 frames. ], tot_loss[loss=0.1019, simple_loss=0.1336, pruned_loss=0.03509, over 1082195.34 frames. ], batch size: 36, lr: 5.76e-03, grad_scale: 8.0
2022-11-16 08:17:29,197 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 7.777e+01 1.455e+02 1.714e+02 2.116e+02 4.590e+02, threshold=3.428e+02, percent-clipped=2.0
2022-11-16 08:17:34,874 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.6832, 1.8070, 1.9205, 1.6451, 1.9384, 1.8705, 0.9634, 1.9781],
       device='cuda:1'), covar=tensor([0.0478, 0.0570, 0.0426, 0.0557, 0.0471, 0.0471, 0.2466, 0.0468],
       device='cuda:1'), in_proj_covar=tensor([0.0106, 0.0091, 0.0089, 0.0084, 0.0104, 0.0092, 0.0132, 0.0111],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
       device='cuda:1')
2022-11-16 08:17:52,014 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.0957, 2.1269, 2.7654, 2.4750, 2.6750, 2.0654, 2.6397, 3.0584],
       device='cuda:1'), covar=tensor([0.0757, 0.1313, 0.1014, 0.1216, 0.0820, 0.1473, 0.1177, 0.0744],
       device='cuda:1'), in_proj_covar=tensor([0.0245, 0.0192, 0.0217, 0.0211, 0.0240, 0.0196, 0.0225, 0.0230],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004],
       device='cuda:1')
2022-11-16 08:17:53,651 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.6719, 2.7570, 2.5225, 2.8598, 2.3567, 2.2406, 2.3712, 3.2535],
       device='cuda:1'), covar=tensor([0.1246, 0.1153, 0.1695, 0.0855, 0.1291, 0.1036, 0.1434, 0.0891],
       device='cuda:1'), in_proj_covar=tensor([0.0117, 0.0109, 0.0107, 0.0109, 0.0095, 0.0104, 0.0099, 0.0085],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0003],
       device='cuda:1')
2022-11-16 08:18:04,569 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.7908, 1.6688, 1.9059, 1.8980, 2.1400, 1.7559, 1.5556, 1.8703],
       device='cuda:1'), covar=tensor([0.2096, 0.1308, 0.1381, 0.1092, 0.1008, 0.2275, 0.2295, 0.2625],
       device='cuda:1'), in_proj_covar=tensor([0.0259, 0.0197, 0.0186, 0.0294, 0.0227, 0.0200, 0.0189, 0.0247],
       device='cuda:1'), out_proj_covar=tensor([0.0006, 0.0005, 0.0005, 0.0006, 0.0005, 0.0005, 0.0005, 0.0006],
       device='cuda:1')
2022-11-16 08:18:17,548 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.2810, 1.5467, 1.0932, 1.0605, 1.4096, 1.1864, 0.7748, 1.4129],
       device='cuda:1'), covar=tensor([0.0076, 0.0053, 0.0100, 0.0081, 0.0064, 0.0067, 0.0134, 0.0081],
       device='cuda:1'), in_proj_covar=tensor([0.0068, 0.0062, 0.0061, 0.0067, 0.0065, 0.0060, 0.0058, 0.0057],
       device='cuda:1'), out_proj_covar=tensor([6.0142e-05, 5.5245e-05, 5.3633e-05, 5.8537e-05, 5.6934e-05, 5.2446e-05,
        5.1817e-05, 5.0148e-05], device='cuda:1')
2022-11-16 08:18:32,093 INFO [train.py:876] (1/4) Epoch 14, batch 3300, loss[loss=0.1355, simple_loss=0.1562, pruned_loss=0.05737, over 5566.00 frames. ], tot_loss[loss=0.1004, simple_loss=0.1328, pruned_loss=0.03401, over 1089968.98 frames. ], batch size: 40, lr: 5.76e-03, grad_scale: 8.0
2022-11-16 08:18:36,476 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 8.779e+01 1.482e+02 1.736e+02 2.155e+02 3.992e+02, threshold=3.473e+02, percent-clipped=3.0
2022-11-16 08:19:06,969 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.3252, 1.9027, 2.0808, 1.8471, 1.4340, 1.7020, 1.8869, 1.6508],
       device='cuda:1'), covar=tensor([0.0041, 0.0096, 0.0038, 0.0066, 0.0236, 0.0133, 0.0047, 0.0047],
       device='cuda:1'), in_proj_covar=tensor([0.0031, 0.0028, 0.0029, 0.0037, 0.0033, 0.0030, 0.0036, 0.0035],
       device='cuda:1'), out_proj_covar=tensor([2.8555e-05, 2.6670e-05, 2.5780e-05, 3.5601e-05, 3.0764e-05, 2.8472e-05,
        3.4585e-05, 3.3513e-05], device='cuda:1')
2022-11-16 08:19:06,987 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=97888.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 08:19:22,246 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=97911.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 08:19:25,494 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=97916.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 08:19:39,518 INFO [train.py:876] (1/4) Epoch 14, batch 3400, loss[loss=0.08045, simple_loss=0.1187, pruned_loss=0.02111, over 5824.00 frames. ], tot_loss[loss=0.1008, simple_loss=0.1325, pruned_loss=0.03457, over 1087741.24 frames. ], batch size: 9, lr: 5.76e-03, grad_scale: 8.0
2022-11-16 08:19:40,255 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([5.6173, 5.1965, 5.3780, 5.0971, 5.7144, 5.4997, 4.7795, 5.6089],
       device='cuda:1'), covar=tensor([0.0402, 0.0372, 0.0465, 0.0377, 0.0356, 0.0277, 0.0275, 0.0283],
       device='cuda:1'), in_proj_covar=tensor([0.0150, 0.0160, 0.0112, 0.0149, 0.0189, 0.0117, 0.0132, 0.0159],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003],
       device='cuda:1')
2022-11-16 08:19:44,335 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 7.552e+01 1.387e+02 1.696e+02 2.106e+02 3.635e+02, threshold=3.392e+02, percent-clipped=1.0
2022-11-16 08:19:46,861 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.58 vs. limit=2.0
2022-11-16 08:19:47,852 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=97949.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 08:19:54,819 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.9125, 1.6492, 1.8160, 1.3986, 1.3976, 1.5395, 1.4720, 1.2672],
       device='cuda:1'), covar=tensor([0.0048, 0.0091, 0.0047, 0.0078, 0.0111, 0.0124, 0.0063, 0.0072],
       device='cuda:1'), in_proj_covar=tensor([0.0031, 0.0029, 0.0029, 0.0037, 0.0033, 0.0030, 0.0036, 0.0035],
       device='cuda:1'), out_proj_covar=tensor([2.8555e-05, 2.6818e-05, 2.5954e-05, 3.5656e-05, 3.0733e-05, 2.8326e-05,
        3.4711e-05, 3.3580e-05], device='cuda:1')
2022-11-16 08:19:58,066 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=97964.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 08:20:03,732 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([4.6851, 4.2415, 4.5476, 4.1682, 4.7453, 4.5441, 4.2124, 4.6618],
       device='cuda:1'), covar=tensor([0.0346, 0.0419, 0.0395, 0.0411, 0.0366, 0.0277, 0.0344, 0.0425],
       device='cuda:1'), in_proj_covar=tensor([0.0150, 0.0160, 0.0111, 0.0149, 0.0189, 0.0116, 0.0133, 0.0159],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003],
       device='cuda:1')
2022-11-16 08:20:21,518 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=97998.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 08:20:25,084 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=98003.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 08:20:38,648 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.5377, 1.8559, 2.3844, 2.2061, 2.4115, 1.5847, 2.2058, 2.5180],
       device='cuda:1'), covar=tensor([0.0715, 0.1265, 0.0760, 0.0962, 0.0771, 0.1512, 0.1041, 0.0676],
       device='cuda:1'), in_proj_covar=tensor([0.0247, 0.0195, 0.0219, 0.0215, 0.0243, 0.0198, 0.0227, 0.0233],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004],
       device='cuda:1')
2022-11-16 08:20:43,488 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=98030.0, num_to_drop=1, layers_to_drop={1}
2022-11-16 08:20:43,521 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=98030.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 08:20:47,938 INFO [train.py:876] (1/4) Epoch 14, batch 3500, loss[loss=0.1337, simple_loss=0.1517, pruned_loss=0.05786, over 5566.00 frames. ], tot_loss[loss=0.09952, simple_loss=0.1312, pruned_loss=0.03393, over 1079520.50 frames. ], batch size: 43, lr: 5.75e-03, grad_scale: 8.0
2022-11-16 08:20:52,493 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 7.923e+01 1.343e+02 1.705e+02 2.352e+02 4.621e+02, threshold=3.411e+02, percent-clipped=6.0
2022-11-16 08:20:53,902 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=98046.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 08:20:57,581 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=98051.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 08:21:13,444 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([0.6675, 1.2541, 1.0666, 1.2583, 1.0293, 1.2614, 0.9878, 1.2984],
       device='cuda:1'), covar=tensor([0.2947, 0.1488, 0.1483, 0.1077, 0.1646, 0.1535, 0.1561, 0.0663],
       device='cuda:1'), in_proj_covar=tensor([0.0117, 0.0108, 0.0106, 0.0109, 0.0096, 0.0104, 0.0099, 0.0085],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0003],
       device='cuda:1')
2022-11-16 08:21:15,965 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=98078.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 08:21:30,780 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.1826, 4.1779, 4.0586, 3.8854, 2.2701, 4.5526, 2.5951, 4.1260],
       device='cuda:1'), covar=tensor([0.0397, 0.0467, 0.0179, 0.0359, 0.0702, 0.0138, 0.0535, 0.0149],
       device='cuda:1'), in_proj_covar=tensor([0.0196, 0.0185, 0.0184, 0.0209, 0.0197, 0.0185, 0.0194, 0.0187],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
       device='cuda:1')
2022-11-16 08:21:34,721 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=98106.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 08:21:55,983 INFO [train.py:876] (1/4) Epoch 14, batch 3600, loss[loss=0.07735, simple_loss=0.1152, pruned_loss=0.01977, over 5722.00 frames. ], tot_loss[loss=0.09961, simple_loss=0.1314, pruned_loss=0.03391, over 1079449.31 frames. ], batch size: 11, lr: 5.75e-03, grad_scale: 8.0
2022-11-16 08:22:00,947 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 9.265e+01 1.372e+02 1.706e+02 2.197e+02 4.106e+02, threshold=3.412e+02, percent-clipped=3.0
2022-11-16 08:22:06,445 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.0293, 2.5723, 3.3540, 2.0359, 2.0987, 3.7097, 3.0235, 2.4242],
       device='cuda:1'), covar=tensor([0.0766, 0.1231, 0.0562, 0.2895, 0.2269, 0.1190, 0.0813, 0.1299],
       device='cuda:1'), in_proj_covar=tensor([0.0116, 0.0106, 0.0105, 0.0107, 0.0079, 0.0073, 0.0087, 0.0096],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002],
       device='cuda:1')
2022-11-16 08:22:08,415 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.0728, 2.2924, 2.3699, 1.5223, 2.4865, 2.6948, 2.6018, 2.7395],
       device='cuda:1'), covar=tensor([0.1652, 0.1537, 0.1489, 0.2434, 0.1007, 0.1124, 0.0878, 0.0988],
       device='cuda:1'), in_proj_covar=tensor([0.0164, 0.0177, 0.0166, 0.0180, 0.0186, 0.0204, 0.0170, 0.0182],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004],
       device='cuda:1')
2022-11-16 08:22:11,058 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=1.64 vs. limit=2.0
2022-11-16 08:22:16,987 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=98167.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 08:22:17,379 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=1.83 vs. limit=2.0
2022-11-16 08:22:23,800 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([4.1195, 4.0983, 4.2070, 3.7836, 4.2037, 4.0788, 1.4822, 4.3023],
       device='cuda:1'), covar=tensor([0.0289, 0.0323, 0.0287, 0.0497, 0.0268, 0.0397, 0.3236, 0.0289],
       device='cuda:1'), in_proj_covar=tensor([0.0106, 0.0090, 0.0089, 0.0084, 0.0105, 0.0091, 0.0131, 0.0110],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
       device='cuda:1')
2022-11-16 08:22:32,442 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=4.79 vs. limit=5.0
2022-11-16 08:22:46,750 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=98211.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 08:23:04,736 INFO [train.py:876] (1/4) Epoch 14, batch 3700, loss[loss=0.1009, simple_loss=0.1325, pruned_loss=0.03461, over 5550.00 frames. ], tot_loss[loss=0.09886, simple_loss=0.1312, pruned_loss=0.03325, over 1082977.34 frames. ], batch size: 21, lr: 5.75e-03, grad_scale: 8.0
2022-11-16 08:23:09,248 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 8.991e+01 1.391e+02 1.713e+02 2.053e+02 4.916e+02, threshold=3.427e+02, percent-clipped=4.0
2022-11-16 08:23:09,338 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=98244.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 08:23:11,971 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([0.8160, 1.0359, 0.9355, 0.8965, 1.1404, 1.0878, 0.5253, 1.1629],
       device='cuda:1'), covar=tensor([0.0099, 0.0064, 0.0090, 0.0073, 0.0083, 0.0078, 0.0141, 0.0068],
       device='cuda:1'), in_proj_covar=tensor([0.0067, 0.0062, 0.0061, 0.0066, 0.0064, 0.0060, 0.0058, 0.0056],
       device='cuda:1'), out_proj_covar=tensor([5.9344e-05, 5.5007e-05, 5.3356e-05, 5.8460e-05, 5.6964e-05, 5.1916e-05,
        5.1451e-05, 4.8921e-05], device='cuda:1')
2022-11-16 08:23:19,335 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=98259.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 08:23:22,952 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.14 vs. limit=2.0
2022-11-16 08:23:38,932 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.0253, 2.6610, 3.3992, 2.1211, 1.5577, 3.5980, 2.8136, 2.4066],
       device='cuda:1'), covar=tensor([0.1091, 0.1275, 0.0550, 0.3258, 0.4655, 0.1798, 0.1940, 0.1455],
       device='cuda:1'), in_proj_covar=tensor([0.0117, 0.0107, 0.0107, 0.0109, 0.0080, 0.0074, 0.0089, 0.0098],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002],
       device='cuda:1')
2022-11-16 08:24:08,797 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=98330.0, num_to_drop=1, layers_to_drop={1}
2022-11-16 08:24:13,987 INFO [train.py:876] (1/4) Epoch 14, batch 3800, loss[loss=0.09263, simple_loss=0.1273, pruned_loss=0.02897, over 5263.00 frames. ], tot_loss[loss=0.09947, simple_loss=0.1314, pruned_loss=0.03377, over 1087214.27 frames. ], batch size: 79, lr: 5.74e-03, grad_scale: 4.0
2022-11-16 08:24:19,594 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 8.532e+01 1.388e+02 1.687e+02 2.091e+02 4.683e+02, threshold=3.374e+02, percent-clipped=2.0
2022-11-16 08:24:33,385 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.5579, 1.9656, 1.5729, 1.6069, 1.7237, 1.9103, 1.5827, 1.8142],
       device='cuda:1'), covar=tensor([0.0073, 0.0053, 0.0066, 0.0057, 0.0055, 0.0042, 0.0058, 0.0046],
       device='cuda:1'), in_proj_covar=tensor([0.0066, 0.0061, 0.0060, 0.0065, 0.0064, 0.0059, 0.0057, 0.0055],
       device='cuda:1'), out_proj_covar=tensor([5.8338e-05, 5.4001e-05, 5.2329e-05, 5.7576e-05, 5.6316e-05, 5.0866e-05,
        5.0397e-05, 4.8041e-05], device='cuda:1')
2022-11-16 08:24:42,604 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=98378.0, num_to_drop=1, layers_to_drop={0}
2022-11-16 08:25:04,764 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=98410.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 08:25:22,857 INFO [train.py:876] (1/4) Epoch 14, batch 3900, loss[loss=0.1186, simple_loss=0.1429, pruned_loss=0.04715, over 4789.00 frames. ], tot_loss[loss=0.09926, simple_loss=0.1313, pruned_loss=0.03359, over 1086007.17 frames. ], batch size: 136, lr: 5.74e-03, grad_scale: 4.0
2022-11-16 08:25:27,986 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 8.450e+01 1.480e+02 1.725e+02 2.158e+02 4.236e+02, threshold=3.450e+02, percent-clipped=3.0
2022-11-16 08:25:39,864 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=98462.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 08:25:45,716 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=98471.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 08:26:30,062 INFO [train.py:876] (1/4) Epoch 14, batch 4000, loss[loss=0.09775, simple_loss=0.1267, pruned_loss=0.03441, over 5426.00 frames. ], tot_loss[loss=0.09791, simple_loss=0.1302, pruned_loss=0.03281, over 1087427.07 frames. ], batch size: 11, lr: 5.74e-03, grad_scale: 8.0
2022-11-16 08:26:34,188 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=98543.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 08:26:34,792 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=98544.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 08:26:35,247 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.016e+02 1.413e+02 1.702e+02 2.140e+02 3.638e+02, threshold=3.404e+02, percent-clipped=2.0
2022-11-16 08:26:38,726 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([4.2161, 4.2770, 4.2412, 3.8929, 4.2392, 4.2989, 1.7279, 4.4482],
       device='cuda:1'), covar=tensor([0.0260, 0.0265, 0.0373, 0.0410, 0.0277, 0.0275, 0.2895, 0.0339],
       device='cuda:1'), in_proj_covar=tensor([0.0104, 0.0089, 0.0087, 0.0082, 0.0103, 0.0090, 0.0130, 0.0109],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
       device='cuda:1')
2022-11-16 08:26:39,369 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.8573, 5.3107, 3.6040, 5.0449, 4.2227, 3.9241, 3.2449, 4.6187],
       device='cuda:1'), covar=tensor([0.1389, 0.0215, 0.1059, 0.0256, 0.0416, 0.0734, 0.1532, 0.0265],
       device='cuda:1'), in_proj_covar=tensor([0.0154, 0.0140, 0.0154, 0.0148, 0.0174, 0.0167, 0.0156, 0.0157],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0003, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004],
       device='cuda:1')
2022-11-16 08:27:01,192 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.5505, 1.8012, 1.8341, 1.6911, 1.4369, 2.3287, 2.0565, 1.5058],
       device='cuda:1'), covar=tensor([0.2030, 0.1796, 0.2169, 0.2746, 0.3113, 0.0819, 0.1743, 0.2649],
       device='cuda:1'), in_proj_covar=tensor([0.0116, 0.0105, 0.0106, 0.0106, 0.0078, 0.0072, 0.0087, 0.0096],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002],
       device='cuda:1')
2022-11-16 08:27:07,305 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=98592.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 08:27:15,818 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=98604.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 08:27:34,298 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.4353, 1.7026, 1.3398, 1.3914, 1.5267, 1.6611, 1.2930, 1.4926],
       device='cuda:1'), covar=tensor([0.0074, 0.0069, 0.0070, 0.0059, 0.0063, 0.0053, 0.0063, 0.0067],
       device='cuda:1'), in_proj_covar=tensor([0.0066, 0.0061, 0.0060, 0.0066, 0.0064, 0.0059, 0.0057, 0.0055],
       device='cuda:1'), out_proj_covar=tensor([5.8791e-05, 5.4086e-05, 5.2476e-05, 5.7728e-05, 5.6535e-05, 5.1470e-05,
        5.0681e-05, 4.8206e-05], device='cuda:1')
2022-11-16 08:27:37,421 INFO [train.py:876] (1/4) Epoch 14, batch 4100, loss[loss=0.1141, simple_loss=0.148, pruned_loss=0.04013, over 5599.00 frames. ], tot_loss[loss=0.09706, simple_loss=0.1298, pruned_loss=0.03215, over 1090025.34 frames. ], batch size: 50, lr: 5.74e-03, grad_scale: 8.0
2022-11-16 08:27:42,931 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 9.009e+01 1.414e+02 1.742e+02 2.183e+02 4.032e+02, threshold=3.484e+02, percent-clipped=2.0
2022-11-16 08:28:21,443 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.5994, 4.4788, 3.4198, 2.0247, 4.1846, 1.7416, 4.2497, 2.3344],
       device='cuda:1'), covar=tensor([0.1430, 0.0113, 0.0596, 0.1807, 0.0203, 0.1814, 0.0197, 0.1564],
       device='cuda:1'), in_proj_covar=tensor([0.0116, 0.0102, 0.0115, 0.0111, 0.0102, 0.0118, 0.0099, 0.0109],
       device='cuda:1'), out_proj_covar=tensor([0.0005, 0.0004, 0.0005, 0.0005, 0.0004, 0.0005, 0.0004, 0.0004],
       device='cuda:1')
2022-11-16 08:28:45,154 INFO [train.py:876] (1/4) Epoch 14, batch 4200, loss[loss=0.0985, simple_loss=0.1183, pruned_loss=0.03938, over 5125.00 frames. ], tot_loss[loss=0.09769, simple_loss=0.1306, pruned_loss=0.03242, over 1087396.94 frames. ], batch size: 91, lr: 5.73e-03, grad_scale: 8.0
2022-11-16 08:28:50,363 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.013e+02 1.341e+02 1.638e+02 2.138e+02 3.541e+02, threshold=3.276e+02, percent-clipped=2.0
2022-11-16 08:29:01,478 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=98762.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 08:29:04,377 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=98766.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 08:29:22,739 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.76 vs. limit=2.0
2022-11-16 08:29:34,473 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=98810.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 08:29:53,228 INFO [train.py:876] (1/4) Epoch 14, batch 4300, loss[loss=0.1004, simple_loss=0.1328, pruned_loss=0.03405, over 5742.00 frames. ], tot_loss[loss=0.09676, simple_loss=0.1295, pruned_loss=0.032, over 1082754.27 frames. ], batch size: 27, lr: 5.73e-03, grad_scale: 8.0
2022-11-16 08:29:58,781 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 8.664e+01 1.356e+02 1.673e+02 1.998e+02 3.650e+02, threshold=3.347e+02, percent-clipped=3.0
2022-11-16 08:30:16,149 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.8879, 1.3367, 1.7694, 1.1227, 2.0800, 2.0178, 1.3902, 1.6243],
       device='cuda:1'), covar=tensor([0.0522, 0.0770, 0.0439, 0.1321, 0.0661, 0.0532, 0.0498, 0.0280],
       device='cuda:1'), in_proj_covar=tensor([0.0016, 0.0026, 0.0018, 0.0022, 0.0018, 0.0017, 0.0024, 0.0017],
       device='cuda:1'), out_proj_covar=tensor([9.3144e-05, 1.3058e-04, 9.9196e-05, 1.1235e-04, 1.0039e-04, 9.4410e-05,
        1.2330e-04, 9.3495e-05], device='cuda:1')
2022-11-16 08:30:16,173 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.1934, 2.8144, 3.1503, 1.6222, 3.0199, 3.4236, 3.4332, 3.6275],
       device='cuda:1'), covar=tensor([0.1841, 0.1581, 0.1041, 0.2944, 0.0980, 0.0953, 0.0555, 0.0633],
       device='cuda:1'), in_proj_covar=tensor([0.0163, 0.0178, 0.0169, 0.0182, 0.0187, 0.0205, 0.0171, 0.0183],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004],
       device='cuda:1')
2022-11-16 08:30:28,751 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=98890.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 08:30:32,305 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=98895.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 08:30:34,853 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=98899.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 08:31:00,052 INFO [train.py:876] (1/4) Epoch 14, batch 4400, loss[loss=0.0754, simple_loss=0.1136, pruned_loss=0.01857, over 5563.00 frames. ], tot_loss[loss=0.09785, simple_loss=0.1302, pruned_loss=0.03275, over 1081580.51 frames. ], batch size: 16, lr: 5.73e-03, grad_scale: 8.0
2022-11-16 08:31:05,614 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 9.027e+01 1.520e+02 1.757e+02 2.071e+02 5.109e+02, threshold=3.514e+02, percent-clipped=4.0
2022-11-16 08:31:09,736 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=98951.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 08:31:13,445 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.7284, 4.9251, 3.1171, 4.6163, 3.8103, 3.4431, 2.8748, 4.2982],
       device='cuda:1'), covar=tensor([0.1312, 0.0188, 0.1018, 0.0344, 0.0618, 0.0796, 0.1595, 0.0281],
       device='cuda:1'), in_proj_covar=tensor([0.0153, 0.0141, 0.0153, 0.0147, 0.0172, 0.0166, 0.0156, 0.0156],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0003, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004],
       device='cuda:1')
2022-11-16 08:31:13,500 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=98956.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 08:31:23,408 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=98971.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 08:31:37,496 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.18 vs. limit=2.0
2022-11-16 08:31:58,963 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.57 vs. limit=2.0
2022-11-16 08:32:04,681 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=99032.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 08:32:05,405 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.5674, 1.6599, 1.7276, 1.5987, 0.9766, 1.3765, 1.1714, 1.4651],
       device='cuda:1'), covar=tensor([0.0161, 0.0099, 0.0104, 0.0128, 0.0299, 0.0140, 0.0195, 0.0145],
       device='cuda:1'), in_proj_covar=tensor([0.0198, 0.0188, 0.0184, 0.0212, 0.0200, 0.0187, 0.0196, 0.0190],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
       device='cuda:1')
2022-11-16 08:32:07,917 INFO [train.py:876] (1/4) Epoch 14, batch 4500, loss[loss=0.05792, simple_loss=0.09207, pruned_loss=0.01189, over 5328.00 frames. ], tot_loss[loss=0.09713, simple_loss=0.1298, pruned_loss=0.03222, over 1083451.90 frames. ], batch size: 6, lr: 5.72e-03, grad_scale: 8.0
2022-11-16 08:32:13,104 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 9.350e+01 1.443e+02 1.649e+02 2.186e+02 4.322e+02, threshold=3.298e+02, percent-clipped=3.0
2022-11-16 08:32:17,530 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=99051.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 08:32:27,865 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=99066.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 08:32:47,049 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.4014, 2.3511, 2.4510, 2.3776, 2.4275, 2.3364, 2.6486, 2.5031],
       device='cuda:1'), covar=tensor([0.0662, 0.1005, 0.0727, 0.1420, 0.0812, 0.0584, 0.1057, 0.1054],
       device='cuda:1'), in_proj_covar=tensor([0.0091, 0.0113, 0.0098, 0.0127, 0.0093, 0.0084, 0.0150, 0.0110],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0003, 0.0002],
       device='cuda:1')
2022-11-16 08:32:47,478 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.68 vs. limit=2.0
2022-11-16 08:32:58,464 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=99112.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 08:33:00,365 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=99114.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 08:33:16,012 INFO [train.py:876] (1/4) Epoch 14, batch 4600, loss[loss=0.08169, simple_loss=0.119, pruned_loss=0.0222, over 5749.00 frames. ], tot_loss[loss=0.09785, simple_loss=0.1306, pruned_loss=0.03256, over 1084894.57 frames. ], batch size: 20, lr: 5.72e-03, grad_scale: 8.0
2022-11-16 08:33:21,170 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 9.692e+01 1.360e+02 1.705e+02 2.390e+02 5.580e+02, threshold=3.409e+02, percent-clipped=5.0
2022-11-16 08:33:57,231 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=99199.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 08:34:05,716 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.72 vs. limit=2.0
2022-11-16 08:34:12,213 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.9434, 3.8997, 3.9223, 3.7360, 3.8372, 3.7296, 1.5358, 4.1884],
       device='cuda:1'), covar=tensor([0.0234, 0.0287, 0.0276, 0.0409, 0.0282, 0.0364, 0.3089, 0.0241],
       device='cuda:1'), in_proj_covar=tensor([0.0105, 0.0090, 0.0088, 0.0083, 0.0103, 0.0091, 0.0131, 0.0109],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
       device='cuda:1')
2022-11-16 08:34:17,419 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=99229.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 08:34:22,857 INFO [train.py:876] (1/4) Epoch 14, batch 4700, loss[loss=0.1012, simple_loss=0.1474, pruned_loss=0.02752, over 5754.00 frames. ], tot_loss[loss=0.09929, simple_loss=0.132, pruned_loss=0.0333, over 1087235.74 frames. ], batch size: 16, lr: 5.72e-03, grad_scale: 8.0
2022-11-16 08:34:28,048 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 9.829e+01 1.395e+02 1.659e+02 2.125e+02 3.836e+02, threshold=3.317e+02, percent-clipped=3.0
2022-11-16 08:34:28,803 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=99246.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 08:34:29,430 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=99247.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 08:34:32,127 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=99251.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 08:34:43,504 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=99268.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 08:34:47,982 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.5088, 3.5391, 3.6638, 3.4732, 3.4722, 3.3769, 1.3874, 3.7975],
       device='cuda:1'), covar=tensor([0.0257, 0.0300, 0.0341, 0.0244, 0.0350, 0.0394, 0.3069, 0.0286],
       device='cuda:1'), in_proj_covar=tensor([0.0105, 0.0090, 0.0088, 0.0083, 0.0103, 0.0091, 0.0131, 0.0109],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
       device='cuda:1')
2022-11-16 08:34:58,190 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=99290.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 08:35:21,409 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=99324.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 08:35:23,239 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=99327.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 08:35:24,661 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=99329.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 08:35:29,929 INFO [train.py:876] (1/4) Epoch 14, batch 4800, loss[loss=0.1223, simple_loss=0.1514, pruned_loss=0.0466, over 5538.00 frames. ], tot_loss[loss=0.09823, simple_loss=0.1313, pruned_loss=0.0326, over 1087849.20 frames. ], batch size: 46, lr: 5.72e-03, grad_scale: 8.0
2022-11-16 08:35:34,296 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=3.58 vs. limit=5.0
2022-11-16 08:35:35,128 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 8.609e+01 1.410e+02 1.721e+02 2.085e+02 4.264e+02, threshold=3.442e+02, percent-clipped=4.0
2022-11-16 08:35:36,958 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.7023, 1.7869, 1.9147, 1.6188, 1.7421, 1.9026, 1.7502, 1.6952],
       device='cuda:1'), covar=tensor([0.0084, 0.0068, 0.0051, 0.0063, 0.0066, 0.0050, 0.0064, 0.0068],
       device='cuda:1'), in_proj_covar=tensor([0.0069, 0.0063, 0.0062, 0.0068, 0.0066, 0.0061, 0.0059, 0.0057],
       device='cuda:1'), out_proj_covar=tensor([6.1144e-05, 5.5581e-05, 5.3985e-05, 5.9797e-05, 5.8123e-05, 5.2861e-05,
        5.2067e-05, 5.0023e-05], device='cuda:1')
2022-11-16 08:35:59,666 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([4.3186, 3.9192, 4.1055, 3.8475, 4.3317, 4.1706, 3.9998, 4.3456],
       device='cuda:1'), covar=tensor([0.0379, 0.0395, 0.0491, 0.0381, 0.0438, 0.0332, 0.0333, 0.0361],
       device='cuda:1'), in_proj_covar=tensor([0.0150, 0.0157, 0.0110, 0.0147, 0.0190, 0.0116, 0.0131, 0.0158],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0003, 0.0002, 0.0003, 0.0004, 0.0002, 0.0002, 0.0003],
       device='cuda:1')
2022-11-16 08:36:02,040 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=99385.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 08:36:17,338 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=99407.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 08:36:22,611 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.2153, 2.0886, 2.7470, 1.9466, 1.2979, 2.8253, 2.5773, 2.1308],
       device='cuda:1'), covar=tensor([0.1339, 0.2202, 0.1023, 0.2768, 0.3463, 0.1583, 0.1090, 0.1740],
       device='cuda:1'), in_proj_covar=tensor([0.0117, 0.0109, 0.0107, 0.0107, 0.0081, 0.0074, 0.0089, 0.0099],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002],
       device='cuda:1')
2022-11-16 08:36:24,787 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.81 vs. limit=2.0
2022-11-16 08:36:25,859 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=99420.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 08:36:29,792 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.1888, 3.7385, 3.4419, 3.7291, 3.7735, 3.3377, 3.3249, 3.4703],
       device='cuda:1'), covar=tensor([0.1212, 0.0556, 0.1170, 0.0579, 0.0480, 0.0576, 0.0907, 0.0605],
       device='cuda:1'), in_proj_covar=tensor([0.0134, 0.0184, 0.0275, 0.0178, 0.0225, 0.0175, 0.0191, 0.0181],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0003, 0.0004, 0.0002, 0.0003, 0.0002, 0.0003, 0.0002],
       device='cuda:1')
2022-11-16 08:36:37,295 INFO [train.py:876] (1/4) Epoch 14, batch 4900, loss[loss=0.1667, simple_loss=0.192, pruned_loss=0.07068, over 5477.00 frames. ], tot_loss[loss=0.09955, simple_loss=0.132, pruned_loss=0.03354, over 1087795.61 frames. ], batch size: 64, lr: 5.71e-03, grad_scale: 8.0
2022-11-16 08:36:43,021 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 9.258e+01 1.532e+02 1.838e+02 2.274e+02 5.384e+02, threshold=3.676e+02, percent-clipped=5.0
2022-11-16 08:36:45,785 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.7167, 1.7165, 1.4653, 1.2934, 1.4919, 1.2571, 1.2282, 0.9398],
       device='cuda:1'), covar=tensor([0.0043, 0.0060, 0.0089, 0.0088, 0.0071, 0.0077, 0.0069, 0.0103],
       device='cuda:1'), in_proj_covar=tensor([0.0033, 0.0030, 0.0031, 0.0040, 0.0035, 0.0031, 0.0039, 0.0038],
       device='cuda:1'), out_proj_covar=tensor([3.0672e-05, 2.8450e-05, 2.7804e-05, 3.7965e-05, 3.2643e-05, 2.9833e-05,
        3.7046e-05, 3.5906e-05], device='cuda:1')
2022-11-16 08:36:50,087 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.7322, 2.6951, 2.2950, 2.8546, 2.1578, 2.2561, 2.2512, 3.0515],
       device='cuda:1'), covar=tensor([0.0895, 0.1064, 0.1592, 0.1379, 0.1500, 0.1294, 0.1434, 0.2213],
       device='cuda:1'), in_proj_covar=tensor([0.0117, 0.0109, 0.0107, 0.0110, 0.0095, 0.0106, 0.0098, 0.0086],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0003],
       device='cuda:1')
2022-11-16 08:36:58,582 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=99468.0, num_to_drop=1, layers_to_drop={1}
2022-11-16 08:37:07,069 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=99481.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 08:37:13,580 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.3093, 4.4639, 2.8871, 4.2441, 3.5261, 2.9399, 2.4305, 3.7376],
       device='cuda:1'), covar=tensor([0.1598, 0.0227, 0.1107, 0.0335, 0.0705, 0.1112, 0.1905, 0.0375],
       device='cuda:1'), in_proj_covar=tensor([0.0152, 0.0140, 0.0152, 0.0145, 0.0171, 0.0165, 0.0154, 0.0156],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0003, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004],
       device='cuda:1')
2022-11-16 08:37:39,776 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=99529.0, num_to_drop=1, layers_to_drop={0}
2022-11-16 08:37:44,760 INFO [train.py:876] (1/4) Epoch 14, batch 5000, loss[loss=0.08194, simple_loss=0.12, pruned_loss=0.02195, over 5588.00 frames. ], tot_loss[loss=0.09894, simple_loss=0.1313, pruned_loss=0.03329, over 1087902.22 frames. ], batch size: 23, lr: 5.71e-03, grad_scale: 8.0
2022-11-16 08:37:50,173 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 8.179e+01 1.461e+02 1.855e+02 2.293e+02 4.970e+02, threshold=3.710e+02, percent-clipped=2.0
2022-11-16 08:37:51,241 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=99546.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 08:37:54,684 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=99551.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 08:38:06,372 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=99568.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 08:38:17,355 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=99585.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 08:38:20,022 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=99589.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 08:38:23,147 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=99594.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 08:38:26,734 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=99599.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 08:38:31,849 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.2296, 1.8058, 1.4026, 1.2875, 1.5265, 1.5568, 1.2965, 1.7476],
       device='cuda:1'), covar=tensor([0.0085, 0.0054, 0.0058, 0.0073, 0.0061, 0.0056, 0.0080, 0.0046],
       device='cuda:1'), in_proj_covar=tensor([0.0069, 0.0063, 0.0063, 0.0068, 0.0066, 0.0061, 0.0059, 0.0058],
       device='cuda:1'), out_proj_covar=tensor([6.1448e-05, 5.5817e-05, 5.4447e-05, 6.0282e-05, 5.8339e-05, 5.3122e-05,
        5.2341e-05, 5.0329e-05], device='cuda:1')
2022-11-16 08:38:33,906 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.1406, 4.4722, 4.2547, 3.8947, 2.4258, 4.5582, 2.6105, 4.0874],
       device='cuda:1'), covar=tensor([0.0349, 0.0128, 0.0152, 0.0295, 0.0623, 0.0140, 0.0611, 0.0117],
       device='cuda:1'), in_proj_covar=tensor([0.0197, 0.0186, 0.0183, 0.0211, 0.0198, 0.0185, 0.0195, 0.0189],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
       device='cuda:1')
2022-11-16 08:38:44,688 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=99624.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 08:38:46,678 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=99627.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 08:38:48,054 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=99629.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 08:38:52,866 INFO [train.py:876] (1/4) Epoch 14, batch 5100, loss[loss=0.1484, simple_loss=0.1694, pruned_loss=0.06369, over 5454.00 frames. ], tot_loss[loss=0.09789, simple_loss=0.1306, pruned_loss=0.03258, over 1085090.58 frames. ], batch size: 53, lr: 5.71e-03, grad_scale: 8.0
2022-11-16 08:38:56,971 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.2409, 3.7938, 2.9770, 1.6139, 3.4717, 1.4465, 3.5755, 1.9138],
       device='cuda:1'), covar=tensor([0.1842, 0.0415, 0.1025, 0.2883, 0.0468, 0.2668, 0.0420, 0.2316],
       device='cuda:1'), in_proj_covar=tensor([0.0117, 0.0104, 0.0116, 0.0112, 0.0104, 0.0119, 0.0100, 0.0109],
       device='cuda:1'), out_proj_covar=tensor([0.0005, 0.0004, 0.0005, 0.0005, 0.0004, 0.0005, 0.0004, 0.0004],
       device='cuda:1')
2022-11-16 08:38:58,065 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 8.215e+01 1.466e+02 1.636e+02 2.038e+02 3.411e+02, threshold=3.271e+02, percent-clipped=0.0
2022-11-16 08:39:01,531 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=99650.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 08:39:19,181 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=99675.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 08:39:22,553 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=99680.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 08:39:22,624 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=99680.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 08:39:40,058 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=99707.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 08:40:00,851 INFO [train.py:876] (1/4) Epoch 14, batch 5200, loss[loss=0.08333, simple_loss=0.118, pruned_loss=0.02433, over 5720.00 frames. ], tot_loss[loss=0.09717, simple_loss=0.1302, pruned_loss=0.03208, over 1088410.55 frames. ], batch size: 13, lr: 5.70e-03, grad_scale: 8.0
2022-11-16 08:40:03,558 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=99741.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 08:40:05,955 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.036e+02 1.374e+02 1.799e+02 2.301e+02 6.123e+02, threshold=3.597e+02, percent-clipped=6.0
2022-11-16 08:40:12,567 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=99755.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 08:40:12,677 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.9558, 1.5405, 2.0500, 1.2425, 1.6308, 1.9157, 1.5445, 1.4757],
       device='cuda:1'), covar=tensor([0.0950, 0.0805, 0.0513, 0.1233, 0.1004, 0.0922, 0.0530, 0.1065],
       device='cuda:1'), in_proj_covar=tensor([0.0017, 0.0026, 0.0018, 0.0021, 0.0018, 0.0017, 0.0024, 0.0017],
       device='cuda:1'), out_proj_covar=tensor([9.3338e-05, 1.3043e-04, 9.9302e-05, 1.1162e-04, 1.0046e-04, 9.4279e-05,
        1.2272e-04, 9.3870e-05], device='cuda:1')
2022-11-16 08:40:26,780 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=99776.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 08:40:53,493 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.4131, 1.7161, 1.7268, 1.7098, 1.4678, 2.4032, 1.8956, 1.5228],
       device='cuda:1'), covar=tensor([0.2005, 0.1699, 0.2190, 0.2805, 0.3488, 0.0870, 0.1764, 0.2420],
       device='cuda:1'), in_proj_covar=tensor([0.0117, 0.0109, 0.0108, 0.0107, 0.0080, 0.0074, 0.0089, 0.0099],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002],
       device='cuda:1')
2022-11-16 08:40:59,392 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=99824.0, num_to_drop=1, layers_to_drop={1}
2022-11-16 08:41:08,868 INFO [train.py:876] (1/4) Epoch 14, batch 5300, loss[loss=0.101, simple_loss=0.1305, pruned_loss=0.03581, over 4977.00 frames. ], tot_loss[loss=0.09717, simple_loss=0.1297, pruned_loss=0.0323, over 1084788.11 frames. ], batch size: 109, lr: 5.70e-03, grad_scale: 8.0
2022-11-16 08:41:14,413 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 8.304e+01 1.298e+02 1.618e+02 1.971e+02 5.007e+02, threshold=3.235e+02, percent-clipped=2.0
2022-11-16 08:41:34,780 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.8549, 4.8958, 3.7144, 2.1046, 4.4821, 2.0924, 4.5405, 2.6655],
       device='cuda:1'), covar=tensor([0.1350, 0.0142, 0.0508, 0.2228, 0.0210, 0.1704, 0.0220, 0.1513],
       device='cuda:1'), in_proj_covar=tensor([0.0116, 0.0104, 0.0114, 0.0110, 0.0102, 0.0117, 0.0098, 0.0108],
       device='cuda:1'), out_proj_covar=tensor([0.0005, 0.0004, 0.0005, 0.0005, 0.0004, 0.0005, 0.0004, 0.0004],
       device='cuda:1')
2022-11-16 08:41:40,969 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=99885.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 08:42:07,327 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=99924.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 08:42:07,376 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=99924.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 08:42:08,024 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.4732, 1.8698, 1.5480, 1.1581, 1.6059, 0.9133, 1.8306, 1.1404],
       device='cuda:1'), covar=tensor([0.1155, 0.0441, 0.1246, 0.1474, 0.0680, 0.2161, 0.0488, 0.1529],
       device='cuda:1'), in_proj_covar=tensor([0.0116, 0.0104, 0.0115, 0.0111, 0.0102, 0.0117, 0.0099, 0.0108],
       device='cuda:1'), out_proj_covar=tensor([0.0005, 0.0004, 0.0005, 0.0005, 0.0004, 0.0005, 0.0004, 0.0004],
       device='cuda:1')
2022-11-16 08:42:12,005 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([0.8438, 0.7149, 0.8853, 0.8245, 0.9583, 0.6890, 0.4721, 0.7690],
       device='cuda:1'), covar=tensor([0.0374, 0.0524, 0.0401, 0.0547, 0.0405, 0.0454, 0.1033, 0.0437],
       device='cuda:1'), in_proj_covar=tensor([0.0017, 0.0027, 0.0019, 0.0022, 0.0018, 0.0017, 0.0025, 0.0017],
       device='cuda:1'), out_proj_covar=tensor([9.5074e-05, 1.3326e-04, 1.0161e-04, 1.1301e-04, 1.0199e-04, 9.5533e-05,
        1.2458e-04, 9.5440e-05], device='cuda:1')
2022-11-16 08:42:13,194 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=99933.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 08:42:16,093 INFO [train.py:876] (1/4) Epoch 14, batch 5400, loss[loss=0.0768, simple_loss=0.1123, pruned_loss=0.02064, over 5652.00 frames. ], tot_loss[loss=0.09933, simple_loss=0.1315, pruned_loss=0.0336, over 1079998.64 frames. ], batch size: 29, lr: 5.70e-03, grad_scale: 8.0
2022-11-16 08:42:21,976 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 8.513e+01 1.478e+02 1.709e+02 2.137e+02 3.244e+02, threshold=3.418e+02, percent-clipped=1.0
2022-11-16 08:42:22,087 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=99945.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 08:42:34,473 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.6976, 1.7630, 1.8893, 1.8812, 1.6658, 1.4907, 1.7687, 1.8183],
       device='cuda:1'), covar=tensor([0.2390, 0.2506, 0.1963, 0.1811, 0.1968, 0.2638, 0.1684, 0.1112],
       device='cuda:1'), in_proj_covar=tensor([0.0117, 0.0109, 0.0107, 0.0110, 0.0096, 0.0106, 0.0098, 0.0085],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0003],
       device='cuda:1')
2022-11-16 08:42:40,286 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=99972.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 08:42:45,525 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=99980.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 08:42:48,939 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.22 vs. limit=2.0
2022-11-16 08:43:08,155 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=100007.0, num_to_drop=1, layers_to_drop={0}
2022-11-16 08:43:21,946 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=100028.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 08:43:27,256 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=100036.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 08:43:27,828 INFO [train.py:876] (1/4) Epoch 14, batch 5500, loss[loss=0.08835, simple_loss=0.1297, pruned_loss=0.02352, over 5558.00 frames. ], tot_loss[loss=0.09915, simple_loss=0.1315, pruned_loss=0.03339, over 1080971.50 frames. ], batch size: 25, lr: 5.70e-03, grad_scale: 8.0
2022-11-16 08:43:30,688 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=1.73 vs. limit=2.0
2022-11-16 08:43:32,932 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 7.703e+01 1.432e+02 1.744e+02 2.287e+02 4.720e+02, threshold=3.489e+02, percent-clipped=3.0
2022-11-16 08:43:37,799 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.22 vs. limit=2.0
2022-11-16 08:43:49,318 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=100068.0, num_to_drop=1, layers_to_drop={3}
2022-11-16 08:43:54,515 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=100076.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 08:44:27,260 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=100124.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 08:44:27,342 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.8036, 4.8118, 3.3552, 4.6278, 3.7906, 3.4088, 2.8940, 4.1307],
       device='cuda:1'), covar=tensor([0.1274, 0.0206, 0.0911, 0.0351, 0.0663, 0.0842, 0.1639, 0.0461],
       device='cuda:1'), in_proj_covar=tensor([0.0152, 0.0141, 0.0151, 0.0145, 0.0169, 0.0163, 0.0155, 0.0153],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0003, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004],
       device='cuda:1')
2022-11-16 08:44:27,348 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=100124.0, num_to_drop=1, layers_to_drop={1}
2022-11-16 08:44:35,691 INFO [train.py:876] (1/4) Epoch 14, batch 5600, loss[loss=0.09272, simple_loss=0.1187, pruned_loss=0.03335, over 5709.00 frames. ], tot_loss[loss=0.09825, simple_loss=0.131, pruned_loss=0.03273, over 1088293.49 frames. ], batch size: 34, lr: 5.69e-03, grad_scale: 8.0
2022-11-16 08:44:40,974 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 8.553e+01 1.416e+02 1.691e+02 1.981e+02 4.410e+02, threshold=3.382e+02, percent-clipped=1.0
2022-11-16 08:44:52,163 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([4.6382, 4.1906, 4.4799, 4.1988, 4.7033, 4.5596, 4.2447, 4.6698],
       device='cuda:1'), covar=tensor([0.0395, 0.0417, 0.0392, 0.0360, 0.0355, 0.0266, 0.0324, 0.0349],
       device='cuda:1'), in_proj_covar=tensor([0.0150, 0.0158, 0.0111, 0.0147, 0.0189, 0.0117, 0.0130, 0.0159],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003],
       device='cuda:1')
2022-11-16 08:44:52,781 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.8456, 2.7153, 2.7735, 2.7585, 2.7396, 2.5656, 3.0269, 2.8974],
       device='cuda:1'), covar=tensor([0.0474, 0.0992, 0.0634, 0.1408, 0.0669, 0.0540, 0.0913, 0.0839],
       device='cuda:1'), in_proj_covar=tensor([0.0091, 0.0113, 0.0098, 0.0126, 0.0092, 0.0083, 0.0148, 0.0108],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0003, 0.0002],
       device='cuda:1')
2022-11-16 08:44:59,694 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=100172.0, num_to_drop=1, layers_to_drop={0}
2022-11-16 08:45:16,187 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.7535, 4.0915, 3.7967, 3.5863, 2.0600, 4.0948, 2.2679, 3.4176],
       device='cuda:1'), covar=tensor([0.0469, 0.0246, 0.0206, 0.0369, 0.0778, 0.0172, 0.0678, 0.0203],
       device='cuda:1'), in_proj_covar=tensor([0.0198, 0.0189, 0.0186, 0.0214, 0.0202, 0.0188, 0.0197, 0.0192],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
       device='cuda:1')
2022-11-16 08:45:34,535 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=100224.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 08:45:43,183 INFO [train.py:876] (1/4) Epoch 14, batch 5700, loss[loss=0.07367, simple_loss=0.111, pruned_loss=0.01819, over 5730.00 frames. ], tot_loss[loss=0.09883, simple_loss=0.1315, pruned_loss=0.03309, over 1088114.07 frames. ], batch size: 16, lr: 5.69e-03, grad_scale: 8.0
2022-11-16 08:45:43,976 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=100238.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 08:45:48,356 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 8.517e+01 1.364e+02 1.751e+02 2.063e+02 4.628e+02, threshold=3.502e+02, percent-clipped=3.0
2022-11-16 08:45:48,536 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=100245.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 08:46:02,363 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.9026, 2.5276, 3.1844, 1.9560, 1.6513, 3.5736, 2.8798, 2.5343],
       device='cuda:1'), covar=tensor([0.0883, 0.1300, 0.0613, 0.2703, 0.3095, 0.0504, 0.1405, 0.1276],
       device='cuda:1'), in_proj_covar=tensor([0.0115, 0.0107, 0.0105, 0.0104, 0.0079, 0.0073, 0.0088, 0.0097],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002],
       device='cuda:1')
2022-11-16 08:46:06,331 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=100272.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 08:46:21,248 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=100293.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 08:46:25,378 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=100299.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 08:46:27,331 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.9853, 1.8673, 2.0309, 2.1637, 2.4225, 1.9674, 1.6459, 2.1885],
       device='cuda:1'), covar=tensor([0.2788, 0.2251, 0.1703, 0.0880, 0.1170, 0.2984, 0.2409, 0.2515],
       device='cuda:1'), in_proj_covar=tensor([0.0261, 0.0200, 0.0186, 0.0300, 0.0228, 0.0200, 0.0189, 0.0251],
       device='cuda:1'), out_proj_covar=tensor([0.0006, 0.0005, 0.0005, 0.0006, 0.0005, 0.0005, 0.0005, 0.0006],
       device='cuda:1')
2022-11-16 08:46:32,161 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=1.90 vs. limit=2.0
2022-11-16 08:46:50,201 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=100336.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 08:46:50,737 INFO [train.py:876] (1/4) Epoch 14, batch 5800, loss[loss=0.1881, simple_loss=0.1776, pruned_loss=0.09926, over 3136.00 frames. ], tot_loss[loss=0.09845, simple_loss=0.1315, pruned_loss=0.03269, over 1085790.58 frames. ], batch size: 284, lr: 5.69e-03, grad_scale: 16.0
2022-11-16 08:46:56,040 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=3.87 vs. limit=5.0
2022-11-16 08:46:56,199 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 7.798e+01 1.394e+02 1.721e+02 2.262e+02 4.141e+02, threshold=3.442e+02, percent-clipped=1.0
2022-11-16 08:47:07,936 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=100363.0, num_to_drop=1, layers_to_drop={3}
2022-11-16 08:47:21,653 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=100384.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 08:47:34,814 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=100402.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 08:47:43,987 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([5.3197, 4.8187, 5.0911, 4.6972, 5.3859, 5.2459, 4.5015, 5.3541],
       device='cuda:1'), covar=tensor([0.0322, 0.0310, 0.0434, 0.0388, 0.0330, 0.0217, 0.0265, 0.0246],
       device='cuda:1'), in_proj_covar=tensor([0.0151, 0.0160, 0.0113, 0.0149, 0.0191, 0.0118, 0.0132, 0.0161],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0003, 0.0002, 0.0003, 0.0004, 0.0002, 0.0002, 0.0003],
       device='cuda:1')
2022-11-16 08:47:57,685 INFO [train.py:876] (1/4) Epoch 14, batch 5900, loss[loss=0.07954, simple_loss=0.1247, pruned_loss=0.01722, over 5477.00 frames. ], tot_loss[loss=0.09721, simple_loss=0.13, pruned_loss=0.0322, over 1081421.00 frames. ], batch size: 17, lr: 5.68e-03, grad_scale: 16.0
2022-11-16 08:48:03,427 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 9.325e+01 1.325e+02 1.657e+02 2.050e+02 5.165e+02, threshold=3.313e+02, percent-clipped=3.0
2022-11-16 08:48:16,285 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=100463.0, num_to_drop=1, layers_to_drop={0}
2022-11-16 08:48:42,495 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=1.89 vs. limit=2.0
2022-11-16 08:49:05,459 INFO [train.py:876] (1/4) Epoch 14, batch 6000, loss[loss=0.106, simple_loss=0.1354, pruned_loss=0.03831, over 5766.00 frames. ], tot_loss[loss=0.0978, simple_loss=0.1302, pruned_loss=0.03271, over 1078400.37 frames. ], batch size: 20, lr: 5.68e-03, grad_scale: 16.0
2022-11-16 08:49:05,460 INFO [train.py:899] (1/4) Computing validation loss
2022-11-16 08:49:12,903 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.9822, 2.5244, 3.4539, 2.1263, 1.9442, 3.7924, 2.8701, 2.7232],
       device='cuda:1'), covar=tensor([0.0685, 0.1138, 0.0412, 0.2578, 0.3561, 0.0754, 0.0965, 0.0977],
       device='cuda:1'), in_proj_covar=tensor([0.0114, 0.0105, 0.0105, 0.0104, 0.0079, 0.0072, 0.0087, 0.0096],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
       device='cuda:1')
2022-11-16 08:49:12,929 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.4521, 1.7007, 1.8388, 1.7579, 2.3968, 2.0052, 1.5934, 1.9364],
       device='cuda:1'), covar=tensor([0.0182, 0.0413, 0.0483, 0.0314, 0.0277, 0.0678, 0.0448, 0.0409],
       device='cuda:1'), in_proj_covar=tensor([0.0017, 0.0027, 0.0019, 0.0022, 0.0019, 0.0017, 0.0025, 0.0018],
       device='cuda:1'), out_proj_covar=tensor([9.6729e-05, 1.3563e-04, 1.0237e-04, 1.1601e-04, 1.0334e-04, 9.7616e-05,
        1.2725e-04, 9.7655e-05], device='cuda:1')
2022-11-16 08:49:23,825 INFO [train.py:908] (1/4) Epoch 14, validation: loss=0.1801, simple_loss=0.1888, pruned_loss=0.08568, over 1530663.00 frames. 
2022-11-16 08:49:23,826 INFO [train.py:909] (1/4) Maximum memory allocated so far is 4676MB
2022-11-16 08:49:29,380 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 9.974e+01 1.386e+02 1.665e+02 1.958e+02 3.486e+02, threshold=3.330e+02, percent-clipped=1.0
2022-11-16 08:49:44,180 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([5.1909, 4.6612, 4.9533, 4.7287, 5.2742, 5.1388, 4.5157, 5.2650],
       device='cuda:1'), covar=tensor([0.0363, 0.0360, 0.0444, 0.0338, 0.0326, 0.0198, 0.0282, 0.0246],
       device='cuda:1'), in_proj_covar=tensor([0.0150, 0.0159, 0.0112, 0.0148, 0.0189, 0.0117, 0.0131, 0.0160],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003],
       device='cuda:1')
2022-11-16 08:49:49,225 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.6246, 2.6195, 2.3957, 2.5678, 2.2011, 2.0399, 2.4906, 3.0026],
       device='cuda:1'), covar=tensor([0.1352, 0.1022, 0.1991, 0.1707, 0.1697, 0.1070, 0.1251, 0.1531],
       device='cuda:1'), in_proj_covar=tensor([0.0116, 0.0109, 0.0107, 0.0109, 0.0096, 0.0106, 0.0098, 0.0085],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0003],
       device='cuda:1')
2022-11-16 08:50:01,483 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=100594.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 08:50:27,048 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([4.2403, 4.0158, 3.9900, 4.2258, 3.7717, 3.6060, 4.5803, 4.0337],
       device='cuda:1'), covar=tensor([0.0362, 0.0755, 0.0532, 0.1035, 0.0574, 0.0408, 0.0612, 0.0705],
       device='cuda:1'), in_proj_covar=tensor([0.0091, 0.0113, 0.0099, 0.0127, 0.0093, 0.0083, 0.0150, 0.0109],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0003, 0.0002],
       device='cuda:1')
2022-11-16 08:50:30,876 INFO [train.py:876] (1/4) Epoch 14, batch 6100, loss[loss=0.131, simple_loss=0.1596, pruned_loss=0.05123, over 5577.00 frames. ], tot_loss[loss=0.09928, simple_loss=0.1317, pruned_loss=0.03345, over 1084403.44 frames. ], batch size: 40, lr: 5.68e-03, grad_scale: 16.0
2022-11-16 08:50:36,072 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 9.272e+01 1.427e+02 1.651e+02 1.977e+02 4.323e+02, threshold=3.302e+02, percent-clipped=4.0
2022-11-16 08:50:48,643 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=100663.0, num_to_drop=1, layers_to_drop={2}
2022-11-16 08:50:57,370 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([4.1219, 4.0357, 4.1019, 4.1508, 3.9111, 3.5969, 4.5579, 4.0162],
       device='cuda:1'), covar=tensor([0.0380, 0.0805, 0.0419, 0.1066, 0.0458, 0.0448, 0.0693, 0.0705],
       device='cuda:1'), in_proj_covar=tensor([0.0091, 0.0112, 0.0098, 0.0125, 0.0092, 0.0082, 0.0149, 0.0108],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0003, 0.0002],
       device='cuda:1')
2022-11-16 08:51:18,768 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.8539, 1.2833, 1.6635, 1.2879, 2.0534, 2.1178, 1.1708, 1.5617],
       device='cuda:1'), covar=tensor([0.0497, 0.0666, 0.0360, 0.0717, 0.0385, 0.0613, 0.0540, 0.0440],
       device='cuda:1'), in_proj_covar=tensor([0.0017, 0.0027, 0.0019, 0.0022, 0.0018, 0.0017, 0.0025, 0.0018],
       device='cuda:1'), out_proj_covar=tensor([9.5009e-05, 1.3398e-04, 1.0071e-04, 1.1440e-04, 1.0169e-04, 9.6388e-05,
        1.2545e-04, 9.6974e-05], device='cuda:1')
2022-11-16 08:51:20,682 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=100711.0, num_to_drop=1, layers_to_drop={0}
2022-11-16 08:51:34,119 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=100730.0, num_to_drop=1, layers_to_drop={1}
2022-11-16 08:51:34,768 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.5255, 3.4283, 3.8336, 2.0625, 3.6593, 3.8955, 3.8083, 4.0694],
       device='cuda:1'), covar=tensor([0.1819, 0.1222, 0.0614, 0.2416, 0.0410, 0.0488, 0.0528, 0.0600],
       device='cuda:1'), in_proj_covar=tensor([0.0163, 0.0180, 0.0169, 0.0181, 0.0186, 0.0205, 0.0171, 0.0182],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004],
       device='cuda:1')
2022-11-16 08:51:38,465 INFO [train.py:876] (1/4) Epoch 14, batch 6200, loss[loss=0.1032, simple_loss=0.1317, pruned_loss=0.03739, over 5549.00 frames. ], tot_loss[loss=0.09828, simple_loss=0.1307, pruned_loss=0.03295, over 1085397.92 frames. ], batch size: 40, lr: 5.68e-03, grad_scale: 16.0
2022-11-16 08:51:43,691 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 8.597e+01 1.377e+02 1.629e+02 2.100e+02 5.485e+02, threshold=3.258e+02, percent-clipped=3.0
2022-11-16 08:51:49,042 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([4.3463, 2.7684, 3.8849, 3.5168, 4.2669, 2.9673, 3.7278, 4.2967],
       device='cuda:1'), covar=tensor([0.0485, 0.1295, 0.0748, 0.1261, 0.0402, 0.1332, 0.0950, 0.0670],
       device='cuda:1'), in_proj_covar=tensor([0.0244, 0.0194, 0.0216, 0.0213, 0.0242, 0.0197, 0.0224, 0.0231],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004],
       device='cuda:1')
2022-11-16 08:51:52,256 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=100758.0, num_to_drop=1, layers_to_drop={2}
2022-11-16 08:52:15,304 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=100791.0, num_to_drop=1, layers_to_drop={2}
2022-11-16 08:52:41,033 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.6549, 1.7448, 1.7309, 1.6641, 1.8146, 1.8070, 1.7875, 1.8802],
       device='cuda:1'), covar=tensor([0.0073, 0.0072, 0.0062, 0.0066, 0.0059, 0.0062, 0.0063, 0.0066],
       device='cuda:1'), in_proj_covar=tensor([0.0068, 0.0062, 0.0062, 0.0067, 0.0066, 0.0061, 0.0059, 0.0056],
       device='cuda:1'), out_proj_covar=tensor([6.0776e-05, 5.5065e-05, 5.3604e-05, 5.9056e-05, 5.7866e-05, 5.2569e-05,
        5.2005e-05, 4.8962e-05], device='cuda:1')
2022-11-16 08:52:42,412 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.12 vs. limit=2.0
2022-11-16 08:52:42,950 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.7711, 1.6700, 1.9397, 1.8113, 1.5045, 2.5728, 2.0420, 1.6337],
       device='cuda:1'), covar=tensor([0.1789, 0.2542, 0.2025, 0.2720, 0.3214, 0.0931, 0.1662, 0.1896],
       device='cuda:1'), in_proj_covar=tensor([0.0114, 0.0106, 0.0106, 0.0105, 0.0078, 0.0073, 0.0087, 0.0097],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002],
       device='cuda:1')
2022-11-16 08:52:46,739 INFO [train.py:876] (1/4) Epoch 14, batch 6300, loss[loss=0.07519, simple_loss=0.1178, pruned_loss=0.01631, over 5715.00 frames. ], tot_loss[loss=0.09749, simple_loss=0.1301, pruned_loss=0.03245, over 1084064.25 frames. ], batch size: 17, lr: 5.67e-03, grad_scale: 16.0
2022-11-16 08:52:51,882 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 8.472e+01 1.427e+02 1.681e+02 2.021e+02 4.003e+02, threshold=3.363e+02, percent-clipped=4.0
2022-11-16 08:53:03,093 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.6990, 4.1924, 3.8152, 3.5200, 1.9274, 4.0429, 2.3059, 3.5686],
       device='cuda:1'), covar=tensor([0.0488, 0.0149, 0.0252, 0.0410, 0.0815, 0.0190, 0.0627, 0.0164],
       device='cuda:1'), in_proj_covar=tensor([0.0196, 0.0189, 0.0185, 0.0212, 0.0200, 0.0189, 0.0196, 0.0190],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
       device='cuda:1')
2022-11-16 08:53:19,889 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.9709, 2.6205, 3.1752, 2.2608, 1.9055, 3.6255, 2.8931, 2.4260],
       device='cuda:1'), covar=tensor([0.0809, 0.1168, 0.0607, 0.2429, 0.1564, 0.1134, 0.1053, 0.0979],
       device='cuda:1'), in_proj_covar=tensor([0.0114, 0.0106, 0.0106, 0.0104, 0.0079, 0.0073, 0.0087, 0.0097],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002],
       device='cuda:1')
2022-11-16 08:53:22,715 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=5.29 vs. limit=5.0
2022-11-16 08:53:24,992 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=100894.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 08:53:28,177 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([4.7305, 4.2488, 4.5564, 4.2224, 4.7561, 4.5447, 4.2029, 4.7530],
       device='cuda:1'), covar=tensor([0.0334, 0.0463, 0.0404, 0.0393, 0.0405, 0.0276, 0.0351, 0.0371],
       device='cuda:1'), in_proj_covar=tensor([0.0150, 0.0161, 0.0113, 0.0149, 0.0191, 0.0117, 0.0132, 0.0162],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0003, 0.0002, 0.0003, 0.0004, 0.0002, 0.0002, 0.0003],
       device='cuda:1')
2022-11-16 08:53:53,676 INFO [train.py:876] (1/4) Epoch 14, batch 6400, loss[loss=0.09799, simple_loss=0.1349, pruned_loss=0.03055, over 5760.00 frames. ], tot_loss[loss=0.09748, simple_loss=0.1303, pruned_loss=0.03233, over 1086922.43 frames. ], batch size: 27, lr: 5.67e-03, grad_scale: 16.0
2022-11-16 08:53:57,517 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=100942.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 08:53:59,455 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 8.356e+01 1.445e+02 1.710e+02 2.169e+02 3.491e+02, threshold=3.419e+02, percent-clipped=2.0
2022-11-16 08:54:20,090 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.1533, 1.4580, 1.1140, 1.0096, 1.3881, 1.3532, 0.8849, 1.4780],
       device='cuda:1'), covar=tensor([0.0076, 0.0073, 0.0082, 0.0085, 0.0071, 0.0065, 0.0104, 0.0057],
       device='cuda:1'), in_proj_covar=tensor([0.0068, 0.0063, 0.0062, 0.0067, 0.0066, 0.0061, 0.0059, 0.0057],
       device='cuda:1'), out_proj_covar=tensor([6.0707e-05, 5.5322e-05, 5.3655e-05, 5.9394e-05, 5.8057e-05, 5.2638e-05,
        5.2001e-05, 4.9080e-05], device='cuda:1')
2022-11-16 08:54:35,777 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.5545, 2.1238, 3.1065, 2.6849, 3.1216, 2.0957, 2.8208, 3.5052],
       device='cuda:1'), covar=tensor([0.0558, 0.1423, 0.0846, 0.1349, 0.0832, 0.1531, 0.1175, 0.0699],
       device='cuda:1'), in_proj_covar=tensor([0.0240, 0.0192, 0.0212, 0.0208, 0.0239, 0.0194, 0.0219, 0.0229],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004],
       device='cuda:1')
2022-11-16 08:54:57,782 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.18 vs. limit=2.0
2022-11-16 08:55:01,410 INFO [train.py:876] (1/4) Epoch 14, batch 6500, loss[loss=0.08044, simple_loss=0.1194, pruned_loss=0.02074, over 5688.00 frames. ], tot_loss[loss=0.09795, simple_loss=0.1308, pruned_loss=0.03256, over 1085018.51 frames. ], batch size: 19, lr: 5.67e-03, grad_scale: 16.0
2022-11-16 08:55:06,942 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 9.989e+01 1.437e+02 1.725e+02 2.064e+02 3.698e+02, threshold=3.449e+02, percent-clipped=2.0
2022-11-16 08:55:16,241 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=101058.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 08:55:34,984 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=101086.0, num_to_drop=1, layers_to_drop={1}
2022-11-16 08:55:48,584 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=101106.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 08:55:49,311 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=101107.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 08:56:09,261 INFO [train.py:876] (1/4) Epoch 14, batch 6600, loss[loss=0.0886, simple_loss=0.1293, pruned_loss=0.02394, over 5552.00 frames. ], tot_loss[loss=0.09898, simple_loss=0.1312, pruned_loss=0.03339, over 1077916.57 frames. ], batch size: 25, lr: 5.66e-03, grad_scale: 16.0
2022-11-16 08:56:10,404 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=4.33 vs. limit=5.0
2022-11-16 08:56:14,436 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 6.470e+01 1.360e+02 1.590e+02 2.159e+02 4.243e+02, threshold=3.180e+02, percent-clipped=1.0
2022-11-16 08:56:17,477 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.4062, 2.5079, 2.6809, 2.4870, 2.5761, 2.5277, 1.2222, 2.6279],
       device='cuda:1'), covar=tensor([0.0480, 0.0548, 0.0455, 0.0428, 0.0600, 0.0601, 0.3132, 0.0636],
       device='cuda:1'), in_proj_covar=tensor([0.0103, 0.0089, 0.0087, 0.0080, 0.0101, 0.0089, 0.0128, 0.0108],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
       device='cuda:1')
2022-11-16 08:56:31,069 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=101168.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 08:57:17,779 INFO [train.py:876] (1/4) Epoch 14, batch 6700, loss[loss=0.107, simple_loss=0.1522, pruned_loss=0.03092, over 5645.00 frames. ], tot_loss[loss=0.09891, simple_loss=0.1314, pruned_loss=0.03323, over 1080939.36 frames. ], batch size: 29, lr: 5.66e-03, grad_scale: 16.0
2022-11-16 08:57:22,870 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 9.036e+01 1.360e+02 1.742e+02 2.134e+02 3.328e+02, threshold=3.484e+02, percent-clipped=2.0
2022-11-16 08:57:22,992 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([4.9095, 4.4744, 4.7589, 4.5082, 4.9683, 4.8126, 4.3737, 4.9849],
       device='cuda:1'), covar=tensor([0.0335, 0.0372, 0.0428, 0.0326, 0.0336, 0.0212, 0.0312, 0.0249],
       device='cuda:1'), in_proj_covar=tensor([0.0151, 0.0160, 0.0113, 0.0149, 0.0191, 0.0118, 0.0132, 0.0162],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0003, 0.0002, 0.0003, 0.0004, 0.0002, 0.0002, 0.0003],
       device='cuda:1')
2022-11-16 08:58:25,804 INFO [train.py:876] (1/4) Epoch 14, batch 6800, loss[loss=0.09167, simple_loss=0.1321, pruned_loss=0.02564, over 5731.00 frames. ], tot_loss[loss=0.09802, simple_loss=0.1308, pruned_loss=0.03263, over 1082288.27 frames. ], batch size: 31, lr: 5.66e-03, grad_scale: 16.0
2022-11-16 08:58:28,390 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([5.0838, 4.9686, 5.0417, 5.0617, 4.7452, 4.3851, 5.7326, 5.1658],
       device='cuda:1'), covar=tensor([0.0487, 0.0858, 0.0410, 0.1303, 0.0431, 0.0489, 0.0579, 0.0666],
       device='cuda:1'), in_proj_covar=tensor([0.0092, 0.0113, 0.0099, 0.0127, 0.0092, 0.0083, 0.0149, 0.0108],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0003, 0.0002],
       device='cuda:1')
2022-11-16 08:58:30,941 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 8.618e+01 1.430e+02 1.640e+02 2.057e+02 3.965e+02, threshold=3.281e+02, percent-clipped=2.0
2022-11-16 08:58:51,767 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=4.07 vs. limit=5.0
2022-11-16 08:58:56,396 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.5279, 2.2939, 2.7137, 1.9859, 1.4721, 3.2832, 2.6816, 2.3689],
       device='cuda:1'), covar=tensor([0.0975, 0.1427, 0.0784, 0.2520, 0.3584, 0.1125, 0.0970, 0.1582],
       device='cuda:1'), in_proj_covar=tensor([0.0113, 0.0105, 0.0104, 0.0104, 0.0078, 0.0072, 0.0086, 0.0096],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
       device='cuda:1')
2022-11-16 08:58:58,319 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=101386.0, num_to_drop=1, layers_to_drop={1}
2022-11-16 08:59:14,040 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.6672, 3.9315, 3.8718, 3.6000, 3.9357, 3.8691, 1.4824, 3.9258],
       device='cuda:1'), covar=tensor([0.0426, 0.0479, 0.0520, 0.0444, 0.0351, 0.0383, 0.3623, 0.0467],
       device='cuda:1'), in_proj_covar=tensor([0.0104, 0.0089, 0.0088, 0.0081, 0.0101, 0.0090, 0.0129, 0.0108],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
       device='cuda:1')
2022-11-16 08:59:14,751 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.1278, 1.4552, 1.1122, 1.1628, 1.3771, 1.1395, 0.8507, 1.4236],
       device='cuda:1'), covar=tensor([0.0086, 0.0055, 0.0071, 0.0063, 0.0074, 0.0069, 0.0116, 0.0058],
       device='cuda:1'), in_proj_covar=tensor([0.0070, 0.0064, 0.0063, 0.0069, 0.0067, 0.0063, 0.0060, 0.0058],
       device='cuda:1'), out_proj_covar=tensor([6.2248e-05, 5.6353e-05, 5.5081e-05, 6.0554e-05, 5.8997e-05, 5.4308e-05,
        5.3328e-05, 5.0535e-05], device='cuda:1')
2022-11-16 08:59:30,803 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=101434.0, num_to_drop=1, layers_to_drop={0}
2022-11-16 08:59:32,746 INFO [train.py:876] (1/4) Epoch 14, batch 6900, loss[loss=0.1055, simple_loss=0.1393, pruned_loss=0.03586, over 5603.00 frames. ], tot_loss[loss=0.09654, simple_loss=0.1294, pruned_loss=0.03186, over 1089806.43 frames. ], batch size: 18, lr: 5.66e-03, grad_scale: 16.0
2022-11-16 08:59:39,121 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 9.093e+01 1.364e+02 1.752e+02 2.207e+02 5.252e+02, threshold=3.504e+02, percent-clipped=3.0
2022-11-16 08:59:40,643 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([4.3337, 2.8341, 3.3302, 4.0850, 4.1264, 3.1765, 2.9232, 4.0874],
       device='cuda:1'), covar=tensor([0.0585, 0.2333, 0.2388, 0.3218, 0.1116, 0.2995, 0.1934, 0.0693],
       device='cuda:1'), in_proj_covar=tensor([0.0254, 0.0191, 0.0181, 0.0287, 0.0221, 0.0193, 0.0182, 0.0245],
       device='cuda:1'), out_proj_covar=tensor([0.0006, 0.0005, 0.0005, 0.0006, 0.0005, 0.0005, 0.0005, 0.0006],
       device='cuda:1')
2022-11-16 08:59:50,948 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=101463.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 09:00:10,877 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.8152, 2.3059, 3.4865, 3.1036, 3.5897, 2.3339, 3.2525, 3.7469],
       device='cuda:1'), covar=tensor([0.0713, 0.1705, 0.0951, 0.1452, 0.0760, 0.1704, 0.1337, 0.1082],
       device='cuda:1'), in_proj_covar=tensor([0.0244, 0.0194, 0.0215, 0.0211, 0.0240, 0.0197, 0.0225, 0.0230],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004],
       device='cuda:1')
2022-11-16 09:00:17,995 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=1.89 vs. limit=2.0
2022-11-16 09:00:40,657 INFO [train.py:876] (1/4) Epoch 14, batch 7000, loss[loss=0.1131, simple_loss=0.146, pruned_loss=0.0401, over 5629.00 frames. ], tot_loss[loss=0.09678, simple_loss=0.1296, pruned_loss=0.03197, over 1085543.75 frames. ], batch size: 43, lr: 5.65e-03, grad_scale: 16.0
2022-11-16 09:00:47,040 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 8.705e+01 1.319e+02 1.556e+02 2.148e+02 4.018e+02, threshold=3.112e+02, percent-clipped=2.0
2022-11-16 09:01:48,509 INFO [train.py:876] (1/4) Epoch 14, batch 7100, loss[loss=0.1121, simple_loss=0.1471, pruned_loss=0.03852, over 5583.00 frames. ], tot_loss[loss=0.09585, simple_loss=0.1293, pruned_loss=0.0312, over 1085677.73 frames. ], batch size: 22, lr: 5.65e-03, grad_scale: 8.0
2022-11-16 09:01:54,701 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 9.279e+01 1.412e+02 1.777e+02 2.341e+02 5.678e+02, threshold=3.553e+02, percent-clipped=7.0
2022-11-16 09:01:56,268 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.5951, 3.6841, 3.6011, 3.4277, 1.8882, 3.6941, 2.2460, 3.1905],
       device='cuda:1'), covar=tensor([0.0504, 0.0255, 0.0175, 0.0340, 0.0765, 0.0214, 0.0632, 0.0238],
       device='cuda:1'), in_proj_covar=tensor([0.0196, 0.0187, 0.0184, 0.0211, 0.0198, 0.0187, 0.0197, 0.0188],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
       device='cuda:1')
2022-11-16 09:02:21,007 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=101684.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 09:02:28,618 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.4472, 2.4987, 2.3320, 2.4198, 2.1954, 1.8625, 2.2857, 2.7403],
       device='cuda:1'), covar=tensor([0.1160, 0.1327, 0.1631, 0.1435, 0.1372, 0.1691, 0.1251, 0.1138],
       device='cuda:1'), in_proj_covar=tensor([0.0116, 0.0108, 0.0107, 0.0109, 0.0094, 0.0105, 0.0098, 0.0085],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0004, 0.0004, 0.0004, 0.0003, 0.0004, 0.0004, 0.0003],
       device='cuda:1')
2022-11-16 09:02:32,904 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.6859, 2.7022, 2.4146, 2.7159, 2.7423, 2.5209, 2.3564, 2.5223],
       device='cuda:1'), covar=tensor([0.0449, 0.0834, 0.1535, 0.0623, 0.0657, 0.0597, 0.1369, 0.0864],
       device='cuda:1'), in_proj_covar=tensor([0.0136, 0.0187, 0.0280, 0.0179, 0.0227, 0.0177, 0.0193, 0.0182],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0003, 0.0004, 0.0002, 0.0003, 0.0002, 0.0003, 0.0002],
       device='cuda:1')
2022-11-16 09:02:43,228 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.49 vs. limit=2.0
2022-11-16 09:02:57,246 INFO [train.py:876] (1/4) Epoch 14, batch 7200, loss[loss=0.08241, simple_loss=0.1231, pruned_loss=0.02085, over 5568.00 frames. ], tot_loss[loss=0.09696, simple_loss=0.1298, pruned_loss=0.03208, over 1083143.72 frames. ], batch size: 30, lr: 5.65e-03, grad_scale: 8.0
2022-11-16 09:03:03,313 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=101745.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 09:03:03,779 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 8.181e+01 1.351e+02 1.693e+02 2.156e+02 4.493e+02, threshold=3.386e+02, percent-clipped=3.0
2022-11-16 09:03:15,172 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=101763.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 09:03:30,669 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.4573, 1.5746, 1.5078, 1.2552, 1.4449, 1.4132, 1.1975, 0.8765],
       device='cuda:1'), covar=tensor([0.0049, 0.0058, 0.0042, 0.0074, 0.0067, 0.0073, 0.0065, 0.0114],
       device='cuda:1'), in_proj_covar=tensor([0.0033, 0.0030, 0.0030, 0.0038, 0.0034, 0.0030, 0.0039, 0.0038],
       device='cuda:1'), out_proj_covar=tensor([3.1004e-05, 2.7655e-05, 2.7074e-05, 3.6721e-05, 3.1610e-05, 2.8947e-05,
        3.6767e-05, 3.6029e-05], device='cuda:1')
2022-11-16 09:04:28,272 INFO [train.py:876] (1/4) Epoch 15, batch 0, loss[loss=0.1126, simple_loss=0.1527, pruned_loss=0.03621, over 5561.00 frames. ], tot_loss[loss=0.1126, simple_loss=0.1527, pruned_loss=0.03621, over 5561.00 frames. ], batch size: 13, lr: 5.45e-03, grad_scale: 8.0
2022-11-16 09:04:28,272 INFO [train.py:899] (1/4) Computing validation loss
2022-11-16 09:04:32,344 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.8615, 2.3136, 2.9069, 3.8341, 3.7004, 2.7862, 2.3783, 3.7756],
       device='cuda:1'), covar=tensor([0.0794, 0.3240, 0.2568, 0.1947, 0.1484, 0.3383, 0.2773, 0.0867],
       device='cuda:1'), in_proj_covar=tensor([0.0258, 0.0194, 0.0184, 0.0293, 0.0225, 0.0196, 0.0185, 0.0248],
       device='cuda:1'), out_proj_covar=tensor([0.0006, 0.0005, 0.0005, 0.0006, 0.0005, 0.0005, 0.0005, 0.0006],
       device='cuda:1')
2022-11-16 09:04:44,421 INFO [train.py:908] (1/4) Epoch 15, validation: loss=0.1798, simple_loss=0.1892, pruned_loss=0.08518, over 1530663.00 frames. 
2022-11-16 09:04:44,421 INFO [train.py:909] (1/4) Maximum memory allocated so far is 4676MB
2022-11-16 09:04:45,740 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=101811.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 09:04:57,326 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([4.6398, 4.2765, 4.4680, 4.1455, 4.7219, 4.5026, 4.1186, 4.6625],
       device='cuda:1'), covar=tensor([0.0413, 0.0384, 0.0465, 0.0401, 0.0392, 0.0286, 0.0388, 0.0327],
       device='cuda:1'), in_proj_covar=tensor([0.0151, 0.0160, 0.0112, 0.0149, 0.0191, 0.0118, 0.0132, 0.0162],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0003, 0.0002, 0.0003, 0.0004, 0.0002, 0.0002, 0.0003],
       device='cuda:1')
2022-11-16 09:05:09,641 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 8.429e+01 1.523e+02 1.865e+02 2.134e+02 5.248e+02, threshold=3.731e+02, percent-clipped=3.0
2022-11-16 09:05:22,275 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.8877, 1.6039, 1.8279, 1.8366, 2.1418, 1.7154, 1.4545, 1.9021],
       device='cuda:1'), covar=tensor([0.1830, 0.1823, 0.1408, 0.0931, 0.1018, 0.2051, 0.2247, 0.2220],
       device='cuda:1'), in_proj_covar=tensor([0.0258, 0.0194, 0.0184, 0.0291, 0.0224, 0.0196, 0.0185, 0.0248],
       device='cuda:1'), out_proj_covar=tensor([0.0006, 0.0005, 0.0005, 0.0006, 0.0005, 0.0005, 0.0005, 0.0006],
       device='cuda:1')
2022-11-16 09:05:51,986 INFO [train.py:876] (1/4) Epoch 15, batch 100, loss[loss=0.08752, simple_loss=0.1249, pruned_loss=0.02507, over 5638.00 frames. ], tot_loss[loss=0.1032, simple_loss=0.1331, pruned_loss=0.03659, over 425632.16 frames. ], batch size: 29, lr: 5.45e-03, grad_scale: 8.0
2022-11-16 09:05:59,270 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=101920.0, num_to_drop=1, layers_to_drop={0}
2022-11-16 09:06:00,592 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.7713, 1.6207, 1.7276, 1.6399, 1.7388, 1.8243, 1.5902, 1.8782],
       device='cuda:1'), covar=tensor([0.0071, 0.0059, 0.0055, 0.0059, 0.0057, 0.0055, 0.0062, 0.0051],
       device='cuda:1'), in_proj_covar=tensor([0.0068, 0.0062, 0.0062, 0.0066, 0.0064, 0.0060, 0.0059, 0.0056],
       device='cuda:1'), out_proj_covar=tensor([6.0241e-05, 5.4655e-05, 5.3522e-05, 5.8317e-05, 5.6812e-05, 5.2201e-05,
        5.1825e-05, 4.9037e-05], device='cuda:1')
2022-11-16 09:06:01,200 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.6182, 4.8026, 3.1866, 4.5571, 3.7081, 3.2706, 2.5167, 4.0912],
       device='cuda:1'), covar=tensor([0.1453, 0.0165, 0.1071, 0.0245, 0.0493, 0.0884, 0.1913, 0.0270],
       device='cuda:1'), in_proj_covar=tensor([0.0153, 0.0141, 0.0151, 0.0145, 0.0170, 0.0164, 0.0156, 0.0156],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0003, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004],
       device='cuda:1')
2022-11-16 09:06:16,934 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 8.051e+01 1.432e+02 1.657e+02 2.152e+02 4.167e+02, threshold=3.314e+02, percent-clipped=2.0
2022-11-16 09:06:40,784 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=101981.0, num_to_drop=1, layers_to_drop={2}
2022-11-16 09:06:44,627 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=101987.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 09:07:00,222 INFO [train.py:876] (1/4) Epoch 15, batch 200, loss[loss=0.1019, simple_loss=0.136, pruned_loss=0.03393, over 5611.00 frames. ], tot_loss[loss=0.1013, simple_loss=0.1335, pruned_loss=0.03455, over 688952.66 frames. ], batch size: 32, lr: 5.45e-03, grad_scale: 8.0
2022-11-16 09:07:20,551 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=102040.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 09:07:24,775 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 8.824e+01 1.391e+02 1.728e+02 2.198e+02 6.457e+02, threshold=3.456e+02, percent-clipped=4.0
2022-11-16 09:07:26,235 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=102048.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 09:08:07,555 INFO [train.py:876] (1/4) Epoch 15, batch 300, loss[loss=0.08245, simple_loss=0.1141, pruned_loss=0.0254, over 5448.00 frames. ], tot_loss[loss=0.099, simple_loss=0.1316, pruned_loss=0.03322, over 851594.47 frames. ], batch size: 11, lr: 5.45e-03, grad_scale: 8.0
2022-11-16 09:08:26,052 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=4.69 vs. limit=5.0
2022-11-16 09:08:26,832 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=5.03 vs. limit=5.0
2022-11-16 09:08:32,098 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 9.719e+01 1.477e+02 1.712e+02 2.125e+02 3.835e+02, threshold=3.423e+02, percent-clipped=2.0
2022-11-16 09:09:15,303 INFO [train.py:876] (1/4) Epoch 15, batch 400, loss[loss=0.122, simple_loss=0.1443, pruned_loss=0.04984, over 5111.00 frames. ], tot_loss[loss=0.09689, simple_loss=0.1301, pruned_loss=0.03182, over 949273.77 frames. ], batch size: 91, lr: 5.44e-03, grad_scale: 8.0
2022-11-16 09:09:40,369 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.002e+02 1.441e+02 1.640e+02 2.170e+02 4.348e+02, threshold=3.279e+02, percent-clipped=4.0
2022-11-16 09:10:00,706 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=102276.0, num_to_drop=1, layers_to_drop={2}
2022-11-16 09:10:22,877 INFO [train.py:876] (1/4) Epoch 15, batch 500, loss[loss=0.1021, simple_loss=0.1409, pruned_loss=0.03171, over 5531.00 frames. ], tot_loss[loss=0.0972, simple_loss=0.1307, pruned_loss=0.03185, over 1008358.40 frames. ], batch size: 21, lr: 5.44e-03, grad_scale: 8.0
2022-11-16 09:10:44,304 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=102340.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 09:10:46,602 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=102343.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 09:10:48,482 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 8.403e+01 1.330e+02 1.651e+02 2.070e+02 4.075e+02, threshold=3.302e+02, percent-clipped=1.0
2022-11-16 09:10:48,804 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=1.54 vs. limit=2.0
2022-11-16 09:11:10,050 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.7306, 2.8130, 2.6961, 2.9131, 2.3763, 2.3213, 2.7492, 3.2252],
       device='cuda:1'), covar=tensor([0.1103, 0.1312, 0.1397, 0.0782, 0.1430, 0.0984, 0.1039, 0.0749],
       device='cuda:1'), in_proj_covar=tensor([0.0118, 0.0110, 0.0109, 0.0112, 0.0096, 0.0107, 0.0099, 0.0088],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004],
       device='cuda:1')
2022-11-16 09:11:17,215 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=102388.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 09:11:31,319 INFO [train.py:876] (1/4) Epoch 15, batch 600, loss[loss=0.1528, simple_loss=0.1699, pruned_loss=0.0678, over 5400.00 frames. ], tot_loss[loss=0.09794, simple_loss=0.1309, pruned_loss=0.03249, over 1038229.14 frames. ], batch size: 70, lr: 5.44e-03, grad_scale: 8.0
2022-11-16 09:11:56,869 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 1.008e+02 1.396e+02 1.798e+02 2.195e+02 6.197e+02, threshold=3.596e+02, percent-clipped=7.0
2022-11-16 09:12:39,185 INFO [train.py:876] (1/4) Epoch 15, batch 700, loss[loss=0.1503, simple_loss=0.1791, pruned_loss=0.0607, over 5566.00 frames. ], tot_loss[loss=0.09735, simple_loss=0.1303, pruned_loss=0.03221, over 1053435.69 frames. ], batch size: 40, lr: 5.44e-03, grad_scale: 8.0
2022-11-16 09:12:47,467 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=3.58 vs. limit=5.0
2022-11-16 09:13:02,343 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([4.2803, 2.8680, 3.8024, 3.4624, 4.0250, 2.8301, 3.6322, 4.2906],
       device='cuda:1'), covar=tensor([0.0556, 0.1554, 0.0892, 0.1211, 0.0440, 0.1455, 0.1119, 0.0635],
       device='cuda:1'), in_proj_covar=tensor([0.0247, 0.0193, 0.0217, 0.0213, 0.0245, 0.0200, 0.0227, 0.0234],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004],
       device='cuda:1')
2022-11-16 09:13:04,053 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 9.068e+01 1.444e+02 1.826e+02 2.249e+02 4.884e+02, threshold=3.652e+02, percent-clipped=1.0
2022-11-16 09:13:17,125 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.20 vs. limit=2.0
2022-11-16 09:13:24,176 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=102576.0, num_to_drop=1, layers_to_drop={2}
2022-11-16 09:13:29,630 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.6527, 2.6766, 2.3810, 2.6883, 2.6843, 2.5053, 2.3554, 2.5547],
       device='cuda:1'), covar=tensor([0.0408, 0.0746, 0.1560, 0.0563, 0.0650, 0.0538, 0.1317, 0.0682],
       device='cuda:1'), in_proj_covar=tensor([0.0135, 0.0185, 0.0277, 0.0178, 0.0225, 0.0177, 0.0191, 0.0179],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0003, 0.0004, 0.0002, 0.0003, 0.0002, 0.0003, 0.0002],
       device='cuda:1')
2022-11-16 09:13:46,903 INFO [train.py:876] (1/4) Epoch 15, batch 800, loss[loss=0.08559, simple_loss=0.1304, pruned_loss=0.02036, over 5571.00 frames. ], tot_loss[loss=0.09846, simple_loss=0.1307, pruned_loss=0.03312, over 1063908.60 frames. ], batch size: 16, lr: 5.43e-03, grad_scale: 8.0
2022-11-16 09:13:57,844 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=102624.0, num_to_drop=1, layers_to_drop={0}
2022-11-16 09:13:59,901 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([4.4945, 4.1507, 4.4456, 4.3699, 4.0361, 3.9876, 4.8227, 4.4683],
       device='cuda:1'), covar=tensor([0.0449, 0.0879, 0.0377, 0.1196, 0.0654, 0.0394, 0.0663, 0.0634],
       device='cuda:1'), in_proj_covar=tensor([0.0092, 0.0113, 0.0099, 0.0127, 0.0092, 0.0084, 0.0150, 0.0109],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0003, 0.0002],
       device='cuda:1')
2022-11-16 09:14:11,154 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=102643.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 09:14:13,462 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 8.304e+01 1.433e+02 1.767e+02 2.256e+02 4.472e+02, threshold=3.533e+02, percent-clipped=3.0
2022-11-16 09:14:45,026 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=102691.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 09:14:56,842 INFO [train.py:876] (1/4) Epoch 15, batch 900, loss[loss=0.06886, simple_loss=0.1082, pruned_loss=0.01475, over 5529.00 frames. ], tot_loss[loss=0.09852, simple_loss=0.1312, pruned_loss=0.03291, over 1073005.77 frames. ], batch size: 13, lr: 5.43e-03, grad_scale: 8.0
2022-11-16 09:15:11,091 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=1.87 vs. limit=2.0
2022-11-16 09:15:15,009 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.1778, 1.4666, 1.0799, 1.1733, 1.1571, 1.2242, 0.7979, 1.3636],
       device='cuda:1'), covar=tensor([0.0081, 0.0058, 0.0077, 0.0070, 0.0082, 0.0077, 0.0140, 0.0059],
       device='cuda:1'), in_proj_covar=tensor([0.0070, 0.0063, 0.0063, 0.0068, 0.0067, 0.0062, 0.0060, 0.0058],
       device='cuda:1'), out_proj_covar=tensor([6.2264e-05, 5.5580e-05, 5.5131e-05, 5.9964e-05, 5.8730e-05, 5.3933e-05,
        5.3265e-05, 5.0437e-05], device='cuda:1')
2022-11-16 09:15:21,995 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 8.688e+01 1.409e+02 1.812e+02 2.361e+02 4.444e+02, threshold=3.625e+02, percent-clipped=1.0
2022-11-16 09:15:53,204 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.8432, 4.1240, 3.8959, 3.5005, 2.0251, 4.0265, 2.2888, 3.5734],
       device='cuda:1'), covar=tensor([0.0506, 0.0246, 0.0210, 0.0473, 0.0798, 0.0210, 0.0678, 0.0196],
       device='cuda:1'), in_proj_covar=tensor([0.0198, 0.0188, 0.0187, 0.0211, 0.0200, 0.0188, 0.0197, 0.0190],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
       device='cuda:1')
2022-11-16 09:16:04,878 INFO [train.py:876] (1/4) Epoch 15, batch 1000, loss[loss=0.08776, simple_loss=0.1166, pruned_loss=0.02948, over 5632.00 frames. ], tot_loss[loss=0.09765, simple_loss=0.1303, pruned_loss=0.03247, over 1073601.36 frames. ], batch size: 29, lr: 5.43e-03, grad_scale: 8.0
2022-11-16 09:16:26,985 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([5.1436, 4.9601, 5.3163, 4.9833, 4.9666, 4.6060, 5.6912, 5.0873],
       device='cuda:1'), covar=tensor([0.0350, 0.1162, 0.0305, 0.1514, 0.0375, 0.0350, 0.0576, 0.0535],
       device='cuda:1'), in_proj_covar=tensor([0.0092, 0.0114, 0.0100, 0.0128, 0.0093, 0.0084, 0.0151, 0.0110],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0003, 0.0002, 0.0003, 0.0002, 0.0002, 0.0003, 0.0002],
       device='cuda:1')
2022-11-16 09:16:29,879 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 8.467e+01 1.525e+02 1.767e+02 2.154e+02 7.760e+02, threshold=3.535e+02, percent-clipped=4.0
2022-11-16 09:16:33,635 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=102851.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 09:16:57,605 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=102887.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 09:16:57,648 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.3292, 2.0116, 2.1852, 2.4440, 2.7401, 2.1380, 1.8670, 2.5449],
       device='cuda:1'), covar=tensor([0.2488, 0.2142, 0.1840, 0.1315, 0.1310, 0.2781, 0.2313, 0.2105],
       device='cuda:1'), in_proj_covar=tensor([0.0259, 0.0194, 0.0187, 0.0295, 0.0227, 0.0199, 0.0188, 0.0251],
       device='cuda:1'), out_proj_covar=tensor([0.0006, 0.0005, 0.0005, 0.0006, 0.0005, 0.0005, 0.0005, 0.0006],
       device='cuda:1')
2022-11-16 09:17:12,899 INFO [train.py:876] (1/4) Epoch 15, batch 1100, loss[loss=0.1074, simple_loss=0.1325, pruned_loss=0.04117, over 4657.00 frames. ], tot_loss[loss=0.09784, simple_loss=0.1308, pruned_loss=0.03244, over 1076615.56 frames. ], batch size: 135, lr: 5.42e-03, grad_scale: 8.0
2022-11-16 09:17:14,977 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=102912.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 09:17:15,514 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([4.4152, 4.0694, 4.3722, 4.1589, 4.0993, 3.6798, 4.6912, 4.3023],
       device='cuda:1'), covar=tensor([0.0465, 0.0953, 0.0382, 0.1421, 0.0445, 0.0497, 0.0609, 0.0799],
       device='cuda:1'), in_proj_covar=tensor([0.0092, 0.0115, 0.0100, 0.0128, 0.0094, 0.0085, 0.0152, 0.0111],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0003, 0.0002, 0.0003, 0.0002, 0.0002, 0.0003, 0.0002],
       device='cuda:1')
2022-11-16 09:17:24,073 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.6231, 2.4328, 2.9104, 2.1158, 1.5178, 3.3509, 2.7758, 2.4563],
       device='cuda:1'), covar=tensor([0.1025, 0.1352, 0.0741, 0.2113, 0.2574, 0.0732, 0.1005, 0.1159],
       device='cuda:1'), in_proj_covar=tensor([0.0113, 0.0105, 0.0105, 0.0104, 0.0078, 0.0073, 0.0086, 0.0097],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
       device='cuda:1')
2022-11-16 09:17:37,835 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 6.870e+01 1.387e+02 1.709e+02 2.035e+02 6.034e+02, threshold=3.418e+02, percent-clipped=1.0
2022-11-16 09:17:38,732 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=102948.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 09:17:46,931 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([4.3619, 3.9194, 4.1705, 3.8374, 4.4037, 4.1316, 3.9660, 4.3406],
       device='cuda:1'), covar=tensor([0.0335, 0.0488, 0.0458, 0.0444, 0.0329, 0.0354, 0.0385, 0.0414],
       device='cuda:1'), in_proj_covar=tensor([0.0155, 0.0162, 0.0116, 0.0152, 0.0195, 0.0120, 0.0133, 0.0164],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0003, 0.0002, 0.0003, 0.0004, 0.0002, 0.0002, 0.0003],
       device='cuda:1')
2022-11-16 09:18:19,903 INFO [train.py:876] (1/4) Epoch 15, batch 1200, loss[loss=0.1057, simple_loss=0.1378, pruned_loss=0.03685, over 5297.00 frames. ], tot_loss[loss=0.09696, simple_loss=0.1302, pruned_loss=0.03186, over 1080475.75 frames. ], batch size: 79, lr: 5.42e-03, grad_scale: 8.0
2022-11-16 09:18:45,657 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 9.196e+01 1.283e+02 1.545e+02 2.048e+02 3.817e+02, threshold=3.089e+02, percent-clipped=2.0
2022-11-16 09:19:04,006 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.53 vs. limit=2.0
2022-11-16 09:19:20,293 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=103098.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 09:19:27,356 INFO [train.py:876] (1/4) Epoch 15, batch 1300, loss[loss=0.07945, simple_loss=0.1258, pruned_loss=0.01654, over 5506.00 frames. ], tot_loss[loss=0.09589, simple_loss=0.1296, pruned_loss=0.0311, over 1083819.90 frames. ], batch size: 17, lr: 5.42e-03, grad_scale: 8.0
2022-11-16 09:19:30,078 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.22 vs. limit=2.0
2022-11-16 09:19:31,935 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=1.82 vs. limit=2.0
2022-11-16 09:19:41,978 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.8940, 1.8742, 2.3848, 1.5900, 1.3746, 2.6066, 2.2738, 2.0087],
       device='cuda:1'), covar=tensor([0.1337, 0.1659, 0.1182, 0.2828, 0.3019, 0.0821, 0.1155, 0.1732],
       device='cuda:1'), in_proj_covar=tensor([0.0114, 0.0106, 0.0106, 0.0105, 0.0079, 0.0074, 0.0087, 0.0098],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002],
       device='cuda:1')
2022-11-16 09:19:43,276 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=103132.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 09:19:53,329 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 7.362e+01 1.342e+02 1.572e+02 1.992e+02 4.136e+02, threshold=3.143e+02, percent-clipped=6.0
2022-11-16 09:20:01,526 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=103159.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 09:20:24,861 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=103193.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 09:20:34,619 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=103207.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 09:20:35,872 INFO [train.py:876] (1/4) Epoch 15, batch 1400, loss[loss=0.1021, simple_loss=0.1323, pruned_loss=0.03594, over 5644.00 frames. ], tot_loss[loss=0.09641, simple_loss=0.1292, pruned_loss=0.03181, over 1086396.27 frames. ], batch size: 50, lr: 5.42e-03, grad_scale: 8.0
2022-11-16 09:20:37,261 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.8013, 1.4802, 1.9074, 1.3923, 2.2739, 1.7341, 1.4502, 1.5703],
       device='cuda:1'), covar=tensor([0.1381, 0.0651, 0.1007, 0.0670, 0.0766, 0.2242, 0.0719, 0.0547],
       device='cuda:1'), in_proj_covar=tensor([0.0017, 0.0027, 0.0019, 0.0023, 0.0019, 0.0018, 0.0026, 0.0019],
       device='cuda:1'), out_proj_covar=tensor([9.8492e-05, 1.3743e-04, 1.0422e-04, 1.1835e-04, 1.0508e-04, 1.0003e-04,
        1.3083e-04, 1.0136e-04], device='cuda:1')
2022-11-16 09:20:37,477 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.22 vs. limit=2.0
2022-11-16 09:20:59,049 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=103243.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 09:21:00,989 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([4.5389, 4.3046, 4.4852, 4.5097, 4.1617, 4.0229, 4.8991, 4.3372],
       device='cuda:1'), covar=tensor([0.0298, 0.0728, 0.0364, 0.1027, 0.0399, 0.0338, 0.0556, 0.0697],
       device='cuda:1'), in_proj_covar=tensor([0.0091, 0.0113, 0.0099, 0.0125, 0.0092, 0.0083, 0.0149, 0.0109],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0003, 0.0002],
       device='cuda:1')
2022-11-16 09:21:01,540 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 5.466e+01 1.279e+02 1.600e+02 2.005e+02 3.383e+02, threshold=3.199e+02, percent-clipped=1.0
2022-11-16 09:21:30,674 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([5.1532, 4.9427, 5.2897, 5.1303, 4.9116, 4.5677, 5.6710, 5.2154],
       device='cuda:1'), covar=tensor([0.0275, 0.0967, 0.0236, 0.1239, 0.0374, 0.0235, 0.0530, 0.0550],
       device='cuda:1'), in_proj_covar=tensor([0.0091, 0.0113, 0.0099, 0.0126, 0.0092, 0.0084, 0.0150, 0.0109],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0003, 0.0002],
       device='cuda:1')
2022-11-16 09:21:36,225 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.44 vs. limit=2.0
2022-11-16 09:21:42,721 INFO [train.py:876] (1/4) Epoch 15, batch 1500, loss[loss=0.09552, simple_loss=0.1178, pruned_loss=0.0366, over 5268.00 frames. ], tot_loss[loss=0.09653, simple_loss=0.1294, pruned_loss=0.03181, over 1087743.00 frames. ], batch size: 79, lr: 5.41e-03, grad_scale: 8.0
2022-11-16 09:22:08,705 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 7.936e+01 1.307e+02 1.656e+02 2.050e+02 4.827e+02, threshold=3.313e+02, percent-clipped=2.0
2022-11-16 09:22:21,968 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=103366.0, num_to_drop=1, layers_to_drop={0}
2022-11-16 09:22:51,378 INFO [train.py:876] (1/4) Epoch 15, batch 1600, loss[loss=0.08958, simple_loss=0.1352, pruned_loss=0.02199, over 5584.00 frames. ], tot_loss[loss=0.0966, simple_loss=0.1293, pruned_loss=0.03195, over 1083765.42 frames. ], batch size: 43, lr: 5.41e-03, grad_scale: 8.0
2022-11-16 09:22:55,053 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=1.94 vs. limit=2.0
2022-11-16 09:23:03,575 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=103427.0, num_to_drop=1, layers_to_drop={0}
2022-11-16 09:23:17,105 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 9.055e+01 1.366e+02 1.646e+02 2.008e+02 3.608e+02, threshold=3.293e+02, percent-clipped=2.0
2022-11-16 09:23:17,819 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.8914, 3.5989, 3.7470, 3.7375, 3.4377, 3.3842, 4.0303, 3.6931],
       device='cuda:1'), covar=tensor([0.0435, 0.1031, 0.0461, 0.1202, 0.0586, 0.0416, 0.0868, 0.0752],
       device='cuda:1'), in_proj_covar=tensor([0.0093, 0.0116, 0.0101, 0.0129, 0.0094, 0.0085, 0.0153, 0.0112],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0003, 0.0002, 0.0003, 0.0002, 0.0002, 0.0003, 0.0002],
       device='cuda:1')
2022-11-16 09:23:21,830 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=103454.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 09:23:35,047 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.7116, 4.1689, 3.7357, 4.2028, 4.2097, 3.3866, 3.8349, 3.7397],
       device='cuda:1'), covar=tensor([0.0489, 0.0611, 0.1586, 0.0422, 0.0598, 0.0653, 0.0829, 0.0670],
       device='cuda:1'), in_proj_covar=tensor([0.0133, 0.0183, 0.0275, 0.0176, 0.0217, 0.0175, 0.0189, 0.0177],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0003, 0.0004, 0.0002, 0.0003, 0.0002, 0.0003, 0.0002],
       device='cuda:1')
2022-11-16 09:23:36,354 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.4477, 2.4448, 2.3451, 2.3722, 2.1094, 1.8027, 2.3766, 2.7711],
       device='cuda:1'), covar=tensor([0.1267, 0.1604, 0.1670, 0.1133, 0.1753, 0.2057, 0.1249, 0.1142],
       device='cuda:1'), in_proj_covar=tensor([0.0118, 0.0110, 0.0108, 0.0111, 0.0096, 0.0106, 0.0099, 0.0087],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004],
       device='cuda:1')
2022-11-16 09:23:44,575 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=103488.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 09:23:45,992 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.9551, 4.1002, 3.9351, 3.6390, 2.1616, 4.1719, 2.4864, 3.5826],
       device='cuda:1'), covar=tensor([0.0381, 0.0192, 0.0163, 0.0289, 0.0653, 0.0172, 0.0499, 0.0169],
       device='cuda:1'), in_proj_covar=tensor([0.0195, 0.0187, 0.0185, 0.0210, 0.0199, 0.0187, 0.0194, 0.0188],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
       device='cuda:1')
2022-11-16 09:23:57,689 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=103507.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 09:23:58,829 INFO [train.py:876] (1/4) Epoch 15, batch 1700, loss[loss=0.09577, simple_loss=0.1337, pruned_loss=0.02893, over 5751.00 frames. ], tot_loss[loss=0.09647, simple_loss=0.1294, pruned_loss=0.03175, over 1082376.30 frames. ], batch size: 31, lr: 5.41e-03, grad_scale: 8.0
2022-11-16 09:24:21,641 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=103543.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 09:24:24,447 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 9.609e+01 1.355e+02 1.661e+02 2.024e+02 3.979e+02, threshold=3.323e+02, percent-clipped=4.0
2022-11-16 09:24:30,121 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=103555.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 09:24:53,832 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=103591.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 09:25:06,719 INFO [train.py:876] (1/4) Epoch 15, batch 1800, loss[loss=0.1045, simple_loss=0.1339, pruned_loss=0.03756, over 5736.00 frames. ], tot_loss[loss=0.0958, simple_loss=0.1294, pruned_loss=0.03112, over 1087956.46 frames. ], batch size: 15, lr: 5.41e-03, grad_scale: 8.0
2022-11-16 09:25:31,583 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 9.004e+01 1.509e+02 1.805e+02 2.366e+02 4.290e+02, threshold=3.611e+02, percent-clipped=5.0
2022-11-16 09:25:38,519 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.1814, 1.8599, 2.2101, 1.7937, 2.2421, 2.2063, 2.0972, 1.7439],
       device='cuda:1'), covar=tensor([0.0044, 0.0080, 0.0065, 0.0100, 0.0073, 0.0085, 0.0046, 0.0062],
       device='cuda:1'), in_proj_covar=tensor([0.0034, 0.0030, 0.0031, 0.0039, 0.0035, 0.0031, 0.0039, 0.0038],
       device='cuda:1'), out_proj_covar=tensor([3.1337e-05, 2.8214e-05, 2.7992e-05, 3.7556e-05, 3.2193e-05, 3.0135e-05,
        3.6981e-05, 3.6502e-05], device='cuda:1')
2022-11-16 09:25:42,504 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.0026, 4.3603, 4.0985, 3.5599, 2.1266, 4.1993, 2.4994, 3.8101],
       device='cuda:1'), covar=tensor([0.0372, 0.0255, 0.0169, 0.0435, 0.0757, 0.0225, 0.0584, 0.0225],
       device='cuda:1'), in_proj_covar=tensor([0.0196, 0.0187, 0.0184, 0.0210, 0.0199, 0.0187, 0.0195, 0.0187],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
       device='cuda:1')
2022-11-16 09:26:13,039 INFO [train.py:876] (1/4) Epoch 15, batch 1900, loss[loss=0.09744, simple_loss=0.1385, pruned_loss=0.02821, over 5559.00 frames. ], tot_loss[loss=0.09505, simple_loss=0.1284, pruned_loss=0.03084, over 1087273.19 frames. ], batch size: 43, lr: 5.40e-03, grad_scale: 8.0
2022-11-16 09:26:22,457 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=103722.0, num_to_drop=1, layers_to_drop={3}
2022-11-16 09:26:34,272 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=103740.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 09:26:38,964 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 8.053e+01 1.311e+02 1.680e+02 2.035e+02 3.370e+02, threshold=3.360e+02, percent-clipped=0.0
2022-11-16 09:26:43,671 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=103754.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 09:26:50,732 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=103765.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 09:26:54,176 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.9368, 2.3275, 2.0475, 1.5319, 2.5207, 2.5302, 2.5678, 2.6629],
       device='cuda:1'), covar=tensor([0.2073, 0.1843, 0.1810, 0.3081, 0.1094, 0.1462, 0.0880, 0.1221],
       device='cuda:1'), in_proj_covar=tensor([0.0162, 0.0178, 0.0168, 0.0183, 0.0188, 0.0206, 0.0174, 0.0184],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004],
       device='cuda:1')
2022-11-16 09:27:06,540 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=103788.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 09:27:15,376 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=103801.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 09:27:15,902 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=103802.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 09:27:17,614 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.0835, 1.7067, 2.3121, 1.2114, 2.1992, 2.5632, 1.7118, 1.8017],
       device='cuda:1'), covar=tensor([0.0542, 0.0600, 0.0281, 0.1195, 0.1027, 0.0196, 0.0520, 0.0373],
       device='cuda:1'), in_proj_covar=tensor([0.0017, 0.0027, 0.0019, 0.0022, 0.0019, 0.0017, 0.0026, 0.0018],
       device='cuda:1'), out_proj_covar=tensor([9.6845e-05, 1.3482e-04, 1.0244e-04, 1.1603e-04, 1.0361e-04, 9.7999e-05,
        1.2929e-04, 9.9412e-05], device='cuda:1')
2022-11-16 09:27:20,734 INFO [train.py:876] (1/4) Epoch 15, batch 2000, loss[loss=0.09896, simple_loss=0.136, pruned_loss=0.03094, over 5597.00 frames. ], tot_loss[loss=0.09652, simple_loss=0.1293, pruned_loss=0.03184, over 1090105.75 frames. ], batch size: 50, lr: 5.40e-03, grad_scale: 8.0
2022-11-16 09:27:32,514 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=103826.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 09:27:39,659 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=103836.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 09:27:47,520 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 9.204e+01 1.423e+02 1.683e+02 2.188e+02 4.061e+02, threshold=3.366e+02, percent-clipped=3.0
2022-11-16 09:28:06,740 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=103876.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 09:28:29,291 INFO [train.py:876] (1/4) Epoch 15, batch 2100, loss[loss=0.1846, simple_loss=0.1741, pruned_loss=0.0976, over 3037.00 frames. ], tot_loss[loss=0.09566, simple_loss=0.1288, pruned_loss=0.03124, over 1083221.82 frames. ], batch size: 284, lr: 5.40e-03, grad_scale: 8.0
2022-11-16 09:28:38,354 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.0340, 3.0166, 2.6803, 3.2200, 2.6255, 3.1862, 3.1366, 3.2944],
       device='cuda:1'), covar=tensor([0.0914, 0.1094, 0.1576, 0.1387, 0.1258, 0.0830, 0.1032, 0.3817],
       device='cuda:1'), in_proj_covar=tensor([0.0119, 0.0111, 0.0110, 0.0113, 0.0097, 0.0108, 0.0102, 0.0089],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004],
       device='cuda:1')
2022-11-16 09:28:43,411 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([5.4665, 5.0404, 5.5318, 5.2955, 5.0449, 4.6633, 5.8219, 5.1781],
       device='cuda:1'), covar=tensor([0.0216, 0.1172, 0.0194, 0.1000, 0.0432, 0.0295, 0.0528, 0.0454],
       device='cuda:1'), in_proj_covar=tensor([0.0092, 0.0114, 0.0099, 0.0126, 0.0093, 0.0083, 0.0150, 0.0110],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0003, 0.0002, 0.0003, 0.0002, 0.0002, 0.0003, 0.0002],
       device='cuda:1')
2022-11-16 09:28:48,742 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=103937.0, num_to_drop=1, layers_to_drop={0}
2022-11-16 09:28:55,839 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 6.938e+01 1.249e+02 1.692e+02 2.000e+02 3.700e+02, threshold=3.385e+02, percent-clipped=3.0
2022-11-16 09:29:06,799 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.9931, 3.0701, 2.6792, 3.2219, 2.6022, 2.8525, 3.2936, 3.5825],
       device='cuda:1'), covar=tensor([0.0860, 0.1030, 0.1427, 0.1013, 0.1206, 0.1200, 0.0948, 0.0644],
       device='cuda:1'), in_proj_covar=tensor([0.0119, 0.0111, 0.0110, 0.0113, 0.0097, 0.0109, 0.0102, 0.0089],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004],
       device='cuda:1')
2022-11-16 09:29:08,252 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=4.20 vs. limit=5.0
2022-11-16 09:29:24,780 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=103990.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 09:29:29,402 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=103997.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 09:29:30,093 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.2786, 1.8106, 1.3200, 1.2442, 1.4530, 1.4794, 1.3489, 1.7280],
       device='cuda:1'), covar=tensor([0.0086, 0.0054, 0.0069, 0.0084, 0.0080, 0.0061, 0.0111, 0.0059],
       device='cuda:1'), in_proj_covar=tensor([0.0070, 0.0064, 0.0064, 0.0068, 0.0067, 0.0063, 0.0060, 0.0059],
       device='cuda:1'), out_proj_covar=tensor([6.2468e-05, 5.6575e-05, 5.5497e-05, 6.0025e-05, 5.9613e-05, 5.4264e-05,
        5.3137e-05, 5.1350e-05], device='cuda:1')
2022-11-16 09:29:37,374 INFO [train.py:876] (1/4) Epoch 15, batch 2200, loss[loss=0.1057, simple_loss=0.1316, pruned_loss=0.03988, over 5747.00 frames. ], tot_loss[loss=0.09593, simple_loss=0.1291, pruned_loss=0.03139, over 1087278.82 frames. ], batch size: 14, lr: 5.40e-03, grad_scale: 8.0
2022-11-16 09:29:46,236 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=104022.0, num_to_drop=1, layers_to_drop={2}
2022-11-16 09:30:02,942 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.9405, 2.4846, 2.2401, 1.4617, 2.6731, 2.7198, 2.7637, 2.9590],
       device='cuda:1'), covar=tensor([0.1787, 0.1605, 0.1854, 0.2890, 0.1070, 0.1198, 0.0789, 0.0998],
       device='cuda:1'), in_proj_covar=tensor([0.0164, 0.0180, 0.0168, 0.0184, 0.0189, 0.0208, 0.0176, 0.0186],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004],
       device='cuda:1')
2022-11-16 09:30:04,014 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 8.673e+01 1.367e+02 1.685e+02 2.131e+02 5.334e+02, threshold=3.371e+02, percent-clipped=2.0
2022-11-16 09:30:04,856 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=104049.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 09:30:06,191 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=104051.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 09:30:10,138 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.6684, 3.2952, 3.4382, 3.1168, 2.0773, 3.4644, 2.2077, 2.9821],
       device='cuda:1'), covar=tensor([0.0457, 0.0304, 0.0189, 0.0432, 0.0636, 0.0241, 0.0603, 0.0223],
       device='cuda:1'), in_proj_covar=tensor([0.0195, 0.0187, 0.0183, 0.0209, 0.0199, 0.0186, 0.0196, 0.0187],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
       device='cuda:1')
2022-11-16 09:30:10,737 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=104058.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 09:30:18,827 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=104070.0, num_to_drop=1, layers_to_drop={1}
2022-11-16 09:30:32,906 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.5412, 4.5311, 3.5245, 2.1636, 4.1645, 1.7819, 4.3287, 2.4295],
       device='cuda:1'), covar=tensor([0.1341, 0.0118, 0.0595, 0.1841, 0.0217, 0.1762, 0.0171, 0.1353],
       device='cuda:1'), in_proj_covar=tensor([0.0116, 0.0104, 0.0113, 0.0110, 0.0102, 0.0118, 0.0100, 0.0106],
       device='cuda:1'), out_proj_covar=tensor([0.0005, 0.0004, 0.0005, 0.0005, 0.0004, 0.0005, 0.0004, 0.0004],
       device='cuda:1')
2022-11-16 09:30:36,201 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=104096.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 09:30:45,072 INFO [train.py:876] (1/4) Epoch 15, batch 2300, loss[loss=0.09773, simple_loss=0.129, pruned_loss=0.03321, over 5543.00 frames. ], tot_loss[loss=0.09631, simple_loss=0.1289, pruned_loss=0.03187, over 1085362.93 frames. ], batch size: 13, lr: 5.39e-03, grad_scale: 8.0
2022-11-16 09:30:45,935 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=104110.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 09:30:52,930 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=104121.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 09:30:59,175 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.6173, 2.7124, 2.4874, 2.7742, 2.3775, 2.1488, 2.6167, 2.9740],
       device='cuda:1'), covar=tensor([0.1630, 0.1221, 0.2182, 0.1425, 0.1456, 0.1276, 0.1340, 0.1521],
       device='cuda:1'), in_proj_covar=tensor([0.0120, 0.0111, 0.0110, 0.0114, 0.0098, 0.0108, 0.0102, 0.0089],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004],
       device='cuda:1')
2022-11-16 09:31:10,964 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 9.069e+01 1.436e+02 1.695e+02 2.146e+02 3.837e+02, threshold=3.391e+02, percent-clipped=3.0
2022-11-16 09:31:26,337 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=3.37 vs. limit=5.0
2022-11-16 09:31:43,337 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([5.5404, 4.9759, 5.4094, 4.8922, 5.5893, 5.3188, 4.6681, 5.5249],
       device='cuda:1'), covar=tensor([0.0333, 0.0402, 0.0342, 0.0400, 0.0290, 0.0266, 0.0335, 0.0289],
       device='cuda:1'), in_proj_covar=tensor([0.0153, 0.0161, 0.0115, 0.0151, 0.0194, 0.0120, 0.0133, 0.0161],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0003, 0.0002, 0.0003, 0.0004, 0.0002, 0.0002, 0.0003],
       device='cuda:1')
2022-11-16 09:31:52,449 INFO [train.py:876] (1/4) Epoch 15, batch 2400, loss[loss=0.0703, simple_loss=0.1068, pruned_loss=0.01691, over 5728.00 frames. ], tot_loss[loss=0.0958, simple_loss=0.1286, pruned_loss=0.03148, over 1093019.75 frames. ], batch size: 12, lr: 5.39e-03, grad_scale: 8.0
2022-11-16 09:32:06,221 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.3061, 1.1738, 1.4801, 1.0425, 1.1689, 1.3599, 1.3537, 0.9858],
       device='cuda:1'), covar=tensor([0.0122, 0.0154, 0.0078, 0.0184, 0.0129, 0.0117, 0.0109, 0.0170],
       device='cuda:1'), in_proj_covar=tensor([0.0035, 0.0031, 0.0032, 0.0040, 0.0035, 0.0032, 0.0039, 0.0039],
       device='cuda:1'), out_proj_covar=tensor([3.1990e-05, 2.8694e-05, 2.8489e-05, 3.8209e-05, 3.2838e-05, 3.0669e-05,
        3.7254e-05, 3.6801e-05], device='cuda:1')
2022-11-16 09:32:08,475 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=104232.0, num_to_drop=1, layers_to_drop={3}
2022-11-16 09:32:19,521 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 8.767e+01 1.368e+02 1.673e+02 2.290e+02 7.384e+02, threshold=3.347e+02, percent-clipped=4.0
2022-11-16 09:32:28,156 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=1.53 vs. limit=2.0
2022-11-16 09:32:37,379 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=1.68 vs. limit=2.0
2022-11-16 09:33:00,202 INFO [train.py:876] (1/4) Epoch 15, batch 2500, loss[loss=0.07214, simple_loss=0.121, pruned_loss=0.01165, over 5550.00 frames. ], tot_loss[loss=0.09549, simple_loss=0.1288, pruned_loss=0.03111, over 1092970.10 frames. ], batch size: 21, lr: 5.39e-03, grad_scale: 8.0
2022-11-16 09:33:25,645 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=104346.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 09:33:27,457 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 9.221e+01 1.438e+02 1.846e+02 2.292e+02 4.407e+02, threshold=3.693e+02, percent-clipped=4.0
2022-11-16 09:33:30,203 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=104353.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 09:33:33,103 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.18 vs. limit=2.0
2022-11-16 09:33:59,808 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=104396.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 09:34:06,224 INFO [zipformer.py:623] (1/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=104405.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 09:34:08,831 INFO [train.py:876] (1/4) Epoch 15, batch 2600, loss[loss=0.1324, simple_loss=0.154, pruned_loss=0.05536, over 5450.00 frames. ], tot_loss[loss=0.09546, simple_loss=0.1285, pruned_loss=0.0312, over 1087721.73 frames. ], batch size: 53, lr: 5.39e-03, grad_scale: 8.0
2022-11-16 09:34:16,660 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=104421.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 09:34:24,069 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.1867, 3.6384, 3.3045, 3.6325, 3.6304, 3.1295, 3.2297, 3.2536],
       device='cuda:1'), covar=tensor([0.1024, 0.0600, 0.1352, 0.0447, 0.0560, 0.0560, 0.0770, 0.0706],
       device='cuda:1'), in_proj_covar=tensor([0.0134, 0.0184, 0.0278, 0.0178, 0.0219, 0.0178, 0.0191, 0.0180],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0003, 0.0004, 0.0002, 0.0003, 0.0002, 0.0003, 0.0002],
       device='cuda:1')
2022-11-16 09:34:32,570 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=104444.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 09:34:35,747 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 8.383e+01 1.354e+02 1.630e+02 1.866e+02 3.463e+02, threshold=3.260e+02, percent-clipped=0.0
2022-11-16 09:34:49,469 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=104469.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 09:35:16,362 INFO [train.py:876] (1/4) Epoch 15, batch 2700, loss[loss=0.08202, simple_loss=0.1154, pruned_loss=0.0243, over 5575.00 frames. ], tot_loss[loss=0.09566, simple_loss=0.1289, pruned_loss=0.03122, over 1087248.30 frames. ], batch size: 23, lr: 5.38e-03, grad_scale: 8.0
2022-11-16 09:35:31,682 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=104532.0, num_to_drop=1, layers_to_drop={2}
2022-11-16 09:35:40,885 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([5.3694, 5.3813, 5.5709, 5.4780, 5.2613, 5.0619, 5.9305, 5.4397],
       device='cuda:1'), covar=tensor([0.0352, 0.1063, 0.0248, 0.1197, 0.0329, 0.0406, 0.0585, 0.0573],
       device='cuda:1'), in_proj_covar=tensor([0.0092, 0.0114, 0.0099, 0.0126, 0.0092, 0.0083, 0.0149, 0.0110],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0003, 0.0002, 0.0003, 0.0002, 0.0002, 0.0003, 0.0002],
       device='cuda:1')
2022-11-16 09:35:42,732 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 9.521e+01 1.320e+02 1.626e+02 1.993e+02 3.646e+02, threshold=3.252e+02, percent-clipped=1.0
2022-11-16 09:35:47,870 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.5769, 1.8230, 1.5988, 1.2455, 1.6522, 2.0070, 1.9396, 2.0262],
       device='cuda:1'), covar=tensor([0.1879, 0.1456, 0.2165, 0.2806, 0.1548, 0.1377, 0.1149, 0.1301],
       device='cuda:1'), in_proj_covar=tensor([0.0160, 0.0175, 0.0164, 0.0178, 0.0184, 0.0201, 0.0172, 0.0179],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004],
       device='cuda:1')
2022-11-16 09:36:04,049 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=104580.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 09:36:13,769 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.4677, 1.7957, 1.3773, 1.2835, 1.5103, 1.5994, 1.3462, 1.6994],
       device='cuda:1'), covar=tensor([0.0085, 0.0057, 0.0083, 0.0092, 0.0079, 0.0056, 0.0093, 0.0082],
       device='cuda:1'), in_proj_covar=tensor([0.0070, 0.0065, 0.0064, 0.0069, 0.0068, 0.0063, 0.0060, 0.0060],
       device='cuda:1'), out_proj_covar=tensor([6.2081e-05, 5.7064e-05, 5.5910e-05, 6.0176e-05, 5.9727e-05, 5.4336e-05,
        5.3356e-05, 5.1800e-05], device='cuda:1')
2022-11-16 09:36:21,039 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.2640, 1.7664, 1.4894, 1.3130, 1.5597, 1.4719, 1.1796, 1.7818],
       device='cuda:1'), covar=tensor([0.0079, 0.0052, 0.0075, 0.0080, 0.0074, 0.0067, 0.0089, 0.0063],
       device='cuda:1'), in_proj_covar=tensor([0.0070, 0.0065, 0.0064, 0.0068, 0.0067, 0.0063, 0.0060, 0.0059],
       device='cuda:1'), out_proj_covar=tensor([6.1973e-05, 5.6919e-05, 5.5780e-05, 6.0048e-05, 5.9563e-05, 5.4240e-05,
        5.3221e-05, 5.1679e-05], device='cuda:1')
2022-11-16 09:36:21,595 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([4.4624, 4.3337, 4.6842, 4.5421, 4.1403, 3.9239, 5.0001, 4.3937],
       device='cuda:1'), covar=tensor([0.0413, 0.1091, 0.0290, 0.1406, 0.0543, 0.0428, 0.0602, 0.0699],
       device='cuda:1'), in_proj_covar=tensor([0.0092, 0.0115, 0.0101, 0.0128, 0.0093, 0.0084, 0.0150, 0.0111],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0003, 0.0002, 0.0003, 0.0002, 0.0002, 0.0003, 0.0002],
       device='cuda:1')
2022-11-16 09:36:24,512 INFO [train.py:876] (1/4) Epoch 15, batch 2800, loss[loss=0.05927, simple_loss=0.09159, pruned_loss=0.01347, over 4641.00 frames. ], tot_loss[loss=0.0936, simple_loss=0.127, pruned_loss=0.0301, over 1088450.35 frames. ], batch size: 5, lr: 5.38e-03, grad_scale: 8.0
2022-11-16 09:36:41,261 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.7024, 1.4951, 1.8694, 1.6454, 1.5562, 1.7432, 1.8848, 1.6319],
       device='cuda:1'), covar=tensor([0.0052, 0.0089, 0.0068, 0.0082, 0.0104, 0.0161, 0.0065, 0.0060],
       device='cuda:1'), in_proj_covar=tensor([0.0035, 0.0031, 0.0032, 0.0040, 0.0036, 0.0032, 0.0040, 0.0039],
       device='cuda:1'), out_proj_covar=tensor([3.2624e-05, 2.9055e-05, 2.8924e-05, 3.8492e-05, 3.3303e-05, 3.0943e-05,
        3.7828e-05, 3.7221e-05], device='cuda:1')
2022-11-16 09:36:49,233 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=104646.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 09:36:51,003 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 9.819e+01 1.524e+02 1.785e+02 2.265e+02 4.174e+02, threshold=3.570e+02, percent-clipped=2.0
2022-11-16 09:36:54,197 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=104653.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 09:36:55,757 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=192, metric=1.90 vs. limit=2.0
2022-11-16 09:37:21,817 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=104694.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 09:37:26,310 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=104701.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 09:37:29,419 INFO [zipformer.py:623] (1/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=104705.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 09:37:32,267 INFO [train.py:876] (1/4) Epoch 15, batch 2900, loss[loss=0.09728, simple_loss=0.1265, pruned_loss=0.03405, over 5514.00 frames. ], tot_loss[loss=0.0946, simple_loss=0.128, pruned_loss=0.0306, over 1087904.76 frames. ], batch size: 11, lr: 5.38e-03, grad_scale: 8.0
2022-11-16 09:37:59,214 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 8.093e+01 1.400e+02 1.739e+02 2.219e+02 5.401e+02, threshold=3.478e+02, percent-clipped=7.0
2022-11-16 09:38:02,045 INFO [zipformer.py:623] (1/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=104753.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 09:38:11,663 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.1974, 3.8566, 2.5533, 3.7065, 3.0925, 2.6990, 2.1214, 3.2406],
       device='cuda:1'), covar=tensor([0.1586, 0.0399, 0.1382, 0.0453, 0.1056, 0.1206, 0.2265, 0.0602],
       device='cuda:1'), in_proj_covar=tensor([0.0151, 0.0141, 0.0151, 0.0145, 0.0171, 0.0162, 0.0155, 0.0155],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0003, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004],
       device='cuda:1')
2022-11-16 09:38:40,269 INFO [train.py:876] (1/4) Epoch 15, batch 3000, loss[loss=0.08576, simple_loss=0.1148, pruned_loss=0.02837, over 5707.00 frames. ], tot_loss[loss=0.09602, simple_loss=0.1288, pruned_loss=0.0316, over 1085025.68 frames. ], batch size: 19, lr: 5.38e-03, grad_scale: 8.0
2022-11-16 09:38:40,269 INFO [train.py:899] (1/4) Computing validation loss
2022-11-16 09:38:51,473 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.9599, 3.1436, 2.9304, 3.0324, 3.1704, 3.0581, 2.7974, 2.8282],
       device='cuda:1'), covar=tensor([0.0346, 0.0471, 0.1000, 0.0505, 0.0400, 0.0392, 0.0879, 0.0575],
       device='cuda:1'), in_proj_covar=tensor([0.0135, 0.0185, 0.0278, 0.0180, 0.0218, 0.0178, 0.0191, 0.0181],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0003, 0.0004, 0.0002, 0.0003, 0.0002, 0.0003, 0.0002],
       device='cuda:1')
2022-11-16 09:38:55,135 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([4.5774, 4.3579, 4.4615, 4.3538, 4.6789, 4.5962, 4.4096, 4.8412],
       device='cuda:1'), covar=tensor([0.0315, 0.0248, 0.0319, 0.0308, 0.0269, 0.0140, 0.0173, 0.0154],
       device='cuda:1'), in_proj_covar=tensor([0.0153, 0.0159, 0.0115, 0.0150, 0.0195, 0.0119, 0.0132, 0.0161],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0003, 0.0002, 0.0003, 0.0004, 0.0002, 0.0002, 0.0003],
       device='cuda:1')
2022-11-16 09:38:55,178 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.4285, 2.1007, 2.6593, 2.0169, 1.6560, 3.1107, 2.5261, 2.2358],
       device='cuda:1'), covar=tensor([0.0907, 0.1660, 0.0983, 0.2396, 0.2962, 0.0369, 0.0878, 0.1649],
       device='cuda:1'), in_proj_covar=tensor([0.0114, 0.0108, 0.0108, 0.0106, 0.0081, 0.0076, 0.0088, 0.0099],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002],
       device='cuda:1')
2022-11-16 09:38:58,033 INFO [train.py:908] (1/4) Epoch 15, validation: loss=0.1809, simple_loss=0.1888, pruned_loss=0.08654, over 1530663.00 frames. 
2022-11-16 09:38:58,034 INFO [train.py:909] (1/4) Maximum memory allocated so far is 4676MB
2022-11-16 09:39:11,205 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([4.3816, 4.7620, 4.3619, 4.8122, 4.8027, 4.1647, 4.4710, 4.1362],
       device='cuda:1'), covar=tensor([0.0306, 0.0375, 0.1254, 0.0401, 0.0327, 0.0433, 0.0512, 0.0520],
       device='cuda:1'), in_proj_covar=tensor([0.0135, 0.0185, 0.0278, 0.0179, 0.0217, 0.0178, 0.0190, 0.0180],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0003, 0.0004, 0.0002, 0.0003, 0.0002, 0.0003, 0.0002],
       device='cuda:1')
2022-11-16 09:39:25,316 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 8.210e+01 1.336e+02 1.693e+02 2.076e+02 4.663e+02, threshold=3.385e+02, percent-clipped=3.0
2022-11-16 09:39:40,377 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.8920, 2.5368, 3.5074, 3.2668, 3.7055, 2.4891, 3.2444, 3.8825],
       device='cuda:1'), covar=tensor([0.0669, 0.1570, 0.0809, 0.1409, 0.0633, 0.1607, 0.1270, 0.0803],
       device='cuda:1'), in_proj_covar=tensor([0.0250, 0.0194, 0.0219, 0.0214, 0.0245, 0.0200, 0.0230, 0.0234],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004],
       device='cuda:1')
2022-11-16 09:39:47,609 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([4.9797, 4.4570, 4.7155, 4.3806, 5.0006, 4.6884, 4.3364, 4.9872],
       device='cuda:1'), covar=tensor([0.0277, 0.0388, 0.0405, 0.0419, 0.0293, 0.0284, 0.0309, 0.0237],
       device='cuda:1'), in_proj_covar=tensor([0.0153, 0.0160, 0.0115, 0.0151, 0.0195, 0.0119, 0.0132, 0.0161],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0003, 0.0002, 0.0003, 0.0004, 0.0002, 0.0002, 0.0003],
       device='cuda:1')
2022-11-16 09:40:06,260 INFO [train.py:876] (1/4) Epoch 15, batch 3100, loss[loss=0.1049, simple_loss=0.136, pruned_loss=0.03692, over 5625.00 frames. ], tot_loss[loss=0.097, simple_loss=0.1303, pruned_loss=0.03184, over 1088870.78 frames. ], batch size: 32, lr: 5.37e-03, grad_scale: 8.0
2022-11-16 09:40:33,544 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 6.354e+01 1.349e+02 1.627e+02 2.090e+02 3.507e+02, threshold=3.255e+02, percent-clipped=1.0
2022-11-16 09:40:33,685 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.2476, 1.5306, 1.3663, 1.4551, 1.2280, 1.9776, 1.6701, 1.2622],
       device='cuda:1'), covar=tensor([0.3020, 0.1775, 0.3487, 0.2958, 0.2981, 0.0812, 0.1911, 0.3628],
       device='cuda:1'), in_proj_covar=tensor([0.0113, 0.0107, 0.0107, 0.0105, 0.0080, 0.0075, 0.0088, 0.0098],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002],
       device='cuda:1')
2022-11-16 09:40:38,332 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.1666, 1.9386, 2.5188, 1.8921, 1.4124, 3.0002, 2.2834, 2.1353],
       device='cuda:1'), covar=tensor([0.1002, 0.1825, 0.0977, 0.2636, 0.3340, 0.0485, 0.1597, 0.1885],
       device='cuda:1'), in_proj_covar=tensor([0.0113, 0.0108, 0.0108, 0.0105, 0.0080, 0.0075, 0.0088, 0.0098],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002],
       device='cuda:1')
2022-11-16 09:40:49,113 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.3012, 1.0073, 1.0727, 0.9804, 1.1767, 1.1749, 0.7720, 0.9679],
       device='cuda:1'), covar=tensor([0.0283, 0.0479, 0.0489, 0.0493, 0.0470, 0.0293, 0.0820, 0.0364],
       device='cuda:1'), in_proj_covar=tensor([0.0017, 0.0027, 0.0019, 0.0022, 0.0019, 0.0018, 0.0026, 0.0018],
       device='cuda:1'), out_proj_covar=tensor([9.8035e-05, 1.3675e-04, 1.0441e-04, 1.1749e-04, 1.0518e-04, 9.9184e-05,
        1.2924e-04, 1.0087e-04], device='cuda:1')
2022-11-16 09:40:59,969 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.9445, 2.3349, 2.0524, 1.5935, 2.1526, 2.5105, 2.4853, 2.6072],
       device='cuda:1'), covar=tensor([0.1671, 0.1481, 0.1733, 0.2500, 0.1048, 0.1003, 0.0859, 0.1121],
       device='cuda:1'), in_proj_covar=tensor([0.0163, 0.0179, 0.0167, 0.0183, 0.0188, 0.0206, 0.0175, 0.0183],
       device='cuda:1'), out_proj_covar=tensor([0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004, 0.0004],
       device='cuda:1')
2022-11-16 09:41:18,929 INFO [train.py:876] (1/4) Epoch 15, batch 3200, loss[loss=0.0964, simple_loss=0.1271, pruned_loss=0.03283, over 5161.00 frames. ], tot_loss[loss=0.09744, simple_loss=0.1307, pruned_loss=0.0321, over 1092952.45 frames. ], batch size: 91, lr: 5.37e-03, grad_scale: 8.0
2022-11-16 09:41:27,814 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([2.0026, 1.5905, 2.1201, 1.4168, 2.1965, 2.6101, 1.3911, 1.7074],
       device='cuda:1'), covar=tensor([0.0725, 0.0643, 0.0249, 0.0926, 0.0391, 0.0159, 0.0647, 0.0309],
       device='cuda:1'), in_proj_covar=tensor([0.0017, 0.0027, 0.0019, 0.0022, 0.0019, 0.0018, 0.0026, 0.0019],
       device='cuda:1'), out_proj_covar=tensor([9.8289e-05, 1.3678e-04, 1.0439e-04, 1.1764e-04, 1.0535e-04, 9.9164e-05,
        1.2939e-04, 1.0119e-04], device='cuda:1')
2022-11-16 09:41:46,947 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 7.649e+01 1.417e+02 1.645e+02 2.110e+02 3.664e+02, threshold=3.291e+02, percent-clipped=2.0
2022-11-16 09:41:53,055 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([3.1110, 3.1502, 3.2478, 3.1052, 3.2249, 3.1778, 1.3322, 3.3990],
       device='cuda:1'), covar=tensor([0.0340, 0.0416, 0.0355, 0.0330, 0.0372, 0.0390, 0.3121, 0.0324],
       device='cuda:1'), in_proj_covar=tensor([0.0107, 0.0090, 0.0091, 0.0084, 0.0103, 0.0092, 0.0133, 0.0110],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
       device='cuda:1')
2022-11-16 09:42:28,178 INFO [train.py:876] (1/4) Epoch 15, batch 3300, loss[loss=0.09694, simple_loss=0.1281, pruned_loss=0.03291, over 5685.00 frames. ], tot_loss[loss=0.09486, simple_loss=0.1286, pruned_loss=0.03054, over 1095036.37 frames. ], batch size: 28, lr: 5.37e-03, grad_scale: 8.0
2022-11-16 09:42:42,887 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.45 vs. limit=2.0
2022-11-16 09:42:50,053 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([4.1632, 3.8422, 3.9289, 3.8521, 4.0811, 3.8915, 1.6527, 4.2872],
       device='cuda:1'), covar=tensor([0.0273, 0.0424, 0.0334, 0.0444, 0.0300, 0.0454, 0.3194, 0.0358],
       device='cuda:1'), in_proj_covar=tensor([0.0106, 0.0090, 0.0091, 0.0084, 0.0103, 0.0091, 0.0133, 0.0110],
       device='cuda:1'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
       device='cuda:1')
2022-11-16 09:42:55,920 INFO [scaling.py:664] (1/4) Whitening: num_groups=1, num_channels=384, metric=4.56 vs. limit=5.0
2022-11-16 09:42:56,051 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 8.723e+01 1.318e+02 1.706e+02 2.251e+02 4.750e+02, threshold=3.412e+02, percent-clipped=5.0
2022-11-16 09:43:37,374 INFO [train.py:876] (1/4) Epoch 15, batch 3400, loss[loss=0.08496, simple_loss=0.119, pruned_loss=0.02548, over 5524.00 frames. ], tot_loss[loss=0.09528, simple_loss=0.1287, pruned_loss=0.03091, over 1094276.28 frames. ], batch size: 13, lr: 5.37e-03, grad_scale: 8.0
2022-11-16 09:44:05,014 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 9.327e+01 1.478e+02 1.801e+02 2.310e+02 1.078e+03, threshold=3.602e+02, percent-clipped=8.0
2022-11-16 09:44:24,034 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.49 vs. limit=2.0
2022-11-16 09:44:46,630 INFO [train.py:876] (1/4) Epoch 15, batch 3500, loss[loss=0.1249, simple_loss=0.1551, pruned_loss=0.0473, over 5276.00 frames. ], tot_loss[loss=0.09561, simple_loss=0.1288, pruned_loss=0.03122, over 1087639.14 frames. ], batch size: 79, lr: 5.36e-03, grad_scale: 8.0
2022-11-16 09:45:00,494 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([0.7500, 1.0545, 0.8468, 0.7460, 0.8873, 1.0519, 0.6608, 1.1343],
       device='cuda:1'), covar=tensor([0.0119, 0.0065, 0.0097, 0.0072, 0.0089, 0.0079, 0.0141, 0.0070],
       device='cuda:1'), in_proj_covar=tensor([0.0069, 0.0063, 0.0062, 0.0067, 0.0066, 0.0061, 0.0059, 0.0058],
       device='cuda:1'), out_proj_covar=tensor([6.0983e-05, 5.5819e-05, 5.4110e-05, 5.8966e-05, 5.7971e-05, 5.2645e-05,
        5.1962e-05, 5.0566e-05], device='cuda:1')
2022-11-16 09:45:15,055 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 7.540e+01 1.261e+02 1.523e+02 1.855e+02 3.568e+02, threshold=3.045e+02, percent-clipped=0.0
2022-11-16 09:45:18,568 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([4.8963, 4.4128, 4.7149, 4.3709, 4.9400, 4.7516, 4.3813, 4.9445],
       device='cuda:1'), covar=tensor([0.0329, 0.0395, 0.0380, 0.0336, 0.0353, 0.0238, 0.0306, 0.0254],
       device='cuda:1'), in_proj_covar=tensor([0.0153, 0.0160, 0.0115, 0.0150, 0.0195, 0.0120, 0.0133, 0.0161],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0003, 0.0002, 0.0003, 0.0004, 0.0002, 0.0002, 0.0003],
       device='cuda:1')
2022-11-16 09:45:28,049 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.20 vs. limit=2.0
2022-11-16 09:45:30,610 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([0.8499, 1.2943, 0.8699, 0.8999, 1.0693, 1.1996, 0.5622, 1.2720],
       device='cuda:1'), covar=tensor([0.0079, 0.0051, 0.0075, 0.0055, 0.0057, 0.0057, 0.0105, 0.0061],
       device='cuda:1'), in_proj_covar=tensor([0.0069, 0.0064, 0.0063, 0.0068, 0.0066, 0.0061, 0.0059, 0.0059],
       device='cuda:1'), out_proj_covar=tensor([6.1375e-05, 5.6296e-05, 5.4571e-05, 5.9369e-05, 5.8161e-05, 5.2787e-05,
        5.2299e-05, 5.0988e-05], device='cuda:1')
2022-11-16 09:45:42,587 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=105388.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 09:45:57,210 INFO [train.py:876] (1/4) Epoch 15, batch 3600, loss[loss=0.07675, simple_loss=0.1093, pruned_loss=0.02209, over 5744.00 frames. ], tot_loss[loss=0.09278, simple_loss=0.1266, pruned_loss=0.02949, over 1087135.96 frames. ], batch size: 14, lr: 5.36e-03, grad_scale: 8.0
2022-11-16 09:46:03,040 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.23 vs. limit=2.0
2022-11-16 09:46:17,519 INFO [scaling.py:664] (1/4) Whitening: num_groups=8, num_channels=96, metric=1.22 vs. limit=2.0
2022-11-16 09:46:25,420 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 7.909e+01 1.343e+02 1.539e+02 1.882e+02 3.139e+02, threshold=3.078e+02, percent-clipped=1.0
2022-11-16 09:46:25,638 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=105449.0, num_to_drop=1, layers_to_drop={0}
2022-11-16 09:46:47,564 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([5.1160, 4.6589, 4.9333, 4.6091, 5.2078, 5.0326, 4.5248, 5.2137],
       device='cuda:1'), covar=tensor([0.0364, 0.0374, 0.0391, 0.0320, 0.0324, 0.0234, 0.0262, 0.0236],
       device='cuda:1'), in_proj_covar=tensor([0.0152, 0.0160, 0.0115, 0.0150, 0.0195, 0.0120, 0.0132, 0.0162],
       device='cuda:1'), out_proj_covar=tensor([0.0003, 0.0003, 0.0002, 0.0003, 0.0004, 0.0002, 0.0002, 0.0003],
       device='cuda:1')
2022-11-16 09:46:52,066 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=105486.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 09:47:03,219 INFO [zipformer.py:623] (1/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=105502.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 09:47:07,858 INFO [train.py:876] (1/4) Epoch 15, batch 3700, loss[loss=0.1397, simple_loss=0.165, pruned_loss=0.05722, over 5471.00 frames. ], tot_loss[loss=0.09372, simple_loss=0.1277, pruned_loss=0.02986, over 1089952.32 frames. ], batch size: 53, lr: 5.36e-03, grad_scale: 8.0
2022-11-16 09:47:34,330 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=105547.0, num_to_drop=0, layers_to_drop=set()
2022-11-16 09:47:35,430 INFO [optim.py:343] (1/4) Clipping_scale=2.0, grad-norm quartiles 9.168e+01 1.329e+02 1.592e+02 1.987e+02 4.072e+02, threshold=3.183e+02, percent-clipped=1.0
2022-11-16 09:47:41,357 INFO [zipformer.py:1411] (1/4) attn_weights_entropy = tensor([1.6850, 1.7462, 1.8790, 1.4004, 1.6648, 1.7026, 1.3374, 1.0069],
       device='cuda:1'), covar=tensor([0.0041, 0.0040, 0.0043, 0.0077, 0.0061, 0.0089, 0.0060, 0.0089],
       device='cuda:1'), in_proj_covar=tensor([0.0034, 0.0030, 0.0031, 0.0039, 0.0035, 0.0031, 0.0038, 0.0037],
       device='cuda:1'), out_proj_covar=tensor([3.1019e-05, 2.7807e-05, 2.7793e-05, 3.7067e-05, 3.2266e-05, 2.9835e-05,
        3.6601e-05, 3.5620e-05], device='cuda:1')
2022-11-16 09:47:45,387 INFO [zipformer.py:623] (1/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=105563.0, num_to_drop=0, layers_to_drop=set()