Upload folder using huggingface_hub

42dd07b 11 months ago

No virus

19.5 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 9.19047619047619,
	"eval_steps": 500,
	"global_step": 160,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.01,
	"learning_rate": 2.3809523809523808e-06,
	"loss": 1.4962,
	"step": 1
	},
	{
	"epoch": 0.02,
	"learning_rate": 4.7619047619047615e-06,
	"loss": 1.5498,
	"step": 2
	},
	{
	"epoch": 0.04,
	"learning_rate": 7.142857142857143e-06,
	"loss": 1.4765,
	"step": 3
	},
	{
	"epoch": 0.05,
	"learning_rate": 9.523809523809523e-06,
	"loss": 1.4702,
	"step": 4
	},
	{
	"epoch": 0.06,
	"learning_rate": 1.1904761904761905e-05,
	"loss": 1.4907,
	"step": 5
	},
	{
	"epoch": 0.07,
	"learning_rate": 1.4285714285714285e-05,
	"loss": 1.4473,
	"step": 6
	},
	{
	"epoch": 0.08,
	"learning_rate": 1.6666666666666667e-05,
	"loss": 1.4735,
	"step": 7
	},
	{
	"epoch": 0.1,
	"learning_rate": 1.9047619047619046e-05,
	"loss": 1.4303,
	"step": 8
	},
	{
	"epoch": 0.11,
	"learning_rate": 2.1428571428571428e-05,
	"loss": 1.3977,
	"step": 9
	},
	{
	"epoch": 0.12,
	"learning_rate": 2.380952380952381e-05,
	"loss": 1.4021,
	"step": 10
	},
	{
	"epoch": 0.13,
	"learning_rate": 2.6190476190476192e-05,
	"loss": 1.3709,
	"step": 11
	},
	{
	"epoch": 0.14,
	"learning_rate": 2.857142857142857e-05,
	"loss": 1.3842,
	"step": 12
	},
	{
	"epoch": 0.15,
	"learning_rate": 3.095238095238095e-05,
	"loss": 1.3646,
	"step": 13
	},
	{
	"epoch": 0.17,
	"learning_rate": 3.3333333333333335e-05,
	"loss": 1.3196,
	"step": 14
	},
	{
	"epoch": 0.18,
	"learning_rate": 3.571428571428572e-05,
	"loss": 1.2991,
	"step": 15
	},
	{
	"epoch": 0.19,
	"learning_rate": 3.809523809523809e-05,
	"loss": 1.2953,
	"step": 16
	},
	{
	"epoch": 1.01,
	"learning_rate": 4.047619047619048e-05,
	"loss": 1.2344,
	"step": 17
	},
	{
	"epoch": 1.02,
	"learning_rate": 4.2857142857142856e-05,
	"loss": 1.2148,
	"step": 18
	},
	{
	"epoch": 1.04,
	"learning_rate": 4.523809523809524e-05,
	"loss": 1.2092,
	"step": 19
	},
	{
	"epoch": 1.05,
	"learning_rate": 4.761904761904762e-05,
	"loss": 1.154,
	"step": 20
	},
	{
	"epoch": 1.06,
	"learning_rate": 5e-05,
	"loss": 1.1733,
	"step": 21
	},
	{
	"epoch": 1.07,
	"learning_rate": 5.2380952380952384e-05,
	"loss": 1.1218,
	"step": 22
	},
	{
	"epoch": 1.08,
	"learning_rate": 5.4761904761904766e-05,
	"loss": 1.1347,
	"step": 23
	},
	{
	"epoch": 1.1,
	"learning_rate": 5.714285714285714e-05,
	"loss": 1.1216,
	"step": 24
	},
	{
	"epoch": 1.11,
	"learning_rate": 5.9523809523809524e-05,
	"loss": 1.0923,
	"step": 25
	},
	{
	"epoch": 1.12,
	"learning_rate": 6.19047619047619e-05,
	"loss": 1.0948,
	"step": 26
	},
	{
	"epoch": 1.13,
	"learning_rate": 6.428571428571429e-05,
	"loss": 1.0617,
	"step": 27
	},
	{
	"epoch": 1.14,
	"learning_rate": 6.666666666666667e-05,
	"loss": 1.033,
	"step": 28
	},
	{
	"epoch": 1.15,
	"learning_rate": 6.904761904761905e-05,
	"loss": 1.0342,
	"step": 29
	},
	{
	"epoch": 1.17,
	"learning_rate": 7.142857142857143e-05,
	"loss": 1.0059,
	"step": 30
	},
	{
	"epoch": 1.18,
	"learning_rate": 7.380952380952382e-05,
	"loss": 0.9941,
	"step": 31
	},
	{
	"epoch": 1.19,
	"learning_rate": 7.619047619047618e-05,
	"loss": 0.9912,
	"step": 32
	},
	{
	"epoch": 2.01,
	"learning_rate": 7.857142857142858e-05,
	"loss": 0.9595,
	"step": 33
	},
	{
	"epoch": 2.02,
	"learning_rate": 8.095238095238096e-05,
	"loss": 0.9719,
	"step": 34
	},
	{
	"epoch": 2.04,
	"learning_rate": 8.333333333333334e-05,
	"loss": 0.9437,
	"step": 35
	},
	{
	"epoch": 2.05,
	"learning_rate": 8.571428571428571e-05,
	"loss": 0.9174,
	"step": 36
	},
	{
	"epoch": 2.06,
	"learning_rate": 8.80952380952381e-05,
	"loss": 0.9494,
	"step": 37
	},
	{
	"epoch": 2.07,
	"learning_rate": 9.047619047619048e-05,
	"loss": 0.8654,
	"step": 38
	},
	{
	"epoch": 2.08,
	"learning_rate": 9.285714285714286e-05,
	"loss": 0.8685,
	"step": 39
	},
	{
	"epoch": 2.1,
	"learning_rate": 9.523809523809524e-05,
	"loss": 0.8946,
	"step": 40
	},
	{
	"epoch": 2.11,
	"learning_rate": 9.761904761904762e-05,
	"loss": 0.875,
	"step": 41
	},
	{
	"epoch": 2.12,
	"learning_rate": 0.0001,
	"loss": 0.827,
	"step": 42
	},
	{
	"epoch": 2.13,
	"learning_rate": 0.00010238095238095237,
	"loss": 0.8373,
	"step": 43
	},
	{
	"epoch": 2.14,
	"learning_rate": 0.00010476190476190477,
	"loss": 0.8291,
	"step": 44
	},
	{
	"epoch": 2.15,
	"learning_rate": 0.00010714285714285715,
	"loss": 0.8238,
	"step": 45
	},
	{
	"epoch": 2.17,
	"learning_rate": 0.00010952380952380953,
	"loss": 0.7971,
	"step": 46
	},
	{
	"epoch": 2.18,
	"learning_rate": 0.00011190476190476191,
	"loss": 0.7925,
	"step": 47
	},
	{
	"epoch": 2.19,
	"learning_rate": 0.00011428571428571428,
	"loss": 0.7865,
	"step": 48
	},
	{
	"epoch": 3.01,
	"learning_rate": 0.00011666666666666668,
	"loss": 0.7714,
	"step": 49
	},
	{
	"epoch": 3.02,
	"learning_rate": 0.00011904761904761905,
	"loss": 0.7508,
	"step": 50
	},
	{
	"epoch": 3.04,
	"learning_rate": 0.00012142857142857143,
	"loss": 0.7757,
	"step": 51
	},
	{
	"epoch": 3.05,
	"learning_rate": 0.0001238095238095238,
	"loss": 0.7479,
	"step": 52
	},
	{
	"epoch": 3.06,
	"learning_rate": 0.0001261904761904762,
	"loss": 0.7393,
	"step": 53
	},
	{
	"epoch": 3.07,
	"learning_rate": 0.00012857142857142858,
	"loss": 0.7341,
	"step": 54
	},
	{
	"epoch": 3.08,
	"learning_rate": 0.00013095238095238096,
	"loss": 0.7271,
	"step": 55
	},
	{
	"epoch": 3.1,
	"learning_rate": 0.00013333333333333334,
	"loss": 0.7134,
	"step": 56
	},
	{
	"epoch": 3.11,
	"learning_rate": 0.00013571428571428572,
	"loss": 0.7295,
	"step": 57
	},
	{
	"epoch": 3.12,
	"learning_rate": 0.0001380952380952381,
	"loss": 0.7143,
	"step": 58
	},
	{
	"epoch": 3.13,
	"learning_rate": 0.00014047619047619049,
	"loss": 0.6903,
	"step": 59
	},
	{
	"epoch": 3.14,
	"learning_rate": 0.00014285714285714287,
	"loss": 0.7002,
	"step": 60
	},
	{
	"epoch": 3.15,
	"learning_rate": 0.00014523809523809525,
	"loss": 0.6684,
	"step": 61
	},
	{
	"epoch": 3.17,
	"learning_rate": 0.00014761904761904763,
	"loss": 0.6841,
	"step": 62
	},
	{
	"epoch": 3.18,
	"learning_rate": 0.00015000000000000001,
	"loss": 0.6641,
	"step": 63
	},
	{
	"epoch": 3.19,
	"learning_rate": 0.00015238095238095237,
	"loss": 0.6571,
	"step": 64
	},
	{
	"epoch": 4.01,
	"learning_rate": 0.00015476190476190478,
	"loss": 0.6287,
	"step": 65
	},
	{
	"epoch": 4.02,
	"learning_rate": 0.00015714285714285716,
	"loss": 0.6545,
	"step": 66
	},
	{
	"epoch": 4.04,
	"learning_rate": 0.00015952380952380954,
	"loss": 0.63,
	"step": 67
	},
	{
	"epoch": 4.05,
	"learning_rate": 0.00016190476190476192,
	"loss": 0.639,
	"step": 68
	},
	{
	"epoch": 4.06,
	"learning_rate": 0.00016428571428571428,
	"loss": 0.6242,
	"step": 69
	},
	{
	"epoch": 4.07,
	"learning_rate": 0.0001666666666666667,
	"loss": 0.6127,
	"step": 70
	},
	{
	"epoch": 4.08,
	"learning_rate": 0.00016904761904761904,
	"loss": 0.5939,
	"step": 71
	},
	{
	"epoch": 4.1,
	"learning_rate": 0.00017142857142857143,
	"loss": 0.6449,
	"step": 72
	},
	{
	"epoch": 4.11,
	"learning_rate": 0.00017380952380952383,
	"loss": 0.6348,
	"step": 73
	},
	{
	"epoch": 4.12,
	"learning_rate": 0.0001761904761904762,
	"loss": 0.6129,
	"step": 74
	},
	{
	"epoch": 4.13,
	"learning_rate": 0.0001785714285714286,
	"loss": 0.587,
	"step": 75
	},
	{
	"epoch": 4.14,
	"learning_rate": 0.00018095238095238095,
	"loss": 0.5818,
	"step": 76
	},
	{
	"epoch": 4.15,
	"learning_rate": 0.00018333333333333334,
	"loss": 0.5803,
	"step": 77
	},
	{
	"epoch": 4.17,
	"learning_rate": 0.00018571428571428572,
	"loss": 0.6319,
	"step": 78
	},
	{
	"epoch": 4.18,
	"learning_rate": 0.0001880952380952381,
	"loss": 0.6171,
	"step": 79
	},
	{
	"epoch": 4.19,
	"learning_rate": 0.00019047619047619048,
	"loss": 0.5772,
	"step": 80
	},
	{
	"epoch": 5.01,
	"learning_rate": 0.00019285714285714286,
	"loss": 0.5688,
	"step": 81
	},
	{
	"epoch": 5.02,
	"learning_rate": 0.00019523809523809525,
	"loss": 0.5648,
	"step": 82
	},
	{
	"epoch": 5.04,
	"learning_rate": 0.00019761904761904763,
	"loss": 0.5557,
	"step": 83
	},
	{
	"epoch": 5.05,
	"learning_rate": 0.0002,
	"loss": 0.5314,
	"step": 84
	},
	{
	"epoch": 5.06,
	"learning_rate": 0.0001999991365731819,
	"loss": 0.5659,
	"step": 85
	},
	{
	"epoch": 5.07,
	"learning_rate": 0.0001999965463076377,
	"loss": 0.5497,
	"step": 86
	},
	{
	"epoch": 5.08,
	"learning_rate": 0.0001999922292480975,
	"loss": 0.5202,
	"step": 87
	},
	{
	"epoch": 5.1,
	"learning_rate": 0.00019998618546911056,
	"loss": 0.5209,
	"step": 88
	},
	{
	"epoch": 5.11,
	"learning_rate": 0.0001999784150750442,
	"loss": 0.5657,
	"step": 89
	},
	{
	"epoch": 5.12,
	"learning_rate": 0.00019996891820008164,
	"loss": 0.5286,
	"step": 90
	},
	{
	"epoch": 5.13,
	"learning_rate": 0.0001999576950082201,
	"loss": 0.5218,
	"step": 91
	},
	{
	"epoch": 5.14,
	"learning_rate": 0.00019994474569326757,
	"loss": 0.5362,
	"step": 92
	},
	{
	"epoch": 5.15,
	"learning_rate": 0.00019993007047883988,
	"loss": 0.5371,
	"step": 93
	},
	{
	"epoch": 5.17,
	"learning_rate": 0.00019991366961835642,
	"loss": 0.5427,
	"step": 94
	},
	{
	"epoch": 5.18,
	"learning_rate": 0.00019989554339503612,
	"loss": 0.5583,
	"step": 95
	},
	{
	"epoch": 5.19,
	"learning_rate": 0.00019987569212189224,
	"loss": 0.5376,
	"step": 96
	},
	{
	"epoch": 6.01,
	"learning_rate": 0.0001998541161417273,
	"loss": 0.5138,
	"step": 97
	},
	{
	"epoch": 6.02,
	"learning_rate": 0.00019983081582712685,
	"loss": 0.5236,
	"step": 98
	},
	{
	"epoch": 6.04,
	"learning_rate": 0.0001998057915804532,
	"loss": 0.4955,
	"step": 99
	},
	{
	"epoch": 6.05,
	"learning_rate": 0.0001997790438338385,
	"loss": 0.4824,
	"step": 100
	},
	{
	"epoch": 6.06,
	"learning_rate": 0.00019975057304917718,
	"loss": 0.464,
	"step": 101
	},
	{
	"epoch": 6.07,
	"learning_rate": 0.00019972037971811802,
	"loss": 0.4967,
	"step": 102
	},
	{
	"epoch": 6.08,
	"learning_rate": 0.00019968846436205567,
	"loss": 0.4571,
	"step": 103
	},
	{
	"epoch": 6.1,
	"learning_rate": 0.00019965482753212156,
	"loss": 0.4994,
	"step": 104
	},
	{
	"epoch": 6.11,
	"learning_rate": 0.00019961946980917456,
	"loss": 0.4789,
	"step": 105
	},
	{
	"epoch": 6.12,
	"learning_rate": 0.0001995823918037908,
	"loss": 0.4653,
	"step": 106
	},
	{
	"epoch": 6.13,
	"learning_rate": 0.0001995435941562531,
	"loss": 0.489,
	"step": 107
	},
	{
	"epoch": 6.14,
	"learning_rate": 0.00019950307753654017,
	"loss": 0.501,
	"step": 108
	},
	{
	"epoch": 6.15,
	"learning_rate": 0.00019946084264431459,
	"loss": 0.462,
	"step": 109
	},
	{
	"epoch": 6.17,
	"learning_rate": 0.0001994168902089112,
	"loss": 0.4511,
	"step": 110
	},
	{
	"epoch": 6.18,
	"learning_rate": 0.00019937122098932428,
	"loss": 0.4744,
	"step": 111
	},
	{
	"epoch": 6.19,
	"learning_rate": 0.00019932383577419432,
	"loss": 0.4991,
	"step": 112
	},
	{
	"epoch": 7.01,
	"learning_rate": 0.00019927473538179467,
	"loss": 0.4277,
	"step": 113
	},
	{
	"epoch": 7.02,
	"learning_rate": 0.00019922392066001722,
	"loss": 0.4083,
	"step": 114
	},
	{
	"epoch": 7.04,
	"learning_rate": 0.00019917139248635786,
	"loss": 0.424,
	"step": 115
	},
	{
	"epoch": 7.05,
	"learning_rate": 0.0001991171517679013,
	"loss": 0.4305,
	"step": 116
	},
	{
	"epoch": 7.06,
	"learning_rate": 0.0001990611994413053,
	"loss": 0.4379,
	"step": 117
	},
	{
	"epoch": 7.07,
	"learning_rate": 0.00019900353647278466,
	"loss": 0.4251,
	"step": 118
	},
	{
	"epoch": 7.08,
	"learning_rate": 0.00019894416385809444,
	"loss": 0.4367,
	"step": 119
	},
	{
	"epoch": 7.1,
	"learning_rate": 0.00019888308262251285,
	"loss": 0.4524,
	"step": 120
	},
	{
	"epoch": 7.11,
	"learning_rate": 0.0001988202938208234,
	"loss": 0.4351,
	"step": 121
	},
	{
	"epoch": 7.12,
	"learning_rate": 0.00019875579853729676,
	"loss": 0.4269,
	"step": 122
	},
	{
	"epoch": 7.13,
	"learning_rate": 0.00019868959788567212,
	"loss": 0.4128,
	"step": 123
	},
	{
	"epoch": 7.14,
	"learning_rate": 0.00019862169300913785,
	"loss": 0.4383,
	"step": 124
	},
	{
	"epoch": 7.15,
	"learning_rate": 0.0001985520850803117,
	"loss": 0.43,
	"step": 125
	},
	{
	"epoch": 7.17,
	"learning_rate": 0.00019848077530122083,
	"loss": 0.4613,
	"step": 126
	},
	{
	"epoch": 7.18,
	"learning_rate": 0.00019840776490328066,
	"loss": 0.4438,
	"step": 127
	},
	{
	"epoch": 7.19,
	"learning_rate": 0.00019833305514727395,
	"loss": 0.4393,
	"step": 128
	},
	{
	"epoch": 8.01,
	"learning_rate": 0.00019825664732332884,
	"loss": 0.4018,
	"step": 129
	},
	{
	"epoch": 8.02,
	"learning_rate": 0.0001981785427508966,
	"loss": 0.3602,
	"step": 130
	},
	{
	"epoch": 8.04,
	"learning_rate": 0.00019809874277872886,
	"loss": 0.3728,
	"step": 131
	},
	{
	"epoch": 8.05,
	"learning_rate": 0.00019801724878485438,
	"loss": 0.3727,
	"step": 132
	},
	{
	"epoch": 8.06,
	"learning_rate": 0.00019793406217655517,
	"loss": 0.3898,
	"step": 133
	},
	{
	"epoch": 8.07,
	"learning_rate": 0.00019784918439034216,
	"loss": 0.3964,
	"step": 134
	},
	{
	"epoch": 8.08,
	"learning_rate": 0.00019776261689193048,
	"loss": 0.3741,
	"step": 135
	},
	{
	"epoch": 8.1,
	"learning_rate": 0.00019767436117621413,
	"loss": 0.3853,
	"step": 136
	},
	{
	"epoch": 8.11,
	"learning_rate": 0.00019758441876724017,
	"loss": 0.3783,
	"step": 137
	},
	{
	"epoch": 8.12,
	"learning_rate": 0.00019749279121818235,
	"loss": 0.3946,
	"step": 138
	},
	{
	"epoch": 8.13,
	"learning_rate": 0.00019739948011131438,
	"loss": 0.382,
	"step": 139
	},
	{
	"epoch": 8.14,
	"learning_rate": 0.00019730448705798239,
	"loss": 0.3858,
	"step": 140
	},
	{
	"epoch": 8.15,
	"learning_rate": 0.00019720781369857746,
	"loss": 0.3769,
	"step": 141
	},
	{
	"epoch": 8.17,
	"learning_rate": 0.000197109461702507,
	"loss": 0.3988,
	"step": 142
	},
	{
	"epoch": 8.18,
	"learning_rate": 0.00019700943276816603,
	"loss": 0.388,
	"step": 143
	},
	{
	"epoch": 8.19,
	"learning_rate": 0.0001969077286229078,
	"loss": 0.3886,
	"step": 144
	},
	{
	"epoch": 9.01,
	"learning_rate": 0.00019680435102301412,
	"loss": 0.3481,
	"step": 145
	},
	{
	"epoch": 9.02,
	"learning_rate": 0.00019669930175366472,
	"loss": 0.3392,
	"step": 146
	},
	{
	"epoch": 9.04,
	"learning_rate": 0.00019659258262890683,
	"loss": 0.3199,
	"step": 147
	},
	{
	"epoch": 9.05,
	"learning_rate": 0.00019648419549162348,
	"loss": 0.3502,
	"step": 148
	},
	{
	"epoch": 9.06,
	"learning_rate": 0.00019637414221350196,
	"loss": 0.3302,
	"step": 149
	},
	{
	"epoch": 9.07,
	"learning_rate": 0.0001962624246950012,
	"loss": 0.3369,
	"step": 150
	},
	{
	"epoch": 9.08,
	"learning_rate": 0.00019614904486531934,
	"loss": 0.3271,
	"step": 151
	},
	{
	"epoch": 9.1,
	"learning_rate": 0.00019603400468235998,
	"loss": 0.331,
	"step": 152
	},
	{
	"epoch": 9.11,
	"learning_rate": 0.0001959173061326988,
	"loss": 0.3368,
	"step": 153
	},
	{
	"epoch": 9.12,
	"learning_rate": 0.0001957989512315489,
	"loss": 0.3282,
	"step": 154
	},
	{
	"epoch": 9.13,
	"learning_rate": 0.0001956789420227262,
	"loss": 0.3251,
	"step": 155
	},
	{
	"epoch": 9.14,
	"learning_rate": 0.0001955572805786141,
	"loss": 0.3312,
	"step": 156
	},
	{
	"epoch": 9.15,
	"learning_rate": 0.00019543396900012763,
	"loss": 0.3673,
	"step": 157
	},
	{
	"epoch": 9.17,
	"learning_rate": 0.0001953090094166773,
	"loss": 0.3287,
	"step": 158
	},
	{
	"epoch": 9.18,
	"learning_rate": 0.00019518240398613227,
	"loss": 0.3374,
	"step": 159
	},
	{
	"epoch": 9.19,
	"learning_rate": 0.0001950541548947829,
	"loss": 0.3209,
	"step": 160
	}
	],
	"logging_steps": 1,
	"max_steps": 840,
	"num_train_epochs": 10,
	"save_steps": 500,
	"total_flos": 8.39611613970432e+16,
	"trial_name": null,
	"trial_params": null
	}