gemma-7b-dpo-full-mix1-beta-0.4-epoch-3 / trainer_state.json

lewtun HF staff

Model save

ce6fffb verified 7 months ago

No virus

9.41 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 2.957345971563981,
	"eval_steps": 100,
	"global_step": 156,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.02,
	"grad_norm": 1063.9925388773709,
	"learning_rate": 3.125e-08,
	"logits/chosen": 123.11854553222656,
	"logits/rejected": 97.00198364257812,
	"logps/chosen": -425.18585205078125,
	"logps/rejected": -424.1869201660156,
	"loss": 0.6931,
	"rewards/accuracies": 0.0,
	"rewards/chosen": 0.0,
	"rewards/margins": 0.0,
	"rewards/rejected": 0.0,
	"step": 1
	},
	{
	"epoch": 0.19,
	"grad_norm": 1254.7036040526557,
	"learning_rate": 3.1249999999999997e-07,
	"logits/chosen": 117.43434143066406,
	"logits/rejected": 136.35675048828125,
	"logps/chosen": -442.97802734375,
	"logps/rejected": -524.6129760742188,
	"loss": 1.564,
	"rewards/accuracies": 0.4583333432674408,
	"rewards/chosen": 0.16415566205978394,
	"rewards/margins": 0.36335471272468567,
	"rewards/rejected": -0.19919908046722412,
	"step": 10
	},
	{
	"epoch": 0.38,
	"grad_norm": 909.9038063820053,
	"learning_rate": 4.989935734988097e-07,
	"logits/chosen": 126.66890716552734,
	"logits/rejected": 134.35414123535156,
	"logps/chosen": -426.7857360839844,
	"logps/rejected": -491.2925720214844,
	"loss": 1.3477,
	"rewards/accuracies": 0.59375,
	"rewards/chosen": -0.2084747850894928,
	"rewards/margins": 1.3043320178985596,
	"rewards/rejected": -1.51280677318573,
	"step": 20
	},
	{
	"epoch": 0.57,
	"grad_norm": 821.3627225843074,
	"learning_rate": 4.877641290737883e-07,
	"logits/chosen": 125.84306335449219,
	"logits/rejected": 129.29446411132812,
	"logps/chosen": -467.2300720214844,
	"logps/rejected": -528.94189453125,
	"loss": 1.4491,
	"rewards/accuracies": 0.737500011920929,
	"rewards/chosen": -4.843996524810791,
	"rewards/margins": 3.846839189529419,
	"rewards/rejected": -8.690834999084473,
	"step": 30
	},
	{
	"epoch": 0.76,
	"grad_norm": 865.3817040985649,
	"learning_rate": 4.646121984004665e-07,
	"logits/chosen": 127.130859375,
	"logits/rejected": 122.1098861694336,
	"logps/chosen": -485.9337463378906,
	"logps/rejected": -506.68548583984375,
	"loss": 1.4982,
	"rewards/accuracies": 0.675000011920929,
	"rewards/chosen": -5.1009392738342285,
	"rewards/margins": 3.6673903465270996,
	"rewards/rejected": -8.768329620361328,
	"step": 40
	},
	{
	"epoch": 0.95,
	"grad_norm": 907.7995009069369,
	"learning_rate": 4.3069871595684787e-07,
	"logits/chosen": 133.64224243164062,
	"logits/rejected": 133.93919372558594,
	"logps/chosen": -493.3519592285156,
	"logps/rejected": -511.6605529785156,
	"loss": 1.3238,
	"rewards/accuracies": 0.6812499761581421,
	"rewards/chosen": -4.211705684661865,
	"rewards/margins": 3.953176975250244,
	"rewards/rejected": -8.164883613586426,
	"step": 50
	},
	{
	"epoch": 1.14,
	"grad_norm": 320.5550768420106,
	"learning_rate": 3.877242453630256e-07,
	"logits/chosen": 133.02821350097656,
	"logits/rejected": 136.251953125,
	"logps/chosen": -460.30291748046875,
	"logps/rejected": -494.0633239746094,
	"loss": 0.5962,
	"rewards/accuracies": 0.893750011920929,
	"rewards/chosen": -1.4149787425994873,
	"rewards/margins": 10.490567207336426,
	"rewards/rejected": -11.905545234680176,
	"step": 60
	},
	{
	"epoch": 1.33,
	"grad_norm": 427.3414833642942,
	"learning_rate": 3.378437060203357e-07,
	"logits/chosen": 129.8929901123047,
	"logits/rejected": 130.46600341796875,
	"logps/chosen": -432.332275390625,
	"logps/rejected": -534.7671508789062,
	"loss": 0.1911,
	"rewards/accuracies": 0.9312499761581421,
	"rewards/chosen": -1.3673985004425049,
	"rewards/margins": 11.68455696105957,
	"rewards/rejected": -13.051956176757812,
	"step": 70
	},
	{
	"epoch": 1.52,
	"grad_norm": 381.35819492011535,
	"learning_rate": 2.8355831645441387e-07,
	"logits/chosen": 135.67372131347656,
	"logits/rejected": 136.30862426757812,
	"logps/chosen": -487.7591247558594,
	"logps/rejected": -561.80712890625,
	"loss": 0.2207,
	"rewards/accuracies": 0.925000011920929,
	"rewards/chosen": 0.5364077091217041,
	"rewards/margins": 14.564852714538574,
	"rewards/rejected": -14.02844524383545,
	"step": 80
	},
	{
	"epoch": 1.71,
	"grad_norm": 263.6170847100913,
	"learning_rate": 2.2759017277414164e-07,
	"logits/chosen": 122.95021057128906,
	"logits/rejected": 125.04380798339844,
	"logps/chosen": -465.0882873535156,
	"logps/rejected": -521.892578125,
	"loss": 0.2059,
	"rewards/accuracies": 0.9375,
	"rewards/chosen": -1.1682957410812378,
	"rewards/margins": 13.839956283569336,
	"rewards/rejected": -15.00825309753418,
	"step": 90
	},
	{
	"epoch": 1.9,
	"grad_norm": 498.9305336886761,
	"learning_rate": 1.7274575140626315e-07,
	"logits/chosen": 137.44198608398438,
	"logits/rejected": 127.8071060180664,
	"logps/chosen": -482.68829345703125,
	"logps/rejected": -564.5560913085938,
	"loss": 0.2569,
	"rewards/accuracies": 0.956250011920929,
	"rewards/chosen": -1.7192827463150024,
	"rewards/margins": 14.991134643554688,
	"rewards/rejected": -16.710416793823242,
	"step": 100
	},
	{
	"epoch": 1.9,
	"eval_logits/chosen": 105.28992462158203,
	"eval_logits/rejected": 99.2330093383789,
	"eval_logps/chosen": -470.2108459472656,
	"eval_logps/rejected": -482.4095153808594,
	"eval_loss": 1.0775203704833984,
	"eval_rewards/accuracies": 0.7395833134651184,
	"eval_rewards/chosen": -6.722555160522461,
	"eval_rewards/margins": 5.621420383453369,
	"eval_rewards/rejected": -12.343975067138672,
	"eval_runtime": 52.5735,
	"eval_samples_per_second": 14.266,
	"eval_steps_per_second": 0.457,
	"step": 100
	},
	{
	"epoch": 2.09,
	"grad_norm": 312.21164489149646,
	"learning_rate": 1.2177518064852348e-07,
	"logits/chosen": 116.9559555053711,
	"logits/rejected": 130.40074157714844,
	"logps/chosen": -501.41314697265625,
	"logps/rejected": -597.8336181640625,
	"loss": 0.1917,
	"rewards/accuracies": 0.949999988079071,
	"rewards/chosen": -2.5299580097198486,
	"rewards/margins": 14.8624906539917,
	"rewards/rejected": -17.3924503326416,
	"step": 110
	},
	{
	"epoch": 2.27,
	"grad_norm": 88.0209774984605,
	"learning_rate": 7.723433775328384e-08,
	"logits/chosen": 128.97409057617188,
	"logits/rejected": 129.96273803710938,
	"logps/chosen": -482.223876953125,
	"logps/rejected": -545.4796752929688,
	"loss": 0.054,
	"rewards/accuracies": 0.9750000238418579,
	"rewards/chosen": -1.9787194728851318,
	"rewards/margins": 14.918545722961426,
	"rewards/rejected": -16.897266387939453,
	"step": 120
	},
	{
	"epoch": 2.46,
	"grad_norm": 195.2044766984358,
	"learning_rate": 4.1356686569674335e-08,
	"logits/chosen": 134.0525665283203,
	"logits/rejected": 139.18789672851562,
	"logps/chosen": -496.6250915527344,
	"logps/rejected": -565.2105712890625,
	"loss": 0.0788,
	"rewards/accuracies": 0.987500011920929,
	"rewards/chosen": -1.1465753316879272,
	"rewards/margins": 14.6506986618042,
	"rewards/rejected": -15.797274589538574,
	"step": 130
	},
	{
	"epoch": 2.65,
	"grad_norm": 133.44761939021552,
	"learning_rate": 1.5941282340065697e-08,
	"logits/chosen": 119.77888488769531,
	"logits/rejected": 119.9384536743164,
	"logps/chosen": -450.76904296875,
	"logps/rejected": -552.9923095703125,
	"loss": 0.0613,
	"rewards/accuracies": 0.987500011920929,
	"rewards/chosen": -2.1010565757751465,
	"rewards/margins": 16.25819206237793,
	"rewards/rejected": -18.359249114990234,
	"step": 140
	},
	{
	"epoch": 2.84,
	"grad_norm": 48.801935911090936,
	"learning_rate": 2.2625595580163247e-09,
	"logits/chosen": 127.36897277832031,
	"logits/rejected": 140.77224731445312,
	"logps/chosen": -477.6751403808594,
	"logps/rejected": -549.9277954101562,
	"loss": 0.0601,
	"rewards/accuracies": 0.9750000238418579,
	"rewards/chosen": -1.1382229328155518,
	"rewards/margins": 15.574376106262207,
	"rewards/rejected": -16.712596893310547,
	"step": 150
	},
	{
	"epoch": 2.96,
	"step": 156,
	"total_flos": 0.0,
	"train_loss": 0.5786063394103295,
	"train_runtime": 1791.9811,
	"train_samples_per_second": 11.3,
	"train_steps_per_second": 0.087
	}
	],
	"logging_steps": 10,
	"max_steps": 156,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 3,
	"save_steps": 100,
	"total_flos": 0.0,
	"train_batch_size": 2,
	"trial_name": null,
	"trial_params": null
	}