bs-normal / trainer_state.json

Upload folder using huggingface_hub

8603006 verified 5 months ago

53.6 kB

	{
	"best_global_step": 175000,
	"best_metric": 0.0006260189693421125,
	"best_model_checkpoint": "/data/bozos/models/f8d245da3b0d0e66db4c97688fe67d8c31303d4f662c4b64e5da18eb8964c893/checkpoints/checkpoint-175000",
	"epoch": 4.08,
	"eval_steps": 5000,
	"global_step": 255000,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.016,
	"grad_norm": 2.213568925857544,
	"learning_rate": 0.00022758072642650628,
	"loss": 1.732,
	"step": 1000
	},
	{
	"epoch": 0.032,
	"grad_norm": 0.6694766879081726,
	"learning_rate": 0.00022757708507668012,
	"loss": 0.4826,
	"step": 2000
	},
	{
	"epoch": 0.048,
	"grad_norm": 2.43005633354187,
	"learning_rate": 0.00022757344372685396,
	"loss": 0.1817,
	"step": 3000
	},
	{
	"epoch": 0.064,
	"grad_norm": 0.4847993850708008,
	"learning_rate": 0.0002275698023770278,
	"loss": 0.1264,
	"step": 4000
	},
	{
	"epoch": 0.08,
	"grad_norm": 0.162339448928833,
	"learning_rate": 0.00022756616102720165,
	"loss": 0.0816,
	"step": 5000
	},
	{
	"epoch": 0.08,
	"eval_loss": 0.05317778140306473,
	"eval_runtime": 27.3774,
	"eval_samples_per_second": 36.526,
	"eval_steps_per_second": 4.566,
	"step": 5000
	},
	{
	"epoch": 0.096,
	"grad_norm": 0.13133646547794342,
	"learning_rate": 0.0002275625196773755,
	"loss": 0.0531,
	"step": 6000
	},
	{
	"epoch": 0.112,
	"grad_norm": 0.16350027918815613,
	"learning_rate": 0.00022755887832754933,
	"loss": 0.0471,
	"step": 7000
	},
	{
	"epoch": 0.128,
	"grad_norm": 0.15041467547416687,
	"learning_rate": 0.00022755523697772317,
	"loss": 0.0303,
	"step": 8000
	},
	{
	"epoch": 0.144,
	"grad_norm": 0.22431999444961548,
	"learning_rate": 0.000227551595627897,
	"loss": 0.0213,
	"step": 9000
	},
	{
	"epoch": 0.16,
	"grad_norm": 0.09702177345752716,
	"learning_rate": 0.00022754795427807082,
	"loss": 0.016,
	"step": 10000
	},
	{
	"epoch": 0.16,
	"eval_loss": 0.011971595697104931,
	"eval_runtime": 27.2488,
	"eval_samples_per_second": 36.699,
	"eval_steps_per_second": 4.587,
	"step": 10000
	},
	{
	"epoch": 0.176,
	"grad_norm": 0.22383971512317657,
	"learning_rate": 0.0002275443129282447,
	"loss": 0.0182,
	"step": 11000
	},
	{
	"epoch": 0.192,
	"grad_norm": 0.10483340919017792,
	"learning_rate": 0.0002275406715784185,
	"loss": 0.0099,
	"step": 12000
	},
	{
	"epoch": 0.208,
	"grad_norm": 0.06974471360445023,
	"learning_rate": 0.00022753703022859238,
	"loss": 0.0102,
	"step": 13000
	},
	{
	"epoch": 0.224,
	"grad_norm": 0.08179257810115814,
	"learning_rate": 0.0002275333888787662,
	"loss": 0.0095,
	"step": 14000
	},
	{
	"epoch": 0.24,
	"grad_norm": 0.06491447985172272,
	"learning_rate": 0.00022752974752894006,
	"loss": 0.0108,
	"step": 15000
	},
	{
	"epoch": 0.24,
	"eval_loss": 0.007058731280267239,
	"eval_runtime": 27.4538,
	"eval_samples_per_second": 36.425,
	"eval_steps_per_second": 4.553,
	"step": 15000
	},
	{
	"epoch": 0.256,
	"grad_norm": 0.07762598991394043,
	"learning_rate": 0.00022752610617911387,
	"loss": 0.0083,
	"step": 16000
	},
	{
	"epoch": 0.272,
	"grad_norm": 0.09719238430261612,
	"learning_rate": 0.00022752246482928774,
	"loss": 0.0088,
	"step": 17000
	},
	{
	"epoch": 0.288,
	"grad_norm": 0.0923658162355423,
	"learning_rate": 0.00022751882347946155,
	"loss": 0.0058,
	"step": 18000
	},
	{
	"epoch": 0.304,
	"grad_norm": 0.07014696300029755,
	"learning_rate": 0.00022751518212963542,
	"loss": 0.0075,
	"step": 19000
	},
	{
	"epoch": 0.32,
	"grad_norm": 0.060413043946027756,
	"learning_rate": 0.00022751154077980924,
	"loss": 0.006,
	"step": 20000
	},
	{
	"epoch": 0.32,
	"eval_loss": 0.004977255128324032,
	"eval_runtime": 27.1268,
	"eval_samples_per_second": 36.864,
	"eval_steps_per_second": 4.608,
	"step": 20000
	},
	{
	"epoch": 0.336,
	"grad_norm": 0.07979925721883774,
	"learning_rate": 0.0002275078994299831,
	"loss": 0.0074,
	"step": 21000
	},
	{
	"epoch": 0.352,
	"grad_norm": 0.07468965649604797,
	"learning_rate": 0.00022750425808015692,
	"loss": 0.0061,
	"step": 22000
	},
	{
	"epoch": 0.368,
	"grad_norm": 0.11379896104335785,
	"learning_rate": 0.00022750061673033079,
	"loss": 0.0066,
	"step": 23000
	},
	{
	"epoch": 0.384,
	"grad_norm": 0.14029712975025177,
	"learning_rate": 0.0002274969753805046,
	"loss": 0.0048,
	"step": 24000
	},
	{
	"epoch": 0.4,
	"grad_norm": 0.025649070739746094,
	"learning_rate": 0.00022749333403067844,
	"loss": 0.0062,
	"step": 25000
	},
	{
	"epoch": 0.4,
	"eval_loss": 0.00377740734256804,
	"eval_runtime": 27.2272,
	"eval_samples_per_second": 36.728,
	"eval_steps_per_second": 4.591,
	"step": 25000
	},
	{
	"epoch": 0.416,
	"grad_norm": 0.07835651934146881,
	"learning_rate": 0.00022748969268085228,
	"loss": 0.0057,
	"step": 26000
	},
	{
	"epoch": 0.432,
	"grad_norm": 0.037621937692165375,
	"learning_rate": 0.00022748605133102612,
	"loss": 0.0043,
	"step": 27000
	},
	{
	"epoch": 0.448,
	"grad_norm": 0.05530184134840965,
	"learning_rate": 0.00022748240998119996,
	"loss": 0.0078,
	"step": 28000
	},
	{
	"epoch": 0.464,
	"grad_norm": 0.2537539601325989,
	"learning_rate": 0.0002274787686313738,
	"loss": 0.004,
	"step": 29000
	},
	{
	"epoch": 0.48,
	"grad_norm": 0.08855901658535004,
	"learning_rate": 0.00022747512728154765,
	"loss": 0.0055,
	"step": 30000
	},
	{
	"epoch": 0.48,
	"eval_loss": 0.00407881336286664,
	"eval_runtime": 27.3314,
	"eval_samples_per_second": 36.588,
	"eval_steps_per_second": 4.573,
	"step": 30000
	},
	{
	"epoch": 0.496,
	"grad_norm": 0.01860993541777134,
	"learning_rate": 0.0002274714859317215,
	"loss": 0.0044,
	"step": 31000
	},
	{
	"epoch": 0.512,
	"grad_norm": 0.030549678951501846,
	"learning_rate": 0.00022746784458189533,
	"loss": 0.0062,
	"step": 32000
	},
	{
	"epoch": 0.528,
	"grad_norm": 0.07974190264940262,
	"learning_rate": 0.00022746420323206917,
	"loss": 0.0044,
	"step": 33000
	},
	{
	"epoch": 0.544,
	"grad_norm": 0.07146530598402023,
	"learning_rate": 0.000227460561882243,
	"loss": 0.0033,
	"step": 34000
	},
	{
	"epoch": 0.56,
	"grad_norm": 0.03786474093794823,
	"learning_rate": 0.00022745692053241685,
	"loss": 0.0064,
	"step": 35000
	},
	{
	"epoch": 0.56,
	"eval_loss": 0.002913910197094083,
	"eval_runtime": 27.2895,
	"eval_samples_per_second": 36.644,
	"eval_steps_per_second": 4.581,
	"step": 35000
	},
	{
	"epoch": 0.576,
	"grad_norm": 1.5708693265914917,
	"learning_rate": 0.0002274532791825907,
	"loss": 0.0048,
	"step": 36000
	},
	{
	"epoch": 0.592,
	"grad_norm": 0.04259568825364113,
	"learning_rate": 0.0002274496378327645,
	"loss": 0.0027,
	"step": 37000
	},
	{
	"epoch": 0.608,
	"grad_norm": 0.029481125995516777,
	"learning_rate": 0.00022744599648293838,
	"loss": 0.0049,
	"step": 38000
	},
	{
	"epoch": 0.624,
	"grad_norm": 0.3993789553642273,
	"learning_rate": 0.0002274423551331122,
	"loss": 0.0048,
	"step": 39000
	},
	{
	"epoch": 0.64,
	"grad_norm": 0.03810903802514076,
	"learning_rate": 0.00022743871378328606,
	"loss": 0.0027,
	"step": 40000
	},
	{
	"epoch": 0.64,
	"eval_loss": 0.00209135003387928,
	"eval_runtime": 27.0955,
	"eval_samples_per_second": 36.906,
	"eval_steps_per_second": 4.613,
	"step": 40000
	},
	{
	"epoch": 0.656,
	"grad_norm": 0.027073705568909645,
	"learning_rate": 0.00022743507243345987,
	"loss": 0.0033,
	"step": 41000
	},
	{
	"epoch": 0.672,
	"grad_norm": 0.04906334728002548,
	"learning_rate": 0.00022743143108363374,
	"loss": 0.0033,
	"step": 42000
	},
	{
	"epoch": 0.688,
	"grad_norm": 0.05806988850235939,
	"learning_rate": 0.00022742778973380755,
	"loss": 0.0039,
	"step": 43000
	},
	{
	"epoch": 0.704,
	"grad_norm": 0.022845715284347534,
	"learning_rate": 0.00022742414838398142,
	"loss": 0.0031,
	"step": 44000
	},
	{
	"epoch": 0.72,
	"grad_norm": 0.06443994492292404,
	"learning_rate": 0.00022742050703415524,
	"loss": 0.0027,
	"step": 45000
	},
	{
	"epoch": 0.72,
	"eval_loss": 0.002537691965699196,
	"eval_runtime": 27.3857,
	"eval_samples_per_second": 36.515,
	"eval_steps_per_second": 4.564,
	"step": 45000
	},
	{
	"epoch": 0.736,
	"grad_norm": 0.1143941730260849,
	"learning_rate": 0.0002274168656843291,
	"loss": 0.0034,
	"step": 46000
	},
	{
	"epoch": 0.752,
	"grad_norm": 0.04524613544344902,
	"learning_rate": 0.00022741322433450292,
	"loss": 0.0034,
	"step": 47000
	},
	{
	"epoch": 0.768,
	"grad_norm": 0.027965977787971497,
	"learning_rate": 0.00022740958298467676,
	"loss": 0.0031,
	"step": 48000
	},
	{
	"epoch": 0.784,
	"grad_norm": 0.033201005309820175,
	"learning_rate": 0.0002274059416348506,
	"loss": 0.0032,
	"step": 49000
	},
	{
	"epoch": 0.8,
	"grad_norm": 0.11329031735658646,
	"learning_rate": 0.00022740230028502444,
	"loss": 0.0034,
	"step": 50000
	},
	{
	"epoch": 0.8,
	"eval_loss": 0.00293481582775712,
	"eval_runtime": 27.0954,
	"eval_samples_per_second": 36.907,
	"eval_steps_per_second": 4.613,
	"step": 50000
	},
	{
	"epoch": 0.816,
	"grad_norm": 0.08998037129640579,
	"learning_rate": 0.00022739865893519828,
	"loss": 0.003,
	"step": 51000
	},
	{
	"epoch": 0.832,
	"grad_norm": 0.034506551921367645,
	"learning_rate": 0.00022739501758537212,
	"loss": 0.0039,
	"step": 52000
	},
	{
	"epoch": 0.848,
	"grad_norm": 0.10205531865358353,
	"learning_rate": 0.00022739137623554596,
	"loss": 0.0031,
	"step": 53000
	},
	{
	"epoch": 0.864,
	"grad_norm": 0.016757190227508545,
	"learning_rate": 0.0002273877348857198,
	"loss": 0.0024,
	"step": 54000
	},
	{
	"epoch": 0.88,
	"grad_norm": 0.038212958723306656,
	"learning_rate": 0.00022738409353589365,
	"loss": 0.0035,
	"step": 55000
	},
	{
	"epoch": 0.88,
	"eval_loss": 0.003101126756519079,
	"eval_runtime": 27.2079,
	"eval_samples_per_second": 36.754,
	"eval_steps_per_second": 4.594,
	"step": 55000
	},
	{
	"epoch": 0.896,
	"grad_norm": 0.20447635650634766,
	"learning_rate": 0.0002273804521860675,
	"loss": 0.0029,
	"step": 56000
	},
	{
	"epoch": 0.912,
	"grad_norm": 0.029786735773086548,
	"learning_rate": 0.00022737681083624133,
	"loss": 0.0028,
	"step": 57000
	},
	{
	"epoch": 0.928,
	"grad_norm": 0.1717972755432129,
	"learning_rate": 0.00022737316948641517,
	"loss": 0.0035,
	"step": 58000
	},
	{
	"epoch": 0.944,
	"grad_norm": 0.051670778542757034,
	"learning_rate": 0.000227369528136589,
	"loss": 0.0026,
	"step": 59000
	},
	{
	"epoch": 0.96,
	"grad_norm": 0.18315136432647705,
	"learning_rate": 0.00022736588678676285,
	"loss": 0.0021,
	"step": 60000
	},
	{
	"epoch": 0.96,
	"eval_loss": 0.0022276523523032665,
	"eval_runtime": 27.2912,
	"eval_samples_per_second": 36.642,
	"eval_steps_per_second": 4.58,
	"step": 60000
	},
	{
	"epoch": 0.976,
	"grad_norm": 0.2137993574142456,
	"learning_rate": 0.0002273622454369367,
	"loss": 0.0031,
	"step": 61000
	},
	{
	"epoch": 0.992,
	"grad_norm": 0.02584846317768097,
	"learning_rate": 0.00022735860408711053,
	"loss": 0.0033,
	"step": 62000
	},
	{
	"epoch": 1.008,
	"grad_norm": 0.054690442979335785,
	"learning_rate": 0.00022735496273728438,
	"loss": 0.0024,
	"step": 63000
	},
	{
	"epoch": 1.024,
	"grad_norm": 0.01702144928276539,
	"learning_rate": 0.00022735132138745822,
	"loss": 0.0032,
	"step": 64000
	},
	{
	"epoch": 1.04,
	"grad_norm": 0.02373000793159008,
	"learning_rate": 0.00022734768003763206,
	"loss": 0.0032,
	"step": 65000
	},
	{
	"epoch": 1.04,
	"eval_loss": 0.0020411296281963587,
	"eval_runtime": 27.2492,
	"eval_samples_per_second": 36.698,
	"eval_steps_per_second": 4.587,
	"step": 65000
	},
	{
	"epoch": 1.056,
	"grad_norm": 0.012987160123884678,
	"learning_rate": 0.0002273440386878059,
	"loss": 0.002,
	"step": 66000
	},
	{
	"epoch": 1.072,
	"grad_norm": 0.029065946117043495,
	"learning_rate": 0.0002273403973379797,
	"loss": 0.0031,
	"step": 67000
	},
	{
	"epoch": 1.088,
	"grad_norm": 0.17107020318508148,
	"learning_rate": 0.00022733675598815358,
	"loss": 0.0022,
	"step": 68000
	},
	{
	"epoch": 1.104,
	"grad_norm": 0.019081389531493187,
	"learning_rate": 0.0002273331146383274,
	"loss": 0.0031,
	"step": 69000
	},
	{
	"epoch": 1.12,
	"grad_norm": 0.008192900568246841,
	"learning_rate": 0.00022732947328850126,
	"loss": 0.0022,
	"step": 70000
	},
	{
	"epoch": 1.12,
	"eval_loss": 0.0018265106482431293,
	"eval_runtime": 27.5029,
	"eval_samples_per_second": 36.36,
	"eval_steps_per_second": 4.545,
	"step": 70000
	},
	{
	"epoch": 1.1360000000000001,
	"grad_norm": 0.009845556691288948,
	"learning_rate": 0.00022732583193867508,
	"loss": 0.0033,
	"step": 71000
	},
	{
	"epoch": 1.152,
	"grad_norm": 0.1637999713420868,
	"learning_rate": 0.00022732219058884895,
	"loss": 0.0024,
	"step": 72000
	},
	{
	"epoch": 1.168,
	"grad_norm": 0.03215477615594864,
	"learning_rate": 0.00022731854923902276,
	"loss": 0.0026,
	"step": 73000
	},
	{
	"epoch": 1.184,
	"grad_norm": 0.028977178037166595,
	"learning_rate": 0.00022731490788919663,
	"loss": 0.0023,
	"step": 74000
	},
	{
	"epoch": 1.2,
	"grad_norm": 0.057766951620578766,
	"learning_rate": 0.00022731126653937044,
	"loss": 0.0034,
	"step": 75000
	},
	{
	"epoch": 1.2,
	"eval_loss": 0.0021767348516732454,
	"eval_runtime": 27.526,
	"eval_samples_per_second": 36.329,
	"eval_steps_per_second": 4.541,
	"step": 75000
	},
	{
	"epoch": 1.216,
	"grad_norm": 0.00946386530995369,
	"learning_rate": 0.0002273076251895443,
	"loss": 0.0021,
	"step": 76000
	},
	{
	"epoch": 1.232,
	"grad_norm": 0.12553413212299347,
	"learning_rate": 0.00022730398383971812,
	"loss": 0.0019,
	"step": 77000
	},
	{
	"epoch": 1.248,
	"grad_norm": 0.0369916595518589,
	"learning_rate": 0.000227300342489892,
	"loss": 0.003,
	"step": 78000
	},
	{
	"epoch": 1.264,
	"grad_norm": 0.19732122123241425,
	"learning_rate": 0.0002272967011400658,
	"loss": 0.0024,
	"step": 79000
	},
	{
	"epoch": 1.28,
	"grad_norm": 0.02471228875219822,
	"learning_rate": 0.00022729305979023967,
	"loss": 0.0024,
	"step": 80000
	},
	{
	"epoch": 1.28,
	"eval_loss": 0.002593559678643942,
	"eval_runtime": 27.2923,
	"eval_samples_per_second": 36.64,
	"eval_steps_per_second": 4.58,
	"step": 80000
	},
	{
	"epoch": 1.296,
	"grad_norm": 0.5299795269966125,
	"learning_rate": 0.0002272894184404135,
	"loss": 0.0019,
	"step": 81000
	},
	{
	"epoch": 1.312,
	"grad_norm": 0.03472663834691048,
	"learning_rate": 0.00022728577709058736,
	"loss": 0.003,
	"step": 82000
	},
	{
	"epoch": 1.328,
	"grad_norm": 0.09357739239931107,
	"learning_rate": 0.00022728213574076117,
	"loss": 0.0022,
	"step": 83000
	},
	{
	"epoch": 1.3439999999999999,
	"grad_norm": 0.01810472272336483,
	"learning_rate": 0.00022727849439093504,
	"loss": 0.0019,
	"step": 84000
	},
	{
	"epoch": 1.3599999999999999,
	"grad_norm": 0.024920647963881493,
	"learning_rate": 0.00022727485304110885,
	"loss": 0.0021,
	"step": 85000
	},
	{
	"epoch": 1.3599999999999999,
	"eval_loss": 0.0022232765331864357,
	"eval_runtime": 27.3645,
	"eval_samples_per_second": 36.544,
	"eval_steps_per_second": 4.568,
	"step": 85000
	},
	{
	"epoch": 1.376,
	"grad_norm": 0.03085111826658249,
	"learning_rate": 0.00022727121169128272,
	"loss": 0.0023,
	"step": 86000
	},
	{
	"epoch": 1.392,
	"grad_norm": 0.010742255486547947,
	"learning_rate": 0.00022726757034145654,
	"loss": 0.0019,
	"step": 87000
	},
	{
	"epoch": 1.408,
	"grad_norm": 0.03559265285730362,
	"learning_rate": 0.00022726392899163038,
	"loss": 0.0022,
	"step": 88000
	},
	{
	"epoch": 1.424,
	"grad_norm": 0.0898701399564743,
	"learning_rate": 0.00022726028764180422,
	"loss": 0.0028,
	"step": 89000
	},
	{
	"epoch": 1.44,
	"grad_norm": 0.026589710265398026,
	"learning_rate": 0.00022725664629197806,
	"loss": 0.0016,
	"step": 90000
	},
	{
	"epoch": 1.44,
	"eval_loss": 0.00150102109182626,
	"eval_runtime": 27.6944,
	"eval_samples_per_second": 36.108,
	"eval_steps_per_second": 4.514,
	"step": 90000
	},
	{
	"epoch": 1.456,
	"grad_norm": 0.016303159296512604,
	"learning_rate": 0.0002272530049421519,
	"loss": 0.0024,
	"step": 91000
	},
	{
	"epoch": 1.472,
	"grad_norm": 0.01823027804493904,
	"learning_rate": 0.00022724936359232574,
	"loss": 0.0018,
	"step": 92000
	},
	{
	"epoch": 1.488,
	"grad_norm": 0.15236489474773407,
	"learning_rate": 0.00022724572224249958,
	"loss": 0.0024,
	"step": 93000
	},
	{
	"epoch": 1.504,
	"grad_norm": 0.03902558609843254,
	"learning_rate": 0.00022724208089267342,
	"loss": 0.0021,
	"step": 94000
	},
	{
	"epoch": 1.52,
	"grad_norm": 0.020767396315932274,
	"learning_rate": 0.00022723843954284726,
	"loss": 0.002,
	"step": 95000
	},
	{
	"epoch": 1.52,
	"eval_loss": 0.001406910945661366,
	"eval_runtime": 27.6364,
	"eval_samples_per_second": 36.184,
	"eval_steps_per_second": 4.523,
	"step": 95000
	},
	{
	"epoch": 1.536,
	"grad_norm": 0.09269700944423676,
	"learning_rate": 0.0002272347981930211,
	"loss": 0.0023,
	"step": 96000
	},
	{
	"epoch": 1.552,
	"grad_norm": 0.04058321192860603,
	"learning_rate": 0.00022723115684319495,
	"loss": 0.0019,
	"step": 97000
	},
	{
	"epoch": 1.568,
	"grad_norm": 0.04894057661294937,
	"learning_rate": 0.0002272275154933688,
	"loss": 0.0018,
	"step": 98000
	},
	{
	"epoch": 1.584,
	"grad_norm": 0.04043205827474594,
	"learning_rate": 0.00022722387414354263,
	"loss": 0.0022,
	"step": 99000
	},
	{
	"epoch": 1.6,
	"grad_norm": 0.1002797931432724,
	"learning_rate": 0.00022722023279371647,
	"loss": 0.002,
	"step": 100000
	},
	{
	"epoch": 1.6,
	"eval_loss": 0.0017908032750710845,
	"eval_runtime": 27.5843,
	"eval_samples_per_second": 36.253,
	"eval_steps_per_second": 4.532,
	"step": 100000
	},
	{
	"epoch": 1.616,
	"grad_norm": 0.02161436155438423,
	"learning_rate": 0.0002272165914438903,
	"loss": 0.0018,
	"step": 101000
	},
	{
	"epoch": 1.6320000000000001,
	"grad_norm": 0.010246573947370052,
	"learning_rate": 0.00022721295009406415,
	"loss": 0.002,
	"step": 102000
	},
	{
	"epoch": 1.6480000000000001,
	"grad_norm": 0.06802576035261154,
	"learning_rate": 0.000227209308744238,
	"loss": 0.0015,
	"step": 103000
	},
	{
	"epoch": 1.6640000000000001,
	"grad_norm": 0.013391965068876743,
	"learning_rate": 0.00022720566739441183,
	"loss": 0.0025,
	"step": 104000
	},
	{
	"epoch": 1.6800000000000002,
	"grad_norm": 0.10946637392044067,
	"learning_rate": 0.00022720202604458568,
	"loss": 0.0018,
	"step": 105000
	},
	{
	"epoch": 1.6800000000000002,
	"eval_loss": 0.0015562042826786637,
	"eval_runtime": 27.7549,
	"eval_samples_per_second": 36.03,
	"eval_steps_per_second": 4.504,
	"step": 105000
	},
	{
	"epoch": 1.696,
	"grad_norm": 0.028942033648490906,
	"learning_rate": 0.00022719838469475952,
	"loss": 0.002,
	"step": 106000
	},
	{
	"epoch": 1.712,
	"grad_norm": 0.023039843887090683,
	"learning_rate": 0.00022719474334493333,
	"loss": 0.0014,
	"step": 107000
	},
	{
	"epoch": 1.728,
	"grad_norm": 0.010488491505384445,
	"learning_rate": 0.0002271911019951072,
	"loss": 0.0016,
	"step": 108000
	},
	{
	"epoch": 1.744,
	"grad_norm": 0.019485417753458023,
	"learning_rate": 0.000227187460645281,
	"loss": 0.002,
	"step": 109000
	},
	{
	"epoch": 1.76,
	"grad_norm": 0.010597913525998592,
	"learning_rate": 0.00022718381929545488,
	"loss": 0.002,
	"step": 110000
	},
	{
	"epoch": 1.76,
	"eval_loss": 0.000878525257576257,
	"eval_runtime": 27.823,
	"eval_samples_per_second": 35.941,
	"eval_steps_per_second": 4.493,
	"step": 110000
	},
	{
	"epoch": 1.776,
	"grad_norm": 0.02870281971991062,
	"learning_rate": 0.0002271801779456287,
	"loss": 0.0023,
	"step": 111000
	},
	{
	"epoch": 1.792,
	"grad_norm": 0.041255537420511246,
	"learning_rate": 0.00022717653659580256,
	"loss": 0.0014,
	"step": 112000
	},
	{
	"epoch": 1.808,
	"grad_norm": 0.04701690748333931,
	"learning_rate": 0.00022717289524597638,
	"loss": 0.0015,
	"step": 113000
	},
	{
	"epoch": 1.8239999999999998,
	"grad_norm": 0.059342917054891586,
	"learning_rate": 0.00022716925389615024,
	"loss": 0.0028,
	"step": 114000
	},
	{
	"epoch": 1.8399999999999999,
	"grad_norm": 0.040327928960323334,
	"learning_rate": 0.00022716561254632406,
	"loss": 0.0014,
	"step": 115000
	},
	{
	"epoch": 1.8399999999999999,
	"eval_loss": 0.0016007705125957727,
	"eval_runtime": 27.7178,
	"eval_samples_per_second": 36.078,
	"eval_steps_per_second": 4.51,
	"step": 115000
	},
	{
	"epoch": 1.8559999999999999,
	"grad_norm": 0.018858684226870537,
	"learning_rate": 0.00022716197119649793,
	"loss": 0.002,
	"step": 116000
	},
	{
	"epoch": 1.8719999999999999,
	"grad_norm": 0.026660999283194542,
	"learning_rate": 0.00022715832984667174,
	"loss": 0.0019,
	"step": 117000
	},
	{
	"epoch": 1.888,
	"grad_norm": 0.08471547812223434,
	"learning_rate": 0.0002271546884968456,
	"loss": 0.0016,
	"step": 118000
	},
	{
	"epoch": 1.904,
	"grad_norm": 0.03236541524529457,
	"learning_rate": 0.00022715104714701942,
	"loss": 0.0014,
	"step": 119000
	},
	{
	"epoch": 1.92,
	"grad_norm": 0.015728328377008438,
	"learning_rate": 0.0002271474057971933,
	"loss": 0.0022,
	"step": 120000
	},
	{
	"epoch": 1.92,
	"eval_loss": 0.0017823727102950215,
	"eval_runtime": 27.6601,
	"eval_samples_per_second": 36.153,
	"eval_steps_per_second": 4.519,
	"step": 120000
	},
	{
	"epoch": 1.936,
	"grad_norm": 0.2575147747993469,
	"learning_rate": 0.0002271437644473671,
	"loss": 0.0015,
	"step": 121000
	},
	{
	"epoch": 1.952,
	"grad_norm": 0.03020591102540493,
	"learning_rate": 0.00022714012309754097,
	"loss": 0.0015,
	"step": 122000
	},
	{
	"epoch": 1.968,
	"grad_norm": 0.011387010104954243,
	"learning_rate": 0.0002271364817477148,
	"loss": 0.0015,
	"step": 123000
	},
	{
	"epoch": 1.984,
	"grad_norm": 0.033326998353004456,
	"learning_rate": 0.00022713284039788866,
	"loss": 0.0019,
	"step": 124000
	},
	{
	"epoch": 2.0,
	"grad_norm": 0.234897643327713,
	"learning_rate": 0.00022712919904806247,
	"loss": 0.0029,
	"step": 125000
	},
	{
	"epoch": 2.0,
	"eval_loss": 0.00910487212240696,
	"eval_runtime": 27.7906,
	"eval_samples_per_second": 35.983,
	"eval_steps_per_second": 4.498,
	"step": 125000
	},
	{
	"epoch": 2.016,
	"grad_norm": 0.05067163705825806,
	"learning_rate": 0.0002271255576982363,
	"loss": 0.0019,
	"step": 126000
	},
	{
	"epoch": 2.032,
	"grad_norm": 0.015078851021826267,
	"learning_rate": 0.00022712191634841015,
	"loss": 0.0012,
	"step": 127000
	},
	{
	"epoch": 2.048,
	"grad_norm": 0.03365013748407364,
	"learning_rate": 0.000227118274998584,
	"loss": 0.0018,
	"step": 128000
	},
	{
	"epoch": 2.064,
	"grad_norm": 0.00802704505622387,
	"learning_rate": 0.00022711463364875783,
	"loss": 0.0013,
	"step": 129000
	},
	{
	"epoch": 2.08,
	"grad_norm": 0.011523068882524967,
	"learning_rate": 0.00022711099229893168,
	"loss": 0.0021,
	"step": 130000
	},
	{
	"epoch": 2.08,
	"eval_loss": 0.0009301243117079139,
	"eval_runtime": 27.505,
	"eval_samples_per_second": 36.357,
	"eval_steps_per_second": 4.545,
	"step": 130000
	},
	{
	"epoch": 2.096,
	"grad_norm": 0.012680677697062492,
	"learning_rate": 0.00022710735094910552,
	"loss": 0.0014,
	"step": 131000
	},
	{
	"epoch": 2.112,
	"grad_norm": 0.0508689247071743,
	"learning_rate": 0.00022710370959927936,
	"loss": 0.002,
	"step": 132000
	},
	{
	"epoch": 2.128,
	"grad_norm": 0.014830244705080986,
	"learning_rate": 0.0002271000682494532,
	"loss": 0.001,
	"step": 133000
	},
	{
	"epoch": 2.144,
	"grad_norm": 0.028912167996168137,
	"learning_rate": 0.00022709642689962704,
	"loss": 0.0019,
	"step": 134000
	},
	{
	"epoch": 2.16,
	"grad_norm": 0.06254349648952484,
	"learning_rate": 0.00022709278554980088,
	"loss": 0.0012,
	"step": 135000
	},
	{
	"epoch": 2.16,
	"eval_loss": 0.0014802517835050821,
	"eval_runtime": 27.695,
	"eval_samples_per_second": 36.108,
	"eval_steps_per_second": 4.513,
	"step": 135000
	},
	{
	"epoch": 2.176,
	"grad_norm": 0.01877821609377861,
	"learning_rate": 0.00022708914419997472,
	"loss": 0.0015,
	"step": 136000
	},
	{
	"epoch": 2.192,
	"grad_norm": 0.18786460161209106,
	"learning_rate": 0.00022708550285014856,
	"loss": 0.0018,
	"step": 137000
	},
	{
	"epoch": 2.208,
	"grad_norm": 0.016280388459563255,
	"learning_rate": 0.0002270818615003224,
	"loss": 0.0015,
	"step": 138000
	},
	{
	"epoch": 2.224,
	"grad_norm": 0.009028231725096703,
	"learning_rate": 0.00022707822015049625,
	"loss": 0.0022,
	"step": 139000
	},
	{
	"epoch": 2.24,
	"grad_norm": 0.02473852038383484,
	"learning_rate": 0.0002270745788006701,
	"loss": 0.0011,
	"step": 140000
	},
	{
	"epoch": 2.24,
	"eval_loss": 0.0011171329533681273,
	"eval_runtime": 27.6717,
	"eval_samples_per_second": 36.138,
	"eval_steps_per_second": 4.517,
	"step": 140000
	},
	{
	"epoch": 2.2560000000000002,
	"grad_norm": 0.015900999307632446,
	"learning_rate": 0.00022707093745084393,
	"loss": 0.0015,
	"step": 141000
	},
	{
	"epoch": 2.2720000000000002,
	"grad_norm": 0.018436668440699577,
	"learning_rate": 0.00022706729610101774,
	"loss": 0.0015,
	"step": 142000
	},
	{
	"epoch": 2.288,
	"grad_norm": 0.268839567899704,
	"learning_rate": 0.0002270636547511916,
	"loss": 0.0013,
	"step": 143000
	},
	{
	"epoch": 2.304,
	"grad_norm": 0.024980826303362846,
	"learning_rate": 0.00022706001340136542,
	"loss": 0.0017,
	"step": 144000
	},
	{
	"epoch": 2.32,
	"grad_norm": 0.025631515309214592,
	"learning_rate": 0.00022705637205153926,
	"loss": 0.0009,
	"step": 145000
	},
	{
	"epoch": 2.32,
	"eval_loss": 0.0012023365125060081,
	"eval_runtime": 27.5991,
	"eval_samples_per_second": 36.233,
	"eval_steps_per_second": 4.529,
	"step": 145000
	},
	{
	"epoch": 2.336,
	"grad_norm": 0.010165953077375889,
	"learning_rate": 0.0002270527307017131,
	"loss": 0.0018,
	"step": 146000
	},
	{
	"epoch": 2.352,
	"grad_norm": 0.012398986145853996,
	"learning_rate": 0.00022704908935188695,
	"loss": 0.001,
	"step": 147000
	},
	{
	"epoch": 2.368,
	"grad_norm": 0.02246440201997757,
	"learning_rate": 0.0002270454480020608,
	"loss": 0.0025,
	"step": 148000
	},
	{
	"epoch": 2.384,
	"grad_norm": 0.018412381410598755,
	"learning_rate": 0.00022704180665223463,
	"loss": 0.0008,
	"step": 149000
	},
	{
	"epoch": 2.4,
	"grad_norm": 0.025599336251616478,
	"learning_rate": 0.00022703816530240847,
	"loss": 0.0025,
	"step": 150000
	},
	{
	"epoch": 2.4,
	"eval_loss": 0.000995820271782577,
	"eval_runtime": 27.7548,
	"eval_samples_per_second": 36.03,
	"eval_steps_per_second": 4.504,
	"step": 150000
	},
	{
	"epoch": 2.416,
	"grad_norm": 0.03476562350988388,
	"learning_rate": 0.0002270345239525823,
	"loss": 0.0016,
	"step": 151000
	},
	{
	"epoch": 2.432,
	"grad_norm": 0.002502072835341096,
	"learning_rate": 0.00022703088260275615,
	"loss": 0.001,
	"step": 152000
	},
	{
	"epoch": 2.448,
	"grad_norm": 0.09545526653528214,
	"learning_rate": 0.00022702724125293,
	"loss": 0.0019,
	"step": 153000
	},
	{
	"epoch": 2.464,
	"grad_norm": 0.026374874636530876,
	"learning_rate": 0.00022702359990310383,
	"loss": 0.0027,
	"step": 154000
	},
	{
	"epoch": 2.48,
	"grad_norm": 0.02330603636801243,
	"learning_rate": 0.00022701995855327768,
	"loss": 0.0013,
	"step": 155000
	},
	{
	"epoch": 2.48,
	"eval_loss": 0.0009146310039795935,
	"eval_runtime": 27.6699,
	"eval_samples_per_second": 36.14,
	"eval_steps_per_second": 4.518,
	"step": 155000
	},
	{
	"epoch": 2.496,
	"grad_norm": 0.042115718126297,
	"learning_rate": 0.00022701631720345152,
	"loss": 0.001,
	"step": 156000
	},
	{
	"epoch": 2.512,
	"grad_norm": 0.006467332132160664,
	"learning_rate": 0.00022701267585362536,
	"loss": 0.0013,
	"step": 157000
	},
	{
	"epoch": 2.528,
	"grad_norm": 0.039700523018836975,
	"learning_rate": 0.0002270090345037992,
	"loss": 0.0012,
	"step": 158000
	},
	{
	"epoch": 2.544,
	"grad_norm": 0.006177098024636507,
	"learning_rate": 0.00022700539315397304,
	"loss": 0.0032,
	"step": 159000
	},
	{
	"epoch": 2.56,
	"grad_norm": 0.016644610092043877,
	"learning_rate": 0.00022700175180414688,
	"loss": 0.0007,
	"step": 160000
	},
	{
	"epoch": 2.56,
	"eval_loss": 0.0010344331385567784,
	"eval_runtime": 27.8065,
	"eval_samples_per_second": 35.963,
	"eval_steps_per_second": 4.495,
	"step": 160000
	},
	{
	"epoch": 2.576,
	"grad_norm": 0.01400495320558548,
	"learning_rate": 0.00022699811045432072,
	"loss": 0.0012,
	"step": 161000
	},
	{
	"epoch": 2.592,
	"grad_norm": 0.016703518107533455,
	"learning_rate": 0.00022699446910449456,
	"loss": 0.0012,
	"step": 162000
	},
	{
	"epoch": 2.608,
	"grad_norm": 0.006359017454087734,
	"learning_rate": 0.0002269908277546684,
	"loss": 0.0012,
	"step": 163000
	},
	{
	"epoch": 2.624,
	"grad_norm": 0.01771441660821438,
	"learning_rate": 0.00022698718640484222,
	"loss": 0.0016,
	"step": 164000
	},
	{
	"epoch": 2.64,
	"grad_norm": 0.01094936951994896,
	"learning_rate": 0.0002269835450550161,
	"loss": 0.0011,
	"step": 165000
	},
	{
	"epoch": 2.64,
	"eval_loss": 0.0007599141681566834,
	"eval_runtime": 27.7146,
	"eval_samples_per_second": 36.082,
	"eval_steps_per_second": 4.51,
	"step": 165000
	},
	{
	"epoch": 2.656,
	"grad_norm": 0.09152177721261978,
	"learning_rate": 0.0002269799037051899,
	"loss": 0.0024,
	"step": 166000
	},
	{
	"epoch": 2.672,
	"grad_norm": 0.012105804868042469,
	"learning_rate": 0.00022697626235536377,
	"loss": 0.0009,
	"step": 167000
	},
	{
	"epoch": 2.6879999999999997,
	"grad_norm": 0.01530654076486826,
	"learning_rate": 0.00022697262100553758,
	"loss": 0.0011,
	"step": 168000
	},
	{
	"epoch": 2.7039999999999997,
	"grad_norm": 0.031053414568305016,
	"learning_rate": 0.00022696897965571145,
	"loss": 0.0015,
	"step": 169000
	},
	{
	"epoch": 2.7199999999999998,
	"grad_norm": 0.01557753887027502,
	"learning_rate": 0.00022696533830588527,
	"loss": 0.001,
	"step": 170000
	},
	{
	"epoch": 2.7199999999999998,
	"eval_loss": 0.0008088626782409847,
	"eval_runtime": 27.776,
	"eval_samples_per_second": 36.002,
	"eval_steps_per_second": 4.5,
	"step": 170000
	},
	{
	"epoch": 2.7359999999999998,
	"grad_norm": 0.02831295132637024,
	"learning_rate": 0.00022696169695605913,
	"loss": 0.0014,
	"step": 171000
	},
	{
	"epoch": 2.752,
	"grad_norm": 0.017672572284936905,
	"learning_rate": 0.00022695805560623295,
	"loss": 0.0011,
	"step": 172000
	},
	{
	"epoch": 2.768,
	"grad_norm": 0.018164193257689476,
	"learning_rate": 0.00022695441425640682,
	"loss": 0.0019,
	"step": 173000
	},
	{
	"epoch": 2.784,
	"grad_norm": 0.017383994534611702,
	"learning_rate": 0.00022695077290658063,
	"loss": 0.001,
	"step": 174000
	},
	{
	"epoch": 2.8,
	"grad_norm": 0.006576849147677422,
	"learning_rate": 0.0002269471315567545,
	"loss": 0.0011,
	"step": 175000
	},
	{
	"epoch": 2.8,
	"eval_loss": 0.0006260189693421125,
	"eval_runtime": 27.3919,
	"eval_samples_per_second": 36.507,
	"eval_steps_per_second": 4.563,
	"step": 175000
	},
	{
	"epoch": 2.816,
	"grad_norm": 0.019615883007645607,
	"learning_rate": 0.0002269434902069283,
	"loss": 0.0012,
	"step": 176000
	},
	{
	"epoch": 2.832,
	"grad_norm": 0.03926165774464607,
	"learning_rate": 0.00022693984885710218,
	"loss": 0.0014,
	"step": 177000
	},
	{
	"epoch": 2.848,
	"grad_norm": 0.021534917876124382,
	"learning_rate": 0.000226936207507276,
	"loss": 0.0012,
	"step": 178000
	},
	{
	"epoch": 2.864,
	"grad_norm": 0.04047563299536705,
	"learning_rate": 0.00022693256615744986,
	"loss": 0.001,
	"step": 179000
	},
	{
	"epoch": 2.88,
	"grad_norm": 0.04712160676717758,
	"learning_rate": 0.00022692892480762368,
	"loss": 0.0015,
	"step": 180000
	},
	{
	"epoch": 2.88,
	"eval_loss": 0.0013630291214212775,
	"eval_runtime": 27.4056,
	"eval_samples_per_second": 36.489,
	"eval_steps_per_second": 4.561,
	"step": 180000
	},
	{
	"epoch": 2.896,
	"grad_norm": 0.21584591269493103,
	"learning_rate": 0.00022692528345779754,
	"loss": 0.0019,
	"step": 181000
	},
	{
	"epoch": 2.912,
	"grad_norm": 0.015519549138844013,
	"learning_rate": 0.00022692164210797136,
	"loss": 0.0012,
	"step": 182000
	},
	{
	"epoch": 2.928,
	"grad_norm": 0.0314391665160656,
	"learning_rate": 0.00022691800075814523,
	"loss": 0.0009,
	"step": 183000
	},
	{
	"epoch": 2.944,
	"grad_norm": 0.16906876862049103,
	"learning_rate": 0.00022691435940831904,
	"loss": 0.0013,
	"step": 184000
	},
	{
	"epoch": 2.96,
	"grad_norm": 0.04538990557193756,
	"learning_rate": 0.00022691071805849288,
	"loss": 0.001,
	"step": 185000
	},
	{
	"epoch": 2.96,
	"eval_loss": 0.0014080323744565248,
	"eval_runtime": 27.3828,
	"eval_samples_per_second": 36.519,
	"eval_steps_per_second": 4.565,
	"step": 185000
	},
	{
	"epoch": 2.976,
	"grad_norm": 0.008023149333894253,
	"learning_rate": 0.00022690707670866672,
	"loss": 0.0013,
	"step": 186000
	},
	{
	"epoch": 2.992,
	"grad_norm": 0.011926773004233837,
	"learning_rate": 0.00022690343535884056,
	"loss": 0.0012,
	"step": 187000
	},
	{
	"epoch": 3.008,
	"grad_norm": 0.01701526716351509,
	"learning_rate": 0.0002268997940090144,
	"loss": 0.0011,
	"step": 188000
	},
	{
	"epoch": 3.024,
	"grad_norm": 0.015581037849187851,
	"learning_rate": 0.00022689615265918825,
	"loss": 0.0013,
	"step": 189000
	},
	{
	"epoch": 3.04,
	"grad_norm": 0.012046800926327705,
	"learning_rate": 0.0002268925113093621,
	"loss": 0.001,
	"step": 190000
	},
	{
	"epoch": 3.04,
	"eval_loss": 0.0010119588114321232,
	"eval_runtime": 27.6665,
	"eval_samples_per_second": 36.145,
	"eval_steps_per_second": 4.518,
	"step": 190000
	},
	{
	"epoch": 3.056,
	"grad_norm": 0.009263888001441956,
	"learning_rate": 0.00022688886995953593,
	"loss": 0.001,
	"step": 191000
	},
	{
	"epoch": 3.072,
	"grad_norm": 0.0538918599486351,
	"learning_rate": 0.00022688522860970977,
	"loss": 0.0012,
	"step": 192000
	},
	{
	"epoch": 3.088,
	"grad_norm": 0.0521121546626091,
	"learning_rate": 0.0002268815872598836,
	"loss": 0.0017,
	"step": 193000
	},
	{
	"epoch": 3.104,
	"grad_norm": 0.05000779777765274,
	"learning_rate": 0.00022687794591005745,
	"loss": 0.0008,
	"step": 194000
	},
	{
	"epoch": 3.12,
	"grad_norm": 0.06467895954847336,
	"learning_rate": 0.0002268743045602313,
	"loss": 0.0011,
	"step": 195000
	},
	{
	"epoch": 3.12,
	"eval_loss": 0.0008815609035082161,
	"eval_runtime": 27.5652,
	"eval_samples_per_second": 36.278,
	"eval_steps_per_second": 4.535,
	"step": 195000
	},
	{
	"epoch": 3.136,
	"grad_norm": 0.01422048918902874,
	"learning_rate": 0.00022687066321040513,
	"loss": 0.0011,
	"step": 196000
	},
	{
	"epoch": 3.152,
	"grad_norm": 0.02482694387435913,
	"learning_rate": 0.00022686702186057897,
	"loss": 0.0011,
	"step": 197000
	},
	{
	"epoch": 3.168,
	"grad_norm": 0.03517874330282211,
	"learning_rate": 0.00022686338051075282,
	"loss": 0.0017,
	"step": 198000
	},
	{
	"epoch": 3.184,
	"grad_norm": 0.027310600504279137,
	"learning_rate": 0.00022685973916092666,
	"loss": 0.0008,
	"step": 199000
	},
	{
	"epoch": 3.2,
	"grad_norm": 0.06521017849445343,
	"learning_rate": 0.0002268560978111005,
	"loss": 0.002,
	"step": 200000
	},
	{
	"epoch": 3.2,
	"eval_loss": 0.00754576688632369,
	"eval_runtime": 27.5143,
	"eval_samples_per_second": 36.345,
	"eval_steps_per_second": 4.543,
	"step": 200000
	},
	{
	"epoch": 3.216,
	"grad_norm": 0.24959920346736908,
	"learning_rate": 0.00022685245646127434,
	"loss": 0.0008,
	"step": 201000
	},
	{
	"epoch": 3.232,
	"grad_norm": 0.010456324554979801,
	"learning_rate": 0.00022684881511144818,
	"loss": 0.0011,
	"step": 202000
	},
	{
	"epoch": 3.248,
	"grad_norm": 0.010797294788062572,
	"learning_rate": 0.00022684517376162202,
	"loss": 0.0011,
	"step": 203000
	},
	{
	"epoch": 3.2640000000000002,
	"grad_norm": 0.04222773015499115,
	"learning_rate": 0.00022684153241179584,
	"loss": 0.001,
	"step": 204000
	},
	{
	"epoch": 3.2800000000000002,
	"grad_norm": 0.03277302905917168,
	"learning_rate": 0.0002268378910619697,
	"loss": 0.0015,
	"step": 205000
	},
	{
	"epoch": 3.2800000000000002,
	"eval_loss": 0.0007634469075128436,
	"eval_runtime": 27.7742,
	"eval_samples_per_second": 36.005,
	"eval_steps_per_second": 4.501,
	"step": 205000
	},
	{
	"epoch": 3.296,
	"grad_norm": 0.0069810631684958935,
	"learning_rate": 0.00022683424971214352,
	"loss": 0.001,
	"step": 206000
	},
	{
	"epoch": 3.312,
	"grad_norm": 0.01147681474685669,
	"learning_rate": 0.00022683060836231739,
	"loss": 0.0009,
	"step": 207000
	},
	{
	"epoch": 3.328,
	"grad_norm": 0.009766928851604462,
	"learning_rate": 0.0002268269670124912,
	"loss": 0.0019,
	"step": 208000
	},
	{
	"epoch": 3.344,
	"grad_norm": 0.03460145741701126,
	"learning_rate": 0.00022682332566266507,
	"loss": 0.0008,
	"step": 209000
	},
	{
	"epoch": 3.36,
	"grad_norm": 0.016247229650616646,
	"learning_rate": 0.00022681968431283888,
	"loss": 0.001,
	"step": 210000
	},
	{
	"epoch": 3.36,
	"eval_loss": 0.0010268606711179018,
	"eval_runtime": 26.9593,
	"eval_samples_per_second": 37.093,
	"eval_steps_per_second": 4.637,
	"step": 210000
	},
	{
	"epoch": 3.376,
	"grad_norm": 0.012766228057444096,
	"learning_rate": 0.00022681604296301275,
	"loss": 0.0008,
	"step": 211000
	},
	{
	"epoch": 3.392,
	"grad_norm": 0.005086794961243868,
	"learning_rate": 0.00022681240161318656,
	"loss": 0.0014,
	"step": 212000
	},
	{
	"epoch": 3.408,
	"grad_norm": 0.028264038264751434,
	"learning_rate": 0.00022680876026336043,
	"loss": 0.0011,
	"step": 213000
	},
	{
	"epoch": 3.424,
	"grad_norm": 0.05160939320921898,
	"learning_rate": 0.00022680511891353425,
	"loss": 0.0009,
	"step": 214000
	},
	{
	"epoch": 3.44,
	"grad_norm": 0.02259020321071148,
	"learning_rate": 0.00022680147756370811,
	"loss": 0.0012,
	"step": 215000
	},
	{
	"epoch": 3.44,
	"eval_loss": 0.0007602461846545339,
	"eval_runtime": 26.8881,
	"eval_samples_per_second": 37.191,
	"eval_steps_per_second": 4.649,
	"step": 215000
	},
	{
	"epoch": 3.456,
	"grad_norm": 0.03077981248497963,
	"learning_rate": 0.00022679783621388193,
	"loss": 0.0012,
	"step": 216000
	},
	{
	"epoch": 3.472,
	"grad_norm": 0.027997983619570732,
	"learning_rate": 0.0002267941948640558,
	"loss": 0.0008,
	"step": 217000
	},
	{
	"epoch": 3.488,
	"grad_norm": 0.009089149534702301,
	"learning_rate": 0.0002267905535142296,
	"loss": 0.0011,
	"step": 218000
	},
	{
	"epoch": 3.504,
	"grad_norm": 0.09043902903795242,
	"learning_rate": 0.00022678691216440348,
	"loss": 0.0011,
	"step": 219000
	},
	{
	"epoch": 3.52,
	"grad_norm": 0.06199198588728905,
	"learning_rate": 0.0002267832708145773,
	"loss": 0.0011,
	"step": 220000
	},
	{
	"epoch": 3.52,
	"eval_loss": 0.001106478739529848,
	"eval_runtime": 27.0055,
	"eval_samples_per_second": 37.029,
	"eval_steps_per_second": 4.629,
	"step": 220000
	},
	{
	"epoch": 3.536,
	"grad_norm": 0.013115255162119865,
	"learning_rate": 0.00022677962946475116,
	"loss": 0.0015,
	"step": 221000
	},
	{
	"epoch": 3.552,
	"grad_norm": 0.030206598341464996,
	"learning_rate": 0.00022677598811492498,
	"loss": 0.001,
	"step": 222000
	},
	{
	"epoch": 3.568,
	"grad_norm": 0.014335270039737225,
	"learning_rate": 0.00022677234676509882,
	"loss": 0.0008,
	"step": 223000
	},
	{
	"epoch": 3.584,
	"grad_norm": 0.04320364445447922,
	"learning_rate": 0.00022676870541527266,
	"loss": 0.001,
	"step": 224000
	},
	{
	"epoch": 3.6,
	"grad_norm": 0.01011396199464798,
	"learning_rate": 0.0002267650640654465,
	"loss": 0.0014,
	"step": 225000
	},
	{
	"epoch": 3.6,
	"eval_loss": 0.0008724904037080705,
	"eval_runtime": 26.7598,
	"eval_samples_per_second": 37.37,
	"eval_steps_per_second": 4.671,
	"step": 225000
	},
	{
	"epoch": 3.616,
	"grad_norm": 0.06343936175107956,
	"learning_rate": 0.00022676142271562034,
	"loss": 0.0009,
	"step": 226000
	},
	{
	"epoch": 3.632,
	"grad_norm": 0.04553668946027756,
	"learning_rate": 0.00022675778136579418,
	"loss": 0.001,
	"step": 227000
	},
	{
	"epoch": 3.648,
	"grad_norm": 0.0029150221962481737,
	"learning_rate": 0.00022675414001596802,
	"loss": 0.0018,
	"step": 228000
	},
	{
	"epoch": 3.664,
	"grad_norm": 0.03533324971795082,
	"learning_rate": 0.00022675049866614186,
	"loss": 0.0017,
	"step": 229000
	},
	{
	"epoch": 3.68,
	"grad_norm": 0.020134087651968002,
	"learning_rate": 0.0002267468573163157,
	"loss": 0.0013,
	"step": 230000
	},
	{
	"epoch": 3.68,
	"eval_loss": 0.001037033973261714,
	"eval_runtime": 27.1191,
	"eval_samples_per_second": 36.874,
	"eval_steps_per_second": 4.609,
	"step": 230000
	},
	{
	"epoch": 3.6959999999999997,
	"grad_norm": 0.01976308599114418,
	"learning_rate": 0.00022674321596648955,
	"loss": 0.0009,
	"step": 231000
	},
	{
	"epoch": 3.7119999999999997,
	"grad_norm": 0.05415629222989082,
	"learning_rate": 0.00022673957461666339,
	"loss": 0.0012,
	"step": 232000
	},
	{
	"epoch": 3.7279999999999998,
	"grad_norm": 0.020477378740906715,
	"learning_rate": 0.00022673593326683723,
	"loss": 0.001,
	"step": 233000
	},
	{
	"epoch": 3.7439999999999998,
	"grad_norm": 0.014153924770653248,
	"learning_rate": 0.00022673229191701107,
	"loss": 0.0017,
	"step": 234000
	},
	{
	"epoch": 3.76,
	"grad_norm": 0.02030963823199272,
	"learning_rate": 0.0002267286505671849,
	"loss": 0.0007,
	"step": 235000
	},
	{
	"epoch": 3.76,
	"eval_loss": 0.0007908450206741691,
	"eval_runtime": 27.0159,
	"eval_samples_per_second": 37.015,
	"eval_steps_per_second": 4.627,
	"step": 235000
	},
	{
	"epoch": 3.776,
	"grad_norm": 0.03953304514288902,
	"learning_rate": 0.00022672500921735875,
	"loss": 0.0008,
	"step": 236000
	},
	{
	"epoch": 3.792,
	"grad_norm": 0.007172519341111183,
	"learning_rate": 0.0002267213678675326,
	"loss": 0.0016,
	"step": 237000
	},
	{
	"epoch": 3.808,
	"grad_norm": 0.03694753348827362,
	"learning_rate": 0.00022671772651770643,
	"loss": 0.0008,
	"step": 238000
	},
	{
	"epoch": 3.824,
	"grad_norm": 0.04899757727980614,
	"learning_rate": 0.00022671408516788027,
	"loss": 0.0011,
	"step": 239000
	},
	{
	"epoch": 3.84,
	"grad_norm": 0.05499159172177315,
	"learning_rate": 0.00022671044381805412,
	"loss": 0.0013,
	"step": 240000
	},
	{
	"epoch": 3.84,
	"eval_loss": 0.0008275896543636918,
	"eval_runtime": 27.099,
	"eval_samples_per_second": 36.902,
	"eval_steps_per_second": 4.613,
	"step": 240000
	},
	{
	"epoch": 3.856,
	"grad_norm": 0.02498927153646946,
	"learning_rate": 0.00022670680246822796,
	"loss": 0.0008,
	"step": 241000
	},
	{
	"epoch": 3.872,
	"grad_norm": 0.02703891508281231,
	"learning_rate": 0.00022670316111840177,
	"loss": 0.0009,
	"step": 242000
	},
	{
	"epoch": 3.888,
	"grad_norm": 0.010871395468711853,
	"learning_rate": 0.00022669951976857564,
	"loss": 0.0009,
	"step": 243000
	},
	{
	"epoch": 3.904,
	"grad_norm": 0.006647611036896706,
	"learning_rate": 0.00022669587841874945,
	"loss": 0.0019,
	"step": 244000
	},
	{
	"epoch": 3.92,
	"grad_norm": 0.11232209205627441,
	"learning_rate": 0.00022669223706892332,
	"loss": 0.0006,
	"step": 245000
	},
	{
	"epoch": 3.92,
	"eval_loss": 0.004233696032315493,
	"eval_runtime": 27.2042,
	"eval_samples_per_second": 36.759,
	"eval_steps_per_second": 4.595,
	"step": 245000
	},
	{
	"epoch": 3.936,
	"grad_norm": 0.03585943579673767,
	"learning_rate": 0.00022668859571909713,
	"loss": 0.0012,
	"step": 246000
	},
	{
	"epoch": 3.952,
	"grad_norm": 0.028422392904758453,
	"learning_rate": 0.000226684954369271,
	"loss": 0.0009,
	"step": 247000
	},
	{
	"epoch": 3.968,
	"grad_norm": 0.029626131057739258,
	"learning_rate": 0.00022668131301944482,
	"loss": 0.0009,
	"step": 248000
	},
	{
	"epoch": 3.984,
	"grad_norm": 0.01423815730959177,
	"learning_rate": 0.00022667767166961866,
	"loss": 0.0011,
	"step": 249000
	},
	{
	"epoch": 4.0,
	"grad_norm": 0.028744470328092575,
	"learning_rate": 0.0002266740303197925,
	"loss": 0.0012,
	"step": 250000
	},
	{
	"epoch": 4.0,
	"eval_loss": 0.0009512793621979654,
	"eval_runtime": 27.0826,
	"eval_samples_per_second": 36.924,
	"eval_steps_per_second": 4.616,
	"step": 250000
	},
	{
	"epoch": 4.016,
	"grad_norm": 0.05679468810558319,
	"learning_rate": 0.00022667038896996634,
	"loss": 0.0008,
	"step": 251000
	},
	{
	"epoch": 4.032,
	"grad_norm": 0.01259209681302309,
	"learning_rate": 0.00022666674762014018,
	"loss": 0.0012,
	"step": 252000
	},
	{
	"epoch": 4.048,
	"grad_norm": 0.02058994211256504,
	"learning_rate": 0.00022666310627031402,
	"loss": 0.0007,
	"step": 253000
	},
	{
	"epoch": 4.064,
	"grad_norm": 0.028425488620996475,
	"learning_rate": 0.00022665946492048786,
	"loss": 0.0017,
	"step": 254000
	},
	{
	"epoch": 4.08,
	"grad_norm": 0.035576559603214264,
	"learning_rate": 0.0002266558235706617,
	"loss": 0.0008,
	"step": 255000
	},
	{
	"epoch": 4.08,
	"eval_loss": 0.0006453625974245369,
	"eval_runtime": 27.5028,
	"eval_samples_per_second": 36.36,
	"eval_steps_per_second": 4.545,
	"step": 255000
	}
	],
	"logging_steps": 1000,
	"max_steps": 62500000,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 1000,
	"save_steps": 5000,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": false
	},
	"attributes": {}
	}
	},
	"total_flos": 1.9094798804101104e+19,
	"train_batch_size": 4,
	"trial_name": null,
	"trial_params": null
	}