End of training

Browse files

Files changed (5) hide show

README.md +14 -2
all_results.json +17 -0
eval_results.json +12 -0
train_results.json +8 -0
trainer_state.json +286 -0

README.md CHANGED Viewed

@@ -3,11 +3,23 @@ license: llama2
 base_model: meta-llama/Llama-2-7b-chat-hf
 tags:
 - generated_from_trainer
 metrics:
 - accuracy
 model-index:
 - name: lmind_nq_train6000_eval6489_v1_qa_meta-llama_Llama-2-7b-chat-hf_lora2
-  results: []
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
@@ -15,7 +27,7 @@ should probably proofread and complete it, then remove this comment. -->
 # lmind_nq_train6000_eval6489_v1_qa_meta-llama_Llama-2-7b-chat-hf_lora2
-This model is a fine-tuned version of [meta-llama/Llama-2-7b-chat-hf](https://huggingface.co/meta-llama/Llama-2-7b-chat-hf) on an unknown dataset.
 It achieves the following results on the evaluation set:
 - Loss: 1.9837
 - Accuracy: 0.5974

 base_model: meta-llama/Llama-2-7b-chat-hf
 tags:
 - generated_from_trainer
+datasets:
+- tyzhu/lmind_nq_train6000_eval6489_v1_qa
 metrics:
 - accuracy
 model-index:
 - name: lmind_nq_train6000_eval6489_v1_qa_meta-llama_Llama-2-7b-chat-hf_lora2
+  results:
+  - task:
+      name: Causal Language Modeling
+      type: text-generation
+    dataset:
+      name: tyzhu/lmind_nq_train6000_eval6489_v1_qa
+      type: tyzhu/lmind_nq_train6000_eval6489_v1_qa
+    metrics:
+    - name: Accuracy
+      type: accuracy
+      value: 0.5974358974358974
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
 # lmind_nq_train6000_eval6489_v1_qa_meta-llama_Llama-2-7b-chat-hf_lora2
+This model is a fine-tuned version of [meta-llama/Llama-2-7b-chat-hf](https://huggingface.co/meta-llama/Llama-2-7b-chat-hf) on the tyzhu/lmind_nq_train6000_eval6489_v1_qa dataset.
 It achieves the following results on the evaluation set:
 - Loss: 1.9837
 - Accuracy: 0.5974

all_results.json ADDED Viewed

	@@ -0,0 +1,17 @@

+{
+    "epoch": 9.97,
+    "eval_accuracy": 0.5974358974358974,
+    "eval_exact_match": 19.679457543535214,
+    "eval_f1": 29.775983421383447,
+    "eval_loss": 1.983661413192749,
+    "eval_runtime": 22.4329,
+    "eval_samples": 500,
+    "eval_samples_per_second": 22.289,
+    "eval_steps_per_second": 2.808,
+    "perplexity": 7.269310267096902,
+    "train_loss": 0.7651688315651634,
+    "train_runtime": 8236.7348,
+    "train_samples": 6000,
+    "train_samples_per_second": 7.284,
+    "train_steps_per_second": 0.227
+}

eval_results.json ADDED Viewed

	@@ -0,0 +1,12 @@

+{
+    "epoch": 9.97,
+    "eval_accuracy": 0.5974358974358974,
+    "eval_exact_match": 19.679457543535214,
+    "eval_f1": 29.775983421383447,
+    "eval_loss": 1.983661413192749,
+    "eval_runtime": 22.4329,
+    "eval_samples": 500,
+    "eval_samples_per_second": 22.289,
+    "eval_steps_per_second": 2.808,
+    "perplexity": 7.269310267096902
+}

train_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 9.97,
+    "train_loss": 0.7651688315651634,
+    "train_runtime": 8236.7348,
+    "train_samples": 6000,
+    "train_samples_per_second": 7.284,
+    "train_steps_per_second": 0.227
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,286 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 9.973333333333333,
+  "eval_steps": 500,
+  "global_step": 1870,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.53,
+      "learning_rate": 0.0001,
+      "loss": 1.8687,
+      "step": 100
+    },
+    {
+      "epoch": 1.0,
+      "eval_accuracy": 0.6108717948717949,
+      "eval_loss": 1.3244799375534058,
+      "eval_runtime": 22.579,
+      "eval_samples_per_second": 22.144,
+      "eval_steps_per_second": 2.79,
+      "step": 187
+    },
+    {
+      "epoch": 1.0,
+      "eval_exact_match": 23.932809369702575,
+      "eval_f1": 36.00954840437054,
+      "step": 187
+    },
+    {
+      "epoch": 1.07,
+      "learning_rate": 0.0001,
+      "loss": 1.3265,
+      "step": 200
+    },
+    {
+      "epoch": 1.6,
+      "learning_rate": 0.0001,
+      "loss": 1.2052,
+      "step": 300
+    },
+    {
+      "epoch": 2.0,
+      "eval_accuracy": 0.6130769230769231,
+      "eval_loss": 1.3271442651748657,
+      "eval_runtime": 22.6316,
+      "eval_samples_per_second": 22.093,
+      "eval_steps_per_second": 2.784,
+      "step": 375
+    },
+    {
+      "epoch": 2.0,
+      "eval_exact_match": 24.056094929881336,
+      "eval_f1": 36.18843477373312,
+      "step": 375
+    },
+    {
+      "epoch": 2.13,
+      "learning_rate": 0.0001,
+      "loss": 1.1463,
+      "step": 400
+    },
+    {
+      "epoch": 2.67,
+      "learning_rate": 0.0001,
+      "loss": 0.9568,
+      "step": 500
+    },
+    {
+      "epoch": 3.0,
+      "eval_accuracy": 0.6095384615384616,
+      "eval_loss": 1.4014495611190796,
+      "eval_runtime": 22.6496,
+      "eval_samples_per_second": 22.075,
+      "eval_steps_per_second": 2.782,
+      "step": 562
+    },
+    {
+      "epoch": 3.0,
+      "eval_exact_match": 22.91570349822777,
+      "eval_f1": 34.125024561917876,
+      "step": 562
+    },
+    {
+      "epoch": 3.2,
+      "learning_rate": 0.0001,
+      "loss": 0.8967,
+      "step": 600
+    },
+    {
+      "epoch": 3.73,
+      "learning_rate": 0.0001,
+      "loss": 0.7696,
+      "step": 700
+    },
+    {
+      "epoch": 4.0,
+      "eval_accuracy": 0.6053846153846154,
+      "eval_loss": 1.519474744796753,
+      "eval_runtime": 22.6241,
+      "eval_samples_per_second": 22.1,
+      "eval_steps_per_second": 2.785,
+      "step": 750
+    },
+    {
+      "epoch": 4.0,
+      "eval_exact_match": 21.189705655725074,
+      "eval_f1": 32.82044328507591,
+      "step": 750
+    },
+    {
+      "epoch": 4.27,
+      "learning_rate": 0.0001,
+      "loss": 0.6961,
+      "step": 800
+    },
+    {
+      "epoch": 4.8,
+      "learning_rate": 0.0001,
+      "loss": 0.6348,
+      "step": 900
+    },
+    {
+      "epoch": 5.0,
+      "eval_accuracy": 0.6016410256410256,
+      "eval_loss": 1.6407270431518555,
+      "eval_runtime": 22.6109,
+      "eval_samples_per_second": 22.113,
+      "eval_steps_per_second": 2.786,
+      "step": 937
+    },
+    {
+      "epoch": 5.0,
+      "eval_exact_match": 20.44999229465249,
+      "eval_f1": 31.73889859049377,
+      "step": 937
+    },
+    {
+      "epoch": 5.33,
+      "learning_rate": 0.0001,
+      "loss": 0.5815,
+      "step": 1000
+    },
+    {
+      "epoch": 5.87,
+      "learning_rate": 0.0001,
+      "loss": 0.5592,
+      "step": 1100
+    },
+    {
+      "epoch": 6.0,
+      "eval_accuracy": 0.5997435897435898,
+      "eval_loss": 1.7334281206130981,
+      "eval_runtime": 22.4691,
+      "eval_samples_per_second": 22.253,
+      "eval_steps_per_second": 2.804,
+      "step": 1125
+    },
+    {
+      "epoch": 6.0,
+      "eval_exact_match": 19.771921713669286,
+      "eval_f1": 30.430978329730202,
+      "step": 1125
+    },
+    {
+      "epoch": 6.4,
+      "learning_rate": 0.0001,
+      "loss": 0.5104,
+      "step": 1200
+    },
+    {
+      "epoch": 6.93,
+      "learning_rate": 0.0001,
+      "loss": 0.5166,
+      "step": 1300
+    },
+    {
+      "epoch": 7.0,
+      "eval_accuracy": 0.5996923076923077,
+      "eval_loss": 1.804309368133545,
+      "eval_runtime": 22.4431,
+      "eval_samples_per_second": 22.279,
+      "eval_steps_per_second": 2.807,
+      "step": 1312
+    },
+    {
+      "epoch": 7.0,
+      "eval_exact_match": 20.403760209585453,
+      "eval_f1": 31.28620288120996,
+      "step": 1312
+    },
+    {
+      "epoch": 7.47,
+      "learning_rate": 0.0001,
+      "loss": 0.4717,
+      "step": 1400
+    },
+    {
+      "epoch": 8.0,
+      "learning_rate": 0.0001,
+      "loss": 0.4911,
+      "step": 1500
+    },
+    {
+      "epoch": 8.0,
+      "eval_accuracy": 0.5990769230769231,
+      "eval_loss": 1.9041939973831177,
+      "eval_runtime": 22.3639,
+      "eval_samples_per_second": 22.357,
+      "eval_steps_per_second": 2.817,
+      "step": 1500
+    },
+    {
+      "epoch": 8.0,
+      "eval_exact_match": 20.37293881954076,
+      "eval_f1": 30.745174929178738,
+      "step": 1500
+    },
+    {
+      "epoch": 8.53,
+      "learning_rate": 0.0001,
+      "loss": 0.4494,
+      "step": 1600
+    },
+    {
+      "epoch": 9.0,
+      "eval_accuracy": 0.5983589743589743,
+      "eval_loss": 1.9243630170822144,
+      "eval_runtime": 22.4511,
+      "eval_samples_per_second": 22.271,
+      "eval_steps_per_second": 2.806,
+      "step": 1687
+    },
+    {
+      "epoch": 9.0,
+      "eval_exact_match": 19.941439358915087,
+      "eval_f1": 30.485231421295275,
+      "step": 1687
+    },
+    {
+      "epoch": 9.07,
+      "learning_rate": 0.0001,
+      "loss": 0.4657,
+      "step": 1700
+    },
+    {
+      "epoch": 9.6,
+      "learning_rate": 0.0001,
+      "loss": 0.4399,
+      "step": 1800
+    },
+    {
+      "epoch": 9.97,
+      "eval_accuracy": 0.5974358974358974,
+      "eval_loss": 1.983661413192749,
+      "eval_runtime": 22.4589,
+      "eval_samples_per_second": 22.263,
+      "eval_steps_per_second": 2.805,
+      "step": 1870
+    },
+    {
+      "epoch": 9.97,
+      "eval_exact_match": 19.679457543535214,
+      "eval_f1": 29.775983421383447,
+      "step": 1870
+    },
+    {
+      "epoch": 9.97,
+      "step": 1870,
+      "total_flos": 7.872774259448218e+16,
+      "train_loss": 0.7651688315651634,
+      "train_runtime": 8236.7348,
+      "train_samples_per_second": 7.284,
+      "train_steps_per_second": 0.227
+    }
+  ],
+  "logging_steps": 100,
+  "max_steps": 1870,
+  "num_train_epochs": 10,
+  "save_steps": 500,
+  "total_flos": 7.872774259448218e+16,
+  "trial_name": null,
+  "trial_params": null
+}