PathFinderKR commited on
Commit
dd3197e
1 Parent(s): 7d5cfda

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +11 -13
README.md CHANGED
@@ -86,7 +86,7 @@ model = AutoModelForCausalLM.from_pretrained(
86
  ################################################################################
87
  num_return_sequences=1
88
  max_new_tokens=1024
89
- temperature=0.9
90
  top_p=0.9
91
  repetition_penalty=1.1
92
 
@@ -172,17 +172,17 @@ The model training used LoRA for computational efficiency. 0.04 billion paramete
172
  # bitsandbytes parameters
173
  ################################################################################
174
  load_in_4bit=True
175
- bnb_4bit_compute_dtype=torch_dtype
176
  bnb_4bit_quant_type="nf4"
177
- bnb_4bit_use_double_quant=False
178
 
179
  ################################################################################
180
  # LoRA parameters
181
  ################################################################################
182
  task_type="CAUSAL_LM"
183
  target_modules=["q_proj", "k_proj", "v_proj", "o_proj", "gate_proj", "up_proj", "down_proj"]
184
- r=16
185
- lora_alpha=32
186
  lora_dropout=0.1
187
  bias="none"
188
 
@@ -190,20 +190,20 @@ bias="none"
190
  # TrainingArguments parameters
191
  ################################################################################
192
  num_train_epochs=2
193
- per_device_train_batch_size=1
194
- gradient_accumulation_steps=1
195
  gradient_checkpointing=True
196
  learning_rate=2e-5
197
  lr_scheduler_type="cosine"
198
  warmup_ratio=0.1
199
- optim = "adamw_torch"
200
  weight_decay=0.01
201
 
202
  ################################################################################
203
  # SFT parameters
204
  ################################################################################
205
- max_seq_length=1024
206
- packing=True
207
  ```
208
 
209
 
@@ -285,9 +285,7 @@ packing=True
285
 
286
  ### Training Details
287
 
288
- - **Training time:** 32 hours
289
- - **VRAM usage:** 12.8 GB
290
- - **GPU power usage:** 300 W
291
 
292
 
293
 
 
86
  ################################################################################
87
  num_return_sequences=1
88
  max_new_tokens=1024
89
+ temperature=0.6
90
  top_p=0.9
91
  repetition_penalty=1.1
92
 
 
172
  # bitsandbytes parameters
173
  ################################################################################
174
  load_in_4bit=True
175
+ bnb_4bit_compute_dtype=torch.bfloat16
176
  bnb_4bit_quant_type="nf4"
177
+ bnb_4bit_use_double_quant=True
178
 
179
  ################################################################################
180
  # LoRA parameters
181
  ################################################################################
182
  task_type="CAUSAL_LM"
183
  target_modules=["q_proj", "k_proj", "v_proj", "o_proj", "gate_proj", "up_proj", "down_proj"]
184
+ r=8
185
+ lora_alpha=16
186
  lora_dropout=0.1
187
  bias="none"
188
 
 
190
  # TrainingArguments parameters
191
  ################################################################################
192
  num_train_epochs=2
193
+ per_device_train_batch_size=4
194
+ gradient_accumulation_steps=2
195
  gradient_checkpointing=True
196
  learning_rate=2e-5
197
  lr_scheduler_type="cosine"
198
  warmup_ratio=0.1
199
+ optim = "paged_adamw_8bit"
200
  weight_decay=0.01
201
 
202
  ################################################################################
203
  # SFT parameters
204
  ################################################################################
205
+ max_seq_length=4096
206
+ packing=False
207
  ```
208
 
209
 
 
285
 
286
  ### Training Details
287
 
288
+ - **Training time:** 80 hours
 
 
289
 
290
 
291