PathFinderKR
commited on
Commit
•
dd3197e
1
Parent(s):
7d5cfda
Update README.md
Browse files
README.md
CHANGED
@@ -86,7 +86,7 @@ model = AutoModelForCausalLM.from_pretrained(
|
|
86 |
################################################################################
|
87 |
num_return_sequences=1
|
88 |
max_new_tokens=1024
|
89 |
-
temperature=0.
|
90 |
top_p=0.9
|
91 |
repetition_penalty=1.1
|
92 |
|
@@ -172,17 +172,17 @@ The model training used LoRA for computational efficiency. 0.04 billion paramete
|
|
172 |
# bitsandbytes parameters
|
173 |
################################################################################
|
174 |
load_in_4bit=True
|
175 |
-
bnb_4bit_compute_dtype=
|
176 |
bnb_4bit_quant_type="nf4"
|
177 |
-
bnb_4bit_use_double_quant=
|
178 |
|
179 |
################################################################################
|
180 |
# LoRA parameters
|
181 |
################################################################################
|
182 |
task_type="CAUSAL_LM"
|
183 |
target_modules=["q_proj", "k_proj", "v_proj", "o_proj", "gate_proj", "up_proj", "down_proj"]
|
184 |
-
r=
|
185 |
-
lora_alpha=
|
186 |
lora_dropout=0.1
|
187 |
bias="none"
|
188 |
|
@@ -190,20 +190,20 @@ bias="none"
|
|
190 |
# TrainingArguments parameters
|
191 |
################################################################################
|
192 |
num_train_epochs=2
|
193 |
-
per_device_train_batch_size=
|
194 |
-
gradient_accumulation_steps=
|
195 |
gradient_checkpointing=True
|
196 |
learning_rate=2e-5
|
197 |
lr_scheduler_type="cosine"
|
198 |
warmup_ratio=0.1
|
199 |
-
optim = "
|
200 |
weight_decay=0.01
|
201 |
|
202 |
################################################################################
|
203 |
# SFT parameters
|
204 |
################################################################################
|
205 |
-
max_seq_length=
|
206 |
-
packing=
|
207 |
```
|
208 |
|
209 |
|
@@ -285,9 +285,7 @@ packing=True
|
|
285 |
|
286 |
### Training Details
|
287 |
|
288 |
-
- **Training time:**
|
289 |
-
- **VRAM usage:** 12.8 GB
|
290 |
-
- **GPU power usage:** 300 W
|
291 |
|
292 |
|
293 |
|
|
|
86 |
################################################################################
|
87 |
num_return_sequences=1
|
88 |
max_new_tokens=1024
|
89 |
+
temperature=0.6
|
90 |
top_p=0.9
|
91 |
repetition_penalty=1.1
|
92 |
|
|
|
172 |
# bitsandbytes parameters
|
173 |
################################################################################
|
174 |
load_in_4bit=True
|
175 |
+
bnb_4bit_compute_dtype=torch.bfloat16
|
176 |
bnb_4bit_quant_type="nf4"
|
177 |
+
bnb_4bit_use_double_quant=True
|
178 |
|
179 |
################################################################################
|
180 |
# LoRA parameters
|
181 |
################################################################################
|
182 |
task_type="CAUSAL_LM"
|
183 |
target_modules=["q_proj", "k_proj", "v_proj", "o_proj", "gate_proj", "up_proj", "down_proj"]
|
184 |
+
r=8
|
185 |
+
lora_alpha=16
|
186 |
lora_dropout=0.1
|
187 |
bias="none"
|
188 |
|
|
|
190 |
# TrainingArguments parameters
|
191 |
################################################################################
|
192 |
num_train_epochs=2
|
193 |
+
per_device_train_batch_size=4
|
194 |
+
gradient_accumulation_steps=2
|
195 |
gradient_checkpointing=True
|
196 |
learning_rate=2e-5
|
197 |
lr_scheduler_type="cosine"
|
198 |
warmup_ratio=0.1
|
199 |
+
optim = "paged_adamw_8bit"
|
200 |
weight_decay=0.01
|
201 |
|
202 |
################################################################################
|
203 |
# SFT parameters
|
204 |
################################################################################
|
205 |
+
max_seq_length=4096
|
206 |
+
packing=False
|
207 |
```
|
208 |
|
209 |
|
|
|
285 |
|
286 |
### Training Details
|
287 |
|
288 |
+
- **Training time:** 80 hours
|
|
|
|
|
289 |
|
290 |
|
291 |
|