youjunhyeok
commited on
Commit
•
e6fcc3b
1
Parent(s):
4ee2f95
Update README.md
Browse files
README.md
CHANGED
@@ -80,23 +80,19 @@ def chat(message):
|
|
80 |
response = outputs[0][input_ids.shape[-1]:]
|
81 |
print(tokenizer.decode(response, skip_special_tokens=True))
|
82 |
|
83 |
-
chat('
|
84 |
```
|
85 |
|
86 |
## Output
|
87 |
|
88 |
```
|
89 |
-
|
90 |
-
|
91 |
-
1
|
92 |
-
|
93 |
-
3
|
94 |
-
|
95 |
-
5
|
96 |
-
6. **남산** 및 **북산**: 서울의 중심에 위치한 두 개의 산으로, 산책과 등산을 즐길 수 있고, 북산에는 서울 시내를 한눈에 볼 수 있는 뷰 포인트도 있어요.
|
97 |
-
7. **한강**: 서울의 중심을 흐르는 강으로, 강변을 따라 산책하거나 자전거를 타며 즐길 수 있어요.
|
98 |
-
8. **보라빛 신길**: 봄에는 보라빛이 피어나는 미로 같은 산책로로, 봄을 즐기기에 좋아요.
|
99 |
-
9. **남산 서울타워**: 서울 시내를
|
100 |
```
|
101 |
|
102 |
|
@@ -109,13 +105,13 @@ dataset: k2-feedback,kiqu_samples,ko_lima_vicuna,ko-instruction-data,korean-huma
|
|
109 |
dataset_dir: /home/work/dweax/train/dataset
|
110 |
ddp_timeout: 180000000
|
111 |
do_train: true
|
112 |
-
eval_steps:
|
113 |
eval_strategy: steps
|
114 |
finetuning_type: lora
|
115 |
flash_attn: auto
|
116 |
-
gradient_accumulation_steps:
|
117 |
include_num_input_tokens_seen: true
|
118 |
-
learning_rate:
|
119 |
logging_steps: 5
|
120 |
lora_alpha: 16
|
121 |
lora_dropout: 0.05
|
@@ -124,21 +120,21 @@ lora_target: all
|
|
124 |
loraplus_lr_ratio: 1
|
125 |
lr_scheduler_type: inverse_sqrt
|
126 |
max_grad_norm: 1.0
|
127 |
-
max_samples:
|
128 |
model_name_or_path: THUDM/glm-4-9b
|
129 |
num_train_epochs: 3.0
|
130 |
optim: adamw_torch
|
131 |
-
output_dir: saves/GLM-4-9B/lora/glm4-ko-
|
132 |
packing: true
|
133 |
-
per_device_eval_batch_size:
|
134 |
-
per_device_train_batch_size:
|
135 |
plot_loss: true
|
136 |
preprocessing_num_workers: 16
|
137 |
report_to: all
|
138 |
resize_vocab: true
|
139 |
-
save_steps:
|
140 |
stage: sft
|
141 |
template: glm4
|
142 |
val_size: 0.05
|
143 |
-
warmup_steps:
|
144 |
```
|
|
|
80 |
response = outputs[0][input_ids.shape[-1]:]
|
81 |
print(tokenizer.decode(response, skip_special_tokens=True))
|
82 |
|
83 |
+
chat('다음 두 집합 A, B에 대해 A 교집합 B = {1, 2, 3, 4, 5}이고, A 합집합 B = {1, 2, 3, 4, 5, 6, 7, 8, 9, 10}일 때, A와 B의 원소의 개수 범위를 구하시오.')
|
84 |
```
|
85 |
|
86 |
## Output
|
87 |
|
88 |
```
|
89 |
+
집합 A와 B에 대한 정보를 바탕으로 A와 B의 원소의 개수 범위를 구해볼게요.
|
90 |
+
|
91 |
+
먼저, A 교집합 B = {1, 2, 3, 4, 5}라는 정보를 보면, 집합 A와 B의 공통 원소는 1, 2, 3, 4, 5이므로, 이 원소들의 개수를 구하면 됩니다. 즉, A와 B의 공통 원소 개수는 5입니다.
|
92 |
+
|
93 |
+
다음으로, A 합집합 B = {1, 2, 3, 4, 5, 6, 7, 8, 9, 10}라는 정보를 보면, 집합 A와 B의 모든 원소를 합친 결과가 이 집합이므로, 이 집합의 원소 개수를 구하면 됩니다. 즉, A와 B의 합집합 원소 개수는 10입니다.
|
94 |
+
|
95 |
+
따라서, 집합 A와 B의 원소의 개수 범위는 5에서 10 사이입니다. 즉, A와 B의 공통 원소 개수는 최소 5개이고, 합집합 원소 개수는 최대 10개입니다. 이 정보를 바탕으로 A와 B의 원소 개수 범위를 구할 수 있어요. 다른 궁금한 점이 있으면 언제든지 물어봐 주세요!
|
|
|
|
|
|
|
|
|
96 |
```
|
97 |
|
98 |
|
|
|
105 |
dataset_dir: /home/work/dweax/train/dataset
|
106 |
ddp_timeout: 180000000
|
107 |
do_train: true
|
108 |
+
eval_steps: 150
|
109 |
eval_strategy: steps
|
110 |
finetuning_type: lora
|
111 |
flash_attn: auto
|
112 |
+
gradient_accumulation_steps: 8
|
113 |
include_num_input_tokens_seen: true
|
114 |
+
learning_rate: 0.0001
|
115 |
logging_steps: 5
|
116 |
lora_alpha: 16
|
117 |
lora_dropout: 0.05
|
|
|
120 |
loraplus_lr_ratio: 1
|
121 |
lr_scheduler_type: inverse_sqrt
|
122 |
max_grad_norm: 1.0
|
123 |
+
max_samples: 75000
|
124 |
model_name_or_path: THUDM/glm-4-9b
|
125 |
num_train_epochs: 3.0
|
126 |
optim: adamw_torch
|
127 |
+
output_dir: saves/GLM-4-9B/lora/glm4-ko-v2.1
|
128 |
packing: true
|
129 |
+
per_device_eval_batch_size: 8
|
130 |
+
per_device_train_batch_size: 8
|
131 |
plot_loss: true
|
132 |
preprocessing_num_workers: 16
|
133 |
report_to: all
|
134 |
resize_vocab: true
|
135 |
+
save_steps: 150
|
136 |
stage: sft
|
137 |
template: glm4
|
138 |
val_size: 0.05
|
139 |
+
warmup_steps: 150
|
140 |
```
|