kirv commited on
Commit
d170b0b
1 Parent(s): 42b85d1

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +23 -1
README.md CHANGED
@@ -8,4 +8,26 @@ datasets:
8
  - IlyaGusev/rulm
9
  base_model:
10
  - mistralai/Mistral-7B-v0.1
11
- ---
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
8
  - IlyaGusev/rulm
9
  base_model:
10
  - mistralai/Mistral-7B-v0.1
11
+ ---
12
+
13
+ Модель mistralai/Mistral-7B-v0.1, обучение всех слоев с ~4млрд токенов из датасета.
14
+ 130 часов 2xTesla H100.
15
+
16
+ ```
17
+ batch_size: 20
18
+ epochs: 1
19
+ optimizer:
20
+ _component_: torch.optim.AdamW
21
+ lr: 5e-6
22
+ weight_decay: 0.01
23
+ loss:
24
+ _component_: torch.nn.CrossEntropyLoss
25
+ max_steps_per_epoch: null
26
+ gradient_accumulation_steps: 5
27
+ ```
28
+ Размер последовательности 1024 токенов.
29
+
30
+ loss: 2.03
31
+
32
+ По https://github.com/NLP-Core-Team/mmlu_ru
33
+ Квантизация в 4b: accuracy_total=41.86218134391028