Safetensors
English
Russian
llama
hivaze commited on
Commit
a58bc5e
1 Parent(s): c0b57cf

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +7 -5
README.md CHANGED
@@ -7,7 +7,7 @@ language:
7
  - en
8
  - ru
9
  base_model:
10
- - mistralai/Mistral-Nemo-Instruct-2407
11
  ---
12
 
13
  ## Vikhr-Llama3.1-8B-Instruct-R-21-09-24
@@ -28,7 +28,7 @@ base_model:
28
 
29
  ### Метрики и оценка качества
30
 
31
- Модель оценивалась на нашем русскоязычном open-source SbS бенчмарке [ru-arena-general](https://github.com/VikhrModels/ru_llm_arena) (50 вопросов по 10 топикам), где судьей выступает gpt-4-1106-preview и [бенчмарке](https://colab.research.google.com/drive/16730rWQ4-yGqWoooLs0Ece_16frmOniP?usp=sharing) для RAG на основе тестового сета [Grounded-RAG-v2](https://huggingface.co/datasets/Vikhrmodels/Grounded-RAG-RU-v2), где судей выступа gpt-4o.
32
 
33
  #### Результаты на Ru-Arena-General
34
 
@@ -192,6 +192,8 @@ out_of_domain - вопросы которые специально никак н
192
 
193
  Реализацию SMPO, rejection sampling и другое можно найти в нашей библиотеке [effective_llm_alignment](https://github.com/VikhrModels/effective_llm_alignment/) на GitHub
194
 
 
 
195
  ### Как работать с RAG
196
 
197
  Роль documents представляет из себя список словарей с описанием контента документов, с примнением `json.dumps(array, ensure_ascii=False)` (см. пример ниже). \
@@ -265,10 +267,10 @@ print(final_answer)
265
  Используя первый ответ модели `relevant_indexes` (JSON), можно понять нашла ли модель информацию в документах или нет, она обучена возврашать пустой массив если ее нет и в таком случае она будет отвечать, что не смогла найти информацию в базе знаний (при генерации второго ответа).
266
 
267
  ### Нюансы и ограничения
268
- - Модель имеет **низкий уровень безопасности ответов** и нацелена на правильное и полное выполенние инстуркций, имейте это ввиду при использовании. Частично это исправляется системными промптами и дополнительными указаниями о важности безопасности в промпте пользователя.
269
- - Системные промпты не предназначены для описание персонажей, используйте их только для спецификации стиля ответа (вроде "answer only in json format"). Кроме того они должны быть **на английском**, так как так было в датасете, здесь от английского не зависит язык ответа.
270
  - RAG режим **требует обязательного** наличия системного промпта `GROUNDED_SYSTEM_PROMPT` описаного в секции *Как работать с RAG*. Так же иногда модель может добавлять общую информацию из своих знаний в ответ к той, что есть в документах.
271
- - Модель лучше использовать с низкой темптературой (0.1-0.4) и желательно с beam search.
272
 
273
  ### Авторы
274
  - Sergei Bratchikov, [NLP Wanderer](https://t.me/nlpwanderer), Vikhr Team
 
7
  - en
8
  - ru
9
  base_model:
10
+ - meta-llama/Meta-Llama-3.1-8B-Instruct
11
  ---
12
 
13
  ## Vikhr-Llama3.1-8B-Instruct-R-21-09-24
 
28
 
29
  ### Метрики и оценка качества
30
 
31
+ Модель оценивалась на нашем русскоязычном open-source SbS бенчмарке [ru-arena-general](https://github.com/VikhrModels/ru_llm_arena) (50 топиков по 10 вопросов), где судьей выступает gpt-4-1106-preview и [бенчмарке](https://colab.research.google.com/drive/16730rWQ4-yGqWoooLs0Ece_16frmOniP?usp=sharing) для RAG на основе тестового сета [Grounded-RAG-v2](https://huggingface.co/datasets/Vikhrmodels/Grounded-RAG-RU-v2), где судей выступа gpt-4o.
32
 
33
  #### Результаты на Ru-Arena-General
34
 
 
192
 
193
  Реализацию SMPO, rejection sampling и другое можно найти в нашей библиотеке [effective_llm_alignment](https://github.com/VikhrModels/effective_llm_alignment/) на GitHub
194
 
195
+ Идея использования именно SMPO, а не другого PO метода, возникла в результате проведения большого количества экспериментов с классическими методами, при необходимости лучшего контроля процесса сходимости. При использовании разных гиперпараметров в разных методах, можно добится почти одинаково результата оптимизации, однако мы постарались упростить этот процесс и применить лучшие практики из других методов.
196
+
197
  ### Как работать с RAG
198
 
199
  Роль documents представляет из себя список словарей с описанием контента документов, с примнением `json.dumps(array, ensure_ascii=False)` (см. пример ниже). \
 
267
  Используя первый ответ модели `relevant_indexes` (JSON), можно понять нашла ли модель информацию в документах или нет, она обучена возврашать пустой массив если ее нет и в таком случае она будет отвечать, что не смогла найти информацию в базе знаний (при генерации второго ответа).
268
 
269
  ### Нюансы и ограничения
270
+ - Модель имеет **низкий уровень безопасности ответов** и нацелена на правильное и полное выполенние инструкций, имейте это ввиду при использовании и тестируйте самостоятельно. Частично это исправляется системными промптами и дополнительными указаниями о важности безопасности в промпте пользователя.
271
+ - Системные промпты не предназначены для описание персонажей, мы рекомендуем использовать их дл�� спецификации стиля ответа (вроде "answer only in json format"). Кроме того, желательно, писать их **на английском языке**, так как так было в датасете, от использования английского в системных промтпах не зависит язык ответа.
272
  - RAG режим **требует обязательного** наличия системного промпта `GROUNDED_SYSTEM_PROMPT` описаного в секции *Как работать с RAG*. Так же иногда модель может добавлять общую информацию из своих знаний в ответ к той, что есть в документах.
273
+ - Модель лучше использовать с низкой темптературой (0.1-0.4) и желательно с beam search, а таже использовать top_k (30-50).
274
 
275
  ### Авторы
276
  - Sergei Bratchikov, [NLP Wanderer](https://t.me/nlpwanderer), Vikhr Team