Spaces:

muryshev
/

saiga-api-cuda-v2

Sleeping

App Files Files Community

muryshev commited on Dec 11, 2023

Commit

d28a9db

•

1 Parent(s): 6ccc002

MORE PARAMETERS

Browse files

Files changed (2) hide show

app.py +15 -12
llm_backend.py +1 -4

app.py CHANGED Viewed

@@ -15,18 +15,21 @@ import sys
 llm = LlmBackend()
 _lock = threading.Lock()
-SYSTEM_PROMPT = os.environ.get('SYSTEM_PROMPT') or "Ты — русскоязычный автоматический ассистент. Ты максимально точно и отвечаешь на запросы пользователя, используя русский язык."
-CONTEXT_SIZE = int(os.environ.get('CONTEXT_SIZE', '500'))
-HF_CACHE_DIR = os.environ.get('HF_CACHE_DIR') or '/home/user/app/.cache'
-USE_SYSTEM_PROMPT = os.environ.get('USE_SYSTEM_PROMPT', '').lower() == "true" or False
-ENABLE_GPU = os.environ.get('ENABLE_GPU', '').lower() == "true" or False
-GPU_LAYERS = int(os.environ.get('GPU_LAYERS', '0'))
-CHAT_FORMAT = os.environ.get('CHAT_FORMAT') or 'llama-2'
-REPO_NAME = os.environ.get('REPO_NAME') or 'IlyaGusev/saiga2_7b_gguf'
-MODEL_NAME = os.environ.get('MODEL_NAME') or 'model-q4_K.gguf'
-DATASET_REPO_URL = os.environ.get('DATASET_REPO_URL') or "https://huggingface.co/datasets/muryshev/saiga-chat"
-DATA_FILENAME = os.environ.get('DATA_FILENAME') or "data-saiga-cuda-release.xml"
 HF_TOKEN = os.environ.get("HF_TOKEN")
 # Create a lock object
 lock = threading.Lock()
@@ -174,5 +177,5 @@ if __name__ == "__main__":
     # scheduler.add_job(check_last_request_time, trigger='interval', minutes=1)
     # scheduler.start()
-    app.run(host="0.0.0.0", port=7860, debug=True, threaded=True)

 llm = LlmBackend()
 _lock = threading.Lock()
+SYSTEM_PROMPT = os.environ.get('SYSTEM_PROMPT', default="Ты — русскоязычный автоматический ассистент. Ты максимально точно и отвечаешь на запросы пользователя, используя русский язык.")
+CONTEXT_SIZE = int(os.environ.get('CONTEXT_SIZE', default='500'))
+HF_CACHE_DIR = os.environ.get('HF_CACHE_DIR', default='/home/user/app/.cache')
+USE_SYSTEM_PROMPT = os.environ.get('USE_SYSTEM_PROMPT', default='False').lower() == 'true'
+ENABLE_GPU = os.environ.get('ENABLE_GPU', default='False').lower() == 'true'
+GPU_LAYERS = int(os.environ.get('GPU_LAYERS', default='0'))
+CHAT_FORMAT = os.environ.get('CHAT_FORMAT', default='llama-2')
+REPO_NAME = os.environ.get('REPO_NAME', default='IlyaGusev/saiga2_7b_gguf')
+MODEL_NAME = os.environ.get('MODEL_NAME', default='model-q4_K.gguf')
+DATASET_REPO_URL = os.environ.get('DATASET_REPO_URL', default="https://huggingface.co/datasets/muryshev/saiga-chat")
+DATA_FILENAME = os.environ.get('DATA_FILENAME', default="data-saiga-cuda-release.xml")
 HF_TOKEN = os.environ.get("HF_TOKEN")
+APP_HOST = os.environ.get('APP_HOST', default='0.0.0.0')
+APP_PORT = int(os.environ.get('APP_PORT', default='7860'))
+FLASK_THREADED = os.environ.get('FLASK_THREADED', default='False').lower() == "true"
 # Create a lock object
 lock = threading.Lock()
     # scheduler.add_job(check_last_request_time, trigger='interval', minutes=1)
     # scheduler.start()
+    app.run(host=APP_HOST, port=APP_PORT, debug=False, threaded=FLASK_THREADED)

llm_backend.py CHANGED Viewed

@@ -176,7 +176,4 @@ class LlmBackend:
             except Exception as e:
                 log.error('generate_tokens - error')
                 log.error(e)
-                yield b''  # End of chunk

             except Exception as e:
                 log.error('generate_tokens - error')
                 log.error(e)
+                yield b''  # End of chunk