Spaces:

darylfunggg
/

text-to-speech

Runtime error

Daryl Fung commited on Dec 2, 2023

Commit

8d83939

•

1 Parent(s): 0fd4a4d

finalize mvp

Files changed (2) hide show

app.py CHANGED Viewed

@@ -1,16 +1,17 @@
 from fastapi import FastAPI
 import uvicorn
-import faiss
 from sentence_transformers import SentenceTransformer
 from pymilvus import Collection
 from db.db_connect import connect, disconnect
 from db.query_db import query
 model = SentenceTransformer('sentence-transformers/all-MiniLM-L6-v2')
-index = faiss.IndexFlatL2(model.get_sentence_embedding_dimension())   # build the index
-index.add(model.encode(['hello']))
 app = FastAPI()
@@ -48,8 +49,19 @@ async def transcribe(text: str):
         insert_response_to_generate_for_audio(text, embeddings)
         audio = await query(WAIT_RESPONSES_EMBEDDINGS, threshold=0.8)
-    return audio
 if __name__ == '__main__':
-    uvicorn.run('app:app', host='0.0.0.0', port=7860)

 from fastapi import FastAPI
+from fastapi.responses import Response
 import uvicorn
+import numpy as np
+import io
 from sentence_transformers import SentenceTransformer
 from pymilvus import Collection
+import soundfile as sf
+from bark import SAMPLE_RATE
 from db.db_connect import connect, disconnect
 from db.query_db import query
 model = SentenceTransformer('sentence-transformers/all-MiniLM-L6-v2')
 app = FastAPI()
         insert_response_to_generate_for_audio(text, embeddings)
         audio = await query(WAIT_RESPONSES_EMBEDDINGS, threshold=0.8)
+    # convert audio bytes to appropriate format to return
+    audio_file = io.BytesIO(np.frombuffer(audio, dtype=np.int16))
+    audio, sample_rate = sf.read(audio_file)
+    audio_file = io.BytesIO()
+    sf.write(audio_file, audio, sample_rate, format='wav')
+    audio_file.seek(0)
+    return Response(
+        content=audio_file.read(),
+        media_type="audio/wav",  # Same as the Content-Type header
+        )
 if __name__ == '__main__':
+    uvicorn.run('app:app', host='0.0.0.0', port=7861)

db/query_db.py CHANGED Viewed

@@ -21,7 +21,7 @@ async def query(embeddings, threshold=0.8):
     if len(similar_indexes) > 0:
         selected_index = random.choice(similar_indexes)
-        selected_id = search_results[0].ids[selected_index]
         audio_obj = audio_response.query(f'id == {selected_id}', output_fields=['text', 'filename'])[0]
         audio_id = audio_obj['filename']

     if len(similar_indexes) > 0:
         selected_index = random.choice(similar_indexes)
+        selected_id = search_results.ids[selected_index]
         audio_obj = audio_response.query(f'id == {selected_id}', output_fields=['text', 'filename'])[0]
         audio_id = audio_obj['filename']