Spaces:

sengzi
/

TYF-1181203428

Runtime error

App Files Files Community

Update Sejarah.py

by sengzi - opened Jun 17, 2023

base: refs/heads/main

←

from: refs/pr/2

Discussion Files changed

+14

-25

Files changed (1) hide show

Sejarah.py +14 -25

Sejarah.py CHANGED Viewed

@@ -4,7 +4,7 @@ from haystack import Pipeline
 from haystack.nodes import TextConverter, PreProcessor, BM25Retriever, FARMReader
 from haystack.document_stores import InMemoryDocumentStore
 from haystack.utils import print_answers
-from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
 class Sejarah:
     def __init__(self):
@@ -40,32 +40,26 @@ class Sejarah:
         self.querying_pipeline.add_node(component=retriever, name="Retriever", inputs=["Query"])
         self.querying_pipeline.add_node(component=reader, name="Reader", inputs=["Retriever"])
-        #Malay to English Model
-        self.id_en_tokenizer = AutoTokenizer.from_pretrained("Helsinki-NLP/opus-mt-id-en")
-        self.id_en_model = AutoModelForSeq2SeqLM.from_pretrained("Helsinki-NLP/opus-mt-id-en")
-        #English to Malay Model
-        self.en_id_tokenizer = AutoTokenizer.from_pretrained("Helsinki-NLP/opus-mt-en-id")
-        self.en_id_model = AutoModelForSeq2SeqLM.from_pretrained("Helsinki-NLP/opus-mt-en-id")
     def language_converter(self, content, lang, method):
-        content = content.lower()
         if lang == "en":
             if method == "question":
-                tokenized_text = self.en_id_tokenizer.prepare_seq2seq_batch([content], return_tensors='pt')
-                translation = self.en_id_model.generate(**tokenized_text)
-                content = self.en_id_tokenizer.batch_decode(translation, skip_special_tokens=True)[0]
             else:
-                tokenized_text = self.id_en_tokenizer.prepare_seq2seq_batch([content], return_tensors='pt')
-                translation = self.id_en_model.generate(**tokenized_text)
-                content = self.id_en_tokenizer.batch_decode(translation, skip_special_tokens=True)[0]
-        return content
     def interface(self, question):
         language = self.detect_language(question)
@@ -82,9 +76,4 @@ class Sejarah:
         answer = self.language_converter(result['answers'][0].answer, language, "answer")
         context = self.language_converter(result['answers'][0].context, language, "answer")
-        return answer, context
-    def detect_language(self, content):
-        lang = langid.classify(content)
-        return lang[0]

 from haystack.nodes import TextConverter, PreProcessor, BM25Retriever, FARMReader
 from haystack.document_stores import InMemoryDocumentStore
 from haystack.utils import print_answers
+from deep_translator import GoogleTranslator
 class Sejarah:
     def __init__(self):
         self.querying_pipeline.add_node(component=retriever, name="Retriever", inputs=["Query"])
         self.querying_pipeline.add_node(component=reader, name="Reader", inputs=["Retriever"])
     def language_converter(self, content, lang, method):
         if lang == "en":
             if method == "question":
+                new_content = GoogleTranslator(source='en', target='ms').translate(content)
+                if "when" in content:
+                  new_content = new_content.replace("apabila","bila")
             else:
+                new_content = GoogleTranslator(source='ms', target='en').translate(content)
+        return new_content
+    def detect_language(self, content):
+        lang = langid.classify(content)
+        return lang[0]
     def interface(self, question):
         language = self.detect_language(question)
         answer = self.language_converter(result['answers'][0].answer, language, "answer")
         context = self.language_converter(result['answers'][0].context, language, "answer")
+        return answer, context