Spaces:

davanstrien
/

arch_demo

Sleeping

App Files Files Community

davanstrien HF staff commited on Apr 18, 2023

Commit

afebd23

•

1 Parent(s): 44712bf

Upload 3 files

Browse files

Files changed (3) hide show

app.py +135 -0
requirements.in +8 -0
requirements.txt +296 -0

app.py ADDED Viewed

	@@ -0,0 +1,135 @@

+import multiprocessing
+import random
+from datasets import load_dataset
+from sentence_transformers import SentenceTransformer
+from PIL.Image import Image, ANTIALIAS
+import gradio as gr
+from faiss import METRIC_INNER_PRODUCT
+import requests
+import pandas as pd
+import backoff
+from functools import lru_cache
+cpu_count = multiprocessing.cpu_count()
+model = SentenceTransformer("clip-ViT-B-16")
+def resize_image(image: Image, size: int = 224) -> Image:
+    """Resizes an image retaining the aspect ratio."""
+    w, h = image.size
+    if w == h:
+        image = image.resize((size, size), ANTIALIAS)
+        return image
+    if w > h:
+        height_percent = size / float(h)
+        width_size = int(float(w) * float(height_percent))
+        image = image.resize((width_size, size), ANTIALIAS)
+        return image
+    if w < h:
+        width_percent = size / float(w)
+        height_size = int(float(w) * float(width_percent))
+        image = image.resize((size, height_size), ANTIALIAS)
+        return image
+dataset = load_dataset("davanstrien/ia-loaded-embedded-gpu", split="train")
+dataset = dataset.filter(lambda x: x["embedding"] is not None)
+dataset.add_faiss_index("embedding", metric_type=METRIC_INNER_PRODUCT)
+def get_nearest_k_examples(input, k):
+    query = model.encode(input)
+    # faiss_index = dataset.get_index("embedding").faiss_index # TODO maybe add range?
+    # threshold = 0.95
+    # limits, distances, indices = faiss_index.range_search(x=query, thresh=threshold)
+    # images = dataset[indices]
+    _, retrieved_examples = dataset.get_nearest_examples("embedding", query=query, k=k)
+    images = retrieved_examples["image"][:k]
+    last_modified = retrieved_examples["last_modified_date"]  # [:k]
+    crawl_date = retrieved_examples["crawl_date"]  # [:k]
+    metadata = [
+        f"last_modified {modified}, crawl date:{crawl}"
+        for modified, crawl in zip(last_modified, crawl_date)
+    ]
+    return list(zip(images, metadata))
+def return_random_sample(k=27):
+    sample = random.sample(range(len(dataset)), k)
+    images = dataset[sample]["image"]
+    return [resize_image(image).convert("RGB") for image in images]
+def predict_subset(model_id, token):
+    API_URL = f"https://api-inference.huggingface.co/models/{model_id}"
+    headers = {"Authorization": f"Bearer {token}"}
+    @backoff.on_predicate(backoff.expo, lambda x: x.status_code == 503, max_time=30)
+    def _query(url):
+        r = requests.post(API_URL, headers=headers, data=url)
+        print(r)
+        return r
+    @lru_cache(maxsize=1000)
+    def query(url):
+        response = _query(url)
+        try:
+            data = response.json()
+            argmax = data[0]
+            return {"score": argmax["score"], "label": argmax["label"]}
+        except Exception:
+            return {"score": None, "label": None}
+    # dataset2 = copy.deepcopy(dataset)
+    # dataset2.drop_index("embedding")
+    dataset = load_dataset("davanstrien/ia-loaded-embedded-gpu", split="train")
+    sample = random.sample(range(len(dataset)), 10)
+    sample = dataset.select(sample)
+    print("predicting...")
+    predictions = []
+    for row in sample:
+        url = row["url"]
+        predictions.append(query(url))
+    gallery = []
+    for url, prediction in zip(sample["url"], predictions):
+        gallery.append((url, f"{prediction['label'], prediction['score']}"))
+    # sample = sample.map(lambda x:  query(x['url']))
+    labels = [d["label"] for d in predictions]
+    from toolz import frequencies
+    df = pd.DataFrame(
+        {"labels": frequencies(labels).keys(), "freqs": frequencies(labels).values()}
+    )
+    return gallery, df
+with gr.Blocks() as demo:
+    with gr.Tab("Random image gallery"):
+        button = gr.Button("Refresh")
+        gallery = gr.Gallery().style(grid=9, height="1400")
+        button.click(return_random_sample, [], [gallery])
+    with gr.Tab("image search"):
+        text = gr.Textbox(label="Search for images")
+        k = gr.Slider(minimum=3, maximum=18, step=1)
+        button = gr.Button("search")
+        gallery = gr.Gallery().style(grid=3)
+        button.click(get_nearest_k_examples, [text, k], [gallery])
+    # with gr.Tab("Export for label studio"):
+    #     button = gr.Button("Export")
+    #     dataset2 = copy.deepcopy(dataset)
+    #     # dataset2 = dataset2.remove_columns('image')
+    #     # dataset2 = dataset2.rename_column("url", "image")
+    #     csv = dataset2.to_csv("label_studio.csv")
+    #     csv_file = gr.File("label_studio.csv")
+    #     button.click(dataset.save_to_disk, [], [csv_file])
+    with gr.Tab("predict"):
+        token = gr.Textbox(label="token", type="password")
+        model_id = gr.Textbox(label="model_id")
+        button = gr.Button("predict")
+        plot = gr.BarPlot(x="labels", y="freqs", width=600, height=400, vertical=False)
+        gallery = gr.Gallery()
+        button.click(predict_subset, [model_id, token], [gallery, plot])
+demo.launch(enable_queue=True, debug=True)

requirements.in ADDED Viewed

	@@ -0,0 +1,8 @@

+datasets
+gradio
+torch
+# transformers @ git+https://github.com/huggingface/transformers@dde718e7a62bf8caa6623b5635ba02d6cb758c75
+faiss-cpu
+fuego
+sentence_transformers
+backoff

requirements.txt ADDED Viewed

	@@ -0,0 +1,296 @@

+#
+# This file is autogenerated by pip-compile with Python 3.9
+# by the following command:
+#
+#    pip-compile --resolver=backtracking requirements.in
+#
+aiofiles==23.1.0
+    # via gradio
+aiohttp==3.8.4
+    # via
+    #   datasets
+    #   fsspec
+    #   gradio
+aiosignal==1.3.1
+    # via aiohttp
+altair==4.2.2
+    # via gradio
+anyio==3.6.2
+    # via
+    #   httpcore
+    #   starlette
+async-timeout==4.0.2
+    # via aiohttp
+attrs==22.2.0
+    # via
+    #   aiohttp
+    #   jsonschema
+backoff==2.2.1
+    # via -r requirements.in
+certifi==2022.12.7
+    # via
+    #   httpcore
+    #   httpx
+    #   requests
+charset-normalizer==3.1.0
+    # via
+    #   aiohttp
+    #   requests
+click==8.1.3
+    # via
+    #   nltk
+    #   uvicorn
+contourpy==1.0.7
+    # via matplotlib
+cycler==0.11.0
+    # via matplotlib
+datasets==2.10.1
+    # via -r requirements.in
+dill==0.3.6
+    # via
+    #   datasets
+    #   multiprocess
+entrypoints==0.4
+    # via altair
+faiss-cpu==1.7.3
+    # via -r requirements.in
+fastapi==0.95.0
+    # via gradio
+ffmpy==0.3.0
+    # via gradio
+filelock==3.10.0
+    # via
+    #   huggingface-hub
+    #   torch
+    #   transformers
+fire==0.5.0
+    # via fuego
+fonttools==4.39.2
+    # via matplotlib
+frozenlist==1.3.3
+    # via
+    #   aiohttp
+    #   aiosignal
+fsspec[http]==2023.3.0
+    # via
+    #   datasets
+    #   gradio
+fuego==0.0.8
+    # via -r requirements.in
+gitdb==4.0.10
+    # via gitpython
+gitpython==3.1.31
+    # via fuego
+gradio==3.22.1
+    # via -r requirements.in
+h11==0.14.0
+    # via
+    #   httpcore
+    #   uvicorn
+httpcore==0.16.3
+    # via httpx
+httpx==0.23.3
+    # via gradio
+huggingface-hub==0.13.3
+    # via
+    #   datasets
+    #   fuego
+    #   gradio
+    #   sentence-transformers
+    #   transformers
+idna==3.4
+    # via
+    #   anyio
+    #   requests
+    #   rfc3986
+    #   yarl
+importlib-resources==5.12.0
+    # via matplotlib
+jinja2==3.1.2
+    # via
+    #   altair
+    #   gradio
+    #   torch
+joblib==1.2.0
+    # via
+    #   nltk
+    #   scikit-learn
+jsonschema==4.17.3
+    # via altair
+kiwisolver==1.4.4
+    # via matplotlib
+linkify-it-py==2.0.0
+    # via markdown-it-py
+markdown-it-py[linkify]==2.2.0
+    # via
+    #   gradio
+    #   mdit-py-plugins
+markupsafe==2.1.2
+    # via
+    #   gradio
+    #   jinja2
+matplotlib==3.7.1
+    # via gradio
+mdit-py-plugins==0.3.3
+    # via gradio
+mdurl==0.1.2
+    # via markdown-it-py
+mpmath==1.3.0
+    # via sympy
+multidict==6.0.4
+    # via
+    #   aiohttp
+    #   yarl
+multiprocess==0.70.14
+    # via datasets
+networkx==3.0
+    # via torch
+nltk==3.8.1
+    # via sentence-transformers
+numpy==1.24.2
+    # via
+    #   altair
+    #   contourpy
+    #   datasets
+    #   gradio
+    #   matplotlib
+    #   pandas
+    #   pyarrow
+    #   scikit-learn
+    #   scipy
+    #   sentence-transformers
+    #   torchvision
+    #   transformers
+orjson==3.8.7
+    # via gradio
+packaging==23.0
+    # via
+    #   datasets
+    #   huggingface-hub
+    #   matplotlib
+    #   transformers
+pandas==1.5.3
+    # via
+    #   altair
+    #   datasets
+    #   gradio
+pillow==9.4.0
+    # via
+    #   gradio
+    #   matplotlib
+    #   torchvision
+pyarrow==11.0.0
+    # via datasets
+pydantic==1.10.6
+    # via
+    #   fastapi
+    #   gradio
+pydub==0.25.1
+    # via gradio
+pyparsing==3.0.9
+    # via matplotlib
+pyrsistent==0.19.3
+    # via jsonschema
+python-dateutil==2.8.2
+    # via
+    #   matplotlib
+    #   pandas
+python-multipart==0.0.6
+    # via gradio
+pytz==2022.7.1
+    # via pandas
+pyyaml==6.0
+    # via
+    #   datasets
+    #   gradio
+    #   huggingface-hub
+    #   transformers
+regex==2022.10.31
+    # via
+    #   nltk
+    #   transformers
+requests==2.28.2
+    # via
+    #   datasets
+    #   fsspec
+    #   gradio
+    #   huggingface-hub
+    #   responses
+    #   torchvision
+    #   transformers
+responses==0.18.0
+    # via datasets
+rfc3986[idna2008]==1.5.0
+    # via httpx
+scikit-learn==1.2.2
+    # via sentence-transformers
+scipy==1.10.1
+    # via
+    #   scikit-learn
+    #   sentence-transformers
+sentence-transformers==2.2.2
+    # via -r requirements.in
+sentencepiece==0.1.97
+    # via sentence-transformers
+six==1.16.0
+    # via
+    #   fire
+    #   python-dateutil
+smmap==5.0.0
+    # via gitdb
+sniffio==1.3.0
+    # via
+    #   anyio
+    #   httpcore
+    #   httpx
+starlette==0.26.1
+    # via fastapi
+sympy==1.11.1
+    # via torch
+termcolor==2.2.0
+    # via fire
+threadpoolctl==3.1.0
+    # via scikit-learn
+tokenizers==0.13.2
+    # via transformers
+toolz==0.12.0
+    # via altair
+torch==2.0.0
+    # via
+    #   -r requirements.in
+    #   sentence-transformers
+    #   torchvision
+torchvision==0.15.1
+    # via sentence-transformers
+tqdm==4.65.0
+    # via
+    #   datasets
+    #   huggingface-hub
+    #   nltk
+    #   sentence-transformers
+    #   transformers
+transformers==4.27.2
+    # via sentence-transformers
+typing-extensions==4.5.0
+    # via
+    #   gradio
+    #   huggingface-hub
+    #   pydantic
+    #   starlette
+    #   torch
+uc-micro-py==1.0.1
+    # via linkify-it-py
+urllib3==1.26.15
+    # via
+    #   requests
+    #   responses
+uvicorn==0.21.1
+    # via gradio
+websockets==10.4
+    # via gradio
+xxhash==3.2.0
+    # via datasets
+yarl==1.8.2
+    # via aiohttp
+zipp==3.15.0
+    # via importlib-resources