uzbert-base-uncased / README.md
coppercitylabs's picture
Update README
81c16d6
|
raw
history blame
No virus
2.38 kB
metadata
language: uz
tags:
  - uzbert
  - uzbek
  - bert
  - cyrillic
license: MIT
datasets:
  - webcrawl

UzBERT base model (uncased)

Pretrained model on Uzbek language (Cyrillic script) using a masked language modeling and next sentence prediction objectives.

How to use

You can use this model directly with a pipeline for masked language modeling:

>>> from transformers import pipeline
>>> unmasker = pipeline('fill-mask', model='coppercitylabs/uzbert-base-uncased')
>>> unmasker("Алишер Навоий – улуғ ўзбек ва бошқа туркий халқларнинг [MASK], мутафаккири ва давлат арбоби бўлган.")

[
    {
        'token_str': 'шоири',
        'token': 13587,
        'score': 0.7974384427070618,
        'sequence': 'алишер навоий – улуғ ўзбек ва бошқа туркий халқларнинг шоири, мутафаккир ##и ва давлат арбоби бўлган.'
    },
    {
        'token_str': 'олими',
        'token': 18500,
        'score': 0.09166576713323593,
        'sequence': 'алишер навоий – улуғ ўзбек ва бошқа туркий халқларнинг олими, мутафаккир ##и ва давлат арбоби бўлган.'
    },
    {
        'token_str': 'асосчиси',
        'token': 7469,
        'score': 0.02451123297214508,
        'sequence': 'алишер навоий – улуғ ўзбек ва бошқа туркий халқларнинг асосчиси, мутафаккир ##и ва давлат арбоби бўлган.'
    },
    {
        'token_str': 'ёзувчиси',
        'token': 22439,
        'score': 0.017601722851395607,
        'sequence': 'алишер навоий – улуғ ўзбек ва бошқа туркий халқларнинг ёзувчиси, мутафаккир ##и ва давлат арбоби бўлган.'
    },
    {
        'token_str': 'устози',
        'token': 11494,
        'score': 0.010115668177604675,
        'sequence': 'алишер навоий – улуғ ўзбек ва бошқа туркий халқларнинг устози, мутафаккир ##и ва давлат арбоби бўлган.'
    }
]

Training data

UzBERT model was pretrained on ~625K news articles (~142M words).