Models
Datasets
Spaces
Posts
Docs
Pricing
Log In
Sign Up

Collections

Discover the best community collections!

Collections including paper arxiv:1810.04805

Lost in the Middle: How Language Models Use Long Contexts

Paper • 2307.03172 • Published Jul 6, 2023 • 35
BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

Paper • 1810.04805 • Published Oct 11, 2018 • 14
Attention Is All You Need

Paper • 1706.03762 • Published Jun 12, 2017 • 41
Llama 2: Open Foundation and Fine-Tuned Chat Models

Paper • 2307.09288 • Published Jul 18, 2023 • 239

LLM_architectures

Nemotron-4 15B Technical Report

Paper • 2402.16819 • Published Feb 26 • 42
Griffin: Mixing Gated Linear Recurrences with Local Attention for Efficient Language Models

Paper • 2402.19427 • Published Feb 29 • 52
RWKV: Reinventing RNNs for the Transformer Era

Paper • 2305.13048 • Published May 22, 2023 • 12
Reformer: The Efficient Transformer

Paper • 2001.04451 • Published Jan 13, 2020

Papers related to current works and research

Word Alignment by Fine-tuning Embeddings on Parallel Corpora

Paper • 2101.08231 • Published Jan 20, 2021 • 1
Not Low-Resource Anymore: Aligner Ensembling, Batch Filtering, and New Datasets for Bengali-English Machine Translation

Paper • 2009.09359 • Published Sep 20, 2020 • 1
Unsupervised Multilingual Alignment using Wasserstein Barycenter

Paper • 2002.00743 • Published Jan 28, 2020
Sinhala-English Word Embedding Alignment: Introducing Datasets and Benchmark for a Low Resource Language

Paper • 2311.10436 • Published Nov 17, 2023

Most influential papers

Attention Is All You Need

Paper • 1706.03762 • Published Jun 12, 2017 • 41
BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

Paper • 1810.04805 • Published Oct 11, 2018 • 14
Universal Language Model Fine-tuning for Text Classification

Paper • 1801.06146 • Published Jan 18, 2018 • 6
Language Models are Few-Shot Learners

Paper • 2005.14165 • Published May 28, 2020 • 11

This collection refers to the foundational papers in the area of NLP.

Attention Is All You Need

Paper • 1706.03762 • Published Jun 12, 2017 • 41
MetaGPT: Meta Programming for Multi-Agent Collaborative Framework

Paper • 2308.00352 • Published Aug 1, 2023 • 2
BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

Paper • 1810.04805 • Published Oct 11, 2018 • 14
XLNet: Generalized Autoregressive Pretraining for Language Understanding

Paper • 1906.08237 • Published Jun 19, 2019

Literature review on transformer architecture and what followed.

Universal Language Model Fine-tuning for Text Classification

Paper • 1801.06146 • Published Jan 18, 2018 • 6
BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

Paper • 1810.04805 • Published Oct 11, 2018 • 14
FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness

Paper • 2205.14135 • Published May 27, 2022 • 9
SentencePiece: A simple and language independent subword tokenizer and detokenizer for Neural Text Processing

Paper • 1808.06226 • Published Aug 19, 2018 • 1

Attention Is All You Need

Paper • 1706.03762 • Published Jun 12, 2017 • 41
BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

Paper • 1810.04805 • Published Oct 11, 2018 • 14
Improving Text Embeddings with Large Language Models

Paper • 2401.00368 • Published Dec 31, 2023 • 79
Gemini: A Family of Highly Capable Multimodal Models

Paper • 2312.11805 • Published Dec 19, 2023 • 45

machine learning and neural network papers 📜

SMOTE: Synthetic Minority Over-sampling Technique

Paper • 1106.1813 • Published Jun 9, 2011 • 1
Scikit-learn: Machine Learning in Python

Paper • 1201.0490 • Published Jan 2, 2012 • 1
Learning Phrase Representations using RNN Encoder-Decoder for Statistical Machine Translation

Paper • 1406.1078 • Published Jun 3, 2014
Distributed Representations of Sentences and Documents

Paper • 1405.4053 • Published May 16, 2014

Embedding Papers

Improving Text Embeddings with Large Language Models

Paper • 2401.00368 • Published Dec 31, 2023 • 79
BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

Paper • 1810.04805 • Published Oct 11, 2018 • 14
Metadata Might Make Language Models Better

Paper • 2211.10086 • Published Nov 18, 2022 • 4
DecoderLens: Layerwise Interpretation of Encoder-Decoder Transformers

Paper • 2310.03686 • Published Oct 5, 2023 • 3

language-models

Mistral 7B

Paper • 2310.06825 • Published Oct 10, 2023 • 47
BloombergGPT: A Large Language Model for Finance

Paper • 2303.17564 • Published Mar 30, 2023 • 19
BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

Paper • 1810.04805 • Published Oct 11, 2018 • 14
DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter

Paper • 1910.01108 • Published Oct 2, 2019 • 14

Previous
1
2
3
Next

Company

© Hugging Face

TOS Privacy About Jobs

Website

Models Datasets Spaces Pricing Docs