HuggingFaceFW/fineweb
Viewer • Updated • 52.5B • 970k • 2.81k
How to use sergeyzh/rubert-mini-retriever with sentence-transformers:
from sentence_transformers import SentenceTransformer
model = SentenceTransformer("sergeyzh/rubert-mini-retriever")
sentences = [
"Это счастливый человек",
"Это счастливая собака",
"Это очень счастливый человек",
"Сегодня солнечный день"
]
embeddings = model.encode(sentences)
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [4, 4]How to use sergeyzh/rubert-mini-retriever with Transformers:
# Load model directly
from transformers import AutoTokenizer, AutoModel
tokenizer = AutoTokenizer.from_pretrained("sergeyzh/rubert-mini-retriever")
model = AutoModel.from_pretrained("sergeyzh/rubert-mini-retriever")Быстрая модель BERT для задач текстового поиска (retrieval). Модель получена дистилляцией эмбеддингов русских и английских текстов BAAI/bge-m3.
Основные характеристики модели:
from sentence_transformers import SentenceTransformer
model = SentenceTransformer('sergeyzh/rubert-mini-retriever')
sentences = ["привет мир", "hello world", "здравствуй вселенная"]
embeddings = model.encode(sentences)
print(model.similarity(embeddings, embeddings))
Оценки модели на задачах текстового поиска для русского языка:
| Model Name | MIRACL Reranking | MIRACL Retrival | RiaNews Retrieval | RuBQ Reranking | RuBQ Retrieval | Average |
|---|---|---|---|---|---|---|
| bge-m3 | 0,654 | 0,702 | 0,830 | 0,740 | 0,712 | 0,728 |
| multilingual-e5-small | 0,591 | 0,590 | 0,700 | 0,715 | 0,685 | 0,656 |
| rubert-mini-frida | 0,601 | 0,571 | 0,721 | 0,711 | 0,654 | 0,652 |
| rubert-mini-retriever | 0,609 | 0,599 | 0,698 | 0,700 | 0,642 | 0,650 |
Оценки модели на задачах текстового поиска для английского языка:
| Model Name | AILA Statutes | Argu Ana | Legal Bench Corporate Lobbying | SCIDOCS | Stack Overflow QA | Statcan Dialogue Dataset Retrieval | Wikipedia Retrieval Multilingual | Average |
|---|---|---|---|---|---|---|---|---|
| bge-m3 | 0,298 | 0,539 | 0,904 | 0,164 | 0,806 | 0,284 | 0,924 | 0,560 |
| rubert-mini-retriever | 0,208 | 0,496 | 0,903 | 0,125 | 0,585 | 0,197 | 0,913 | 0,489 |
| multilingual-e5-small | 0,190 | 0,391 | 0,895 | 0,139 | 0,819 | 0,103 | 0,887 | 0,489 |
| rubert-mini-frida | 0,190 | 0,459 | 0,890 | 0,121 | 0,492 | 0,174 | 0,889 | 0,459 |