---
title: README
emoji: 📚
colorFrom: blue
colorTo: indigo
sdk: static
pinned: false
short_description: Phrase-level segmentation and alignment for medieval texts.
---

# ProMeTEXT

**ProMeTEXT** — the **Centre for PROcessing MEdieval TEXTs** — develops datasets, models and tools for the computational study of medieval and historical texts.

Our work focuses on **phrase-level segmentation**, **multilingual alignment**, and the processing of medieval textual traditions across Romance languages, Latin, and Middle English.

## Resources

- **Aquilign** — a multilingual aligner for historical and philological corpora.
- **Aquilign Multilingual Segmenter** — a Hugging Face model for phrase-level segmentation of historical texts.
- **Aquilign Explorer** — a demo app for demonstrating multilingual alignment workflows.
- **Multilingual Segmentation Dataset** — gold-standard segmentation data for medieval prose.
- **Parallel Alignment Corpora** — multilingual aligned corpora used for fine-tuning LaBSE and evaluating multilingual alignment across historical textual traditions.
   
## Links

- [GitHub organization](https://github.com/ProMeText)
- [Alignment tool: Aquilign](https://github.com/ProMeText/Aquilign)
- [Demo app: Aquilign Explorer](https://huggingface.co/spaces/ProMeText/aquilign-explorer)
- [Segmentation model: Aquilign Multilingual Segmenter](https://huggingface.co/ProMeText/aquilign-multilingual-segmenter)
- [Segmentation dataset](https://github.com/ProMeText/multilingual-segmentation-dataset)
- [Parallel corpora](https://github.com/ProMeText/parallelium-scriptures-alignment-dataset)