Inria Paris NLP (ALMAnaCH team) (@inriaparisnlp.bsky.social)

It's been brewing for months: @inriaparisnlp.bsky.social releases CoMMA (Corpus of Multilingual Medieval Archives) ! 📚 2.5bn tokens of mostly Latin and French texts 🕰️ 800→1600 CE 📜 23k manuscripts 🖥️ 18k on the reading interface: comma.inria.fr 🔍 Paper: inria.hal.science/hal-05299220v1 (1/🧵)

loading . . .

CoMMA https://comma.inria.fr