DoctoBERT
DoctoBERT в новостной повестке, календарь упоминаний и aналитика в реальном времени.
Календарь упоминаний:
Doctolib представила модель DoctoBERT, обученную на автоматически очищенном корпусе FineMed
Суть: Команда Doctolib создала семейство моделей DoctoBERT на основе нового метода подготовки данных, где критическим фактором качества стала плотность медицинских терминов, а не образовательная ценность текста.
Событие: 20 июня 2026 года исследование и модели DoctoBERT были опубликованы на Hugging Face Hub и GitHub командой Doctolib.
Исследование: Модель DoctoBERT (111 млн параметров) показала средний F1-скор 98,17 на бенчмарке DrBenchmark, превзойдя лучшие существующие решения для французского языка.
Инсайт: Для медицинских энкодеров, таких как DoctoBERT, показатель плотности терминов оказался более эффективным индикатором качества данных, чем традиционная оценка образовательного уровня текста.
Фактор: Обучение DoctoBERT проводилось на смешанном корпусе, сочетающем жестко отфильтрованные сырые данные и тексты, переписанные LLM для увеличения терминологической насыщенности.
DoctoBERT имеет 1 запись событий в нашей базе.