Doctolib представил DoctoBERT: плотность терминов важнее качества текста для медицинских ИИ
Автоматическая фильтрация веб-контента по плотности терминов заменила ручную разметку и позволила создать медицинскую модель, превзошедшую лучшие существующие решения. Этот подход снимает барьер доступа к закрытым базам больниц, открывая путь к масштабированию узкоспециализированных ИИ в регионах с дефицитом данных.
Команда Doctolib представила новый метод подготовки данных для медицинских языковых моделей, который заменяет ручную сборку текстов на автоматизированную фильтрацию и переписывание веб-контента. Вместо традиционных фильтров по «образовательной ценности» авторы доказали, что для медицинских энкодеров критична плотность медицинских терминов в тексте. Результатом стал корпус FineMed из 21,1 млн документов и семейство моделей DoctoBERT, которые на французском языке превзошли существующие решения в задачах распознавания сущностей и классификации диагнозов.
Новая рецептура данных
Традиционный подход к созданию медицинских моделей опирается на небольшие, вручную отобранные корпуса (например, научные статьи), что ограничивает разнообразие и масштаб. Авторы предложили трехэтапный конвейер для обработки сырых веб-данных из источников FineWeb-2, FinePDFs и FineWiki:
- Предварительная фильтрация: Мультиязычный классификатор отсеивает нерелевантный контент, оставляя менее 10% исходных данных, которые с высокой вероятностью относятся к медицине.
- Многоосевая аннотация: Каждый документ оценивается тремя легковесными моделями (дистиллированными от больших ИИ):
- Поддомен: 15 классов (от научных статей до блогов о здоровье).
- Образовательное качество: оценка от 0 до 5.
- Плотность терминов: доля символов, входящих в медицинские термины.
- Усиление сигнала через переписывание: Большой языковая модель (LLM) переписывает документы, сохраняя смысл, но увеличивая плотность терминов и разнообразие контекстов. Это особенно важно для энкодеров, которые обучаются на данных многократно.
Важный нюанс: Для медицинских энкодеров показатель плотности терминов оказался эффективнее оценки образовательного качества, что противоречит практике обучения декодерных LLM, где ценится структурированность текста.
Результаты и производительность
На основе подготовленного корпуса были обучены две модели: DoctoBERT (архитектура RoBERTa, 111 млн параметров) и DoctoModernBERT (архитектура ModernBERT, 149 млн параметров, контекст до 8192 токенов). Тестирование проводилось на бенчмарке DrBenchmark и проприетарной задаче распознавания сущностей (NER) в реальных клинических записях.
Ключевые показатели на DrBenchmark (средний F1):
| Модель | Мин-Макс (0–100) | Вероятность победы (WP) |
|---|---|---|
| DoctoBERT-fr | 98,17 | 97,14 |
| TransBERT-bio-fr (лучший базовый) | 93,88 | 88,57 |
| CamemBERT-bio | 80,83 | 70,00 |
| BioBERT (англ.) | 29,97 | 15,71 |
Результаты на реальной задаче NER (F1):
- DoctoModernBERT-fr: 79,40 (лидер)
- ModernCamemBERT-bio: 78,95
- BioClinical-ModernBERT: 78,74
Модели, обученные на переписанных и отфильтрованных веб-данных, показали преимущество перед моделями, обученными на чистых веб-данных или стандартных методах переписывания. Интересно, что для задачи переписывания лучшим оказался не самый большой или специализированный медицинский ИИ, а модель среднего размера Qwen3.5-35B-A3B.
Стоит учесть: Смешивание переписанных текстов с жестко отфильтрованными сырыми данными дало лучший результат, чем использование только одного из этих источников. Это указывает на важность баланса между плотностью терминов и естественным разнообразием стилей.
Операционные последствия и скрытые риски
Внедрение подобной методологии может изменить подход к созданию узкоспециализированных ИИ в России и других регионах с дефицитом размеченных данных.
- Доступность данных: Метод позволяет создавать качественные медицинские корпуса для языков с низкими ресурсами (как французский в исследовании), используя общедоступный веб, что снижает зависимость от закрытых баз данных.
- Эффективность обучения: Использование переписывания для увеличения плотности терминов позволяет моделям лучше учиться на ограниченных данных, так как каждый прогон обучения приносит больше полезной информации.
- Зависимость от качества LLM: Качество итогового корпуса напрямую зависит от модели, которая переписывает тексты. Ошибки в генерации (галлюцинации фактов) могут быть критичны, поэтому требуется строгий контроль сохранения смысла.
- Специфика архитектуры: Метод оптимизирован для энкодеров (BERT-подобных моделей), которые обучаются многоэпошным методом. Для декодерных LLM (типа GPT), обучающихся за один проход, приоритеты в фильтрации данных могут отличаться.
На фоне этого: Переход от ручного курирования к автоматизированной «рецептуре» данных позволяет масштабировать создание медицинских ИИ, но требует тщательной настройки фильтров под конкретную задачу, чтобы избежать шума от коммерческого контента.
Контекст и последствия
Исследование опубликовано 20 июня 2026 года командой из Doctolib (Франция). Все данные, включая корпус FineMed и модели DoctoBERT, доступны на Hugging Face Hub и GitHub. Работа выполнена с использованием вычислительных ресурсов IDRIS (Франция).
Для российского рынка это сигнал о том, что создание качественных медицинских ИИ возможно без доступа к закрытым базам больниц, если использовать правильные алгоритмы фильтрации открытых источников. Однако прямое применение результатов требует адаптации под русский язык и специфику российской медицинской документации.