Июнь 2026 | В фокусе

Doctolib представил DoctoBERT: плотность терминов важнее качества текста для медицинских ИИ

Автоматическая фильтрация веб-контента по плотности терминов заменила ручную разметку и позволила создать медицинскую модель, превзошедшую лучшие существующие решения. Этот подход снимает барьер доступа к закрытым базам больниц, открывая путь к масштабированию узкоспециализированных ИИ в регионах с дефицитом данных.

Содержание

Обзор

Новая рецептура данных

Результаты и производительность

Операционные последствия и скрытые риски

Контекст и последствия

Команда Doctolib представила новый метод подготовки данных для медицинских языковых моделей, который заменяет ручную сборку текстов на автоматизированную фильтрацию и переписывание веб-контента. Вместо традиционных фильтров по «образовательной ценности» авторы доказали, что для медицинских энкодеров критична плотность медицинских терминов в тексте. Результатом стал корпус FineMed из 21,1 млн документов и семейство моделей DoctoBERT, которые на французском языке превзошли существующие решения в задачах распознавания сущностей и классификации диагнозов.

Новая рецептура данных

Традиционный подход к созданию медицинских моделей опирается на небольшие, вручную отобранные корпуса (например, научные статьи), что ограничивает разнообразие и масштаб. Авторы предложили трехэтапный конвейер для обработки сырых веб-данных из источников FineWeb-2, FinePDFs и FineWiki:

Предварительная фильтрация: Мультиязычный классификатор отсеивает нерелевантный контент, оставляя менее 10% исходных данных, которые с высокой вероятностью относятся к медицине.
Многоосевая аннотация: Каждый документ оценивается тремя легковесными моделями (дистиллированными от больших ИИ):
- Поддомен: 15 классов (от научных статей до блогов о здоровье).
- Образовательное качество: оценка от 0 до 5.
- Плотность терминов: доля символов, входящих в медицинские термины.
Усиление сигнала через переписывание: Большой языковая модель (LLM) переписывает документы, сохраняя смысл, но увеличивая плотность терминов и разнообразие контекстов. Это особенно важно для энкодеров, которые обучаются на данных многократно.

Важный нюанс: Для медицинских энкодеров показатель плотности терминов оказался эффективнее оценки образовательного качества, что противоречит практике обучения декодерных LLM, где ценится структурированность текста.

Результаты и производительность

На основе подготовленного корпуса были обучены две модели: DoctoBERT (архитектура RoBERTa, 111 млн параметров) и DoctoModernBERT (архитектура ModernBERT, 149 млн параметров, контекст до 8192 токенов). Тестирование проводилось на бенчмарке DrBenchmark и проприетарной задаче распознавания сущностей (NER) в реальных клинических записях.

Ключевые показатели на DrBenchmark (средний F1):

Модель	Мин-Макс (0–100)	Вероятность победы (WP)
DoctoBERT-fr	98,17	97,14
TransBERT-bio-fr (лучший базовый)	93,88	88,57
CamemBERT-bio	80,83	70,00
BioBERT (англ.)	29,97	15,71

Результаты на реальной задаче NER (F1):

DoctoModernBERT-fr: 79,40 (лидер)
ModernCamemBERT-bio: 78,95
BioClinical-ModernBERT: 78,74

Модели, обученные на переписанных и отфильтрованных веб-данных, показали преимущество перед моделями, обученными на чистых веб-данных или стандартных методах переписывания. Интересно, что для задачи переписывания лучшим оказался не самый большой или специализированный медицинский ИИ, а модель среднего размера Qwen3.5-35B-A3B.

Стоит учесть: Смешивание переписанных текстов с жестко отфильтрованными сырыми данными дало лучший результат, чем использование только одного из этих источников. Это указывает на важность баланса между плотностью терминов и естественным разнообразием стилей.

Операционные последствия и скрытые риски

Внедрение подобной методологии может изменить подход к созданию узкоспециализированных ИИ в России и других регионах с дефицитом размеченных данных.

Доступность данных: Метод позволяет создавать качественные медицинские корпуса для языков с низкими ресурсами (как французский в исследовании), используя общедоступный веб, что снижает зависимость от закрытых баз данных.
Эффективность обучения: Использование переписывания для увеличения плотности терминов позволяет моделям лучше учиться на ограниченных данных, так как каждый прогон обучения приносит больше полезной информации.
Зависимость от качества LLM: Качество итогового корпуса напрямую зависит от модели, которая переписывает тексты. Ошибки в генерации (галлюцинации фактов) могут быть критичны, поэтому требуется строгий контроль сохранения смысла.
Специфика архитектуры: Метод оптимизирован для энкодеров (BERT-подобных моделей), которые обучаются многоэпошным методом. Для декодерных LLM (типа GPT), обучающихся за один проход, приоритеты в фильтрации данных могут отличаться.

На фоне этого: Переход от ручного курирования к автоматизированной «рецептуре» данных позволяет масштабировать создание медицинских ИИ, но требует тщательной настройки фильтров под конкретную задачу, чтобы избежать шума от коммерческого контента.

Контекст и последствия

Исследование опубликовано 20 июня 2026 года командой из Doctolib (Франция). Все данные, включая корпус FineMed и модели DoctoBERT, доступны на Hugging Face Hub и GitHub. Работа выполнена с использованием вычислительных ресурсов IDRIS (Франция).

Для российского рынка это сигнал о том, что создание качественных медицинских ИИ возможно без доступа к закрытым базам больниц, если использовать правильные алгоритмы фильтрации открытых источников. Однако прямое применение результатов требует адаптации под русский язык и специфику российской медицинской документации.

Контакты Асектор ✉

Коротко о главном

Почему плотность терминов важнее образовательного качества?

Исследование показало, что для медицинских энкодеров критична доля символов, входящих в медицинские термины, что сделало этот показатель эффективнее традиционной оценки структурированности текста.

Какие источники данных использовались для создания корпуса FineMed?

Сырые данные были собраны из трех веб-источников: FineWeb-2, FinePDFs и FineWiki, после чего мультиязычный классификатор отфильтровал нерелевантный контент, оставив менее 10% исходного объема.

Какую роль играет переписывание текстов в процессе подготовки?

Большая языковая модель Qwen3.5-35B-A3B переписывает документы для увеличения плотности терминов и разнообразия контекстов, что позволяет моделям лучше обучаться при многократном прогоне данных.

Какие результаты показала модель DoctoBERT-fr на бенчмарке DrBenchmark?

Модель достигла среднего F1-показателя 98,17 и вероятности победы 97,14%, что позволило ей превзойти лучший базовый вариант TransBERT-bio-fr с результатом 93,88.

Какая модель заняла первое место в задаче распознавания сущностей (NER)?

Модель DoctoModernBERT-fr показала наивысший F1-показатель 79,40 на реальных клинических записях, обогнав аналогичные решения на основе CamemBERT и BioClinical.

Почему важно смешивать переписанные и сырые данные?

Комбинация текстов с высокой плотностью терминов и жестко отфильтрованных исходных данных дала лучший результат, обеспечив баланс между терминологической насыщенностью и естественным разнообразием стилей.

Когда и где были опубликованы результаты исследования?

Работа команды Doctolib была опубликована 20 июня 2026 года, а все данные и модели размещены на Hugging Face Hub и GitHub при поддержке вычислительных ресурсов IDRIS.