FineWeb-2
FineWeb-2 в новостной повестке, календарь упоминаний и aналитика в реальном времени.
Календарь упоминаний:
2026
30 июня
Doctolib использует FineWeb-2 для создания медицинского корпуса FineMed
Суть: Команда Doctolib применила автоматизированный конвейер обработки данных, где FineWeb-2 выступил одним из ключевых источников сырых веб-данных для формирования медицинского корпуса FineMed.
Фактор: Исходные данные из FineWeb-2 прошли предварительную фильтрацию мультиязычным классификатором, который оставил менее 10% контента с высокой вероятностью медицинской тематики.
Исследование: На основе отфильтрованных и переписанных текстов из FineWeb-2 был создан корпус FineMed объемом 21,1 млн документов, на котором обучены модели DoctoBERT.
Эффект: Использование данных из FineWeb-2 в сочетании с переписыванием для увеличения плотности терминов позволило моделям превзойти существующие решения на бенчмарке DrBenchmark.
FineWeb-2 имеет 1 запись событий в нашей базе.