FineWeb-2


FineWeb-2 в новостной повестке, календарь упоминаний и aналитика в реальном времени.

Календарь упоминаний:

2026
30 июня

Doctolib использует FineWeb-2 для создания медицинского корпуса FineMed

Суть: Команда Doctolib применила автоматизированный конвейер обработки данных, где FineWeb-2 выступил одним из ключевых источников сырых веб-данных для формирования медицинского корпуса FineMed.

Фактор: Исходные данные из FineWeb-2 прошли предварительную фильтрацию мультиязычным классификатором, который оставил менее 10% контента с высокой вероятностью медицинской тематики.

Исследование: На основе отфильтрованных и переписанных текстов из FineWeb-2 был создан корпус FineMed объемом 21,1 млн документов, на котором обучены модели DoctoBERT.

Эффект: Использование данных из FineWeb-2 в сочетании с переписыванием для увеличения плотности терминов позволило моделям превзойти существующие решения на бенчмарке DrBenchmark.

Подробнее →


FineWeb-2 имеет 1 запись событий в нашей базе.