Sobranie
Местный
Sobranie
Местный
- Статус
- Offline
- Регистрация
- 8 Янв 2021
- Сообщения
- 23
- Реакции
- 0
- Покупки через Гарант
- 0
- Продажи через Гарант
- 0
Специалисты AI VK выложили в открытый доступ датасет VK-LSVD (Large Short-Video Dataset). По словам компании VK, с помощью этого датасета инженеры и учёные смогут развивать и совершенствовать рекомендательные алгоритмы для большей персонализации разрабатываемых решений.
Выложенный датасет включает 40 млрд обезличенных уникальных взаимодействий 10 млн пользователей с 20 млн коротких видео за январь-июнь 2025, включая агрегированные лайки, дизлайки, пересылку знакомым, продолжительность просмотра и контекст воспроизведения.
В VK отмечают, что все данные в датасете представлены в формате числовых идентификаторов и обеспечивают полную конфиденциальность. Для каждого ролика предоставлен эмбеддинг, а для каждого пользователя предоставлены социально-демографические характеристики. Эти параметры позволяют исследователям строить модели, ориентированные на поведенческие данные и на контент.
Вместо деления на фиксированные размеры датасета, он позволяет настраивать выборку под задачи конкретного исследования. Инженеры могут самостоятельно задать нужный объём данных — случайным образом или по популярности. Это позволяет адаптировать датасет под реальные задачи и вычислительные мощности, которые есть у команд. И применять VK-LSVD для академических проектов и для масштабных индустриальных экспериментов.
Директор по AI в VK Дмитрий Кондрашкин заявил, что не так много больших открытых датасетов, на базе которых можно обучать и оценивать модели. Для построения точных рекомендательных алгоритмов важно учитывать не только явные реакции пользователей, но и дополнительные сигналы, например, продолжительность просмотра, контекст, содержимое. По мнению Кондрашкина, VK-LSVD представляет собой важный шаг к формированию исследовательской среды, в которой можно проверять гипотезы и строить точные модели на основе реальных данных.
VK планирует и дальше развивать выложенный датасет. Также компания планирует провести открытое соревнование для инженеров на основе VK-LSVD.
Выложенный датасет включает 40 млрд обезличенных уникальных взаимодействий 10 млн пользователей с 20 млн коротких видео за январь-июнь 2025, включая агрегированные лайки, дизлайки, пересылку знакомым, продолжительность просмотра и контекст воспроизведения.

В VK отмечают, что все данные в датасете представлены в формате числовых идентификаторов и обеспечивают полную конфиденциальность. Для каждого ролика предоставлен эмбеддинг, а для каждого пользователя предоставлены социально-демографические характеристики. Эти параметры позволяют исследователям строить модели, ориентированные на поведенческие данные и на контент.
Вместо деления на фиксированные размеры датасета, он позволяет настраивать выборку под задачи конкретного исследования. Инженеры могут самостоятельно задать нужный объём данных — случайным образом или по популярности. Это позволяет адаптировать датасет под реальные задачи и вычислительные мощности, которые есть у команд. И применять VK-LSVD для академических проектов и для масштабных индустриальных экспериментов.
Директор по AI в VK Дмитрий Кондрашкин заявил, что не так много больших открытых датасетов, на базе которых можно обучать и оценивать модели. Для построения точных рекомендательных алгоритмов важно учитывать не только явные реакции пользователей, но и дополнительные сигналы, например, продолжительность просмотра, контекст, содержимое. По мнению Кондрашкина, VK-LSVD представляет собой важный шаг к формированию исследовательской среды, в которой можно проверять гипотезы и строить точные модели на основе реальных данных.
VK планирует и дальше развивать выложенный датасет. Также компания планирует провести открытое соревнование для инженеров на основе VK-LSVD.