Онлайн-пираты выкачали из Spotify 300 ТБ данных
Онлайн-проект Anna's Archive скопировал часть музыкальной библиотеки Spotify и создал архив, который опубликовал в свободном доступе. Пираты забрали и метаданные, и сами музыкальные файлы общим объёмом 300 терабайт. База включает метаданные 256 млн треков и 186 млн уникальных ISRC. По словам участников Anna's Archive, это крупнейшая публично доступная музыкальная база данных. Для сравнения: у других таких проектов в базах данных содержится от 50 до 150 млн треков, а у кого-то — 5 млн уникальных ISRC. Самих музыкальных файлов Spotify собрано 86 млн — это 37% от всех треков платформы, на которые приходится 99,6% всех прослушиваний.
Проект Anna's Archive специализируется на текстах: книгах и научных статьях. Своей миссией проект называет сохранение знаний и культуры человечества без ограничений по типу медиа.
Для выкачивания музыки из Spotify пиратский проект использовал скрейпинг. Саму возможность скрейпинга команда нашла некоторое время назад и решила создать музыкальный архив. Для приоритизации треков использовали метрику популярности Spotify. Значение от 0 до 100 рассчитывалось алгоритмом на основе количества воспроизведений и их свежести.
Статистика проекта показала, что 70% песен на платформе почти никто не слушает. Количество воспроизведений не превышает тысячи. Большинство прослушиваний приходится на песни с популярностью от 50 до 80, хотя таких всего 210 тысяч — 0,1% от общего числа.
Треки с популярностью выше 0 были выкачаны почти все, для треков с популярностью 0 выборка делалась по вторичной метрике, например, подписчики исполнителя и популярность альбома.
Сбор песен остановили на 300 терабайтах из-за того, что его продолжение требовало бы больше затрат, чем принесло бы пользы. Как утверждают участники Anna's Archive, полный архив музыкального сервиса составил бы 700 терабайт. Кроме того, песни с нулевой популярностью низкого качества, многие сгенерированы ИИ, поэтому в их сохранении нет смысла. Архив собран до июля 2025 года. Треки, вышедшие позже, могут отсутствовать, хотя некоторые всё же попали в коллекцию. Данные раздают желающим в двух форматах.
Музыкальная база данных на торрентах от Anna's Archive с метаданными содержит около 99,9% исполнителей, альбомов и треков, выкачанных из Spotify. Архив публикуется как базы SQLite. Файлы раздают в собственном формате Anna's Archive Containers (не путать с форматом AAC). Стандарт команда создала несколько лет назад для распределения файлов через несколько торрентов. В файлы добавили метаданные: название, URL, ISRC, UPC, обложку альбома, информацию о громкости.
Для треков с популярностью выше 0 сохранили оригинальное качество OGG Vorbis на 160 кб/с, для музыки с нулевой популярностью — OGG Opus на 75 кб/с. Базу будут выкладывать поэтапно. В декабре 2025 года опубликовали метаданные. Сами музыкальные файлы планируют выпускать по популярности — от большей к меньшей.