Hacker News Digest

21 августа 2025 г. в 14:39 • arxiv.org • ⭐ 208 • 💬 45

OriginalHN

#bert#transformers#machine-learning#deep-learning#wearables#healthcare#time-series-analysis#apple#healthkit#arxiv

Beyond sensor data: Foundation models of behavioral data from wearables

Ключевая идея:
Используем не сырые показания сенсоров, а «поведенческие» признаки (шаги, сон, ЧСС, калории и т. д.), извлечённые из носимых устройств. На их основе обучаем фундаментальную модель (FM) с архитектурой BERT-подобного трансформера.

Данные:

  • 1,2 млн человек, 1,3 млрд дней наблюдений (Fitbit).
  • 7 категорий признаков: активность, сон, ЧСС, калории, BMI, возраст, пол.
  • Представление временных рядов: токенизируем каждый день (max 512 токенов), добавляем «класс» токен для задачи предсказания.

Обучение:

  • 110M-параметровый трансформер, MLM + задача предсказывать следующий день.
  • 16 GPU, 3 дня.

Результаты:

  • На 15 задачах здоровья FM превосходит CNN/RNN/LSTM/GBDT на 6–18 % AUROC.
  • Особенно сильно улучшение при малых выборках (до +25 %).
  • Zero-shot перенос на NIH All of Us (≈ 12 тыс. человек) без дообучения сохраняет 90 % качества.

Абляции:

  • Удаление любой группы признаков падает AUROC на 1–3 %.
  • Уменьшение модели до 35 M параметров теряет 2–4 %, но всё ещё лучше бейзлайнов.

Применение:

  • Личные «цифровые двойники» для раннего выявления диабета, гипертонии, депрессии.
  • Данные и веса модели будут открыты.