Hacker News Digest

Тег: #data-storage

Постов: 10

Perkeep – Personal storage system for life (perkeep.org) 🔥 Горячее

Perkeep (ранее Camlistore) — это набор открытых форматов, протоколов и программного обеспечения для моделирования, хранения, поиска, обмена и синхронизации данных в пост-ПК эру. Система позволяет навсегда сохранять любые данные — от файлов и твитов до видеофайлов объемом 5 ТБ, с доступом через телефон, браузер или FUSE-файловую систему. Проект активно развивается, и хотя он уже полезен для технических пользователей, стоит быть готовым к ошибкам и незавершенным функциям.

Основные принципы Perkeep: полный контроль пользователя над данными, открытый исходный код, паранойяльное отношение к конфиденциальности (все приватно по умолчанию) и отсутствие единой точки отказа. Разработчики стремятся обеспечить сохранность данных на протяжении 80 лет. Последний релиз — версия 0.12 "Toronto", выпущенная 11 ноября 2025 года. Для технических пользователей доступны инструкции по установке, а также видео-демонстрации с конференций LinuxFest Northwest 2018.

by nikolay • 12 ноября 2025 г. в 03:34 • 282 points

ОригиналHN

#perkeep#camlistore#data-storage#fuse#linux#git-annex#archivebox#singlefile

Комментарии (57)

  • Обсуждение в основном вращается вокруг Perkeep (Perkeep), его философии «хранить всё навсегда» и причин, по которым проект не стал мейнстримом.
  • Участники сравнивают Perkeep с традиционной файловой системой, поднимают вопросы о практичности и удобстве использования.
  • Некоторые упоминают альтернативы вроде git-annex, ArchiveBox и SingleFile, но консенсуса по поводу «серебряной пули» нет.
  • Обсуждение также затрагивает болевые точки: отсутствие у Perkeep интеграций с телефоном и облачными сервисами, а также его способности обрабатывать большие объемы данных.
  • В целом, участники сходятся во мнении, что идея «вечного хранилища» остается привлекательной, но ее реализация в виде Perkeep не решает насущные проблемы, и сообщество в целом скептически настроено по отношению к перспективе «единой платформы для всей вашей цифровой жизни».

Ask HN: What Are You Working On? (Nov 2025) 🔥 Горячее 💬 Длинная дискуссия

by david927 • 09 ноября 2025 г. в 21:02 • 414 points

ОригиналHN

#autoscaling#data-storage#web-api#data-visualization#task-management#oss#alpha#beta

Комментарии (1213)

  • Проекты охватывают от автомасштабирования кластера до генератора историй, демонстрации важности локального хранения данных и даже до создания языка программирования.
  • Среди прочего: само-обучающийся инструмент для веб-API, инструмент для визуализации данных, инструмент для создания цветовых палитр, инструмент для создания и ведения списков задач, инструмент для создания и ведения списков задач, инструмент для создания и ведения списков задач, инструмент для создания и ведения списков задач.
  • Проекты варьируются от OSS до коммерческих, от хобби до полностью само-финансируемых, и от индивидуальных до коллективных.
  • Некоторые проекты уже имеют пользователей, другие находятся в стадии альфа или бета-тестирования.

3M Diskette Reference Manual (1983) [pdf] (retrocmp.de)

Руководство 3M 1983 года описывает физическую структуру и работу дискет. Дискеты, доступные в размерах 8" и 5.25", состоят из трех основных компонентов: конверта из ПВХ, подложки и носителя информации. В конверте предусмотрены специальные отверстия и вырезы: отверстие для шпинделя привода, вырез для разрешения записи (у 5.25"), индексационное отверстие, вырез для защиты от записи (у 8"), прорез для доступа головок и вырезы для снятия напряжения. Эти элементы обеспечивают совместимость и правильную работу дискет в компьютерных системах.

Различные типы дискет (односторонние/двусторонние, низкой/высокой плотности) имеют уникальные коды и расположения индексационных отверстий для обеспечения совместимости с оборудованием. Например, у 3M 5.25" дискет индексационное отверстие расположено примерно под углом 104°, в то время как у 8" дискетов оно может находиться под разными углами в зависимости от типа. Прорез для доступа головок является наиболее важной частью конверта, так как именно через него считывающие/записывающие головки взаимодействуют с магнитной поверхностью диска.

by susam • 27 октября 2025 г. в 23:44 • 100 points

ОригиналHN

#diskette#floppy-disk#storage-media#computer-hardware#data-storage#retro-computing

Комментарии (30)

  • Дискуссия началась с того, что автор хотел показать детям дискету 5.25", но не нашёл её, зато нашёл 3.5" дискету и показал её детям, которые даже не знали, что это такое.
  • Участники обсудили, что отверстие индекс-отверстия почти никогда не использовалось, кроме как в очень старых системах.
  • Упоминались технические детали: 1.44 МБ, 1.68 МБ, «серый» сектор и т.д.
  • Были всплески ностальгии по тем временам, когда к покупке прилагалась настоящая документация.
  • В конце обсуждение свелось к тому, что дискеты всё ещё можно купить, и они всё ещё используются в промышленности.

What do we do if SETI is successful? (universetoday.com) 💬 Длинная дискуссия

Международная академия астронавтики обновляет протоколы действий при обнаружении внеземного разума — крупнейшие изменения за 36 лет. Новые рекомендации, принятые на конгрессе в Сиднее, отражают современную сложность ситуации, включая защиту исследователей от онлайн-травли. Ключевое изменение — запрет на ответное сообщение до обсуждения в ООН, что контрастирует с предыдущими версиями, допускавшими немедленный ответ.

Протокол включает методы верификации сигнала, требования к хранению данных в двух географически разделенных местах и анализ собранной информации. Для электромагнитных сигналов предлагается обратиться в Международный союз электросвязи для освобождения обнаруженной полосы частот. Эти меры остаются рекомендациями, а не обязательными правилами, и не касаются активного послания внеземным цивилизациям (METI), которое остается спорным вопросом без формальных протоколов.

by leephillips • 20 октября 2025 г. в 17:13 • 154 points

ОригиналHN

#seti#international-cooperation#communication-protocols#data-storage#international-telecommunication-union#space-exploration#ethics

Комментарии (265)

  • В обсуждении поднимаются вопросы о последствиях обнаружения сигнала SETI и о том, что делать в таком случае, включая вопросы безопасности, международного сотрудничества и этических аспектов.
  • Участники обсуждения высказывают мнение, что обнаружение сигнала может привести к панике, и что необходимо тщательно продумать, как и когда об этом сообщать.
  • Обсуждается вопрос о том, что делать, если обнаружение подтвердится, включая вопросы о том, как ответить, кто будет отвечать и что делать, если ответа не будет.
  • Также обсуждается вопрос о том, что делать, если обнаружение окажется ложным или если мы никогда не получим ответа.
  • Участники обсуждения также обсуждают вопрос о том, что делать, если обнаружение будет подтверждено, и какие последствия это может иметь для человечества.

Are hard drives getting better? (backblaze.com)

Судя по данным, жесткие диски действительно стали надежнее. Исследование Backblaze, ведущего поставщика облачных сервисов, показывает, что современные диски служат дольше и стабильнее работают в течение жизненного цикла.

Первоначальная модель "ванны" (bathtub curve) предполагала три фазы: ранние отказы, стабильный период и рост отказов по мере износа. Но данные Backblaze за 13 лет показывают, что современные диски начинают с минимальным числом ранних отказов, затем работают годами без сбоев, и только позже начинают увеличивать частоту отказов. Это больше похоже на пологий склон, чем на ванну.

В частности, средний возраст дисков в пуле Backblaze увеличился с 6-8 месяцев в 2013 году до 6-7 лет в 2024. При этом годовая норма отказов снизилась с 6,39% в 2014 году до 1,17% в 2024. Это демонстрирует значительное улучшение надежности, даже с учетом роста объема данных и изменения состава пула дисков.

Основные выводы:

  • Современные диски имеют минимальные ранние отказы, что указывает на улучшенный контроль качества.
  • Период стабильной работы удлинился, иногда до 8 лет и более.
  • Даже при увеличении срока службы, годовая норма отказов снижается, что подтверждает улучшение надежности.

Это подтверждается данными Backblaze, которые включают миллионы дней работы диска. Тенденция ясна: диски не просто служат дольше; они стабильнее на протяжении всего срока службы.

by HieronymusBosch • 15 октября 2025 г. в 17:18 • 248 points

ОригиналHN

#hard-drives#cloud-storage#hard-drive-reliability#data-storage#backup#zfs#raid#ssd#data-integrity

Комментарии (139)

  • Обсуждение охватывает широкий спектр тем: от анализа отказов жестких дисков и их долговечности до стратегий резервного копирования и восстановления данных, включая использование ZFS, RAID и облачных хранилищ.
  • Участники обмениваются личным опытом и мнениями о надежности различных производителей и моделей HDD и SSD, а также обсуждают влияние условий эксплуатации на срок службы накопителей.
  • Обсуждаются практические аспекты, такие как стоимость, энергопотребление и плотность хранения данных, а также влияние технологических усовершенствований на эти параметры.
  • Участники также затрагивают тему долгосрочного хранения данных, включая использование оптических носителей, магнитной ленты и облачных сервисов, и обсуждают их достоинства и недостатки.
  • В обсуждении также поднимается вопрос о том, какие факторы влияют на отказы накопителей и какие меры можно предпринять для обеспечения целостности данных, включая использование корректных файловых систем и регулярное тестирование состояния накопителей.

The people rescuing forgotten knowledge trapped on old floppy disks (bbc.com)

Архивисты и энтузиасты по всему миру спешат сохранить информацию с устаревших носителей, таких как дискеты, которые скоро станут нечитаемыми. В Кембриджском университете, например, команда из 20 человек оцифровывает документы Стивена Хокинга, включая его диссертацию, опасаясь, что магнитные носители могут размагничиться. Эта проблема не ограничивается академическими кругами: от Национального архива Великобритании до Би-би-си — все сталкиваются с риском потери данных на устаревших носителях.

Специалисты подчеркивают, что "цифровая темная эпоха" уже наступает, поскольку информация, созданная с 1990-х по 2010-е, может быть утеряна из-за отсутствия совместимого оборудования. В ответ на это энтузиасты, такие как Джейсон Скотт из Archive Team, активно сканируют и сохраняют данные с различных платформ, подчеркивая важность своевременного действия для спасения цифрового наследия.

by jnord • 10 октября 2025 г. в 23:36 • 83 points

ОригиналHN

#data-preservation#archival#digital-archiving#floppy-disks#data-storage#data-recovery

Комментарии (34)

  • Обсуждение охватывает широкий спектр тем: от сохранения старых дискет и форматов 3" и 5.25" до долгосрочного хранения данных и проблем устаревших носителей.
  • Участники обмениваются личным опытом, включая работу с KryoFlux, проблемы с чтением старых дисков и невозможность найти подходящие инструменты.
  • Обсуждаются различные аспекты, включая размеры дискет, формат файлов, и даже такие вещи как стоимость и доступность инструментов для чтения таких носителей.
  • Участники также затрагивают тему долговечности и надежности различных носителей и форматов, включая флоппи-диски, магнитная лента, оптические носители и даже бумажные носители.
  • В конце обсуждение сдвигается к обсуждению будущего хранения данных и необходимости в долгосрочном планировании сохранения информации.

Show HN: Timelinize – Privately organize your own data from everywhere, locally (timelinize.com) 🔥 Горячее

Timelinize — это опенсорсный инструмент для личного архивирования, который объединяет все ваши данные в единую хронологию прямо на вашем компьютере. Он поддерживает фото, видео, сообщения, геолокации, соцсети, чаты и даже данные о здоровье или путешествиях, автоматически группируя их по времени и сущностям. В отличие от облачных сервисов, ваша информация остаётся под вашим контролем — локально и приватно.

Система предлагает несколько режимов просмотра: временную шкалу, интерактивную карту мира, объединённые чаты и галерею медиа. Она умеет воспроизводить live-фото, сопоставлять данные без координат на карте и объединять записи об одних и тех же людях из разных источников. Импорт миллионов записей занимает минуты, а интерфейс позволяет гибко управлять процессом.

by mholt • 07 октября 2025 г. в 16:10 • 540 points

ОригиналHN

#opensource#data-storage#privacy#local-storage

Комментарии (137)

  • Автор разрабатывает локальное решение для хранения личных данных (Timelinize) более 10 лет, чтобы избежать зависимости от облачных сервисов
  • Пользователи выражают высокий интерес к проекту, желая расширить функционал до полного контроля над всеми цифровыми действиями (браузер, заметки, документы)
  • Ключевые вопросы сообщества: автоматическое обновление данных (вместо ручного экспорта), портативность формата хранения и возможность синхронизации между устройствами
  • Отмечается техническая сложность автоматизации сбора данных из-за требований двухфакторной аутентификации сервисов вроде Google
  • Проект использует простую структуру хранения (файлы и папки), совместимую с разными ОС, и планирует интеграцию с локальными LLM в будущем

Spiral (spiraldb.com)

Spiral: Data 3.0
Новая эпоха — машины потребляют и выдают данные петабайтами.
Postgres и Lakehouse были рассчитаны на человека: входы и выходы — килобайты.
AI-хранилище должно отдавать 4 млн изображений в секунду, иначе H100 простаивает 70 % времени.

Почему ломается стек
Parquet → Arrow → tensors → кэш → GPU: 5 лишних шагов, 10× память, 55 ч сети на 1 с GPU-нагрузки.
Мелкие файлы (100 КБ) убивают S3, эмбеддинги и картинки застревают в «мертвой зоне» 1 КБ–25 МБ.

Побочные эффекты

  1. Цена/скорость: инженеры крутят ETL вместо обучения.
  2. Безопасность: в угони скорости открывают S3 и сливают базы через MCP-коннекторы. Долг превращается в 10× технический долг.

Spiral = хранилище для машин

  • Потоковое чтение петабайтов без распаковки.
  • Поиск, сэмплы, случайные чтения за миллисекунды.
  • Модель доступа «по-умолчанию закрыто» → безопасность не тормозит.

Результат
GPU загружен, инженеры пишут модели, а не пайплайны.

by jorangreef • 11 сентября 2025 г. в 15:45 • 233 points

ОригиналHN

#postgresql#s3#llm#machine-learning#data-storage#gpu#olap#vortex#spiraldb

Комментарии (79)

  • Сайт красивый, но без технических деталей: это пресс-релиз нового формата Vortex и СУБД Spiral, а не продукт.
  • Vortex — колонковый формат «для эры ИИ», обещает прямую разгрузку из S3 в GPU, минуя CPU и сетевые задержки.
  • Критика: нет цифр, нет сравнений с Parquet/Lance/Delta, много маркетинга («AI-scale», 22 млн $ сид-раунда) и мало кода.
  • Потенциальная польза — ускорение OLAP-пайплайнов обучения моделей, но вопросы к транзакциям, изменяемости и реальному бенчмарку остаются.

Oldest recorded transaction (avi.im)

  • Шутка: глиняная табличка 3100 г до н. э. — «база данных» с 5000-летним аптаймом.
  • Проверил, какие даты принимают MySQL, Postgres, SQLite:
    – MySQL: мин. 1000 г н. э.
    – Postgres/SQLite: 4713 г до н. э. (юлианский календарь).
  • Пример: INSERT … '4713-01-01 BC'::date работает, 4714 г до н. э. — уже ошибка.
  • Вопрос: как хранить ещё более древние даты (например, экспонаты Британского музея)? Текстом, эпохой, кастомным типом?

by avinassh • 06 сентября 2025 г. в 14:34 • 170 points

ОригиналHN

#mysql#postgresql#sqlite#databases#julian-calendar#data-storage

Комментарии (84)

  • Самая ранняя письменность — это не литература, а счёты и квитанции: глиняные таблички фиксируют выдачу зерна и другие транзакции ~3300 г. до н. э.
  • Для музейных дат «около X» нет единого числового стандарта; хранят как текст либо диапазон «start/end», а сортировку и поиск делает прикладной код.
  • PostgreSQL ограничен 4713 до н. э. технически (4-байтный Julian day), но SQLite и кастомные схемы позволяют любые тексты или большие целые.
  • Подавляющее большинство записей погибло: дошедшие таблички — пример survivor bias; цифровые носители вряд ли протянут 5000 лет.
  • Пиво/ферментация упоминаются как возможный первичный двигатель оседлости и учёта задолго до клинописи.

AI surveillance should be banned while there is still time (gabrielweinberg.com) 🔥 Горячее 💬 Длинная дискуссия

  • Чем дольше люди общаются с чат-ботами, тем больше раскрывают: мысли, стиль речи, слабые места.
  • Это позволяет точнее влиять и продавать; боты уже убеждают лучше человека.
  • Память чатов, «супер-ассистенты» и тренировка моделей на личных данных делают слежку постоянной.
  • Утечки и взломы случаются еженедельно, а общего закона о приватности в США до сих пор нет.
  • Пока не поздно, нужен федеральный запрет на AI-слежку и обязательное шифрование диалогов.

by mustaphah • 06 сентября 2025 г. в 13:52 • 494 points

ОригиналHN

#llm#privacy#data-protection#chatbots#surveillance#data-encryption#openai#duckduckgo#data-breaches#data-storage

Комментарии (175)

  • Пользователи обсуждают, как AI-сервисы (чат-боты, соцсети, поисковики) собирают и навсегда хранят персональные данные, превращая их в инструменты манипуляции, таргетированной рекламы и политического давления.
  • Главный страх — «нулевая приватность»: даже удалённые диалоги остаются в базах, а локальные модели противоречат бизнес-модели облачных гигантов.
  • Многие считают запреты бесполезными: законы игнорируются, штрафы — копейки, а технологии идут вразрез с приватностью по умолчанию.
  • Предлагаются радикальные меры: полный запрет AI-слежки, локальный инференс на устройствах, «священная» неприкосновенность данных как у адвоката или врача, либо наоборот — тотальный доступ к данным политиков и разработчиков.
  • Участники сомневаются в искренности «приватных» компаний (DuckDuckGo, OpenAI) и боятся, что следующим шагом станет AI-«полицейский», анализирующий прошлое и наказывающий ретроспективно.