Hacker News Digest

Тег: #data-analysis

Постов: 24

I analyzed the lineups at the most popular nightclubs (dev.karltryggvason.com)

by kalli • 06 ноября 2025 г. в 13:37 • 160 points

ОригиналHN

#data-analysis#visualization

Комментарии (79)

  • Обсуждение выявило множество проблем с качеством исходных данных: клубы путаются с барами, отсутствуют важные площадки, а визуализации не показывают, как эти данные могут быть полезны.
  • Критика также затрагивает визуализацию: она красива, но не показывает, как она может быть использована, и не отвечает на вопросы о демографии посетителей.
  • В дискуссии поднимаются вопросы о том, какие именно места стоит включать в датасет, и какие критерии использовать для определения "популярности".
  • Некоторые комментаторы указывают на то, что визуализация не показывает, какие именно диджеи играют в клубах, и что это может быть важнее, чем просто список клубов.
  • В целом, обсуждение подчеркивает, что визуализация красива, но не решает проблему отсутствия или неточности в данных, и не показывает, как она может быть использована для принятия решений.

Claude for Excel (claude.com) 🔥 Горячее 💬 Длинная дискуссия

by meetpateltech • 27 октября 2025 г. в 16:09 • 648 points

ОригиналHN

#excel#llm#automation#finance#vba#data-analysis

Комментарии (443)

  • Потенциал для повышения продуктивности в Excel через анализ формул, навигацию по моделям и автоматизацию рутинных задач, особенно в финансовом секторе.
  • Серьезные опасения по поводу ошибок (галлюцинаций), безопасности данных, отсутствия контроля версий и сложности проверки сложных AI-сгенерированных таблиц.
  • Технические ограничения: отсутствие поддержки ключевых функций (пивот-таблицы, VBA), проблемы с пониманием структуры таблиц и необходимость гибридных подходов.
  • Активная конкуренция со стороны существующих решений (Gemini в Google Sheets, Copilot) и стартапов (Calcapp, Rows).
  • Шутки и мрачные прогнозы о потенциальных катастрофических последствиях для финансовой стабильности и глобальной экономики.

IRS open sources its fact graph (github.com)

GitHub выпустила Fact Graph — инструмент для анализа и визуализации информации с открытым исходным кодом. Он помогает разработчикам и исследователям быстро находить связи между различными сущностями, например, людьми, организациями и событиями, делая данные более доступными и удобными для анализа.

Основное применение — это анализ больших объёмов данных, где Fact Graph помогает выявлять скрытые закономерности и связи. Это особенно полезно для журналистов, исследователей и разработчиков, работающих с открытыми данными. Инструмент работает через API и поддерживает интеграцию с другими системами, такими как Elasticsearch и Neo4j.

Ключевые особенности включают поддержку графовых запросов, визуализацию связей и возможность расширения через плагины. Разработчики подчёркивают, что инструмент особенно полезен в сферах анализа социальных сетей, журналистики данных и академических исследований. Исходный код доступен на GitHub, что позволяет сообществу вносить свой вклад и улучшать функциональность.<|begin▁of▁sentence|>

by ronbenton • 15 октября 2025 г. в 23:24 • 233 points

ОригиналHN

#fact-graph#data-analysis#data-visualization#graph-databases#elasticsearch#neo4j#api#open-source#taxation#data-journalism

Комментарии (60)

  • Обсуждение началось с вопроса о том, где находятся фактические файлы налогового кодекса, и вылилось в обсуждение того, что IRS Direct File был отменён, а фактический график и инструменты для работы с ним были выложены в открытый доступ.
  • Участники обсудили, что фактический график может быть использован для прозрачности и возможно LLM-интеграции, но также вызвал вопросы о том, как он может быть использован для предоставления налоговых советов и был ли он предназначен для использования вне контекста Direct File.
  • Обсуждались также вопросы о том, как налоговый кодекс может быть использован для предоставления налоговых советов и был ли он предназначен для использования вне контекста Direct File.
  • Также обсуждались вопросы о том, какие альтернативы TurboTax и другим коммерческим программам существуют и как они могут быть использованы.
  • Наконец, обсуждались вопросы о том, как налоговый кодекс может быть использован для предоставления налоговых советов и был ли он предназначен для использования вне контекста Direct File.

What Americans die from vs. what the news reports on (ourworldindata.org) 🔥 Горячее 💬 Длинная дискуссия

Исследование Our World in Data показывает значительный разрыв между реальными причинами смерти в США и тем, что освещают СМИ. Анализ данных CDC за 2023 год показывает, что основные причины смерти (сердечно-сосудистые заболевания, рак, респираторные болезни) практически не получают должного внимания в прессе. Вместо этого СМИ концентрируются на редких событиях, таких как теракты и убийства. Три крупнейших издания - New York Times, Washington Post и Fox News - демонстрируют поразительно схожие паттерны освещения тем, несмотря на их политические различия.

Хотя Fox News немного чаще упоминает убийства, а NYT - теракты, различия в выборе тем несущественны. Исследование охватывает 76% всех смертей в США, включая 12 основных причин плюс убийства, передозировки наркотиков и терроризм. Парадоксально, что хотя более 80% людей следят за новостями, чтобы "узнать, что происходит в мире", а NYT заявляет, что помогает "понять мир", их освещение реальных угроз здоровью не соответствует действительности.

by alphabetatango • 14 октября 2025 г. в 18:40 • 583 points

ОригиналHN

#data-analysis#media-bias#health-statistics#news-media#cdc#ourworldindata

Комментарии (366)

  • Смертность от сердечно-сосудистых заболеваний и рака составляет 56% всех смертей, но получает лишь 7% медийного освещения, в то время как терроризм и убийства, вызывающие менее 0,5% смертей, занимают непропорционально большую долю новостного пространства.
  • СМИ фокусируются на редких, но драматичных событиях, потому что это увеличивает трафик и, следовательно, доходы от рекламы.
  • Показатели смертности от сердечно-сосудистых заболеваний и рака в США составляют 56% всех смертей, но получают лишь 7% медийного освещения.
  • СМИ не отражают главные причины смертности, такие как болезни сердца и рак, которые вместе ответственны за более чем половину всех смертей.
  • Вместо этого, они фокусируются на редких, но драматичных событиях, таких как терроризм и убийства, которые вместе ответственны за <0.5% смертей.

AI and the Future of American Politics (schneier.com)

ИИ уже меняет американскую политику, готовясь сыграть еще более значимую роль на выборах 2026 года. За последние годы мы видели множество примеров, как ИИ используется для распространения дезинформации — от троллей в соцсетях и иностранных влиятелей до политических операций. Разные группы по-разному подходят к ИИ: профессиональные кампании используют его для оптимизации, организаторы — для переосмысления построения движений, а граждане — для самовыражения. Из-за отсутствия правил и регулирования нет надзора за этими действиями и нет гарантий против потенциальных разрушительных воздействий на демократию.

Кампании фокусируются на эффективности, используя ИИ для персонализации писем, отправки запросов о пожертвованиях и выбора целевых аудиторий. Прогрессивная группа Tech for Campaigns сократила время на составление запросов о пожертвованиях на треть. ИИ масштабирует эти возможности, что делает их еще более повсеместными. Джейсон Палмер, малоизвестный демократический претендент на Байдена, успешно выиграл праймериз Американского Самоа, используя ИИ-аватары. Такие тактики, как использование ИИ-робозвонков или аватаров для дебатов, сначала использовались как пиар-трюки, но к 2026 году избиратели, вероятно, привыкнут к ним.

by zdw • 13 октября 2025 г. в 14:51 • 88 points

ОригиналHN

#artificial-intelligence#politics#disinformation#campaigns#data-analysis#llm

Комментарии (36)

  • Обсуждение в основном вращается вокруг влияния ИИ на выборы: от автоматизированных армий троллей до «сдвигающих» голосов в ключевых штатах.
  • Участники спорят, насколько реально влияние ИИ на избирателей и насколько оно отличается от классических методов влияния.
  • Поднимается вопрос о том, что вся политическая система США уже настолько деградировала, что ИИ не может усугубить ситуацию.
  • Обсуждается, как ИИ может быть использован для сбора и анализа данных, что может быть использовано для влияния на выборы.
  • Поднимается вопрос о том, что вся система уже настолько коррумпирована, что ИИ просто делает более эффективной ту же самую коррупцию.

John Jumper: AI is revolutionizing scientific discovery [video] (youtube.com)

YouTube — это глобальная видеоплатформа, принадлежащая Google LLC, предоставляющая пользователям доступ к разнообразному контенту. Сервис включает функции для создателей, рекламодателей и разработчиков, а также регулируется политиками авторского права, конфиденциальности и безопасности.

Пользователи могут тестировать новые функции, а также использовать такие услуги, как NFL Sunday Ticket. Платформа активно развивается, предлагая инструменты для монетизации и взаимодействия с аудиторией, сохраняя при этом прозрачность в отношении своих правил и принципов работы.

by sandslash • 29 сентября 2025 г. в 15:20 • 105 points

ОригиналHN

#llm#machine-learning#scientific-discovery#data-analysis#robotics#youtube

Комментарии (67)

  • Обсуждается потенциал ИИ для ускорения научных открытий, включая решение сложных математических задач (например, уравнений Навье-Стокса) и помощь в разработке лекарств.
  • Поднимаются вопросы о роли ИИ как инструмента, а не самостоятельного ученого, и о необходимости его интеграции с робототехникой для взаимодействия с реальным миром.
  • Высказывается скептицизм относительно реальных достижений ИИ, критика PR-кампаний и утверждения, что многие попытки применения ИИ в науке пока не приносят существенных результатов.
  • Отмечается, что прогресс в науке часто зависит от количества ресурсов и экспериментов, а ИИ может служить инструментом для более эффективного анализа данных и навигации в сложных пространствах проблем.
  • Обсуждается важность признания авторитетными учеными из не-ИИ областей для укрепления доверия к заявлениям о революционной роли ИИ в науке.

Bayesian Data Analysis, Third edition (2013) [pdf] (sites.stat.columbia.edu) 🔥 Горячее

by ibobev • 28 сентября 2025 г. в 17:23 • 303 points

ОригиналHN

#bayesian-statistics#hierarchical-modeling#data-analysis#statistics#probability-theory

Комментарии (61)

  • Книга "Bayesian Data Analysis" Эндрю Гельмана высоко оценивается как фундаментальный труд по байесовской статистике и иерархическому моделированию, полезный для глубокого изучения темы.
  • Участники обсуждают альтернативные ресурсы для изучения темы, такие как "Statistical Rethinking" (более доступный для начинающих), "Doing Bayesian Data Analysis" и "Probability Theory" Джейнса, а также онлайн-курсы и блоги.
  • Поднимается вопрос о практической пользе и актуальности байесовских методов в эпоху больших данных и foundation models, с выводом, что они остаются фундаментальными для задач с ограниченными данными и оценки неопределённости.
  • Отмечается, что книга предназначена для продвинутой аудитории (например, аспирантов), и для её понимания может потребоваться база в математической статистике.
  • Инженеры на местах часто не спешат осваивать байесовские методы, несмотря на их элегантность и практическую пользу для решения конкретных задач, таких как определение размера выборки.

Show HN: Dayflow – A git log for your day (github.com) 🔥 Горячее

Dayflow автоматически создаёт таймлайн дня на основе данных с устройств Apple. Он использует машинное обучение для анализа активности, местоположения и приложений, превращая сырые данные в структурированную хронологию событий. Это помогает пользователям визуализировать, как проходит их день, без ручного ввода.

Проект работает локально, обеспечивая конфиденциальность данных, и поддерживает экспорт в JSON или Markdown для дальнейшего использования. Полезно для самоанализа, ведения дневника или отслеживания продуктивности.

by jerryliu12 • 24 сентября 2025 г. в 14:53 • 407 points

ОригиналHN

#machine-learning#apple#json#markdown#privacy#productivity#data-analysis#local-storage#github

Комментарии (115)

  • Предложения по применению: для юристов и фрилансеров для учёта рабочего времени, для людей с СДВГ для анализа отвлечений, для автоматизации отчётов на стендапах.
  • Обеспокоенность приватностью и безопасностью: отправка скриншотов в облако вызывает опасения по поводу паролей и конфиденциальных данных; предпочтение отдаётся локальным моделям.
  • Технические вопросы и предложения: работа с несколькими мониторами, частота записи, интеграция с другими данными (Apple Health), создание API для расширений.
  • Юридические и этические аспекты: необходимость согласия на запись в видеозвонках, потенциальное misuse со стороны работодателей для контроля сотрудников.
  • Позитивные отзывы: отмечается удобство, качественный UX и возможность использования локальных моделей для конфиденциальности.

Cosmic simulations that once needed supercomputers now run on a laptop (sciencedaily.com)

Новый эмулятор Effort.jl позволяет проводить сложнейшие космологические симуляции на обычном ноутбуке, тогда как раньше для этого требовались суперкомпьютеры. Он имитирует поведение модели EFTofLSS, которая статистически описывает крупномасштабную структуру Вселенной, и выдаёт результаты с той же точностью — иногда даже с большей детализацией — всего за несколько минут.

Ключевой прорыв заключается в комбинации нейросетей с заранее заложенными физическими знаниями о том, как меняются предсказания при изменении параметров. Это резко сокращает время обучения и вычислений. Эмулятор уже протестирован на данных обзора DESI и готов к работе с новыми масштабными проектами, такими как Euclid, открывая возможность быстрого анализа растущих объёмов астрономических данных без потери научной строгости.

by leephillips • 23 сентября 2025 г. в 13:11 • 154 points

ОригиналHN

#julia#machine-learning#neural-networks#cosmology#simulation#data-analysis#astronomy

Комментарии (43)

  • Критика вводящего в заблуждение заголовка: инструмент является не симуляцией, а эмулятором на основе нейросетей, созданным для аппроксимации результатов дорогих вычислений.
  • Обсуждение потенциальных ограничений метода: возможность накопления ошибок при последовательном прогнозировании и сомнения в заявлениях о превосходстве над оригинальной моделью.
  • Подчеркивание практической ценности эмуляторов для астрофизики и других областей как быстрых и дешевых инструментов для исследования параметров.
  • Проведение параллелей с аналогичными гибридными подходами в других областях (прогноз погоды, предсказание структуры белка, DLSS).
  • Упоминание реализации проекта на языке Julia и обсуждение его потенциала в ML/AI на фоне доминирования Python.

R MCP Server (github.com)

Разработан сервер RMCP для взаимодействия с моделями через стандартизированный протокол MCP (Model Context Protocol). Это позволяет инструментам разработки, таким как редакторы кода и IDE, безопасно подключаться к ИИ-моделям и получать от них данные, контекст и исполняемые команды.

Сервер обеспечивает стандартизированный интерфейс для запросов к моделям, упрощая интеграцию ИИ в рабочие процессы разработки. Подход повышает безопасность и контролируемость, отделяя инструменты от конкретных реализаций моделей.

by neehao • 17 сентября 2025 г. в 00:18 • 93 points

ОригиналHN

#r#mcp#llm#data-analysis#statistics#github

Комментарии (13)

  • Обсуждение выражает скептицизм по поводу способности инструмента преодолеть фундаментальные проблемы анализа данных, такие как смещения в данных и ошибки в построении выборок.
  • Участники отмечают существование альтернативных решений (пакет mcptools) и задаются вопросом о целесообразности разработки именно этого проекта.
  • Высказываются опасения, что автоматизация статистического анализа с помощью ИИ усугубит проблемы p-хакерства и приведет к потоку некачественных исследований.
  • Поднимается вопрос о практической необходимости сервера для R, учитывая, что современные ИИ (например, GPT-5) уже могут использовать Python для вычислений.
  • Отмечается, что инструмент не защищает пользователей от статистической безграмотности и не заменяет критического мышления и понимания процесса сбора данных.

How People Use ChatGPT [pdf] (cdn.openai.com)

Как люди используют ChatGPT

Несмотря на быстрое внедрение чат-ботов на основе больших языковых моделей (LLM), мало что известно об их реальном использовании. Мы анализируем рост потребительского продукта ChatGPT с момента запуска в ноябре 2022 года по июль 2025 года, когда его использовали около 10% взрослого населения мира.

Ранние пользователи были преимущественно мужчинами, но гендерный разрыв значительно сократился. Наблюдается более высокий рост использования в странах с низким уровнем дохода. С помощью автоматизированного конвейера, сохраняющего конфиденциальность, мы классифицируем шаблоны использования в репрезентативной выборке чатов ChatGPT.

Обнаружен стабильный рост рабочих сообщений, но ещё более быстрый рост нерабочих сообщений — их доля увеличилась с 53% до более чем 70% от общего использования. Рабочее использование более характерно для образованных пользователей в высокооплачиваемых профессиональных сферах.

Три наиболее распространённые темы чатов: «Практические рекомендации», «Поиск информации» и «Написание текстов» — вместе составляют почти 80% всех разговоров. Написание текстов доминирует в рабочих задачах, что подчёркивает уникальную способность чат-ботов генерировать цифровые результаты по сравнению с традиционными поисковыми системами. Программирование и самовыражение составляют относительно небольшие доли использования.

В целом ChatGPT предоставляет экономическую ценность через поддержку принятия решений, что особенно важно в наукоёмких профессиях.

by nycdatasci • 15 сентября 2025 г. в 19:14 • 143 points

ОригиналHN

#llm#data-analysis#user-behavior#market-trends#api

Комментарии (73)

  • Непрофессиональное использование ChatGPT выросло в 8 раз за год и составляет 73% всех запросов, что указывает на доминирование потребительского рынка.
  • Высказано предположение, что соотношение рабочего и нерабочего использования изменится через 2-3 года из-за активного внедрения ИИ в рабочие процессы через API.
  • Пользователи часто переключаются между разными ИИ-инструментами (ChatGPT, Perplexity, Copilot) в зависимости от удобства, не проявляя особой лояльности.
  • Основные варианты использования: практические советы, поиск информации и письмо, на которые приходится почти 80% всего использования.
  • Портрет типичного пользователя: молодой, всё чаще женского пола, глобальный, с самым быстрым ростом adoption в странах с низким уровнем дохода.
  • Данные могут быть неполными, так как исследование основано на потребительских тарифах и не учитывает корпоративное использование (Enterprise, Teams, API, Copilot).
  • Обсуждается будущая бизнес-модель: возможен переход к модели коммунального сервиса (utility) с ежемесячной подпиской или внедрение рекламы.
  • Корпоративное внедрение сталкивается с высоким трением: юридические вопросы, интеграция, контроль доступа, утечки данных и инерция.
  • Личные данные и история чатов пользователей являются потенциальным «золотым дном» для монетизации через целевой маркетинг.

NASA's Guardian Tsunami Detection Tech Catches Wave in Real Time (jpl.nasa.gov)

Технология обнаружения цунами GUARDIAN от NASA в реальном времени зафиксировала волну, вызванную землетрясением магнитудой 8,8 у побережья Камчатки в конце июля. Система, разработанная в Лаборатории реактивного движения, предупредила о приближении цунами на 30-40 минут раньше, чем традиционные прибрежные датчики.

GUARDIAN отслеживает возмущения в ионосфере, вызванные акустическими волнами от землетрясений. Экспериментальная система генерирует оповещения в течение 10 минут после получения данных, предоставляя дополнительный источник информации для существующих систем предупреждения.

Хотя интерпретация данных требует экспертной оценки, технология может стать ценным дополнением к дорогостоящим океанским датчикам, помогая своевременно эвакуировать население прибрежных районов.

by geox • 12 сентября 2025 г. в 21:25 • 119 points

ОригиналHN

#nasa#guardian#tsunami-detection#earthquake#ionosphere#acoustic-waves#gravitational-waves#data-analysis

Комментарии (20)

  • Обсуждается технология GUARDIAN, которая косвенно измеряет смещение поверхности океана для обнаружения цунами, отслеживая акустические волны, достигающие ионосферы.
  • Участники отмечают, что система требует интерпретации экспертами и сравнивают анализ данных с фундаментальным анализом на фондовом рынке.
  • Поднимается вопрос о частоте ложных срабатываний системы, так как пока известен лишь единичный успешный случай ее работы.
  • Происходит уточнение терминологии: гравитационные волны в метеорологии (обсуждаемые в статье) отличаются от гравитационных волн в астрофизике.
  • Некоторые пользователи видят в этой технологии мощный пример применения науки и математики для измерения сложных физических явлений.
  • Обсуждение затрагивает и более широкий контекст — бюджетные сокращения в NASA, которые ставят под угрозу многие программы.

Which colours dominate movie posters and why? (stephenfollows.com)

  • Самые популярные цвета (без учёта чёрного): оранжевый, синий, красный.
  • Тренд: за 100 лет насыщенность палитры постепенно падает — постеры стали тусклее.
  • Жанровые кластеры:
    Триллер/ужасы — тёмные, низкая яркость и контраст.
    Военные/история — мало цвета, но высокий контраст.
    Комедия/семейные — яркие и контрастные.
    Анимация — редкий «светлый но бесцветный» квадрант.

Оранжевый выигрывает за счёт кожи, закатов и тёплых градиентов, которые универсально привлекают взгляд и легко читаются в миниатюре.

by FromTheArchives • 12 сентября 2025 г. в 19:43 • 155 points

ОригиналHN

#color-theory#data-analysis#movie-posters#trends#genre-classification

Комментарии (28)

  • Комментаторы сомневаются в границах между цветами: «оранжевый» часто воспринимается как жёлтый, а линия между розовым и фиолетовым выглядит размытой.
  • Критикуют методику: неясно, как выбирались и классифицировались цвета, нет распределений и описания погрешностей.
  • Жанровые шаблоны спорны: классический хоррор ассоциируется скорее с красно-зелёно-чёрной или пурпурной гаммой, чем с описанными в статье.
  • Почти все отмечают повсеместное оранжево-бирюзовое (teal-and-orange) сочетание; объясняют его комплементарностью и «выгодным» выделением кожи.
  • Некоторые напоминают о моде на искры и призывают учитывать культурный контекст вне США.

Anscombe's Quartet (en.wikipedia.org)

Квартет Энскомба — четыре набора точек (x, y), у которых:

  • средние и дисперсии x, y почти одинаковы;
  • коэффициенты корреляции и регрессии совпадают;
  • но визуально графики радикально различаются.
Набор Особенность
I линейная зависимость
II нелинейная
III один выброс
IV выброс по x

Вывод: цифры без графика могут ввести в заблуждение.

by gidellav • 08 сентября 2025 г. в 09:29 • 115 points

ОригиналHN

#data-visualization#statistics#data-analysis#data-science#scatter-plot#regression-analysis#data-interpretation#outliers#skewness#simpsons-paradox

Комментарии (25)

  • Обсуждение началось с Data-morph и «датазавра» — генерализированного датасета, где можно задать любую форму точек.
  • Упомянули Anscombe’s Quartet: 4 набора с одинаковыми summary-stats, но разной визуальной структурой; его используют, чтобы показать важность визуализации и парадокс Симпсона.
  • Участники подчёркивают: без графиков (scatter, hist, boxplot) можно упустить выбросы, кластеры и скрытые закономерности; цифры не заменят «глаз».
  • Некоторые спрашивают, могут ли skewness, p99 или другие метрики всё-таки различать квартет; мнения расходятся — визуализация остаётся быстрейшим способом.
  • Практический вывод: сначала смотрим, потом считаем; в многомерных данных это особенно критично, потому что «увидеть» уже сложнее.

Collecting All Causal Knowledge (causenet.org)

CauseNet — проект по сбору всей человеческой причинной информации из веба и отделению знаний от убеждений.

Получено 11,6 млн причинных связей (точность ≈ 83 %) из полуструктурированных и неструктурированных источников. Построен первый крупный граф причинности открытого домена.

Данные

  • CauseNet-Full — полный набор (11,6 млн связей, 12,2 млн понятий, 1,8 ГБ).
  • CauseNet-Precision — высокоточная выборка (200 тыс. связей, 80 тыс. понятий, 135 МБ).
  • CauseNet-Sample — мини-пример (264 связи, 524 понятия, 54 КБ).

Модель

Концепты соединяются отношениями «причина → следствие».
Каждая связь снабжена метаданными: источник, предложение, шаблон, временная метка и т.д.

Примеры

{
  "causal_relation": {
    "cause": {"concept": "smoking"},
    "effect": {"concept": "disability"}
  },
  "sources": [{
    "type": "clueweb12_sentence",
    "payload": {
      "sentence": "In Canada, smoking is the most important cause of preventable illness...",
      "path_pattern": "[[cause]]/N\t-nsubj\tcause/NN\t+nmod:of\t[[effect]]/N"
    }
  }]
}

Применение: ответы на причинные вопросы, аргументация, многошаговые выводы.

by geetee • 02 сентября 2025 г. в 05:26 • 209 points

ОригиналHN

#causal-reasoning#knowledge-graph#natural-language-processing#data-mining#big-data#machine-learning#artificial-intelligence#data-analysis

Комментарии (101)

  • Критики считают идею «базы всех причин» хрупкой и излишне упрощённой: примеры вроде «человеческая деятельность → изменение климата» слишком обобщены и бесполезны.
  • Многие проводят параллель с провалом проекта Cyc и предупреждают о повторении тех же ошибок.
  • Упрекают отсутствие неопределённости, контекста и механизмов: «болезнь → смерть» игнорирует вероятности, временные рамки и индивидуальные условия.
  • Источник — Википедия — вызывает скепсис; в базе даже встречаются ложные связи («вакцины → аутизм»), что подрывает доверие.
  • Пока не ясно, для чего это нужно: прогнозы, дообучение ИИ или просто каталог «что кто-то когда-то утверждал».

Python: The Documentary [video] (youtube.com)

Python: The Documentary
На EuroPython показали фрагмент 90-минутного фильма Python: The Documentary от CultRepo; полная версия уже на YouTube.

Фильм рассказывает, как хобби-язык 90-х стал основой ИИ, анализа данных и крупнейших компаний, почти исчез, но выжил благодаря сообществу. Участники: Гвидо ван Россум, Трэвис Олифант, Барри Варшава и другие.

Запись доклада тоже доступна.

by chmaynard • 28 августа 2025 г. в 23:27 • 228 points

ОригиналHN

#python#llm#data-analysis#youtube#uber#perl#java

Комментарии (76)

  • Документальный фильм о Python вызвал тёплые воспоминания: кто-то вспомнил, как перешёл с Perl/Java, кто-то — как язык спас его карьеру.
  • Некоторые участники отметили вклад женщин в историю Python и пожалели, что Тим Петерс не участвовал «вживую».
  • Часть комментаторов жалуется: «большой» Python теперь ассоциируется с медленным, не типизированным AI-кодом.
  • Другие напоминают, что YouTube, Uber и прочие гиганты всё ещё крутятся на Python, и считают критику преувеличенной.
  • Всплыли эпизоды о «моржовом операторе» как поводе для отставки Гвидо, а также о том, как Python 2→3 расколол сообщество.

LabPlot: Free, open source and cross-platform Data Visualization and Analysis (labplot.org)

LabPlot — бесплатное кроссплатформенное ПО с открытым кодом для визуализации и анализа данных.

Ключевые возможности

  • Качественные графики и интерактивные диаграммы в пару кликов
  • Статистика, регрессия, аппроксимация и фитинг пиков
  • Интерактивные блокноты Python, R, Julia и др.
  • Извлечение данных из изображений и поддержка потоковых данных
  • Импорт/экспорт множества форматов
  • Windows, macOS, Linux, FreeBSD, Haiku

Свежие новости

  • 2.12.1 (18 авг 2025) — мелкие улучшения и исправления
  • 2.12 (28 апр 2025) — крупное обновление после долгой разработки
  • Дек 2024 — обновлённое руководство пользователя

Скачать | Возможности

by turrini • 22 августа 2025 г. в 09:11 • 232 points

ОригиналHN

#data-visualization#data-analysis#python#r#julia#sqlite#linux#windows#macos

Комментарии (37)

  • Участники обсуждают LabPlot как FOSS-альтернативу Origin/JMP/Tableau для научного графика.
  • Сравнивают: гибкость ggplot2, устарелость Excel/SAS, удобство GUI для не-программистов.
  • Плюсы: drag-and-drop, встроенный импорт CSV/TSV, лицензия GPLv2+.
  • Минусы: пока только SQLite, нет прямого REST/S3/Iceberg, неясно, как быстро копировать стили.
  • Целевая аудитория — инженеры и учёные, которым нужен GUI-построитель графиков без кода.

Everything is correlated (2014–23) (gwern.net)

Всё коррелировано

В реальных данных почти все переменные связаны между собой, и корреляции не исчезают при росте выборки. Это ставит под сомнение стандартное нулевое гипотезное тестирование: при достаточном объёме данных нулевая гипотеза всегда отвергается, а отказ от отвержения лишь говорит о нехватке данных. Даже направленный эффект подтверждает теорию лишь на 50 % — как случайное угадывание.

Исторические заметки

  • 1904 — «Student» (Госсет) замечает, что в биометрии всё связано.
  • 1920 — Торндайк формулирует «всё связано со всем».
  • 1938–39 — Берксон и Торндайк подтверждают: корреляции не случайны.
  • 1950-е — Гуд, Сэвидж, Фишер обсуждают «всё-равно-ложную» нулевую.
  • 1960-е — Наннали, Бакан, Мил указывают на бессмысленность p > 0.05.
  • 1976 — Лёлин и Николс: в исследовании 850 близнецов 90 % пар переменных коррелированы.
  • 1990-е — Мил: «фактор грязи» (crud factor) делает большинство «подтверждений» иллюзорными.
  • 2000-е — Уоллер, Килгарриф, Старбак повторяют: «всё коррелировано» в психометрике, лингвистике, экономике.
  • 2013–2023 — Гельман, Лин, Киркегорд, Шен, Гордон, Дауни: эмпирические датасеты подтверждают закономерность.

Практические выводы

  • Любая теория предсказывает не только наличие, но и размер эффекта; без него подтверждение тривиально.
  • «Спарсность» (редкие ненулевые связи) в соцнауках — миф.
  • Вместо p-value нужны байесовские оценки и априорные модели размера эффекта.

by gmays • 22 августа 2025 г. в 02:05 • 243 points

ОригиналHN

#statistics#data-analysis#correlation#hypothesis-testing#p-value#bayesian-statistics#effect-size#causality

Комментарии (107)

  • Статистическая значимость ≠ практическая важность: p-value лишь показывает, насколько «хорошо» измерена разница, но не её смысл.
  • Многие наблюдаемые корреляции — «фоновый шум» данных; без эксперимента или теории они бесполезны.
  • Большие N и множественные проверки порождают ложные значимости, особенно если гипотезы формулируются постфактум.
  • Критика статьи: смесь верных статистических замечаний с политическими спекуляциями и отсутствием практических рекомендаций.
  • Вывод: нужны эффект-размер, каузальные методы и заранее заданные гипотезы, а не охота на p < 0.05.

95% of Companies See 'Zero Return' on $30B Generative AI Spend (thedailyadda.com) 🔥 Горячее 💬 Длинная дискуссия

95 % компаний не получают отдачи от $30 млрд, потраченных на генеративный ИИ, — MIT

  • Исследование MIT: только 5 % проектов приносят измеримую пользу.
  • Причины: нечёткие KPI, отсутствие данных, недостаток навыков персонала.
  • Вывод: без стратегии и качественных данных ИИ превращается в дорогую игрушку.

by speckx • 21 августа 2025 г. в 15:36 • 294 points

ОригиналHN

#generative-ai#mit#kpi#ai-strategy#automation#artificial-intelligence#data-analysis#llm

Комментарии (283)

  • 5 % проектов приносят деньги, 95 % — нет: основная причина — отсутствие чёткого плана и метрик.
  • Реальные экономии уже есть: автоматизация пост-обработки звонков в кол-центрах экономит миллионы.
  • Рынок перегрет: многие запускают «AI-инициативы» ради хайпа и финансирования, не ради пользы.
  • Компании тратят деньги на консультантов и маркетинг вместо решения конкретных задач.
  • Наблюдается спад доверия («Trough of disillusionment»), но технология остаётся ценной как встроенная функция, а не как отдельный продукт.

A statistical analysis of Rotten Tomatoes (statsignificant.com)

Rotten Tomatoes: стал ли он менее надёжным?

Вступление

В отельных рекламах почти каждый новый фильм теперь «Certified Fresh». Либо человечество перестало снимать плохое кино, либо сама система оценки изменилась. Данные говорят: второе.

Как работает RT

  • Tomatometer = доля «положительных» рецензий критиков.
  • ≥ 60 % = «Fresh», < 60 % = «Rotten».
  • ⅓ американцев проверяют RT перед походом в кино.

Что случилось с оценками

1. Средний балл растёт
С 2000 по 2023 г. средний Tomatometer вырос с 51 % до 75 %.

  • 2000-е: 47 % фильмов ≥ 75 %.
  • 2020-е: уже 74 %.

2. «Rotten» почти исчез
Доля «гнилых» фильмов упала с 43 % (2000) до 12 % (2023).

3. Дисперсия сузилась
Стандартное отклонение снизилось с 28 до 18 пунктов: оценки стали однороднее.

Причины

  • Больше критиков: с 2000 по 2023 г. их число выросло в 3 раза.
  • Софт-ревью: публикации боятся потерять доступ к пресс-показам и дают «слабые положительные» оценки.
  • Стриминги: студии Netflix, Disney+ и др. активно «обрабатывают» критиков.

Пользователи заметили

Разрыв между оценками критиков и зрителей на RT вырос до 20-30 п.п. для блокбастеров.

Вывод

Rotten Tomatoes всё ещё удобен, но «свежесть» перестала быть показателем качества. Теперь это маркетинговый инструмент студий.

by m463 • 21 августа 2025 г. в 00:10 • 208 points

ОригиналHN

#statistical-analysis#rotten-tomatoes#film-ratings#data-analysis#netflix#disney

Комментарии (127)

  • Критики и зрители оценивают фильмы по-разному: «100 % свежести» может означать просто «ничего особенного, но сойдёт».
  • Многие перешли с Rotten Tomatoes на IMDb/Metacritic: 7+ на IMDb ≈ хороший фильм, ниже 6 — обычно не стоит времени.
  • RT-оценки легко «прокачать» деньгами и политикой, поэтому «Certified Fresh» перестал быть гарантией качества.
  • Жанр, год, личные предпочтения и даже настроение зрителя важнее любого «среднего балла».
  • Лучший способ выбрать фильм — искать рецензентов «с вашим вкусом» или использовать персонализированные сервисы вроде MovieLens.

Why Semantic Layers Matter (and how to build one with DuckDB) (motherduck.com)

Зачем нужен семантический слой и как собрать его на DuckDB

Когда не нужен

  • Один инструмент аналитики (BI, ноутбук или приложение).
  • Метрики тривиальны: COUNT, SUM, AVG.
  • Все агрегаты уже материализованы в таблицах.

Зачем нужен

  1. Единое место определения метрик – версионируемые YAML-файлы с бизнес-логикой, которые читают BI, ноутбуки, веб-приложения, AI.
  2. Кеш и безопасность – быстрые ad-hoc-запросы без переноса данных, ролевая безопасность через API.
  3. Согласованность – KPI «Выручка» описан один раз и не дублируется в каждом инструменте.

Минимальный пример

  • metrics.yaml – 30 строк: название, SQL-выражение, формат, описание.
  • run.py – 40 строк на Ibis + DuckDB: читает YAML, строит запрос к 20 млн записей NYC Taxi, возвращает DataFrame или SQL.

Как работает

import ibis, yaml, duckdb
ibis.options.interactive = True
con = ibis.duckdb.connect("nyc_taxi.ddb")
taxi = con.table("trips")

with open("metrics.yaml") as f:
    metrics = yaml.safe_load(f)

revenue = metrics["total_revenue"]["sql"]
result = con.sql(revenue).to_pandas()

YAML:

total_revenue:
  sql: "SELECT SUM(fare_amount) FROM trips"
  format: currency
  description: "Общая выручка"

Итог
Семантический слой решает проблему дублирования логики и ускоряет аналитику, когда данные и потребители разнообразны. Полный код – в репозитории semantic-layer-duckdb.

by secondrow • 19 августа 2025 г. в 16:49 • 133 points

ОригиналHN

#duckdb#ibis#yaml#python#semantic-layer#bi#data-analysis

Комментарии (29)

  • Семантический слой — это абстракция, переводящая технические запросы в термины, понятные бизнес-пользователям, и обеспечивающая единые метрики, джойны и логику.
  • Внедрение требует капитальных усилий: аналитики спешат сделать отчёт «здесь и сейчас», а не выделять время на переиспользуемую логику.
  • Некоторые считают его «ORM для BI» или «VIEW на стероидах», но он шире: позволяет динамически компоновать представления без повторных вычислений.
  • Инструменты варьируются от YAML-файлов до языков вроде Malloy; многие мечтают о встроенной поддержке в DuckDB или Looker-like BI.
  • Главный риск — преждевременная абстракция; неправильные метрики закрепляются и тормозят развитие.

When did AI take over Hacker News? (zachperk.com)

Когда ИИ захватил Hacker News?

В августе 2025-го каждая третья история в топ-10 HN про ИИ. Автор решил выяснить, когда это началось и как менялось отношение сообщества. Для анализа взял 24 910 топовых постов с 2019-го по 15 августа 2025-го через BigQuery-датасет HN.

Каждый пост и его комментарии прогнали через GPT-5-mini, чтобы получить:

  • краткое содержание;
  • факт упоминания ИИ;
  • тон (позитив/нейтрал/негатив).

Ключевые выводы

  • Пик хайпа — середина 2025-го; темп сохранится — рекорд.
  • Первый скачок случился не с ChatGPT (Q3 2022), а с выходом GPT-4 (Q1 2023), когда разработчики получили доступ к мощной модели.
  • Единственный заметный всплеск негатива — Q3 2021:
    – Apple анонсировала NeuralHash для сканирования CSAM на устройствах;
    – GitHub Copilot показал, что копирует чужой код.

Итого по 2816 ИИ-постам: 52 % позитив, 31 % негатив, 16 % нейтрал. Последние два квартала чуть негативнее, но тренда пока нет.

by zachperkel • 17 августа 2025 г. в 19:45 • 225 points

ОригиналHN

#llm#hacker-news#gpt-4#github-copilot#bigquery#data-analysis#natural-language-processing

Комментарии (137)

  • На HN обсуждают, что тема ИИ полностью «захватила» ленту: до 9 из 10 топ-постов бывают про ИИ.
  • Пользователи жалуются на навязчивость темы и хотят фильтров/игнора, чтобы скрывать ИИ-новости и комментарии.
  • Некоторые сравнивают нынешний бум с криптой, NFT и Web3, которые тоже пиковали, а потом исчезли с главной.
  • Отмечают, что даже в не-ИИ статьях комментарии сводятся к ИИ; критика тут же минусуется.
  • Сомнения в адекватности оценки тональности: автор анализа использовал ChatGPT, который может завышать «позитив».

Simulating and Visualising the Central Limit Theorem (blog.foletta.net)

Кратко о ЦПТ
Если из любого распределения с конечным средним и дисперсией брать выборки размера n и считать их средние, то при n → ∞ распределение этих средних стремится к нормальному.

Эксперимент
Сгенерировано по 10 000 значений из шести распределений: uniform, normal, binomial, beta, exponential, χ².
Функция take_random_sample_mean() берёт случайную выборку размера 60 и возвращает среднее. Повторено 20 000 раз.

take_random_sample_mean <- function(data, n) {
  slice_sample(data, n = n) |> summarise(across(everything(), list(mean = mean, sd = sd)))
}

Результаты
Гистограммы 20 000 средних показывают, что даже для сильно ненормальных исходных распределений форма распределения средних близка к нормальной.

by gjf • 15 августа 2025 г. в 06:11 • 143 points

ОригиналHN

#statistics#probability#central-limit-theorem#r#data-analysis#visualization#distributions#sampling

Комментарии (55)

  • Обсудили аналог ЦПТ для экстремумов — теорему Фишера–Типпета–Гнеденко (GEV).
  • Подчеркнули важность симуляций для интуитивного понимания ЦПТ и поделились ссылками на визуализации.
  • Отметили, что скорость сходимости к нормальному распределению зависит от исходного распределения (экспоненциальное сходится медленнее).
  • Упомянули обобщения ЦПТ: для распределений без конечной дисперсии, ряды Эджворта, устойчивые распределения.
  • Предупредили о риске завышенных ожиданий из-за «хорошо ведущих себя» примеров и дали ссылки на литературу.

Let's properly analyze an AI article for once (nibblestew.blogspot.com)

Краткий пересказ на русском

  • Повод: пост CEO GitHub «Developers reinvented» и его кликбейтные репосты. Автор называет текст образцом плохого мышления и «антиучебником» научного стиля.

  • Отступление о статистике СССР
    – Публиковали только проценты роста, скрывая абсолютные цифры.
    – Сравнивали с провальным 1913 г. вместо более поздних лет.
    – Для «лидерства» в производстве пшеницы измеряли «сырой вес», включая солому, грязь и «диссидентов».

  • Картинка в посте
    Детские кубики парят в воздухе, игнорируя гравитацию. Вывод: автор либо технически безграмотен, либо наплевать на правду. Плюс использование «абоминации»-генератора Studio Ghibli.

  • «Исследование» из твита
    – «Полевое исследование» на 22 человек.
    – Статистическая репрезентативность нулевая; дальнейший разбор оборвался на этом.

by pabs3 • 09 августа 2025 г. в 02:30 • 186 points

ОригиналHN

#github#statistics#data-analysis#marketing#llm#software-development

Комментарии (121)

  • Критика статьи Домке сводится к тому, что она искажает реальность CS-образования и использует сомнительную статистику (выборка 22 человека).
  • Основная претензия: статья — маркетинг для бизнес-аудитории, а не аргумент для разработчиков.
  • Участники подчеркивают, что «AI-бустеризм» ставит «правдоподобие» выше корректности и игнорирует фундаментальные знания.
  • Процитируют Миядзаки: его слова про «оскорбление жизни» вырваны из контекста AI-анимации зомби.
  • Сообщество видит в статье типичный пример «FOMO-капитализма»: лозунги ради инвестиций и роста акций, а не ради качества кода.