Hacker News Digest

Тег: #clustering

Постов: 5

Installing and using HP-UX 9 (thejpster.org.uk)

by TMWNN • 10 ноября 2025 г. в 08:48 • 108 points

ОригиналHN

#hp-ux#hp-9000#clustering#filesystems#columns

Комментарии (48)

  • HP 9000 Model 340 успешно загружается по сети с HP 9000 Model 705 в режиме Cluster Server.
  • Автор обнаружил тревожные особенности файловой системы HP-UX в процессе.
  • В конце поста представлено видео с демонстрацией работы оригинальной игры Columns.

My trick for getting consistent classification from LLMs (verdik.substack.com) 🔥 Горячее

by frenchmajesty • 13 октября 2025 г. в 18:01 • 280 points

ОригиналHN

#llm#openai#classification#clustering#embeddings#api

Комментарии (65)

  • Обсуждение показало, что классификация твитов с помощью LLM и кэширование похожих твитов похоже на практике работает, но вызывает вопросы о точности и стоимости при больших объемах данных.
  • Участники обсудили альтернативы, включая кластеризацию и использование эмбеддингов для поиска похожих твитов, но подчеркнули, что это может быть дороже и не обязательно лучше.
  • Были выдвинуты идеи использовать более дешевые модели для эмбеддинга и кластеризации, но это может повлиять на точность.
  • Также обсуждались вопросы масштабирования и стоимости при использовании OpenAI API для классификации, а также возможность использования локальных моделей для снижения затрат.

ML on Apple ][+ (mdcramer.github.io)

K-means — классический алгоритм кластеризации в машинном обучении — реализован на Apple II+ с использованием APPLESOFT BASIC. Автор, преподаватель курса Stanford CS229, демонстрирует работу алгоритма на двумерных данных с двумя кластерами, визуализируя процесс сходимости и итоговые границы решений. Точность достигает 90%, несмотря на малое количество точек (всего 10 наблюдений).

Алгоритм состоит из инициализации случайными центроидами, шага назначения (расчёт евклидовых расстояний) и шага обновления центров. Для ускорения отладки автор сократил выборку, сохранив даже выбросы за границами экрана. Код организован через подпрограммы, включает ожидание нажатия клавиши и оптимизирован для избежания повторного объявления массивов. Это показывает, как даже на ограниченном железе можно эффективно выполнять базовые ML-алгоритмы.

by mcramer • 29 сентября 2025 г. в 16:12 • 108 points

ОригиналHN

#k-means#machine-learning#applesoft-basic#apple-ii#algorithm#clustering#apple

Комментарии (24)

  • Участники делятся ностальгическими воспоминаниями о написании алгоритмов (генетических, перцептронов) на старых языках и компьютерах (Pascal, Apple II, BASIC).
  • Некоторые комментаторы выражают недоумение по поводу использования K-means для классификации и построения границ решений, считая это странным или ошибочным подходом.
  • Обсуждается целесообразность и мотивация реализации машинного обучения на столь старом и ограниченном железе, как Apple II.
  • Поднимается философский вопрос о том, что считать машинным обучением, и где проходит граница между ним, регрессией и искусственным интеллектом.
  • Отмечается высокая читаемость и образовательная ценность языков вроде Applesoft BASIC для начинающих.

DSM Disorders Disappear in Statistical Clustering of Psychiatric Symptoms (2024) (psychiatrymargins.com)

Статистический анализ симптомов психических расстройств, проведённый на выборке 14,8 тыс. человек, показал, что традиционные категории DSM-5 не выдерживают проверки данными. Симптомы оценивались в случайном порядке, чтобы избежать искусственного влияния структуры опросников, и кластеризовались методами iclust и иерархической кластеризации Уорда. Вместо ожидаемых диагнозов, таких как большое депрессивное расстройство, emerged восемь спектров: экстернализация, употребление веществ, мания/низкая отстранённость, расстройство мышления, соматоформные симптомы, патология пищевого поведения, интернализация и нейроразвитие/когнитивные трудности.

Эти спектры дробятся на 27 субфакторов, а общим измерением стала «Большая Всё» — аналог p-фактора общей психопатологии. Ключевой вывод: DSM-кластеры либо распадаются на более мелкие синдромы, либо сливаются в высшие порядки, что ставит под вопрос валидность текущей диагностической системы и поддерживает переход к размерным моделям, таким как HiTOP.

by rendx • 22 сентября 2025 г. в 02:24 • 137 points

ОригиналHN

#dsm-5#hitop#rdoc#clustering#statistical-analysis

Комментарии (82)

  • Критика DSM как излишне категоричной и произвольной системы диагностики, основанной на совпадении симптомов без учёта их контекста и причин.
  • Предложение альтернативных подходов к классификации психических расстройств, таких как RDoC, с использованием статистических методов и кластеризации симптомов.
  • Подчёркивание важности клинического опыта и дифференциальной диагностики, а не слепого следования DSM, для избежания врачебных ошибок и предвзятости.
  • Обсуждение DSM как инструмента для стандартизации терминологии и требований страховых компаний, а не как исчерпывающего руководства по лечению.
  • Указание на необходимость пересмотра DSM в сторону более гибкой и биологически обоснованной модели, отражающей сложность и вариативность психических расстройств.

Achieving 10,000x training data reduction with high-fidelity labels (research.google)

Сжатая суть статьи

Идентификация нарушающей политику рекламы требует глубокого контекста и культурной чувствительности — сильные стороны LLM. Однако дообучение требует дорогих, качественных разметок, а политика и типы нарушений постоянно меняются. Мы предложили масштабируемый процесс активного обучения, который сводит объём данных с 100 000 до менее 500 примеров и повышает согласованность с экспертами до 65 %. В продакшене крупные модели используют в 10 000 раз меньше данных без потери качества.

Процесс курирования

  1. Нулевой LLM размечает весь трафик (1).
  2. Кластеризуем «нарушения» и «безопасные» примеры; пересечения кластеров указывают на неуверенность модели (2).
  3. Внутри пересечений выбираем пары близких, но по-разному размеченных примеров (3).
  4. Эксперты размечают приоритетные пары (4).
  5. Полученные метки делятся: часть — для дообучения, часть — для оценки по двум метрикам: внутренняя согласованность экспертов и согласованность «модель ↔ человек». Итерации повторяются до плато.

Метрика
Используем Cohen’s Kappa: 0 — случайное совпадение, >0,8 — отлично. Не требует «золотого стандарта».

Эксперименты
Сравнили Gemini Nano-1 (1,8 B) и Nano-2 (3,25 B) на двух задачах разной сложности. Базовые модели дообучались на ~100 k разметок краудсорсом. Курированные модели — на ~400 примерах за 6 итераций. Все модели вышли на плато, не догнав внутреннее согласие экспертов.

by badmonster • 07 августа 2025 г. в 21:11 • 136 points

ОригиналHN

#active-learning#machine-learning#llm#clustering#data-labeling#google#embeddings#pca

Комментарии (25)

  • Участники сомневаются в заявлении, что «<1 % рекламы — кликбейт», приводя анекдоты о массе скамов и повторяющихся мошеннических объявлениях.
  • Поднимается тема Active Learning: один доклад показывает, что после нормализации условий случайный выбор примеров для разметки может быть эффективнее «умных» стратегий.
  • Критика метода кластеризации: неясно, как получаются пересекающиеся кластеры, если множества «кликбейт/не кликбейт» не пересекаются.
  • Спрашивают, какая именно модель даёт эмбеддинги: LLM или специализированная модель с контрастным обучением; тип кластеризации и роль PCA тоже не описаны.
  • Некоторые считают, что гиперсферы и SVM в диаграмме могут быть намеренным «затуманиванием» ключевых деталей выбора примеров для разметки.