Hacker News Digest

Тег: #knowledge-graph

Постов: 2

Collecting All Causal Knowledge (causenet.org)

CauseNet — проект по сбору всей человеческой причинной информации из веба и отделению знаний от убеждений.

Получено 11,6 млн причинных связей (точность ≈ 83 %) из полуструктурированных и неструктурированных источников. Построен первый крупный граф причинности открытого домена.

Данные

  • CauseNet-Full — полный набор (11,6 млн связей, 12,2 млн понятий, 1,8 ГБ).
  • CauseNet-Precision — высокоточная выборка (200 тыс. связей, 80 тыс. понятий, 135 МБ).
  • CauseNet-Sample — мини-пример (264 связи, 524 понятия, 54 КБ).

Модель

Концепты соединяются отношениями «причина → следствие».
Каждая связь снабжена метаданными: источник, предложение, шаблон, временная метка и т.д.

Примеры

{
  "causal_relation": {
    "cause": {"concept": "smoking"},
    "effect": {"concept": "disability"}
  },
  "sources": [{
    "type": "clueweb12_sentence",
    "payload": {
      "sentence": "In Canada, smoking is the most important cause of preventable illness...",
      "path_pattern": "[[cause]]/N\t-nsubj\tcause/NN\t+nmod:of\t[[effect]]/N"
    }
  }]
}

Применение: ответы на причинные вопросы, аргументация, многошаговые выводы.

by geetee • 02 сентября 2025 г. в 05:26 • 209 points

ОригиналHN

#causal-reasoning#knowledge-graph#natural-language-processing#data-mining#big-data#machine-learning#artificial-intelligence#data-analysis

Комментарии (101)

  • Критики считают идею «базы всех причин» хрупкой и излишне упрощённой: примеры вроде «человеческая деятельность → изменение климата» слишком обобщены и бесполезны.
  • Многие проводят параллель с провалом проекта Cyc и предупреждают о повторении тех же ошибок.
  • Упрекают отсутствие неопределённости, контекста и механизмов: «болезнь → смерть» игнорирует вероятности, временные рамки и индивидуальные условия.
  • Источник — Википедия — вызывает скепсис; в базе даже встречаются ложные связи («вакцины → аутизм»), что подрывает доверие.
  • Пока не ясно, для чего это нужно: прогнозы, дообучение ИИ или просто каталог «что кто-то когда-то утверждал».

AI is impressive because we've failed at personal computing (rakhim.exotext.com) 💬 Длинная дискуссия

Современные ИИ-чаты умеют отвечать на сложные вопросы, потому что мы так и не научились структурировать информацию. Пример: «Какое животное изображено на флаге страны, где первая британская колония появилась в год, когда Швеция объявила войну Франции?» — ChatGPT за секунды выдал «попугай сиссеро на флаге Доминики, колония 1805 г.», а Google AI-виджет провалился.

Такой «поисковый» паттерн повсюду: Google Drive — облачная папка, которую легче искать, чем упорядочивать; сайты вместо структуры набиты ключевыми словами; документацию заменяют чат-боты.

Семантический веб, где данные должны были быть машиночитаемыми и связанными, так и не случился: вместо структурированного HTML — динамические div-ы без метаданных. Личные компьютеры не стали персональными базами знаний с семантическими связями, как мечтал ХайперКард.

Если бы знания хранились структурированно, ответ нашёл бы простой алгоритм без миллиардов параметров. ИИ — не триумф элегантного дизайна, а грубое решение: он выстраивает мимолётную семантику из хаоса, но само знание остаётся недоступным и непрозрачным.

by ambigious7777 • 08 августа 2025 г. в 14:57 • 184 points

ОригиналHN

#llm#google#semantic-web#knowledge-graph#html

Комментарии (155)

  • Участники сравнивают идею «всё структурировать» с утопией «если бы все просто были хорошими людьми» – красивая теория, но нереалистична.
  • Напоминают, что Semantic Web, Knowledge Graph и Cyc пытались кодировать знания вручную, но масштабировались плохо: люди не умеют быстро и точно описывать мир.
  • Отмечают, что современные ИИ-модели стали «пластырем», который сам строит семантические связи из хаотичных данных, хотя и с ошибками.
  • Подчёркивают: поисковики и LLM дополняют друг друга; ни один не решает всё, но вместе дают результат.
  • Главный вывод: неудача не в «плохих людях», а в сложности мира и в том, что рутинная работа по разметке никому не принадлежит и никем не финансируется.