Тег: #bioinformatics — Hacker News Digest

Mapping the off-target effects of every FDA-approved drug in existence (owlposting.com)

Компания EvE Bio создала первую всеобъемлющую базу данных о побочных эффектах всех одобренных FDA лекарств, охватывающую взаимодействия примерно 1600 препаратов с ключевыми человеческими клеточными рецепторами. Этот уникальный ресурс, доступный под CC-NA лицензией, представляет собой прорыв в понимании того, как лекарства влияют на организм помимо своих основных механизмов действия. Традиционно фармацевтические компании фокусируются исключительно на основном эффекте препаратов, игнорируя побочные взаимодействия, если они не мешают основному терапевтическому действию.

Эта база данных открывает возможности для повторного использования существующих лекарств в новых терапевтических областях, предоставляет ценные данные для валидации научных моделей и может способствовать развитию полифармакологии. Создание такого ресурса ранее считалось слишком трудоемким и низкодоходным для фармацевтической индустрии, что делает достижение EvE Bio особенно значимым для научного сообщества и будущих медицинских открытий.

by abhishaike • 28 октября 2025 г. в 18:12 • 143 points

Оригинал • HN

#bioinformatics #pharmaceuticals #drug-discovery #fda #databases #open-data #medical-research #evec-bio

Комментарии (28)

Авторы статьи подразумевают, что фармкомпании не учитывают побочные эффекты, хотя на практике токсикологические исследования являются критическим этапом разработки любого препарата.
Набор данных не включает контролируемые вещества, что ставит под сомнение его полноту и честность.
Данные не покрывают такие важные параметры, как объем распределения, метаболизм CYP450, транспорт через BBB и т.д., что ограничивает его полезность для исследователей.
Набор данных не содержит структур: самые важные вещества, такие как тестостерон, ампетамины или метилфенидат, что ставит под сомнение его полезность для исследований.

The Burrows-Wheeler Transform (sandbox.bio)

Статья в интерактивном формате объясняет, как работает Burrows-Wheeler Transform (BWT) — алгоритм, который лежит в основе сжатия bzip2 и инструментов выравнивания последовательностей bowtie/bwa. Суть BWT в том, что он группирует идентичные символы, а затем позволяет точно восстановить исходную строку. Для демонстрации автор кодирует слово «banana» и показывает, как появление символа $ вращает матрицу, делая обратное преобразование возможным. В статье также показано, как поиск подстроки сводится к просмотру первого и последнего столбцов, и как это используется в биоинформатике для выравнивания ДНК-чтения.

by g0xA52A2A • 09 октября 2025 г. в 20:00 • 124 points

Оригинал • HN

#burrows-wheeler-transform #bzip2 #bowtie #bwa #bioinformatics #dna

Комментарии (27)

BWT позволяет искать подстроку за O(l) времени и имеет O(n) памяти, что делает его одним из самых элегантных алгоритмов, которые я когда-либо встречал.
Сложность в понимании BWT часто заключается в том, что «сортировать» означает лексикографически сортировать все вращения, а не просто сортировать строку.
Публикация алгоритма была отвергнута, и вместо этого он был опубликован как DEC тех. отчет, что является интересным фактом.
Суффиксные массивы и BWT взаимно-обратны, и это свойство используется для поиска подстроки в O(l) времени.
Несмотря на то, что BWT сам по себе не сжимает данные, он является ключевым шагом в bzip2 и других алгоритмах сжатия без потерь.

SimpleFold: Folding proteins is simpler than you think (github.com) 🔥 Горячее

Apple выпустила open-source библиотеку ML-SimpleFold для предсказания трёхмерной структуры белков на основе их аминокислотной последовательности. Она использует архитектуру трансформеров и оптимизирована для эффективного обучения и инференса на GPU. Код написан на PyTorch и включает инструменты для подготовки данных, обучения моделей и визуализации результатов.

Библиотека поддерживает предсказание структур как отдельных белков, так и комплексов, с акцентом на скорость и воспроизводимость. Это демонстрирует растущий интерес крупных tech-компаний к computational biology. Практический вывод: инструмент упрощает исследования в биоинформатике, снижая барьер входа для научных групп без мощных вычислительных ресурсов.

by kevlened • 26 сентября 2025 г. в 18:01 • 450 points

Оригинал • HN

#pytorch #transformers #gpu #machine-learning #protein-folding #bioinformatics #apple #knowledge-distillation #alphafold #esmfold

Комментарии (126)

Представлена упрощенная модель предсказания структуры белков SimpleFold, использующая подход knowledge distillation от сложных моделей (AlphaFold, ESMFold) и демонстрирующая высокую эффективность.
Обсуждается, что модель обучалась на данных, сгенерированных другими ИИ-системами, а не на экспериментальных структурах, что поднимает вопросы о её истинной новизне и независимости.
Подчеркивается тренд на упрощение архитектур моделей для предсказания folding, следуя "bitter lesson" в ML, и потенциальные выгоды для локального inference на потребительском железе.
Участники спорят, является ли проблема folding решенной после AlphaFold, и в чем разница между физическими симуляциями (Folding@Home) и статистическими методами (ИИ).
Высказываются предположения о мотивации Apple заниматься этой темой: от престижа и маркетинга до практических целей вроде оптимизации чипов и развития локальных вычислений.

Processing Strings 109x Faster Than Nvidia on H100 (ashvardanian.com)

Выпущена StringZilla v4 — первая версия библиотеки для обработки строк с поддержкой CUDA, которая ускоряет вычисления на GPU. Она обеспечивает до 500 гигаопераций в секунду для расчёта расстояний Левенштейна и других метрик схожести строк, что в 109 раз быстрее решений на NVIDIA H100. Библиотека оптимизирована для больших объёмов данных в базах данных, биоинформатике и информационном поиске, включая алгоритмы с аффинными штрафами за разрывы и мини-хэширование.

Новые функции включают хэш-функции на основе AES, генераторы псевдослучайных строк и алгоритмы сортировки для работы с коллекциями строк. StringZilla использует SIMD-инструкции на CPU и GPU, поддерживает несколько архитектур и языков программирования. Библиотека распространяется под лицензией Apache 2.0 и доступна через pip, предлагая надёжный и быстрый базис для масштабируемых workloads.

by ashvardanian • 19 сентября 2025 г. в 18:24 • 153 points

Оригинал • HN

#cuda #gpu #simd #levenshtein #aes #bioinformatics #information-retrieval #apache #pip

Комментарии (23)

After publishing this a few days ago, 2 things have happened.First, it tuned out that StringZilla scales further to over 900 GigaCUPS around 1000-byte long inputs on Nvidia H100. Moreover, the same performance is obviously accessible on lower-end hardware as the algorithm is not

Removing newlines in FASTA file increases ZSTD compression ratio by 10x (log.bede.im) 🔥 Горячее

Режим --long в Zstandard значительно улучшает сжатие геномных последовательностей, но требует удаления символов новой строки внутри записей.

Специализированные методы сжатия ДНК, такие как MiniPhy, достигают коэффициента сжатия (CR) 91, но работают медленно. Zstandard со стандартными настройками сжимает в 10 раз быстрее, но с CR всего 3.

Использование --long без удаления переносов дало скромное улучшение — CR 3.8. После удаления переносов (seqtk seq -l 0) CR вырос до 11. С максимальным размером окна (--long=31) CR достиг 31, уменьшив размер данных с 2.46ТБ до 80ГБ при увеличении времени сжатия на 80% по сравнению со стандартными настройками.

Хотя --long не дотягивает до специализированных методов, он предлагает хороший баланс между скоростью и эффективностью сжатия для больших файлов с повторяющимися последовательностями. Главное — предварительно удалить переносы строк.

by bede • 12 сентября 2025 г. в 16:25 • 269 points

Оригинал • HN

#zstandard #compression #fasta #genomics #bioinformatics #dataformats #parquet

Комментарии (104)

Удаление незначащих переносов строк в формате FASTA значительно улучшает сжатие Zstd, так как они нарушают поиск длинных совпадений.
Zstd — байтовый компрессор, не учитывающий семантику данных, поэтому случайные переносы строк снижают его эффективность.
Использование больших размеров окна (--long) в Zstd улучшает сжатие геномных данных, но требует больше памяти и совместимых настроек при распаковке.
FASTA и FASTQ критикуются как неэффективные форматы, но остаются популярными из-за простоты и широкой поддержки.
Для обработки больших геномных данных часто рекомендуется конвертировать FASTA/FASTQ в бинарные или колоночные форматы (например, Parquet).
Создание специализированных словарей или препроцессинг данных могут значительно улучшить сжатие для специфичных структур.
Геномные данные обладают высокой избыточностью из-за общих последовательностей у разных видов, что эффективно используется компрессорами.
Многие инструменты биоинформатики используют внутренние бинарные форматы, но FASTA остаётся стандартом для обмена данными.
Проблемы с устаревшими форматами и инструментами в биоинформатике частично связаны с трудностями финансирования их поддержки.

Unmasking the Sea Star Killer (biographic.com)

В лаборатории на острове Мерроустон молодые Pycnopodia helianthoides живут в пластиковых контейнерах, чтобы не заразить друг друга. Учёные фиксируют, какие стенки касаются лучи, ищут признаки замедления — первый симптом гибели.

С 2013 года «морская чума» унесла миллиарды морских звёзд от Баха-Калифорнии до Аляски: конечности закручиваются и отрываются, по телу ползут белые язвы, внутренности вытекают, тела превращаются в липкие пятна. Подозревали токсины водорослей, нехватку кислорода, вирус — версии не подтверждались.

Алисса Гехман и команда четыре года секвенировали РНК и считают, что нашли настоящего возбудителя. Чтобы не повторить ошибок, они проверяют каждую мелочь.

Молодые звёзды — от солнечно-жёлтых до лиловых — способны за две минуты преодолеть «королевскую» кровать. У одной 16 лучей, она вдруг оживает, переворачивается, раскрывает рот, ожидая еду. «Мы их любим», — говорит Гехман.

Без морских звёзд — «ключевых видов» — экосистемы рушатся: моллюски и ежи выгрызают леса ламинарии, смещают другие виды.

by sohkamyung • 05 августа 2025 г. в 13:10 • 76 points

Оригинал • HN

#bioinformatics #rna-sequencing #vibrio-pectenicida #sea-star-wasting-disease #nature-ecology-evolution

Комментарии (18)

Статья раздражает «кликбейтным» стилем: причина гибели морских звёзд обещается сразу, но раскрывается лишь после середины текста.
Установленный виновник — бактерия Vibrio pectenicida, описанная в Nature Ecology & Evolution; она вызывает «sea star wasting disease».
Род Vibrio включает опасные для человека патогены (холеру, вибриоз), что вызвало дополнительное беспокойство.
Исследование вызвало живой интерес: кто-то гордится работой коллег, кто-то предлагает монетизировать восстановление лесов водорослей через углеродные кредиты.
Некоторые читатели сочли избыточным гибель 19 морских звёзд ради подтверждения, другие рады, что наконец найден конкретный возбудитель.