Hacker News Digest

Тег: #genomics

Постов: 3

A Gemma model helped discover a new potential cancer therapy pathway (blog.google)

Исследователи использовали модель Gemma 2B, разработанную Google, для анализа геномных данных и выявили новый механизм, влияющий на рост раковых клеток. Они обнаружили, что определенный белок (названный в статье, но не в этом резюме) может быть ключевым регулятором, и его ингибирование подавляет рост рака в лабораторных моделях. Это открытие было сделано с помощью машинного обучения, где Gemma обрабатывала огромные объемы данных генома, чтобы найти паттерны, невидимые для человека. Открытие было подтверждено в сотрудничестве с онкологическим центром, и теперь они планируют клинические испытания. Этот подход может ускорить открытие новых методов лечения и сделать персонализированную медицину более доступной.

by alexcos • 15 октября 2025 г. в 19:04 • 199 points

ОригиналHN

#gemma#google#openai#machine-learning#llm#genomics

Комментарии (47)

  • Google и OpenAI продолжают демонстрировать прогресс в медицинском применении ИИ, но при этом остается открытым вопрос, насколько эти достижения доступны для широкой научной общественности и не являются ли они просто PR-ходом.
  • Сообщество выражает обеспокоенность по поводу того, что ИИ может быть использован для создания биологического оружия, и призывает к более строгому регулированию.
  • Несмотря на то, что Google и OpenAI продолжают продвигать ИИ в медицине и биологии, критики указывают на то, что эти компании не демонстрируют свои лучшие модели и не вкладывают достаточно ресурсов в научные исследования, что может замедлить прогресс.
  • Участники обсуждения также поднимают вопрос о том, что компании могут быть более заинтересованы в создании PR-шумих вокруг их достижений, чем в реальном продвижении науки, и что вместо того, чтобы делиться своими разработками, они могли бы использовать их для внутренних целей.
  • Наконец, обсуждение также затрагивает вопрос о том, как ИИ может быть использован для создания порнографии и как это может быть связано с тем, что компании вроде OpenAI не демонстрируют свои лучшие модели.

Removing newlines in FASTA file increases ZSTD compression ratio by 10x (log.bede.im) 🔥 Горячее

Режим --long в Zstandard значительно улучшает сжатие геномных последовательностей, но требует удаления символов новой строки внутри записей.

Специализированные методы сжатия ДНК, такие как MiniPhy, достигают коэффициента сжатия (CR) 91, но работают медленно. Zstandard со стандартными настройками сжимает в 10 раз быстрее, но с CR всего 3.

Использование --long без удаления переносов дало скромное улучшение — CR 3.8. После удаления переносов (seqtk seq -l 0) CR вырос до 11. С максимальным размером окна (--long=31) CR достиг 31, уменьшив размер данных с 2.46ТБ до 80ГБ при увеличении времени сжатия на 80% по сравнению со стандартными настройками.

Хотя --long не дотягивает до специализированных методов, он предлагает хороший баланс между скоростью и эффективностью сжатия для больших файлов с повторяющимися последовательностями. Главное — предварительно удалить переносы строк.

by bede • 12 сентября 2025 г. в 16:25 • 269 points

ОригиналHN

#zstandard#compression#fasta#genomics#bioinformatics#dataformats#parquet

Комментарии (104)

  • Удаление незначащих переносов строк в формате FASTA значительно улучшает сжатие Zstd, так как они нарушают поиск длинных совпадений.
  • Zstd — байтовый компрессор, не учитывающий семантику данных, поэтому случайные переносы строк снижают его эффективность.
  • Использование больших размеров окна (--long) в Zstd улучшает сжатие геномных данных, но требует больше памяти и совместимых настроек при распаковке.
  • FASTA и FASTQ критикуются как неэффективные форматы, но остаются популярными из-за простоты и широкой поддержки.
  • Для обработки больших геномных данных часто рекомендуется конвертировать FASTA/FASTQ в бинарные или колоночные форматы (например, Parquet).
  • Создание специализированных словарей или препроцессинг данных могут значительно улучшить сжатие для специфичных структур.
  • Геномные данные обладают высокой избыточностью из-за общих последовательностей у разных видов, что эффективно используется компрессорами.
  • Многие инструменты биоинформатики используют внутренние бинарные форматы, но FASTA остаётся стандартом для обмена данными.
  • Проблемы с устаревшими форматами и инструментами в биоинформатике частично связаны с трудностями финансирования их поддержки.

How Potatoes Evolved (nhm.ac.uk)

Картофель родился 9 млн лет назад
В подножии Анд древние томаты скрестились с группой Etuberosum — из этого гибрида появились первые картофельные растения, научившиеся формировать клубни.

Геном раскрыл тайну
Секвенирование ДНК 300 видов показало, что современный картофель (Solanum tuberosum) — потомок двухкратного скрещивания:

  1. 9 млн лет назад — гибрид томата и Etuberosum.
  2. ~1 млн лет назад — слияние с другим диким видом; это дало устойчивость к холоду и болезням.

Почему важно
Узнав точных «родителей», селекционеры смогут быстрее выводить сорта, устойчивые к засухе и вредителям, и таким образом защитить глобальный продовольственный запас.

by gmays • 06 августа 2025 г. в 14:36 • 104 points

ОригиналHN

#genomics#dna-sequencing#plant-breeding#agriculture#botany

Комментарии (43)

  • Участники обсуждают, что картофель очень просто выращивать даже в контейнерах, мешках или бедной почве, и делятся личными успехами и неудачами.
  • Подчёркивается, что картофель — почти полноценная еда, высокоурожайная и неприхотливая, но может страдать от фитофтороза в холодную сырую погоду.
  • Упоминается эпизод подкаста BBC, посвящённый картофелю, и работа над созданием настоящих семян (а не «семенным картофелем»).
  • Выясняется, что диких видов картофеля около 140, и они растут от Мексики до Чили; участники спорят, стоит ли считать Мексику частью Южной Америки.
  • Поднимаются темы питательности, высокого гликемического индекса, ночных паслёнов и даже «картофельной диеты» для похудения.