Начало основного контента

Trino (Presto) DB: Zero copy lakehouse

День 1

RU

PrestoDB (теперь и Trino) была создана в Facebook для предоставления интерактивного доступа к данным, хранящимся в Hive/Hadoop. С тех пор Hadoop объявили мертвым, Spark и S3 заменяют Hive и HDFS, а в индустрии обсуждают микросервисы, IoT и мульти/гибридные облака. Но аналитические запросы медленны, ETL все так же занимает всю ночь и большинство данных в облаке никому не нужны. А еще они опять поменяли схему данных в источнике! Можно ничего не копировать? Да — использовать Trino или его конкурентов (Dremio, Drill). Работа с данными из первоисточников, объединение и обогащение их, запросы с субсекундной скоростью. Конечно, существуют проблемы, но есть и решения. Поговорим, обо всем этом, о скрытых возможностях, о новой функциональности, что есть в проекте или в его форках.

Доклад нацелен на дата-инженеров и архитекторов облачных систем, и предлагает интересный вариант интеграции источников данных.

  • #datavirtualisation
  • #queryengine
  • #queryoptimization
  • #tooling

Спикеры

Приглашенные эксперты