Начало основного контента

Как устроена поставка данных в Яндексе и почему мы больше не боимся перекладывать JSON'ы

День 3

RU

Практически любая компания, оперирующая данными, быстро приходит к необходимости хранить и обрабатывать их в разных системах в зависимости от задач.

Аналитики уезжают в Clickhouse и Greenplum, бэкапы на черный день отгружаются в дешевые HDFS и S3. Разработчики хотят все что ни попадя сгрузить в Elastic и Kafka, а любой яндексоид — в лучшее хранилище на свете, которое он сам с друзьями написал на досуге. Но начальник настоял — давайте еще Oracle. В таком мире возникает запрос на сервис, который сможет быстро и эффективно перекладывать данные между этими мирами.

Для решения данной задачи в Яндексе разработали Data Transfer — сервис кросс-системной репликации данных. Им уже пользуются сотни команд, постоянно перекачивая десятки гигабайт данных в секунду, а некоторое время назад он стал доступен и пользователям Яндекс.Облака.

Доклад будет полезен как разработчикам, проявляющим интерес к распределенным системам поставки больших данных, так и дата-инженерам, которые узнают детали работы востребованного инструмента.

  • #architecture
  • #dataingestion

Спикеры

Приглашенные эксперты