Начало основного контента

Каталог и озеро данных на базе MongoDB, собираем технологический стек по кусочкам

День 1

RU

Проблема: каталогизация большого числа неуправляемых источников данных. Аудитория: дата-инженеры, дата-аналитики, разработчики решений на данных, архитекторы решений на данных.

Доклад Ивана будет посвящён работе по созданию каталога данных DataCrafter на базе MongoDB, на основе больших разнородных общедоступных данных сложных форматов из неуправляемых источников.

Каталог включает такие редко реализованные возможности, как:

  • автоматическое создание схемы данных;
  • автоматическая классификация/идентификация типов пол (кадастровые номера, email, идентификаторы организаций, ссылки и тд.);
  • автоматизированное документирование;
  • автоматическая оценка качества данных (в работе).

Фокус доклада будет на экспериментах предшествующих созданию каталога, технологических стеках, решаемых проблемах и ограничениях.

    Спикеры

    Приглашенные эксперты