Команда Profitero столкнулась со следующей проблемой: была одна огромная ETL-джоба, которая состоит из множества итераций, где каждая итерация это методология. Предположим, мы хотим применить изменения на итерацию i, это повлияет на итерацию i+1, потому что она вычисляется на основе результатов итерации i.
Возникают следующие вопросы:
- Как применить изменения методологии, одной из итераций, при этом изменения не должны иметь импакт на продакшене?
- Как сделать так, чтобы DS-команды могла проводить эти изменения без участия DE-команды или хотя бы минимизировать их участие в проведение таких экспериментов?
- Как одновременно проводить 10 экспериментов, чтобы выбрать наилучшие изменения для внедрение в продакшен?
Технологии: Apache Spark, Apache Airflow, Jupyter, Apache Zeppelin, Docker Swarm, LakeFS.
Аудитория: доклад будет интересен тем, кто сталкивается с проблемой проведения экспериментов в пайплайнах.