Сегментируй или умри. Гранулярность и однородность электронных таблиц. ETL.

Что это за зверь такой, данные, в каком виде их лучше представлять? В большей степени мы привыкли пользоваться готовым, загрузил в платформу она сама агрегирует графики и значения, мы только оцениваем. Такой подход очень часто встречается в сфере интернет-маркетинга, самые популярные агрегаторы аналитических данных это Лайвдюн, Я.Метрика, Гул.Аналитикс, TGSTAT.

Они неплохи для первичной обработки, подходят для блогеров, или для небольших проектов, но даже в этих случаях иногда требуется взгляд на ситуацию под другим углом. Как бы не старались авторы агрегаторов, они все равно не могут угодить всем. Нужен собственный ETL:

*Из Chat GPT

— ETL означает Extract, Transform, Load, что представляет собой процесс извлечения данных из различных источников, их трансформации и загрузки в целевую базу данных. Этот процесс играет ключевую роль в обработке и управлении данными в информационных системах.

извлечение данных позволяет получить информацию из различных источников

трансформация обеспечивает структурирование и преобразование данных согласно нуждам бизнеса

загрузка помещает их в хранилище для дальнейшего анализа.

ETL важен, так как обеспечивает надежность, целостность и доступность данных, что необходимо для принятия обоснованных бизнес-решений и поддержания эффективной работы информационных систем. Он является ключевым инструментом в области бизнес-аналитики, хранения данных и обработки больших объемов.

Агрегированные данные не дают полной картины, они не способны учитывать все нюансы компании. Разработчики готовых аналитических платформ для анализа не берут в расчет факторы внешнего влияния на конкретный бизнес, его выручку, не знают структуры кампании и клиентуру.

Мы не можем создать универсальное средства для анализа всех предприятий – в той или иной степени придется кастомизировать отчетность, вводить новые оценки и способы анализа. Да, универсальное решение подойдет на старте, как например Я.Метрика для анализа сайтов, но если необходимо выводить сложные метрики, применять свои формулы для подсчета KPI, то в любом случае надо получить сырые данные через API или другим подходящим способом, после чего их обработать и визуализировать (ETL).

Только ручная работа и живой интеллектуальный подход к данным способен помочь найти верное решение или неэффективности в работе. Навык разработки и обработки таблиц с учетом однородности и дальнейшего их анализа является фундаментальным знанием любого специалиста-аналитика. Инструменты ETL разнятся – подойдет Python, Excel, Power Query, Гугл Листы… Выбирайте что удобно и выгодно по цене.

NOTE

Интерфейсы будут меняться всегда: сегодня кнопка внутри аналитической платформы в левом блоке меню, завтра в правом, через пол года ее уберут за ненадобностью. Бесконечное изучение интерфейсов надоедает, происходит выгорание и ощущение тупика, появляются мысли, что ОПЯТЬ НИЧЕГО НЕ ЗНАЕТЕ и надо заново разбираться в том что уже было доведено до автоматизма.

Что касается таблиц и баз данных, то по своим характеристикам, вИду и способу обработки они не меняются. Изучая процесс ETL один раз, далее совершенствуем только тонкие навыки. Сам процесс ETL связан с обработкой таблиц и их структурирования, для того чтобы не делать ошибок и упростить обработку соблюдается ряд эстетических правил, таких как однородность и гранулярность.

Однородность таблиц

Однородные таблицы подразумевают ячейки в столбцах с одинаковым значением по типу или категории. Если есть столбец фрукты то там должны быть только названия фруктов в едином формате:

Банан
Яблоко
Персик

Ошибкой будет заполнения столбца таким образом:

Банан
Яблоко
Овощи

Фактически мы в столбец названий фруктов поставили категорию, которая даже относится к фруктам.

Кроме этого однородность таблиц не подразумевает объединение ячеек, особенно когда это делается по вертикали, чтобы навести красоту в Google Листах или Эксель. Очень часто так группируются временные периоды, когда месяц прописывают вертикально на несколько строк, чтобы было нагляднее.

Гранулярность таблиц

Это свойство чаще применяется в матрицах Power BI или сводных таблицах , когда разворачивается по ""+"" новый блок группировок.

Если у нас таблица продаж, то увеличением ее гранулярности можно считать детализацию выручки по дням, товарам, конкретному покупателю и т.д. В анализе финансовых рынков это называется кластерный анализ, в интернет маркетинге скорее сегмент (сегментация).

Note

Сегментация это путь воина, с помощью этого инструмента (мы говорим о гранулярности данных) и создаются нужные нам выборки. Не зря веб-аналитик Авинаш Кошик постоянно говорит про это в своих статьях и в книге Веб-Аналитика 2.0 есть целый раздел, который называется “Сегментируй или умри” .

Это свойство таблиц обязательно нужно использовать при анализе, но не перебарщивать — слишком крупная гранулярность может потерять детали, в то время как слишком мелкая гранулярность может привести к избыточному объему данных.

Заметки по теме ETL

Качество данных Сбор данных Анализ данных - приступаем к процессу

Боярский Глеб Юрьевич @GlebBoyarskii — Telegram | VK

Обо мне:
Настройка Яндекс Директ, Таргет, Google (Yandex) Tag Manager, разработка Power BI и DataLens дашбордов, глубокая аналитика рекламных систем, комплексная веб-аналитика и performance-маркетинг.

Глеб Боярский - Цифровой сад

Проводник

Сегментируй или умри. Гранулярность и однородность электронных таблиц. ETL.

Однородность таблиц

Гранулярность таблиц

Заметки по теме ETL

Вид графа

Оглавление

Обратные ссылки