Что это за зверь такой, данные, в каком виде их лучше представлять? В большей степени мы привыкли пользоваться готовым, загрузил в платформу она сама агрегирует графики и значения, мы только оцениваем. Такой подход очень часто встречается в сфере интернет-маркетинга, самые популярные агрегаторы аналитических данных это Лайвдюн, Я.Метрика, Гул.Аналитикс, TGSTAT.
Они неплохи для первичной обработки, подходят для блогеров, или для небольших проектов, но даже в этих случаях иногда требуется взгляд на ситуацию под другим углом. Как бы не старались авторы агрегаторов, они все равно не могут угодить всем. Нужен собственный ETL:
*Из Chat GPT
— ETL означает Extract, Transform, Load, что представляет собой процесс извлечения данных из различных источников, их трансформации и загрузки в целевую базу данных. Этот процесс играет ключевую роль в обработке и управлении данными в информационных системах.
извлечение данных позволяет получить информацию из различных источников
трансформация обеспечивает структурирование и преобразование данных согласно нуждам бизнеса
загрузка помещает их в хранилище для дальнейшего анализа.
ETL важен, так как обеспечивает надежность, целостность и доступность данных, что необходимо для принятия обоснованных бизнес-решений и поддержания эффективной работы информационных систем. Он является ключевым инструментом в области бизнес-аналитики, хранения данных и обработки больших объемов.
Агрегированные данные не дают полной картины, они не способны учитывать все нюансы компании. Разработчики готовых аналитических платформ для анализа не берут в расчет факторы внешнего влияния на конкретный бизнес, его выручку, не знают структуры кампании и клиентуру.
Мы не можем создать универсальное средства для анализа всех предприятий – в той или иной степени придется кастомизировать отчетность, вводить новые оценки и способы анализа. Да, универсальное решение подойдет на старте, как например Я.Метрика для анализа сайтов, но если необходимо выводить сложные метрики, применять свои формулы для подсчета KPI, то в любом случае надо получить сырые данные через API или другим подходящим способом, после чего их обработать и визуализировать (ETL).
Только ручная работа и живой интеллектуальный подход к данным способен помочь найти верное решение или неэффективности в работе. Навык разработки и обработки таблиц с учетом однородности и дальнейшего их анализа является фундаментальным знанием любого специалиста-аналитика. Инструменты ETL разнятся – подойдет Python, Excel, Power Query, Гугл Листы… Выбирайте что удобно и выгодно по цене.
NOTE
Интерфейсы будут меняться всегда: сегодня кнопка внутри аналитической платформы в левом блоке меню, завтра в правом, через пол года ее уберут за ненадобностью. Бесконечное изучение интерфейсов надоедает, происходит выгорание и ощущение тупика, появляются мысли, что ОПЯТЬ НИЧЕГО НЕ ЗНАЕТЕ и надо заново разбираться в том что уже было доведено до автоматизма.
Что касается таблиц и баз данных, то по своим характеристикам, вИду и способу обработки они не меняются. Изучая процесс ETL один раз, далее совершенствуем только тонкие навыки. Сам процесс ETL связан с обработкой таблиц и их структурирования, для того чтобы не делать ошибок и упростить обработку соблюдается ряд эстетических правил, таких как однородность и гранулярность.
Однородность таблиц
Однородные таблицы подразумевают ячейки в столбцах с одинаковым значением по типу или категории. Если есть столбец фрукты то там должны быть только названия фруктов в едином формате:
- Банан
- Яблоко
- Персик
Ошибкой будет заполнения столбца таким образом:
- Банан
- Яблоко
- Овощи
Фактически мы в столбец названий фруктов поставили категорию, которая даже относится к фруктам.
Кроме этого однородность таблиц не подразумевает объединение ячеек, особенно когда это делается по вертикали, чтобы навести красоту в Google Листах или Эксель. Очень часто так группируются временные периоды, когда месяц прописывают вертикально на несколько строк, чтобы было нагляднее.
Гранулярность таблиц
Это свойство чаще применяется в матрицах Power BI или сводных таблицах , когда разворачивается по ""+"" новый блок группировок.
Если у нас таблица продаж, то увеличением ее гранулярности можно считать детализацию выручки по дням, товарам, конкретному покупателю и т.д. В анализе финансовых рынков это называется кластерный анализ, в интернет маркетинге скорее сегмент (сегментация).
Note
Сегментация это путь воина, с помощью этого инструмента (мы говорим о гранулярности данных) и создаются нужные нам выборки. Не зря веб-аналитик Авинаш Кошик постоянно говорит про это в своих статьях и в книге Веб-Аналитика 2.0 есть целый раздел, который называется “Сегментируй или умри” .
Это свойство таблиц обязательно нужно использовать при анализе, но не перебарщивать — слишком крупная гранулярность может потерять детали, в то время как слишком мелкая гранулярность может привести к избыточному объему данных.
Заметки по теме ETL
Качество данных Сбор данных Анализ данных - приступаем к процессу
Боярский Глеб Юрьевич @GlebBoyarskii — Telegram | VK
Обо мне:
Настройка Яндекс Директ, Таргет, Google (Yandex) Tag Manager, разработка Power BI и DataLens дашбордов, глубокая аналитика рекламных систем, комплексная веб-аналитика и performance-маркетинг.