Это считается

@eto_schitaetsya Открыть в Telegram

Аудитория: 3 170 подписчиков

Категория: Блоги

Канал для аналитиков от продуктовых аналитиков Т-Банка. Наш подкаст: https://podcast.ru/1653976337

Статистика канала

3 170 подписчиков

Последние посты

Это считается

02 июл., 21:11

Ку! Новый эпизод уже завтра 🔥Поговорили про Research с Даней Гавриловым — Head of Research в нашем AI-центре, победителем в номинации «Наука и технологии» в списке ТОП 30 до 30 по версии Forbes.

1 880

Это считается

01 июл., 21:11

Главные ошибки в визуализации данныхИнструменты приходят и уходят, AI меняет рынки и профессии, а начинающие и опытные аналитики продолжают визуализировать данные так, что получить из графиков пользу сложно или вовсе невозможно.Вредные советы, как визуализировать данные. Подсмотрено на практике, испробовано на себе!1️⃣ Добавь в финальный отчет по исследованию все визуализации, которые ты сделал. Так отчет станет настолько большим, что никто не будет его читать до конца. А если кто-то дочитает, то не вспомнит, ради чего все затевалось.2️⃣ Чем больше графиков (Axes) в одном рисунке (Figure), тем лучше. Пускай заказчик сам разбирается, что из этого важно, а что просто красиво. Единственный из всех говорящий график вставь справа посередине, пусть ищут!3️⃣ Сделай все графики в одном отчете разного цвета 🌈. Потому что это красиво. И ещё это точно размоет внимание пользователя, а падение год-к-году ключевых метрик станет менее очевидным.4️⃣ В любой непонятной ситуации строй pie-chart. Так пользователь точно не сможет сравнить между собой две группы и принять правильное решение.5️⃣ Если эффект от новой фичи не поражает воображение стейкхолдеров, то нужно строить диаграмму не от начала координат (0, 0), а где-нибудь повыше. Это заставит изменения на сотые доли процентов выглядеть внушительно.6️⃣ В один график постарайся вложить как можно больше информации. Обязательно сделай вспомогательную ось и попробуй вставить график, значения которого будут в подписях. И пользователь точно проведет с твоей визуализацией больше времени.7️⃣ И главное - делай 3D графики. Используй тени, градиенты, сделай фон графика картинкой. Не зря же ты учил все свойства графиков в matplotlib!Сообщество, если я упустил что-то из вашего любимого, напишите в комментариях!Всем полезных графиков и продуктивной рабочей недели!

2 210

Это считается

24 июн., 21:03

Дубликаты в данных: откуда берутся и почему с ними важно работатьПродолжаем говорить про EDA. Один из частых источников искажений в аналитике — дубликаты. Они могут незаметно влиять на показатели: увеличивать количество пользователей, транзакций или заказов, создавать иллюзию активности и «раздувать» отчёты. Поэтому выявление и обработка дубликатов — обязательный этап в рамках EDA.Дубликаты бывают двух типов:▪️Явные — полные копии строк, где значения совпадают по всем колонкам. Их легко обнаружить с помощью df.duplicated() и удалить через df.drop_duplicates().▪️Неявные — строки, которые описывают один и тот же объект, но отличаются по формату. Например:▪️"USER@mail.ru" и "user@mail.ru"▪️"ООО Ромашка" и "О.О.О. Ромашка"▪️"Иванов И.И." и "Иванов Иван"Такие дубликаты сложнее заметить, и с ними приходится работать вручную или через нормализацию данных.Основные причины появления дубликатов:▪️Повторная выгрузка или объединение таблиц без фильтрации.▪️Ошибки при джойне.▪️Разные источники с разной структурой.▪️Отсутствие стандартизации ввода данных.▪️Человеческий фактор (опечатки, лишние пробелы, регистр).Что помогает:✔️ Приведение строк к единому регистру .str.lower()✔️ Удаление пробелов .str.strip() и лишних символов .str.replace()✔️ Поиск дубликатов по ключевым колонкам с помощью duplicated(subset=...)✔️ В отдельных случаях — предварительная агрегация или группировкаЛайфхак: duplicated(subset=...) особенно полезен, когда в таблице есть автоинкрементные ID. Такие поля делают строки уникальными, хотя по сути данные могут дублироваться. Например, если один и тот же пользователь сделал два одинаковых заказа — разный order_id, но одинаковые user_id, product_id и order_date. В этом случае duplicated(subset=['user_id', 'product_id', 'order_date']) поможет найти дубли, которые не видны при обычной проверке.Перед тем как удалять строки, важно понимать контекст: действительно ли это дубли, или просто схожие, но разные записи. Особенно аккуратно нужно действовать в случае неявных дубликатов — иногда лучше провести дополнительный анализ, чем потерять важные данные.Дубликаты — это не просто технический шум. Это риск искажения выводов, особенно в метриках, связанных с уникальными пользователями, заказами или событиями. Их стоит проверять в самом начале работы с данными.В следующем посте — разберёмся с пропущенными значениями: от типовых NaN до «пустых» строк, которые такими не являются.#eda

2 240

Это считается

19 июн., 22:51

🎧 Новый выпуск подкаста - Разбираем критику и математику!Друзья, сегодня мы углубимся в такие важные аспекты, как критическое мышление с точки зрения математики. Оказывается, сомнения — это не всегда плохо. Нужно ли разбираться глубже в теме, чтобы о ней судить? Как критически мыслить и оставаться объективным, когда навстречу приходит "невидимый дракон"?🤔 Пригласили в гости Виктора Горбатова - настоящего мастера по критическому мышлению и аргументации. Он поделится, зачем аналитикам интеллектуальная скромность и мужество и как формула Байеса связывается с повседневной жизнью.Почему критическое мышление не только выводит нас из тупиков, но и делает решения взвешенными? Отсылку с прошлого поста не считали, похоже. Вот разгадка. Спок своей вулканской логикой спасал команду. В нашем мире цифр и данных — это ваш главный союзник. 🖖Следите за Виктором Горбатовым и его контентом. Ведь знаний много не бывает! 🧠🔥🤔Напишите в комментариях как вам новый выпуск? Делитесь случаями из жизни или рабочей практики, когда вам очень помогло критическое мышление?Яндекс.МузыкаВКApple PodcastsTelegram-плееростальные платформы

2 050

Это считается

18 июн., 21:10

Диф-тор хех смюс-ма 🖖Уже завтра новый эпизод с очередным крутым гостем и на очень дискуссионную тему. У нас все по полочкам, вот вам анонс и тизер. Завтра еже и ссылки пришлем. Кто понял отсылку - пишите в комментарии)

1 680

Показано 5 последних публикаций.

Это считается

Статистика канала

Последние посты

Оставить комментарий/отзыв

Рекомендации

BeholderIsHere Media HUB

BitchyK

МАМСКОЕ ЧЕСТНОЕ обзоры WB OZON YM AliExpress

Любовки stories

Лакшери-Котакшери

Tokkich

Властелин капец

Vania__159

Илья Гордеев | Flow

Сомова Аня | визуал