.ml

.ml

Аудитория: 3 780 подписчиков
Категория: Блоги
Мы — ML-инженеры финтех-компании Точка.

Делаем ML не ради трендов, а ради пользы. Делимся проверенными инструментами, шерим работающие модели, рассказываем, как решаем проблемы бизнеса с помощью ML.

Вакансии к нам в команду 👇🏻
https://tchk.me/Vl306E

Статистика канала

3 780 подписчиков

Последние посты

.ml
Это не реклама — мы зовём вас на PyCon от чистого сердца 💜В этом году в программном комитете в Data-треке от Точки будут драйверы этого канала — Head of ML Андрей Румянцев и лид ML-комьюнити Слава Баженов.Если вам есть, что рассказать сообществу — скорее подавайте заявку! Форматы разные:📢 Классические доклады на 30–40 минут.📢 Мастер-классы — для тех, кто готов провести обучение для группы.Не знаете, о чём рассказать? Загляните в список идей — может, какая-то из них вдохновит. Подавайте заявки до 12 мая → https://pycon.ru/cfp До встречи на сцене (или в зале)!
3 160
.ml
Как обучать модели, если данных малоГлубокое обучение показало SOTA-результаты во многих задачах, но есть нюанс: современные нейросети требуют огромного количества размеченных данных.Разметка — это дорого, долго и нередко требует привлечения экспертов с доменными знаниями, что ещё больше усложняет процесс. Эта проблема возродила интерес к методам, которые позволяют работать с частично размеченными или даже неразмеченными данными.Как обучать модели с минимумом разметки:📌 Active Learning — модель сама выбирает примеры для разметки, которые дадут наибольший прирост качества.📌 Semi-Supervised Learning — используем небольшое число размеченных данных вместе с неразмеченными, например, через псевдоразметку.📌 Transfer Learning — переносим знания с одной задачи на другую, что помогает значительно сократить потребность в разметке.Обучать модели без ручной разметки позволяет Weak supervision. Она использует слабые источники меток, например:📝 Distant Supervision — автоматическая разметка данных с использованием внешних баз знаний.📝 Эвристики и правила — разметка с помощью регулярных выражений, ключевых слов и логических правил.📝 Краудсорсинг — использование данных, размеченных пользователями, даже если разметка содержит шум.Важно понимать, что слабые метки не обладают высокой точностью (иногда даже 60% достаточно!), но их массовое использование в правильной комбинации даёт отличные результаты.Programmatic Weak Supervision (PWS): объединяем слабые источникиPWS — это метод, который умно комбинирует разные источники слабых меток. Он агрегирует их, учитывает корреляции и противоречия между источниками, что минимизирует шум.Как это работает?Допустим, мы решаем задачу классификации текстов. Для этого мы:📌 Читаем тексты и привлекаем экспертов, чтобы сформулировать эвристики и регулярные выражения.📌 Оформляем их в виде разметочных функций, которые автоматически назначают метки.📌 Тестируем и дорабатываем разметочные функции на небольшой dev-выборке.📌 Применяем их к большому объёму данных. Асимптотически, наш лосс уменьшается с той же скоростью, что и при разметке вручную.📌 Используем генеративную модель, чтобы оценить вероятность принадлежности к классу.📌 Обучаем поверх этой разметки классическую дискриминативную модель, которая теперь улавливает более общие закономерности, чем исходные разметочные функции.Такой подход позволяет получать качество, сопоставимое с ручной разметкой, но при этом автоматизирует процесс.Среди популярных библиотек для weak supervision — Snorkel, которая реализует PWS и гибко комбинирует слабые источники разметки.LLM можно использовать как дополнительный источник слабых меток. Например:📝 Заменять ключевые слова и эвристики вопросами к тексту на естественном языке.📝 Генерировать эвристики для автоматической разметки.📝 Комбинировать LLM с традиционными методами weak supervision, чтобы улучшать итоговое качество разметки.Исследования показывают, что PWS + LLM уже опережает few-shot и zero-shot подходы по качеству!📢 Подробнее о weak supervision и о том, как мы применяем его в Точке — в следующих постах. А пока можете почитать хороший обзор на тему обучения со слабым контролем.💜 Этот пост написал Артур Сосновиков, тимлид нескольких ML-команд в Точке.
36 100
.ml
ML-team Точки на DUMPЗавтра наш DS Сева Богодист расскажет, как эффективно анализировать текстовое содержание сайтов без необходимости большого объёма размеченных данных. Поговорим о различных подходах и том, как при помощи ансамбля из слабых моделей, которые решают отдельные задачи, достигнуть значимого эффекта. Доклад поможет справиться со сложностями получения разметки и низкой адаптивности системы. Вы научитесь создавать гибкие и адаптивные системы, которые быстро реагируют на изменения контента и критериев проверки.Так что, если вы в Екатеринбурге, приходите!
3 330
.ml
Что такое Weight decay? Это продолжение поста про Grokking.Weight decay — это регуляризационный метод, который добавляет штраф за большие значения весов модели. Он напрямую связан с амплитудой флуктуации функции: помогает сделать функцию потерь более гладкой и найти решение с минимальной нормой весов.Представьте точку в пространстве и два вектора: один направлен на loss, a второй — на Weight decay. Когда ошибка нулевая, компоненты Weight decay становятся ведущими. Если мы случайно отклонимся от точки с ненулевым train loss, Weight decay поможет вернуть нас обратно.Что за узкий минимум? Когда модель достигает нулевой ошибки на тренировочном наборе, но продолжает учиться без видимых изменений в градиенте (как в случае grokking), она может попасть в узкий минимум. Это приведёт к тому, что модель будет переобучаться на тренировочных данных, запоминая их, а не обобщая.Чтобы предотвратить попадание в узкий минимум, используйте оптимизацию и регуляризацию, например:📌 Dropout: случайное отключение нейронов во время обучения.📌 Weight decay: штраф за большие веса.📌 Шум к градиенту: случайные колебания или вариации в оценке градиента функции потерь.
3 720
.ml
Что такое grokking? Допустим, мы хотим обучить модель на синтетических абстрактных данных. Если построить график зависимости качества от оптимизационных шагов градиентного спуска, то увидим, что:📌 На 100 итерациях качество не растёт.📌 На 1000 итерациях модель переобучается и имеет низкую валидацию.📌 После миллиона итераций (в 1000 раз больше, чем модели понадобилось, чтобы запомнить датасет) точность на валидации достигает 100%.Это странно, ведь 1000 итераций достаточно, чтобы модель запомнила данные. Но она продолжает учиться без видимых изменений в градиенте.Этот эффект называется grokking. Термин заимствовали из книги Роберта Хайнлайна «Странный новый мир», где автор описывал концепцию полного понимания чего-либо. Модель продолжает учиться на данных даже после того, как достигла нулевой ошибки на тренировочном наборе.Гроккинг наблюдают только в больших моделях, где количество параметров превышает количество данных. Это односторонний процесс — качество на валидации не падает. Однако результат зависит от оптимизатора:📝 Full batch — практически никогда не достигает стопроцентного качества. 📝 Mini batch — показывает более качественный результат.📝 Mini batch с включённым Weight decay — лучше всего демонстрирует генерализацию на данных.Подробнее про Weight decay расскажем в следующем посте.
3 500

Оставить комментарий/отзыв

Рекомендации

Натали, Ок!

Натали, Ок!

@Natalie_Oke
6.3K подписчиков

Женский блог журналистки из Санкт-Петербурга. Прайс и отзывы https://t.me/Natali_Ok_reklama Сотрудничество...

𝗩𝗮𝗻𝗶𝗹𝗹𝗮 𝗚𝗶𝗿𝗹 ᥫ᭡

𝗩𝗮𝗻𝗶𝗹𝗹𝗮 𝗚𝗶𝗿𝗹 ᥫ᭡

@Vlogikii
3.4K подписчиков

𝗩𝗮𝗻𝗶𝗹𝗹𝗮 𝗚𝗶𝗿𝗹 ᥫ᭡ [ Ванильная девушка ] ᡣ𝂅 ⊹ ๋ ᥰρᥲᥔᥴ и инфо в κᥲнᥲ᧘ᥱ @pricesheel1 ʙ᧘д: @Samasheel1 Я жду 5к кот...

Саша Филипенко с одним П

Саша Филипенко с одним П

@sasha_filipenko
2.6K подписчиков

P.S. Еще я буду записывать кружки

sunriseart 16+

sunriseart 16+

@sunriseart01
2.8K подписчиков

Рисую, общаюсь Анонимные соо t.me/anonaskbot?start=_RMuWwRTyiW4t0T

Vasyaz

Vasyaz

@thevasyaz
2.6K подписчиков

Микро-блог Василия Захарова (vazah.ru) для любителей внутрянки интересных проектов и телеграма: инсайды, новин...

ЧерУм

ЧерУм

@cherobotleto
2.9K подписчиков

Здесь об учебе, дисциплине, самореализации и смысле всего перечисленного 🩶 TikTok chero.yl По любым вопросам...

ЕГОРОВ

ЕГОРОВ

@EGOROV_CONTEXT
2.6K подписчиков

Журналист ютуб-канала «Редакция» Личка для жалоб и предложений: @IlyaEgrv Если я не отвечаю, звоните, мне норм

Славины мысли

Славины мысли

@kaggme
2.7K подписчиков

Личный канал Крамаренко Владислава @vlomme

Из города на дачу. Жизнь в деревне

Из города на дачу. Жизнь в деревне

@izgorodanadachu
2.7K подписчиков

Ремонт 🛠️ Переделки🔨🖌️📏 Восстанавливаем старенький дом🏠 Идеи✨🎨📸 Сотрудничество: vikamala@rambler.ru Ютуб: htt...

Сандро Крымский Репортаж

Сандро Крымский Репортаж

@sandro_crimea
2.8K подписчиков

Сандро. Крымский. Местный #яZдесьживу