.ml

Аудитория: 3 780 подписчиков

Категория: Блоги

Мы — ML-инженеры финтех-компании Точка.

Делаем ML не ради трендов, а ради пользы. Делимся проверенными инструментами, шерим работающие модели, рассказываем, как решаем проблемы бизнеса с помощью ML.

Вакансии к нам в команду 👇🏻
https://tchk.me/Vl306E

Статистика канала

3 780 подписчиков

Последние посты

.ml

05 мая, 17:01

Это не реклама — мы зовём вас на PyCon от чистого сердца 💜В этом году в программном комитете в Data-треке от Точки будут драйверы этого канала — Head of ML Андрей Румянцев и лид ML-комьюнити Слава Баженов.Если вам есть, что рассказать сообществу — скорее подавайте заявку! Форматы разные:📢 Классические доклады на 30–40 минут.📢 Мастер-классы — для тех, кто готов провести обучение для группы.Не знаете, о чём рассказать? Загляните в список идей — может, какая-то из них вдохновит. Подавайте заявки до 12 мая → https://pycon.ru/cfp До встречи на сцене (или в зале)!

3 160

.ml

30 апр., 19:11

Как обучать модели, если данных малоГлубокое обучение показало SOTA-результаты во многих задачах, но есть нюанс: современные нейросети требуют огромного количества размеченных данных.Разметка — это дорого, долго и нередко требует привлечения экспертов с доменными знаниями, что ещё больше усложняет процесс. Эта проблема возродила интерес к методам, которые позволяют работать с частично размеченными или даже неразмеченными данными.Как обучать модели с минимумом разметки:📌 Active Learning — модель сама выбирает примеры для разметки, которые дадут наибольший прирост качества.📌 Semi-Supervised Learning — используем небольшое число размеченных данных вместе с неразмеченными, например, через псевдоразметку.📌 Transfer Learning — переносим знания с одной задачи на другую, что помогает значительно сократить потребность в разметке.Обучать модели без ручной разметки позволяет Weak supervision. Она использует слабые источники меток, например:📝 Distant Supervision — автоматическая разметка данных с использованием внешних баз знаний.📝 Эвристики и правила — разметка с помощью регулярных выражений, ключевых слов и логических правил.📝 Краудсорсинг — использование данных, размеченных пользователями, даже если разметка содержит шум.Важно понимать, что слабые метки не обладают высокой точностью (иногда даже 60% достаточно!), но их массовое использование в правильной комбинации даёт отличные результаты.Programmatic Weak Supervision (PWS): объединяем слабые источникиPWS — это метод, который умно комбинирует разные источники слабых меток. Он агрегирует их, учитывает корреляции и противоречия между источниками, что минимизирует шум.Как это работает?Допустим, мы решаем задачу классификации текстов. Для этого мы:📌 Читаем тексты и привлекаем экспертов, чтобы сформулировать эвристики и регулярные выражения.📌 Оформляем их в виде разметочных функций, которые автоматически назначают метки.📌 Тестируем и дорабатываем разметочные функции на небольшой dev-выборке.📌 Применяем их к большому объёму данных. Асимптотически, наш лосс уменьшается с той же скоростью, что и при разметке вручную.📌 Используем генеративную модель, чтобы оценить вероятность принадлежности к классу.📌 Обучаем поверх этой разметки классическую дискриминативную модель, которая теперь улавливает более общие закономерности, чем исходные разметочные функции.Такой подход позволяет получать качество, сопоставимое с ручной разметкой, но при этом автоматизирует процесс.Среди популярных библиотек для weak supervision — Snorkel, которая реализует PWS и гибко комбинирует слабые источники разметки.LLM можно использовать как дополнительный источник слабых меток. Например:📝 Заменять ключевые слова и эвристики вопросами к тексту на естественном языке.📝 Генерировать эвристики для автоматической разметки.📝 Комбинировать LLM с традиционными методами weak supervision, чтобы улучшать итоговое качество разметки.Исследования показывают, что PWS + LLM уже опережает few-shot и zero-shot подходы по качеству!📢 Подробнее о weak supervision и о том, как мы применяем его в Точке — в следующих постах. А пока можете почитать хороший обзор на тему обучения со слабым контролем.💜 Этот пост написал Артур Сосновиков, тимлид нескольких ML-команд в Точке.

36 100

.ml

24 апр., 18:06

ML-team Точки на DUMPЗавтра наш DS Сева Богодист расскажет, как эффективно анализировать текстовое содержание сайтов без необходимости большого объёма размеченных данных. Поговорим о различных подходах и том, как при помощи ансамбля из слабых моделей, которые решают отдельные задачи, достигнуть значимого эффекта. Доклад поможет справиться со сложностями получения разметки и низкой адаптивности системы. Вы научитесь создавать гибкие и адаптивные системы, которые быстро реагируют на изменения контента и критериев проверки.Так что, если вы в Екатеринбурге, приходите!

3 330

.ml

21 апр., 13:26

Что такое Weight decay? Это продолжение поста про Grokking.Weight decay — это регуляризационный метод, который добавляет штраф за большие значения весов модели. Он напрямую связан с амплитудой флуктуации функции: помогает сделать функцию потерь более гладкой и найти решение с минимальной нормой весов.Представьте точку в пространстве и два вектора: один направлен на loss, a второй — на Weight decay. Когда ошибка нулевая, компоненты Weight decay становятся ведущими. Если мы случайно отклонимся от точки с ненулевым train loss, Weight decay поможет вернуть нас обратно.Что за узкий минимум? Когда модель достигает нулевой ошибки на тренировочном наборе, но продолжает учиться без видимых изменений в градиенте (как в случае grokking), она может попасть в узкий минимум. Это приведёт к тому, что модель будет переобучаться на тренировочных данных, запоминая их, а не обобщая.Чтобы предотвратить попадание в узкий минимум, используйте оптимизацию и регуляризацию, например:📌 Dropout: случайное отключение нейронов во время обучения.📌 Weight decay: штраф за большие веса.📌 Шум к градиенту: случайные колебания или вариации в оценке градиента функции потерь.

3 720

.ml

15 апр., 14:30

Что такое grokking? Допустим, мы хотим обучить модель на синтетических абстрактных данных. Если построить график зависимости качества от оптимизационных шагов градиентного спуска, то увидим, что:📌 На 100 итерациях качество не растёт.📌 На 1000 итерациях модель переобучается и имеет низкую валидацию.📌 После миллиона итераций (в 1000 раз больше, чем модели понадобилось, чтобы запомнить датасет) точность на валидации достигает 100%.Это странно, ведь 1000 итераций достаточно, чтобы модель запомнила данные. Но она продолжает учиться без видимых изменений в градиенте.Этот эффект называется grokking. Термин заимствовали из книги Роберта Хайнлайна «Странный новый мир», где автор описывал концепцию полного понимания чего-либо. Модель продолжает учиться на данных даже после того, как достигла нулевой ошибки на тренировочном наборе.Гроккинг наблюдают только в больших моделях, где количество параметров превышает количество данных. Это односторонний процесс — качество на валидации не падает. Однако результат зависит от оптимизатора:📝 Full batch — практически никогда не достигает стопроцентного качества. 📝 Mini batch — показывает более качественный результат.📝 Mini batch с включённым Weight decay — лучше всего демонстрирует генерализацию на данных.Подробнее про Weight decay расскажем в следующем посте.

3 500

Показано 5 последних публикаций.

.ml

Статистика канала

Последние посты

Оставить комментарий/отзыв

Рекомендации

Натали, Ок!

𝗩𝗮𝗻𝗶𝗹𝗹𝗮 𝗚𝗶𝗿𝗹 ᥫ᭡

Саша Филипенко с одним П

sunriseart 16+

Vasyaz

ЧерУм

ЕГОРОВ

Славины мысли

Из города на дачу. Жизнь в деревне

Сандро Крымский Репортаж