Анализ данных (Data analysis)

Анализ данных (Data analysis)

Аудитория: 46 000 подписчиков
Категория: Технологии
Data science, наука о данных.

@haarrp - админ

@itchannels_telegram - 🔥 главное в ит

@ai_machinelearning_big_data - ML

@machinelearning_interview - вопросы с собесдований по Ml

РКН: clck.ru/3FmyAp

Статистика канала

46 000 подписчиков

Последние посты

Анализ данных (Data analysis)
Превью публикации
🎯 Hugging Face показали, как ускорить обучение мультимодальных моделей, устранив главное узкое место — неэффективную загрузку данных.Они представили Multimodal Data Pipeline (MMDP) — мощный, но простой пайплайн, который решает проблему простоя GPU из-за паддинга и медленного I/O.Вот как это работает:1. Визуализация данных — сначала анализируются длины текстов и структура мультимодальных примеров.2. Constrained Padding — вместо бездумного паддинга, обрезаются аномально длинные примеры.3. Packing как bin-packing — батчи собираются по максимальному числу токенов, а не по фиксированному количеству примеров.4. Multimodal-aware batching — учитывается и число изображений в батче.5. ConstantLengthDataset — кастомный класс с producer-consumer очередями и плотной упаковкой без паддинга.💡 Результат — более плотные батчи, меньше токенов вхолостую, выше эффективность обучения.Исходники и туториал: 📌 https://huggingface.co/blog/mmdp 📌 https://github.com/ariG23498/mmdpЕсли ты тренируешь VLM или LLM с изображениями — это must-have.@data_analysis_ml
3 030
Анализ данных (Data analysis)
Превью публикации
🧠 Hugging Face представили SmolLM-3B — компактную и мощную open-source LLM на 3 млрд параметров, которая работает *прямо на ноутбуке*.📦 Особенности:• Тренирована на 1T токенов (RefinedWeb + книги + код + академические тексты) • Обгоняет Mistral-7B и LLaMA-3 8B на многих задачах • Работает в GGUF, поддерживается LM Studio, Ollama, LM Deploy и др.💡 Зачем это нужно?SmolLM — не про SOTA, а про локальные сценарии: быстрый запуск, приватность, низкие требования к железу.📁 Репозиторий и демо: https://huggingface.co/blog/smollm3@data_analysis_ml
19 200
Анализ данных (Data analysis)
Превью публикации
🚀 Новинка от Hugging Face — FineWeb‑2: огромный высококачественный веб‑датасет на базе CommonCrawl!📊 Основные характеристики:- ~8 ТБ сжатого текста (~3 трлн слов) из 96 дампов CommonCrawl (2013–2024)- Более 1000 языков и почти 1900 языковых-скриптовых пар- Высокое качество: извлечён только основной текст, проведена фильтрация и дедупликация- Лицензия ODC‑By 1.0 — можно использовать в коммерческих и исследовательских целях📝 Зачем это нужно:- Даёт открытому ИИ доступ к качеству, сравнимому с закрытыми наборами (как у LLaMA 3 или Mixtral)- Существенно улучшает результаты на бенчмарках вроде MMLU и ARC, особенно при обучении с FineWeb‑Edu🔧 Где применить FineWeb‑2:- Обучение LLM с нуля- Дообучение на редких языках- Синтетическая генерация, RAG и пр.📥 Скачать: https://huggingface.co/datasets/HuggingFaceFW/fineweb-2
5 870
Анализ данных (Data analysis)
Превью публикации
Первый открытый Call for Papers на IT Elements 2025 — last call!10–11 сентября ИТ-сообщество традиционно соберется на большой осенней конференции для тех, кто делает ИТ в России. Готовьтесь к новым трекам, новым спикерам и новой грандиозной площадке!Если у вас есть сильный кейс, нестандартный опыт или нешаблонное решение — пришло время предложить свой доклад. Главное требование — экспертность и новизна темы.Рассматриваются доклады по ключевым направлениям:▪️ИТ-инфраструктура▪️Сетевые решения▪️Кибербезопасность▪️Прикладные решения, AI и MLСтаньте главным элементом IT Elements 2025!Узнать больше и подать заявку можно до 20 июля.
3 110
Анализ данных (Data analysis)
Превью публикации
🧠 Energy-Based Transformers — модель, которая умеет думать, а не просто угадыватьНовая архитектура EBT (Energy-Based Transformers) показывает, что трансформеры можно сделать умнее и универсальнее.Что делает EBT:- 📊 Лучше классических трансформеров (включая Transformer++) по всем параметрам: данные, глубина, количество параметров, вычисления- ⏱ При "долгом размышлении" даёт +29% прирост качества на тестах- 🌍 Отлично работает с любыми типами данных: текст, видео, звук, 3D и др.- 🧠 Умеет обобщать — справляется с новыми задачами без дообучения- ❌ Не нуждается в наградах (как в reinforcement learning)Почему это важно:EBT — это шаг к ИИ, который способен реально *думать*, а не просто воспроизводить шаблоны. Он не просто быстрее, он глубже понимает, что делает.Website: https://energy-based-transformers.github.ioPaper: https://arxiv.org/abs/2507.02092@data_analysis_ml
3 240

Оставить комментарий/отзыв

Рекомендации

Команды (Shortcuts)

Команды (Shortcuts)

@iOSshortcut
47.3K подписчиков

Команды созданные нами, а также найденные на просторах Интернета. Каталог: https://iosshortcut.com/ По всем...

Windows Community

Windows Community

@wind_community
46.6K подписчиков

Все из мира Windows и технологий! Ссылка: @Portal_v_IT Сотрудничество: @oleginc, @tatiana_inc Менеджер: @Sp...

TechSparks

TechSparks

@techsparks
46.6K подписчиков

Аннотированные ссылки на интересные, полезные и удивительные новости хайтека. Кто больше любит слушать длинное...

Крипта и Коин 🐎

Крипта и Коин 🐎

@rhymecoins
46.3K подписчиков

Публикуем быстрее всех новые тапалки, интересные проекты, а также все, что связано с криптой и финансами. От с...

Техногид

Техногид

@texnogidus
63.3K подписчиков

Пишем о технологиях, которые меняют правила. Гайды, сервисы, тренды и инструменты, за которыми следят не тольк...

InterNews - Новости про ПК и гаджеты

InterNews - Новости про ПК и гаджеты

@InterNews_HW
46.3K подписчиков

Лучший новостной канал в своей сфере! ⚡️Наши каналы: https://t.me/addlist/UahvSh6NclA4MTRi По рекламе: @in...

DevOps community for love

DevOps community for love

@devopsforlove
44.9K подписчиков

🔥Новости IT 💣Конференции ❤️Мануалы ☯️Подкасты Регистрационный номер - № 5208774904 🤟Сотрудничество @darkbenl...

3DPrintKaif | 3D printers | 3D печать

3DPrintKaif | 3D printers | 3D печать

@print3Dkaif
45.1K подписчиков

Сборник 3d моделей для печати и творчества https://t.me/STL_Departments Сборник всех Flexi 3d моделей для пе...

Sacred Software 🔐

Sacred Software 🔐

Приватный
44.9K подписчиков

Сотрудничество - @Andrey_support1

Адский e-comm и ритейл

Адский e-comm и ритейл

@inferno_retail
46.3K подписчиков

Профессионально и с сарказмом о состоянии потребительских рынков и гонке ритейлеров. Для связи: @ecomtip