Этихлид

Аудитория: 980 подписчиков

Категория: Блоги

Канал техлида с мыслями об AI, IT и спорте.

https://t.me/etechlead/6 - содержание

https://t.me/etechlead/8 - о канале

@maxim_key_1337 - для контактов (стороннюю рекламу не беру)

Статистика канала

980 подписчиков

Последние посты

Этихлид

05 июн., 20:41

Фоновые агенты (3/3)Что это меняет?● Повышение уровня абстракции: для разработчиков становится проще переход к задачам более высокого уровня вместо написания кода.Это ожидаемая и неизбежная трансформация профессии по мере улучшения ИИ-моделей.Чтобы не повторяться: после выхода сценария AI 2027 я писал, куда развиваться, чтобы быть готовым к грядущим изменениям● Адаптация рабочего процесса для эффективного включения в него агентов. Придётся потратить некоторое время как на технические изменения (что проще), так и на то, чтобы изменить свои привычки (что чутка сложнее).Качественно этот переход можно сравнить с тем, как если бы от рядового разработчика нужно было бы перейти к техлидству (самое время менять название канала на AI-техлид, хехе :))Хорошей ментальной моделью может стать то, что изображено на картинке к посту.Появляются этапы, на которых можно работать с задачами в режиме конвейера - подряд несколько задач перекинуть на агентов, потом подряд несколько проверить, по нескольким сразу дать фидбек/вмержить.Без фоновых агентов все эти этапы для каждой задачи проходят последовательно, и в случае использования AI IDE мы просто ждём, пока агент закончит работу (не всегда, но чаще всего), попутно отвлекаясь и теряя фокус.А теперь есть возможность конвейерной и параллельной работы над задачами - и это то, к чему придёт профессия уже в недалёком будущем● В перспективе агенты будут умнеть и смогут брать задачи больше и сложнее.Адаптировать проекты, процессы и свои ментальные модели под них нужно начинать уже сейчасКраткое сравнение● Google Jules - проще всего с него начать: 60 (!) задач в день, бесплатно, пусть слабая кастомизация и интеграция, но для попробовать - очень хорошо● OpenAI Codex - теперь входит в подписку Plus ($20), поудобнее, чем Jules и чуть более фичастый, а вчера ему провели Интернет.Конкретные лимиты не озвучены, но говорят, что щедрые● Cursor Background Agent - дорого (только для MAX-режима), нестабильно и требует включения возможности обучения на вашем коде● GitHub Copilot code agent - лучший по кастомизации, интеграции в сам GitHub и фичам, я сам его использую сейчас как основной.Доступен в планах от $39 (туда же входят 1500 запросов в месяц, которые шарятся между агентом и самим Copilot, и их можно использовать в Roo Code, полуофициально).#ai #agents

6 050

Этихлид

05 июн., 20:40

Фоновые агенты (2/3)Плюсы (ожидаемые)● Освобождение фокуса активного внимания: не нужно бебиситтить текущую задачу, как в AI IDE, а можно передать её агенту, чтобы он занимался ею в фоне.(первое время, впрочем, всё равно как кот на стиралку будете смотреть за работой агента)● Повышение продуктивности: разгружает от рутины, которая теперь делается почти сама собой, а ещё можно давать агентам задачи "на ночь", к примеру :)● Параллельная работа: возможность выполнять несколько задач фоном убирает необходимость переключения контекста между ними● Доступность: так как агент работает где-то в облаке, вы можете проверять статус его работы, давать ему фидбек и даже ставить новые задачи, не находясь на рабочем месте. Некоторыми агентами можно управлять через мобильное приложение, другими - через веб-интерфейсПроблемы (куда без них)● Облачность: работа с кодом ведется на сторонних серверах, что может быть неприемлемо для проектов с жёсткими требованиями к безопасности● Стоимость: в некоторых случаях придется увеличить ваши бюджеты на ИИ-кодинг, для некоторых агентов - значительно. Впрочем, пока что есть и бесплатные варианты● Скорость - чаще всего фоновый агент работает медленнее, чем если бы задачу решали в том же Cursor. Это потому, что ему нужно с нуля развернуть среду, поставить зависимости, скачать код, да и выделяемые виртуалки как правило не такие быстрые, особенно если вам нужно билдить/тестить тяжёлый проект● Доступ в интернет: не у всех агентов он есть. Тут важен баланс - с одной стороны, если агенты могут сами лазить в сеть (скажем, для поиска актуальной информации), то это повышает риск утечек. А с другой - агенты без доступа не могут какую-то зависимость на ходу поставить или обратиться к внешнему ресурсу типа Remote MCP● Общая нестабильность: все текущие фоновые агенты находятся в статусе preview / ранних бета-версий, так что эпизодически что-то ломается то в инфраструктуре, то в работе самого агента.В таком случае проще всего пересоздать/переназначить задачу, и тем самым запустить агента зановоХорошие практики● Линтинг/билд/тесты - чтобы агент мог сам проверить результат своей работы, эти вещи крайне желательно иметь в проекте, иначе проверка ляжет на вас, что значительно удлинит итерации работы с агентом.Да и в целом это всё нормальные части пайплайна разработки здорового человека● Предоставление контекста: критичным становится дать агенту всю необходимую информацию на старте, корректно поставив задачу и сказав, где искать документацию (которую тоже нужно иметь в проекте в виде, к примеру, Memory Bank).Вы его отпускаете в бесконтрольную неизвестность на несколько десятков минут всё-таки :)В качестве лайфхака: ставьте задачи агенту при помощи LLM прям в чате того же Cursor, собрав нужный контекст● Настройка окружения: по-хорошему, агенту нужна среда со всеми зависимостями (код, системные пакеты, БД и т.п.), что может быть нетривиальной задачей для сложных проектов.Некоторые агенты добавляют проблем с тем, что у них ограничены возможности по кастомизации окруженияТак что если у вас есть DevOps-скиллы, тут-то они вам и пригодятся :)Настроенное воспроизводимое окружение - мастхэв в нормальном проекте, это будет в плюс не только в работе с агентами● Конфликты: как и в случае работы нескольких людей над одной кодовой базой, можно получить конфликты при мерже их изменений в основную ветку.Так что в параллель надо ставить те задачи, которые не приведут к изменению одних и тех же файлов. Ну и/или понимать, как работать с ветками, конфликтами, мержами/ребейзами в Git● Контроль качества: LLM совершают ошибки, галлюцинируют, принимают неоптимальные решения - это норма, так что человеческий контроль и ревью обязательны.Привыкайте к тому, что разбор пулл-реквестов станет частью вашей работы● Не давать сложных/многоступенчатых задач - тут наработанная конкретно вами практика постановки и оценки результатов работы агентов важнее, но в целом задачи должны быть небольшие/"плоские"/изолированные - с такими текущие агенты справляются успешнее#ai #agents

4 440

Этихлид

05 июн., 20:40

Фоновые агенты (1/3)Итак, у нас появился новый тип инструментов, которые пробудут с нами некоторое время, и их роль будет только возрастать, и это - асинхронные облачные ИИ-агенты (для краткости - фоновые агенты).Как и любой другой инструмент, этот имеет свои особенности, сферы применения, и его нужно учиться использовать и включать в рабочие процессы.Для начала расскажу, о чём это всё, а позже опишу подробно свои впечатления по некоторым из фоновых агентов и дам сравнение.Для кого это?Фоновые агенты нацелены больше на senior+ разработчиков и предназначены для повышения их продуктивности.Идея в том, чтобы делегировать ИИ-агентам посильные задачи, над которыми они будут работать без вашего участия.Это позволяет меньше отвлекаться на рутину и больше фокусироваться на сложных/творческих проблемах.Больше всего это похоже на то, как будто бы у вас есть на подхвате несколько джунов, которые между собой не общаются, каждый раз видят проект как в первый раз, но могут быстро в параллель работать над небольшими задачами, и всегда при этом доступны.Что им можно скормить?Как правило, такие задачи, которые не особо интересно делать:● фиксинг мелких багов;● реализация небольших новых и чётко очерченных фич;● закодить что-то по существующему в проекте шаблону (всякие CRUD'ы, к примеру);● написание и отладка тестов;● мелкий рефакторинг кода;● создание или обновление документации;● ... и прочие рутинные или трудоемкие задачи, отнимающие время.Можно глянуть список промптов для Google Jules, чтобы получить более полное представление.Как это работает?Фоновые агенты выпустили несколько компаний, но общий принцип их работы довольно схож:1. Постановка задачи: обычно через чат или через назначение агенту таски на GitHub (кстати, все они ожидают того, что ваш код хостится на GitHub)2. Создание изолированного окружения: как правило, в облаке поднимается контейнер или VM, а потом туда клонируется репозиторий проекта3. Автономная работа: в этой "песочнице" агент автономно работает над задачей. Типичные этапы его работы: ● Исследование: поиск релевантных задаче документации и кода ● Планирование: анализ задачи, опционально - разбивка на более мелкие подзадачи и построение плана ● Редактирование: собственно, работа с кодом и/или документацией ● Проверка: запуск линтера, билда, тестов, исправление найденных проблем в циклеВ работу некоторых агентов можно вмешиваться на ходу, но по большей части контроля над агентом, кроме полной его остановки, нет до тех пор, пока он не сочтёт задачу выполненной или не завершится по таймауту/ошибке4. Параллелизация: большинство фоновых агентов поддерживают одновременное выполнение нескольких задач, каждой в своей изолированной среде. Это позволяет делегировать сразу несколько потоков работы - и это, на мой взгляд, самое важное их преимуществоЕсть параллелизация и другого рода, когда одну и ту же задачу ставят сразу нескольким копиям агента, чтобы по итогу выбрать понравившееся решение.С людьми такой финт ушами разве что Том Демарко в своём романе "Deadline" мог себе позволить :)5. Developer-in-the-loop: финальный контроль остается за человеком. Агент не вносит изменения напрямую в основную ветку, вместо этого он: ● Предлагает результат: чаще всего этого готовый pull request в GitHub, но иногда и просто диффы, которые можно применить в открытом проекте ● Ждёт одобрения: разработчик просматривает PR, принимает изменения или отправляет на доработку через сообщение в чате или комментарий к PR на GitHub6. Прозрачность: основа агента - LLM, работающая со своим набором инструментов, которые есть в песочнице (консольные команды, git, правка файлов, (возможно) headless браузер).Для отчёта предоставляются логи её действий, вызовов инструментов и этапы рассуждений, что может помочь разобраться, если что-то пошло не так#ai #agents

5 010

Этихлид

27 мая, 10:22

Claude 4, обзорПрошло несколько дней работы с Claude 4, так что можно сказать пару слов.Если вкратце, то для меня теперь выбор моделей для разработки выглядит так:Sonnet 4● если нужно подёргать много тулов (полазить по проекту, вызвать MCP, просто задачи вида "запускай тесты и фикси баги до посинения, пока всё не исправишь")● задачи, для которых отсутствует заранее подготовленный контекст или его просто лень собирать :)● небольшие повседневные задачи, где не нужно много думать● веб-разработкаGemini 2.5 Pro● все задачи, где нужен длинный контекст● иии... почти все остальные задачиo3● случаи, когда нужен чистый ризонингПереход с других моделей на Claude 4● с Sonnet 3.7 - однозначно переходить: * изменения в коде стали точнее * лучше следует инструкциям и держит контекст * менее упорот - иногда всё-таки делает то, что не просят, но намного реже * новый cutoff - конец января 2025● с Gemini 2.5 Pro - как минимум, стоит попробовать на своих задачах: * лучше использует тулы * структурнее подходит к решению задачПо поводу Opus 4: хорошо кушает токены и, как следствие, деньги (у меня $1/мин уходило в нескольких тестах).Если у вас есть Claude Max, где не нужно платить за токены, то Opus можно использовать для сложных задач вместо Sonnet 4, а также в сценариях, когда нужно что-то долго делать с активным использованием тулов в процессе.Далее в основном буду говорить про Sonnet.БенчмаркиЕсли приглядеться к числам на "хардовых" бенчмарках, то выглядит так себе - от мажорного релиза ожидалось большего.По многим из них новый Sonnet несильно отличается от прошлого 3.7, а местами даже хуже.Но на паре результаты всё-таки неплохие:● MultiChallenge - стабильность работы в многоходовых диалогах с людьми● Recall on Codebase Questions - метрика от Cursor, про которую ничего, кроме названия, неизвестно - будем считать, что это "доля правильных ответов на вопросы по кодовой базе при её исследовании в режиме агента"И это подводит нас к следующему пункту:В чём же хорош Claude 4?Anthropic в анонсе много говорили именно про использование новых моделей в агентских сценариях и их интеграции в соответствующий инструментарий (например, в Claude Code & Claude Desktop).И да, это у них вполне получилось - модели действительно очень хорошо работают с разными тулами и тащат длинные задачи (Opus у самих Anthropic работал до 7 часов, а на Reddit был результат в 40+ минут от пользователя).За счёт этого они в реальной работе оказываются лучше, чем можно было бы предположить, смотря лишь на "хардовые" бенчмарки.Потенциал Claude 4 не раскрыть в окружении, где нет тулов - у неё просто не так много других способностей, по которым бы её не обходили модели конкурентов.Особенности● охотнее сама строит планы для задач и потом их придерживается● чаще делает какие-то временные скрипты для тестирования, проверки своих гипотез и т.п. Если нет нужного инструмента - сделай его :)Иногда она их удаляет по завершению задачи, но чаще оставляет в проекте, приходится вычищать.Anthropic даже в своём Claude 4 prompt engineering best practices добавили секцию о том, как такое поведение ограничить● помните, что модель стала делать меньше делать то, что не просят?Так вот, можно наоборот попросить уйти в отрыв: Don't hold back. Give it your all. - это из того же гайда по промптингу Claude 4 :)Проблемы● доступность API - это уже стало особенностью Anthropic, что в моменты пиковой нагрузки отваливаются запросы, инференс тормозит и вообще работать невозможно● всё ещё может ходить кругами при решении проблем, хоть и реже - почему-то именно линейка Sonnet этим выделяется● смайлики проникли и в Sonnet - ощущение иногда, что с ChatGPT 4o общаешься :)ЗаключениеПротиворечивый релиз, конечно, вышел.Anthropic явно сфокусировались на определенных нишах - агентские системы и кодинг, - уйдя от построения моделей общего назначения (возможно, в силу ограниченности ресурсов на фоне конкурентов).Посмотрим, к чему это их приведёт в перспективе, ну а пока что для Sonnet 4 у меня явно найдётся работа :)#ai #model #review

2 700

Этихлид

22 мая, 23:29

Claude 4❗️Новые релизы от Anthropic - Claude 4 Opus & Sonnet.🟢 декларируются улучшения по кодингу, использованию агентских инструментов, включая MCP, но ждём сторонних бенчей🟢 обе модели гибридные, могут работать как в режиме thinking, так и без него, при этом могут использовать в процессе размышлений инструменты🟢 обещают, что Opus способен справляться с многочасовыми задачами и не деградирует на задачах со многими шагами🟢 обещают, что Sonnet стал более управляемым и лучше следует инструкциям🔵 длина контекста осталась такой же, как и у прошлых моделей - 200kДоступность● модели уже в Cursor (Sonnet - 0.5 запроса, Sonnet Thinking - 0.75 запроса, Opus - только в MAX mode с нехилыми такими ценами).Sonnet, получается, стал дешевле, чем был - возможно, на время, так что нужно переключаться.● добавили в GitHub Copilot● а Sonnet 4 стал базовой моделью для GitHub Copilot coding agent (как раз его тестирую второй день, расскажу :))Расширения API● Code execution tool - можно запускать код через API● MCP connector - интеграция с протоколом для создания сложных AI workflow● Files API - для прямой работы с файлами● Prompt cache - стало можно кэшировать промпты до часа—В целом релиз во многом рассчитан на поддержку сценариев долгой, автономной разработки с помощью инструментов, улучшая применимость моделей в агентских сценариях.Этому посвящена значительная часть презентации Anthropic сегодня.И это хорошо ложится в канву новых инструментов для разработки - фоновых агентов, которые стали появляться за последний месяц.Я пока что настроен слегка скептически на фоне реально хороших релизов от Google в последнее время, но это всё нужно тестировать, конечно.Уже переключился на Sonnet 4 :)#ai #news

1 230

Показано 5 последних публикаций.

Этихлид

Статистика канала

Последние посты

Оставить комментарий/отзыв

Рекомендации

полин?

KEKCIKMARY

Лисий замысел

𐔌 𝖪ꪮ𝗁𝖺𝗋𝗒 𝗌𝗍𝗂𝖼𝗄'𝗌 . .ᝡ

Приключения Kukmora в России (Нияз Аксанов)

Мама, я в Барселоне 🇪🇸

X Impression

polinastraaa

TepmoGangMusic

krakot