Бенчмарки врут чаще, чем кажется. Поэтому сравниваем на живых задачах: рефакторинг, отладка, генерация тестов.
Короткий вывод
- Длинный контекст — где-то одни лидеры, в качестве правок — другие
- Для агентских циклов важнее стабильность, чем пиковый балл
- Лучшая модель — та, что встроена в ваш рабочий процесс без трения
Полные прогоны с примерами выкладываем в канале.