Grok — это искусственный интеллект, созданный по образцу «Автостопом по галактике», предназначенный для того, чтобы отвечать практически на все и, что гораздо сложнее, даже подсказывать, какие вопросы задавать!
Попробуй Grok прямо сейчас!
Grok создан для того, чтобы остроумно отвечать на вопросы, и у него есть бунтарские наклонности, поэтому, пожалуйста, не используйте его, если вы ненавидите юмор!
Уникальное и фундаментальное преимущество Grok заключается в том, что он получает информацию о мире в режиме реального времени через платформу 𝕏. Он также ответит на острые вопросы, которые отвергаются большинством других систем искусственного интеллекта.
Grok все еще находится на ранней стадии бета-тестирования – лучшее, что мы могли сделать за два месяца обучения – так что ожидайте, что с вашей помощью он будет быстро улучшаться с каждой неделей.
Спасибо,
команда xAI.
Почему мы создаем Grok
В xAI мы хотим создавать инструменты искусственного интеллекта, которые помогут человечеству в его стремлении к пониманию и знаниям.
Создавая и совершенствуя Grok, мы стремимся:
- Собирайте отзывы и убедитесь, что мы создаем инструменты искусственного интеллекта, которые принесут максимальную пользу всему человечеству. Мы считаем, что важно разрабатывать инструменты ИИ, которые будут полезны людям любого происхождения и политических взглядов. Мы также хотим расширить возможности наших пользователей с помощью наших инструментов искусственного интеллекта в соответствии с законом. Наша цель с Гроком — изучить и продемонстрировать этот подход публично.
- Расширьте возможности исследований и инноваций. Мы хотим, чтобы Grok служил для всех мощным помощником по исследованиям, помогая им быстро получать доступ к актуальной информации, обрабатывать данные и выдвигать новые идеи.
Наша конечная цель — чтобы наши инструменты искусственного интеллекта помогали в достижении понимания.
Путешествие в Grok-1
Двигатель Grok – это Grok-1, наша передовая программа LLM, которую мы разработали за последние четыре месяца. За это время Грок-1 претерпел множество итераций.
После анонса xAI мы обучили прототип LLM (Грок-0) с 33 миллиардами параметров. Эта ранняя модель приближается к возможностям LLaMA 2 (70B) в стандартных тестах LM, но использует только половину своих обучающих ресурсов. За последние два месяца мы добились значительных улучшений в возможностях рассуждения и кодирования, что привело к созданию Grok-1, современной языковой модели, которая является значительно более мощной, достигнув 63,2% в задаче кодирования HumanEval и 73% на ММЛУ.
Чтобы понять, какие улучшения мы добились с помощью Grok-1, мы провели серию оценок с использованием нескольких стандартных тестов машинного обучения, предназначенных для измерения математических способностей и способностей к рассуждению.
GSM8k : Задачи по математике для средней школы (Cobbe et al., 2021), с использованием подсказки цепочки мыслей.
MMLU : Междисциплинарные вопросы с множественным выбором (Hendrycks et al., 2021), в которых представлены контекстные примеры из 5 вопросов.
HumanEval : задача завершения кода Python (Чен и др., 2021 г.), нулевая оценка на проход @1.
МАТЕМАТИКА : задачи по математике для средней и старшей школы, написанные в LaTeX (Hendrycks et al., 2021), с фиксированной подсказкой из 4 шагов.
Контрольный показатель | Grok-0 (33Б) | Llama 2 70Б | Inflection -1 | GPT-3,5 | Grok-1 | Palm 2 | Claude 2 | GPT-4 |
---|---|---|---|---|---|---|---|---|
GSM8k | 56,8% 8-зарядный | 56,8% 8-зарядный | 62,9% 8-зарядные | 57,1% 8-зарядные | 62,9% 8-зарядные | 80,7% 8 выстрелов | 88,0% 8 выстрелов | 92,0% 8 выстрелов |
MMLU | 65,7% 5-зарядный | 68,9% 5-зарядный | 72,7% 5-зарядный | 70,0% 5 выстрелов | 73,0% 5 выстрелов | 78,0% 5-зарядный | 75,0% 5 выстрелов + ЦТ | 86,4% 5-зарядный |
HumanEval | 39,7% 0 выстрелов | 29,9% 0 выстрелов | 35,4% 0 выстрелов | 48,1% 0 выстрелов | 63,2% 0 выстрелов | — | 70% 0 выстрелов | 67% 0 выстрелов |
MATH | 15,7% 4 выстрела | 13,5% 4 выстрела | 16,0% 4 выстрела | 23,5% 4 выстрела | 23,9% 4 выстрела | 34,6% 4 выстрела | — | 42,5% 4 выстрела |
В этих тестах Grok-1 показал хорошие результаты, превзойдя все другие модели в своем вычислительном классе, включая ChatGPT-3.5 и Inflection-1. Его превосходят только модели, которые были обучены с использованием значительно большего объема обучающих данных и вычислительных ресурсов, таких как GPT-4. Это демонстрирует быстрый прогресс, которого мы добиваемся в xAI в обучении LLM с исключительной эффективностью.
Поскольку эти тесты можно найти в Интернете, и мы не можем исключить, что наши модели были случайно обучены на них, мы вручную оценили нашу модель (а также Claude-2 и GPT-4) на финале венгерских национальных средних школ 2023 года по математике , который был опубликован в конце мая, после того как мы собрали наш набор данных. Грок сдал экзамен на четверку (59%), Клод-2 получил ту же оценку (55%), а GPT-4 получил четверку с 68%. Все модели оценивались при температуре 0,1 и той же подсказке. Надо отметить, что мы не пытались настроиться на эту оценку. Этот эксперимент послужил «реальной» проверкой набора данных, для которого наша модель никогда не была явно настроена.
Человеческая оценка | Грок-0 | ГПТ-3,5 | Клод 2 | Грок-1 | ГПТ-4 |
---|---|---|---|---|---|
Венгерский национальный экзамен по математике для средней школы (май 2023 г.) | 37% 1 выстрел | 41% 1 выстрел | 55% 1 выстрел | 59% 1 выстрел | 68% 1 выстрел |
Краткое изложение важных технических деталей Грока-1 мы приводим в карточке модели .
Инженерное дело в xAI
На переднем крае исследований в области глубокого обучения надежная инфраструктура должна создаваться с той же тщательностью, что и наборы данных и алгоритмы обучения. Для создания Grok мы создали собственный стек обучения и вывода на основе Kubernetes, Rust и JAX.
Обучение LLM проходит как грузовой поезд, мчащийся вперед; если один вагон сойдет с рельсов, весь поезд сойдет с рельсов, и его будет трудно снова встать в вертикальное положение. Существует множество причин выхода из строя графических процессоров: производственные дефекты, слабые соединения, неправильная конфигурация, износ микросхем памяти, случайное переключение битов и многое другое. Во время обучения мы месяцами синхронизируем вычисления на десятках тысяч графических процессоров, и все эти режимы сбоев становятся частыми из-за масштаба. Чтобы преодолеть эти проблемы, мы используем набор специализированных распределенных систем, которые гарантируют, что каждый тип сбоя немедленно выявляется и автоматически обрабатывается. В xAI мы сделали ключевым направлением наших усилий максимизацию полезной вычислительной мощности на ватт. За последние несколько месяцев наша инфраструктура позволила нам свести к минимуму время простоя и поддерживать высокий уровень использования модели Flop (MFU) даже при наличии ненадежного оборудования.
Rust оказался идеальным выбором для создания масштабируемой, надежной и поддерживаемой инфраструктуры. Он предлагает высокую производительность, богатую экосистему и предотвращает большинство ошибок, которые обычно встречаются в распределенной системе. Учитывая небольшой размер нашей команды, надежность инфраструктуры имеет решающее значение, иначе техническое обслуживание не позволит инновациям. Rust дает нам уверенность в том, что любая модификация или рефакторинг кода, скорее всего, приведет к созданию рабочих программ, которые будут работать месяцами при минимальном контроле.
Сейчас мы готовимся к следующему скачку в возможностях моделей, который потребует надежной координации обучающих прогонов на десятках тысяч ускорителей, запуска конвейеров данных в масштабе Интернета и создания новых видов возможностей и инструментов в Grok. Если вам это кажется интересным, подайте заявку на вступление в команду здесь .
Исследования в xAI
Мы даем Гроку доступ к инструментам поиска и информации в реальном времени, но, как и все LLM, обученные прогнозированию следующего токена, наша модель все равно может генерировать ложную или противоречивую информацию. Мы считаем, что достижение надежных рассуждений является наиболее важным направлением исследований для устранения ограничений существующих систем. Здесь мы хотели бы выделить несколько перспективных направлений исследований, которые нас больше всего интересуют в xAI:
- Масштабируемый контроль с помощью инструментов. Человеческая обратная связь очень важна. Однако предоставление последовательной и точной обратной связи может оказаться сложной задачей, особенно при работе с длинным кодом или сложными этапами рассуждения. ИИ может помочь в масштабируемом надзоре, просматривая ссылки из разных источников, проверяя промежуточные шаги с помощью внешних инструментов и при необходимости запрашивая обратную связь от людей. Мы стремимся максимально эффективно использовать время наших преподавателей ИИ с помощью наших моделей.
- Интеграция с официальной проверкой безопасности, надежности и заземления. Чтобы создать системы искусственного интеллекта, способные глубоко рассуждать о реальном мире, мы планируем развивать навыки рассуждения в менее двусмысленных и более проверяемых ситуациях. Это позволяет нам оценивать наши системы без обратной связи с человеком или взаимодействия с реальным миром. Одна из главных непосредственных целей этого подхода — дать формальные гарантии правильности кода, особенно в отношении формально проверяемых аспектов безопасности ИИ.
- Понимание и извлечение длинного контекста. Модели обучения для эффективного обнаружения полезных знаний в конкретном контексте лежат в основе создания по-настоящему интеллектуальных систем. Мы работаем над методами, которые смогут обнаруживать и извлекать информацию, когда она потребуется.
- Противоречивая устойчивость. Состязательные примеры показывают, что оптимизаторы могут легко эксплуатировать уязвимости в системах искусственного интеллекта как во время обучения, так и во время обслуживания, заставляя их совершать вопиющие ошибки. Эти уязвимости являются давними недостатками моделей глубокого обучения. Мы особенно заинтересованы в повышении надежности LLM, моделей вознаграждения и систем мониторинга.
- Мультимодальные возможности. В настоящее время у Грока нет других чувств, таких как зрение и слух. Чтобы лучше помогать пользователям, мы снабдим Grok этими различными органами чувств, которые позволят использовать более широкие приложения, включая взаимодействие и помощь в реальном времени.
Мы считаем, что ИИ обладает огромным потенциалом, способным принести значительную научную и экономическую ценность обществу, поэтому мы будем работать над разработкой надежных мер защиты от катастрофических форм злонамеренного использования. Мы верим, что сделаем все возможное, чтобы ИИ оставался силой добра.
Если вы разделяете наш оптимизм и хотите внести свой вклад в нашу миссию, подайте заявку на вступление в команду здесь .
Ранний доступ к Гроку
Мы предлагаем ограниченному числу пользователей в США опробовать наш прототип Grok и оставить ценные отзывы, которые помогут нам улучшить его возможности перед более широким выпуском. Вы можете присоединиться к списку ожидания Grok здесь . Этот выпуск представляет собой лишь первый шаг для xAI. Заглядывая в будущее, у нас есть захватывающий план действий, и в ближайшие месяцы мы будем внедрять новые возможности и функции.