Как происходит обучение Chat GPT?

как обучаетсятеся чат-бот gpt-3 на изображении 768x435-718x.jpg

Если вы знакомы с ChatGPT, вы, возможно, слышали, что он обучен на огромном корпусе данных. Но что это значит? В этой статье мы рассмотрим детали того, как обучается ChatGPT."

ChatGPT - это языковая модель, которая была отрегулирована с использованием комбинации методов обучения с учителем и обучения с подкреплением. В процессе обучения ChatGPT в модель было загружено большое количество текстовых данных и были настроены ее параметры, чтобы она могла генерировать текст, похожий на текст в обучающем корпусе.

Для этого процесса использовался метод машинного обучения без учителя, что означает, что модели не было предоставлено явной обратной связи о том, правильно ли сгенерированный текст или нет. Вместо этого модель регулирует свои параметры на основе вероятности, что сгенерированный текст будет похож на текст в корпусе обучения.

GPT-3, родительская модель ChatGPT-3, является одной из самых больших языковых моделей, когда-либо созданных, с 175 миллиардами параметров и контекстом длиной в 2048 токенов. Она обучалась на сотнях миллиардов слов из Common Crawl, WebText2, Books1/2, Wikipedia на английском языке и примерах кода на CSS, JSX, Python и других языках программирования.

Метод обучения, используемый для GPT-3 - генеративное предварительное обучение, что означает, что он обучен предсказывать следующий токен или слово во входном предложении.

Лучшие альтернативы Chat GPT

Обучение с учителем

Модель ChatGPT была настроена путем процесса контролируемого обучения от человеческих тренеров. Эти тренеры вели беседы, играя одновременно роль пользователя и AI-ассистента.

Они получали рекомендации от модели, чтобы написать свои ответы, которые затем смешивались с набором данных InstructGPT, который был преобразован в формат диалога.

Обучение с подкреплением

Модель была усовершенствована с помощью обучения с подкреплением с использованием Proximal Policy Optimization (PPO). Люди-тренеры оценили ответы, сгенерированные моделью из предыдущего разговора, и использовали эти оценки для разработки моделей вознаграждения. Затем модель была настроена на основе этих моделей вознаграждения.

Процесс точной настройки был выполнен несколько раз для достижения лучшей производительности. Алгоритм PPO является более экономичным по сравнению с другими алгоритмами и имеет более быструю производительность, что делает его идеальным для этого процесса. 

OpenAI продолжает собирать информацию от пользователей, которые взаимодействуют с ChatGPT, которую затем можно использовать для дальнейшего улучшения и совершенствования модели. 

Пользователи имеют возможность голосовать за ответы ChatGPT, выражая свою поддержку или несогласие, а также оставлять дополнительные комментарии. Эти данные используются для дальнейшего улучшения производительности модели и делают ее лучше в генерации похожего на человеческий текст.

Данные, используемые для обучения модели

ChatGPT-3 - это языковая модель, оптимизированная из серии GPT-3.5, которая была обучена на Azure AI сверхкомпьютерной инфраструктуре. Она была обучена на огромном количестве текстов, собранных из Интернета, включая книги, чат-форумы, статьи, веб-сайты, научные статьи, код и другие источники.

Корпус текстовых данных, использованный для обучения ChatGPT-3, составляет более 45 Терабайт, что является чрезвычайно большим и способствует способности модели генерировать тексты, похожие на то, что может произвести журналист или автор.

Связанные статьи

Посмотреть больше >>