ChatGPT — это размытый JPEG в Интернете

ChatGPT — это размытый JPEG в Интернете CDTO
ChatGPT — это размытый JPEG в Интернете Чат-бот OpenAI предлагает пересказы, тогда как Google предлагает цитаты. Что мы предпочитаем?

Чат-бот OpenAI предлагает пересказы, тогда как Google предлагает цитаты. Что мы предпочитаем?

Необычная ошибка копировального аппарата

В 2013 году работники немецкой строительной компании заметили кое-что странное в работе их копировального аппарата Xerox: когда они сделали копию поэтажного плана дома, копия отличалась от оригинала едва заметным, но существенным образом. На первоначальном поэтажном плане каждая из трех комнат дома сопровождалась прямоугольником, указывающим ее площадь: комнаты были площадью 14,13, 21,11 и 17,42 квадратных метра соответственно. Однако на фотокопии все три комнаты были помечены как имеющие площадь 14,13 квадратных метра. Компания связалась с специалистом по компьютерным технологиям Дэвидом Кризелем, чтобы исследовать этот, казалось бы, немыслимый результат. Им нужен был специалист по компьютерам, потому что современный ксерокс Xerox не использует физический ксерографический процесс, популяризированный в шестидесятых годах.

Принцип работы современных копировальных аппаратов

Современные копировальные аппараты работают не как старые ксероксы с использованием химических процессов.  Современный аппарат сканирует документ в цифровом виде, а затем печатает полученный файл изображения. Сопоставьте это с тем фактом, что практически каждый файл цифрового изображения сжимается для экономии места, и решение загадки начинает напрашиваться само собой.

Сжатие файла требует двух этапов:

  1. Сначала происходит процесс кодирования, в ходе которого файл преобразуется в более компактный формат.
  2. Далее происходит декодирование, при котором процесс выполняется в обратном порядке.

Если восстановленный файл идентичен оригиналу, то процесс сжатия описывается как без потерь: никакая информация не была удалена. Напротив, если восстановленный файл является лишь приблизительной копией оригинала, сжатие описывается как с потерями: некоторая информация была удалена и теперь не подлежит восстановлению.

Сжатие без потерь – это то, что обычно используется для текстовых файлов и компьютерных программ, потому что это области, в которых даже один неверный символ может привести к катастрофическим последствиям. Сжатие с потерями часто используется для фотографий, аудио и видео в ситуациях, когда абсолютная точность не является существенной.

В большинстве случаев мы не замечаем, что изображение, песня или фильм воспроизводятся не идеально. Потеря точности становится более заметной только при очень плотном сжатии файлов. В таких случаях мы замечаем то, что известно как артефакты сжатия: нечеткость самых маленьких изображений в формате JPEG и MPEG-4 или слабый звук MP3-файлов с низкой скоростью передачи данных.

Копировальные аппараты Xerox используют формат сжатия с потерями, известный как JBIG2, предназначенный для использования с черно-белыми изображениями. Чтобы сэкономить место, копировальный аппарат идентифицирует похожие области изображения и сохраняет для них одну копию; когда файл распаковывается, он повторно использует эту копию для восстановления изображения. Оказалось, что ксерокс посчитал подписи с указанием площади комнат достаточно похожими, чтобы сохранить только одну из них — 14,13 — и повторно использовал ее для всех трех комнат при печати поэтажного плана.

Тот факт, что копировальные аппараты Xerox используют формат сжатия с потерями вместо формата без потерь, сам по себе не является проблемой. Проблема в том, что копировальные аппараты ухудшали качество изображения тонким образом, при котором артефакты сжатия не были сразу распознаны. Если бы ксерокс просто выдавал размытые распечатки, все бы знали, что они не являются точным воспроизведением оригиналов. Проблема заключалась в том, что ксерокс выдавал читаемые, но некорректные номера, из-за чего копии казались точными, хотя это было не так. (В 2014 году компания Xerox выпустила патч обновлений для устранения этой проблемы).

Аналогия с языковыми моделями типа ChatGPT

Я думаю, что этот случай с ксероксом  нужно помнить сегодня, когда мы рассматриваем ChatGPT от OpenAI и другие подобные программы, которые исследователи Искусственного интеллекта (ИИ) называют большими языковыми моделями.

Сходство между ксероксом и большой языковой моделью может быть не сразу очевидным, но рассмотрим следующий сценарий. Представьте, что вы вот-вот навсегда потеряете доступ к Интернету. В процессе подготовки вы планируете создать сжатую копию всего текста в Интернете, чтобы сохранить ее на своем сервере. К сожалению, на вашем  сервере имеется только один процент необходимого пространства; вы не можете использовать алгоритм сжатия без потерь, если хотите все поместить. Вместо этого вы пишете алгоритм с потерями, который выявляет статистические закономерности в тексте и сохраняет их в специализированном формате файла.

Поскольку вы обладаете практически неограниченной вычислительной мощностью для решения этой задачи, ваш алгоритм может выявлять чрезвычайно тонкие статистические закономерности, что позволяет вам достичь желаемого коэффициента сжатия сто к одному.

Теперь потеря доступа в Интернет не так страшна; у вас есть вся информация в Интернете, хранящаяся на вашем сервере. Единственная загвоздка заключается в том, что из-за того, что текст был настолько сильно сжат, вы не можете искать информацию путем поиска точной цитаты. То есть вы никогда не получите точного совпадения, потому что слова – это не то, что хранится. Чтобы решить эту проблему, вы создаете интерфейс, который принимает запросы в форме вопросов и отвечает ответами, которые передают суть того, что у вас есть на вашем сервере.

То, что я описал, очень похоже на ChatGPT или почти на любую другую крупную языковую модель. Думайте о ChatGPT как о размытом файле в формате JPEG всего текста в Интернете.

ChatGPT сохраняет большую часть информации в Интернете, точно так же, как JPEG сохраняет большую часть информации изображения с более высоким разрешением, но если вы ищете точную последовательность бит, вы ее не найдете; все, что вы когда-либо получите, – это приблизительное значение. Но поскольку приблизительное значение представлено в виде грамматического текста, в создании которого ChatGPT преуспевает, обычно это приемлемо. Вы по-прежнему смотрите на размытый JPEG, но размытость возникает таким образом, что изображение в целом не выглядит менее четким.

Эта аналогия со сжатием с потерями – не просто способ понять способность ChatGPT переупаковывать информацию, найденную в Интернете, используя другие слова. Это также способ понять “галлюцинации”, или бессмысленные ответы на фактические вопросы, к которым слишком склонны большие языковые модели, такие как ChatGPT.

Эти галлюцинации являются артефактами сжатия, но подобно неправильным надписям, сгенерированным ксероксом Xerox, они достаточно правдоподобны, чтобы их выявление требовало сравнения с оригиналом, под которым в данном случае подразумевается либо поиск в Сети, либо использовать наши собственные знания о мире.

Если рассуждать подобным образом, то такие галлюцинации не вызывают удивления, так как алгоритм сжатия предназначен для восстановления текста после того, как девяносто девять процентов оригинала было отброшено. Но тогда же правомерно  ожидать, что значительная часть того, что он генерирует, будет полностью сфабрикована.

 

Если непонятно как внутри работает большая языковая модель, на помощь приходит  Google DeepMind — в этом коротком 3D ролике они показали как работает «метод предсказания, используемый в больших языковых моделях».

 

Источник
Оцените статью
CDO/CDTO-Блог
Добавить комментарий