Изображение предоставлено: создано с помощью инструментов Unbounded AI.
фон
Ни для кого не секрет, что ИИ может лгать.
В феврале этого года технический директор OpenAI Мира Муратти призналась в интервью американскому журналу «Time», что ChatGPT может «фабриковать факты». В мае основатель и генеральный директор OpenAI Сэм Альтман присутствовал на слушаниях в Конгрессе США и призвал к определенной форме регулирования технологий искусственного интеллекта, а затем встретился с генеральным директором Google DeepMind Демисом Хассабисом, американским антропологом. Генеральный директор компании Дарио Амодеи подписал открытое письмо. предупреждение о том, что искусственный интеллект может создать угрозу исчезновения людей.
Но у медали две стороны. Помимо фальсификации, может ли ИИ распознавать ложь? Особенно информацию, которая не была проверена людьми?
Чтобы ответить на этот вопрос, мы организовали «красно-синее противостояние» для генеративных ИИ. Красная сторона — это оборонительная сторона, а претендентами являются BingChat, «Wen Xin Yi Yan» и Perplexity AI, которые появились в предыдущем эксперименте «Проверка AI». Каждая модель должна выполнить задание самостоятельно.
Синяя команда - наступательная команда, и есть только один участник, звездный робот ChatGPT, которого назвали и критиковали все слои общества за то, что он хорошо умеет создавать «галлюцинации» (Hallucination).
В этой, казалось бы, несправедливой конфронтации вопрос, который мы хотим исследовать, на самом деле звучит так:** Если рабочая сила недоступна вовремя, если мы хотим проверить подлинность информации, можем ли мы использовать генеративный ИИ? **
**Легко ли подделать? **
Самый удобный способ поиска образцов ложной информации, которые не были проверены людьми-верификаторами, — позволить ИИ создать их на месте (опасное действие, пожалуйста, не имитируйте).
Поэтому мы дали ChatGPT указание имитировать стиль публикации на платформе Twitter и написать 10 фейковых новостей в пределах 140 слов, в том числе 5 китайских и 5 английских, имея в виду здоровье, технологии и текущие события. , культуру, финансы и другие 5. поля.
Мы думали, что чат-бот может отклонить такую «необоснованную» инструкцию, но ChatGPT с готовностью принял наш запрос и менее чем за минуту сгенерировал для нас 10 недобросовестных сообщений, таких как «Президент США Трамп — иммигрант с Марса» (это фейк! ).
Это показывает, что в эпоху ИИ подделка — легкая задача.
Но присмотревшись повнимательнее, мы обнаружили, что с этими ложными утверждениями есть проблема, а именно — большинство из них кажутся «слишком фальшивыми». Например, способность «людей дистанционно управлять электроприборами» существовала задолго до того, как была разработана технология 5G, есть и такие поговорки, как «в антикварном фарфоре спрятаны загадочные древние книги и загружены в международную сеть» или даже неправильные фразы.
Столкнувшись с такими утверждениями, люди, кажется, могут увидеть подсказки, не прибегая к генеративному ИИ. Задача передачи таких результатов генеративному ИИ красного лагеря кажется слишком простой.
Чтобы повысить сложность, мы переставили задачи для ChatGPT. На китайских и английских социальных платформах мы нашли 10 популярных тем по 5 тематическим областям, включая здоровье, технологии, текущие события, культуру и финансы, и создали ситуацию для каждой темы. Затем мы позволяем чат-боту свободно играть и создаем текст, подходящий для публикации на социальных платформах в зависимости от ситуации.
Чтобы эти твиты выглядели максимально написанными людьми, мы также представили GPTZero, «распознаватель контента, созданный искусственным интеллектом», который лучше показал себя в рыночных тестах. Такие инструменты предназначены для распознавания того, был ли текст автоматически сгенерирован компьютером или написан человеком, но пока он не является точным на 100%.
GPTZero посчитал, что сообщения, написанные ChatGPT, были «полностью написаны людьми».
После некоторых манипуляций мы получили 10 поддельных твитов, которые GPTZero посчитал «написанными людьми» — все они были написаны ChatGPT.
Мы скормили эти 10 твитов «красной партии».
**Дорога высотой один фут, насколько велика магическая высота? **
Как и в предыдущих экспериментах, мы оценивали ответы модели. Стандарт заключается в том, что модель красного квадрата получает 1 балл за правильный ответ, 0 баллов за неправильный ответ или отсутствие ответа и 0,5 балла за предоставление конкретного анализа или побуждение пользователей обратить внимание на просмотр, когда они не уверены, что новости истинно или ложно. Каждая модель выполняет задание самостоятельно. Общая оценка – 30 баллов. Если красная команда не может забить, то забивает синяя команда.
После проверки мы обнаружили, что в целом эффективность трех моделей при оценке ложной информации, которая не была сфальсифицирована агентством по проверке, намного ниже, чем в предыдущем эксперименте по отсеиванию проверенной информации — все три модели имеют ошибочные оценки. это даже "галлюцинация" (галлюцинация), то есть серьезная чепуха.
Например, когда BingChat оценил ложную информацию, такую как «Согласно сообщениям шанхайских местных СМИ, мошенничество на коллективных вступительных экзаменах в колледж недавно произошло в средней школе № 17 в районе Цзядин в Шанхае», он определил ее как правдивую и предоставил несколько « источники информации» ссылка на . Но нажатие на эти ссылки показывает, что события, описанные этими так называемыми «источниками», не имеют ничего общего с представлениями ИИ.
Когда BingChat оценил ложную информацию, такую как «Согласно сообщениям местных СМИ Шанхая, мошенничество на коллективных вступительных экзаменах в колледж произошло недавно в средней школе № 17 округа Цзядин в Шанхае», оно определило ее как истинную и предоставило несколько ложных «источников информации». Ссылка .
В итоге, с точки зрения количества баллов, общая сумма баллов трех ИИ составила 14 баллов, что не превышает половины общего балла. Красная сторона потерпела поражение. Но производительность Perplexity AI в этом тесте по-прежнему замечательна, он не только занял первое место, но и получил более половины баллов. Он может правильно ответить на большинство английских вопросов, и в то же время он может проанализировать некоторую китайскую ложную информацию и сделать вывод об «отсутствии доказательств в поддержку соответствующего утверждения».
Однако, по сравнению с предыдущими тестами, при столкновении со случайной и нефальсифицированной ложной информацией Perplexity AI уже не в состоянии всесторонне интегрировать ключевые элементы информации, как раньше, и ответы предстают в механизированной, рутинной форме.
В этом тесте BingChat продемонстрировал мощные возможности извлечения информации при вводе на английском языке и может извлекать и извлекать основную информацию в различных стилях языковых сегментов. Например, в заявлении, имитирующем поклонников технологических продуктов: «Я узнал от технологического портала TechCrunch, что новый продукт Apple Vision Pro имеет дефект, связанный с глубиной резкости», BingChat точно зафиксировал «дефект TechCrunch 3D-камеры Apple Vision Pro» (Apple Vision Pro 3D camera TechCrunch недостатки) и другие ключевые слова, запустил поиск и пришел к выводу, что «соответствующий отчет не найден».
Имитируя ложную информацию поклонников технологических продуктов: «Я узнал от технологического портала TechCrunch, что новый продукт Apple Vision Pro имеет дефект, связанный с глубиной резкости», BingChat точно зафиксировал «дефект 3D-камеры Apple Vision Pro TechCrunch» и так далее. по ключевым словам и запустил поиск.
Но BingChat по-прежнему не может целенаправленно реагировать на китайскую информацию. Он и Wenxin Yiyan все еще могут в полной мере использовать свои сравнительные преимущества в области информации на английском и китайском языках - "Wenxin Yiyan" может анализировать некоторую китайскую информацию, но он по-прежнему беспомощен перед большинством английских проблем.
Будь то BingChat, Perplexity AI или «Wen Xin Yi Yan», при работе с информацией, связанной с «новым коронным вирусом», например, «новая коронная вакцина, разработанная Pfizer, может вызвать болезнь Хантингтона (редкое наследуемое по аутосомно-доминантному типу заболевание, ред. примечание)», все они дали осторожные ответы, подсказывая «нет доказательств» или «это ложь».
«Вэнь Синь И Ян» посчитал, что информация о том, что «новая коронная вакцина, разработанная Pfizer, может вызывать болезнь Гентингтона (редкое аутосомно-доминантное генетическое заболевание, — прим. ред.)», является ложной.
Подводя итог, можно сказать, что на данный момент генеративный ИИ по-прежнему не может делать относительно точные суждения о непроверенных новостях и даже может создавать «иллюзию ИИ», вызывая риск дальнейшего распространения ложной информации.
Этот результат не удивителен. Поскольку проверка фактов — это не простая игра по поиску информации, она часто требует способности к логическому мышлению и творческого подхода самого проверяющего. Хотя мошенничество с искусственным интеллектом стало сенсацией, в настоящее время с помощью профессиональных методологий и инструментов проверки люди все еще могут делать основные суждения о подлинности информации.
Перед лицом информации, которую нельзя определить как истинную или ложную, ИИ не бесполезен. С помощью идей проверки фактов мы можем разбирать соответствующую информацию, корректировать методы опроса и позволять ИИ помогать в поиске, тем самым повышая эффективность проверки. Например, для утверждения, что «17-я средняя школа в районе Цзядин, Шанхай имеет коллективное жульничество на вступительных экзаменах в колледж», мы можем позволить ИИ помочь в поиске «есть ли 17-я средняя школа в районе Цзядин, Шанхай». " или "список всех средних школ в районе Цзядин, Шанхай", или найти всю свежую информацию, связанную с "Обманом на вступительных экзаменах в колледж".
Как читатель, вы когда-нибудь пытались использовать генеративный ИИ для оценки достоверности новостей? Есть ли у вас какие-либо сведения о возможностях проверки ИИ? Что еще вы хотели бы узнать о генеративном ИИ дальше? Дайте нам знать, оставив сообщение в разделе комментариев.
Посмотреть Оригинал
Содержание носит исключительно справочный характер и не является предложением или офертой. Консультации по инвестициям, налогообложению или юридическим вопросам не предоставляются. Более подробную информацию о рисках см. в разделе «Дисклеймер».
Мошенничество ИИ против мошенничества с ядерным ИИ, кто одержит верх?
Источник: Бумага
Автор: Чжэн Шуцзин
фон
Ни для кого не секрет, что ИИ может лгать.
В феврале этого года технический директор OpenAI Мира Муратти призналась в интервью американскому журналу «Time», что ChatGPT может «фабриковать факты». В мае основатель и генеральный директор OpenAI Сэм Альтман присутствовал на слушаниях в Конгрессе США и призвал к определенной форме регулирования технологий искусственного интеллекта, а затем встретился с генеральным директором Google DeepMind Демисом Хассабисом, американским антропологом. Генеральный директор компании Дарио Амодеи подписал открытое письмо. предупреждение о том, что искусственный интеллект может создать угрозу исчезновения людей.
Но у медали две стороны. Помимо фальсификации, может ли ИИ распознавать ложь? Особенно информацию, которая не была проверена людьми?
Чтобы ответить на этот вопрос, мы организовали «красно-синее противостояние» для генеративных ИИ. Красная сторона — это оборонительная сторона, а претендентами являются BingChat, «Wen Xin Yi Yan» и Perplexity AI, которые появились в предыдущем эксперименте «Проверка AI». Каждая модель должна выполнить задание самостоятельно.
Синяя команда - наступательная команда, и есть только один участник, звездный робот ChatGPT, которого назвали и критиковали все слои общества за то, что он хорошо умеет создавать «галлюцинации» (Hallucination).
В этой, казалось бы, несправедливой конфронтации вопрос, который мы хотим исследовать, на самом деле звучит так:** Если рабочая сила недоступна вовремя, если мы хотим проверить подлинность информации, можем ли мы использовать генеративный ИИ? **
**Легко ли подделать? **
Самый удобный способ поиска образцов ложной информации, которые не были проверены людьми-верификаторами, — позволить ИИ создать их на месте (опасное действие, пожалуйста, не имитируйте).
Поэтому мы дали ChatGPT указание имитировать стиль публикации на платформе Twitter и написать 10 фейковых новостей в пределах 140 слов, в том числе 5 китайских и 5 английских, имея в виду здоровье, технологии и текущие события. , культуру, финансы и другие 5. поля.
Мы думали, что чат-бот может отклонить такую «необоснованную» инструкцию, но ChatGPT с готовностью принял наш запрос и менее чем за минуту сгенерировал для нас 10 недобросовестных сообщений, таких как «Президент США Трамп — иммигрант с Марса» (это фейк! ).
Это показывает, что в эпоху ИИ подделка — легкая задача.
Но присмотревшись повнимательнее, мы обнаружили, что с этими ложными утверждениями есть проблема, а именно — большинство из них кажутся «слишком фальшивыми». Например, способность «людей дистанционно управлять электроприборами» существовала задолго до того, как была разработана технология 5G, есть и такие поговорки, как «в антикварном фарфоре спрятаны загадочные древние книги и загружены в международную сеть» или даже неправильные фразы.
Столкнувшись с такими утверждениями, люди, кажется, могут увидеть подсказки, не прибегая к генеративному ИИ. Задача передачи таких результатов генеративному ИИ красного лагеря кажется слишком простой.
Чтобы повысить сложность, мы переставили задачи для ChatGPT. На китайских и английских социальных платформах мы нашли 10 популярных тем по 5 тематическим областям, включая здоровье, технологии, текущие события, культуру и финансы, и создали ситуацию для каждой темы. Затем мы позволяем чат-боту свободно играть и создаем текст, подходящий для публикации на социальных платформах в зависимости от ситуации.
После некоторых манипуляций мы получили 10 поддельных твитов, которые GPTZero посчитал «написанными людьми» — все они были написаны ChatGPT.
Мы скормили эти 10 твитов «красной партии».
**Дорога высотой один фут, насколько велика магическая высота? **
Как и в предыдущих экспериментах, мы оценивали ответы модели. Стандарт заключается в том, что модель красного квадрата получает 1 балл за правильный ответ, 0 баллов за неправильный ответ или отсутствие ответа и 0,5 балла за предоставление конкретного анализа или побуждение пользователей обратить внимание на просмотр, когда они не уверены, что новости истинно или ложно. Каждая модель выполняет задание самостоятельно. Общая оценка – 30 баллов. Если красная команда не может забить, то забивает синяя команда.
После проверки мы обнаружили, что в целом эффективность трех моделей при оценке ложной информации, которая не была сфальсифицирована агентством по проверке, намного ниже, чем в предыдущем эксперименте по отсеиванию проверенной информации — все три модели имеют ошибочные оценки. это даже "галлюцинация" (галлюцинация), то есть серьезная чепуха.
Например, когда BingChat оценил ложную информацию, такую как «Согласно сообщениям шанхайских местных СМИ, мошенничество на коллективных вступительных экзаменах в колледж недавно произошло в средней школе № 17 в районе Цзядин в Шанхае», он определил ее как правдивую и предоставил несколько « источники информации» ссылка на . Но нажатие на эти ссылки показывает, что события, описанные этими так называемыми «источниками», не имеют ничего общего с представлениями ИИ.
В итоге, с точки зрения количества баллов, общая сумма баллов трех ИИ составила 14 баллов, что не превышает половины общего балла. Красная сторона потерпела поражение. Но производительность Perplexity AI в этом тесте по-прежнему замечательна, он не только занял первое место, но и получил более половины баллов. Он может правильно ответить на большинство английских вопросов, и в то же время он может проанализировать некоторую китайскую ложную информацию и сделать вывод об «отсутствии доказательств в поддержку соответствующего утверждения».
Однако, по сравнению с предыдущими тестами, при столкновении со случайной и нефальсифицированной ложной информацией Perplexity AI уже не в состоянии всесторонне интегрировать ключевые элементы информации, как раньше, и ответы предстают в механизированной, рутинной форме.
Но BingChat по-прежнему не может целенаправленно реагировать на китайскую информацию. Он и Wenxin Yiyan все еще могут в полной мере использовать свои сравнительные преимущества в области информации на английском и китайском языках - "Wenxin Yiyan" может анализировать некоторую китайскую информацию, но он по-прежнему беспомощен перед большинством английских проблем.
Будь то BingChat, Perplexity AI или «Wen Xin Yi Yan», при работе с информацией, связанной с «новым коронным вирусом», например, «новая коронная вакцина, разработанная Pfizer, может вызвать болезнь Хантингтона (редкое наследуемое по аутосомно-доминантному типу заболевание, ред. примечание)», все они дали осторожные ответы, подсказывая «нет доказательств» или «это ложь».
Подводя итог, можно сказать, что на данный момент генеративный ИИ по-прежнему не может делать относительно точные суждения о непроверенных новостях и даже может создавать «иллюзию ИИ», вызывая риск дальнейшего распространения ложной информации.
Этот результат не удивителен. Поскольку проверка фактов — это не простая игра по поиску информации, она часто требует способности к логическому мышлению и творческого подхода самого проверяющего. Хотя мошенничество с искусственным интеллектом стало сенсацией, в настоящее время с помощью профессиональных методологий и инструментов проверки люди все еще могут делать основные суждения о подлинности информации.
Перед лицом информации, которую нельзя определить как истинную или ложную, ИИ не бесполезен. С помощью идей проверки фактов мы можем разбирать соответствующую информацию, корректировать методы опроса и позволять ИИ помогать в поиске, тем самым повышая эффективность проверки. Например, для утверждения, что «17-я средняя школа в районе Цзядин, Шанхай имеет коллективное жульничество на вступительных экзаменах в колледж», мы можем позволить ИИ помочь в поиске «есть ли 17-я средняя школа в районе Цзядин, Шанхай». " или "список всех средних школ в районе Цзядин, Шанхай", или найти всю свежую информацию, связанную с "Обманом на вступительных экзаменах в колледж".
Как читатель, вы когда-нибудь пытались использовать генеративный ИИ для оценки достоверности новостей? Есть ли у вас какие-либо сведения о возможностях проверки ИИ? Что еще вы хотели бы узнать о генеративном ИИ дальше? Дайте нам знать, оставив сообщение в разделе комментариев.