25 мар 2025 · 16:43    
{"document": [{"text": [{"type": "string", "attributes": {"bold": true}, "string": "Недавно некая организация под названием Arc Prize Foundation, основанная известным исследователем ИИ Франсуа Шолле, анонсировала новый, крайне сложный тест для измерения общей интеллектуальной способности ведущих моделей искусственного интеллекта. Этот тест, получивший название ARC-AGI-2, оказался настоящим испытанием для большинства существующих систем."}], "attributes": []}, {"text": [{"type": "string", "attributes": {}, "string": "Что такое ARC-AGI-2?"}], "attributes": ["heading1"]}, {"text": [{"type": "string", "attributes": {}, "string": "Этот тест представляет собой серию головоломок, где ИИ должен распознавать визуальные модели из набора квадратов разных цветов и генерировать правильную «ответную» сетку. Задачи были разработаны таким образом, чтобы заставить ИИ адаптироваться к новым проблемам, с которыми он ранее не сталкивался."}], "attributes": []}, {"text": [{"type": "string", "attributes": {}, "string": "Результаты тестирования"}], "attributes": ["heading1"]}, {"text": [{"type": "string", "attributes": {}, "string": "Согласно рейтингу на сайте Arc Prize leaderboard, модели, специализирующиеся на логике (например, OpenAI’s o1-pro и DeepSeek’s R1), показали результаты между 1% и 1. 3% на ARC-AGI-2. Сильные модели без явной логической составляющей, такие как GPT-4. 5, Claude 3. 7 Sonnet и Gemini 2. 0 Flash, показали результат около 1%."}], "attributes": []}, {"text": [{"type": "string", "attributes": {}, "string": "Вот как выглядит типичная задача ARC-AGI-2:"}], "attributes": []}, {"text": [{"type": "attachment", "attributes": {"caption": "Одна из задач ARC-AGI-2 с квадратами и символами.", "presentation": "gallery"}, "attachment": {"caption": "", "contentType": "image/png", "filename": "Screenshot-2025-03-24-at-3.16.48PM[1].png", "filesize": 38413, "height": 436, "pic_id": 973050, "url": "http://storage.yandexcloud.net/pabliko.files/article_cloud_image/2025/03/25/Screenshot-2025-03-24-at-3.16.48PM1.jpeg?X-Amz-Algorithm=AWS4-HMAC-SHA256&X-Amz-Credential=YCAJEsyjwo6hiq7G6SgeBEL-l%2F20250325%2Fru-central1%2Fs3%2Faws4_request&X-Amz-Date=20250325T115948Z&X-Amz-Expires=3600&X-Amz-SignedHeaders=host&X-Amz-Signature=e5b615c851091a18217b490068e382e9a489342a30160f6f273dd549dbcc4532", "width": 900}}], "attributes": []}, {"text": [{"type": "string", "attributes": {}, "string": "Человеческий барьер"}], "attributes": ["heading1"]}, {"text": [{"type": "string", "attributes": {}, "string": "Для сравнения, более 400 человек, прошедших тест ARC-AGI-2, установили человеческий барьер. В среднем, панели этих людей правильно ответили на 60% вопросов теста — значительно лучше, чем любая модель ИИ."}], "attributes": []}, {"text": [{"type": "string", "attributes": {}, "string": "Почему ARC-AGI-2 так важен?"}], "attributes": ["heading1"]}, {"text": [{"type": "string", "attributes": {}, "string": "Шолле утверждает, что ARC-AGI-2 является лучшим мерилом реального интеллекта модели ИИ по сравнению с предыдущей версией теста, ARC-AGI-1. Основная цель тестов Arc Prize Foundation — определить, может ли система ИИ эффективно приобретать новые навыки за пределами своих тренировочных данных."}], "attributes": []}, {"text": [{"type": "string", "attributes": {}, "string": "Критика предыдущего теста"}], "attributes": ["heading1"]}, {"text": [{"type": "string", "attributes": {}, "string": "Шолле отметил, что в отличие от ARC-AGI-1, новый тест предотвращает использование «грубой силы» — то есть чрезмерных вычислительных мощностей — для решения задач. Ранее он признал это как одну из основных проблем ARC-AGI-1."}], "attributes": []}, {"text": [{"type": "string", "attributes": {}, "string": "Как ARC-AGI-2 отличается от предыдущих тестов?"}], "attributes": ["heading1"]}, {"text": [{"type": "string", "attributes": {}, "string": "ARC-AGI-2 вводит новую метрику — эффективность. Теперь модели должны интерпретировать модели на ходу, а не полагаться на механическую memorization (запоминание)."}], "attributes": []}, {"text": [{"type": "string", "attributes": {"italic": true}, "string": "«Интеллект не определяется только способностью решать проблемы или достигать высоких показателей,» "}, {"type": "string", "attributes": {}, "string": "— написал Грег Камрадт, сооснователь Arc Prize Foundation в своем блоге. "}, {"type": "string", "attributes": {"italic": true}, "string": "«Также важно, с какой эффективностью эти способности приобретаются и применяются. Главный вопрос не только в том, может ли ИИ решить задачу, но и в том, с какой эффективностью он это делает.» "}], "attributes": []}, {"text": [{"type": "string", "attributes": {}, "string": "Результаты OpenAI"}], "attributes": ["heading1"]}, {"text": [{"type": "string", "attributes": {}, "string": "OpenAI’s o3 model, которая первая достигла новых высот на ARC-AGI-1, показала всего 4% на ARC-AGI-2, используя 200 долларов вычислительной мощности на каждую задачу. Это резко контрастирует с её предыдущим успехом на ARC-AGI-1, где она показала 75. 7%."}], "attributes": []}, {"text": [{"type": "string", "attributes": {}, "string": "Зачем нужен такой тест?"}], "attributes": ["heading1"]}, {"text": [{"type": "string", "attributes": {}, "string": "Многие в технологической индустрии считают, что ARC-AGI-2 открывает новую эру непохожих тестов для измерения прогресса ИИ. Например, Томас Уолф, один из сооснователей Hugging Face, недавно заявил TechCrunch, что «индустрия ИИ нуждается в достаточных тестах для измерения ключевых черт искусственного общего интеллекта», включая творчество."}], "attributes": []}, {"text": [{"type": "string", "attributes": {}, "string": "Новый конкурс Arc Prize 2025"}], "attributes": ["heading1"]}, {"text": [{"type": "string", "attributes": {}, "string": "Вместе с новым тестом, Arc Prize Foundation объявила о новом конкурсе Arc Prize 2025, вызывая разработчиков достичь точности 85% на ARC-AGI-2 при затратах всего 0. 42 доллара на каждую задачу."}], "attributes": []}], "selectedRange": [0, 358]}
Комментарии 0