28 авг 2022 · 12:12    
{"document": [{"text": [{"type": "string", "attributes": {}, "string": "Когда мы ищем что-либо в поисковой системе, мы не задумываемся об одной очень важной вещи. Каким образом ИИ понял, что мы написали? Например, при запросе «фильм про человека-паука» поисковая система выдаёт мне ссылку на статью в Википедии «Человек-паук в кино». Каким образом ИИ понял, что «фильм» и «кино» - синонимичны?"}], "attributes": []}, {"text": [{"type": "string", "attributes": {}, "string": "Дистрибутивная семантика - это область лингвистики, которая занимается вычислением степени семантической близости между лингвистическими единицами на основании их распределения (дистрибуции) в больших массивах лингвистических данных (текстовых корпусах). Область построена на дистрибутивной гипотезе. Её суть – синонимичны ли слова, можно понять по контекстам их употребления. Данная гипотеза доказана исследованием психологов. Они давали пары слов людям и те отвечали являются ли слова синонимами. Позже эти же слова проверяли по контекстам и результат доказал эту гипотезу."}], "attributes": []}, {"text": [{"type": "string", "attributes": {}, "string": "Но каким образом это связано с поисковыми системами? Для этого разработали специальные программы, например, word2vec – его создали группа разработчиков из Google, возглавил проект Томаш Милков. Как она работает, я расскажу на примере слов «фильм» и «кино»."}], "attributes": []}, {"text": [{"type": "string", "attributes": {}, "string": "Мы с вами знаем, что это синонимы, но как об этом узнает машина? Мы берём большой корпус текстов, допустим, из 10 миллионов этих самых текстов. Эти тексты проходят специальную обработку для упрощения работы с ними искусственным интеллектом и собираются в единый корпус. Корпуса – важная вещь во всей компьютерной лингвистике! Ведь это огромный языковой материал, который является, по сути, фундаментом множества направлений обработки естественного языка. Но вернёмся к нашим синонимам. Программа ищет все упоминания этих слов. Потом смотрит на контексты и по количеству совпадений программа создаёт векторное пространство, на котором близость слов измеряет их синонимичность. Именно так работает сайт, созданный студентами из Школы Лингвистики ВШЭ и Университета Осло. Для слова «фильм» программа выдала мне ассоциации с этим словом:"}], "attributes": []}, {"text": [{"type": "attachment", "attributes": {"presentation": "gallery"}, "attachment": {"caption": "", "contentType": "image/jpeg", "filename": "QJ7MMes3UuY.jpg", "filesize": 107415, "height": 781, "pic_id": 139671, "url": "https://storage.yandexcloud.net/pabliko.files/article_cloud_image/2022/08/28/QJ7MMes3UuY.jpeg", "width": 1430}}], "attributes": []}, {"text": [{"type": "string", "attributes": {}, "string": "1. Кинокартина (0, 81)"}], "attributes": []}, {"text": [{"type": "string", "attributes": {}, "string": "2. Кинофильм (0, 79)"}], "attributes": []}, {"text": [{"type": "string", "attributes": {}, "string": "3. Телефильм (0, 79)"}], "attributes": []}, {"text": [{"type": "string", "attributes": {}, "string": "4. Кино (0, 75)"}], "attributes": []}, {"text": [{"type": "string", "attributes": {}, "string": "5. Фильм (0, 75)"}], "attributes": []}, {"text": [{"type": "string", "attributes": {}, "string": "6. Сериал (0, 74)"}], "attributes": []}, {"text": [{"type": "string", "attributes": {}, "string": "7. Телесериал (0, 74)"}], "attributes": []}, {"text": [{"type": "string", "attributes": {}, "string": "8. Кинокомедия (0, 71)"}], "attributes": []}, {"text": [{"type": "string", "attributes": {}, "string": "9. Феллини (0, 71)"}], "attributes": []}, {"text": [{"type": "string", "attributes": {}, "string": "10. Андрей Тарковский (0, 69)"}], "attributes": []}, {"text": [{"type": "string", "attributes": {}, "string": "В скобках указана косинусная близость слов на векторном пространстве."}], "attributes": []}], "selectedRange": [1990, 1990]}
Комментарии 0