Лингвисты InfoQubes рассказали о разработанном ими алгоритме автоматического выделения отраслевых терминов из текстов клиентов
26.09.2014
Компьютерные лингвисты InfoQubes, Юлия Адаскина и Полина Паничева, приняли участие в постерной секции конференции AINL 2014 «Искусственный интеллект и естественный язык», прошедшей в Москве, в Сколково, с 12 по 13 сентября, и рассказали о результатах своего исследования «Алгоритм полуавтоматического пополнения семантических классов из корпуса неразмеченных данных для коммерческих приложений».

В этом году конференция собрала около 70 представителей научных групп, стартапов, ученых, студентов, аспирантов и преподавателей ведущих вузов России. В числе докладчиков конференции были представители таких компаний, как ABBYY, Технопарк Сколково, IBM, Mail.ru, ЦРТ, Наносемантика, чат-бот Eugene Goostman, Яндекс и другие.
В основу доклада InfoQubes легло исследование, проведенное на реальных данных конкретного заказчика из коммерческого сектора. Перед лингвистами стояла задача быстрой настройки системы классификации на заданную предметную область (авиаперевозки, проблемы с персоналом), для чего необходимо было составить словарь терминов персонала (например, пилот, бортпроводница, кассир и др.). Важным условием была необходимость свести к минимуму привлечение экспертов со стороны заказчика. Для решения этой задачи был разработан пошаговый алгоритм автоматического выявления слов с похожим значением на основе статистических данных о синтаксических связях слов, позволяющий настраиваться на отраслевую специфику даже без специальных знаний в этой области.

Результаты исследований показали, что предложенный алгоритм дает возможность с высокой степенью вероятности прогнозировать сроки и трудоемкость задач по настройке словаря терминов для выбранной предметной области, добиваясь при этом заданного уровня качества. Использование алгоритма позволяет достигнуть высокой полноты словаря терминов предметной области при существенном сокращении трудозатрат эксперта, а также открывает возможность дальнейшей оптимизации по различным параметрам (размер шага, количество и состав синтаксических связей, использование дополнительной морфологической информации). Алгоритм также показал свою эффективность при выявлении слов с опечатками (например, «опертор» для типа персонала «оператор»), которые обычно вызывают затруднения у экспертов.

Участники конференции отметили высокий инновационный потенциал исследования для решения конкретных прикладных и коммерческих задач.