Принцип аналогии в морфологии

Данный сокращенный словарь можно еще сократить, если исключить из него начальные буквы словоформ, не оказывающие влияние на результаты морфологического анализа. При этом у каждой пары рядом стоящих словоформ оставляются справа совпадающие конечные буквосочетания и еще по одной букве, которые не совпадают. Например: аба 01/001/01 еба 01/044/01 неба 01/071/01 авшие 02/105/10 тальон 00/021/01 тывая 00/152/10 После выполнения всех операций объем словаря сокращается в 8 раз. На точность первоначально включенных в словарь словоформ это не повлияет, а точность анализа остальных словоформ русского языка будет достаточно высокой.

Для морфологического анализа текстов на основе метода аналогии достаточно располагать обратным словарем концов слов. Но авторы разработки сделали еще «Словарь служебных и коротких слов». В этот словарь были включены сначала предлоги, местоимения, частицы, союзы и короткие слова до 5 букв. Затем в него вошли также словоформы, которые по методу аналогии анализировались неверно. В результате этот словарь увеличился до 11 тысяч словоформ.

Таким образом, в процессе морфологического анализа словоформы ищутся в словаре «Служебных и коротких слов», а затем в словаре концов словоформ. Результаты анализа, полученные по первому словарю, считаются более надежными, и словоформы, найденные в этом словаре, дальнейшей обработке не подвергаются.

В настоящее время вероятность правильного анализа слов при обработке текстов любой тематики превышает 99%.

В разработке данной системы наряду с авторами данной статьи принимали участие научные сотрудники отдела лингвистических исследований ВИНИТИ: А. П. Новоселов, Е. Ю. Рыжова, С. А. Самоделкина, Ал-др А. Хорошилов, Ал-сей А. Хорошилов, Е. Г. Дружинина.