Все новости
Общество
27 Сентября 2012, 11:03

В лаборатории компьютерной филологии Башгосуниверситета создана программа анализа башкирской морфологии

В лаборатории компьютерной филологии Башкирского государственного университета создана программа, умеющая определять форму башкирского слова. Как пояснили в пресс-центре вуза, Bashmorph написан на языке Perl и может определять, что за слово перед ним и в форме какого лица, числа, падежа, наклонения и т.д. оно стоит. Такие программы (на профессиональном языке они называются «парсерами») – основа компьютерного понимания текста на данном языке. Они открывают много научных и коммерческих перспектив для работы с большими массивами башкирских текстов.
- Дело в том, что в живых текстах на данном языке одни и те же слова выглядят по-разному, – говорит создатель программы, кандидат филологических наук Борис Орехов. – Например, слово «йондоҙ» («звезда») может встретиться и в этой форме, и в форме множественного числа: «йондоҙҙар». Для человека это не проблема, он увидит, что в обоих случаях это одно и то же слово, но компьютеру это объяснить довольно трудно. Чтобы машина «знала», что такое форма множественного числа и умела понимать, как могут выглядеть одни и те же слова в разных формах, и нужна наша программа.
С ее помощью можно создавать частотные словари, заниматься исследованием лексической и грамматической структуры башкирских текстов, ставить промышленные задачи информационного поиска.
- Для поиска такие разработки очень важны. Например, вы хотели бы найти в каком-то большом тексте или множестве текстов слово «окно». С помощью компьютера это сделать просто, но чтобы результат поиска был лучше и полнее, необходимо, чтобы нашлись и формы «окнами», «окном», «окнах». Без парсера такая задача неосуществима, – пояснил Борис Орехов. Создание машинной морфологии башкирского языка также открывает дорогу созданию автоматического переводчика с башкирского на русский и английский языки и в обратном направлении.
На работу парсера в реальном времени можно посмотреть на специальной странице на сайте лаборатории. Введя в строку башкирскую форму (например, «урамдар» («улицы»), «йондоҙҙарым» («мои звёзды»), пользователь может получить её полный разбор, а в некоторых случаях даже перевод (встроенный в парсер словарь находится в стадии наполнения). Программа находится в режиме бета-тестирования. Это значит, что широкий круг интересующихся сможет оценить её функциональность и сообщить об ошибках и недочётах разработчикам.
Читайте нас: