Математическая лингвистика – это научное направление в области математического моделирования, которое ставит своей задачей использование математических моделей для анализа и обработки текстов на естественных языках. Начало этого направления было положено в середине прошлого века в трудах таких ученых, как Марков, Тьюринг, Виннер, и многих других. В России необходимо отметить труды И. А. Мельчука, который создал теорию «Смысл ↔ Текст», которая и сейчас не утратила своего значения.
В настоящее время методы математической лингвистики нашли широкое применение в создании экспертных и поисковых систем обработки информации.
Задача
Современные средства вычислительной лингвистики позволяют поставить и решить следующие задачи академического перевода:
1. Разработать полный словарь терминов и общеупотребительных словосочетаний для ограниченного корпуса тибетских текстов. Такой корпус может состоять из текстов в объеме около пятисот томов.
2. Разработать программу грамматического анализа, определяющую грамматическую конструкцию фразы на тибетском языке и санскрите с точностью до 96–98%.
3. Создать базу переводов терминов и общеупотребительных словосочетаний в объеме около 500 000 выражений. Такой подход позволяет накапливать уверенно переведенные фрагменты текста. Также накопление переведенных фрагментов позволяет увеличивать вероятность точного перевода и применять актуальный вариант перевода ко всем текстам одновременно.
4. Предоставить переводчику подстрочный перевод фразы с возможностью получить полный отчет словарной базы для каждого словосочетания и базовых слов.
5. На основе грамматического анализа и подстрочного словарного разбора предложить переводчику вариант академического перевода. В таком переводе верно передана грамматическая конструкция, все добавляемые слова заключены в квадратные скобки. На основе такого академического перевода возможно выполнить литературное изложение текста на современном литературном языке.
Необходимо отметить, что решение этих задач не предполагает создание программы универсального машинного перевода и является средством сокращения ручного труда при выполнении академического перевода и литературного изложения текста.
Читать статью целиком:
ВИДЕО ПО ТЕМЕ
Запись дополнительной программы первого дня Первой всероссийской научно-практической конференции переводчиков буддийских текстов «К русскоязычному буддийскому канону» – лекции Александра Александровича Строганова «Применение методов математической лингвистики в решении задач перевода».
Видео: Роман Сухоставский
savetibet.ru
Сфера деятельности Александра Александровича Строганова – ведение проектов по разработке программного обеспечения распознавания рукописного и иероглифического текста, комплексное информационное и маркетинговое обеспечение по договорам с Медицинским центром Управления делами Президента РФ, Академии управления при Президенте РФ, коммерческих компаний.
Им разработана система распознавания печатного иероглифического текста, выполнено несколько грантов (http://code.google.com/p/ocrlib). Создан и функционирует в течение 10 лет портал библиотеки восточных текстов www.buddism.ru с посещаемостью 2,2 млн уникальных IP в год. Выполнено несколько договоров на создание информационных систем, в том числе создания компьютерных центров газет «Совершенно Секретно», «Литературная газета», журнала «Советский экран».
Основное занятие – разработка открытой библиотеки восточных текстов и программ распознавания, анализа и перевода иероглифических текстов.