В.А. Данилов, А.А. Строганов. Применение методов математической лингвистики в решении задач перевода и создания базы знаний восточных текстов

История вопроса 

Математическая лингвистика – это научное направление в области математического моделирования, которое ставит своей задачей использование математических моделей для анализа и обработки текстов на естественных языках. Начало этого направления было положено в середине прошлого века в трудах таких ученых, как Марков, Тьюринг, Виннер, и многих других. В России необходимо отметить труды И. А. Мельчука, который создал теорию «Смысл ↔ Текст», которая и сейчас не утратила своего значения.

В настоящее время методы математической лингвистики нашли широкое применение в создании экспертных и поисковых систем обработки информации.

Задача 

Современные средства вычислительной лингвистики позволяют поставить и решить следующие задачи академического перевода:

1. Разработать полный словарь терминов и общеупотребительных словосочетаний для ограниченного корпуса тибетских текстов. Такой корпус может состоять из текстов в объеме около пятисот томов. 

2. Разработать программу грамматического анализа, определяющую грамматическую конструкцию фразы на тибетском языке и санскрите с точностью до 96–98%. 

3. Создать базу переводов терминов и общеупотребительных словосочетаний в объеме около 500 000 выражений. Такой подход позволяет накапливать уверенно переведенные фрагменты текста. Также накопление переведенных фрагментов позволяет увеличивать вероятность точного перевода и применять актуальный вариант перевода ко всем текстам одновременно. 
4. Предоставить переводчику подстрочный перевод фразы с возможностью получить полный отчет словарной базы для каждого словосочетания и базовых слов. 

5. На основе грамматического анализа и подстрочного словарного разбора предложить переводчику вариант академического перевода. В таком переводе верно передана грамматическая конструкция, все добавляемые слова заключены в квадратные скобки. На основе такого академического перевода возможно выполнить литературное изложение текста на современном литературном языке. 
Необходимо отметить, что решение этих задач не предполагает создание программы универсального машинного перевода и является средством сокращения ручного труда при выполнении академического перевода и литературного изложения текста.

Читать статью целиком:
Скачать текст
Формат: .pdf (227,9 Kb)    Скачиваний: 46



ВИДЕО ПО ТЕМЕ

Запись дополнительной программы первого дня Первой всероссийской научно-практической конференции переводчиков буддийских текстов «К русскоязычному буддийскому канону» – лекции Александра Александровича Строганова «Применение методов математической лингвистики в решении задач перевода». 


Видео: Роман Сухоставский
savetibet.ru

Сфера деятельности Александра Александровича Строганова – ведение проектов по разработке программного обеспечения распознавания рукописного и иероглифического текста, комплексное информационное и маркетинговое обеспечение по договорам с Медицинским центром Управления делами Президента РФ, Академии управления при Президенте РФ, коммерческих компаний.

Им разработана система распознавания печатного иероглифического текста, выполнено несколько грантов (http://code.google.com/p/ocrlib). Создан и функционирует в течение 10 лет портал библиотеки восточных текстов www.buddism.ru с посещаемостью 2,2 млн уникальных IP в год. Выполнено несколько договоров на создание информационных систем, в том числе создания компьютерных центров газет «Совершенно Секретно», «Литературная газета», журнала «Советский экран».

Основное занятие – разработка открытой библиотеки восточных текстов и программ распознавания, анализа и перевода иероглифических текстов.



Все материалы автора: Александр Строганов


0 1
Просмотров: 1 328 Размещено: