Строганов А.А. Лекция. Применение методов математической лингвистики в решении задач перевода и создания базы знаний восточных текстов


Видео: Роман Сухоставский
savetibet.ru

Запись дополнительной программы первого дня Первой всероссийской научно-практической конференции переводчиков буддийских текстов «К русскоязычному буддийскому канону» – лекции Александра Александровича Строганова «Применение методов математической лингвистики в решении задач перевода».

О докладе

Разработчики: Данилов В.А. Строганов А.А. докладчик Строганов А.А. (Москва)

История вопроса

Математическая лингвистика – это научное направление в области математического моделирования, которое ставит своей задачей использование математических моделей для анализа и обработки текстов на естественных языках. Начало этого направления было положено в середине прошлого века в трудах таких ученых, как Марков, Тьюринг, Виннер, и многих других. В России необходимо отметить труды И.А. Мельчука, который создал теорию «Cмысл ↔ Текст», которая и сейчас не утратила своего значения.

В настоящее время методы математической лингвистики нашли широкое применение в создании экспертных и поисковых систем обработки информации.

Задача

Современные средства вычислительной лингвистики позволяют поставить и решить следующие задачи академического перевода:

1. Разработать полный словарь терминов и общеупотребительных словосочетаний для ограниченного корпуса тибетских текстов. Такой корпус может состоять из текстов в объеме около 500 томов.

2. Разработать программу грамматического анализа, определяющую грамматическую конструкцию фразы на тибетском языке и санскрите с точностью до 96-98%.

3. Создать базу переводов терминов и общеупотребительных словосочетаний в объеме около 500 000 выражений. Такой подход позволяет накапливать уверенно переведенные фрагменты текста. Также накопление переведенных фрагментов позволяет увеличивать вероятность точного перевода и применять актуальный вариант перевода ко всем текстам одновременно. Такой подход уверенно зарекомендовал себя в крупных сервисах перевода.

4. Предоставить переводчику подстрочный перевод фразы с возможностью получить полный отчет словарной базы для каждого словосочетания и базовых слов.

5. На основе грамматического анализа и подстрочного словарного разбора предложить переводчику вариант академического перевода. В таком переводе верно передана грамматическая конструкция, все добавляемые слова заключены в квадратные скобки. На основе такого академического перевода возможно выполнить литературное изложение текста на современном литературном языке.

О докладчике

Сфера деятельности Александра Александровича – ведение проектов по разработке программного обеспечения распознавания рукописного и иероглифического текста, комплексное информационное и маркетинговое обеспечение по договорам с Медицинским центром Управления делами Президента РФ, Академии управления при Президенте РФ, коммерческих компаний.

Им разработана система распознавания печатного иероглифического текста, выполнено несколько грантов (http://code.google.com/p/ocrlib). Создан и функционирует в течение 10 лет портал библиотеки восточных текстов www.buddism.ru с посещаемостью 2,2 млн уникальных IP в год. Выполнено несколько договоров на создание информационных систем, в том числе создания компьютерных центров газет «Совершенно Секретно», «Литературная газета», журнала «Советский экран».

Основное занятие – разработка открытой библиотеки восточных текстов и программ распознавания, анализа и перевода иероглифических текстов.



0 0
Просмотров: 899 Размещено: