🗊Гибридная технология перевода Юлия Епифанцева PROMT

Категория: Технологии
Нажмите для полного просмотра!
Гибридная технология перевода  Юлия Епифанцева  PROMT, слайд №1Гибридная технология перевода  Юлия Епифанцева  PROMT, слайд №2Гибридная технология перевода  Юлия Епифанцева  PROMT, слайд №3Гибридная технология перевода  Юлия Епифанцева  PROMT, слайд №4Гибридная технология перевода  Юлия Епифанцева  PROMT, слайд №5Гибридная технология перевода  Юлия Епифанцева  PROMT, слайд №6Гибридная технология перевода  Юлия Епифанцева  PROMT, слайд №7Гибридная технология перевода  Юлия Епифанцева  PROMT, слайд №8Гибридная технология перевода  Юлия Епифанцева  PROMT, слайд №9Гибридная технология перевода  Юлия Епифанцева  PROMT, слайд №10Гибридная технология перевода  Юлия Епифанцева  PROMT, слайд №11Гибридная технология перевода  Юлия Епифанцева  PROMT, слайд №12Гибридная технология перевода  Юлия Епифанцева  PROMT, слайд №13Гибридная технология перевода  Юлия Епифанцева  PROMT, слайд №14Гибридная технология перевода  Юлия Епифанцева  PROMT, слайд №15Гибридная технология перевода  Юлия Епифанцева  PROMT, слайд №16Гибридная технология перевода  Юлия Епифанцева  PROMT, слайд №17Гибридная технология перевода  Юлия Епифанцева  PROMT, слайд №18Гибридная технология перевода  Юлия Епифанцева  PROMT, слайд №19Гибридная технология перевода  Юлия Епифанцева  PROMT, слайд №20Гибридная технология перевода  Юлия Епифанцева  PROMT, слайд №21Гибридная технология перевода  Юлия Епифанцева  PROMT, слайд №22Гибридная технология перевода  Юлия Епифанцева  PROMT, слайд №23Гибридная технология перевода  Юлия Епифанцева  PROMT, слайд №24Гибридная технология перевода  Юлия Епифанцева  PROMT, слайд №25Гибридная технология перевода  Юлия Епифанцева  PROMT, слайд №26Гибридная технология перевода  Юлия Епифанцева  PROMT, слайд №27Гибридная технология перевода  Юлия Епифанцева  PROMT, слайд №28Гибридная технология перевода  Юлия Епифанцева  PROMT, слайд №29Гибридная технология перевода  Юлия Епифанцева  PROMT, слайд №30Гибридная технология перевода  Юлия Епифанцева  PROMT, слайд №31Гибридная технология перевода  Юлия Епифанцева  PROMT, слайд №32Гибридная технология перевода  Юлия Епифанцева  PROMT, слайд №33Гибридная технология перевода  Юлия Епифанцева  PROMT, слайд №34Гибридная технология перевода  Юлия Епифанцева  PROMT, слайд №35Гибридная технология перевода  Юлия Епифанцева  PROMT, слайд №36Гибридная технология перевода  Юлия Епифанцева  PROMT, слайд №37Гибридная технология перевода  Юлия Епифанцева  PROMT, слайд №38Гибридная технология перевода  Юлия Епифанцева  PROMT, слайд №39Гибридная технология перевода  Юлия Епифанцева  PROMT, слайд №40

Содержание

Вы можете ознакомиться и скачать Гибридная технология перевода Юлия Епифанцева PROMT. Презентация содержит 40 слайдов. Презентации для любого класса можно скачать бесплатно. Если материал и наш сайт презентаций Вам понравились – поделитесь им с друзьями с помощью социальных кнопок и добавьте в закладки в своем браузере.

Слайды и текст этой презентации


Слайд 1





Гибридная технология перевода
Юлия Епифанцева
PROMT
Описание слайда:
Гибридная технология перевода Юлия Епифанцева PROMT

Слайд 2





Машинный перевод
Машинный (автоматический) перевод – 
процесс перевода текстов с одного
естественного языка на другой с помощью
компьютерной программы
Описание слайда:
Машинный перевод Машинный (автоматический) перевод – процесс перевода текстов с одного естественного языка на другой с помощью компьютерной программы

Слайд 3





Основные типы систем МП
Rule-based машинный перевод (RBMT) – перевод, основанный на правилах.
Статистический машинный перевод (SMT).
 Гибридные системы перевода (HMT)
Описание слайда:
Основные типы систем МП Rule-based машинный перевод (RBMT) – перевод, основанный на правилах. Статистический машинный перевод (SMT).  Гибридные системы перевода (HMT)

Слайд 4





Типы RBMT
Системы по типу Transfer
	предложение на языке входа => 
		морфологический, грамматический, семантический анализ =>
			преобразование в структуру выходного языка (TRANSFER) => 
				синтез выходного предложения по полученной структуре=>
				 	предложение на языке выхода 
Системы по типу Interlingua
	предложение на языке входа => 
		анализ входного предложения в терминах метаязыка =>
			синтез из метаструктуры предложения выходного языка =>
				предложение на языке выхода
	Разработка метаязыка = языконезависимое представление, наличие знаний о мире (онтологии, логики предикатов)
Описание слайда:
Типы RBMT Системы по типу Transfer предложение на языке входа => морфологический, грамматический, семантический анализ => преобразование в структуру выходного языка (TRANSFER) => синтез выходного предложения по полученной структуре=> предложение на языке выхода Системы по типу Interlingua предложение на языке входа => анализ входного предложения в терминах метаязыка => синтез из метаструктуры предложения выходного языка => предложение на языке выхода Разработка метаязыка = языконезависимое представление, наличие знаний о мире (онтологии, логики предикатов)

Слайд 5





Компоненты RBMT на примере PROMT
Лингвистические базы данных
- двуязычные словари
- файлы имен, транслитерации
- морфологические таблицы 
Модуль перевода
- грамматические правила
- алгоритмы перевода
Описание слайда:
Компоненты RBMT на примере PROMT Лингвистические базы данных - двуязычные словари - файлы имен, транслитерации - морфологические таблицы Модуль перевода - грамматические правила - алгоритмы перевода

Слайд 6





Двуязычные словари
имеют трехуровневую структуру для настройки системы
на различные предметные области:
Генеральный словарь (от 50 до 250 тысяч статей)
Специализированные словари (от 5 до 100 тысяч статей; охватывают различные тематики: бизнес, спорт, IT, добыча нефти и газа, металлургия...)
Пользовательские словари (вспомогательные, открыты для редактирования пользователю)
Описание слайда:
Двуязычные словари имеют трехуровневую структуру для настройки системы на различные предметные области: Генеральный словарь (от 50 до 250 тысяч статей) Специализированные словари (от 5 до 100 тысяч статей; охватывают различные тематики: бизнес, спорт, IT, добыча нефти и газа, металлургия...) Пользовательские словари (вспомогательные, открыты для редактирования пользователю)

Слайд 7





Словарная статья (1)
Слово или выражение на входном языке
Коллекция переводов (активных и неактивных)
Структурированное описание различной лингвистической информации (морфологической, синтаксической, семантической) в виде набора признаков и модификаторов
Описание слайда:
Словарная статья (1) Слово или выражение на входном языке Коллекция переводов (активных и неактивных) Структурированное описание различной лингвистической информации (морфологической, синтаксической, семантической) в виде набора признаков и модификаторов

Слайд 8





Словарная статья (2)
Описание слайда:
Словарная статья (2)

Слайд 9





Словарная статья (3)
Словарная настройка на примере ‘chest’
Описание слайда:
Словарная статья (3) Словарная настройка на примере ‘chest’

Слайд 10





Уровни анализа предложения (1)
Препроцессор 
Нормализация текста (удаление повторяющихся пробелов...) 
Токенизация входной цепочки (поиск входных словоформ в словаре с сопутствующим морфологическим анализом)
Лексический анализ (контекстный анализ, различные склейки: имена, номера телефонов, даты...)
Снятие омонимии (определение частей речи в случаях грамматической неоднозначности)
Уровень сбора групп (соединение лексических единиц в группы)
Анализ сложных предложений (выделение простых в составе сложного, синтаксическая омонимия)
Семантико-синтаксический разбор (заполнение глагольного фрейма)
Синтез (синтез по полученной структуре, расстановка элементов внутри группы и групп в предложении...)
Описание слайда:
Уровни анализа предложения (1) Препроцессор Нормализация текста (удаление повторяющихся пробелов...) Токенизация входной цепочки (поиск входных словоформ в словаре с сопутствующим морфологическим анализом) Лексический анализ (контекстный анализ, различные склейки: имена, номера телефонов, даты...) Снятие омонимии (определение частей речи в случаях грамматической неоднозначности) Уровень сбора групп (соединение лексических единиц в группы) Анализ сложных предложений (выделение простых в составе сложного, синтаксическая омонимия) Семантико-синтаксический разбор (заполнение глагольного фрейма) Синтез (синтез по полученной структуре, расстановка элементов внутри группы и групп в предложении...)

Слайд 11





Уровни анализа предложения (2)
Описание слайда:
Уровни анализа предложения (2)

Слайд 12





Уровни анализа предложения (3)
Описание слайда:
Уровни анализа предложения (3)

Слайд 13





Преимущества и недостатки RBMT
Преимущества
- синтаксическая и морфологическая точность,
- стабильность и предсказуемость результата,
- возможность настройки на предметную область.


Недостатки
- трудоемкость  и длительность разработки,
- необходимость поддерживать и актуализировать лингвистические БД,
- «машинный акцент» при переводе.
Описание слайда:
Преимущества и недостатки RBMT Преимущества - синтаксическая и морфологическая точность, - стабильность и предсказуемость результата, - возможность настройки на предметную область. Недостатки - трудоемкость и длительность разработки, - необходимость поддерживать и актуализировать лингвистические БД, - «машинный акцент» при переводе.

Слайд 14





Статистический машинный перевод (1)
История
Принципы SMT разработаны еще в 1949 г. Уорреном Уивером
«Вторая волна» – начало 1990-х, IBM
«Третья волна» – Google, Microsoft, Language Weaver, Яндекс  и десятки других
Статистический МП – это поиск наиболее вероятного перевода 
предложения с использованием данных, полученных из параллельных
корпусов.
Описание слайда:
Статистический машинный перевод (1) История Принципы SMT разработаны еще в 1949 г. Уорреном Уивером «Вторая волна» – начало 1990-х, IBM «Третья волна» – Google, Microsoft, Language Weaver, Яндекс и десятки других Статистический МП – это поиск наиболее вероятного перевода предложения с использованием данных, полученных из параллельных корпусов.

Слайд 15





Статистический машинный перевод (2)
Сегодня SMT – наиболее активно разрабатываемая архитектура MT.    Почему?
Легко построить, если есть двуязычный корпус, ноль / минимум лингвистики
Переносимость технологии на любые пары языков
Лексическая гладкость

Ограничения / недостатки:
Ограниченность параллельных корпусов в природе и их real-life качество
Плохо справляется с морфологией / синтаксисом (по сравнению с RBMT)
Искажение информации (дублирование, пропуск или подмена информации)

USA is to blame = США не виноват
Russia is to blame = Россия виновата
Описание слайда:
Статистический машинный перевод (2) Сегодня SMT – наиболее активно разрабатываемая архитектура MT. Почему? Легко построить, если есть двуязычный корпус, ноль / минимум лингвистики Переносимость технологии на любые пары языков Лексическая гладкость Ограничения / недостатки: Ограниченность параллельных корпусов в природе и их real-life качество Плохо справляется с морфологией / синтаксисом (по сравнению с RBMT) Искажение информации (дублирование, пропуск или подмена информации) USA is to blame = США не виноват Russia is to blame = Россия виновата

Слайд 16





Выводы
Обе технологии имеют свои достоинства и недостатки, 
но главное – они не решили задачу по получению
качественного машинного перевода.

МТ-сообщество ожидает прорыва в качестве перевода в
гибридных моделях RBMT + SMT.
Описание слайда:
Выводы Обе технологии имеют свои достоинства и недостатки, но главное – они не решили задачу по получению качественного машинного перевода. МТ-сообщество ожидает прорыва в качестве перевода в гибридных моделях RBMT + SMT.

Слайд 17





Гибридная технология PROMT
Объединение RBTM и статистических технологий

лингвистический анализ входного предложения
порождение вариантов перевода
использование статистических технологий
оценка и выбор лучшего варианта перевода с использованием Модели языка
Описание слайда:
Гибридная технология PROMT Объединение RBTM и статистических технологий лингвистический анализ входного предложения порождение вариантов перевода использование статистических технологий оценка и выбор лучшего варианта перевода с использованием Модели языка

Слайд 18





Этапы Гибридной технологии
Обучение RBMT на основе параллельного корпуса с использованием статистических технологий
Эксплуатация на основе натренированной системы
Описание слайда:
Этапы Гибридной технологии Обучение RBMT на основе параллельного корпуса с использованием статистических технологий Эксплуатация на основе натренированной системы

Слайд 19





Архитектура Гибридной технологии
Описание слайда:
Архитектура Гибридной технологии

Слайд 20





Обучение
Описание слайда:
Обучение

Слайд 21





Эксплуатация
Описание слайда:
Эксплуатация

Слайд 22





Модель языка (1)
Описание слайда:
Модель языка (1)

Слайд 23





Модель языка (2)
Модель языка (Language Model/LM) – это набор n-грамм моноязычного корпуса с их вероятностными характеристиками.
N-грамма – это последовательность слов из предложений длины n.
Описание слайда:
Модель языка (2) Модель языка (Language Model/LM) – это набор n-грамм моноязычного корпуса с их вероятностными характеристиками. N-грамма – это последовательность слов из предложений длины n.

Слайд 24





Модель языка (3)
Описание слайда:
Модель языка (3)

Слайд 25





Модель языка (4)
Perplexity (PPL) – вычисляемая для предложения «степень его искаженности» по отношению к данной LM. Чем меньше PPL, тем «естественнее» предложение.

Модель языка
- оценка релевантности (через PPL) каждого перевода по отношению к данному корпусу,
- выбор лучшего варианта  среди всех порожденных.
Описание слайда:
Модель языка (4) Perplexity (PPL) – вычисляемая для предложения «степень его искаженности» по отношению к данной LM. Чем меньше PPL, тем «естественнее» предложение. Модель языка - оценка релевантности (через PPL) каждого перевода по отношению к данному корпусу, - выбор лучшего варианта среди всех порожденных.

Слайд 26





Как работает Гибридная технология
Создание терминологического словаря из параллельных текстов для RBMT автоматическим путем
Порождение всех возможных вариантов перевода на основе
- лексических вариантов
- вариантов синтеза разных конструкций
- применения постредактирования
 выбор лучшего варианта через Модель языка
Описание слайда:
Как работает Гибридная технология Создание терминологического словаря из параллельных текстов для RBMT автоматическим путем Порождение всех возможных вариантов перевода на основе - лексических вариантов - вариантов синтеза разных конструкций - применения постредактирования  выбор лучшего варианта через Модель языка

Слайд 27





Терминологический словарь (1)
Технология получения:  
а) на основе параллельного  корпуса составляются таблицы n-грамм входного
корпуса вместе с вероятностями соответствий этих n-грамм  n-граммам
выходного корпуса,
б) на основании парсеров для входного и выходного языков, а также
частотных характеристик  из общего числа n-грамм извлекаются
релевантные для словаря единицы с некоторой грамматической
информацией (например, о валентности)

создается двуязычный глоссарий
в) в автоматическом режиме создается словарь для RBMT
Описание слайда:
Терминологический словарь (1) Технология получения: а) на основе параллельного корпуса составляются таблицы n-грамм входного корпуса вместе с вероятностями соответствий этих n-грамм n-граммам выходного корпуса, б) на основании парсеров для входного и выходного языков, а также частотных характеристик из общего числа n-грамм извлекаются релевантные для словаря единицы с некоторой грамматической информацией (например, о валентности) создается двуязычный глоссарий в) в автоматическом режиме создается словарь для RBMT

Слайд 28





Терминологический словарь (2)
Описание слайда:
Терминологический словарь (2)

Слайд 29





Лексические варианты
The restaurant  features a unique space with a cozy lounge and an eclectic blend of 
music, art and sculpture.
 
Rule-based
Ресторан представляет собой уникальное пространство (место) с удобным залом и эклектичной
смесью музыки, искусства и скульптуры.
Hybrid
Ресторан представляет собой уникальное пространство с удобным залом и эклектичной 
смесью музыки, искусства и скульптуры. (PPL==778)
Ресторан представляет собой уникальное место с удобным залом и эклектичной смесью 
музыки, искусства и скульптуры. (PPL=522)
Описание слайда:
Лексические варианты The restaurant features a unique space with a cozy lounge and an eclectic blend of music, art and sculpture. Rule-based Ресторан представляет собой уникальное пространство (место) с удобным залом и эклектичной смесью музыки, искусства и скульптуры. Hybrid Ресторан представляет собой уникальное пространство с удобным залом и эклектичной смесью музыки, искусства и скульптуры. (PPL==778) Ресторан представляет собой уникальное место с удобным залом и эклектичной смесью музыки, искусства и скульптуры. (PPL=522)

Слайд 30





Варианты синтеза конструкций (1)
Rule-based: выбор определенной модели синтеза
Hybrid: синтезирование нескольких вариантов перевода
Правило синтеза: перевод конструкции to + инфинитив
чтобы + инфинитив
для + существительное
You can use the same steps to edit the collection. 
Можно использовать те же самые шаги, чтобы отредактировать коллекцию. (PPL=372)

Можно использовать те же самые шаги для редактирования коллекции. (PPL=358)
Описание слайда:
Варианты синтеза конструкций (1) Rule-based: выбор определенной модели синтеза Hybrid: синтезирование нескольких вариантов перевода Правило синтеза: перевод конструкции to + инфинитив чтобы + инфинитив для + существительное You can use the same steps to edit the collection. Можно использовать те же самые шаги, чтобы отредактировать коллекцию. (PPL=372) Можно использовать те же самые шаги для редактирования коллекции. (PPL=358)

Слайд 31





Варианты синтеза конструкций (2)
Rule-based: выбор определенной модели синтеза
Hybrid: синтезирование нескольких вариантов перевода
Правило синтеза: порядок следования подлежащего и сказуемого.

Click Browse to browse the path for the folder in which you want newly created documents to be located.
Нажмите Browse для просмотра пути к папке, в которой Вы хотите, чтобы недавно созданные документы были расположены. (PPL= 290)
Нажмите Browse для просмотра пути к папке, в которой Вы хотите, чтобы  были расположены недавно созданные документы. (PPL= 274)
Описание слайда:
Варианты синтеза конструкций (2) Rule-based: выбор определенной модели синтеза Hybrid: синтезирование нескольких вариантов перевода Правило синтеза: порядок следования подлежащего и сказуемого. Click Browse to browse the path for the folder in which you want newly created documents to be located. Нажмите Browse для просмотра пути к папке, в которой Вы хотите, чтобы недавно созданные документы были расположены. (PPL= 290) Нажмите Browse для просмотра пути к папке, в которой Вы хотите, чтобы были расположены недавно созданные документы. (PPL= 274)

Слайд 32





Данные для постредактирования (1)
Описание слайда:
Данные для постредактирования (1)

Слайд 33





Данные для постредактирования (2)
Технология : на основе параллельного  корпуса выделяется таблица n-грамм входного корпуса вместе с вероятностями соответствий этих n-грамм  n-граммам выходного корпуса.
с платежом PayPal банковским переводом  в случае платежа PayPal посредством банковского перевода

вводите банковский перевод  инициируете перевод

когда Вы закончены   после окончания Вашей работы

каждое усилие было приложено  были предприняты все усилия
Описание слайда:
Данные для постредактирования (2) Технология : на основе параллельного корпуса выделяется таблица n-грамм входного корпуса вместе с вероятностями соответствий этих n-грамм n-граммам выходного корпуса. с платежом PayPal банковским переводом  в случае платежа PayPal посредством банковского перевода вводите банковский перевод  инициируете перевод когда Вы закончены  после окончания Вашей работы каждое усилие было приложено  были предприняты все усилия

Слайд 34





Данные для постредактирования (3)
Пример применения нескольких замен сегментов машинного переводами сегментами человеческого перевода.
With PayPal payment by bank transfer, you initiate a bank transfer from your bank account to your PayPal account.

С платежом PayPal банковским переводом вы вводите банковский перевод с Вашего банковского счета на ваш счет PayPal. (PPL=95)

В случае платежа PayPal посредством банковского перевода  вы инициируете перевод с Вашего банковского счета на ваш счет PayPal. (PPL == 7)
Описание слайда:
Данные для постредактирования (3) Пример применения нескольких замен сегментов машинного переводами сегментами человеческого перевода. With PayPal payment by bank transfer, you initiate a bank transfer from your bank account to your PayPal account. С платежом PayPal банковским переводом вы вводите банковский перевод с Вашего банковского счета на ваш счет PayPal. (PPL=95) В случае платежа PayPal посредством банковского перевода вы инициируете перевод с Вашего банковского счета на ваш счет PayPal. (PPL == 7)

Слайд 35


Гибридная технология перевода  Юлия Епифанцева  PROMT, слайд №35
Описание слайда:

Слайд 36


Гибридная технология перевода  Юлия Епифанцева  PROMT, слайд №36
Описание слайда:

Слайд 37





LM Statistics
Описание слайда:
LM Statistics

Слайд 38





Поиск по параллельным корпусам
Описание слайда:
Поиск по параллельным корпусам

Слайд 39





Выводы
Преимущества RBMT сохраняются:
- синтаксическая и морфологическая точность,
- стабильность и предсказуемость результата,
- возможность настройки на предметную область.


Недостатки  RBMT нивелируются
за счет использования параллельных корпусов и статистических методов
- автоматическая настройка лингвистических баз данных (быстрое и качественное извлечение терминологии),  
- исчезает «машинный» акцент при перевода (варианты синтеза и постредактирование).
Описание слайда:
Выводы Преимущества RBMT сохраняются: - синтаксическая и морфологическая точность, - стабильность и предсказуемость результата, - возможность настройки на предметную область. Недостатки RBMT нивелируются за счет использования параллельных корпусов и статистических методов - автоматическая настройка лингвистических баз данных (быстрое и качественное извлечение терминологии), - исчезает «машинный» акцент при перевода (варианты синтеза и постредактирование).

Слайд 40





Спасибо!
Спасибо!
www.promt.ru
www.translate.ru
Описание слайда:
Спасибо! Спасибо! www.promt.ru www.translate.ru



Похожие презентации
Mypresentation.ru
Загрузить презентацию