🗊Презентация Метод автоматической нормализации словосочетаний на основе обобщенных синтагм

Категория: Образование
Нажмите для полного просмотра!
Метод автоматической нормализации словосочетаний на основе обобщенных синтагм, слайд №1Метод автоматической нормализации словосочетаний на основе обобщенных синтагм, слайд №2Метод автоматической нормализации словосочетаний на основе обобщенных синтагм, слайд №3Метод автоматической нормализации словосочетаний на основе обобщенных синтагм, слайд №4Метод автоматической нормализации словосочетаний на основе обобщенных синтагм, слайд №5Метод автоматической нормализации словосочетаний на основе обобщенных синтагм, слайд №6Метод автоматической нормализации словосочетаний на основе обобщенных синтагм, слайд №7Метод автоматической нормализации словосочетаний на основе обобщенных синтагм, слайд №8Метод автоматической нормализации словосочетаний на основе обобщенных синтагм, слайд №9Метод автоматической нормализации словосочетаний на основе обобщенных синтагм, слайд №10Метод автоматической нормализации словосочетаний на основе обобщенных синтагм, слайд №11Метод автоматической нормализации словосочетаний на основе обобщенных синтагм, слайд №12Метод автоматической нормализации словосочетаний на основе обобщенных синтагм, слайд №13

Вы можете ознакомиться и скачать презентацию на тему Метод автоматической нормализации словосочетаний на основе обобщенных синтагм. Доклад-сообщение содержит 13 слайдов. Презентации для любого класса можно скачать бесплатно. Если материал и наш сайт презентаций Mypresentation Вам понравились – поделитесь им с друзьями с помощью социальных кнопок и добавьте в закладки в своем браузере.

Слайды и текст этой презентации


Слайд 1





Московский авиационный институт 
(национальный исследовательский университет)





Метод автоматической нормализации словосочетаний на основе обобщенных синтагм
Студентка: Руснак В.И.
Описание слайда:
Московский авиационный институт  (национальный исследовательский университет) Метод автоматической нормализации словосочетаний на основе обобщенных синтагм Студентка: Руснак В.И.

Слайд 2





Определения
	Нормализация словосочетаний - это процесс приведения словосочетания к нормальной форме со строго определенным порядком слов и их грамматической формой.
	Синтагма - совокупность нескольких слов, объединённых по принципу семантико-грамматической и фонетической сочетаемости.
	Обобщенная синтагма - ?
Описание слайда:
Определения Нормализация словосочетаний - это процесс приведения словосочетания к нормальной форме со строго определенным порядком слов и их грамматической формой. Синтагма - совокупность нескольких слов, объединённых по принципу семантико-грамматической и фонетической сочетаемости. Обобщенная синтагма - ?

Слайд 3





Актуальность
	В большинстве современных подходов к анализу текстов не используют информацию о порядке следования слов. Многие из них могут быть усовершенствованы, в случае, если атомарными элементами анализа станут не слова, а обобщения понятия словосочетание, то есть синтагмы. Имеет большой спектр приложений в NLP. Может быть успешно применено, например:
В задачах выделения именованных сущностей.
В задачах тематического моделирования для построения ядер тем, для последующей регуляризации в методе LDA.
И во многих других задачах обработки текстов, требующих большей точности, чем подходы, использующие bag of words. 
Описание слайда:
Актуальность В большинстве современных подходов к анализу текстов не используют информацию о порядке следования слов. Многие из них могут быть усовершенствованы, в случае, если атомарными элементами анализа станут не слова, а обобщения понятия словосочетание, то есть синтагмы. Имеет большой спектр приложений в NLP. Может быть успешно применено, например: В задачах выделения именованных сущностей. В задачах тематического моделирования для построения ядер тем, для последующей регуляризации в методе LDA. И во многих других задачах обработки текстов, требующих большей точности, чем подходы, использующие bag of words. 

Слайд 4





Постановка задачи
	?
Описание слайда:
Постановка задачи ?

Слайд 5





Введение в метод
	Задачу автоматической нормализации слов и словосочетаний необходимо разбить на две подзадачи. Отдельно на подзадачу нормализации слов и на подзадачу нормализации словосочетаний. Нормализация слов русского языка на различных уровня обобщения достаточно хорошо исследована и решается путем замены грамматических окончаний, а в некоторых случаях и трансформации конечных буквосочетаний основ.
	Другое дело – нормализация именных и глагольных словосочетаний. Здесь наряду с задачей морфологического синтеза необходимо также решить задачу анализа структуры текстового словосочетания - установить главные (опорные) и зависимые слова словосочетания и определить синтаксические связи между ними. На основании этой информации может быть принято решение о синтаксической (перестановка слов нормализованного словосочетании) и морфологической (трансформации основ слов и замены грамматических окончаний опорных и зависимых слов. Эти процедуры также разработаны, но реализация требуют больших вычислительных и временных ресурсов.
Описание слайда:
Введение в метод Задачу автоматической нормализации слов и словосочетаний необходимо разбить на две подзадачи. Отдельно на подзадачу нормализации слов и на подзадачу нормализации словосочетаний. Нормализация слов русского языка на различных уровня обобщения достаточно хорошо исследована и решается путем замены грамматических окончаний, а в некоторых случаях и трансформации конечных буквосочетаний основ. Другое дело – нормализация именных и глагольных словосочетаний. Здесь наряду с задачей морфологического синтеза необходимо также решить задачу анализа структуры текстового словосочетания - установить главные (опорные) и зависимые слова словосочетания и определить синтаксические связи между ними. На основании этой информации может быть принято решение о синтаксической (перестановка слов нормализованного словосочетании) и морфологической (трансформации основ слов и замены грамматических окончаний опорных и зависимых слов. Эти процедуры также разработаны, но реализация требуют больших вычислительных и временных ресурсов.

Слайд 6





Описание метода
	Концепция фразеологического концептуального анализа текстов, разработанная проф. Г. Г. Белоноговым совместно с его учениками, в рамках которой проводилось данное исследование, базируется на машинной грамматике, в основу которой положена система флективных классов русских слов. Заложенное в теоретической концепции флективных классов слов русского языка жесткое соответствие между формой представления слов и их грамматической информацией позволило создать на этой основе новые классы – классы слов, имеющие одинаковые наборы грамматических признаков, соответствующие их формам представления в сходных контекстных окружениях. 
	При разработке этой синтаксической модели текстов авторы исходили из следующей гипотезы: одинаковым последовательностям обобщенных символов классов слов (обобщенным синтагмам) должны соответствовать одинаковые синтаксические структуры. При этом предполагалось, что такая гипотеза верна для любых синтаксических моделей и может быть полезна при решении как глобальных, так и частных задач синтаксического анализа. 
Таким образом, синтаксическая модель языка будет выражена совокупностью устойчивых синтаксических конструкций, имеющих частоту встречаемости более трех. При этом корпус текстов, используемый для формирования синтаксической модели языка должен быть значительного размера. Исследования проводились на корпусе текстов размером 1,5 млн предложений. Полученный словарь обобщенных синтагм имеет объем 39865 словарных статей
Описание слайда:
Описание метода Концепция фразеологического концептуального анализа текстов, разработанная проф. Г. Г. Белоноговым совместно с его учениками, в рамках которой проводилось данное исследование, базируется на машинной грамматике, в основу которой положена система флективных классов русских слов. Заложенное в теоретической концепции флективных классов слов русского языка жесткое соответствие между формой представления слов и их грамматической информацией позволило создать на этой основе новые классы – классы слов, имеющие одинаковые наборы грамматических признаков, соответствующие их формам представления в сходных контекстных окружениях. При разработке этой синтаксической модели текстов авторы исходили из следующей гипотезы: одинаковым последовательностям обобщенных символов классов слов (обобщенным синтагмам) должны соответствовать одинаковые синтаксические структуры. При этом предполагалось, что такая гипотеза верна для любых синтаксических моделей и может быть полезна при решении как глобальных, так и частных задач синтаксического анализа. Таким образом, синтаксическая модель языка будет выражена совокупностью устойчивых синтаксических конструкций, имеющих частоту встречаемости более трех. При этом корпус текстов, используемый для формирования синтаксической модели языка должен быть значительного размера. Исследования проводились на корпусе текстов размером 1,5 млн предложений. Полученный словарь обобщенных синтагм имеет объем 39865 словарных статей

Слайд 7





Алгоритм формирования словаря обобщенных синтагм
	В процессе исследований был разработан алгоритм, позволяющий автоматически формировать словарь устойчивых синтаксических конструкций для синтаксической модели языка. Далее приведем сам алгоритм:
Разделить текст на предложения и выполнить обработку каждого анализируемого предложения процедурой морфологического анализа. Получить для каждого слова символ флективного класса и грамматического окончания.
Провести синтаксический анализ предложения [3], провести назначение грамматической информации и построить дерево зависимости предложения. Рассчитать вероятности правильности получения информации. 
Выявить последовательности слов, для которых вероятность правильного установления грамматической информации равна 1.
Сформировать для этих последовательностей индексы обобщенных синтагм.
Сформировать из получившихся последовательностей подпоследовательности размером от трех слов до длины исходной последовательности.
Добавить подпоследовательности индексов обобщенных синтагм, полученные на шаге 5, в словарь устойчивых синтаксических конструкций. Пересчитать значения частот для этих подпоследовательностей.
Исключить из словаря устойчивых синтаксических конструкций синтагмы с частотой менее трех.
Описание слайда:
Алгоритм формирования словаря обобщенных синтагм В процессе исследований был разработан алгоритм, позволяющий автоматически формировать словарь устойчивых синтаксических конструкций для синтаксической модели языка. Далее приведем сам алгоритм: Разделить текст на предложения и выполнить обработку каждого анализируемого предложения процедурой морфологического анализа. Получить для каждого слова символ флективного класса и грамматического окончания. Провести синтаксический анализ предложения [3], провести назначение грамматической информации и построить дерево зависимости предложения. Рассчитать вероятности правильности получения информации. Выявить последовательности слов, для которых вероятность правильного установления грамматической информации равна 1. Сформировать для этих последовательностей индексы обобщенных синтагм. Сформировать из получившихся последовательностей подпоследовательности размером от трех слов до длины исходной последовательности. Добавить подпоследовательности индексов обобщенных синтагм, полученные на шаге 5, в словарь устойчивых синтаксических конструкций. Пересчитать значения частот для этих подпоследовательностей. Исключить из словаря устойчивых синтаксических конструкций синтагмы с частотой менее трех.

Слайд 8





Примеры работы алгоритма
Описание слайда:
Примеры работы алгоритма

Слайд 9





Описание алгоритма нормализации
Выполняется обработка анализируемого словосочетания  процедурой морфологического словоизменительного анализа.  
 
Формируется синтагма на основе полученной на шаге 1 грамматической информации.
Выполняется поиск главного слова словосочетания в соответствии с правилами языка.
Выполняется приведение главного слова к нормальной форме
В словаре обобщенных синтагм ищется синтагма, в которой главное слово находится в нормальной форме, а остальные слова имеют грамматическую информацию, которую путем словоизменения можно привести к исходной.  
Приведение слов словосочетания в соответствие с обобщённой синтагмой при помощи процедур морфологического анализа.
Описание слайда:
Описание алгоритма нормализации Выполняется обработка анализируемого словосочетания процедурой морфологического словоизменительного анализа.   Формируется синтагма на основе полученной на шаге 1 грамматической информации. Выполняется поиск главного слова словосочетания в соответствии с правилами языка. Выполняется приведение главного слова к нормальной форме В словаре обобщенных синтагм ищется синтагма, в которой главное слово находится в нормальной форме, а остальные слова имеют грамматическую информацию, которую путем словоизменения можно привести к исходной. Приведение слов словосочетания в соответствие с обобщённой синтагмой при помощи процедур морфологического анализа.

Слайд 10





Пример нормализации именных словосочетаний
Исходное предложение: Он основывается на использовании подготовленных семантико-статистическими методами, устойчивых обобщенных синтагм, которые представляют собой  - контактно расположенные последовательности символов обобщенных классов словоформ, включающие в себя набор грамматических признаков. 

Список выявленных именных словосочетаний: семантико-статистическими методами; устойчивых обобщенных синтагм; контактно расположенные последовательности символов обобщенных классов словоформ; набор грамматических признаков
Описание слайда:
Пример нормализации именных словосочетаний Исходное предложение: Он основывается на использовании подготовленных семантико-статистическими методами, устойчивых обобщенных синтагм, которые представляют собой - контактно расположенные последовательности символов обобщенных классов словоформ, включающие в себя набор грамматических признаков. Список выявленных именных словосочетаний: семантико-статистическими методами; устойчивых обобщенных синтагм; контактно расположенные последовательности символов обобщенных классов словоформ; набор грамматических признаков

Слайд 11





Пример нормализации именных словосочетаний
Нормализуемое словосочетание: контактно расположенные последовательности символов обобщенных классов словоформ 
Сформированная  для словосочетания последовательность грамматических признаков
Описание слайда:
Пример нормализации именных словосочетаний Нормализуемое словосочетание: контактно расположенные последовательности символов обобщенных классов словоформ Сформированная для словосочетания последовательность грамматических признаков

Слайд 12





Пример нормализации именных словосочетаний
Главное слово: синтагм
Найденная для последовательность грамматических признаков , где главное слово представлено в нормальной форме грамматических признаков 










Сформированное по данной синтагме словосочетание: устойчивая обобщенная синтагма
Описание слайда:
Пример нормализации именных словосочетаний Главное слово: синтагм Найденная для последовательность грамматических признаков , где главное слово представлено в нормальной форме грамматических признаков Сформированное по данной синтагме словосочетание: устойчивая обобщенная синтагма

Слайд 13





Заключение
Описание слайда:
Заключение



Похожие презентации
Mypresentation.ru
Загрузить презентацию