🗊ПРОГРАММНЫЕ СРЕДСТВА ВЫЯВЛЕНИЯ ТЕРМИНОЛОГИЧЕСКИХ ВАРИАНТОВ В ТЕКСТАХ Антонов Вадим Юрьевич Научный руководитель: Ефремова Нат

Категория: Новости
Нажмите для полного просмотра!
ПРОГРАММНЫЕ СРЕДСТВА ВЫЯВЛЕНИЯ ТЕРМИНОЛОГИЧЕСКИХ ВАРИАНТОВ В ТЕКСТАХ  Антонов Вадим Юрьевич  Научный руководитель:   Ефремова Нат, слайд №1ПРОГРАММНЫЕ СРЕДСТВА ВЫЯВЛЕНИЯ ТЕРМИНОЛОГИЧЕСКИХ ВАРИАНТОВ В ТЕКСТАХ  Антонов Вадим Юрьевич  Научный руководитель:   Ефремова Нат, слайд №2ПРОГРАММНЫЕ СРЕДСТВА ВЫЯВЛЕНИЯ ТЕРМИНОЛОГИЧЕСКИХ ВАРИАНТОВ В ТЕКСТАХ  Антонов Вадим Юрьевич  Научный руководитель:   Ефремова Нат, слайд №3ПРОГРАММНЫЕ СРЕДСТВА ВЫЯВЛЕНИЯ ТЕРМИНОЛОГИЧЕСКИХ ВАРИАНТОВ В ТЕКСТАХ  Антонов Вадим Юрьевич  Научный руководитель:   Ефремова Нат, слайд №4ПРОГРАММНЫЕ СРЕДСТВА ВЫЯВЛЕНИЯ ТЕРМИНОЛОГИЧЕСКИХ ВАРИАНТОВ В ТЕКСТАХ  Антонов Вадим Юрьевич  Научный руководитель:   Ефремова Нат, слайд №5ПРОГРАММНЫЕ СРЕДСТВА ВЫЯВЛЕНИЯ ТЕРМИНОЛОГИЧЕСКИХ ВАРИАНТОВ В ТЕКСТАХ  Антонов Вадим Юрьевич  Научный руководитель:   Ефремова Нат, слайд №6ПРОГРАММНЫЕ СРЕДСТВА ВЫЯВЛЕНИЯ ТЕРМИНОЛОГИЧЕСКИХ ВАРИАНТОВ В ТЕКСТАХ  Антонов Вадим Юрьевич  Научный руководитель:   Ефремова Нат, слайд №7ПРОГРАММНЫЕ СРЕДСТВА ВЫЯВЛЕНИЯ ТЕРМИНОЛОГИЧЕСКИХ ВАРИАНТОВ В ТЕКСТАХ  Антонов Вадим Юрьевич  Научный руководитель:   Ефремова Нат, слайд №8ПРОГРАММНЫЕ СРЕДСТВА ВЫЯВЛЕНИЯ ТЕРМИНОЛОГИЧЕСКИХ ВАРИАНТОВ В ТЕКСТАХ  Антонов Вадим Юрьевич  Научный руководитель:   Ефремова Нат, слайд №9ПРОГРАММНЫЕ СРЕДСТВА ВЫЯВЛЕНИЯ ТЕРМИНОЛОГИЧЕСКИХ ВАРИАНТОВ В ТЕКСТАХ  Антонов Вадим Юрьевич  Научный руководитель:   Ефремова Нат, слайд №10ПРОГРАММНЫЕ СРЕДСТВА ВЫЯВЛЕНИЯ ТЕРМИНОЛОГИЧЕСКИХ ВАРИАНТОВ В ТЕКСТАХ  Антонов Вадим Юрьевич  Научный руководитель:   Ефремова Нат, слайд №11ПРОГРАММНЫЕ СРЕДСТВА ВЫЯВЛЕНИЯ ТЕРМИНОЛОГИЧЕСКИХ ВАРИАНТОВ В ТЕКСТАХ  Антонов Вадим Юрьевич  Научный руководитель:   Ефремова Нат, слайд №12ПРОГРАММНЫЕ СРЕДСТВА ВЫЯВЛЕНИЯ ТЕРМИНОЛОГИЧЕСКИХ ВАРИАНТОВ В ТЕКСТАХ  Антонов Вадим Юрьевич  Научный руководитель:   Ефремова Нат, слайд №13ПРОГРАММНЫЕ СРЕДСТВА ВЫЯВЛЕНИЯ ТЕРМИНОЛОГИЧЕСКИХ ВАРИАНТОВ В ТЕКСТАХ  Антонов Вадим Юрьевич  Научный руководитель:   Ефремова Нат, слайд №14

Вы можете ознакомиться и скачать ПРОГРАММНЫЕ СРЕДСТВА ВЫЯВЛЕНИЯ ТЕРМИНОЛОГИЧЕСКИХ ВАРИАНТОВ В ТЕКСТАХ Антонов Вадим Юрьевич Научный руководитель: Ефремова Нат. Презентация содержит 14 слайдов. Презентации для любого класса можно скачать бесплатно. Если материал и наш сайт презентаций Вам понравились – поделитесь им с друзьями с помощью социальных кнопок и добавьте в закладки в своем браузере.

Слайды и текст этой презентации


Слайд 1





ПРОГРАММНЫЕ СРЕДСТВА ВЫЯВЛЕНИЯ ТЕРМИНОЛОГИЧЕСКИХ ВАРИАНТОВ В ТЕКСТАХ
Антонов Вадим Юрьевич
Научный руководитель: 
Ефремова Наталья Эрнестовна
Описание слайда:
ПРОГРАММНЫЕ СРЕДСТВА ВЫЯВЛЕНИЯ ТЕРМИНОЛОГИЧЕСКИХ ВАРИАНТОВ В ТЕКСТАХ Антонов Вадим Юрьевич Научный руководитель: Ефремова Наталья Эрнестовна

Слайд 2





ТЕРМИНЫ И ИХ ВАРИАНТЫ
Термины – слова и словосочетания, называющие понятия предметной области
рентгеновское излучение 
Употребление терминов в текстах –> терминологические варианты
излучение, рентгеновские лучи
Выявление терминологических вариантов важно учитывать при построении тезаурусов, онтологий, предметных указателей, классификации текстов
Описание слайда:
ТЕРМИНЫ И ИХ ВАРИАНТЫ Термины – слова и словосочетания, называющие понятия предметной области рентгеновское излучение Употребление терминов в текстах –> терминологические варианты излучение, рентгеновские лучи Выявление терминологических вариантов важно учитывать при построении тезаурусов, онтологий, предметных указателей, классификации текстов

Слайд 3





КЛАССИФИКАЦИЯ ВАРИАНТОВ
Описание слайда:
КЛАССИФИКАЦИЯ ВАРИАНТОВ

Слайд 4





ПОСТАНОВКА ЗАДАЧИ
Изучить классификацию терминологических вариантов и подходы к их выявлению
На базе классификации разработать методы выявления терминологических вариантов в научно-технических текстах на русском языке
На их основе реализовать программные средства
Провести тестирование разработанных методов
Описание слайда:
ПОСТАНОВКА ЗАДАЧИ Изучить классификацию терминологических вариантов и подходы к их выявлению На базе классификации разработать методы выявления терминологических вариантов в научно-технических текстах на русском языке На их основе реализовать программные средства Провести тестирование разработанных методов

Слайд 5





ПОДХОДЫ К ВЫЯВЛЕНИЮ
Символьный (статистический) подход
Термин и его варианты – символы
Вычисляется функция близости для термина и его варианта,
	для выбора порогового значения используется статистика
Не требуется лингвистическая информация и словари
Используется для орфографических и флективных вариантов
Лингвистический подход
Термин и его варианты – словосочетания
Анализируется синтаксическая структура словосочетания,
	применяются правила образования вариантов и эвристики
Используется для лексико-синтаксических вариантов
Применён для английского и французского языков, 
	для русского языка не изучен
Описание слайда:
ПОДХОДЫ К ВЫЯВЛЕНИЮ Символьный (статистический) подход Термин и его варианты – символы Вычисляется функция близости для термина и его варианта, для выбора порогового значения используется статистика Не требуется лингвистическая информация и словари Используется для орфографических и флективных вариантов Лингвистический подход Термин и его варианты – словосочетания Анализируется синтаксическая структура словосочетания, применяются правила образования вариантов и эвристики Используется для лексико-синтаксических вариантов Применён для английского и французского языков, для русского языка не изучен

Слайд 6





ПРЕДЛАГАЕМОЕ РЕШЕНИЕ
Для каждого типа терминологических вариантов используется свой метод, основанный на одном из подходов
Описание слайда:
ПРЕДЛАГАЕМОЕ РЕШЕНИЕ Для каждого типа терминологических вариантов используется свой метод, основанный на одном из подходов

Слайд 7






ЛЕКСИКО-СИНТАКСИЧЕСКИЕ ВАРИАНТЫ: ФОРМАЛИЗАЦИЯ
Информация о лексико-синтаксических вариантах формализована в виде правил их образования 
Для формализации выбран язык LSPL и его библиотека:
позволяет описывать конструкции естественного языка в виде лексико-синтаксических шаблонов
предусмотрена возможность обработки информации, полученной в результате наложения LSPL-шаблона
Правило образования – лексико-синтаксический шаблон вида:
	 A1 N1 # N1, A2 N1, A1 N2
Описание слайда:
ЛЕКСИКО-СИНТАКСИЧЕСКИЕ ВАРИАНТЫ: ФОРМАЛИЗАЦИЯ Информация о лексико-синтаксических вариантах формализована в виде правил их образования Для формализации выбран язык LSPL и его библиотека: позволяет описывать конструкции естественного языка в виде лексико-синтаксических шаблонов предусмотрена возможность обработки информации, полученной в результате наложения LSPL-шаблона Правило образования – лексико-синтаксический шаблон вида: A1 N1 # N1, A2 N1, A1 N2

Слайд 8





ЛЕКСИКО-СИНТАКСИЧЕСКИЕ ВАРИАНТЫ: ВЫЯВЛЕНИЕ
Основано на
автоматической конкретизации шаблона правила
   A1 N1 <A1=N1> # A1 N2 <Syn(N1,N2),A1=N2>
     рентгеновские лучи # рентгеновское излучение
1 . Распознавание термина заданной структуры
	A1 => рентгеновские, N1 => лучи
2. Нормализация слов термина
	рентгеновские => рентгеновский, лучи => луч
3. Построение шаблона возможного варианта
A1<рентгеновский> N2 <Syn(“луч”,N2),A1=N2>
4. Поиск варианта в тексте по конкретизированному шаблону
Описание слайда:
ЛЕКСИКО-СИНТАКСИЧЕСКИЕ ВАРИАНТЫ: ВЫЯВЛЕНИЕ Основано на автоматической конкретизации шаблона правила A1 N1 <A1=N1> # A1 N2 <Syn(N1,N2),A1=N2> рентгеновские лучи # рентгеновское излучение 1 . Распознавание термина заданной структуры A1 => рентгеновские, N1 => лучи 2. Нормализация слов термина рентгеновские => рентгеновский, лучи => луч 3. Построение шаблона возможного варианта A1<рентгеновский> N2 <Syn(“луч”,N2),A1=N2> 4. Поиск варианта в тексте по конкретизированному шаблону

Слайд 9





ОБЩАЯ ПРОЦЕДУРА ВЫЯВЛЕНИЯ
Исходная информация:
Список терминов L1
Список кандидатов в терминологические варианты L2
Алгоритм:
	1. Для каждого Ti ϵ L1 рассматриваем все Vj ϵ L2 
	2. Для пары Ti и Vj проверяем, являются ли они вариантами, путём применения методов в определённом порядке
Результаты работы:
Для каждого термина из L1 – список терминологических вариантов из L2
Описание слайда:
ОБЩАЯ ПРОЦЕДУРА ВЫЯВЛЕНИЯ Исходная информация: Список терминов L1 Список кандидатов в терминологические варианты L2 Алгоритм: 1. Для каждого Ti ϵ L1 рассматриваем все Vj ϵ L2 2. Для пары Ti и Vj проверяем, являются ли они вариантами, путём применения методов в определённом порядке Результаты работы: Для каждого термина из L1 – список терминологических вариантов из L2

Слайд 10





ПРОГРАММНЫЕ СРЕДСТВА: АРХИТЕКТУРА
Описание слайда:
ПРОГРАММНЫЕ СРЕДСТВА: АРХИТЕКТУРА

Слайд 11





РЕАЛИЗАЦИЯ И ТЕСТИРОВАНИЕ МЕТОДОВ
Для реализации использован язык С++
Библиотеки: LSPL, AOT, boost, STL
Система контроля версий: git
Тестирование на научно-технических текстах из областей физики и информатики объемом более 500кб
Полнота выявления вариантов: 91%                 
	Точность выявления вариантов: 86%
Выявлено употреблений терминов без учета терминологических вариантов: 13668
Выявлено употреблений терминов с учетом терминологических вариантов: 25178
Процент прироста употреблений терминов: 84%
Описание слайда:
РЕАЛИЗАЦИЯ И ТЕСТИРОВАНИЕ МЕТОДОВ Для реализации использован язык С++ Библиотеки: LSPL, AOT, boost, STL Система контроля версий: git Тестирование на научно-технических текстах из областей физики и информатики объемом более 500кб Полнота выявления вариантов: 91% Точность выявления вариантов: 86% Выявлено употреблений терминов без учета терминологических вариантов: 13668 Выявлено употреблений терминов с учетом терминологических вариантов: 25178 Процент прироста употреблений терминов: 84%

Слайд 12





РЕЗУЛЬТАТЫ РАБОТЫ
Проанализированы современные подходы к выявлению терминологических вариантов, изучена классификация вариантов, типичных для русскоязычных научно-технических текстов
Разработаны методы выявления терминологических вариантов в соответствии с классификацией
Библиотека языка LSPL расширена для формирования конкретизированных шаблонов
Методы выявления реализованы в виде программных средств
Тестирование показало состоятельность предложенных методов выявления
Описание слайда:
РЕЗУЛЬТАТЫ РАБОТЫ Проанализированы современные подходы к выявлению терминологических вариантов, изучена классификация вариантов, типичных для русскоязычных научно-технических текстов Разработаны методы выявления терминологических вариантов в соответствии с классификацией Библиотека языка LSPL расширена для формирования конкретизированных шаблонов Методы выявления реализованы в виде программных средств Тестирование показало состоятельность предложенных методов выявления

Слайд 13





 
	Результаты работы были представлены
	(с публикацией) на:
Международной научной конференции студентов, аспирантов и молодых ученых «Ломоносов 2010»
Международной конференции по компьютерной лингвистике и интеллектуальным технологиям   «Диалог 2010»

СПАСИБО ЗА ВНИМАНИЕ!
Описание слайда:
Результаты работы были представлены (с публикацией) на: Международной научной конференции студентов, аспирантов и молодых ученых «Ломоносов 2010» Международной конференции по компьютерной лингвистике и интеллектуальным технологиям «Диалог 2010» СПАСИБО ЗА ВНИМАНИЕ!

Слайд 14






Расстояние Левенштейна
Минимальное количество операций вставки, удаления и замены, необходимых для перевода одной строки в другую
Описание слайда:
Расстояние Левенштейна Минимальное количество операций вставки, удаления и замены, необходимых для перевода одной строки в другую



Похожие презентации
Mypresentation.ru
Загрузить презентацию