🗊ИЗВЛЕЧЕНИЕ ИНФОРМАЦИИ ИЗ ТЕКСТОВ: ПОРТРЕТ НАПРАВЛЕНИЯ Большакова Елена Игоревна МГУ им. М.В. Ломоносова, Факультет ВМиК bolsh@cs.msu.s

Категория: Информатика
Нажмите для полного просмотра!
ИЗВЛЕЧЕНИЕ  ИНФОРМАЦИИ  ИЗ  ТЕКСТОВ: ПОРТРЕТ НАПРАВЛЕНИЯ  Большакова Елена Игоревна  МГУ им. М.В. Ломоносова, Факультет ВМиК  bolsh@cs.msu.s, слайд №1ИЗВЛЕЧЕНИЕ  ИНФОРМАЦИИ  ИЗ  ТЕКСТОВ: ПОРТРЕТ НАПРАВЛЕНИЯ  Большакова Елена Игоревна  МГУ им. М.В. Ломоносова, Факультет ВМиК  bolsh@cs.msu.s, слайд №2ИЗВЛЕЧЕНИЕ  ИНФОРМАЦИИ  ИЗ  ТЕКСТОВ: ПОРТРЕТ НАПРАВЛЕНИЯ  Большакова Елена Игоревна  МГУ им. М.В. Ломоносова, Факультет ВМиК  bolsh@cs.msu.s, слайд №3ИЗВЛЕЧЕНИЕ  ИНФОРМАЦИИ  ИЗ  ТЕКСТОВ: ПОРТРЕТ НАПРАВЛЕНИЯ  Большакова Елена Игоревна  МГУ им. М.В. Ломоносова, Факультет ВМиК  bolsh@cs.msu.s, слайд №4ИЗВЛЕЧЕНИЕ  ИНФОРМАЦИИ  ИЗ  ТЕКСТОВ: ПОРТРЕТ НАПРАВЛЕНИЯ  Большакова Елена Игоревна  МГУ им. М.В. Ломоносова, Факультет ВМиК  bolsh@cs.msu.s, слайд №5ИЗВЛЕЧЕНИЕ  ИНФОРМАЦИИ  ИЗ  ТЕКСТОВ: ПОРТРЕТ НАПРАВЛЕНИЯ  Большакова Елена Игоревна  МГУ им. М.В. Ломоносова, Факультет ВМиК  bolsh@cs.msu.s, слайд №6ИЗВЛЕЧЕНИЕ  ИНФОРМАЦИИ  ИЗ  ТЕКСТОВ: ПОРТРЕТ НАПРАВЛЕНИЯ  Большакова Елена Игоревна  МГУ им. М.В. Ломоносова, Факультет ВМиК  bolsh@cs.msu.s, слайд №7ИЗВЛЕЧЕНИЕ  ИНФОРМАЦИИ  ИЗ  ТЕКСТОВ: ПОРТРЕТ НАПРАВЛЕНИЯ  Большакова Елена Игоревна  МГУ им. М.В. Ломоносова, Факультет ВМиК  bolsh@cs.msu.s, слайд №8ИЗВЛЕЧЕНИЕ  ИНФОРМАЦИИ  ИЗ  ТЕКСТОВ: ПОРТРЕТ НАПРАВЛЕНИЯ  Большакова Елена Игоревна  МГУ им. М.В. Ломоносова, Факультет ВМиК  bolsh@cs.msu.s, слайд №9ИЗВЛЕЧЕНИЕ  ИНФОРМАЦИИ  ИЗ  ТЕКСТОВ: ПОРТРЕТ НАПРАВЛЕНИЯ  Большакова Елена Игоревна  МГУ им. М.В. Ломоносова, Факультет ВМиК  bolsh@cs.msu.s, слайд №10ИЗВЛЕЧЕНИЕ  ИНФОРМАЦИИ  ИЗ  ТЕКСТОВ: ПОРТРЕТ НАПРАВЛЕНИЯ  Большакова Елена Игоревна  МГУ им. М.В. Ломоносова, Факультет ВМиК  bolsh@cs.msu.s, слайд №11ИЗВЛЕЧЕНИЕ  ИНФОРМАЦИИ  ИЗ  ТЕКСТОВ: ПОРТРЕТ НАПРАВЛЕНИЯ  Большакова Елена Игоревна  МГУ им. М.В. Ломоносова, Факультет ВМиК  bolsh@cs.msu.s, слайд №12ИЗВЛЕЧЕНИЕ  ИНФОРМАЦИИ  ИЗ  ТЕКСТОВ: ПОРТРЕТ НАПРАВЛЕНИЯ  Большакова Елена Игоревна  МГУ им. М.В. Ломоносова, Факультет ВМиК  bolsh@cs.msu.s, слайд №13ИЗВЛЕЧЕНИЕ  ИНФОРМАЦИИ  ИЗ  ТЕКСТОВ: ПОРТРЕТ НАПРАВЛЕНИЯ  Большакова Елена Игоревна  МГУ им. М.В. Ломоносова, Факультет ВМиК  bolsh@cs.msu.s, слайд №14ИЗВЛЕЧЕНИЕ  ИНФОРМАЦИИ  ИЗ  ТЕКСТОВ: ПОРТРЕТ НАПРАВЛЕНИЯ  Большакова Елена Игоревна  МГУ им. М.В. Ломоносова, Факультет ВМиК  bolsh@cs.msu.s, слайд №15ИЗВЛЕЧЕНИЕ  ИНФОРМАЦИИ  ИЗ  ТЕКСТОВ: ПОРТРЕТ НАПРАВЛЕНИЯ  Большакова Елена Игоревна  МГУ им. М.В. Ломоносова, Факультет ВМиК  bolsh@cs.msu.s, слайд №16ИЗВЛЕЧЕНИЕ  ИНФОРМАЦИИ  ИЗ  ТЕКСТОВ: ПОРТРЕТ НАПРАВЛЕНИЯ  Большакова Елена Игоревна  МГУ им. М.В. Ломоносова, Факультет ВМиК  bolsh@cs.msu.s, слайд №17ИЗВЛЕЧЕНИЕ  ИНФОРМАЦИИ  ИЗ  ТЕКСТОВ: ПОРТРЕТ НАПРАВЛЕНИЯ  Большакова Елена Игоревна  МГУ им. М.В. Ломоносова, Факультет ВМиК  bolsh@cs.msu.s, слайд №18ИЗВЛЕЧЕНИЕ  ИНФОРМАЦИИ  ИЗ  ТЕКСТОВ: ПОРТРЕТ НАПРАВЛЕНИЯ  Большакова Елена Игоревна  МГУ им. М.В. Ломоносова, Факультет ВМиК  bolsh@cs.msu.s, слайд №19ИЗВЛЕЧЕНИЕ  ИНФОРМАЦИИ  ИЗ  ТЕКСТОВ: ПОРТРЕТ НАПРАВЛЕНИЯ  Большакова Елена Игоревна  МГУ им. М.В. Ломоносова, Факультет ВМиК  bolsh@cs.msu.s, слайд №20ИЗВЛЕЧЕНИЕ  ИНФОРМАЦИИ  ИЗ  ТЕКСТОВ: ПОРТРЕТ НАПРАВЛЕНИЯ  Большакова Елена Игоревна  МГУ им. М.В. Ломоносова, Факультет ВМиК  bolsh@cs.msu.s, слайд №21

Содержание

Вы можете ознакомиться и скачать ИЗВЛЕЧЕНИЕ ИНФОРМАЦИИ ИЗ ТЕКСТОВ: ПОРТРЕТ НАПРАВЛЕНИЯ Большакова Елена Игоревна МГУ им. М.В. Ломоносова, Факультет ВМиК bolsh@cs.msu.s. Презентация содержит 21 слайдов. Презентации для любого класса можно скачать бесплатно. Если материал и наш сайт презентаций Вам понравились – поделитесь им с друзьями с помощью социальных кнопок и добавьте в закладки в своем браузере.

Слайды и текст этой презентации


Слайд 1





ИЗВЛЕЧЕНИЕ  ИНФОРМАЦИИ 
ИЗ  ТЕКСТОВ:
ПОРТРЕТ НАПРАВЛЕНИЯ
Большакова Елена Игоревна
МГУ им. М.В. Ломоносова, Факультет ВМиК
bolsh@cs.msu.su
 
Описание слайда:
ИЗВЛЕЧЕНИЕ ИНФОРМАЦИИ ИЗ ТЕКСТОВ: ПОРТРЕТ НАПРАВЛЕНИЯ Большакова Елена Игоревна МГУ им. М.В. Ломоносова, Факультет ВМиК bolsh@cs.msu.su  

Слайд 2





СОДЕРЖАНИЕ
Особенности задачи
Выделяемые сущности
Технология решения: шаблоны
Проект ONTOS и система GATE 
Задача извлечения терминологии
 Особенности терминов и их употребления
  Критерии распознавания
  Шаблоны для извлечения
Описание слайда:
СОДЕРЖАНИЕ Особенности задачи Выделяемые сущности Технология решения: шаблоны Проект ONTOS и система GATE Задача извлечения терминологии Особенности терминов и их употребления Критерии распознавания Шаблоны для извлечения

Слайд 3





ОСОБЕННОСТИ  ЗАДАЧИ
Information Extraction
Специфика задачи – распознавание и извлечение из текста определенной значимой информации - объектов и фактов,
    структуризация извлеченной информации
Приложения:
 текстовая аналитика (экономическая, производственная, правоохранительная и др.)
   построение онтологий и тезаурусов, моделей проблемной области
Описание слайда:
ОСОБЕННОСТИ ЗАДАЧИ Information Extraction Специфика задачи – распознавание и извлечение из текста определенной значимой информации - объектов и фактов, структуризация извлеченной информации Приложения: текстовая аналитика (экономическая, производственная, правоохранительная и др.) построение онтологий и тезаурусов, моделей проблемной области

Слайд 4





ВЫДЕЛЯЕМЫЕ  СУЩНОСТИ
Именованные сущности:
Имена персоналий
Географические названия
Названия фирм и организаций
Адреса
Даты
Отношения (связи) выделенных сущностей, например:  работать в   
     Смирнов А. работает  в  ОА «Альфа» с 1998 г.
связанные с ними события и факты
получение кредита, слияние компаний…
Описание слайда:
ВЫДЕЛЯЕМЫЕ СУЩНОСТИ Именованные сущности: Имена персоналий Географические названия Названия фирм и организаций Адреса Даты Отношения (связи) выделенных сущностей, например: работать в Смирнов А. работает в ОА «Альфа» с 1998 г. связанные с ними события и факты получение кредита, слияние компаний…

Слайд 5





ТЕХНОЛОГИЯ  РЕШЕНИЯ
Частичный синтаксический анализ :
      неэфффективность и многовариантность синт. разбора  
Лигвистические шаблоны, содержащие лексическую, морфологическую и синтаксическую информацию 
Лингвистич. шаблон – описание языковой конструкции, ее лексического состава и грамматических свойств:
                   N  “работает” в  NP                  (Noun Phrase)
Элементы шаблонов: 
Словоформы, лексемы (возможно, с указанием части речи/морфологических характеристик)
Грамматические конструкции: именные и др. группы
Описание слайда:
ТЕХНОЛОГИЯ РЕШЕНИЯ Частичный синтаксический анализ : неэфффективность и многовариантность синт. разбора Лигвистические шаблоны, содержащие лексическую, морфологическую и синтаксическую информацию Лингвистич. шаблон – описание языковой конструкции, ее лексического состава и грамматических свойств: N “работает” в NP (Noun Phrase) Элементы шаблонов: Словоформы, лексемы (возможно, с указанием части речи/морфологических характеристик) Грамматические конструкции: именные и др. группы

Слайд 6





 ПРОЕКТ  ONTOS
Описание слайда:
ПРОЕКТ ONTOS

Слайд 7





СИСТЕМА  GATE КАК ИНСТРУМЕНТ

Набор стандартных программных компонент (лингвистических процессоров) для обработки текста
Представление лингвистической информации об обрабатываемом тексте в виде набора аннотаций, которые хранятся отдельно от текста
Графическая среда для сборки приложения из компонент
Описание слайда:
СИСТЕМА GATE КАК ИНСТРУМЕНТ Набор стандартных программных компонент (лингвистических процессоров) для обработки текста Представление лингвистической информации об обрабатываемом тексте в виде набора аннотаций, которые хранятся отдельно от текста Графическая среда для сборки приложения из компонент

Слайд 8





GATE: ПРИМЕРЫ АННОТАЦИЙ
Сущность «Angela Merkel»
Описание слайда:
GATE: ПРИМЕРЫ АННОТАЦИЙ Сущность «Angela Merkel»

Слайд 9





GATE : КОМПОНЕНТЫ
 Цепочка обработки текста в системе GATE:
Tokeniser - разбиение текста на отдельные токены (числа, знаки препинания, слова)
 Gazetteer  - создание аннотаций к словам на основании словарных файлов (названия городов, организаций, дней недели и т.д.)
Sentence Splitter  - разбиение текста на предложения
Part of Speech Tagger  - определение части речи слов на основании словаря и правил
Semantic Tagger  - распознавание языковых конструкций  и сущностей на основе аннотаций и JAPE-правил
OrthoMatcher (Orthographic Coreference ) -  соотнесение идентичных сущностей с разными названиями
Описание слайда:
GATE : КОМПОНЕНТЫ Цепочка обработки текста в системе GATE: Tokeniser - разбиение текста на отдельные токены (числа, знаки препинания, слова) Gazetteer - создание аннотаций к словам на основании словарных файлов (названия городов, организаций, дней недели и т.д.) Sentence Splitter - разбиение текста на предложения Part of Speech Tagger - определение части речи слов на основании словаря и правил Semantic Tagger - распознавание языковых конструкций и сущностей на основе аннотаций и JAPE-правил OrthoMatcher (Orthographic Coreference ) - соотнесение идентичных сущностей с разными названиями

Слайд 10





GATE : ШАБЛОНЫ И ПРАВИЛА
      Язык JAPE - запись правил преобразования аннотаций
Шаблоны для выявляемых конструкций,  например:
    {Morph.SpeechPart="Adjective", Morph.Case="Nominative"}    -  шаблон  для выявления  прилагательных в именит. падеже
Правила для преобразования аннотаций : 
     левая часть – шаблон, правая – преобразование нужных аннотаций выявленной конструкции
            Rule: Second_name
        ({Token.SemanticType="Name: FName"}):family
       {[А-Я]}{Token.Text="."}{[А-Я]}{Token.Text=="."}) 
        family.Family={rule="Second_name"}     -      
     правило для выявления имен персоналий  вида Иванов И. 
     и выделение из них фамилий
Описание слайда:
GATE : ШАБЛОНЫ И ПРАВИЛА Язык JAPE - запись правил преобразования аннотаций Шаблоны для выявляемых конструкций, например: {Morph.SpeechPart="Adjective", Morph.Case="Nominative"} - шаблон для выявления прилагательных в именит. падеже Правила для преобразования аннотаций : левая часть – шаблон, правая – преобразование нужных аннотаций выявленной конструкции Rule: Second_name ({Token.SemanticType="Name: FName"}):family {[А-Я]}{Token.Text="."}{[А-Я]}{Token.Text=="."})  family.Family={rule="Second_name"} - правило для выявления имен персоналий вида Иванов И. и выделение из них фамилий

Слайд 11





ИЗВЛЕЧЕНИЕ ТЕРМИНОВ и СВЯЗЕЙ
Терминологические слова и словосочетания: называют понятия проблемной области: 
     общий регистр, число с плавающей точкой
        технология двойной накачки
Приложения:
  индексирование текстов
  навигация по тексту
  поддержка терминологич. редактирования текстов
  построение глоссариев и предметных указателей
  создание онтологий и тезаурусов
Часть приложений – обработка отдельного текста, но не коллекции
Описание слайда:
ИЗВЛЕЧЕНИЕ ТЕРМИНОВ и СВЯЗЕЙ Терминологические слова и словосочетания: называют понятия проблемной области: общий регистр, число с плавающей точкой технология двойной накачки Приложения: индексирование текстов навигация по тексту поддержка терминологич. редактирования текстов построение глоссариев и предметных указателей создание онтологий и тезаурусов Часть приложений – обработка отдельного текста, но не коллекции

Слайд 12





ОСОБЕННОСТИ  ТЕРМИНОВ

Большинство словосочетаний – несвободные (некомпозиционные), т.е. их смысл не выводится из смысла компонент:
      железная дорога,  длина слова
Конвенциональность научно-технических терминов  необходимость их определения в тексте:
            Под прерыванием понимается сигнал…
Грамматическая структура терминов: чаще всего - именные словосочетания, их можно описать структурными грамматическими образцами:
   прилагательное-существительное  –  логический вывод, 
   существительное- существительное в род. падеже – 
                                                             период упреждения
Описание слайда:
ОСОБЕННОСТИ ТЕРМИНОВ Большинство словосочетаний – несвободные (некомпозиционные), т.е. их смысл не выводится из смысла компонент: железная дорога, длина слова Конвенциональность научно-технических терминов  необходимость их определения в тексте: Под прерыванием понимается сигнал… Грамматическая структура терминов: чаще всего - именные словосочетания, их можно описать структурными грамматическими образцами: прилагательное-существительное – логический вывод, существительное- существительное в род. падеже – период упреждения

Слайд 13





МЕТОДЫ РАСПОЗНАВАНИЯ

Применение статистических и лингвистических критериев:
Статистические критерии
          Например, функция упорядочивания по статистике: 
		            log2 |a| * freq (a), если a не вложено, иначе 
C-Value(a)  = 
			 log2 |a| * (freq (a) – P(Ta)-1 * bTa freq (b))
где a – слово (словосочетание),  |a| – его длина, 
    freq(a) – частота встречаемости a в тексте, 
    Ta – множество словосочетаний текста, содержащих a, P(Ta) – количество словосочетаний, содержащих a.
    электрический слой - двойной электрический слой
Описание слайда:
МЕТОДЫ РАСПОЗНАВАНИЯ Применение статистических и лингвистических критериев: Статистические критерии Например, функция упорядочивания по статистике:  log2 |a| * freq (a), если a не вложено, иначе C-Value(a) =   log2 |a| * (freq (a) – P(Ta)-1 * bTa freq (b)) где a – слово (словосочетание), |a| – его длина, freq(a) – частота встречаемости a в тексте, Ta – множество словосочетаний текста, содержащих a, P(Ta) – количество словосочетаний, содержащих a. электрический слой - двойной электрический слой

Слайд 14





МЕТОДЫ  РАСПОЗНАВАНИЯ:
ЛИНГВИСТИЧЕСКИЕ КРИТЕРИИ

грамматические (синтаксические) образцы терминов:
            A N N   -   спектральный коэффициент излучения 
контексты употребления терминов:
    effect of  T –  effect of   drought,  effect of   cold 
                      (последствие засухи, заморозков)
    such T1 as T2 – such crimes as money laundering 
                      (такие преступления, как отмывание денег)
Лингвистическую информацию можно записать в виде шаблонов 
     необходим язык шаблонов и поддерживающие его средства
Описание слайда:
МЕТОДЫ РАСПОЗНАВАНИЯ: ЛИНГВИСТИЧЕСКИЕ КРИТЕРИИ грамматические (синтаксические) образцы терминов: A N N - спектральный коэффициент излучения контексты употребления терминов: effect of T – effect of drought, effect of cold (последствие засухи, заморозков) such T1 as T2 – such crimes as money laundering (такие преступления, как отмывание денег) Лингвистическую информацию можно записать в виде шаблонов необходим язык шаблонов и поддерживающие его средства

Слайд 15





РАСПОЗНАВАНИЕ ТЕРМИНОВ:
ТЕКСТОВЫЕ  ВАРИАНТЫ
При использовании терминов в тексте они могут образовывать варианты:
Описание слайда:
РАСПОЗНАВАНИЕ ТЕРМИНОВ: ТЕКСТОВЫЕ ВАРИАНТЫ При использовании терминов в тексте они могут образовывать варианты:

Слайд 16





ТЕРМИНОЛОГИЧЕСКИЕ ВАРИАНТЫ: 
ПРИМЕР
Описание слайда:
ТЕРМИНОЛОГИЧЕСКИЕ ВАРИАНТЫ: ПРИМЕР

Слайд 17





РАСПОЗНАВАНИЕ ТЕРМИНОВ:
СОЕДИНЕНИЯ ТЕРМИНОВ
Соединения нескольких терминологических словосочетаний:
Описание слайда:
РАСПОЗНАВАНИЕ ТЕРМИНОВ: СОЕДИНЕНИЯ ТЕРМИНОВ Соединения нескольких терминологических словосочетаний:

Слайд 18





ШАБЛОНЫ:  ЯЗЫК  LSPL 
Лексико-синтаксический шаблон позволяет задать 
для элемента-слова:
часть речи (A, N, V, Pa и т.д.)  –  A
индекс  –  A1 A2 N
лексему –  A<важный>
морфологические характеристики (имя=значение)  – A<важный; case=nom, gen=fem>
Грамматическое согласование элементов шаблона: 
A<тяжелый> N <A.gen=N.gen, A.num=N.num, A.case=N.case> 
Прилагательное тяжелый и существительное согласованы в роде, числе и падеже: тяжелым вечером, тяжелых камней, тяжелое тело
Описание слайда:
ШАБЛОНЫ: ЯЗЫК LSPL Лексико-синтаксический шаблон позволяет задать для элемента-слова: часть речи (A, N, V, Pa и т.д.) – A индекс – A1 A2 N лексему – A<важный> морфологические характеристики (имя=значение) – A<важный; case=nom, gen=fem> Грамматическое согласование элементов шаблона: A<тяжелый> N <A.gen=N.gen, A.num=N.num, A.case=N.case> Прилагательное тяжелый и существительное согласованы в роде, числе и падеже: тяжелым вечером, тяжелых камней, тяжелое тело

Слайд 19





ЯЗЫК LSPL-ШАБЛОНОВ: ВОЗМОЖНОСТИ
Описание слайда:
ЯЗЫК LSPL-ШАБЛОНОВ: ВОЗМОЖНОСТИ

Слайд 20





LSPL-ШАБЛОНЫ: ПРИМЕРЫ 
Шаблон типичной структуры термина:
                    A N1 { N2 <case=gen>} (A=N1)
      реактивная сила,  немаркированный квантор общности
Шаблон типичной фразы-определения новых терминов:
     NP1<c=acc> ["мы"] "назовем" NP2<c=ins> <NP1.n = NP2.n>
     Указанную операцию назовем операцией поиска примеров
Шаблон  образования терминологических вариантов:
           N1 N2<c=gen> "," N3<c=gen> {"и"|"или"} N4<c=gen> 
          #N1 N2<c=gen> , N1 N3<c=gen> ,  N1 N4<c=gen>
      шинам адреса, данных и управления – 
                шина адреса, шина данных, шина управления
Описание слайда:
LSPL-ШАБЛОНЫ: ПРИМЕРЫ Шаблон типичной структуры термина: A N1 { N2 <case=gen>} (A=N1) реактивная сила, немаркированный квантор общности Шаблон типичной фразы-определения новых терминов: NP1<c=acc> ["мы"] "назовем" NP2<c=ins> <NP1.n = NP2.n> Указанную операцию назовем операцией поиска примеров Шаблон образования терминологических вариантов: N1 N2<c=gen> "," N3<c=gen> {"и"|"или"} N4<c=gen> #N1 N2<c=gen> , N1 N3<c=gen> , N1 N4<c=gen> шинам адреса, данных и управления – шина адреса, шина данных, шина управления

Слайд 21





ЗАКЛЮЧЕНИЕ
В основном – извлечение на основе правил (rule-based), все чаще - машинное обучение
Точность и полнота извлечения 
зависят от набора шаблонов
зависят друг от друга
верхняя граница - до 80-90 %
Сложность задачи (технологическая): приемлемая полнота и точность достигается 
на больших массивах текстов
обычно в рамках коммерческих компаний
СПАСИБО ЗА ВНИМАНИЕ!
Описание слайда:
ЗАКЛЮЧЕНИЕ В основном – извлечение на основе правил (rule-based), все чаще - машинное обучение Точность и полнота извлечения зависят от набора шаблонов зависят друг от друга верхняя граница - до 80-90 % Сложность задачи (технологическая): приемлемая полнота и точность достигается на больших массивах текстов обычно в рамках коммерческих компаний СПАСИБО ЗА ВНИМАНИЕ!



Похожие презентации
Mypresentation.ru
Загрузить презентацию