🗊 Презентация Информационный поиск Лидия Михайловна Пивоварова Системы понимания текста

Категория: Образование
Нажмите для полного просмотра!
Информационный поиск Лидия Михайловна Пивоварова Системы понимания текста, слайд №1 Информационный поиск Лидия Михайловна Пивоварова Системы понимания текста, слайд №2 Информационный поиск Лидия Михайловна Пивоварова Системы понимания текста, слайд №3 Информационный поиск Лидия Михайловна Пивоварова Системы понимания текста, слайд №4 Информационный поиск Лидия Михайловна Пивоварова Системы понимания текста, слайд №5 Информационный поиск Лидия Михайловна Пивоварова Системы понимания текста, слайд №6 Информационный поиск Лидия Михайловна Пивоварова Системы понимания текста, слайд №7 Информационный поиск Лидия Михайловна Пивоварова Системы понимания текста, слайд №8 Информационный поиск Лидия Михайловна Пивоварова Системы понимания текста, слайд №9 Информационный поиск Лидия Михайловна Пивоварова Системы понимания текста, слайд №10 Информационный поиск Лидия Михайловна Пивоварова Системы понимания текста, слайд №11 Информационный поиск Лидия Михайловна Пивоварова Системы понимания текста, слайд №12 Информационный поиск Лидия Михайловна Пивоварова Системы понимания текста, слайд №13 Информационный поиск Лидия Михайловна Пивоварова Системы понимания текста, слайд №14 Информационный поиск Лидия Михайловна Пивоварова Системы понимания текста, слайд №15 Информационный поиск Лидия Михайловна Пивоварова Системы понимания текста, слайд №16 Информационный поиск Лидия Михайловна Пивоварова Системы понимания текста, слайд №17 Информационный поиск Лидия Михайловна Пивоварова Системы понимания текста, слайд №18 Информационный поиск Лидия Михайловна Пивоварова Системы понимания текста, слайд №19 Информационный поиск Лидия Михайловна Пивоварова Системы понимания текста, слайд №20 Информационный поиск Лидия Михайловна Пивоварова Системы понимания текста, слайд №21

Содержание

Вы можете ознакомиться и скачать презентацию на тему Информационный поиск Лидия Михайловна Пивоварова Системы понимания текста. Доклад-сообщение содержит 21 слайдов. Презентации для любого класса можно скачать бесплатно. Если материал и наш сайт презентаций Mypresentation Вам понравились – поделитесь им с друзьями с помощью социальных кнопок и добавьте в закладки в своем браузере.

Слайды и текст этой презентации


Слайд 1


Информационный поиск Лидия Михайловна Пивоварова Системы понимания текста
Описание слайда:
Информационный поиск Лидия Михайловна Пивоварова Системы понимания текста

Слайд 2


Введение Информационный поиск – поиск в большой коллекции документов, удовлетворяющих потребности пользователя, сформулированной в виде короткого...
Описание слайда:
Введение Информационный поиск – поиск в большой коллекции документов, удовлетворяющих потребности пользователя, сформулированной в виде короткого запроса на естественном языке. Стремительный рост Интернета и успешное развитие информационно-поисковых систем привели к тому, что современный информационный поиск как дисциплина включает широкий круг вопросов, связанных со сбором, хранением, поиском и представлением самой разнообразной информации; сюда же естественным образом относятся многие задачи автоматической обработки текста.

Слайд 3


Содержание Индексирование Модели информационного поиска Оценка информационного поиска Роль автоматической обработки текста в информационном поиске
Описание слайда:
Содержание Индексирование Модели информационного поиска Оценка информационного поиска Роль автоматической обработки текста в информационном поиске

Слайд 4


Индексирование Поиск по большим коллекциям не может осуществляться в режиме реального времени. Для быстрого поиска коллекция предварительно...
Описание слайда:
Индексирование Поиск по большим коллекциям не может осуществляться в режиме реального времени. Для быстрого поиска коллекция предварительно обрабатывается и по ней строится индекс(ы) – набор атрибутов, которые упорядочены в удобном для поиска порядке. В случае полнотекстового поиска такими атрибутами являются слова (словосочетания), приведенные к нормальной форме.

Слайд 5


Структура индекса
Описание слайда:
Структура индекса

Слайд 6


Процесс индексирования Анализ структуры – выделение заголовков, абзацев и т.п.; удаление html-разметки и т.д; Токенизация – разбиение текста на...
Описание слайда:
Процесс индексирования Анализ структуры – выделение заголовков, абзацев и т.п.; удаление html-разметки и т.д; Токенизация – разбиение текста на слова, удаление знаков препинания; Удаление стоп-слов - высокочастотных служебных слов (предлогов, союзов и т.п.); Лемматизация – приведение слов к нормальной (например, словарной) форме; Взвешивание

Слайд 7


Взвешивание В индексе хочется учитывать не только сам факт вхождения слова в документ, но и «вес», т.е. информацию о частоте данного слова в...
Описание слайда:
Взвешивание В индексе хочется учитывать не только сам факт вхождения слова в документ, но и «вес», т.е. информацию о частоте данного слова в документе. Однако саму по себе частоту использовать плохо, поскольку слова распределены в языке неравномерно: некоторые встречаются гораздо чаще других

Слайд 8


Закон Ципфа (Zipf)
Описание слайда:
Закон Ципфа (Zipf)

Слайд 9


Принцип Луна (Luhn)
Описание слайда:
Принцип Луна (Luhn)

Слайд 10


Классический метод взвешивания: tf-idf tf – относительная частота слова в документе idf – обратная документальная частота (чем меньше в коллекции...
Описание слайда:
Классический метод взвешивания: tf-idf tf – относительная частота слова в документе idf – обратная документальная частота (чем меньше в коллекции документов, в которые входит это слово, тем idf больше)

Слайд 11


Содержание Индексирование Модели информационного поиска Оценка информационного поиска Роль автоматической обработки текста в информационном поиске
Описание слайда:
Содержание Индексирование Модели информационного поиска Оценка информационного поиска Роль автоматической обработки текста в информационном поиске

Слайд 12


Булева модель Запрос: булево выражение: Ответ: Плюс: простота; минус: отсутствие ранжирование
Описание слайда:
Булева модель Запрос: булево выражение: Ответ: Плюс: простота; минус: отсутствие ранжирование

Слайд 13


Векторная модель Коллекция из n документов и m различных терминов представляется в виде матрицы mxn, где каждый документ – вектор в m-мерном...
Описание слайда:
Векторная модель Коллекция из n документов и m различных терминов представляется в виде матрицы mxn, где каждый документ – вектор в m-мерном пространстве. Веса терминов можно считать по разному: частота, бинарная частота (входит – не входит), tf*idf… Порядок слов не учитывается (bag of words) Матрица очень большая (большое число различных терминов в гетерогенной коллекции). В матрице много нулей

Слайд 14


Векторная модель Близость запроса к документу: косинусная мера близости
Описание слайда:
Векторная модель Близость запроса к документу: косинусная мера близости

Слайд 15


Вероятностные модели Вероятность вычисляется на основе теоремы Байеса: P(R) – вероятность того, что случайно выбранный из коллекции документ D...
Описание слайда:
Вероятностные модели Вероятность вычисляется на основе теоремы Байеса: P(R) – вероятность того, что случайно выбранный из коллекции документ D является релевантным P(d|R) – вероятность случайного выбора документа d из множества релевантных документов P(d) – вероятность случайного выбора документа d из коллекции D

Слайд 16


Вероятностные модели Решающее правило заключается в максимизации следующей функции:
Описание слайда:
Вероятностные модели Решающее правило заключается в максимизации следующей функции:

Слайд 17


Содержание Индексирование Модели информационного поиска Оценка информационного поиска Роль автоматической обработки текста в информационном поиске
Описание слайда:
Содержание Индексирование Модели информационного поиска Оценка информационного поиска Роль автоматической обработки текста в информационном поиске

Слайд 18


Оценка информационного поиска Полнота (recall): R = tp / (tp+fn) Точность (presicion): P = tp / (tp+fp) F-мера: Аккуратность (accuracy): A = (tp +...
Описание слайда:
Оценка информационного поиска Полнота (recall): R = tp / (tp+fn) Точность (presicion): P = tp / (tp+fp) F-мера: Аккуратность (accuracy): A = (tp + tn) / (tp + tn +fp +fn)

Слайд 19


Содержание Индексирование Модели информационного поиска Оценка информационного поиска Роль автоматической обработки текста в информационном поиске
Описание слайда:
Содержание Индексирование Модели информационного поиска Оценка информационного поиска Роль автоматической обработки текста в информационном поиске

Слайд 20


Уровни анализа языка Морфологический анализ – признан необходимым для информационного поиска, особенно для флективных языков (например, русского);...
Описание слайда:
Уровни анализа языка Морфологический анализ – признан необходимым для информационного поиска, особенно для флективных языков (например, русского); сюда же относится предсказательная морфология (для незнакомых слов), а также исправление опечаток. Синтаксический анализ – уже из самого понятия “bag of words” следует, что синтаксис здесь практически не используется; исключения: линейный порядок слов, именные группы, сборка терминологических словосочетаний. Семантический анализ – в классическом информационном поиске как правило не используется; некоторые элементы лексической семантики применяются при расширении запросов, индексировании документов и составлении каталогов.

Слайд 21


Источники J. Savoy, E. Gaussier Information Retrieval // Handbook of natural language processing, Second Edition Editor(s): Nitin Indurkhya; Fred J....
Описание слайда:
Источники J. Savoy, E. Gaussier Information Retrieval // Handbook of natural language processing, Second Edition Editor(s): Nitin Indurkhya; Fred J. Damerau, Goshen, Connecticut, USA – 2010 – pp. 455-484 К. Д. Маннинг, П. Рагхаван, Х. Шютце Введение в информационный поиск – Вильямс, 2011 А.В. Сычев Информационно-поисковые системы -



Похожие презентации
Mypresentation.ru
Загрузить презентацию