🗊Презентация Оптимизация тематического моделирования за счет изменения функции плотности в алгоритме семплирования Гиббса

Категория: Математика
Нажмите для полного просмотра!
Оптимизация тематического моделирования за счет изменения функции плотности в алгоритме семплирования Гиббса, слайд №1Оптимизация тематического моделирования за счет изменения функции плотности в алгоритме семплирования Гиббса, слайд №2Оптимизация тематического моделирования за счет изменения функции плотности в алгоритме семплирования Гиббса, слайд №3Оптимизация тематического моделирования за счет изменения функции плотности в алгоритме семплирования Гиббса, слайд №4Оптимизация тематического моделирования за счет изменения функции плотности в алгоритме семплирования Гиббса, слайд №5Оптимизация тематического моделирования за счет изменения функции плотности в алгоритме семплирования Гиббса, слайд №6Оптимизация тематического моделирования за счет изменения функции плотности в алгоритме семплирования Гиббса, слайд №7Оптимизация тематического моделирования за счет изменения функции плотности в алгоритме семплирования Гиббса, слайд №8Оптимизация тематического моделирования за счет изменения функции плотности в алгоритме семплирования Гиббса, слайд №9

Вы можете ознакомиться и скачать презентацию на тему Оптимизация тематического моделирования за счет изменения функции плотности в алгоритме семплирования Гиббса. Доклад-сообщение содержит 9 слайдов. Презентации для любого класса можно скачать бесплатно. Если материал и наш сайт презентаций Mypresentation Вам понравились – поделитесь им с друзьями с помощью социальных кнопок и добавьте в закладки в своем браузере.

Слайды и текст этой презентации


Слайд 1





Оптимизация тематического моделирования за счет изменения функции плотности в алгоритме семплирования Гиббса


Лаборатория интернет исследований
научный руководитель:
канд. физ.-мат. наук, доцент Департамента прикладной математики и бизнес-информатики Санкт-Петербургской школы экономики и менеджмента НИУ ВШЭ 
Кольцов Сергей Николаевич
студент:
Агальцова Татьяна Александровна
Описание слайда:
Оптимизация тематического моделирования за счет изменения функции плотности в алгоритме семплирования Гиббса Лаборатория интернет исследований научный руководитель: канд. физ.-мат. наук, доцент Департамента прикладной математики и бизнес-информатики Санкт-Петербургской школы экономики и менеджмента НИУ ВШЭ Кольцов Сергей Николаевич студент: Агальцова Татьяна Александровна

Слайд 2





Тематическое моделирование
Тематическое моделирование - это способ построения модели коллекции текстовых документов, которая определяет, к каким темам относится каждый из документов. 
Тематическая модель (topic model) коллекции текстовых документов определяет, к каким темам относится каждый документ и какие слова (термины) образуют каждую тему.
Отвечает на вопросы:
1.Как выявлять смысл или тематику документов по их содержимому?
 2. Как осуществлять классификацию документов на основе этих скрытых тематических закономерностей?
Описание слайда:
Тематическое моделирование Тематическое моделирование - это способ построения модели коллекции текстовых документов, которая определяет, к каким темам относится каждый из документов. Тематическая модель (topic model) коллекции текстовых документов определяет, к каким темам относится каждый документ и какие слова (термины) образуют каждую тему. Отвечает на вопросы: 1.Как выявлять смысл или тематику документов по их содержимому? 2. Как осуществлять классификацию документов на основе этих скрытых тематических закономерностей?

Слайд 3





Тематическое моделирование
Описание слайда:
Тематическое моделирование

Слайд 4





Тематическое моделирование
(Latent Dirichlet allocation)

Основное предположение тематической модели Latent Dirichlet Allocation
состоит в том, что каждый документ с некоторой вероятностью может
принадлежать множеству тематик. Тема - это совокупность слов, где каждое
слово имеет некоторую вероятность принадлежности к данной тематике.
Формально тема определяется как дискретное (мультиномиальное)
вероятностное распределение в пространстве слов заданного словаря.
Тематическим моделированием называется решение задачи, обратной
классификации . Каждый документ в корпусе текстов рассматривается как
наблюдаемая случайная независимая выборка слов (мешок слов), порождённая
некоторым, скрытым (латентным) множеством тем. По этим данным требуется
восстановить вероятностные распределения всех тем в корпусе и определить,
каким именно подмножеством тем порождён каждый документ.
Тематическое моделирование основано на применении формулы Байеса, в
которой распределение слов и тем выражено в виде смеси плотностей
распределений слов и документов.
Описание слайда:
Тематическое моделирование (Latent Dirichlet allocation) Основное предположение тематической модели Latent Dirichlet Allocation состоит в том, что каждый документ с некоторой вероятностью может принадлежать множеству тематик. Тема - это совокупность слов, где каждое слово имеет некоторую вероятность принадлежности к данной тематике. Формально тема определяется как дискретное (мультиномиальное) вероятностное распределение в пространстве слов заданного словаря. Тематическим моделированием называется решение задачи, обратной классификации . Каждый документ в корпусе текстов рассматривается как наблюдаемая случайная независимая выборка слов (мешок слов), порождённая некоторым, скрытым (латентным) множеством тем. По этим данным требуется восстановить вероятностные распределения всех тем в корпусе и определить, каким именно подмножеством тем порождён каждый документ. Тематическое моделирование основано на применении формулы Байеса, в которой распределение слов и тем выражено в виде смеси плотностей распределений слов и документов.

Слайд 5





Тематическое моделирование
Описание слайда:
Тематическое моделирование

Слайд 6





Тематическое моделирование
Задача классификации заключается в расчете (оценке) апостериорной информации на основании априорной информации. Такая оценка может быть реализована при помощи формулы Байеса.
               - Апостериорная вероятность
               - Априорная вероятность
Однако существует проблема оценивания априорной величины
Описание слайда:
Тематическое моделирование Задача классификации заключается в расчете (оценке) апостериорной информации на основании априорной информации. Такая оценка может быть реализована при помощи формулы Байеса. - Апостериорная вероятность - Априорная вероятность Однако существует проблема оценивания априорной величины

Слайд 7





Задача восстановления априорного распределения p(x,y)

Оценка функции p(x,y) может быть реализован при помощи трех методов.
1. Непараметрическое восстановление плотности основано на локальной
аппроксимации плотности p(x) в окрестности классифицируемого объекта
x ∈ X. Пример, Алгоритм Парзена-Розенблатта (метод парзеновского
окна).
2. Параметрическое восстановление плотности основано на предположении,
что плотность распределения известна с точностью до параметра, p(x,y) =ϕ(x; θ), где ϕ фиксированная функция. 
3. Восстановление смеси плотностей. Если функцию плотности p(x,y) не
удаётся смоделировать параметрическим распределением, можно
попытаться описать её смесью нескольких распределений:
Собственно именно третий метод является основой тематического моделирования.
Описание слайда:
Задача восстановления априорного распределения p(x,y) Оценка функции p(x,y) может быть реализован при помощи трех методов. 1. Непараметрическое восстановление плотности основано на локальной аппроксимации плотности p(x) в окрестности классифицируемого объекта x ∈ X. Пример, Алгоритм Парзена-Розенблатта (метод парзеновского окна). 2. Параметрическое восстановление плотности основано на предположении, что плотность распределения известна с точностью до параметра, p(x,y) =ϕ(x; θ), где ϕ фиксированная функция. 3. Восстановление смеси плотностей. Если функцию плотности p(x,y) не удаётся смоделировать параметрическим распределением, можно попытаться описать её смесью нескольких распределений: Собственно именно третий метод является основой тематического моделирования.

Слайд 8





Семплирование по Гиббсу
Описание слайда:
Семплирование по Гиббсу

Слайд 9





Цели и задачи
Цель:
Оценить работу тематического моделирования при изменении структуры  функции плотности, переходя от функции Дирихле к полетам Леви в алгоритме семплирования Гиббса.
Задачи:
Вычислить и запрограммировать полеты Леви.
Анализ полученных данных в topic maner.
Сравнение результатов, полученных из данной модели с результатами простой модели LDA.
Выявить преимущества и недостатки исследованной модели.
Описание слайда:
Цели и задачи Цель: Оценить работу тематического моделирования при изменении структуры функции плотности, переходя от функции Дирихле к полетам Леви в алгоритме семплирования Гиббса. Задачи: Вычислить и запрограммировать полеты Леви. Анализ полученных данных в topic maner. Сравнение результатов, полученных из данной модели с результатами простой модели LDA. Выявить преимущества и недостатки исследованной модели.



Похожие презентации
Mypresentation.ru
Загрузить презентацию