🗊Определение новизны информации в новостном кластере

Категория: Новости
Нажмите для полного просмотра!
Определение новизны информации в новостном кластере, слайд №1Определение новизны информации в новостном кластере, слайд №2Определение новизны информации в новостном кластере, слайд №3Определение новизны информации в новостном кластере, слайд №4Определение новизны информации в новостном кластере, слайд №5Определение новизны информации в новостном кластере, слайд №6Определение новизны информации в новостном кластере, слайд №7Определение новизны информации в новостном кластере, слайд №8Определение новизны информации в новостном кластере, слайд №9Определение новизны информации в новостном кластере, слайд №10Определение новизны информации в новостном кластере, слайд №11Определение новизны информации в новостном кластере, слайд №12Определение новизны информации в новостном кластере, слайд №13Определение новизны информации в новостном кластере, слайд №14Определение новизны информации в новостном кластере, слайд №15Определение новизны информации в новостном кластере, слайд №16Определение новизны информации в новостном кластере, слайд №17Определение новизны информации в новостном кластере, слайд №18Определение новизны информации в новостном кластере, слайд №19Определение новизны информации в новостном кластере, слайд №20Определение новизны информации в новостном кластере, слайд №21Определение новизны информации в новостном кластере, слайд №22Определение новизны информации в новостном кластере, слайд №23Определение новизны информации в новостном кластере, слайд №24Определение новизны информации в новостном кластере, слайд №25Определение новизны информации в новостном кластере, слайд №26Определение новизны информации в новостном кластере, слайд №27Определение новизны информации в новостном кластере, слайд №28

Содержание

Вы можете ознакомиться и скачать Определение новизны информации в новостном кластере. Презентация содержит 28 слайдов. Презентации для любого класса можно скачать бесплатно. Если материал и наш сайт презентаций Вам понравились – поделитесь им с друзьями с помощью социальных кнопок и добавьте в закладки в своем браузере.

Слайды и текст этой презентации


Слайд 1





Определение новизны информации в новостном кластере
Описание слайда:
Определение новизны информации в новостном кластере

Слайд 2





Определение новизны информации 
Определение новизны информации – важная и нерешённая задача.
Проблема в общем виде:
поток информации и пользователь
в некоторый момент времени есть известная информация (известная пользователю)
Задача: извлечение новой информации из потока и предъявление пользователю
Описание слайда:
Определение новизны информации Определение новизны информации – важная и нерешённая задача. Проблема в общем виде: поток информации и пользователь в некоторый момент времени есть известная информация (известная пользователю) Задача: извлечение новой информации из потока и предъявление пользователю

Слайд 3





Конкретная задача
Новостной кластер – набор документов по поводу некоторого события.
Аннотация – краткое описание события, составленное из предложений документов кластера.
В некоторый момент времени в кластер приходит ещё N документов.
Вопросы:
Что нового произошло?
Как должна измениться аннотация?
 Как новое отобразить в аннотации?
 Какие предложения аннотации должны быть заменены?
Описание слайда:
Конкретная задача Новостной кластер – набор документов по поводу некоторого события. Аннотация – краткое описание события, составленное из предложений документов кластера. В некоторый момент времени в кластер приходит ещё N документов. Вопросы: Что нового произошло? Как должна измениться аннотация? Как новое отобразить в аннотации? Какие предложения аннотации должны быть заменены?

Слайд 4





Конференция TREC
Создана при поддержке Национального Института Стандартов и Технологий (NIST) и Департамента Защиты США. 
Проект был запущен в 1992 как часть программы TIPSTER Text. 
Назначение: поддержка исследований в области извлечения информации при помощи обеспечения инфраструктуры, необходимой для крупномасштабной оценки методов извлечения информации.
Описание слайда:
Конференция TREC Создана при поддержке Национального Института Стандартов и Технологий (NIST) и Департамента Защиты США. Проект был запущен в 1992 как часть программы TIPSTER Text. Назначение: поддержка исследований в области извлечения информации при помощи обеспечения инфраструктуры, необходимой для крупномасштабной оценки методов извлечения информации.

Слайд 5





Постановка задачи «Определение новизны» в TREC
Данная задача разрабатывалась в TREC в 2002 – 2004 годах

Постановка задачи: Дано упорядоченное множество документов, разделённое на предложения, и краткое описание(топик) к данному множеству. 

Задача: Найти важные(релевантные) и новые предложения.
Описание слайда:
Постановка задачи «Определение новизны» в TREC Данная задача разрабатывалась в TREC в 2002 – 2004 годах Постановка задачи: Дано упорядоченное множество документов, разделённое на предложения, и краткое описание(топик) к данному множеству. Задача: Найти важные(релевантные) и новые предложения.

Слайд 6





Постановка задачи-1
То есть по сути задача делится на две части:
Обнаружение значимых (важных) предложений.
(identifying relevant sentences)
2. Выявление из этих значимых предложений, предложений несущих новую информацию.
(novelty detection)
Описание слайда:
Постановка задачи-1 То есть по сути задача делится на две части: Обнаружение значимых (важных) предложений. (identifying relevant sentences) 2. Выявление из этих значимых предложений, предложений несущих новую информацию. (novelty detection)

Слайд 7





Постановка задачи-2
4 дисциплины:
Task 1. Дан набор документов и топик, определить все релевантные и новые предложения.
Task 2. Даны релевантные предложения во всех документах, определить все новые предложения.
Task 3. Даны релевантные и новые предложения в первых 5 документах, найти все релевантные и новые предложения в остальных документах.
Task 4. Даны релевантные предложения во всех документах и новые предложения в первых пяти, найти новые предложения в остальных документах.
Описание слайда:
Постановка задачи-2 4 дисциплины: Task 1. Дан набор документов и топик, определить все релевантные и новые предложения. Task 2. Даны релевантные предложения во всех документах, определить все новые предложения. Task 3. Даны релевантные и новые предложения в первых 5 документах, найти все релевантные и новые предложения в остальных документах. Task 4. Даны релевантные предложения во всех документах и новые предложения в первых пяти, найти новые предложения в остальных документах.

Слайд 8





Входные данные-1
AQUAINT collection.  
New York  Times  News Service  (Jun 1998 – Sep 2000), 
 AP  (also  Jun  1998 – Sep 2000), 
Xinhua  News Service (Jan  1996 – Sep 2000).

Данная коллекция содержит сильную избыточность информации, и таким образом мы имеем меньше новой информации, повышая реализм задачи.
Описание слайда:
Входные данные-1 AQUAINT collection. New York Times News Service (Jun 1998 – Sep 2000), AP (also Jun 1998 – Sep 2000), Xinhua News Service (Jan 1996 – Sep 2000). Данная коллекция содержит сильную избыточность информации, и таким образом мы имеем меньше новой информации, повышая реализм задачи.

Слайд 9





Входные данные-2
Специалисты NIST сделали 50 кратких описаний новостей из данной коллекции.
Новости были 2-ух типов: События (events) и Мнения (opinions).
В описании топика содержался тег с его типом (участники заранее знали тип топика).
Документы были хронологически упорядочены и разбиты на предложения.
Предложения объединялись вместе, представляя собой единое множество документов к топику.
Описание слайда:
Входные данные-2 Специалисты NIST сделали 50 кратких описаний новостей из данной коллекции. Новости были 2-ух типов: События (events) и Мнения (opinions). В описании топика содержался тег с его типом (участники заранее знали тип топика). Документы были хронологически упорядочены и разбиты на предложения. Предложения объединялись вместе, представляя собой единое множество документов к топику.

Слайд 10





Оценка результатов-1
Каждый топик был проанализирован двумя независимыми экспертами из NIST.
Эксперты из набора документов выбрали релевантные предложения, и из этих предложений выбрали те, которые являются новыми.
Некоторое преимущество экспертов перед системами, ввиду присутствия нерелевантных документов.
Описание слайда:
Оценка результатов-1 Каждый топик был проанализирован двумя независимыми экспертами из NIST. Эксперты из набора документов выбрали релевантные предложения, и из этих предложений выбрали те, которые являются новыми. Некоторое преимущество экспертов перед системами, ввиду присутствия нерелевантных документов.

Слайд 11





Оценка результатов-2
Описание слайда:
Оценка результатов-2

Слайд 12





Оценка результатов-3
Введём следующие обозначения:

M – число «правильных» предложений, то есть предложений, выбранных обоими экспертами и системой участником. 
A – число предложений выбранных экспертами.
S – число предложений выбранных системой.
Описание слайда:
Оценка результатов-3 Введём следующие обозначения: M – число «правильных» предложений, то есть предложений, выбранных обоими экспертами и системой участником. A – число предложений выбранных экспертами. S – число предложений выбранных системой.

Слайд 13





Оценка результатов-4
Тогда:
R = M / A  – эффективность поиска. (Recall)
P = M / S  – точность поиска. (Precision)
Проблемы:
R = 1 ,  P -> 0
P = 1 ,  R -> 0
=> Среднее значение R и P не является объективным критерием.
Описание слайда:
Оценка результатов-4 Тогда: R = M / A – эффективность поиска. (Recall) P = M / S – точность поиска. (Precision) Проблемы: R = 1 , P -> 0 P = 1 , R -> 0 => Среднее значение R и P не является объективным критерием.

Слайд 14





Оценка результатов-5
Вариант решения: F-мера (F-measure)
Общий вид:
Описание слайда:
Оценка результатов-5 Вариант решения: F-мера (F-measure) Общий вид:

Слайд 15





Оценка результатов-6
Описание слайда:
Оценка результатов-6

Слайд 16





Участники
Описание слайда:
Участники

Слайд 17





Результаты - 1
В целом не очень высокие абсолютные результаты.
Среднее значение F – меры:
0.36 - 0.4 для задач обнаружения релевантных предложений.
0.18 - 0.21 для задач обнаружения новой информации.   
Топики типа «Событие» оказались заметно проще топиков типа «Мнение».
Описание слайда:
Результаты - 1 В целом не очень высокие абсолютные результаты. Среднее значение F – меры: 0.36 - 0.4 для задач обнаружения релевантных предложений. 0.18 - 0.21 для задач обнаружения новой информации. Топики типа «Событие» оказались заметно проще топиков типа «Мнение».

Слайд 18





Результаты - 2
Описание слайда:
Результаты - 2

Слайд 19





Результаты - 3
Описание слайда:
Результаты - 3

Слайд 20





Результаты - 4
Описание слайда:
Результаты - 4

Слайд 21





Анализ результатов TREC
	Task 2. Даны релевантные предложения во всех документах, определить все новые предложения.
Данная дисциплина ближе всего нашей задаче. 
Колумбийский университет и система SumSeg:
Основное направление – извлечение новой информации.
Большое количество новых идей и подходов к решению задачи.
Высокие результаты:
Описание слайда:
Анализ результатов TREC Task 2. Даны релевантные предложения во всех документах, определить все новые предложения. Данная дисциплина ближе всего нашей задаче. Колумбийский университет и система SumSeg: Основное направление – извлечение новой информации. Большое количество новых идей и подходов к решению задачи. Высокие результаты:

Слайд 22


Определение новизны информации в новостном кластере, слайд №22
Описание слайда:

Слайд 23





Особенности и основные идеи системы SumSeg-1
Новая информация может появляться в сегментах больше или меньше одного предложения.
Уход от прямого сравнения предложений на «похожесть».
Новое слово – новая информация.
Классификация предложений (работа с предложением в его контексте)
Тщательная работа с местоимениями.
Описание слайда:
Особенности и основные идеи системы SumSeg-1 Новая информация может появляться в сегментах больше или меньше одного предложения. Уход от прямого сравнения предложений на «похожесть». Новое слово – новая информация. Классификация предложений (работа с предложением в его контексте) Тщательная работа с местоимениями.

Слайд 24





Особенности и основные идеи системы SumSeg-2
Большое количество различных весов и порогов.
База данных частотных характеристик слов.
Анализ контекстных характеристик слов и корректировка весов с их учётом.
Машинное обучение (автоматический подбор оптимальных коэффициентов, порогов и весов) 
Векторно - пространственная модель представления информации.
Описание слайда:
Особенности и основные идеи системы SumSeg-2 Большое количество различных весов и порогов. База данных частотных характеристик слов. Анализ контекстных характеристик слов и корректировка весов с их учётом. Машинное обучение (автоматический подбор оптимальных коэффициентов, порогов и весов) Векторно - пространственная модель представления информации.

Слайд 25





Векторно-пространственная модель-1
Алгебраическая модель представления текстовых документов (в общем случае любых объектов) в виде вектора идентификаторов.
Каждое пространство соответствует отдельному терму. Если терм встретился в документе, то его значение в векторе не равно нулю. 
Существует много методов по вычислению весов термов в векторе. 
Сравнения близости векторов по косинусу угла между ними:
Описание слайда:
Векторно-пространственная модель-1 Алгебраическая модель представления текстовых документов (в общем случае любых объектов) в виде вектора идентификаторов. Каждое пространство соответствует отдельному терму. Если терм встретился в документе, то его значение в векторе не равно нулю. Существует много методов по вычислению весов термов в векторе. Сравнения близости векторов по косинусу угла между ними:

Слайд 26





Векторно-пространственная модель-2
Пример: Пусть есть два предложения. «Мама мыла раму» и «Папа мыл автомобиль». Сравним предложения на «похожесть» при помощи ВПМ.
«Мама мыла раму»
«Папа мыл автомобиль»
Описание слайда:
Векторно-пространственная модель-2 Пример: Пусть есть два предложения. «Мама мыла раму» и «Папа мыл автомобиль». Сравним предложения на «похожесть» при помощи ВПМ. «Мама мыла раму» «Папа мыл автомобиль»

Слайд 27





Направление дальнейшей работы
Первоочередная задача – реализация векторно - пространственной модели и попытка её практического применения для обнаружения новой информации.
Анализ весов и порогов, подбор оптимальных вариантов.
Далее – анализ и реализация существующих и возможно создание новых методов и алгоритмов совершенствующих поиск (работа с различными частями речи, частотными характеристиками и т.д.)
Описание слайда:
Направление дальнейшей работы Первоочередная задача – реализация векторно - пространственной модели и попытка её практического применения для обнаружения новой информации. Анализ весов и порогов, подбор оптимальных вариантов. Далее – анализ и реализация существующих и возможно создание новых методов и алгоритмов совершенствующих поиск (работа с различными частями речи, частотными характеристиками и т.д.)

Слайд 28





The End
The End
Описание слайда:
The End The End



Похожие презентации
Mypresentation.ru
Загрузить презентацию