Агрегация контента и его обработка. Сборник статей по архитектуре распределенных систем и программной инженерии. Денис Александрович Кирьянов

Чтение книги онлайн.

Читать онлайн книгу Агрегация контента и его обработка. Сборник статей по архитектуре распределенных систем и программной инженерии - Денис Александрович Кирьянов страница 7

Агрегация контента и его обработка. Сборник статей по архитектуре распределенных систем и программной инженерии - Денис Александрович Кирьянов

Скачать книгу

система, работающая при помощи нейронной сети. Данная система является гибридной [89] и имеет довольно сложную архитектуру, состоящую из трех подсистем, и помимо экспертной системы использует различные технологии, такие как нечеткая логика [90], обработка изображений, методы мягких вычислений (soft computing) и т. д.

      6.4. Экспертная система классификации скачков напряжения

      В работе [91] представлена экспертная система классификации скачков напряжения в энергосистеме. Экспертная система обрабатывает четыре класса событий, которые могут быть вызваны неисправностями трансформатора или индукционного двигателя, а также скачкообразными изменениями напряжения. Задача классификации основана на характеристиках данных событий, связанных с временным снижением напряжения. База знаний системы содержит признаки, однозначно характеризующие события в наборе правил.

      6.5. Экспертная система классификации твитов

      Экспертные системы часто используются в задаче классификации контента. Например, в исследовании [92] представлена MISNIS – экспертная система, которая автоматически классифицирует твиты по набору интересующих тем. Система использует метод Twitter Topic Fuzzy Fingerprints [93] и сравнивает нечеткие отпечатки отдельного текста с отпечатками потенциального автора. Чтобы определить, относится ли твит к определенной теме, система создает отпечаток темы и отпечаток трендовых тем.

      6.6. Экспертная система категоризации многоязычных документов

      Проект GENIE, описанный в статье [94], представляет собой многоязычную экспертную систему категоризации текста на основе правил, которая состоит из пяти этапов: предварительная обработка, классификация на основе атрибутов, статистическая классификация, географическая классификация и онтологическая классификация.

      Процесс категоризации начинается с этапа предварительной обработки, который включает в себя лемматизацию [95], распознавание именованных сущностей (named entity recognition, NER) [96] и извлечение ключевых слов [97]. Затем выполняется классификация на основе атрибутов, основанная на тезаурусе (thesaurus), то есть списке слов и наборе их отношений. Следующим этапом является статистическая классификация, где методы машинного обучения используются для поиска закономерностей, соответствующих статистической информации, и получения меток, соответствующих общим темам документа.

      После система применяет географический классификатор для определения возможных географических ссылок, включенных в текст. Географический классификатор использует специальный компонент – географический справочник (gazetteer) [98], который представляет систематизированную информацию о местах и географических названиях.

      На конечном этапе осуществляется онтологическая классификация с использованием лексической базы данных, которая содержит наборы синонимов и семантических отношений между ними.

      Подобный подход к построению архитектуры модуля классификации используется

Скачать книгу