Агрегация контента и его обработка. Сборник статей по архитектуре распределенных систем и программной инженерии. Денис Александрович Кирьянов
Чтение книги онлайн.
Читать онлайн книгу Агрегация контента и его обработка. Сборник статей по архитектуре распределенных систем и программной инженерии - Денис Александрович Кирьянов страница 7
6.4. Экспертная система классификации скачков напряжения
В работе [91] представлена экспертная система классификации скачков напряжения в энергосистеме. Экспертная система обрабатывает четыре класса событий, которые могут быть вызваны неисправностями трансформатора или индукционного двигателя, а также скачкообразными изменениями напряжения. Задача классификации основана на характеристиках данных событий, связанных с временным снижением напряжения. База знаний системы содержит признаки, однозначно характеризующие события в наборе правил.
6.5. Экспертная система классификации твитов
Экспертные системы часто используются в задаче классификации контента. Например, в исследовании [92] представлена MISNIS – экспертная система, которая автоматически классифицирует твиты по набору интересующих тем. Система использует метод Twitter Topic Fuzzy Fingerprints [93] и сравнивает нечеткие отпечатки отдельного текста с отпечатками потенциального автора. Чтобы определить, относится ли твит к определенной теме, система создает отпечаток темы и отпечаток трендовых тем.
6.6. Экспертная система категоризации многоязычных документов
Проект GENIE, описанный в статье [94], представляет собой многоязычную экспертную систему категоризации текста на основе правил, которая состоит из пяти этапов: предварительная обработка, классификация на основе атрибутов, статистическая классификация, географическая классификация и онтологическая классификация.
Процесс категоризации начинается с этапа предварительной обработки, который включает в себя лемматизацию [95], распознавание именованных сущностей (named entity recognition, NER) [96] и извлечение ключевых слов [97]. Затем выполняется классификация на основе атрибутов, основанная на тезаурусе (thesaurus), то есть списке слов и наборе их отношений. Следующим этапом является статистическая классификация, где методы машинного обучения используются для поиска закономерностей, соответствующих статистической информации, и получения меток, соответствующих общим темам документа.
После система применяет географический классификатор для определения возможных географических ссылок, включенных в текст. Географический классификатор использует специальный компонент – географический справочник (gazetteer) [98], который представляет систематизированную информацию о местах и географических названиях.
На конечном этапе осуществляется онтологическая классификация с использованием лексической базы данных, которая содержит наборы синонимов и семантических отношений между ними.
Подобный подход к построению архитектуры модуля классификации используется