Агрегация контента и его обработка. Сборник статей по архитектуре распределенных систем и программной инженерии. Денис Александрович Кирьянов
Чтение книги онлайн.

Читать онлайн книгу Агрегация контента и его обработка. Сборник статей по архитектуре распределенных систем и программной инженерии - Денис Александрович Кирьянов страница 9

Название: Агрегация контента и его обработка. Сборник статей по архитектуре распределенных систем и программной инженерии

Автор: Денис Александрович Кирьянов

Издательство: Издательские решения

Жанр:

Серия:

isbn: 9785006434196

isbn:

СКАЧАТЬ style="font-size:15px;"> Для выявления спам-поведения предполагается формировать новости, комментарии, блоги и другой агрегированный контент в соответствии с их ключевыми словами, тегами, датой создания, информацией об авторе, внешними ссылками, описаниями изображений и т. п. и представлять эти данные в векторной форме с последующей нейросетевой обработкой, как описано в статье [108].

7.5. Классификатор на основе алгоритма нечетких отпечатков

Весь агрегированный контент должен иметь основные категории, соответствующие общему содержанию смысла. Кроме того, есть более конкретные подкатегории. Например, для категории «Спорт» возможны подкатегории «Хоккей» или «Футбол».

Для этого используется классификатор на основе алгоритма нечетких отпечатков (Fuzzy fingerprints classifier), определяющий основные категории для каждого типа агрегированного контента. Для таких типов контента, как статьи и блоги, которые содержат большое количество текстовых данных, этот модуль применяет алгоритм нечетких отпечатков [109]. В случае комментариев и обзоров, которые менее многословны, используется алгоритм Twitter Topic Fuzzy Fingerprints [93].

Для определения основной категории анализируемого контента создается его отпечаток на основе наборов обучающих данных, содержащих объекты с известной категорией. Созданные отпечатки сохраняются в базу данных PostgreSQL.

Если классификатор получает неоднозначные результаты, в действие вступает механизм, основанный на правилах, который использует логику предметной области, связанную со свойствами анализируемого документа.

7.6. Классификация на основе атрибутов и SVM-классификация

Идея использования классификатора на основе атрибутов была заимствована из конструкции экспертной системы GENIE [94]. Это основанный на правилах процесс, который находит подкатегории обработанных документов в соответствии с их свойствами и на основе основной категории, найденной на предыдущем этапе с помощью классификатора нечетких отпечатков.

На последнем этапе обработки данных используется SVM-классификатор, реализованный на основе метода опорных векторов (support vector machine, SVM) [110, 111]. SVM-классификатор ищет совпадения для извлечения подкатегорий, которые могли быть пропущены классификатором на основе атрибутов.

8. Заключение

Проблема классификации и категоризации контента очень актуальна при реализации систем агрегации контента, обрабатывающих огромные объемы данных. По этой причине была представлена архитектура экспертной системы, которая классифицирует и категоризирует агрегированный контент, используя комбинацию нейронных сетей и подхода, основанного на правилах.

Конец ознакомительного фрагмента.

Текст предоставлен ООО «Литрес».

Прочитайте эту книгу целиком, купив полную легальную версию на Литрес.

Безопасно СКАЧАТЬ