Агрегация контента и его обработка. Сборник статей по архитектуре распределенных систем и программной инженерии. Денис Александрович Кирьянов
Чтение книги онлайн.

Читать онлайн книгу Агрегация контента и его обработка. Сборник статей по архитектуре распределенных систем и программной инженерии - Денис Александрович Кирьянов страница

СКАЧАТЬ

      Термины и определения

      В данной книге применяются следующие термины с соответствующими определениями:

      Лемматизация (англ. lemmatization) – процесс приведения словоформы к ее словарной форме.

      Партиционирование (англ. partitioning) – разделение больших таблиц (исходя из количества записей) в базе данных на маленькие.

      Стемминг (англ. stemming) – процесс нахождения основы слова для заданного исходного слова.

      Суммаризация (англ. summarization) – процесс выделения краткого содержимого из текста.

      Токенизация (англ. tokenization) – процесс разделения текста на составляющие.

      Naive Estimator – наивная оценка.

      Twitter Topic Fuzzy Fingerprints – нечеткие отпечатки на основе тем сообщений в сети «Twitter».

      Перечень сокращений и обозначений

      В данной книге применяются следующие сокращения и обозначения:

      БД – база данных.

      API, АПИ (англ. Application Programming Interface) – аппаратно-программный интерфейс.

      DNS (англ. Domain Name System) – система доменных имен.

      FOAF (англ. Friend of a Friend) – спецификация для описания пользователя в социальных сетях.

      HTML (англ. Hyper Text Markup Language) – язык гипертекстовой разметки.

      JSON (англ. JavaScript Object Notation) – текстовый формат обмена данными, основанный на языке программирования JavaScript.

      MNA (англ. Matrix-based News Analysis) – метод матричного анализа новостей.

      MLE (англ. Maximum Likelihood Estimator) – подход оценки максимального правдоподобия.

      MME (англ. Moment Matching Estimator) – метод определения вероятности изменения агрегированных данных.

      NLP (англ. Natural Language Processing) – обработка естественного языка.

      REST (англ. Representational State Transfer) – архитектурный стиль взаимодействия компонентов распределенного приложения в сети.

      RSS (англ. Rich Site Summary) – обогащенная сводка сайта.

      SVM (англ. Support Vector Machine) – метод опорных векторов.

      TF-IDF (англ. Term Frequency – Inverse Document Frequency) – статистическая мера, используемая для оценки важности слова в контексте документа.

      URL (англ. Uniform Resource Locator) – унифицированный указатель ресурса.

      XML (англ. Extensible Markup Language) – расширяемый язык разметки.

      YML (англ. Yandex Market Language) – стандарт передачи данных маркетплейса компании «Яндекс».

      Предисловие

      В этой книге представлены три мои статьи, объединенные одной темой: агрегация контента и его обработка. Данные статьи первоначально были опубликованы на английском языке в журнале из перечня ВАК «Программные системы и вычислительные методы» и использовались мной в дальнейшем в качестве основы при написании магистерской диссертации по программной инженерии на тему «Исследование методов построения архитектур агрегаторов информации в сети Интернет».

      В текущий сборник вошел перевод этих статей, выполненный мной самим. К каждому из опубликованных переводов добавлена ссылка на оригинал, а также сохранена оригинальная аннотация на русском языке.

      Статьи представлены в полном объеме, без сокращений. Кроме того, в приложении представлены архитектуры систем агрегации информации, дополняющие публикуемые статьи. Для того чтобы сделать иллюстрации читаемыми в черно-белой печати, мне пришлось в статье «Масштабируемая система агрегации, предназначенная для обработки 50 000 RSS-каналов» их переработать, заменив на черно-белые, без потери смысла.

      Материал, представленный в данной книге, может быть полезен для студентов ИТ-специальностей, разработчиков ПО, ИТ-менеджеров, а также для широкого круга людей, интересующихся разработкой систем агрегации информации и построением сложных распределенных информационных систем.

      Гибридная категориальная экспертная система для использования в агрегации контента

      Перевод с английского

      Ссылка на оригинальную статью: Kiryanov D. A. Hybrid categorical expert system for use in content aggregation // Software systems and computational methods. 2021. №4. С. 122. DOI: 10.7256/2454—0714.2021.4.37019

      Аннотация

      Предметом исследования является разработка архитектуры экспертной системы для распределенной системы агрегирования контента, основное предназначение которой – категоризация агрегированных данных.

      Автор подробно рассматривает такие аспекты темы, как преимущества и недостатки экспертных систем, инструментарий разработки экспертных систем, классификация экспертных систем, а также СКАЧАТЬ