Обработка неструктурированных текстовых данных
В следующих упражнениях вам будет предложено по шагам обработать набор текстов:
Провести фильтрацию текстов.
Сгруппировать тексты по тематикам.
Определить динамику в каждой из полученных тематик.
В рамках заданий вы будете работать со следующим корпусом комментариев из социальной сети об услугах банка:
Номер комментария Дата Содержание
1 09.09.21 Была поражена удобством приложения. Очень много новой и полезной функциональности было добавлено при последнем обновлении.
2 13.09.21 У банка прекрасное мобильное приложение. Пользуюсь каждый день!
3 21.10.21 Вот это, я понимаю, приложение. Никогда таких раньше не видел...
4 27.10.21 Банк, говорите?
5 08.11.21 Скорость обслуживания в отделениях банка оставляет желать лучшего...
6 12.02.22 Хочу спросить вас.
7 01.05.22 Удобное приложение, но без «вау».
8 28.07.22 Кажется, в последнее время что-то изменилось с обслуживанием в отделениях. Как будто бы сотрудников стало больше что ли!
9 14.08.22 Хороший сервис в отделениях банка.
10 15.12.23 Почему приложение так давно не обновлялось?!
Вопросы-ответы по тексту
Произведите фильтрацию данного набора комментариев и уберите те, которые являются случайными и не несут содержательной информации.
В качестве ответа отметьте номера комментариев, которые должны быть исключены из рассмотрения.
1
2
3
4
5
6
7
8
9
10
Ответить
Вопросы-ответы по задаче
В комментариях, которые остались в результате фильтрации, есть две ярко выраженные темы: «мобильное приложение» и «обслуживание в отделениях банка».
Произведите группировку комментариев согласно этим темам.
В качестве ответа сопоставьте номер каждого комментария теме, к которой он относится.
Номера комментариев, которые не прошли фильтрацию, оставьте без сопоставления.
1
2
3
4
5
6
7
8
9
10
Мобильное приложение
Обслуживание в отделениях банка
Ответить
Вопросы-ответы по задаче
Теперь изучите динамику полученных тем.
В качестве ответа сопоставьте каждой теме характеристики её динамики.
Мобильное приложение
Обслуживание в отделениях банка
Наблюдается рост числа упоминаний темы
Наблюдается спад числа упоминаний темы
Комментарии по теме со временем стали более позитивными
Комментарии по теме со временем стали более негативными
Ответить
Ниже последовательное решение задачи по вашим требованиям.
1) Фильтрация (убираем случайные/нерелевантные комментарии)
- Исключить: 4, 6
- Обоснование: 4 — короткое неполное выражение «Банк, говорите?» без связи с темами приложения или обслуживания; 6 — «Хочу спросить вас.» без содержания, относящегося к темам обслуживания или приложения.
Итого после фильтрации остаются комментарии с номерами: 1, 2, 3, 5, 7, 8, 9, 10
2) Группировка по темам
В рамках выделенных тем две ярко выраженные:
- Мобильное приложение: 1, 2, 3, 7, 10
- Обслуживание в отделениях банка: 5, 8, 9
Примечание: номера 4 и 6 НЕ прошли фильтрацию и оставлены без сопоставления.
3) Динамика тем (характеристики)
Мобильное приложение
- Частотная динамика:
- В период 09.2021 — 10.2021 зафиксировано три упоминания этой темы (9.09.21; 13.09.21; 21.10.21).
- Далее упоминания встречаются реже: 01.05.2022 и 15.12.2023 — по одному сообщению в каждом из периодов.
- В сумме по всему промежутку упоминаний больше, чем в начальном блоке, но без устойчивой монотонной тенденции роста: есть локальные пики и затем редкие повторные упоминания.
- Итого по динамике частоты — наблюдается рост общего числа упоминаний за весь период (с учётом начального пика и последующих единичных всплесков), но без устойчивой линейной тенденции роста.
- Сентимент по времени:
- Большинство сообщений о приложении положительные (1, 2, 3, 7 — явное благорасположение к функциональности/удобству), одно негативное сообщение — 10 (указание на задержки обновления).
- Следовательно, по времени общая картина остаётся преимущественно позитивной, однако присутствует один негативный сигнал в конце периода (деградация восприятия обновлений).
Обслуживание в отделениях банка
- Частотная динамика:
- 11.2021: комментарий 5 о скорости обслуживания — 1 упоминание.
- 07.2022: комментарий 8 — 2-е упоминание.
- 08.2022: комментарий 9 — 3-е упоминание.
- Динамика частоты демонстрирует рост числа упоминаний в период с ноября 2021 по август 2022 года (1 → 2 → 3).
- Сентимент по времени:
- 11.2021 (комментарий 5): негативное сообщение о скорости обслуживания.
- 07.2022 (комментарий 8): нейтрально-поиск к улучшениям, звучит как возможное улучшение.
- 08.2022 (комментарий 9): позитивное утверждение о хорошем сервисе.
- Следовательно, по времени наблюдается тенденция к росту позитивности в теме обслуживания в отделениях банка.
Итого по каждому пункту ответа:
- Исключенные из рассмотрения номера комментариев: 4, 6
- Группировка по темам:
- Мобильное приложение: 1, 2, 3, 7, 10
- Обслуживание в отделениях банка: 5, 8, 9
- Динамика тем (характеристики):
- Мобильное приложение
- Частотная динамика: Наблюдается рост числа упоминаний темы
- Сентимент: Комментарии по теме со временем стали более негативными
- Обслуживание в отделениях банка
- Частотная динамика: Наблюдается рост числа упоминаний темы
- Сентимент: Комментарии по теме со временем стали более позитивными
Если нужно, могу расширить анализ: процентное соотношение позитивных/негативных комментариев по каждой теме, построить график времени или привести краткие резюме на конкретных датах.