Аналитика больших данных востребованности электронных книг ЭБС Лань

Материал из Электронная энциклопедия ТПУ
Перейти к навигации Перейти к поиску
Компания Управление цифровизации ТПУ
Учебный семестр Осень 2021


Что это за проект?

Компания-партнер (ЭБС Лань) предоставила реальный датасет, содержащий фиксацию событий обращений к электронным книгам различных коллекций. Необходимо провести статистическое исследование данных, фильтрацию, выполнить поиск трендов и закономерностей, поиск аномалий, выявление зависимостей, кластеризацию. В идеале, разработать модель, которая бы могла сообщать компании о каких-то интересных или тревожных событиях, происходящих с книгами. Датасет содержит более 6000 записей, каждая из которых состоит из следующих полей:

 0 => "book_name" – Название книги
 1 => "authors" – Авторы книги
 2 => "log_book_read_pk" – ID записи лога
 3 => "create_time" – Время создания записи лога
 4 => "read_date" – Дата создания записи лога
 5 => "by_ip" – (1)  Доступ с IP ВУЗа или (0) из ЛК Пользователя
 6 => "by_app" – доступ с приложения
 7 => "by_moodle" – доступ через плагин Moodle
 8 => "book__fk" – ID книги
 9 => "publisher__fk" – ID Издательства
 10 => "category__fk" – ID категории
 11 => "subscriber__fk" – ID Подписчика
 12 => "packet_dynamic__fk" – ID пакета
 13 => "session" - GIUD сессии (у старых записай может не быть)
 14 => "page_views" – просмотров страниц
 15 => "user__fk" – ID пользователя


Чему студент научится?

  • Подготовка данных к машинному анализу, фильтрация, интерполяция...
  • Аналитика данных, расчет и получение статистических параметров
  • Выявление трендов, прогнозов, отклонений и аномалий в данных
  • Разработка простых программ на pithon или другом языке


Какие начальные требования?

  • Интерес к датаанализу
  • Желание программировать
  • Понимание алгебры и статистики (ну хоть немного)


Какие будут использоваться технологии?

  • Статистика
  • Python-разработка
  • Python-машинный анализ
  • Презентация результатов
  • Оформление отчета


Критерии оценки

  • На "удовлетворительно" достаточно написать программы, которая бы выявляла основные статистические показатели для всех параметров в данных
  • На "отлично" - программа, которая строит тренды, графики, определяет выпады и аномалии в данных


Подробное описание

Дополнительная информация, ссылки на литературу и веб-ресурсы

  • Книга о статистике "Статистика и котики" [1]
  • Курс по Python-разработке [2]
  • Курс по Python-машинному обучению [3]

Контакты

Фадеев Александр Сергеевич (fas@tpu.ru, +79234579515)