Stepik "Введение в Data Science и машинное обучение", часть 3 - Медиана
Четверг, 25 июля

Stepik «Введение в Data Science и машинное обучение», часть 3

Stepik 1.4. Pandas, Dataframes

— В этом уроке мы продолжим знакомиться с библиотеками анализа данных: Pandas и Numpy

— Для работы с кодом мы будем использовать Jupyter Notebook

— Как установить Jupyter Notebook

— Запускаем на WindowsMac , Ubuntu

Данные, которые мы будем использовать в этом и следующих уроках представлены здесь.

Получим описательные статистики по всему dataframe

Stepik "Введение в Data Science и машинное обучение", часть 3, image #1

Данная команда для всех числовых столбцов нашего dataframe вывела:

  • количество значений
  • среднее значение
  • стандартное отклонение
  • минимальное значение
  • квартили
  • максимальное значение

Просмотр типов данных в нашем dataframe

Stepik "Введение в Data Science и машинное обучение", часть 3, image #2

Просмотр названия столбцов

Stepik "Введение в Data Science и машинное обучение", часть 3, image #3

Просмотр индексации содержимого dataframe

Stepik "Введение в Data Science и машинное обучение", часть 3, image #4

Отбор колонок только нужного типа

df.select_dtypes(include=types_to_include, exclude=types_to_exclude) — возвращает часть dataframe, куда были включены колонки с типами, указанными в include, или исключены колонки с типами, указанными в exclude.

Например, отберем только числовые колонки из нашего dataframe.

Stepik "Введение в Data Science и машинное обучение", часть 3, image #5

Просмотр размера наших данных

При помощи функции shape получим количество строк и колонокили при помощи функции size — мыможем получить одно число в качестве размера dataframe — произведение числа строк и столбцов.

Stepik "Введение в Data Science и машинное обучение", часть 3, image #6

Какие типы файлов может открывать pandas?

Pandas может открывать большое количество различных форматов, но наиболее полезными для нас могут быть следующие из них:

  • excel
  • html
  • json
  • sql
  • sas
  • и т.д.

Доступ к данным

Получим первые 3 переменные (столбца) первых 5 наблюдений (строк)

У каждой колонки есть имя, а кроме того — порядковый номер, начинающийся с нуля. У строк тоже самое — есть порядковый номер, а есть ещё индексы (о них поговорим дальше).

То есть для отбора строк и колонок можно использовать имя и номер.

1) По номеру позиции

Для отбора строк и столбцов на основе номера их позиции в таблице используется метод iloc (integer location). Он принимает 2 аргумента — нужные нам строки и нужные нам столбцы.

Stepik "Введение в Data Science и машинное обучение", часть 3, image #7

2) По лейблу

Stepik "Введение в Data Science и машинное обучение", часть 3, image #8

Можно получать доступ к некоторому набору строк и колонок, используя лейблы. Для этого используется метод loc().

Stepik "Введение в Data Science и машинное обучение", часть 3, image #9

3) По индексу

Для создания индексов сначала создадим маленький вспомогательный dataframe на основе исходного.

Stepik "Введение в Data Science и машинное обучение", часть 3, image #10

А теперь присвоим индексы нашему вспомогательному dataframe

Stepik "Введение в Data Science и машинное обучение", часть 3, image #11

Индексы стали более содержательными. Это своего рода информация о каждом студенте, например — имя студента.

Теперь можно по лейблу обращаться к строкам.

Stepik "Введение в Data Science и машинное обучение", часть 3, image #12

В исходном dataframe были индексы по умолчанию, а теперь индексы стали заданные нами:

Stepik "Введение в Data Science и машинное обучение", часть 3, image #13

Таким образом, существует два способа получить нужные нам столбцы и строки из dataframe:

  • iloc — позволяет получить данные по порядковому номеру
  • loc — позволяет получить данные по лейблам, роли которых играют либо порядковые номера строк(по умолчанию), либо создаваемые нами более осмысленные индексы

Обращение к dataframe по названию переменной

Stepik "Введение в Data Science и машинное обучение", часть 3, image #14

Что такое объекты Series?

Series — это одноразмерный массив, с некоторыми лейблами именами подробнее.

Создадим несколько примеров серий:

Серия из нескольких целых чисел с лейблами по умолчанию

Stepik "Введение в Data Science и машинное обучение", часть 3, image #15

Серия из нескольких целых чисел с заданными лейблами

Stepik "Введение в Data Science и машинное обучение", часть 3, image #16

На самом деле таблица в pandas — это не просто таблица, а объединённые в одном месте серии. Каждый столбец в dataframe — это объект series, имеющий некоторый ключ, совпадающий с названием колонки в dataframe.

Stepik "Введение в Data Science и машинное обучение", часть 3, image #17

Автор: Зульфара Шаймухаметова

Главный редактор: Диляра Ахметзакирова

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *