ChatGPT для саморазвития: Освоения программирования, консалтинга и изучения иностранных языков. Алексей Михнин

Чтение книги онлайн.

Читать онлайн книгу ChatGPT для саморазвития: Освоения программирования, консалтинга и изучения иностранных языков - Алексей Михнин страница 2

Жанр:
Серия:
Издательство:
ChatGPT для саморазвития: Освоения программирования, консалтинга и изучения иностранных языков - Алексей Михнин

Скачать книгу

попробуем предварительно обработать данные на этом шаге. Мы проверим на наличие дубликатов, пропущенных значений и другие аномалии. Мы не знаем, какое качество данных находится в нашем файле на входе, поэтому этот шаг очень важен для последующего анализа данных. Предварительная обработка позволит нам избавиться от мусорных значений и повысит качество нашего анализа.

      Пользователь

      Выведи все названия столбцов в одну строку и выполни шаги по предварительной обработке данных т.е. проверь на дубликаты, на наличие пропущенных значений и т.п. и выведи отчет по результатам предварительной обработки.

      Чат:

      Для выполнения этой задачи мы будем использовать библиотеку pandas.

      Приведенный ниже код выполняет предварительную обработку данных и выводит отчет по результатам:

      После выполнения этого кода вы получите отчет о предварительной обработке данных, включая количество удаленных дубликатов и заполненных пропущенных значений. Код также выводит первые 10 строк обработанных данных для предварительного просмотра.

      Учтите, что вам нужно будет заменить 'titanic.csv' на действительный путь к файлу CSV на вашем компьютере или URL-адрес файла, если он доступен онлайн.

      Результат:

      Выполняем все рекомендации Чата и посмотрим смотрим что из этого получилось.

      Внимание:

      Мы заметили, что при каждом ответе ChatGPT повторяется код, который устанавливает библиотеку pandas для работы с табличными данными, и загружает данные из нашего датасета в переменную data. Чтобы избежать повторения этого кода, мы можем поступить следующим образом:

      Пропустить эти строки кода и использовать только код, который расположен ниже.

      Конкретизировать наши запросы, напоминая ChatGPT о том, что библиотека pandas уже установлена, и что файл titanic.csv уже загружен в переменную data.

      Кроме того, мы рекомендуем напоминать ChatGPT о том, какие названия столбцов у нас есть в датасете, и какого они типа. Это поможет нам точнее работать со столбцами в нашем датасете. Для этого мы можем попросить ChatGPT вывести названия столбцов и их типы в одну строку, которую мы сможем скопировать и использовать для конкретизации наших последующих запросов.

      Пользователь:

      Выведи в одну строку название столбцов и тип каждого столбца

      Внимание:

      Мы не указали, какой именно датасет мы должны использовать в данном запросе, потому что мы формируем запрос в текущем чате обсуждения, и ChatGPT будет анализировать предыдущие шаги, чтобы понять, какой датасет мы используем. Однако, если в текущем чате было выполнено много шагов или если есть несколько альтернативных датасетов, то необходимо конкретизировать запрос, указав, какой датасет нужно использовать.

      Чат:

      Для вывода названия столбцов и типа каждого столбца, используйте следующий код:

      Результат:

      Выполняем

Скачать книгу