카테고리 없음

Python에서 Pandas DataFrame을 만드는 방법

기하 2022. 9. 7. 08:12

https://datatofish.com/create-pandas-dataframe/

 

How to Create Pandas DataFrame in Python - Data to Fish

Do you need to create Pandas DataFrame in Python? If so, you'll see two ways to create Pandas DataFrame in Python from scratch.

datatofish.com

 

이 짧은 가이드에서는 Pandas DataFrame을 만드는 두 가지 방법을 볼 수 있습니다.

  • Python 자체에 값을 입력하여 DataFrame 생성
  • 파일(예: CSV 파일)에서 값을 가져온 다음 가져온 값을 기반으로 Python에서 DataFrame 생성

방법 1: Python에서 값을 입력하여 Pandas DataFrame 생성

Python에서 Pandas DataFrame을 만들려면 다음 일반 템플릿을 따르세요.

import pandas as pd

data = {'first_column':  ['first_value', 'second_value', ...],
        'second_column': ['first_value', 'second_value', ...],
         ....
        }

df = pd.DataFrame(data)

print (df)

숫자 값 을 따옴표로 묶을 필요가 없습니다 (해당 값을 문자열 로 캡처하려는 경우 제외 ).

이제 간단한 예제를 사용하여 위의 템플릿을 적용하는 방법을 살펴보겠습니다.

시작하려면 제품에 대한 다음 데이터가 있고 Pandas DataFrame을 사용하여 Python에서 해당 데이터를 캡처하려고 한다고 가정해 보겠습니다.

product_name price
랩탑 1200
인쇄기 150
태블릿 300
책상 450
의자 200

그런 다음 아래 코드를 사용하여 예제에 대한 DataFrame을 만들 수 있습니다.

import pandas as pd

data = {'product_name': ['laptop', 'printer', 'tablet', 'desk', 'chair'],
        'price': [1200, 150, 300, 450, 200]
        }

df = pd.DataFrame(data)

print (df)

Python 에서 코드를 실행하면 다음 DataFrame을 얻을 수 있습니다.

  product_name  price
0       laptop   1200
1      printer    150
2       tablet    300
3         desk    450
4        chair    200

각 행이 0부터 시작하는 숫자(색인이라고도 함)로 표시된다는 것을 알 수 있습니다. 또는 각 행을 나타내기 위해 다른 값/이름을 지정할 수도 있습니다.

예를 들어 아래 코드에서 index=['product_1','product_2','product_3','product_4','product_5'] 가 추가되었습니다.

import pandas as pd

data = {'product_name': ['laptop', 'printer', 'tablet', 'desk', 'chair'],
        'price': [1200, 150, 300, 450, 200]
        }

df = pd.DataFrame(data, index=['product_1','product_2','product_3','product_4','product_5'])

print (df)

이제 새로 할당된 인덱스(노란색으로 강조 표시됨)가 표시됩니다.

          product_name  price
product_1       laptop   1200
product_2      printer    150
product_3       tablet    300
product_4         desk    450
product_5        chair    200

이제 DataFrame을 만들기 위해 Python으로 값을 가져오는 두 번째 방법을 검토해 보겠습니다.

방법 2: CSV 파일에서 값을 가져와 Pandas DataFrame 만들기

DataFrame을 생성하기 위해 다음 템플릿을 사용하여 CSV 파일을 Python으로 가져올 수 있습니다.

import pandas as pd

data = pd.read_csv(r'Path where the CSV file is stored\File name.csv')
df = pd.DataFrame(data)

print (df)

CSV 파일(CSV 파일 이름 은 'products') 에 다음 데이터가 저장되어 있다고 가정해 보겠습니다 .

상품명 가격
랩탑 1200
인쇄기 150
태블릿 300
책상 450
의자 200

아래 Python 코드에서 컴퓨터 에서 CSV 파일이 저장된 위치를 반영하도록 경로 이름 을 변경 해야 합니다.

예를 들어 CSV 파일이 다음 경로에 저장되어 있다고 가정해 보겠습니다.

 'C:\Users\사용자이름\Desktop\products.csv'

다음은 예제의 전체 Python 코드입니다.

import pandas as pd

data = pd.read_csv(r'C:\Users\사용자이름\Desktop\products.csv')
df = pd.DataFrame(data)

print (df)

이전과 마찬가지로 Python에서 동일한 Pandas DataFrame을 얻을 수 있습니다.

  product_name  price
0       laptop   1200
1      printer    150
2       tablet    300
3         desk    450
4        chair    200

Pandas를 사용하여 Excel 파일 을 Python 으로 가져와 동일한 DataFrame을 만들 수도 있습니다 .

DataFrame에서 최대값 찾기

DataFrame에 값이 있으면 다양한 작업을 수행할 수 있습니다. 예를 들어 Pandas를 사용하여 통계를 계산할 수 있습니다 .

예를 들어 DataFrame 내의 모든 제품 중에서 최고가를 찾고 싶다고 가정해 봅시다.

분명히 데이터 세트를 보는 것만으로도 이 값을 도출할 수 있지만 아래에 제시된 방법은 훨씬 더 큰 데이터 세트에서 작동합니다.

이 예제의 최고 가격을 얻으려면 Python 코드에 다음 부분을 추가한 다음 결과를 인쇄해야 합니다.

max_price = df['price'].max()

다음은 전체 Python 코드입니다.

import pandas as pd

data = {'product_name': ['laptop', 'printer', 'tablet', 'desk', 'chair'],
        'price': [1200, 150, 300, 450, 200]
        }

df = pd.DataFrame(data)

max_price = df['price'].max()
print (max_price)

코드를 실행하면 실제로 최대 가격 인 1200 값을 얻게 됩니다.

1200

DataFrame 생성에 대한 자세한 내용은 Pandas 설명서를 참조 하십시오 .