PM 공부하기

ChatGPT를 활용하여 데이터 분석하기 - 데이터 전처리 ~ 시각화까지

mtepg924 2025. 5. 28. 16:11

<키워드>

  • ChatGPT 활용
  • 데이터 살펴보기
  • 데이터 전처리
  • 데이터 분석/시각화
  • 리포트 정리

🔷 학습내용

오늘은 ChatGPT를 활용하여, 일일이 복잡한 계산을 할 필요없이 데이터 전처리부터 간단한 데이터 시각화를 하는 법까지 배웠다. 

전월세 데이터 사례로 활용예시를 살펴보겠다.

 

0. 시작 - .csv파일 첨부 -> 데이터 살펴보기

  • .csv 파일을 첨부한 뒤, 아래의 프롬프트를 통해 데이터 구성요소를 살펴볼 수 있다.
  • (유용) 폰트가 날아간 형태라도 GPT가 알아서 인식해서 처리해준다. 
첨부한 파일에 대해 아래 내용 수행해줘:
1. 몇 개의 행과 열이 있는지
2. 각 열에는 어떤 종류의 데이터가 있는지

 

> 결과:

 

이런 식으로 각 열의 데이터 타입, 각 열에 대한 설명까지 제공해준다.


1. 데이터 전처리

  •  개인적으로 데이터 분석할 때 ChatGPT가 제일 유용하게 쓰일 수 있는 단계인 것 같다.
  • (예전에 데이터 전처리를 코드로 구현할 때 오류도 많이 나고, 시간도 많이 걸렸던 기억이 있어서 더욱 유용한 기능이라 느꼈다.)
  • 아래 예시 프롬프트처럼, 전처리 작업 요청 사항을 구체적으로 명시해주면, 깔끔하게 전처리된 데이터를 받을 수 있다.
  • 추가적으로 [작업 로그 작성]을 부탁하면 ChatGPT가 데이터 전처리를 어떻게 진행했는지 알 수 있어, debugging하는 데 도움이 된다.
 첨부한 파일에 대해 아래 조건을 바탕으로 데이터 전처리를 진행.

[전처리 작업 요청 사항]
1. 결측치 처리: 각 컬럼별 결측치의 존재 여부를 파악하고, 적절한 방법(예: 평균/중앙값 대체 또는 해당 행/열 삭제)으로 결측치를 처리.
2. 중복 제거: 데이터 내 중복된 행이 존재할 경우, 이를 식별하여 제거해 주세요.
3. 데이터 타입 검토: 각 컬럼의 데이터 타입을 확인하고, 필요 시 형 변환을 진행.
4. 이상치 탐지 및 처리: 이상치가 있을 경우, 탐지 방법과 처리 방안을 제시.
5. 요약 및 샘플 출력: 전처리된 데이터의 주요 통계량 및 일부 샘플 데이터를 출력.

[작업 로그 작성 가이드]
1. 어떠한 작업을 수행하였는지 요약해서 전달할 것.
2. 최종 전처리가 마무리 되면 전처리된 데이터를 파일으로 전달할 것.

 

> 결과:

 

전처리된 파일을 열어서, 작업요약 내용처럼 계약일 데이터 형태, 결측치 처리 등 전처리가 잘 됐나를 확인한 뒤 잘 되었으면 본격적인 데이터 분석 단계로 넘어간다.   

전처리 전 전처리 후

 


2. 데이터 분석/시각화

전처리된 .csv 파일을 첨부하고 -> 데이터 분석 방법을 입력하면 ChatGPT가 시각화된 결과까지 보내준다. 

아래는 그 예시이다.

참고로 원하는 바가 뚜렷하고 복잡할수록 더 구체적인 프롬프트를 넣어주면 더 목표에 맞는 결과를 얻을 수 있다.

  • 월세 및 보증금 분포 시각화
- 첨부한 파일의 데이터에서 자치구별로 월세와 보증금의 분포를 산점도로 보여줘
- 단위는 만원 단위로 만들어줘
  • 각 구별 월세 가격 시각화
- 각 구별 월세 가격을 히트맵으로 보여줘
- 단위는 만원 단위로 만들어줘

 

  • 층 수와 월세 및 보증금의 상관관계
층 수와 월세 및 보증금의 상관관계를 분석하고, 시각화로 표현해줘

 

> 결과:

히트맵, scatter plot 등 시각화는 가능한데 보는 것처럼, 한글 폰트는 자주 깨진다. 

그래서 본격적인 데이터 시각화 전에 rough하게 데이터 형태를 살펴보는 용도로 쓰는 것이 더 나을 것 같다. 


3. 데이터 분석 결과 -> 보고서 작성

대화한 내용을 바탕으로 바로 보고서도 작성할 수 있다.

여태 분석한 결과를 바탕으로 보고서를 작성해줘.

아래 조건에 맞춰 진행할 것:
1. 지금까지의 내용을 보고서 형식으로 만들 것.
2. 구체적인 수치를 언급할 것.
3. 정중한 어투로 작성할 것.
4. 시각화 그래프 및 표를 포함한 word 파일을 생성해 전달할 것.

 

> 결과:


✅ 인사이트

  • 지난 번에 이어서 ChatGPT를 활용하여 데이터 전처리부터 분석 ~시각화까지 수행해봤다.
    • 데이터 훑어보기 & 데이터 전처리 단계에서 유용하게 활용할 수 있을 것 같다.
  • 데이터 시각화의 경우는 이미지 파일로 생성되어 수정하기가 어렵고, 폰트 깨짐등의 이슈도 있다.
    • 아직까지는 아주 편리하게 쓰이기는 어려운 것 같다.
    • 본격적으로 데이터 시각화를 하기 전에 데이터 경향성을 훑어보는 용도로 사용하면 좋을 것 같다.
  • 데이터 분석 결과를 리포트로 작성해주는 기능이 유용하다.
    • 보고서, 기획서 등 문서에 포함되어야 하는 내용이나 어조에 대한 조건을 넣어주면 효율적인 문서 작성이 가능하다.