데이터분석 7

[pandas] 그룹별 누적합 집계하는 방법

안녕하세요, 오늘은 pandas 그룹별 누적합을 구하는 방법에 대해서 알아 보겠습니다. 1. 간단한 데이터로 이해하기 아래와 같이 날짜, 과일종류, 판매량 3개 컬럼으로 이뤄진 데이터프레임이 있습니다. 만약 판매량의 누적합을 구하고 싶다면, cumsum() 을 통해서 쉽게 구할 수 있죠. 하지만, 과일종류별 누적합, 일자별 누적합 등 그룹별로 누적합계를 구하려면 어떻게 해야 할까요?? 아래 두 결과 코드는 groupby 내 컬럼 순서만 다르다는 차이만 있으나, 결과는 완전히 서로 다릅니다. 1. 일자별 누적합 level=[0] 에 해당하는 값이 'Date' 이기 때문에 일자별 기준으로 판매량 그룹 누적합계를 구합니다. 2. 과일별 누적합 level=[0] 에 해당하는 값이 'Fruit' 이기 때문에 과일..

SW개발/python 2022.07.31

[plotly] 시계열 시각화 X축 다루기

[plotly] 시계열 시각화 X축 다루기 서론 python 데이터 시각화를 위한 라이브러리는 대표적으로 matplotlib, seaborn 이 있고, 시각화를 위해 많이 사용하고 있죠. 저는 최근에 plotly 라는 동적 그래프를 그려주는 라이브러리를 알게 되었고 이에 대한 학습을 시작하였습니다. 이번 포스팅에서는 시계열 데이터 시각화 할 때, 중간에 시계열 자료가 비어 있는(?) 경우 matplotlib 과 plotly 시각화 에 대해 소개합니다. 본론 *샘플코드를 맨 아래 제공됩니다. 파이썬 라이브러리를 불러오고요. import pandas as pd import plotly import matplotlib.pyplot as plt import plotly.graph_objects as go 우선,..

[데이터분석] 국토부 아파트 실거래가 분석 - 2. 데이터 수집(2)

공공데이터 아파트 실거래 데이터 수집(2) 이전 글에서는 공공데이터 포털을 통해서 국토부 아파트 실거래가를 수집하는 방법에 대해서 알아봤는데요. 이번에는 이전글에서 작업 연장선상으롱 구글 드라이브에 다운받은 CSV 파일을 하나의 데이터프레임에 모으는 작업을 해보도록 하겠습니다. 함수 파라미터를 통해서 조회시작과 종료 기간 정보를 넘겨받고, 조회기간 내 해당하는 CSV 파일 읽어(read_csv) 하나의 데이터프레임(DataFrame)으로 합치도록 하겠습니다. 함수작성 Pandas 에서는 데이터를 합치는 방법으로는 concat과 merge가 있습니다. concat과 merge에 대해서는 다음에 다루도록 하겠습니다. 다만 for 문으로 통해서 바로 데이터프레임을 concat 하는 방식이 아닌, 우선, LIS..

[데이터분석] 국토부 아파트 실거래가 분석 - 2. 데이터 수집(1)

공공데이터 아파트 실거래 데이터 수집(1) 이전 글에서는 국토부 아파트 실거래가 수집에 앞서 공공데이터 계정 생성 및 서비스키 발급을 진행하였습니다. 1. 요청변수 확인 오픈API 참고문서 또는 미리보기 기능으로 제공되는것처럼 필수 요청변수는 아래와 같습니다. LAWD_CD(각 지역별코드) DEAL_YMD(월 단위 신고자료) 그리고 발급받은 서비스키 보통 오픈API 활용을 위해 명세서(가이드)가 제공이 되며, 문서를 참고하여 개발을 하게 됩니다. 2. python 활용한 데이터 수집 특정시점(예를들어 12년 7월)부터 현재까지 아파트 실거래 데이터를 수집하고 CSV파일로 저장하는 기능을 구현해 볼게요. 구글 코랩(colab)을 활용하며, 최종코드는 맨 아래 첨부파일로 올려드릴게요. 아래는 코드에 대한 설..

[정보공유] 데이터 분석 경진대회 사이트

각종 데이터 분석 경진대회, 공모전이 열리는 사이트를 정리해 보겠습니다. 일단 캐글은 워낙 유명해서 제외하고 나머지 국내 경진대회, 공모전 위주로 정리해봤습니다. 그리고 대회일정이 지난 경진대회도 함께 공유해봅니다. 1. DACON - dacon.io 다양한 종류의 데이터 분석 경진대회가 열립니다. 데이콘은 경우 유투브 계정도 있으며, 튜토리얼 영상이 있으니 학습에 도움이 될거 같습니다. 개인적으로는 구글 colab 영상이 도움이 많이 되었습니다. (감사합니다 ^^ 덕분에 잘씁니다.) 데이터사이언티스트 AI 컴피티션 3만 AI팀이 협업하는 인공지능 플랫폼 dacon.io www.youtube.com/channel/UCo1vJRg2ANyaVHV1A98MQNA/about 데이콘 © 2021 Google LL..

[데이터분석] 국토부 아파트 실거래가 분석 - 1. 계정생성 및 서비스키 발급 신청

공공데이터 계정신청 & 서비스키 발급 공공데이터 로그인 계정이 없다면 계정을 우선 신청해주세요. www.data.go.kr "국토부 아파트 실거래가"로 검색시 아래와 같이 오픈API로 제공되는 목록을 확인 할 수 있습니다. 국토교통부 아파트매매 실거래자료 이동 후 [활용신청] 클릭 활용신청을 하고 서비스키가 발급된다고 하더라도 바로 사용할 수 없고 일정시간(몇 시간 단위?) 후에 사용이 가능합니다. 자기전에 신청하고 그냥 자고 일어나서 하면 된다 생각하면 마음 편하죠. 마이페이지에서 신청이 정상적으로 됐는지 확인 가능합니다. 저는 이미 운영계정으로 넘겼고, 처음 신청한 상태인 분들은 개발계정에서 신청목록을 확인 할 수 있습니다. 발급된 서비스키는 [일반인증키]에 해당하는 값을 사용하시면 됩니다. 같은 화..

[정보공유] 인공지능, 블록체인, 데이터 분석 교육 안내

교육안내 지자체별 인공지능, 블록체인, 데이터 분석 분야 전문가 양성을 위한 예산을 많이 확보한 것으로 보입니다. 코로나19 상황으로 인해 오프라인이 아닌 온라인(Zoom 등 활용) 환경에서 수업 수강이 가능해 다양한 교육에 대한 접근성이 높아졌습니다. 무엇보다 교육비가 전액 무료라는 것이 가장 큰 장점이자 기회가 아닐까 싶네요! 전국구 뿐만 아니라 대전,충남권역에서 실시 또는 예정되어 있는 인공지능, 블록체인, 데이터 분석 등 관련 교육신청 정보를 공유하니 필요하신 분들은 이번 기회를 통해서 DT(디지털 트렌스포메이션) 에 성공하셨으면 합니다! 1. 전국구 ICT 이노베이션 스퀘어 전국구 모든 ICT 이노베이션 스퀘어가 총 망라되어 있습니다. ictinnovation.kr/ ICT 이노베이션스퀘어 ic..