[홀로서기 #03] SQL EDA, Python으로 쉽게 시각화하기
# 홀로서기 기획 연재물은 최근 개인 프로젝트를 진행하면서 겪은 어려움들을 기록한 지극히 개인적인 콘텐츠입니다. SQL로 데이터를 훑어보는 일 AWS 데이터베이스를 쓰면서도, 대용량 데이터에 빠르게 접근할 수 있는, 파이썬보다 직관적인 언어인 SQL! 최근 필자는 mysql을 통해 자전거 수요량 예측 프로젝트를 수행하고 있다. Bulk insert와 View를 통해서, 대용량 데이터와 친해진 후에는, 쿼리를 써 내려가면서, 데이터가 어떻게 생겼는지 확인하고 있다. 그러던 중에, 매번 Python으로만 EDA를 하던 습관이 남아, 데이터를 그려보고 싶다는 생각을 했다. 아쉽게도, SQL 환경에서는 간단하게 그리는 것은 테이블 집계(Groupby)정도만 가능한 것을 깨달았다. (물론, 내가 모르는 것일 수 ..
2021. 12. 21.
[7일차] 리스트 요긴하게 쓰기 위한 추가/삭제/슬라이싱. 분명하게 정리하기!
* Web Data 관련 강의가 함께 있어서, 오늘 수강한 강의 분량이 적다. [리스트 요소 추가, 삭제, 수정] - 추가 : list.append(요소) - append() - append로 들어갈 수 있는 요소는 또 다른 리스트도 가능하다. ex) list.append([a,b,c]) - append는 항상 리스트의 마지막 인덱스에 추가됨 - 추가2 : list.insert(인덱스, 요소) - 특정 위치(인덱스)에 아이템을 추가할 수 있음 - insert() 연습문제) 오름차순으로 정렬되어 있는 숫자들에 사용자가 입력한 정수를 추가하는 프로그램을 만들어보자. (단, 추가 후에도 오름차순 정렬이 유지되어야 한다.) - 주어진 리스트 : [1, 3, 6, 11, 45, 54, 62, 74, 85] - e..
2021. 10. 19.
[seaborn] 데이터 정리 및 다양한 시각화 실행
데이터 정리 - 우리가 사용할 데이터프레임 crime_anal_station 은 다음과 같다. - 일단 해당 데이터를 활용해서, '구별'을 인덱스로 하여, 값의 합계를 나타낸 피봇테이블을 만들었다. crime_anal_gu = crime_anal_station.pivot_table( #여기서 pd.pivot_table(crime_anal_station, ~ 으로 시작해도 된다. index="구별", aggfunc=np.sum, ) - 여기서 우리는 lat, lng 컬럼이 필요가 없기 때문에, 삭제한다. (drop()을 활용했다.) crime_anal_gu.drop(["lat", "lng"], axis=1, inplace=True) - 우리가 궁금한 수치는, 각 범죄별 '검거율'이다. 예를 들면 살인의 검..
2021. 10. 14.