본문 바로가기

Big Data

(3)
GraphViz’s executables not found 해결법 의사결정나무 트리 시각화하려고 dot파일을 읽어오는데 dot파일을 찾을 수 없다는 에러가 발생했다. 구글링을 해보니 어떤 링크에 들어가서 msi파일을 받으라는데 Windows에 해당되는 얘기였고, Mac 유저인 나는 PATH 설정을 알맞게 해주려고 온갖 시도를 했지만 그것도 뭔가 뜻대로 되지 않았다... 그러다 conda install -c conda-forge python-graphviz 로 python-graphviz 모듈 설치를 해주었는데 바로 코드가 실행이 되었음! 원래는 conda install graphviz 로 설치를 했었다.. (둘이 무슨 차이인지?) 스택오버플로우도 좀 뒤져봤는데 graphviz와 python-graphviz를 둘 다 설치해야 한다는 솔루션을 제시하는 글들이 있었다. (O..
[logistic regression] Warning: Maximum number of iterations has been exceeded. 로지스틱 회귀분석을 이용해서 분류(binary classification)를 하기 위해 모델을 검토하는 과정에서 다음과 같은 에러가 발생하였다. Maximum number of iterations has been exceeded. (최대 반복 횟수를 초과했다.) 모델이 제대로 수렴되지 않은 듯 했다. 원인을 알 수 없어 구글링으로 열심히 뒤져본 결과, 캐글의 한 게시글을 찾을 수 있었다. www.kaggle.com/anon7r/predicting-back-pain-logistic-regression-python Predicting Back Pain - Logistic Regression, Python Explore and run machine learning code with Kaggle Notebook..
[Pandas] 시계열 데이터(timestamp) 처리하기 게임 관련 데이터를 분석하다가 접속 로그(시계열 객체)를 다루게 되어 기본적인 내용을 정리해보았습니다. 우선 샘플 데이터를 생성해 보겠습니다. '연-월-일 시:분:초'로 이루어진 문자열 형태의 데이터입니다. (timestamp의 기본 형태) In [1]: import pandas as pd In [2]: # sample data df = pd.DataFrame() df['timestamp'] = ['2021-2-3 1:30:1.273823', '2021-2-3 3:24:5.382712', '2021-2-3 10:19:13.293104', '2021-2-4 1:50:32.38172', '2021-2-4 13:47:9.600381', '2021-2-4 12:30:1.34521'] df Out[2]: time..