미국 특허청에서 제공하는 실제 데이터 파일을 이용하여 값이 null 인 데이터를 처리하는 등 pandas로 데이터를 전처리 해보겠습니다. 간단한 거지만 기록하면서 복습하는 의미로! 데이터 import 및 데이터 형태 보기 출원번호 고유값에는 null값이 없다는 것을 확인 후 미국 특허 분류만 가지고 오기 | 기준으로 데이터를 자르고 tolist로 만들기 출원번호에도 tolist로 만들어주고 zip으로 인덱스 부여 첫번째 for문에서는 출원번호0 [A, B] < 나오게 되고 이것을 data 변수에 들어가게 되고 출원번호 0은 0 index [A, B]는 1 index를 가지고 있게 됩니다. 두번째 for문에서 data[1]의 값을 한개씩 받아오라고 했으니 즉 [A, B] A와 B의 값을 한개씩 받아오게 됩..
Kaggle titanic project 판별해보기! 먼저 kaggle 사이트 들어가서 www.kaggle.com/c/titanic/ 가장 기본적인 titanic 데이터 다운받기 train 데이터에는 사람이 죽었는지 살았는지의 정보가 있고 test 데이터에는 사람이 죽었는지 살았는지 정보가 없음 즉, test 데이터의 사람이 죽었는지 살았는지 데이터를 분석해서 레이블링을 매겨서 csv로 뽑아내면 된다! 기본적으로 모듈 import와 데이터를 읽어드립니다. train_df.head(1), test_df.head(1) 을 해보면 train_df 에는 Survived 컬럼 즉 사람의 죽음 여부가 있고 test_df는 없네요. PassengerId 가 유일한 컬럼값이므로 index를 매겨줍니다. 나중에 test..
파이썬의 기본이긴 하지만 나중에 데이터 분석할 때 유용하게 쓰일 수 있는 문법들이라서.. 카테고리도 python에 들어가야 하지만 이번 공모전때문에 공부한 것이므로 여기에다가 쓰자. 나중에 문법쓸 때 내 블로그와서 보기.. List comprehensions 기존의 list를 사용하여 간단히 다른 list를 만드는 기법 result = [i for i in range(10)] print(result) #[0, 1, 2, 3, 4, 5, 6, 7, 8, 9] result = [i for i in range(10) if i % 2 == 0] print(result) #[0, 2, 4, 6, 8] Enumerate #i에는 인덱스 v는 value값 for i, v in enumerate(['tic','tac'..
이제 검색엔진을 만들어보고 한 페이지의 페이지랭크에 대해 해보겠습니다! 페이지랭크에 대한 알고리즘을 실행하고 웹 브라우저에 시각화를 하는 것이죠! 페이지랭크 알고리즘의 특징은 어떤 페이지가 가장 최고의 링크를 가지는지 알아내는 것입니다.이 일단 먼저 프로세스를 보겠습니다. spider.py로 하나의 URL을 DB에 집어넣습니다. 그다음 검색되지 않은 페이지를 찾습니다. 또 고른 페이지를 검색하고 해당 페이지를 파싱하게 됩니다. 그리고 검색되지 않은 페이지들을 DB에 저장하게 되는 것이죠. 페이지랭크 알고리즘은 옛날 순위를 통해 새로운 순위를 계산하고 옛날 순위를 새로운 순위로 교체합니다. 그래서 다대다 테이블을 생성해 페이지를 가리키는 용도로 사용합니다. 이번 포스팅에서는 spider.py의 역할과 코드..
네이버 Data Science Competition 2019에 참가하게 되어 추천강의를 받았다. 5. 캡스톤 : 파이썬을 이용한 데이터 검색, 처리 및 시각화 머신러닝을 위한 Python R을 활용한 통계학개론 : 6. 통계적 추론 I R을 활용한 통계학개론 : 7. 통계적 추론 II R을 활용한 통계학개론 : 8. 두 모집단의 비교 R을 활용한 통계학개론 : 10. 범주형 자료의 분석 R을 활용한 통계학개론 : 11. 분산분석 R을 활용한 통계학개론 : 12. 비모수 통계학 Statistics 110 from Harvard (Advanced - 선택) Data Science from MIT 인공지능 및 기계학습 개론 I : 2. Fundamentals of Machine Learning 인공지능 및 기..