한성이 DevOps 블로그

티스토리 뷰

네이버 Data Science

김한성 2019. 4. 10. 14:53

미국 특허청에서 제공하는 실제 데이터 파일을 이용하여 값이 null 인 데이터를 처리하는 등 pandas로 데이터를 전처리 해보겠습니다.

간단한 거지만 기록하면서 복습하는 의미로!

데이터 import 및 데이터 형태 보기

출원번호 고유값에는 null값이 없다는 것을 확인 후 미국 특허 분류만 가지고 오기

| 기준으로 데이터를 자르고 tolist로 만들기

출원번호에도 tolist로 만들어주고 zip으로 인덱스 부여

첫번째 for문에서는 출원번호0 [A, B] < 나오게 되고 이것을 data 변수에 들어가게 되고

출원번호 0은 0 index [A, B]는 1 index를 가지고 있게 됩니다.

두번째 for문에서 data[1]의 값을 한개씩 받아오라고 했으니 즉 [A, B] A와 B의 값을 한개씩 받아오게 됩니다.

edge_list.append([data[0], value.strip()]) 여기서 data[0]은 0 value.strip()은 A가 되겠죠

rating 값을 1로 주게 되면 거대한 희소 벡터가 만들어지게 됩니다.

이제 이것을 바탕으로 새로운 특허가 나왔을 때 분류 할 수 있게 되는 것이죠

Kaggle titanic 데이터 예측 (0)	2019.04.10