티스토리 뷰
미국 특허청에서 제공하는 실제 데이터 파일을 이용하여 값이 null 인 데이터를 처리하는 등 pandas로 데이터를 전처리 해보겠습니다.
간단한 거지만 기록하면서 복습하는 의미로!
데이터 import 및 데이터 형태 보기
출원번호 고유값에는 null값이 없다는 것을 확인 후 미국 특허 분류만 가지고 오기
| 기준으로 데이터를 자르고 tolist로 만들기
출원번호에도 tolist로 만들어주고 zip으로 인덱스 부여
첫번째 for문에서는 출원번호0 [A, B] < 나오게 되고 이것을 data 변수에 들어가게 되고
출원번호 0은 0 index [A, B]는 1 index를 가지고 있게 됩니다.
두번째 for문에서 data[1]의 값을 한개씩 받아오라고 했으니 즉 [A, B] A와 B의 값을 한개씩 받아오게 됩니다.
edge_list.append([data[0], value.strip()]) 여기서 data[0]은 0 value.strip()은 A가 되겠죠
rating 값을 1로 주게 되면 거대한 희소 벡터가 만들어지게 됩니다.
이제 이것을 바탕으로 새로운 특허가 나왔을 때 분류 할 수 있게 되는 것이죠
'네이버 Data Science' 카테고리의 다른 글
Kaggle titanic 데이터 예측 (0) | 2019.04.10 |
---|
댓글