티스토리 뷰

미국 특허청에서 제공하는 실제 데이터 파일을 이용하여 값이 null 인 데이터를 처리하는 등 pandas로 데이터를 전처리 해보겠습니다.

간단한 거지만 기록하면서 복습하는 의미로!

 

 데이터 import 및 데이터 형태 보기

 

출원번호 고유값에는 null값이 없다는 것을 확인 후 미국 특허 분류만 가지고 오기

 

| 기준으로 데이터를 자르고 tolist로 만들기

 

출원번호에도 tolist로 만들어주고 zip으로 인덱스 부여

첫번째 for문에서는 출원번호0 [A, B] < 나오게 되고 이것을 data 변수에 들어가게 되고

 

출원번호 0은 0 index [A, B]는 1 index를 가지고 있게 됩니다.

두번째 for문에서 data[1]의 값을 한개씩 받아오라고 했으니 즉 [A, B] A와 B의 값을 한개씩 받아오게 됩니다.

edge_list.append([data[0], value.strip()]) 여기서 data[0]은 0 value.strip()은 A가 되겠죠

 

 

rating 값을 1로 주게 되면 거대한 희소 벡터가 만들어지게 됩니다.

이제 이것을 바탕으로 새로운 특허가 나왔을 때 분류 할 수 있게 되는 것이죠

'네이버 Data Science' 카테고리의 다른 글

Kaggle titanic 데이터 예측  (0) 2019.04.10
댓글
«   2024/05   »
1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30 31