일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- 정칙행렬
- ReLU
- word embedding
- Python
- one-hot vector
- Transformer
- machine translation
- 판다스
- 밑바닥부터 시작하는 딥러닝2 2장
- word2vec
- 선형대수학
- DataFrame
- NMT
- 프로그래머를 위한 선형대수
- 신경망 학습
- 연립일차방정식
- sigmoid
- 자연어처리
- 동시발생 행렬
- 밑바닥부터 시작하는 딥러닝
- 데이터프레임
- Linear Algebra
- SVD
- PPMI
- 벡터간 유사도
- 딥러닝
- pandas
- NLP
- RNN
- 역행렬
- Today
- Total
목록판다스 (6)
생각하는감자
NaN 특정 column 안에 아무런 값이 없는 것은 NaN값(None값)이다 라고 한다. 데이터프레임 안에 데이터의 개수가 적을 경우에는 직접 확인하여 NaN값이 어디에 있는지 확인할 수 있지만, 데이터의 양이 매우 많은 경우가 대다수이고, 이럴 때에는 직접 다 확인하는 것은 불가능하다. 판다스에서는 NaN 값을 쉽게 찾을 수 있도록 제시해주고 있는데, 아래와 같이 입력하게 되면 해당 데이터 프레임에 관한 정보가 출력된다. df.info() 물론, pandas를 import한 후에 사용해야 하는 것은 물론이고 내가 만든 데이터프레임의 이름 뒤에 ".info()"를 붙이면 된다. 결과적으로 index의 개수(행 수)와 열의 개수가 나오며, 몇개의 non-null로 이루어져 있는지 나오게 된다. df.is..
데이터 그룹 만들기 먼저, 임의의 데이터프레임을 만들어보자. import pandas as pd student = [{'name': 'Serena', 'major': 'Computer Science'}, {'name': 'John', 'major': 'Computer Science'}, {'name': 'Nate', 'major': 'Economics'}, {'name': 'Jake', 'major': 'Psychology'}, {'name': 'Arial', 'major': 'Physics'}, {'name': 'James', 'major': 'Psychology'}, {'name': 'Jane', 'major': 'Economics'} ] df = pd.Datarame(student, colums =..
행, 열 → 삭제/생성/수정 삭제 명령어 : drop df.drop(['The Giver']) 와 같은 형태로 [ ] 안에 삭제하고 싶은 index의 이름을 넣어주면 된다. ( 위의 코드는 예시 ) *데이터프레임에는 적용되지 않았고, 데이터프레임 자체를 변경시키고 싶다면 df = 뒤에 정의해 주면 된다. 따로 정의하지 않고 바로 데이터프레임에 변경사항을 적용하려면 inplace 값을 True 라고 해주면 되는데, 아래 코드와 같다. df.drop(['The Giver'], inplace = True) 인덱스 번호 이용 원래는 index에 0,1,2 등의 순서가 저장되는 경우가 더 많을 것으로 예상되는데, 이럴 때 삭제하고 싶을 때엔 df = df.drop(df.index[[0,2]]) 위와 같이 row의..
행, 열 선택하기/필터 하기 import pandas as pd book_list = [ ['name', ['The Call of Character', 'The Giver', 'Selfish Gene']], ['number', [2302, 1905, 2110]], ['location', ['A14-6', 'D03-8', 'J06-11']] ] df = pd.DataFrame.from_items(book_list) 위와 같은 데이터프레임을 만들었다고 가정하고, 2번째와 3번째 정보만 보고 싶으면 간단하게 df[1:3]라는 명령어를 사용하면 된다. *파이썬에선 배열의 정보를 불러올 때 첫 번째 값(예시에선 1)은 포함을 하고, :(콜론) 뒤에 오는 값(예시에선 3)은 포함하지 않는다. 여기서 주의할 점은 해..
데이터프레임 → 파일 만들어진 데이터프레임을 csv 파일로 저장하는 명령어는 간단하다. to_csv를 사용하면 된다!! 예를 들어, book_list라는 이름의 리스트를 활용하여 데이터프레임을 만들었다면, df = DataFrame(book_list) df = df[['title','number','location']] ** book_list 라는 것은 이전 게시물에서 사용했던 것을 간단히 재활용한 것이므로 더 자세한 생성내용은 Dataframe(1)에 있음** to_csv를 활용하여 파일로 저장해본다면, 아래와 같다. df.to_csv('books.csv') 해당 명령어를 수행하고 나면 book_list로 데이터프레임을 만든 코드파일이 있는 위치와 동일한 곳에 books라는 이름의 csv파일이 생성된다..
데이터프레임 생성 딕셔너리로 만들경우, 컬럼명이 입력 순서대로 지정되지 않음 변경방법 : ordered dictionary 사용 import pandas as pd from collections import OrderedDict book_ordered_dict = OrderedDict( [ ('title', ['The Call of Character', 'The Giver']), ('number', [2302, 1905]), ('location', ['A14-6', 'D03-8']) ] ) df = pd.DataFrame.from_dict(book_ordered_dict) 위와 같이 입력하여 딕셔너리를 만들고, 데이터프레임으로 생성해주면 된다. 리스트로 만드는 경우 import pandas as pd b..