본문 바로가기
반응형

머신러닝/공부내용

(2)
머신러닝/공부내용 독버섯 분류 딥러닝 모델을 이용해서 분류하기 이전에 로지스틱 회귀와 트리 회귀로 독버섯을 구분한 프로젝트를 진행했습니다. 이 회귀 모델과 케라스를 이용해 모델을 만들었을 때 정확도 차이가 있는지 궁금해 만들게 되었습니다. 이전 회귀 모델 https://allinfor.tistory.com/41 독버섯 분류 학교 머신러닝 수업에서 회귀 프로젝트로 독버섯 분류한 내용입니다. 로지스틱 회귀와 트리 회귀를 통해 독버섯을 분류해봤습니다. 독버섯 데이터 독 버섯 데이터는 UCI와 캐글에 있는 mushroom-cla allinfor.tistory.com DNN 모델 전처리 import pandas as pd from sklearn.model_selection import train_test_split import numpy as np df = pd.read_c..
머신러닝/공부내용 원핫 인코딩과 라벨인코딩 oneHot-encoding Label-encoding 원핫 인코딩과 라벨인코딩을 왜 사용할까? 범주형 데이터의 경우 문자로 표현된 경우가 많습니다. 이것을 숫자로 치환하기 위해 사용됩니다. 상황에 따라서 다르지만 원핫 인코딩은 주로 데이터 범주끼리 영향을 끼치면 안될 때 사용되고 라벨인코딩같은 경우에는 범주형 데이터의 관계가 있을 때 사용합니다. 예를 들어 과일데이터인 경우 숫자가 원핫 인코딩으로 변환할 경우 데이터 3가지 모두 1과 0 으로 표현되어 숫자로 변환되어도 해당 범주가 아니면 학습할 경우 영향을 끼치지 않습니다. 하지만 과일데이터를 라벨인코딩한 경우 알파벳 순으로 숫자로 변환되는데 범위가 커져서 만약 1000개의 데이터의 과일이 존재하면 모두 상관없는 똑같은 과일이지만 1000번째 과일이 숫자가 더 커 영향을 더욱 끼치는 현상이 발생할 수 있습..