본문 바로가기
AI 개발 팁

Machine Learning을 위한 Public Dataset

by Tae_bbang 2021. 8. 13.

안녕하세요,

기계 학습에서 모델의 성능은 어떻게 평가할까요?

 

이론적으로 모델의 성능을 증명하여 방법의 우수성을 입증하는 경우도 있지만,

최근의 Machine Learning과 Deep Learning의 기술들은 실험을 통해 모델의 성능을 주로 증명합니다.

 

이 때 실험은 공정한 비교를 위해 Public Dataset을 이용합니다.

기업 혹은 연구 단체 개인이 소유한 private dataset으로 성능이 올랐다고 말하는 것은 공공연하지 못하고, 신뢰성이 떨어지기 때문입니다.

 

 

우리에게 가장 잘 알려진 Public dataset은 ImageNet dataset 입니다.

https://www.image-net.org/

우리가 해결하려는 문제에 어울리는 데이터셋으로 모델 혹은 방법론을 평가해야합니다. 

개발자나 연구자들은 적절한 데이터셋을 찾을 때 아래의 사이트 들을 이용합니다.

 

  1. Google Dataset Search
  2. Kaggle
  3. VisualData
  4. CMU Libraries

위의 4개의 저장소 들에서 우리는 적절한 데이터셋을 찾아서 활용할 수 있습니다.

하기에는 유명한 데이터셋들을 몇개 소개하면서 글을 마무리 하겠습니다.

 

  • Boston Housing Dataset : Housing Dataset으로 불리며 보스턴 지역의 housing 관련 데이터 셋이다. [Link]
  • Google-Landmarks-v2 : landmark recognition과 retrieval을 위한 데이터 셋이다. [Link]
  • Mall Customers Dataset: 소비자의 성별 나이 수입 등을 기반으로 소비 를 예측하는 데이터 셋이다. [Link]
  • IRIS Dataset : flower petal and sepal width를 담고 있으며 3개의 클래스가 있는 데이터 셋이다. [Link]
  • MNIST Dataset : 손글씨 숫자 데이터 셋이며, 60,000장 훈련 데이터와 10,000장의 테스트 데이터를 가진 데이터 셋이다. [Link]
  • Fake News Detection Dataset : CSV file형태로 되어 있으며, news, title, text, result의 4개의 컬럼을 가진 데이터 셋이다. [Link]
  • Wine quality dataset: 서로 다른 화학정보를 가진 와인에 대한 데이터 셋이다. [Link]
  • SOCR data -Heights and Weights Dataset : 25,000명의 18세들의 몸무게와 키 데이터를 포함한 데이터 셋이다. [Link]
  • Titanic Dataset : 타이타닉 호에 탑승한 이름, 나이, 성별 등의 정보로 891명의 훈련데이터로 418명의 테스트 데이터의 생존을 예측하는 데이터 셋이다. [Link]
  • Credit Card Fraud Detection Dataset : fraudulent activity를 감지하는 모델을 위한 데이터 셋이다. [Link]
  • xView :  복잡한 scene과 bounding box들을 포함하고 있는 데이터 셋이다. [Link]
  • ImageNet : 가장 대표적인 이미지 데이터 셋이다. [Link]
  • Kinetics-700 : Youtube의 비디오 URL을 통해 뽑은 데이터 셋이며, 700,000개의 비디오를 가진 데이터 셋이다. [Link]
  • Google's Open Images : Google AI가 가진 10 million images의 데이터 셋이다. [Link]
  • Cityscapes Dataset : 비디오 스퀀스의 pixel 단위로 annotation이 되어 있는 데이터 셋이다. [Link]
  • IMDB-Wiki dataset : face images에 gender와 age가 라벨링이 되어 있는 데이터 셋이다. [Link]
  • Color Detection Dataset : 865개의 색을 CSV로 가지고 있는 데이터 셋이다. [Link]
  • Stanford Dogs Dataset : 20,580의 사진과 120개의 다른 종류의 개의 클래스를 가진 데이터 셋이다. [Link]
  • Waymo Open Dataset : Autonomous driving 을 위한 데이터 셋이다. [Link]
  • Berkeley DeepDrive BDD100k : self-driving car을 위한 자동차의 2000시간 운전 경험이 당긴 데이터 셋이다. [Link]
  • COVID-19 Dataset : Allen Institute의 AI 연구 그룹에서 제공하는 COVID-19 데이터 셋이다. [Link]
  • MIMIC-III : MIT Lab에서 40,000 중요 환자의 건강 정보를 제공하는 데이터 셋이다. 물론 익명화 되어 있다. [Link]