AI 개발 팁

Machine Learning을 위한 Public Dataset

Tae_bbang 2021. 8. 13. 22:17

안녕하세요,

기계 학습에서 모델의 성능은 어떻게 평가할까요?

 

이론적으로 모델의 성능을 증명하여 방법의 우수성을 입증하는 경우도 있지만,

최근의 Machine Learning과 Deep Learning의 기술들은 실험을 통해 모델의 성능을 주로 증명합니다.

 

이 때 실험은 공정한 비교를 위해 Public Dataset을 이용합니다.

기업 혹은 연구 단체 개인이 소유한 private dataset으로 성능이 올랐다고 말하는 것은 공공연하지 못하고, 신뢰성이 떨어지기 때문입니다.

 

 

우리에게 가장 잘 알려진 Public dataset은 ImageNet dataset 입니다.

https://www.image-net.org/

우리가 해결하려는 문제에 어울리는 데이터셋으로 모델 혹은 방법론을 평가해야합니다. 

개발자나 연구자들은 적절한 데이터셋을 찾을 때 아래의 사이트 들을 이용합니다.

 

  1. Google Dataset Search
  2. Kaggle
  3. VisualData
  4. CMU Libraries

위의 4개의 저장소 들에서 우리는 적절한 데이터셋을 찾아서 활용할 수 있습니다.

하기에는 유명한 데이터셋들을 몇개 소개하면서 글을 마무리 하겠습니다.

 

  • Boston Housing Dataset : Housing Dataset으로 불리며 보스턴 지역의 housing 관련 데이터 셋이다. [Link]
  • Google-Landmarks-v2 : landmark recognition과 retrieval을 위한 데이터 셋이다. [Link]
  • Mall Customers Dataset: 소비자의 성별 나이 수입 등을 기반으로 소비 를 예측하는 데이터 셋이다. [Link]
  • IRIS Dataset : flower petal and sepal width를 담고 있으며 3개의 클래스가 있는 데이터 셋이다. [Link]
  • MNIST Dataset : 손글씨 숫자 데이터 셋이며, 60,000장 훈련 데이터와 10,000장의 테스트 데이터를 가진 데이터 셋이다. [Link]
  • Fake News Detection Dataset : CSV file형태로 되어 있으며, news, title, text, result의 4개의 컬럼을 가진 데이터 셋이다. [Link]
  • Wine quality dataset: 서로 다른 화학정보를 가진 와인에 대한 데이터 셋이다. [Link]
  • SOCR data -Heights and Weights Dataset : 25,000명의 18세들의 몸무게와 키 데이터를 포함한 데이터 셋이다. [Link]
  • Titanic Dataset : 타이타닉 호에 탑승한 이름, 나이, 성별 등의 정보로 891명의 훈련데이터로 418명의 테스트 데이터의 생존을 예측하는 데이터 셋이다. [Link]
  • Credit Card Fraud Detection Dataset : fraudulent activity를 감지하는 모델을 위한 데이터 셋이다. [Link]
  • xView :  복잡한 scene과 bounding box들을 포함하고 있는 데이터 셋이다. [Link]
  • ImageNet : 가장 대표적인 이미지 데이터 셋이다. [Link]
  • Kinetics-700 : Youtube의 비디오 URL을 통해 뽑은 데이터 셋이며, 700,000개의 비디오를 가진 데이터 셋이다. [Link]
  • Google's Open Images : Google AI가 가진 10 million images의 데이터 셋이다. [Link]
  • Cityscapes Dataset : 비디오 스퀀스의 pixel 단위로 annotation이 되어 있는 데이터 셋이다. [Link]
  • IMDB-Wiki dataset : face images에 gender와 age가 라벨링이 되어 있는 데이터 셋이다. [Link]
  • Color Detection Dataset : 865개의 색을 CSV로 가지고 있는 데이터 셋이다. [Link]
  • Stanford Dogs Dataset : 20,580의 사진과 120개의 다른 종류의 개의 클래스를 가진 데이터 셋이다. [Link]
  • Waymo Open Dataset : Autonomous driving 을 위한 데이터 셋이다. [Link]
  • Berkeley DeepDrive BDD100k : self-driving car을 위한 자동차의 2000시간 운전 경험이 당긴 데이터 셋이다. [Link]
  • COVID-19 Dataset : Allen Institute의 AI 연구 그룹에서 제공하는 COVID-19 데이터 셋이다. [Link]
  • MIMIC-III : MIT Lab에서 40,000 중요 환자의 건강 정보를 제공하는 데이터 셋이다. 물론 익명화 되어 있다. [Link]