안녕하세요,
기계 학습에서 모델의 성능은 어떻게 평가할까요?
이론적으로 모델의 성능을 증명하여 방법의 우수성을 입증하는 경우도 있지만,
최근의 Machine Learning과 Deep Learning의 기술들은 실험을 통해 모델의 성능을 주로 증명합니다.
이 때 실험은 공정한 비교를 위해 Public Dataset을 이용합니다.
기업 혹은 연구 단체 개인이 소유한 private dataset으로 성능이 올랐다고 말하는 것은 공공연하지 못하고, 신뢰성이 떨어지기 때문입니다.
우리에게 가장 잘 알려진 Public dataset은 ImageNet dataset 입니다.
우리가 해결하려는 문제에 어울리는 데이터셋으로 모델 혹은 방법론을 평가해야합니다.
개발자나 연구자들은 적절한 데이터셋을 찾을 때 아래의 사이트 들을 이용합니다.
위의 4개의 저장소 들에서 우리는 적절한 데이터셋을 찾아서 활용할 수 있습니다.
하기에는 유명한 데이터셋들을 몇개 소개하면서 글을 마무리 하겠습니다.
- Boston Housing Dataset : Housing Dataset으로 불리며 보스턴 지역의 housing 관련 데이터 셋이다. [Link]
- Google-Landmarks-v2 : landmark recognition과 retrieval을 위한 데이터 셋이다. [Link]
- Mall Customers Dataset: 소비자의 성별 나이 수입 등을 기반으로 소비 를 예측하는 데이터 셋이다. [Link]
- IRIS Dataset : flower petal and sepal width를 담고 있으며 3개의 클래스가 있는 데이터 셋이다. [Link]
- MNIST Dataset : 손글씨 숫자 데이터 셋이며, 60,000장 훈련 데이터와 10,000장의 테스트 데이터를 가진 데이터 셋이다. [Link]
- Fake News Detection Dataset : CSV file형태로 되어 있으며, news, title, text, result의 4개의 컬럼을 가진 데이터 셋이다. [Link]
- Wine quality dataset: 서로 다른 화학정보를 가진 와인에 대한 데이터 셋이다. [Link]
- SOCR data -Heights and Weights Dataset : 25,000명의 18세들의 몸무게와 키 데이터를 포함한 데이터 셋이다. [Link]
- Titanic Dataset : 타이타닉 호에 탑승한 이름, 나이, 성별 등의 정보로 891명의 훈련데이터로 418명의 테스트 데이터의 생존을 예측하는 데이터 셋이다. [Link]
- Credit Card Fraud Detection Dataset : fraudulent activity를 감지하는 모델을 위한 데이터 셋이다. [Link]
- xView : 복잡한 scene과 bounding box들을 포함하고 있는 데이터 셋이다. [Link]
- ImageNet : 가장 대표적인 이미지 데이터 셋이다. [Link]
- Kinetics-700 : Youtube의 비디오 URL을 통해 뽑은 데이터 셋이며, 700,000개의 비디오를 가진 데이터 셋이다. [Link]
- Google's Open Images : Google AI가 가진 10 million images의 데이터 셋이다. [Link]
- Cityscapes Dataset : 비디오 스퀀스의 pixel 단위로 annotation이 되어 있는 데이터 셋이다. [Link]
- IMDB-Wiki dataset : face images에 gender와 age가 라벨링이 되어 있는 데이터 셋이다. [Link]
- Color Detection Dataset : 865개의 색을 CSV로 가지고 있는 데이터 셋이다. [Link]
- Stanford Dogs Dataset : 20,580의 사진과 120개의 다른 종류의 개의 클래스를 가진 데이터 셋이다. [Link]
- Waymo Open Dataset : Autonomous driving 을 위한 데이터 셋이다. [Link]
- Berkeley DeepDrive BDD100k : self-driving car을 위한 자동차의 2000시간 운전 경험이 당긴 데이터 셋이다. [Link]
- COVID-19 Dataset : Allen Institute의 AI 연구 그룹에서 제공하는 COVID-19 데이터 셋이다. [Link]
- MIMIC-III : MIT Lab에서 40,000 중요 환자의 건강 정보를 제공하는 데이터 셋이다. 물론 익명화 되어 있다. [Link]
'AI 개발 팁' 카테고리의 다른 글
AI - IT기업 기술 개발을 위한 블로그 모음 (2) | 2021.08.13 |
---|---|
[학회 정보] AI 분야의 최고 학회들 (0) | 2021.08.05 |
[Python] NotImplementedError 사용법 (0) | 2021.08.04 |
[screen] screen 사용법 (0) | 2021.08.01 |
[Vim] Terminal shell의 사용 : Vim keynote (0) | 2021.08.01 |