1. 컴퓨터 비전
- 인공지능(AI)의 한 분야로, 컴퓨터와 시스템을 통해 디지털 이미지, 비디오 및 기타 시각적 입력에서 의미 있는 정보를 추출한 다음 이러한 정보를 바탕으로 작업을 실행하고 추천할 수 있게 함
- AI -> 생각
- 컴퓨터 비전 -> 보기, 관찰
2. 컴퓨터 비전과 데이터셋
- 컴퓨터 비전의 모델은 데이터의 모음(일반적으로 이미지, 비디오, 시각적 정보)을 학습
- 데이터셋은 모델의 성능을 결정하는데 중요(양과 품질) -> 데이터셋의 크기는 모델이 학습 중에 본 예제의 수를 나타내기 때문
- 데이터셋의 품질은 주석이 잘 못 지정되거나 레이블이 잘 못 저장된 경우 모델의 성능에 부정적 영향을 줄 수 있음
- 다양한 객체 변형의 존재, 조명 조건, 배경 등을 포함한 데이터셋의 다양성도 모델의 견고성을 보장하는 데 중요한 역할
3. 어노테이션(주석)
- 데이터셋의 데이터에 대한 정보 또는 레이블을 추가하는 프로세스
- 어노테이션은 데이터셋에 수동으로 추가하거나 컴퓨터 알고리즘을 사용하여 자동으로 생성할 수 있음
- 예) 이미지에서 특정 객체의 존재, 객체의 위치, 속성(색상, 크기, 모양 등)을 나타내는 레이블 포함
3-1. 어노테이션 종류
- Bounding Box: 이미지 내에서 객체의 위치 및 크기를 정의하는 작업. 객체 주위에 Box를 그리고 클래스로 label을 지정
- keypoint: 객체 내의 특정 관심 지점을 표시하는 작업. 예) 이미지 내 사람의 관절의 위치를 예측하는 것이 목표인 작업
- Segmentation: 이미지 내에서 객체의 경계를 정의. 컴퓨터 비전 모델은 이러한 경계를 인식하고 이미지 내의 객체를 분류하도록 학습
3-2. 어노테이션의 방법
- 수동 주석: 마우스 또는 스타일러스와 같은 도구를 사용하여 이미지 내의 각 객체에 수동으로 레이블을 지정하는 작업. 가장 시간이 많이 걸리지만 최고 수준의 제어와 정확성을 제공
- 반자동 주석: 컴퓨터 지원 도구를 사용하여 주석 프로세스의 속도를 높이는 작업. 예) 어노테이터 도구를 사용하여 객체 주위에 경계 상자를 그릴 수 있으며 컴퓨터는 자동으로 객체에 해당 클래스로 레이블을 지정
- 자동 주석: 컴퓨터 알고리즘을 사용하여 이미지 내의 객체에 자동으로 레이블을 지정하는 작업. 가장 빠르지만 정확도가 낮음
4. 유명 데이터셋
4-1. PASCAL VOC(Visual Object Classes)
The PASCAL Visual Object Classes Homepage
2006 10 classes: bicycle, bus, car, cat, cow, dog, horse, motorbike, person, sheep. Train/validation/test: 2618 images containing 4754 annotated objects. Images from flickr and from Microsoft Research Cambridge (MSRC) dataset The MSRC images were easier th
host.robots.ox.ac.uk
- 컴퓨터 비전에서 객체 인식 및 분류를 위한 데이터셋
- 디지털 카메라, 웹 페이지 및 스캔 이미지를 포함한 다양한 이미지로 구성
- 사람, 동물, 차량 및 일상적인 객체를 비롯한 20개의 다양한 객체 포함
4-2. COCO(Common Object in Context)
COCO - Common Objects in Context
cocodataset.org
- 컴퓨터 비전을 위한 대규모 이미지 인식 데이터셋
- Microsoft Research 에서 만듦
- 이미지 및 비디오의 객체를 인식하기 위한 알고리즘을 개발하고 평가할 수 있도록 설계
- 디지털 카메라, 웹 페이지 및 스캔 이미지를 포함한 다양한 소스에서 수집된 330,000개 이상의 이미지
- 사람, 동물, 차량 및 일상적인 객체를 비롯한 80개의 다양한 객체 포함
4-3. ImageNet
ImageNet
Mar 11 2021. ImageNet website update.
www.image-net.org
- 스탠포드 비전 랩과 프린스턴 대학에서 만듦
- 디지털 카메라, 웹 페이지 및 스캔 이미지를 포함한 다양한 소스에서 수집된 1400만개 이상의 이미지
- 사람, 동물, 차량 및 일상적인 객체를 비롯한 1000개의 다양한 객체 포함
- 1000개의 객체 범주 집합에서 하나 이상의 클래스 리이블이 주석으로 지정
4-4. KITTI(Karlsruhe Institute of Technoloty and Toyota Technological Institute at Chicago)
The KITTI Vision Benchmark Suite
We thank Karlsruhe Institute of Technology (KIT) and Toyota Technological Institute at Chicago (TTI-C) for funding this project and Jan Cech (CTU) and Pablo Fernandez Alcantarilla (UoA) for providing initial results. We further thank our 3D object labeling
www.cvlibs.net
- 컴퓨터 비전 및 로봇 공학을 위한 데이터셋
- 움직이는 차량에서 캡처한 이미지 및 비디오에서 객체 인식 및 감지를 위한 알고리즘의 개발 및 평가를 위한 실제 데이터를 제공
- 움직이는 차량에서 캡처한 7000개 이상의 이미지와 비디오로 구성
- 도시 및 농촌 환경, 도로, 건물, 차량, 및 보행자를 포함한 다양한 객체와 장면
- 주석에는 3D 공간에서 객체의 위치와 방향에 대한 정보를 포함
'컴퓨터 비전' 카테고리의 다른 글
[컴퓨터 비전] VGG19을 활용한 균열 vs 정상 벽 분류하기 (0) | 2024.09.11 |
---|---|
[컴퓨터 비전] ResNet, DenseNet, EfficientNet을 활용한 재활용품 이미지 분류하기 (0) | 2024.09.09 |
[컴퓨터 비전] VGG19을 활용한 산타클로스 vs 일반인 분류하기 (0) | 2024.09.03 |
[컴퓨터 비전] AlexNet을 활용한 안경착용 vs 안경미착용 분류하기 (0) | 2024.08.28 |
[컴퓨터 비전] AlexNet을 활용한 깔끔한 방 vs 지저분한 방 분류하기 (0) | 2024.08.26 |