본문 바로가기
공부하기/경영학과 군사학

인공지능 학습용 데이터 구축목록.

by 리치캣 2023. 4. 30.
728x90
반응형

인공지능 학습용 데이터 구축목록. 

연도 분야 주요내용
2017 법률 o 국가법령 중 교통사고, 층간소음, 창업 인허가 분야의 관련 법령, 조문, 판례, 법률용어 데이터 11만건
2017 특허 o 국내 출원·등록된 전기·전자분야의 특허정보, 심사정보, 특허전문기술용어 데이터 100만건
2017 일반상식 o 한국어 위키백과에서 활용도가 높은 일반상식 데이터 15만건
2017 이미지 o 한국인 안면 이미지 600만장(200명) 및 한국음식 이미지 데이터 15만장(150종)
2018 헬스케어 o 안저 이미지에 주요 질환(녹내장, 황반변성, 당뇨망막증 등)의 전문의 검사소견을 결합한 데이터셋 3천장
2018 관 광 o 주요 관광특구내 식당, 시설의 이미지에 각종 다국어(한,영,중,일) 정보(명칭, 위치, 메뉴, 관광정보 등)를 결합한 데이터셋 150만건
2018 농 업 o 국내 농작물의 영농정보, 상담정보, 지원사업정보 등을 가공한 데이터 및 농작물 병충해 이미지 데이터 5만건
2018 특 허 o 전기·전자, 기계 화학 분야의 출원, 등록된 특허 청구항 정보, 특허전문기술용어 데이터 70만건
2018 법 령 o 이혼, 한부모가족, 학교폭력, 퇴직금개 분야 법령정보(법령, 판례, 사례, 용어 등) 데이터 10만건
2018 이미지 o 한국인 안면이미지(200명) 구축 및 국산차량(100종)에 대한 이미지 데이터 615여만장
2019 한국어 음성 o 한국어 음성 인식 성능을 향상시키기 위해 자유연속발화, 소음 환경 등을 고려한 음성 데이터 1,000시간
2019 한국어 대화 o 영상에서 인물의 표정, 음성(억양), 발화 내용 등의 감정이 포함된 멀티모달 영상 데이터 20시간
2019 멀티모달 o 중소상인 비즈니스에 적용가능한 한국어 챗봇 구축을 위한 한국어 표준 대화 시나리오 데이터 50만건
2019 기계독해 o 지문으로부터 AI가 학습을 통해 질의에 대한 답변을 추론하는 딥러닝 기반 기계독해(MRC) 데이터 40만건
2019 한영 번역 말뭉치 o 한국어 인공지능 번역 기술개발 및 성능강화를 위한 한국어-영어 병렬 말뭉치 데이터 160만건
2019 사물 이미지 o 한국형 객체, 장소, 상황 인지기술 개발 및 성능강화를 위한 사물/거리/건물/랜드마크 등 사물 이미지 데이터 360만건
2019 글자체 이미지 o 한글 광학글자인식(OCR) 성능개선을 위한 한글 글자체(손글씨 및 인쇄체) 이미지 660만건(580만자)
2019 인도보행 영상 o 시각장애인/전동휠체어 등의 보행지원기술 개발을 위한 국내 인도·횡단보도 보행 영상 및 인도위 객체(사람, 자전거, 가로수, 펜스 등) 라벨링 데이터 67만건(200시간)
2019 멀티모달 영상 o 감성인식 AI개발을 위해 동영상에서 인물의 표정, 음성, 발화 내용, 상황 등의 정보가 포함된 멀티모달 영상 데이터 6천 건(100시간)
2019 사람동작 영상 o 사람의 동작·자세·행동 인식기술 개발을 위해 다양한 조건에서 사람 동작 영상 데이터 50만건(20만 클립)
2019 안면 이미지 o 다양한 각도, 조도 등의 환경 하에서 안면인식·식별 성능강화를 위한 한국인 얼굴 이미지 데이터 1,944만장
2019 위해물품 엑스레이 이미지 o 위험물·도구 자동판별 기술개발 및 성능개선을 위한 위험물, 범죄 도구, 반입금지물품 등의 X-ray 이미지 48만장
2019 질병진단 이미지 o 안저질환 이미지, 유방암 엑스레이 이미지 및 진단결과(질환 및 정상)를 라벨링한 질병진단 이미지 데이터 3만장
2019 이상행동 CCTV 영상 o CCTV 영상에서 사람 등의 이상행동 지능형 탐지기술개발 및 성능 강화를 위한 이상행동 영상 데이터 8천 클립(700시간)
2020 문서요약 텍스트 AI데이터 o AI가 텍스트를 이해하고 핵심 내용을 요약적으로 전달하기 위해 AI SW가 해당 텍스트의 주요 내용이 무엇인지를 이해할 수 있는 형태로 가공된, 다양한 유형의 대규모 요약 텍스트 데이터(원문 40만건)
2020 대용량 동영상 콘텐츠 AI데이터 o 대용량 동영상 내 객체 탐지, 상황 이해, 행동 분석을 위한 대용량 동영상 AI 데이터 500시간
2020 딥페이크 변조영상 AI데이터 o GAN(적대적 생성 신경망) 기반의 다양한 변형 알고리즘을 통해 생성된 변조 영상을 탐지하는 AI기술 개발에 필요한 원본 및 변조 영상 데이터(15만개)
2020 수어 영상 AI데이터 o 생활 이미지와 이미지에 대한 질문을 입력받아 질문에 대한 답을 생성하는 AI데이터 20만개
2020 시각정보 기반 질의응답 AI데이터 o 생활 이미지와 이미지에 대한 질문을 입력받아 질문에 대한 답을 생성하는 AI데이터(이미지 135만장, 질의응답 750만쌍)
2020 전문분야 한영 말뭉치 AI데이터 o 대법원 판례(인공지능 판례 번역), 의료/보건(코로나19 등 pandemic 관련 공문), 가정통신문(다문화가정 지원), 금융/IT(투자자들을 위한 관심분야 정보 실시간 번역), 관광/문화(한류 국제화, 올림픽 등) 등 전문분야별 한영 말뭉치 155만건
2020 랜드마크 이미지 AI데이터 o 인공지능 기반의 시각지능 기술 및 서비스 개발에 활용하기 위한 국내 특성이 반영된 국내 도심 민간건물, 공공기관, 관광명소, 편의시설 등 국내 도시별 주요 랜드마크 이미지 데이터
2020 자율주행드론 비행 영상 AI데이터 o 관광지, 도심지, 산림지 4K, 25FPS 320시간 및 LiDAR 영상데이터 60시간
2020 한국인 대화음성 AI데이터 o 한국인의 일상 대화를 인식하고 음성을 문자로 실시간 변환하는 AI 기술 개발을 위한 대화 음성 데이터(음성 4000시간, 텍스트 400만문장)
2020 사람 인체·자세 3D AI데이터 o 2D인체 영상을 3D모델로 변환할 때, 자세(pose)와 형태(shape)를 추론하여 커머스, 스포츠 및 AR·VR 서비스를 개발하기 위한 2D-3D 인체 데이터(2D 이미지 200만장, 3D모델 50만건)
2020 질병진단(유방암조직, 부비동) 이미지 AI데이터 o 유방암 및 감염병(부비동) 질환의 진단을 위한 의료 영상 이미지 AI데이터 (유방암 병리 이미지 10만건, 부비동 8000건)
2020 도로환경 파노라마 이미지 AI데이터 o 영상데이터 수집 후 가공을 통한 자율주행용 이미지 AI데이터(도심지 파노라마(3,400km, 338,910장, 94시간 규모), 평면영상(2,711,280장, 753시간 규모))
2020 피트니스 자세 이미지 AI데이터 o 피트니스 자세 평가/피드백 AI Application을 개발하고자 하는 기관들이 사용할 AI데이터(20만개)
2020 K-Fashion 이미지 AI데이터 o 구매 또는 직접 촬영하여 저작권 문제가 해결된 패션 이미지의 패션 요소 정보를 어노테이션한 이미지 120만장
2020 한국인 재식별 이미지 AI데이터 o 대한민국의 실내/외 구축된 공공 CCTV 환경을 고려한 한국인(1,000명) 재식별 데이터 400만장
2020 도로주행영상 AI데이터 o 70건 이상 실도로 주행 데이터 Use-Case 기반 총 175TB 상당의 자율주행 원천데이터 수집, 총 학습용 데이터 60만 5천 프레임
2020 치매진단 뇌파영상 AI데이터 o 기계학습(딥러닝) 기반의 의료영상진단 AI기술의 개발·확산을 위해 치매와 경도인지장애 및 이와 관련된 질환의 영상 데이터(MRI) 및 임상전문의의 진단정보 등을 어노테이션(Annotation) 한 AI데이터 28만건
2020 감성 대화 말뭉치 AI데이터 o 우울증 등 심리 장애로 인한 사회문제 해결을 위해 감성대화 코퍼스 데이터(발화 음성 1만건, 코퍼스 27만문장)
2020 위성영상 객체판독 AI데이터 o 국내 위성 영상 활용 산업의 발전을 위해 아리랑 위성영상을 이용한 범용 위성정보 데이터 120만건
2020 구강악 2D·3D 이미지 AI데이터 o 치아 및 치주질환 진단과 치료계획 수립을 위한 파노라마 영상과 CBCT (Cone Beam Computed Tomography) 영상 데이터(파노라마 5천장, CBCT 20만장)
2020 자유대화 AI데이터 o 한국인의 음성을 문자로 바꾸고, 문맥을 이해하는 한국어 음성언어처리 기술 개발을 위한 AI 학습용 한국어 음성 DB
2020 명령어 AI데이터 o 전 연령층을 대상으로 한 명령어 데이터를 수집하고 차량 내 대화 및 명령어 데이터를 수집하여, 음성을 문자로 바꿔주고 문맥을 이해하는 한국어 음성 언어처리 기술 개발에 활용 가치가 높은 AI 학습용 한국어 음성 DB
2020 상황별음성 AI데이터 o 한국인의 음성을 문자로 바꾸어 주고, 문맥을 이해하는 한국어 음성 언어처리 기술 개발을 위한 AI 학습용 한국어 음성 DB
2020 한국어 방언 AI데이터 o 방언을 사용하는 발화자의 일상 대화를 수집하여 녹취하고 음성을 인식하고 텍스트로 전사하여 방언음성의 합성 및 활용 가능한 방언 발화 데이터
2020 요약 데이터 AI데이터 o AI가 텍스트를 이해하고 핵심 내용을 요약적으로 전달하기 위해 AI SW가 해당 텍스트의 주요 내용이 무엇인지를 이해할 수 있는 형태로 가공된, 다양한 유형의 대규모 요약 텍스트 데이터
2020 한국어 텍스트 AI데이터 o 도서자료 기계독해, 콜센터(민원) 질의-응답 데이터, 전문분야 말뭉치, 한국어 SNS등 총 4가지 도메인의 대규모 한국어 기반 텍스트 데이터
2020 영어 번역 말뭉치 AI데이터 o 고품질과 활용 가능성이 높은 전문분야의 영어 번역 말뭉치 300만개
2020 중국어-일본어 번역 말뭉치 AI데이터 o 한국어-중국어, 한국어-일본어의 양질의 대규모 AI 학습용 번역 데이터 말뭉치
2020 OCR AI데이터 o 현실 곳곳에 존재하는 한글 이미지, 다양한 서체의 한글 글자체, 공공행정문서 OCR 데이터
2020 소화기계 AI데이터 o 위암, 대장암 의료 영상정보를 기반으로 한 인공지능 학습용 데이터
2020 신장계암 AI데이터 o 신장암, 전립선암 임상정보를 기반으로 한 진단 CT영상, 병리영상, 수술 동영상 등 다차원적 인공지능 학습용 데이터
2020 간췌담도계암 AI데이터 o 판독, 식별, 분류, 예측 등에 필요한 의료 영상 및 이와 관련한 진단과정에 필요한 의료정보가 표현 가능한 형태로 결합한 형태의 데이터
2020 체부암 AI데이터 o 폐암의 X-ray, CT, PET CT 3종, 갑상선의 초음파, Neck CT, 세침흡인검사 병리이미지 3종, 유방암의 유방촬영술, 유방초음파, 유방 MRI에 대한 데이터
2020 신경계질환 o 뇌혈관 질환, 치매 및 인지기능 장애 등 신경계 질환의 진단 지원 AI 개발을 위한 학습용 데이터
2020 수면질 o 수면다원검사 학습용 데이터
2020 피부질환 o 피부질환 사진 및 임상 정보
2020 구강계질환 o 공공 및 민간 인공지능 정보기술의 개발을 촉진하기 위한 구강 점막질환 및 치과 x-ray 영상 학습용 데이터
2020 진료 및 건강 o 뇌경색 영상 데이터 수집/구축, 진단/예방/치료데이터 처리, 정제 밑 저장, 데이터 변환 및 표준화, 인공 지능 학습 데이터 구축
2020 주행 환경 정적 객체 인지 o 주행 환경 정적 객체 인지를 위한 AI 학습용 데이터
2020 동적 객체 인지 o 자율주행 기반 AI 학습용 데이터 기반 마련을 위해 동적 객체 인지(주차 장애물 인지, 주차 관련 이동체 인지, 차량·사람 인지) 데이터
2020 도로상태 및 자율버스 o 대규모 주행 데이터셋을 이용한 자율주행 분야 AI데이터
2020 드론 영상 데이터 o 드론을 통해 수집된 영상 학습데이터
2020 항만구조물 o 자율 운항의 기초 및 해상교통 사고 방지의 기초가 되는 지상 구조물에 대한 인식을 위한 학습데이터
2020 농업 영상 데이터 o 위성/드론 농경작지 촬영 영상 분야, 농산물 품질(QC) 이미지 분야, 시설 작물 개체 영상 분야, 주요 농작물 생육 이미지 데이터 분야에 대한 영상 데이터
2020 작물 질병 해충 데이터 o 농지, 시설 등 경작 작물의 재배 현황 및 작황 분석의 AI 기술 개발을 위한 다양한 작물의 질병 및 해충 데이터
2020 축산물 품질 및 가축행동 영상 o 축산물 품질 관리 강화 및 가축관리 시스템 구축을 위한 축산물 품질(QC) 이미지 및 가축 행동 영상 데이터
2020 어류행동 및 개체 데이터 o 양식어류의 행동 분석, 개체추적 등을 위한 수산 AI 개발용 영상 데이터
2020 피복지도 및 산림수종 데이터 o AI가 항공/위성 영상 중 토지피복 8개의 클래스 및 산림수종 4개의 클래스를 구분할 수 있도록 학습할 데이터
2020 환경오염 o 수질측정 및 오염원 데이터, 산업 폐기물 이미지, 생활 폐기물 이미지 데이터 수집·가공을 통해 전국 단위 수질 및 오염원 관리 자동화 AI서비스, 산업 폐기물 및 생활 폐기물의 분류·탐지 서비스 등 다양한 연구 및 산업 분야에 활용 가능한 데이터
2020 상하수도, 열화상 및 위급 상황 데이터 o 지하에 매설된 상하수관로의 누수 및 파손 발생 시, AI 기반 상태진단 및 판단을 통한 안전관리를 위한 상하수도관 공간 및 누수 데이터, 열화상 이미열화상 이미지 내의 객체검출을 통해 이상상황을 사전 감지하여 산업시설물에 대한 안전재해 및 사고 예방 데이터, 전 국민 대상 위급상황 발생 시, AI 기반 상황 인지 판단을 통한 안전 확보를 목적으로 위급상황 기반 다양한 상황별 환경별 데이터
2020 영상 콘텐츠 이해 o 영유아 교육 영상 콘텐츠, 장면인식/인물 인식을 위한 방송 영상 콘텐츠, 영상이해(맥락) 기술을 위한 방송 영상 콘텐츠 3개 분야에 있어 법적인 문제가 해결된 방송 콘텐츠로 양질의 AI 학습데이터
2020 감정인식 및 요약영상 o 한국인의 얼굴 표정과 상황적 맥락을 고려한 감정인식 학습모델 개발을 위한 영상 데이터셋과 다양한 카테고리의 영상 요약 학습모델 개발을 위한 동영상 요약 데이터
2020 사람행동영상 o 미디어 분야의 사람 행동 영상에서 2D-3D 자세와 형태 정보를 추출하여 이에 대한 데이터
2020 스포츠 사람동작 o 대표적인 운동인 골프, 축구, 농구의 스포츠 인공지능 분야 생태계 활성화를 위한 스포츠 인공지능 학습용 데이터
2020 교통안전 o 고속도로, 시내도로, 주유소 등의 CCTV 영상에서 차량과 교통관련 정보 측정 및 운전자의 상태를 판별하는 AI 기술 개발용 데이터
2020 산업안전 o 항공 활주로 내 이상물체 감지를 위한 객체 데이터, 공사현장 안전장비 인식 데이터, 화재 발생 예측 데이터(연기 동영상)
2020 CCTV영상 o 도시철도 역사 내 이상행동 13종 및 동일인 추적 대상 6종을 대상으로 CCTV 영상 인공지능 데이터
2020 생활안전 o 스쿨존 어린이 안전사회협력망, 노인 이상행동 돌봄 등 생활안전 데이터
2020 시설물안전 o 국가 SOC 시설물이나 대형 건축물의 균열(결함) 데이터를 수집 구축하여 AI를 통해 결함 유형을 분류하는 학습데이터, 노후화된 시설물 데이터를 수집 구축하여 노후 시설물 상태(정상, 수리, 교체)를 판별하는 학습데이터
2020 안면 이미지 o 최근 안면인식 기술의 급격한 사용 증가에 따라 정교한 얼굴 도용 및 위변조를 통해 안면인식 시스템을 무력화하려는 시도가 증가하고 있어, 이러한 프레젠테이션 공격 또는 스푸핑(Spoofing) 을 효과적으로 차단하기 위해 얼굴 위변조 공격에 대응하기 위한 딥러닝 기반 얼굴인식 알고리즘을 학습시키기 위한 데이터
2020 실내라이다 및 AR, VR 데이터 o 광량 변화가 존재하는 실내 환경에서 보행자가 이동할 때 이를 정확하게 추적할 수 있는 보행자 추적 기술을 개발하기 위한 학습 데이터, E커머스 분야의 가상 피팅 서비스를 위한 다양한 사람의 부위별 신체 데이터 및 의류, 악세서리 등에 관한 데이터 실감 미디어의 제작과 관련하여 실제 공간에서 물체들을 사실적으로 묘사하는데 적합한 플렌옵틱 영상 학습 데이터
2020 상품이미지 및 고객 주문질의 응답데이터 o 무인 스토어, 물류창고, t-commerce 등 다양한 분야에서 활용할 수 있는 상품이미지 데이터 및 고객 질의-응답 데이터
2020 로봇관점 주행 영상 데이터 o 국내 환경에 적합한 로봇 관점의 특화 자율주행 기술 및 서비스 개발 및 고도화를 위하여 다양한 주행 환경에서 로봇 관점의 주행 영상기반의 고품질 인공지능 학습용 데이터
2020 음식분류 o AI 학습 이미지 데이터를 개발, 각 음식별 영양성분(칼로리, 당분, 염도)에 해당하는 데이터
2020 반려동물 o 고품질의 반려동물 행동분석 AI 학습용 데이터
2020 수학분야 학습자 역량 측정 o 수학 분야 교과지식체계 및 학습자 역량 측정 및 탐색을 위한 데이터
2020 기계시설물 고장 예지 센서 o 데이터 구축이 어려운 정상 또는 고장 상태의 정보를 포함하는 모터의 인공지능 학습용 전류및 진동 데이터
2020 생활 및 거주환경 VQA o 어린이 안전환경, 노인 주거환경, 개인 일상생활, 실내 장면에 대한 국내 맞춤형 VQA AI데이터
2020 제주 월동작물 자동탐지 드론 이미지 o 제주특별자치도 주요 관심 월동 채소류 6종(월동무, 양배추, 마늘, 양파, 당근, 브로콜리)의 재배면적 자동탐지를 위한 AI 학습용 데이터
2020 치매 고위험군 라이프로그 o 정밀진단기반 알츠하이머치매 진행단계별 라이프로그 데이터
2020 폐암 예후 예측 o 폐암 환자의 조직, 혈액을 이용한 폐암 유전체정보, 폐암 환자의 PET/CT 영상데이터, 환자의 진료와 관계된 임상정보 데이터
2020 도심 혼잡 버드아이뷰 o 광각 CCTV(버드 아이 뷰)를 통한 도심 혼잡(차량, 사람) AI 학습데이터
2020 열화상 체온정보 o 발열측정 AI 서비스 기술 개발에 활용할 수 있는 열화상 이미지 데이터
2020 한국인 헤어스타일 이미지 o 가장 대중적인 헤어스타일을 1000여개의 업계표준이 될 수 있는 클래스로 분리 및 모든 클래스 헤어스타일에 대해 시술 전후 사진과 비분류 헤어스타일 수집 데이터
2020 고서 한자 인식 o 한자(고문헌) 원문 이미지에서의 문자(한자) 추출·입력을 통한 인공지능 학습용(딥러닝) 데이터
2020 모발 이식 이미지 o 두피 확대 영상 기반으로 모발의 밀도를 측정하고 모발을 각 class별로 구분된 데이터
2020 해상 객체 이미지 o 중소·벤처, 스타트업 등 민간의 해사교통안전 관련 인공지능 기술개발 촉진을 위한 대규모 인공지능 학습용 데이터
2020 안내 로봇 인터랙션 o 로봇의 1인칭 관점의 인터랙션 데이터
2020 교통 약자 주행 영상 o 전동휠체어, 의료용 스쿠터, 유모차, 보행기, 보행차 사용자들을 위한 배리어프리 존 관련 객체(턱, 부분 경사로, 연석 등)를 고려한 다양한 객체 데이터
2020 해양 침적 쓰레기 이미지 o 해양에 침적된 쓰레기의 효율적인 관리(조사, 수거 등)를 위한 소나 이미지 및 수중촬영 영상 AI데이터
2020 특수환경 자율주행 3D o 고수준 자율주행에서 가장 핵심적인 역할을 하는 라이다 데이터가 포함된 2D-3D 융합 데이터 셋 및 일반 주행 영상 데이터
2020 동의보감 약초 이미지 o 동의보감 수록 457종 약초에 대한 판별 약초 이미지 데이터 수집 및 효능 정보 텍스트 데이터
2020 의료진 및 환자 음성 o 의사, 간호사 등 의료진 직군별, 직능별 음성 데이터 구축하고, 환자의 연령별,성별, 증상별 음성데이터
2020 자궁경부암 진단 영상 o 영상/ 이미지 데이터(PACS) 및 임상전문의의 진단정보 등의 총 약 70,000건의 자궁경부암 관련 영상 이미지 데이터를 인공지능 학습이 가능하도록 라벨링하여 인공지능 학습 기반의 의료영상진단 데이터
2020 패션상품 및 착용 영상 o 온라인 패션상품의 스튜디오 영상의 자동 생성을 위한 AI데이터
2020 고해상도 Lightfield 이미지 o 영상처리 및 이해 기술개발과 4D Interactive 입체 기술개발을 위해 고해상도 Lightfield 카메라로부터 취득되는 고해상도 Lightfield(LF) 데이터
2020 상표 이미지 및 상표 텍스트 o 상표 출원 전 선등록상표에 대한 사전조사에서 상표권 침해를 해소하기 위한 상표 이미지/텍스트 AI 데이터
2020 한국인 지방 및 근육량 o 건강한 한국인의 전신 CT영상에서 근육량과 지방량을 측정하여 성별 및 연령별 정상 또는 비정상 상태를 판별하는 AI기술 개발을 위한 의료영상 데이터
2020 초해상화 이미지 o 초해상화(Super Resolution) 이미지 AI 데이터
2020 한국인 두피 상태 이미지 o 전문 진단기로 촬영한 두피 이미지 데이터
2020 전력 설비 에너지 품질 o 에너지 AI Solution 개발 확산을 목표로 스마트 그리드, 스마트 팩토리용 AI데이터
2020 버스 승객 승하차 영상 o 버스 내 설치된 카메라에서 촬영된 승객 영상 데이터
반응형

댓글