본문 바로가기
재테크,주식,부동산,n잡러,파이프라인

09.20. 데이터라벨러?

by 파파켁 2023. 9. 20.
728x90
반응형
SMALL

AI 시대와 데이터 라벨링(Data Labeling)

 

AI 시대를 살아가면서 우리는 현재 제4차 산업혁명이라는 테두리에서도 조금 더 나아간 급작스럽게 2023년에 마주하게 된 AI시대의 도래가 엄청 가까움을 피부로 느끼고 있는 요즘이다.

 

바로 얼마전 까지만해도 메타버스의 'meta'가 엄청난 키워드였다면 이제는 명실 상부히 'AI'시대로의 변화를 맞이하고 있다.

딥러닝, NFT, ChatGPT,구글의 바드 등 AI기술이 적용된 플랫폼을 사용하고 받아들이는 침투율 면에서도 과거 페이스북으로 전환 시기에 비해면 며칠 만에 억 명의 전환 수요가 일어날 만큼 그 침투율이 과거와 달리 빠르고 깊숙하다.

 

이런 말을 하게된 이유는 그렇다면 이런 시대에 우리의 환경과, 삶, 직업, 가치관은 얼마나 또 빠르게 변할 것인가에 대한 문제를 제기하지 않을 수 없기 때문이다.

 

나 조차도 노잡러이지만 N잡을 꿈꾸며 디지털 노마드 시대의 혜택이 나에게도 오기를 바라는 사람 중 하나이다.

 

하지만 갈 수록 AI기술들을 사용하다 보면 '내가 할 수 있는 일들이 사라지겠는데?'라는 생각이 종종 든다.

 

어도비가 발표한 각종 기능들과 firefly제품의 베타버전만 써보더라도 정말 이제는 열심히 누끼딸 필요도 없고 인공지능이 원하는 부분도 자연스럽게 채워주고 그러한 서비스 하나에도 감탄이 절로 나온다.

 

점점 N잡하기 힘들어지겠는데??라는 생각을 하면서

 

그래도 놀 수는 없기에 이것저것 항상 뭔가를 찾기에 찾아낸 하나의 키워드 '데이터 라벨링'에 대해 이야기해보고자 합니다.

데이터 라벨링이란?

데이터 라벨링이란, 쉽게 이야기 한다면 인공지능 (AI)가 학습용 데이터를 구축하는 하나의 과정으로 쉬운 예롤 고양이 사진을 보여주고 고양이라고 라벨링 하고, 강아지를 보고 강아지라고 라벨링 해두면 추후에 같은 이미지들이 반복적으로 쌓였을 때 이것들을 학습해서 강아지, 고양이를 나눈다고 생각하시면 쉽습니다.

 

가장 쉬운 예로는 우리가 가끔 구글에서 혹은 어떤 계정에서 로그인을 할때 이런 문구가 나오죠?

 

'나는 로봇이 아닙니다' ->'횡단보도가 포함된 이미지를 고르시오'

많이들 보셨을 텐데요. 이게 바로 데이터 라벨링의 한 종류입니다. 구글의 경우 자신들이 가진 엄청난 플랫폼의 지위를 이용해서 아주아주 예전부터 이렇게 데이터 라벨링을 무료로!!! 해왔던 것이죠. 우리는 아무 생각없이 시키는 대로 했지만 이것은 구글의 알파고와 같은 딥러닝 AI의 개발에 저희가 무료봉사한 덕분이기도 합니다.

 

데이터라벨링의 종류

 

1. 이미지 라벨링: 이미지에 대한 객체 감지, 분할, 분류 및 특징 포인트 지정과 같은 작업을 포함합니다. 예를 들어, 자율 주행 자동차를 위한 학습 데이터를 만들 때 도로에 있는 차량, 보행자, 신호등 등을 라벨링 하는 것이 포함됩니다.


2. 텍스트 라벨링: 텍스트 문서나 문장에 대한 주석을 달거나, 감정 분석을 위해 각 문장의 감정을 라벨링하는 등의 작업이 포함됩니다.


3. 오디오 라벨링: 음성 데이터에 대한 전사 작업이나 화자 인식 작업과 같이 음성 처리를 위한 데이터를 라벨링하는 것이 포함됩니다.


4. 비디오 라벨링: 동영상 데이터에 대한 객체 추적, 행동 인식, 장면 분할과 같은 작업이 비디오 라벨링에 해당합니다.

 

데이터라벨링과 데이터 라벨러


위에서 보듯 데이터 라벨링은 기계적으로도 수행되지만 종종 사람에 의해 수행되며, 보다 더 정확하고 일관된 라벨링이 중요한데 기계가 하지 못하는 부분은 인간이 수행하여 그 자료들을 만들어 내야만 한다. 또한 이렇게 라벨링 된 데이터는 모델 훈련 및 평가에 사용되며, 모델은 이러한 데이터를 기반으로 예측 및 결정을 내리게 된다. 그러다 보니 데이터 라벨링의 품질은 모델의 성능에 직접적인 영향을 미치게 되므로 AI 기업들은 점점 더 데이터 라벨링을 고도화하고 정확하게 하는 것에 그 중요성이 강조되고 있다.

 

그래서 등장한 새로운 직업군이 바로 '데이터 라벨러'이다.

새로운 직업군으로서의 데이터 라벨러는 과연 어떨까요?

데이터 라벨링은 시간과 공간의 제약이 없습니다. 그렇기에 진입장벽은 높아 보이지 않습니다. 아무다 할 수 있다는 이야기죠. 하지만 AI시대에는 방대한 데이터들을 차곡차곡 정리하고 머신러닝을 통해 계속 학습하고 배워야하다보니 아무래도 학습용 데이터를 제공하는 데이터 라벨링의 중요성은 각 기업에서나 국가적인 측면에서 중요하다고 보고 있는 것 같습니다. 단, 앞서 말씀드린 대로 라벨러는 제가 보기엔 진입장벽이 높지 않다!라는 가장 큰 문제가 있습니다. 이 말은 너나 나나 쟤나 얘 나 아무나 다 할 수 있다는 거죠~ 다만 검수자의 영역은 진입장벽이 제법 높아 보입니다. 일반 라벨러보다는 검수자가 되는 게 좋을 것 같아 보이네요.

 

데이터라벨러는 두 가지로 분류됩니다.

작업자: 정확도 높은 라벨링작업이 필요한 환경에서 작업이 제대로 되지 않았을 경우, 3번 과정에서 반려가 되고, 재작업 및 재검수 과정을 거쳐야 한다. 

검수자: 데이터라벨러가 작업한 작업물을 검수하여 작업의 통과 및 반려를 결정하는 사람. 검수자는 작업자의 작업을 검사하고 통과, 반려 결정하며, 검수자의 역량에 따라 라벨링 결과물의 정확도가 확연히 달라지기도 한다. 당연하게 검수자는 작업자에 비해 높은 숙련도와 스킬이 요구된다. 더불어서 보수율도 엄청 높겠죠??작업자보다는 검수자를 목표로 데이터라벨러가 되는것이 좋아 보입니다 ^^

 

 

728x90
반응형
LIST