Andrew Ng이 2021년 7월에 HBR에 기고한 "AI Doesn’t Have to Be Too Complicated or Expensive for Your Business"에 대한 요약과 의견 정리를 해본다.

현재 Ng은 산업용 AI를 위한 MLOps 플랫폼을 개발하는 Landing AI의 설립자이기도 하다. 학계와 빅테크 기업을 중심으로 성장했던 AI 기술을 산업현장에 적용하는 과정에서 겪을 수 있는 어려움과 산업용 AI개발을 위해 제안하는 방향성에 대해서 알아 볼 수 있다.

여기서는 Ng이 말하는 메시지를 주요 포인트로 나눠보고, 응용공학을 전공하고 필드의 데이터를 지금껏 다루었던 내 경험으로 코멘트를 덧붙여 정리해본다. 

 

 

(1) 인터넷 빅테크 기업의 AI 적용 사례로부터 생긴 큰 기대

it has transformed consumer internet companies such as Google, Baidu, and Amazon — all massive and  data-rich with hundreds of millions of users. 
Here’s the problem: The playbook that these consumer internet companies use to build their AI systems — where a single one-size-fits-all AI system can serve massive numbers of users — won’t work for these other industries.
Instead, these legacy industries will need a large number of bespoke solutions that are adapted to their many diverse use cases. This doesn’t mean that AI won’t work for these industries, however. It just means they need to take a different approach.

 

2010년대 이후 AI기술 발전에는 학계의 연구자들보다도 인터넷 빅테크 기업들의 기여도가 컸다. 그러다보니 AI모델의 개발방향 역시 주로 번역, 컨텐츠추천, 광고알고리즘 등을 주요 타겟이었다. 이런 분야의 특징은 아주 큰 데이터셋을 학습해서 AI 모델을 만든 후 이를 모든 사람들에게 적용할 수 있다는 점이다.

 

빅테크 기업은 수억명의 사용자가 동일한 서비스를 사용하면서 생긴 데이터를 이용할 수 있고, 많은 데이터로 거대한 모델을 만들고 단일화된 파이프라인으로 배포하는 적용하는 것이 가능할 것이다.

 

하지만 이런 성공사례를 바탕으로 'AI는 인간보다 똑똑하며 많은 문제를 쉽게 해결할 수 있다' 라는 주장은 제조업 등 다른 분야의 산업에 적용되지 못하고 있다. 물론 많은 분야에서 최신 AI기술이 성능을 높일 수 있다는 것에는 의심의 여지가 없지만, 구글, 페이스북, 아마존 등 인터넷 빅테크 기업들의 사례로 생긴 기대치를 만족시키기는 여전히 어렵다.

 

이 때문에 많은 기업들이 AI를 자사의 제품이나 서비스에 적용하려했으나, 아주 제한적인 분야에만 적용하면서 '최신 AI기술을 적용한다'는 마케팅적 효과만 얻고 있는 중이라고 생각한다.

 

 

(2) AI가 인터넷 기업 외에 적용되기 어려운 이유들

1. Small datasets.
In other industries, the dataset sizes are much smaller.Techniques built for 50 million data points don’t work when you have only 50 data points.
2. Cost of customization. 
Consumer internet companies employ engineers to build and maintain monolithic AI systems that create tremendous value.  But in other industries, there are numerous projects, each of which needs a custom AI system. 
Economics of an individual project might not support hiring a large, dedicated AI team to build and maintain it.
3. Gap between proof of concept and production. 
Even when an AI system works in the lab, a massive amount of engineering is needed to deploy it in production.

 

첫번째는 나도 대학원 연구실에서부터 수년째 반복재생하고있는 멘트고, 아마 대부분의 현장 ML솔루션을 만드는 엔지니어들의 고충일 것이다. 당연히도 데이터는 부족하다. 그런데 문제는 IT기업들의 성공사레들, 시뮬레이션이나 실험데이터를 이용한 논문들에서 사용된 AI모델과 SOTA 결과와 비교하게 되니 체감하는 효과가 낮을 수밖에 없다. 지속적으로 데이터의 중요성이 여러 산업분야에서 인식되고 있는 덕에 데이터를 구하기 쉬워지고는 있지만, 여전히 딥뉴럴넷을 적용하기 어려울 만큼 데이터가 소수이거나 데이터셋의 bias 문제를 겪는 분야가 많다.

 

두번째는 위에서 먼저 한 이야기의 연장선상에 있다. 산업용 AI모델은 필연적으로 여러 기업과 사업장을 대상으로 AI모델을 개발하고 관리해야하기때문에 인터넷기업에 비해 투입되는 자원이 분산되고 기술적으로 최상의 솔루션을 제공하기 어렵다.

 

세번째로, PoC와 실제 적용의 갭을 말한다. 특히 제조업 등 일반 기업의 내부에서 AI 전문인력을 운영하지 않고 외부에 소싱하는 경우에 특히 더 문제가 된다. PoC 단계에서 추출된 데이터로 AI모델을 만들고 성능을 확인했다고해도, 이를 산업현장에 내재화 시키는 것은 상당히 어려움이 따른다. Python과 API 등을 다룰 인력이 없는 회사의 프로덕트에 AI모델 파이프라인을 적용하는게 얼마나 어려운지..

 

 

(3) model-centric에서 data-centric으로

Over the last decade, a lot of AI research was driven by software-centric development (also called model-centric development) in which the data is fixed.
But at AI’s current level of sophistication, the bottleneck for many applications is getting the right data to feed to the software. 

 

2010년대의 많은 AI 관련 논문과 모델들은, 사전에 정의된 데이터셋을 대상으로 SOTA 또는 그에 준하는 개선을 이끌어 내는 결과를 보여줬다. 여기는 주어진 데이터셋에서의 성능이 일반적인 세상의 문제를 해결할 수 있다는 가정이 들어간 것이다.

 

하지만 산업현장에서 그런 나이브한 가정은 절대 통할리가 없다. A회사에서 나온 데이터를 학습시켜 B회사에 적용할 수 있을까. 매년 바뀌는 제조설비와 제품생산환경에 오래된 데이터를 학습한 모델을 적용할 수 있을까. 그래서 산업용 AI에서만큼은 모델의 벤치마크 성능보다, 적절히 쓸만한 모델을 만들고 좋은 데이터('good data')를 활용하는 방법을 적용해야 한다.

 

Ng은 각 기업이 보유한 도메인 전문인력과 자원을 AI모델개발에 이용할 수 있는 장점에도 주목한다. 기존의 전문가들이 데이터를 잘 라벨링할 수 있다면, 웬만한 모델의 파라미터 튜닝보다 더 큰 성능개선을 만들 수 있다는 점이다.

아마 이같은 해결방법은 정해진 데이터로 과제를 풀어야하는 SOTA 경쟁에 익숙해있던 AI연구자들이 쉽게 잊어버리기 쉬운 것인듯하다. 엔지니어로서 항상 마음에 품고 있는 그 구절을 다시 외쳐본다. "Garbage-In, Garbage-Out"

 

 

(4) 그래서 우리는 MLOps로 간다

 

The shift toward data-centric AI development is being enabled by the emerging field of MLOps
First, ensuring high-quality data means that AI systems will be able to learn from the smaller datasets available in most industries.
Second, by making it possible for a business’ domain experts, rather than AI experts, to engineer the data, the ability to use AI will become more accessible to all industries.
And third, MLOps platforms provide much of the scaffolding software needed to take an AI system to production

 

data-centric 방식의 AI모델 개발을 위해서 필요한 개념이 바로 MLOps 이다. (MLOps에 대한 자세한 방법론을 이야기하는 글은 아니므로 자세한 얘기는 패스하자)

 

위에서 말한 것처럼 산업용 AI 개발에는 데이터 볼륨의 한계를 high-quality로 극복하는 것을 전략으로 한다. 이것을 위해서 도메인 전문가들이 직접 데이터 랭글링 과정에 개입하고, PoC 후 모델 배포까지 이어지도록 하는 것이 산업용 MLOps의 운영이라고 설명하고 있다.

 

나는 데이터의 품질을 높여서 볼륨의 한계를 극복하자는 개념에 대해서는 백번 동의하지만, 그 방법이 도메인 전문가들의 수동적인 개입이라는 점에서는 약간의 의문이 생긴다. 산업용 기계장치 등에서 발생하는 여러 데이터는 굉장히 복잡하고 데이터포인트마다 의미를 부여하기 어렵기때문에 휴리스틱과 AI모델간 갭이 발생할 문제도 있다고 본다.

 

데이터 랭글링이 단순히 이미지 라벨링 하는 수준의 작업이 아닌데, 초단위 이하로 쏟아지는 데이터들에 도메인 전문가들의 노하우를 어떻게 반영할 것인지가 이른바 아트의 영역이 될듯하다. MLOps 플랫폼을 만든다해도 여전히 현장에서는 어려움이 꽤 많을 것이다.

 

덧붙이자면, 산업용 AI기술 적용에서 주목받는 한 스타트업과 인터뷰했을 때도 가장 struggle 하고 있는 부분 중 하나로 이런 상황을 얘기해주시곤 했다.

 

 

(5) AI-MLOps 적용을 위한 3가지 가이드라인 

 

1. Instead of merely focusing on the quantity of data you collect, also consider the quality
2. Make sure your team considers taking a data-centric approach rather than a software-centric approach.
3. Be sure to plan the deployment process and provide MLOps tools to support it. For example, even while building a proof of concept system

 

첫번째, 데이터가 부족한 것에만 집중하지 말고 데이터의 품질 향상에 주목해라

두번째, model(software)-centric 보다 data-centric 으로 접근해라

세번째, 처음단계부터 MLOps와 모델배포를 고려한 계획을 수립해라

 

산업에 직접 AI 모델을 적용할 때는 데이터의 품질을 개선하는 것도 중요한 포인트이며, 데이터수집부터 모델배포까지 실제 어떻게 현장에 적용할 수 있을지를 처음부터 고려해야한다는 것으로 요약할 수 있겠다.

 

학교수업이나 부트캠프 등에서 벤치마크 데이터나 일회성으로 수집된 데이터로 최대한 높은 성능의 모델을 만드는 것에 익숙한 사람이, 산업용 AI 개발 프로젝트에 투입된다면 반드시 이러한 포인트를 인지해야할 것이다.

 

 

 

 

 

 

 

+ Recent posts