August 2019

AutoML er oversolgt: Kode-evner bliver kun vigtigere for Data Scientists

Magnus Boye
REDAKTØR PÅ DATATECH
GRACE AI Platform
MLOps

AutoML kan kun gøre den meget nemme del af arbejdet med data science, og programmeringsevner er kritiske, mener data science-chef.

AutoML har det seneste år været et af de store temaer fra selskaber bag analytics-løsninger. Selskaber som Google og Microsoft har indbygget automatiseret machine learning i deres flagskibsprodukter, og løftet er typisk, at brugeren nu kan bygge komplekse ML-modeller uden at skrive så meget som en linje kode.

For Benjamin Biering, der er Head of Data Science hos 2021.AI, klinger løftet en smule hult.

“Jeg mener, at værdien i AutoML er ret begrænset,” indleder han.

“Det, AutoML gør, er den nemme del af arbejdet: at vælge modellen og hyperparametrene. Det svære er at forstå problemet gennem data, altså datamining, og feature engineering, for at finde frem til den data, som indeholder informationen som gør os i stand til at lave forudsigelser,” siger Benjamin Biering og tilføjer:

“Så AutoML er fint, men det kommer ikke automatisk til at løse dine problemer uden videre.”

Når man arbejder med Deep Learning, kan der være fordele i at se nærmere på de nyeste fremskridt inden for neural architechtural search (NAS), som er en del af AutoML, for at optimere dine resultater yderligere. Men generelt vil man som praktiker sandsynligvis have flere og bedre værktøjer i værktøjskassen, lyder argumentet fra Benjamin Biering.

“Med erfaring får man en sans for, hvilke modeller der performer bedst og når det handler om at optimere, er der mange andre muligheder. Jeg ser derfor ikke meget medvind for AutoML i branchen på nuværende tidspunkt. De fleste peers, jeg taler med, synes ikke, at AutoML-løsningerne er attraktive nok, når det handler om at anvende dem på faktiske projekter, som de er involverede i.”

Der er nogle seriøse institutioner, som MIT, der undersøger mulighederne for brugen af automatiseringsværktøjer – ikke kun i forhold til automatisering, men også i forhold til at øge gennemsigtigheden i modeludvikling ved at holde styr på de forskellige eksperimenter, modeller og parametre, der er i spil, pointerer Benjamin Biering.

“Jeg vil derfor ikke afvise værdien i at forske videre i sådanne værktøjer, men jeg vil gerne være med til at nuancere det billede, som tegnes af AutoML-værktøjer i dag.”

Machine learning-koden er kun en lille del af systemet, og AutoML løser kun en lille del af den opgave, fremhæver han.

“Der er til gengæld et stigende fokus omkring produktion og teknisk gæld i machine learningsystemer,” påpeger Benjamin Biering og fremhæver, at Google har lavet et sæt best practice-regler for arbejdet med machine learning, hvoraf de seneste handler om engineering-problemer mere end data science-problemer.

“Ideen med det er, at det er mere vigtigt at have en fungerende pipeline, der giver værdi, og som inkrementelt kan forbedres, end et over-teknisk system, der går i stykker, når det kommer i produktion.”

Meget mere kode

Den stigende grad af automatisering har sat gang i diskussioner om, hvad der fremover vil være de vigtigste evner for en data scientist. På SDU har man for eksempel nu udbudt en data sciencekandidat, der kun rummer lidt programmering – netop med henvisning til værktøjer, der abstraherer kompleksiteten væk.

Men spørger man Benjamin Biering, er behovet for at kunne skrive kode som data scientist ikke blevet mindre – tværtimod.

“Dét, som industrien har brug for nu, er folk med bedre programmeringsevner,” siger han.

“At være i stand til at kode gør, at du kan afprøve dine egne ideer meget hurtigere. Og jeg er ked af at sige det, men det er der ingen vej udenom. Du kommer ikke til at stå som i ‘Minority Report’ og kode algoritmer ved at trække ting rundt – i hvert fald ikke på den korte bane.”

I store selskaber er data scientists i dag først og fremmest scientists, vurderer Benjamin Biering.

“Men jeg tror, at også for dem, bliver det mere og mere vigtigt at vide, hvordan man skal kode. Lige nu bruger de kode til at lave eksperimenter og for at se, om deres ligninger virker,” siger han.

Men når koden skal i produktion, er det også vigtigt, at koden er effektiv og ikke tager for lang tid at eksekvere. Tager du ikke højde for de aspekter, får du problemer, når du vil indsætte det, du har udviklet, i et rigtigt system, understreger Benjamin Biering.

“Så kommer IT eller DevOps-folk og mener, at det skal skrives om til C# eller Java. Og den stakkels data scientist har lavet det hele i R, og hvad gør man så? Der er rammeværker til at bygge bro imellem de to verdener, men det kræver erfaring at knække den nød,” siger Benjamin Biering og fortsætter:

“De bedste data scientists, jeg kender, er ekstremt gode til matematikken, men er også egentlige softwareudviklere. Og det er fremtiden for data scientists på den korte bane – det er meget svært at lave forudsigelser på den lange bane.”

“Ledende eksperter inden for AI anbefaler også den nye generation at fokusere på fundamental matematik som for eksempel lineær algebra, infinitesimalregning, optimering og så videre. Disse færdigheder er nemlig nødvendige for at kunne opnå de nye muligheder.”

Farlig forderejning

Alene det at være scientist er ikke nok i dag, hvis man skal have succes som data scientist, vurderer Benjamin Biering og fremhæver, at mange ph.d.er forlader forskningsverdenen og bevæger sig til industrien.

“Det er ikke et nemt ryk, for de har arbejdet på et meget specifikt problem i lang tid. De ved typisk ikke, hvad der foregår i industrien og i tech-verdenen, og de kender ofte ikke de tekniske værktøjer. De er også nødt til at udvikle deres programmeringsevner væsentligt for at blive virkelig gode data scientister og dermed værdifulde for virksomhederne,” siger han og fortsætter:

“Jeg ser mange virksomheder, som leder efter profiler med både data science- og data engineeringkompetencer; folk, der kan kode ordentligt – omend ikke på niveau med en udvikler – og samtidig er rimelig gode til matematikken. Det er effektivt, fordi du slår to personer sammen, og det koster mindre. Men det er også en profil, som er svær at finde.”

Generelt oplever Biering, at det er svært at finde profiler, der kan kombinere det at kunne kode med matematikken bag.

“Vi har rekrutteret i et stykke tid, og det er svært at finde de profiler med programmeringsevner, som kan anvendes i industrierne, til at løse de forretningsproblemer, som er derude. Der er gode uddannelsesprogrammer, så den næste generation er på vej. Vi har mange unge folk på vores team, og jeg er ikke i tvivl om, at de er på rette vej.”

Men løsningen på de manglende profiler er ikke automatiseret data science, understreger Biering

“Du kan kun bruge AutoML til det, der er allernemmest. I dag lyder løftet fra softwarevirksomheder, at du kan lave data science, selvom du ikke forstår det. Det er en fordrejning af sandheden, og det er farligt. Forstået på den måde, at hvis du automatiserer noget, som du ikke forstår 100 procent, end ikke som data scientist, så er der meget lille sandsynlighed for, at andre i din organisation forstår, hvor dine resultater kommer fra, og hvilket grundlag du har for de beslutninger, du tager. Demokratisering af data science er en god ide – men ikke på den måde.”

Artiklen er udgivet af DATATECH

Transcript

More news

Get the latest news

Stay up to date on our latest news and industry trends