Fast, Reliable, Yet Catastrophically Failing!?! Safely Avoiding Incidents When Putting Machine Learning Into Production

Big Data & AI Conference Dallas, Texas June 27 –
29, 2019 www.BigDataAIconference.com

SAFELY AVOIDING INCIDENTS WHEN PUTTING ML INTO PRODUCTION ‣ fast,
reliable, catastrophically failing?

WHO? ▸ Software Engineer ▸ Working on Data Science teams
as the fool ▸ Exposed to “proper science” ▸ Put this model/data product into prod @rmn

WHAT ARE WE TALKING ABOUT @rm n

MODELS IN PRODUCTION SEVERE OUTAGES VOCABULARY FOR THINKING ABOUT OPERATION
@rm n

YOU SOFTWARE CHANGES THE ENVIRONMENT CHANGES @rm n 2 THREATS
TO AVAILABILITY

IT’S SLOW IT’S DOWN IT’S INTERMITTENTLY AVAILABLE IT’S DOING SOMETHING
WEIRD IT’S MAKING SOMETHING ELSE ACT WEIRD @rm n TRADITIONAL CHARACTERISTICS OF AN INCIDENT

EASY TO REASON ABOUT NOT ALWAYS EASY TO DEBUG CAN
BE INSTRUMENTED CONVENTIONALLY FOR REDUCING MTTD, MTTR @rm n

WE LEARN ABOUT AND IDENTIFY WHAT IS HAPPENING WHILE IT
IS HAPPENING @rm n

IT’S FASTER IT’S AVAILABLE IT’S STABLE IT’S DOING SOMETHING WEIRD
IT’S MAKING SOMETHING ELSE ACT WEIRD @rm n CHARACTERISTICS OF ML INCIDENT

DIFFICULT TO REASON ABOUT DIFFICULT TO DEBUG NEEDS DIFFERENT APPROACH
TO OBSERVABILITY & INSTRUMENTATION TO IMPROVE DETECTION AND REDUCE SIZE AND DURATION OF INCIDENTS MTTR MUCH HARDER @rm n

WE CAN’T ALWAYS IDENTIFY ANYTHING IS HAPPENING WHILE IT IS
HAPPENING ONCE DETECTED WE CAN ONLY IDENTIFY WHAT HAPPENED AFTER MITIGATION @rm n

BEHAVIORAL OUTAGES DATA DATA DATA DATA DATA DATA DATA DATA
DATA DATA DATA DATA DATA DATA DATA REPLACES CODE @rm n

DATA REPLACES CODE @rm n

IT’S STABLE PIPELINE JUNGLE STALE DATA WAS USED SO NOTHING
CHANGED SERVING STALE, IRRELEVANT INFERENCES DIDN’T IMPROVE ANY KPI INCIDENT #1 @rm n

IT’S FASTER TRAINED INCORRECTLY WITH UNSTABLE DATA DISTRIBUTION OF LABELS
CHANGED MODEL IGNORED NEW INPUT AT INFERENCE TIME FASTER RESPONSE TIME HOORAY INCIDENT #2 @rm n

IT’S STABLE NO AUTOMATION OR REPRODUCIBLE BUILD PIPLINE PRODUCTION ARTIFACT
BUILT ON SCIENTISTS MACHINE WRONG ARTIFACT BUNDLED WRONG ASSIGNMENT IN MARKETPLACE BONUS INCIDENT: WHAT HAPPENED WHEN SCIENTIST LEFT COMPANY? @rm n INCIDENT #3

IT’S FASTER EXPERIMENTAL CODE PATH INCORRECTLY IMPLEMENTED EVERYONE RECEIVED DEFAULT/FALLBACK
DATA DEFAULT RECOMMENDATIONS FOR EVERYONE YAY! @rm n INCIDENT #4

IT’S FASTER ENSEMBLE ONE “BAD” MODEL EXPECTING DATA OF SPECIFIC
TYPE (FLOAT VS STRING) VERY HARD TO DEBUG SYSTEM SHOWED NO PROPERTIES OF INCORRECTNESS OR OUTAGE BASED ON SYSTEM PERFORMANCE METRICS THINGS WERE BAD!!!!! @rm n INCIDENT #5

SO NOW WHAT? @rm n

FROM CORRECTNESS TO SAFETY @rm n MINDSET SHIFT

TEST IN PROD PROGRESSIVE DELIVERY ERROR BUDGETS @rm n 3
CONCEPTS FROM PRODUCTION ENGINEERING AND SRE

TEST IN PROD DOESN’T MEAN RELEASE WITHOUT TESTING @rm n

TESTING IN PROD MEANS EXTENDING THE SOFTWARE DEVELOPMENT LIFECYCLE BEYOND
RELEASE @rmn

TEST IN PROD ▸ Stop: Go read/watch anything by Charity
Majors (@mipsytipsy) and be enlightened ▸ Single handedly advanced this concept beyond a developer joke ▸ Attempting to clone production is foolish ▸ If you are small enough to clone, stay simple, if you are a big enough, attempting to clone production is foolish and waste of cycles ▸ “Real users, real trafc, real scale, real unpredictabilities” @rm n

PROGRESS IVE @rm n

“PROGRESSIVE DELIVERY IS CONTINUOUS DELIVERY WITH FINE- GRAINED CONTROL OVER
THE BLAST James Governor, RedMonk (@monkchips)

FEATURE FLAGS @rm n SEPARATE DEPLOY AND RELEASE TARGET SPECIFIC
USERS FOR NEW “FEATURES” ABILITY TO TOGGLE EXPOSURE ON/OFF

CANARY @rm n EXPOSE SOME % OF LIVE TRAFFIC TO
A NEW SERVICE MONITOR KEY BUSINESS METRICS FOR THAT POPULATION A/B TEST OUTCOME OF NEW DEPLOYMENT WIDER RELEASE WHEN YOU ARE COMFORTABLE

ERROR BUDGETS @rm n

YOUR JOB ISN’T TO OPERATE INFINITELY RELIABLE SOFTWARE GO ON…TELL
YOUR BOSS @rm n

YOU MIGHT HAVE SOME 9S TO PLAY WITH @rm n

EXPERIMENT @rm n DELIBERATELY EXPLORE WEIRD BEHAVIOR TRY NEW THINGS
INSIDE YOUR BUDGET ALLOW AN ACCIDENTAL “OVERAGE” OF SLA TO BE YOUR PLAYGROUND YOU HAVE HEADROOM TO TAKE RISKY CHANGES

SOLUTION TO COMPLEXITY IS NOT SIMPLICITY @rm n ACCEPT

FROM CORRECTNESS TO SAFETY @rm n MINDSET SHIFT

Fast, Reliable, Yet Catastrophically Failing!?!...

Fast, Reliable, Yet Catastrophically Failing!?! Safely Avoiding Incidents When Putting Machine Learning Into Production

More Decks by finid

Other Decks in Technology

Featured

Transcript