SeldonIO · sakoush · Aug 5, 2024 · Aug 4, 2024 · Aug 4, 2024 · Aug 4, 2024
@@ -47,8 +47,12 @@ const (
 	maxElapsedTimeReadySubServiceBeforeStart = 15 * time.Minute // 15 mins is the default MaxElapsedTime
 	// period for subservice ready "cron"
 	periodReadySubService = 60 * time.Second
+	// max time to wait for a model server to load a model, including retries
+	maxLoadElapsedTime = 120 * time.Minute
+	// max time to wait for a model server to unload a model, including retries
+	maxUnloadElapsedTime = 15 * time.Minute // 15 mins is the default MaxElapsedTime
 	// number of retries for loading a model onto a server
-	maxLoadRetryCount = 10
+	maxLoadRetryCount = 5
 	// number of retries for unloading a model onto a server
 	maxUnloadRetryCount = 1
 )
@@ -275,6 +279,8 @@ func main() {
 			periodReadySubService,
 			maxElapsedTimeReadySubServiceBeforeStart,
 			maxElapsedTimeReadySubServiceAfterStart,
+			maxLoadElapsedTime,
+			maxUnloadElapsedTime,
 			maxLoadRetryCount,
 			maxUnloadRetryCount,
 		),

@@ -88,6 +88,8 @@ type ClientSettings struct {
 	periodReadySubService                    time.Duration
 	maxElapsedTimeReadySubServiceBeforeStart time.Duration
 	maxElapsedTimeReadySubServiceAfterStart  time.Duration
+	maxLoadElapsedTime                       time.Duration
+	maxUnloadElapsedTime                     time.Duration
 	maxLoadRetryCount                        uint8
 	maxUnloadRetryCount                      uint8
 }
@@ -100,7 +102,9 @@ func NewClientSettings(
 	schedulerTlsPort int,
 	periodReadySubService,
 	maxElapsedTimeReadySubServiceBeforeStart,
-	maxElapsedTimeReadySubServiceAfterStart time.Duration,
+	maxElapsedTimeReadySubServiceAfterStart,
+	maxLoadElapsedTime,
+	maxUnloadElapsedTime time.Duration,
 	maxLoadRetryCount,
 	maxUnloadRetryCount uint8,
 ) *ClientSettings {
@@ -113,6 +117,8 @@ func NewClientSettings(
 		periodReadySubService:                    periodReadySubService,
 		maxElapsedTimeReadySubServiceBeforeStart: maxElapsedTimeReadySubServiceBeforeStart,
 		maxElapsedTimeReadySubServiceAfterStart:  maxElapsedTimeReadySubServiceAfterStart,
+		maxLoadElapsedTime:                       maxLoadElapsedTime,
+		maxUnloadElapsedTime:                     maxUnloadElapsedTime,
 		maxLoadRetryCount:                        maxLoadRetryCount,
 		maxUnloadRetryCount:                      maxUnloadRetryCount,
 	}
@@ -598,7 +604,7 @@ func (c *Client) LoadModel(request *agent.ModelOperationMessage) error {
 	loaderFn := func() error {
 		return c.stateManager.LoadModelVersion(modifiedModelVersionRequest)
 	}
-	if err := backoffWithMaxNumRetry(loaderFn, c.settings.maxLoadRetryCount, logger); err != nil {
+	if err := backoffWithMaxNumRetry(loaderFn, c.settings.maxLoadRetryCount, c.settings.maxLoadElapsedTime, logger); err != nil {
 		c.sendModelEventError(modelName, modelVersion, agent.ModelEventMessage_LOAD_FAILED, err)
 		return err
 	}
@@ -640,7 +646,7 @@ func (c *Client) UnloadModel(request *agent.ModelOperationMessage) error {
 	unloaderFn := func() error {
 		return c.stateManager.UnloadModelVersion(modifiedModelVersionRequest)
 	}
-	if err := backoffWithMaxNumRetry(unloaderFn, c.settings.maxUnloadRetryCount, logger); err != nil {
+	if err := backoffWithMaxNumRetry(unloaderFn, c.settings.maxUnloadRetryCount, c.settings.maxUnloadElapsedTime, logger); err != nil {
 		c.sendModelEventError(modelName, modelVersion, agent.ModelEventMessage_UNLOAD_FAILED, err)
 		return err
 	}

@@ -206,7 +206,7 @@ func TestClientCreate(t *testing.T) {
 			drainerServicePort, _ := testing_utils2.GetFreePortForTest()
 			drainerService := drainservice.NewDrainerService(logger, uint(drainerServicePort))
 			client := NewClient(
-				NewClientSettings("mlserver", 1, "scheduler", 9002, 9055, 1*time.Minute, 1*time.Minute, 1*time.Minute, 1, 1),
+				NewClientSettings("mlserver", 1, "scheduler", 9002, 9055, 1*time.Minute, 1*time.Minute, 1*time.Minute, 1*time.Minute, 1*time.Minute, 1, 1),
 				logger, modelRepository, v2Client,
 				test.replicaConfig, "default",
 				rpHTTP, rpGRPC, agentDebug, modelScalingService, drainerService, newFakeMetricsHandler())
@@ -366,7 +366,7 @@ func TestLoadModel(t *testing.T) {
 			drainerService := drainservice.NewDrainerService(logger, uint(drainerServicePort))
 
 			client := NewClient(
-				NewClientSettings("mlserver", 1, "scheduler", 9002, 9055, 1*time.Minute, 1*time.Minute, 1*time.Minute, 1, 1),
+				NewClientSettings("mlserver", 1, "scheduler", 9002, 9055, 1*time.Minute, 1*time.Minute, 1*time.Minute, 1*time.Minute, 1*time.Minute, 1, 1),
 				logger, modelRepository, v2Client, test.replicaConfig, "default",
 				rpHTTP, rpGRPC, agentDebug, modelScalingService, drainerService, newFakeMetricsHandler())
 
@@ -515,7 +515,7 @@ parameters:
 			drainerServicePort, _ := testing_utils2.GetFreePortForTest()
 			drainerService := drainservice.NewDrainerService(logger, uint(drainerServicePort))
 			client := NewClient(
-				NewClientSettings("mlserver", 1, "scheduler", 9002, 9055, 1*time.Minute, 1*time.Minute, 1*time.Minute, 1, 1),
+				NewClientSettings("mlserver", 1, "scheduler", 9002, 9055, 1*time.Minute, 1*time.Minute, 1*time.Minute, 1*time.Minute, 1*time.Minute, 1, 1),
 				logger, modelRepository,
 				v2Client, test.replicaConfig, "default",
 				rpHTTP, rpGRPC, agentDebug, modelScalingService, drainerService,
@@ -657,7 +657,7 @@ func TestUnloadModel(t *testing.T) {
 			drainerServicePort, _ := testing_utils2.GetFreePortForTest()
 			drainerService := drainservice.NewDrainerService(logger, uint(drainerServicePort))
 			client := NewClient(
-				NewClientSettings("mlserver", 1, "scheduler", 9002, 9055, 1*time.Minute, 1*time.Minute, 1*time.Minute, 1, 1),
+				NewClientSettings("mlserver", 1, "scheduler", 9002, 9055, 1*time.Minute, 1*time.Minute, 1*time.Minute, 1*time.Minute, 1*time.Minute, 1, 1),
 				logger, modelRepository, v2Client, test.replicaConfig, "default",
 				rpHTTP, rpGRPC, agentDebug, modelScalingService, drainerService, newFakeMetricsHandler())
 			mockAgentV2Server := &mockAgentV2Server{models: []string{}}
@@ -715,7 +715,7 @@ func TestClientClose(t *testing.T) {
 	drainerServicePort, _ := testing_utils2.GetFreePortForTest()
 	drainerService := drainservice.NewDrainerService(logger, uint(drainerServicePort))
 	client := NewClient(
-		NewClientSettings("mlserver", 1, "scheduler", 9002, 9055, 1*time.Minute, 1*time.Minute, 1*time.Minute, 1, 1),
+		NewClientSettings("mlserver", 1, "scheduler", 9002, 9055, 1*time.Minute, 1*time.Minute, 1*time.Minute, 1*time.Minute, 1*time.Minute, 1, 1),
 		logger, modelRepository, v2Client,
 		&pb.ReplicaConfig{MemoryBytes: 1000}, "default",
 		rpHTTP, rpGRPC, agentDebug, modelScalingService, drainerService, newFakeMetricsHandler())
@@ -815,7 +815,7 @@ func TestAgentStopOnSubServicesFailure(t *testing.T) {
 				_ = drainerService.Start()
 			}()
 			client := NewClient(
-				NewClientSettings("mlserver", 1, "scheduler", 9002, 9055, period, maxTimeBeforeStart, maxTimeAfterStart, 1, 1),
+				NewClientSettings("mlserver", 1, "scheduler", 9002, 9055, period, maxTimeBeforeStart, maxTimeAfterStart, 1*time.Minute, 1*time.Minute, 1, 1),
 				logger, modelRepository, v2Client,
 				&pb.ReplicaConfig{MemoryBytes: 1000}, "default",
 				rpHTTP, rpGRPC, agentDebug, modelScalingService, drainerService, newFakeMetricsHandler())

@@ -81,9 +81,8 @@ func isReadyChecker(
 	return nil
 }
 
-func backoffWithMaxNumRetry(fn func() error, count uint8, logger log.FieldLogger) error {
-	backoffWithMax := backoff.NewExponentialBackOff()
-	// Wait for model repo to be ready
+func backoffWithMaxNumRetry(fn func() error, count uint8, maxElapsedTime time.Duration, logger log.FieldLogger) error {
+	backoffWithMax := backoff.NewExponentialBackOff(backoff.WithMaxElapsedTime(maxElapsedTime))
 	i := 0
 	logFailure := func(err error, delay time.Duration) {
 		logger.WithError(err).Errorf("Retry op #%d", i)
@@ -112,7 +111,7 @@ func (b *backOffWithMaxCount) Reset() {
 }
 
 func (b *backOffWithMaxCount) NextBackOff() time.Duration {
-	if b.currentCount >= b.maxCount {
+	if b.currentCount >= b.maxCount-1 {
 		return backoff.Stop
 	} else {
 		b.currentCount++

@@ -19,7 +19,7 @@ import (
 	log "github.com/sirupsen/logrus"
 )
 
-func TestBackOffPolicyWithMax(t *testing.T) {
+func TestBackOffPolicyWithMaxCount(t *testing.T) {
 	t.Logf("Started")
 	logger := log.New()
 	log.SetLevel(log.DebugLevel)
@@ -54,7 +54,7 @@ func TestBackOffPolicyWithMax(t *testing.T) {
 			fn := func() error {
 				return test.err
 			}
-			count := uint8(0)
+			count := uint8(1) // first call is not a retry
 			policyWithMax := newBackOffWithMaxCount(test.count, &policy)
 			logFailure := func(err error, delay time.Duration) {
 				logger.WithError(err).Errorf("retry")
@@ -66,7 +66,7 @@ func TestBackOffPolicyWithMax(t *testing.T) {
 			if test.err != nil {
 				g.Expect(count).To(Equal(test.count))
 			} else {
-				g.Expect(count).To(Equal(uint8(0)))
+				g.Expect(count).To(Equal(uint8(1)))
 			}
 		})
 	}
@@ -76,26 +76,41 @@ func TestFnWrapperWithMax(t *testing.T) {
 	t.Logf("Started")
 	logger := log.New()
 	log.SetLevel(log.DebugLevel)
+	g := NewGomegaWithT(t)
 
 	type test struct {
-		name  string
-		count uint8
+		name           string
+		count          uint8
+		maxElapsedTime time.Duration
+		expectedCount  uint8
 	}
 	tests := []test{
 		{
-			name:  "simple",
-			count: 3,
+			name:           "count > maxElapsedTime",
+			count:          4,
+			expectedCount:  4,
+			maxElapsedTime: 30 * time.Second,
+		},
+		{
+			name:           "count < maxElapsedTime",
+			count:          4,
+			expectedCount:  1,
+			maxElapsedTime: 1 * time.Millisecond,
 		},
 	}
 
 	for _, test := range tests {
 		t.Run(test.name, func(t *testing.T) {
 
+			retries := uint8(0)
 			fn := func() error {
+				time.Sleep(1 * time.Millisecond)
+				retries++
 				return fmt.Errorf("error")
 			}
-			_ = backoffWithMaxNumRetry(fn, test.count, logger)
+			_ = backoffWithMaxNumRetry(fn, test.count, test.maxElapsedTime, logger)
 			// if we are here we are done
+			g.Expect(retries).To(Equal(test.expectedCount))
 		})
 	}
 }
@@ -27,7 +27,7 @@ const (
 	GRPCRetryMaxCount            = 5 // around 3.2s in total wait duration
 	GRPCMaxMsgSizeBytes          = 1000 * 1024 * 1024
 	EnvoyUpdateDefaultBatchWait  = 250 * time.Millisecond
-	GRPCModelServerLoadTimeout   = 30 * time.Minute // How long to wait for a model to load? think of LLM Load, maybe should be a config
+	GRPCModelServerLoadTimeout   = 60 * time.Minute // How long to wait for a model to load? think of LLM Load, maybe should be a config
 	GRPCModelServerUnloadTimeout = 2 * time.Minute
 	GRPCControlPlaneTimeout      = 1 * time.Minute // For control plane operations except load/unload
 )