jtayl222
diff --git a/‎scheduler/pkg/agent/client_test.go
Lines changed: 2 additions & 1 deletion b/‎scheduler/pkg/agent/client_test.go
Lines changed: 2 additions & 1 deletion
diff --git a/‎scheduler/pkg/agent/internal/testing_utils/mock_grpc_server.go
Lines changed: 16 additions & 4 deletions b/‎scheduler/pkg/agent/internal/testing_utils/mock_grpc_server.go
Lines changed: 16 additions & 4 deletions
diff --git a/‎scheduler/pkg/agent/modelserver_controlplane/factory/factory.go
Lines changed: 2 additions & 1 deletion b/‎scheduler/pkg/agent/modelserver_controlplane/factory/factory.go
Lines changed: 2 additions & 1 deletion
diff --git a/‎scheduler/pkg/agent/modelserver_controlplane/oip/v2.go
Lines changed: 46 additions & 18 deletions b/‎scheduler/pkg/agent/modelserver_controlplane/oip/v2.go
Lines changed: 46 additions & 18 deletions
diff --git a/‎scheduler/pkg/agent/modelserver_controlplane/oip/v2_test.go
Lines changed: 68 additions & 4 deletions b/‎scheduler/pkg/agent/modelserver_controlplane/oip/v2_test.go
Lines changed: 68 additions & 4 deletions
diff --git a/‎scheduler/pkg/agent/rproxy_grpc.go
Lines changed: 4 additions & 3 deletions b/‎scheduler/pkg/agent/rproxy_grpc.go
Lines changed: 4 additions & 3 deletions
diff --git a/‎scheduler/pkg/agent/rproxy_test.go
Lines changed: 1 addition & 1 deletion b/‎scheduler/pkg/agent/rproxy_test.go
Lines changed: 1 addition & 1 deletion
diff --git a/‎scheduler/pkg/agent/server.go
Lines changed: 1 addition & 1 deletion b/‎scheduler/pkg/agent/server.go
Lines changed: 1 addition & 1 deletion
@@ -797,7 +797,8 @@ func TestAgentStopOnSubServicesFailure(t *testing.T) {
 
 			time.Sleep(50 * time.Millisecond)
 
-			v2Client := oip.NewV2Client("", backEndGRPCPort, log.New())
+			v2Client := oip.NewV2Client(
+				oip.GetV2ConfigWithDefaults("", backEndGRPCPort), log.New())
 
 			modelRepository := FakeModelRepository{}
 			rpHTTP := FakeDependencyService{err: nil}
 
@@ -15,6 +15,7 @@ import (
 	"net"
 	"net/http"
 	"sync"
+	"time"
 
 	"github.com/jarcoal/httpmock"
 	"google.golang.org/grpc"
@@ -74,10 +75,13 @@ func (s *V2State) IsModelLoaded(modelId string) bool {
 }
 
 type MockGRPCMLServer struct {
-	listener net.Listener
-	server   *grpc.Server
-	models   []interfaces.ServerModelInfo
-	isReady  bool
+	listener          net.Listener
+	server            *grpc.Server
+	models            []interfaces.ServerModelInfo
+	isReady           bool
+	LoadSleep         time.Duration
+	UnloadSleep       time.Duration
+	ControlPlaneSleep time.Duration
 	v2.UnimplementedGRPCInferenceServiceServer
 }
 
@@ -120,21 +124,29 @@ func (m *MockGRPCMLServer) ServerReady(ctx context.Context, r *v2.ServerReadyReq
 }
 
 func (m *MockGRPCMLServer) ServerLive(ctx context.Context, r *v2.ServerLiveRequest) (*v2.ServerLiveResponse, error) {
+	// by default ControlPlaneSleep is 0
+	time.Sleep(m.ControlPlaneSleep)
 	return &v2.ServerLiveResponse{Live: true}, nil
 }
 
 func (m *MockGRPCMLServer) RepositoryModelLoad(ctx context.Context, r *v2.RepositoryModelLoadRequest) (*v2.RepositoryModelLoadResponse, error) {
+	// by default LoadSleep is 0
+	time.Sleep(m.LoadSleep)
 	return &v2.RepositoryModelLoadResponse{}, nil
 }
 
 func (m *MockGRPCMLServer) RepositoryModelUnload(ctx context.Context, r *v2.RepositoryModelUnloadRequest) (*v2.RepositoryModelUnloadResponse, error) {
+	// by default UnloadSleep is 0
+	time.Sleep(m.UnloadSleep)
 	if r.ModelName == ModelNameMissing {
 		return nil, status.Error(codes.NotFound, fmt.Sprintf("Model %s not found", r.ModelName))
 	}
 	return &v2.RepositoryModelUnloadResponse{}, nil
 }
 
 func (m *MockGRPCMLServer) RepositoryIndex(ctx context.Context, r *v2.RepositoryIndexRequest) (*v2.RepositoryIndexResponse, error) {
+	// by default ControlPlaneSleep is 0
+	time.Sleep(m.ControlPlaneSleep)
 	ret := make([]*v2.RepositoryIndexResponse_ModelIndex, len(m.models))
 	for idx, model := range m.models {
 		ret[idx] = &v2.RepositoryIndexResponse_ModelIndex{Name: model.Name, State: string(model.State)}
 
@@ -19,5 +19,6 @@ func CreateModelServerControlPlane(
 	config interfaces.ModelServerConfig,
 ) (interfaces.ModelServerControlPlaneClient, error) {
 	// we only support v2 for now
-	return oip.NewV2Client(config.Host, config.Port, config.Logger), nil
+	return oip.NewV2Client(
+		oip.GetV2ConfigWithDefaults(config.Host, config.Port), config.Logger), nil
 }
@@ -27,36 +27,46 @@ import (
 	"github.com/seldonio/seldon-core/scheduler/v2/pkg/util"
 )
 
+type V2Config struct {
+	Host                         string
+	GRPCPort                     int
+	GRPCRetryBackoff             time.Duration
+	GRPRetryMaxCount             uint
+	GRPCMaxMsgSizeBytes          int
+	GRPCModelServerLoadTimeout   time.Duration
+	GRPCModelServerUnloadTimeout time.Duration
+	GRPCControlPlaneTimeout      time.Duration
+}
+
 type V2Client struct {
 	grpcClient v2.GRPCInferenceServiceClient
-	host       string
-	grpcPort   int
+	v2Config   V2Config
 	logger     log.FieldLogger
 }
 
-func CreateV2GrpcConnection(host string, plainTxtPort int) (*grpc.ClientConn, error) {
+func CreateV2GrpcConnection(v2Config V2Config) (*grpc.ClientConn, error) {
 	retryOpts := []grpc_retry.CallOption{
-		grpc_retry.WithBackoff(grpc_retry.BackoffExponential(util.GrpcRetryBackoffMillisecs * time.Millisecond)),
-		grpc_retry.WithMax(util.GrpcRetryMaxCount),
+		grpc_retry.WithBackoff(grpc_retry.BackoffExponential(v2Config.GRPCRetryBackoff)),
+		grpc_retry.WithMax(v2Config.GRPRetryMaxCount),
 	}
 
 	opts := []grpc.DialOption{
 		grpc.WithTransportCredentials(insecure.NewCredentials()),
-		grpc.WithDefaultCallOptions(grpc.MaxCallRecvMsgSize(util.GrpcMaxMsgSizeBytes), grpc.MaxCallSendMsgSize(util.GrpcMaxMsgSizeBytes)),
+		grpc.WithDefaultCallOptions(grpc.MaxCallRecvMsgSize(v2Config.GRPCMaxMsgSizeBytes), grpc.MaxCallSendMsgSize(v2Config.GRPCMaxMsgSizeBytes)),
 		grpc.WithStreamInterceptor(grpc_retry.StreamClientInterceptor(retryOpts...)),
 		grpc.WithUnaryInterceptor(grpc_retry.UnaryClientInterceptor(retryOpts...)),
 		grpc.WithStatsHandler(otelgrpc.NewClientHandler()),
 	}
-	conn, err := grpc.Dial(fmt.Sprintf("%s:%d", host, plainTxtPort), opts...)
+	conn, err := grpc.Dial(fmt.Sprintf("%s:%d", v2Config.Host, v2Config.GRPCPort), opts...)
 	if err != nil {
 		return nil, err
 	}
 
 	return conn, nil
 }
 
-func createV2ControlPlaneClient(host string, port int) (v2.GRPCInferenceServiceClient, error) {
-	conn, err := CreateV2GrpcConnection(host, port)
+func createV2ControlPlaneClient(v2Config V2Config) (v2.GRPCInferenceServiceClient, error) {
+	conn, err := CreateV2GrpcConnection(v2Config)
 	if err != nil {
 		// TODO: this could fail in later iterations, so close earlier connections
 		conn.Close()
@@ -67,17 +77,29 @@ func createV2ControlPlaneClient(host string, port int) (v2.GRPCInferenceServiceC
 	return client, nil
 }
 
-func NewV2Client(host string, port int, logger log.FieldLogger) *V2Client {
-	logger.Infof("V2 (OIP) Inference Server %s:%d", host, port)
+func GetV2ConfigWithDefaults(host string, port int) V2Config {
+	return V2Config{
+		Host:                         host,
+		GRPCPort:                     port,
+		GRPCRetryBackoff:             util.GRPCRetryBackoff,
+		GRPRetryMaxCount:             util.GRPCRetryMaxCount,
+		GRPCMaxMsgSizeBytes:          util.GRPCMaxMsgSizeBytes,
+		GRPCModelServerLoadTimeout:   util.GRPCModelServerLoadTimeout,
+		GRPCModelServerUnloadTimeout: util.GRPCModelServerUnloadTimeout,
+		GRPCControlPlaneTimeout:      util.GRPCControlPlaneTimeout,
+	}
+}
 
-	grpcClient, err := createV2ControlPlaneClient(host, port)
+func NewV2Client(v2Config V2Config, logger log.FieldLogger) *V2Client {
+	logger.Infof("V2 (OIP) Inference Server %s:%d", v2Config.Host, v2Config.GRPCPort)
+
+	grpcClient, err := createV2ControlPlaneClient(v2Config)
 	if err != nil {
 		return nil
 	}
 
 	return &V2Client{
-		host:       host,
-		grpcPort:   port,
+		v2Config:   v2Config,
 		grpcClient: grpcClient,
 		logger:     logger.WithField("Source", "V2InferenceServerClientGrpc"),
 	}
@@ -91,7 +113,8 @@ func (v *V2Client) LoadModel(name string) *interfaces.ControlPlaneErr {
 }
 
 func (v *V2Client) loadModelGrpc(name string) *interfaces.ControlPlaneErr {
-	ctx := context.Background()
+	ctx, cancel := context.WithTimeout(context.Background(), v.v2Config.GRPCModelServerLoadTimeout)
+	defer cancel()
 
 	req := &v2.RepositoryModelLoadRequest{
 		ModelName: name,
@@ -122,7 +145,8 @@ func (v *V2Client) UnloadModel(name string) *interfaces.ControlPlaneErr {
 }
 
 func (v *V2Client) unloadModelGrpc(name string) *interfaces.ControlPlaneErr {
-	ctx := context.Background()
+	ctx, cancel := context.WithTimeout(context.Background(), v.v2Config.GRPCModelServerUnloadTimeout)
+	defer cancel()
 
 	req := &v2.RepositoryModelUnloadRequest{
 		ModelName: name,
@@ -165,7 +189,9 @@ func (v *V2Client) Live() error {
 }
 
 func (v *V2Client) liveGrpc() (bool, error) {
-	ctx := context.Background()
+	ctx, cancel := context.WithTimeout(context.Background(), v.v2Config.GRPCControlPlaneTimeout)
+	defer cancel()
+
 	req := &v2.ServerLiveRequest{}
 
 	res, err := v.grpcClient.ServerLive(ctx, req)
@@ -180,8 +206,10 @@ func (v *V2Client) GetModels() ([]interfaces.ServerModelInfo, error) {
 }
 
 func (v *V2Client) getModelsGrpc() ([]interfaces.ServerModelInfo, error) {
+	ctx, cancel := context.WithTimeout(context.Background(), v.v2Config.GRPCControlPlaneTimeout)
+	defer cancel()
+
 	var models []interfaces.ServerModelInfo
-	ctx := context.Background()
 	req := &v2.RepositoryIndexRequest{}
 
 	res, err := v.grpcClient.RepositoryIndex(ctx, req)
 
@@ -15,10 +15,13 @@ import (
 
 	. "github.com/onsi/gomega"
 	log "github.com/sirupsen/logrus"
+	"google.golang.org/grpc/codes"
+	"google.golang.org/grpc/status"
 
 	"github.com/seldonio/seldon-core/scheduler/v2/pkg/agent/interfaces"
 	"github.com/seldonio/seldon-core/scheduler/v2/pkg/agent/internal/testing_utils"
 	testing_utils2 "github.com/seldonio/seldon-core/scheduler/v2/pkg/internal/testing_utils"
+	"github.com/seldonio/seldon-core/scheduler/v2/pkg/util"
 )
 
 func TestCommunicationErrors(t *testing.T) {
@@ -30,7 +33,7 @@ func TestCommunicationErrors(t *testing.T) {
 	g.Expect(err.ErrCode).To(Equal(interfaces.V2CommunicationErrCode))
 }
 
-func TestGrpcV2(t *testing.T) {
+func TestGRPCV2(t *testing.T) {
 	g := NewGomegaWithT(t)
 
 	mockMLServer := &testing_utils.MockGRPCMLServer{}
@@ -46,7 +49,7 @@ func TestGrpcV2(t *testing.T) {
 
 	time.Sleep(10 * time.Millisecond)
 
-	v2Client := NewV2Client("", backEndGRPCPort, log.New())
+	v2Client := NewV2Client(GetV2ConfigWithDefaults("", backEndGRPCPort), log.New())
 
 	dummModel := "dummy"
 
@@ -72,6 +75,67 @@ func TestGrpcV2(t *testing.T) {
 
 }
 
+func TestGRPCV2Timeout(t *testing.T) {
+	g := NewGomegaWithT(t)
+
+	unloadSleep := 5 * time.Second
+	loadSleep := 2 * time.Second
+	controlPlaneSleep := 1 * time.Second
+	mockMLServer := &testing_utils.MockGRPCMLServer{
+		UnloadSleep: unloadSleep, LoadSleep: loadSleep, ControlPlaneSleep: controlPlaneSleep}
+	backEndGRPCPort, err := testing_utils2.GetFreePortForTest()
+	if err != nil {
+		t.Fatal(err)
+	}
+	_ = mockMLServer.Setup(uint(backEndGRPCPort))
+	go func() {
+		_ = mockMLServer.Start()
+	}()
+	defer mockMLServer.Stop()
+
+	time.Sleep(10 * time.Millisecond)
+
+	v2Config := GetV2ConfigWithDefaults("", backEndGRPCPort)
+	v2Config.GRPCModelServerUnloadTimeout = unloadSleep / 2
+	v2Config.GRPCModelServerLoadTimeout = loadSleep / 2
+	v2Config.GRPCControlPlaneTimeout = controlPlaneSleep / 2
+	v2Client := NewV2Client(v2Config, log.New())
+
+	dummModel := "dummy"
+
+	v2Err := v2Client.LoadModel(dummModel)
+	g.Expect(v2Err).NotTo(BeNil())
+	g.Expect(v2Err.ErrCode).To(Equal(int(codes.DeadlineExceeded)))
+
+	v2Err = v2Client.UnloadModel(dummModel)
+	g.Expect(v2Err).NotTo(BeNil())
+	g.Expect(v2Err.ErrCode).To(Equal(int(codes.DeadlineExceeded)))
+
+	err = v2Client.Live()
+	g.Expect(err).NotTo(BeNil())
+	e, _ := status.FromError(err)
+	g.Expect(e.Code()).To(Equal(codes.DeadlineExceeded))
+
+	_, err = v2Client.getModelsGrpc()
+	g.Expect(err).NotTo(BeNil())
+	e, _ = status.FromError(err)
+	g.Expect(e.Code()).To(Equal(codes.DeadlineExceeded))
+}
+
+func TestDefaultV2Config(t *testing.T) {
+	g := NewGomegaWithT(t)
+
+	v2Config := GetV2ConfigWithDefaults("", 0)
+	g.Expect(v2Config.GRPCModelServerLoadTimeout).To(Equal(util.GRPCModelServerLoadTimeout))
+	g.Expect(v2Config.GRPCModelServerUnloadTimeout).To(Equal(util.GRPCModelServerUnloadTimeout))
+	g.Expect(v2Config.GRPCMaxMsgSizeBytes).To(Equal(util.GRPCMaxMsgSizeBytes))
+	g.Expect(v2Config.GRPCControlPlaneTimeout).To(Equal(util.GRPCControlPlaneTimeout))
+	g.Expect(v2Config.GRPCRetryBackoff).To(Equal(util.GRPCRetryBackoff))
+	g.Expect(v2Config.GRPRetryMaxCount).To(Equal(uint(util.GRPCRetryMaxCount)))
+	g.Expect(v2Config.Host).To(Equal(""))
+	g.Expect(v2Config.GRPCPort).To(Equal(0))
+}
+
 func TestGrpcV2WithError(t *testing.T) {
 	g := NewGomegaWithT(t)
 
@@ -81,7 +145,7 @@ func TestGrpcV2WithError(t *testing.T) {
 	if err != nil {
 		t.Fatal(err)
 	}
-	v2Client := NewV2Client("", backEndGRPCPort, log.New())
+	v2Client := NewV2Client(GetV2ConfigWithDefaults("", backEndGRPCPort), log.New())
 
 	dummModel := "dummy"
 
@@ -110,7 +174,7 @@ func TestGrpcV2WithRetry(t *testing.T) {
 	go func() {
 		_ = mockMLServer.Start()
 	}()
-	v2Client := NewV2Client("", backEndGRPCPort, log.New())
+	v2Client := NewV2Client(GetV2ConfigWithDefaults("", backEndGRPCPort), log.New())
 	err = v2Client.Live()
 	g.Expect(err).To(BeNil())
 	mockMLServer.Stop()
 
@@ -110,8 +110,8 @@ func (rp *reverseGRPCProxy) Start() error {
 		opts = append(opts, grpc.Creds(rp.tlsOptions.Cert.CreateServerTransportCredentials()))
 	}
 	opts = append(opts, grpc.MaxConcurrentStreams(grpcProxyMaxConcurrentStreams))
-	opts = append(opts, grpc.MaxRecvMsgSize(util.GrpcMaxMsgSizeBytes))
-	opts = append(opts, grpc.MaxSendMsgSize(util.GrpcMaxMsgSizeBytes))
+	opts = append(opts, grpc.MaxRecvMsgSize(util.GRPCMaxMsgSizeBytes))
+	opts = append(opts, grpc.MaxSendMsgSize(util.GRPCMaxMsgSizeBytes))
 	opts = append(opts, grpc.StatsHandler(otelgrpc.NewServerHandler()))
 	opts = append(opts, grpc.UnaryInterceptor(rp.metrics.UnaryServerInterceptor()))
 	grpcServer := grpc.NewServer(opts...)
@@ -322,7 +322,8 @@ func (rp *reverseGRPCProxy) createV2CRPCClients(backendGRPCServerHost string, ba
 		return nil, nil, err
 	}
 	for i := 0; i < size; i++ {
-		conn, err := oip.CreateV2GrpcConnection(backendGRPCServerHost, backendGRPCServerPort)
+		conn, err := oip.CreateV2GrpcConnection(
+			oip.GetV2ConfigWithDefaults(backendGRPCServerHost, backendGRPCServerPort))
 
 		if err != nil {
 			// TODO: this could fail in later iterations, so close earlier connections
 
@@ -387,7 +387,7 @@ func TestLazyLoadRoundTripper(t *testing.T) {
 				_ = mlserver.ListenAndServe()
 			}()
 
-			time.Sleep(util.GrpcRetryBackoffMillisecs * time.Millisecond)
+			time.Sleep(util.GRPCRetryBackoff)
 
 			defer func() {
 				_ = mlserver.Shutdown(context.Background())
 
@@ -489,7 +489,7 @@ func (s *Server) drainServerReplicaImpl(serverName string, serverReplicaIdx int)
 	s.waiter.wait(serverName, serverReplicaIdx)
 
 	// as we update envoy in batches and envoy is eventual consistent, give it time to settle down
-	time.Sleep(util.EnvoyUpdateDefaultBatchWaitMillis + (time.Millisecond * serverDrainingExtraWaitMillis))
+	time.Sleep(util.EnvoyUpdateDefaultBatchWait + (time.Millisecond * serverDrainingExtraWaitMillis))
 	s.logger.Debugf("Finished draining models %v from server %s:%d", modelsChanged, serverName, serverReplicaIdx)
 }
Original file line number	Diff line number	Diff line change
`@@ -19,5 +19,6 @@ func CreateModelServerControlPlane(`
`19`	`19`	`config interfaces.ModelServerConfig,`
`20`	`20`	`) (interfaces.ModelServerControlPlaneClient, error) {`
`21`	`21`	`// we only support v2 for now`
`22`		`- return oip.NewV2Client(config.Host, config.Port, config.Logger), nil`
	`22`	`+ return oip.NewV2Client(`
	`23`	`+ oip.GetV2ConfigWithDefaults(config.Host, config.Port), config.Logger), nil`
`23`	`24`	`}`
Original file line number	Diff line number	Diff line change
`@@ -489,7 +489,7 @@ func (s *Server) drainServerReplicaImpl(serverName string, serverReplicaIdx int)`
`489`	`489`	`s.waiter.wait(serverName, serverReplicaIdx)`
`490`	`490`
`491`	`491`	`// as we update envoy in batches and envoy is eventual consistent, give it time to settle down`
`492`		`- time.Sleep(util.EnvoyUpdateDefaultBatchWaitMillis + (time.Millisecond * serverDrainingExtraWaitMillis))`
	`492`	`+ time.Sleep(util.EnvoyUpdateDefaultBatchWait + (time.Millisecond * serverDrainingExtraWaitMillis))`
`493`	`493`	`s.logger.Debugf("Finished draining models %v from server %s:%d", modelsChanged, serverName, serverReplicaIdx)`
`494`	`494`	`}`
`495`	`495`