rudderlabs
diff --git a/‎.github/workflows/verify.yml
Lines changed: 1 addition & 1 deletion b/‎.github/workflows/verify.yml
Lines changed: 1 addition & 1 deletion
diff --git a/‎Makefile
Lines changed: 2 additions & 2 deletions b/‎Makefile
Lines changed: 2 additions & 2 deletions
diff --git a/‎client/client.go
Lines changed: 2 additions & 279 deletions b/‎client/client.go
Lines changed: 2 additions & 279 deletions
diff --git a/‎cmd/node/benchmark_test.go
Lines changed: 2 additions & 0 deletions b/‎cmd/node/benchmark_test.go
Lines changed: 2 additions & 0 deletions
diff --git a/‎cmd/operator/main.go
Lines changed: 18 additions & 2 deletions b/‎cmd/operator/main.go
Lines changed: 18 additions & 2 deletions
@@ -49,5 +49,5 @@ jobs:
       - name: golangci-lint
         uses: golangci/golangci-lint-action@v8
         with:
-          version: v2.1.6
+          version: v2.3.1
           args: -v
@@ -2,7 +2,7 @@ GO := go
 TESTFILE    := _testok
 DOCKER_USER :=
 
-GOLANG_CI				:= github.com/golangci/golangci-lint/v2/cmd/golangci-lint@v2.1.6
+GOLANG_CI				:= github.com/golangci/golangci-lint/v2/cmd/golangci-lint@v2.3.1
 GOFUMPT					:= mvdan.cc/gofumpt@latest
 GOVULNCHECK				:= golang.org/x/vuln/cmd/govulncheck@latest
 GOIMPORTS 				:= golang.org/x/tools/cmd/goimports@latest
@@ -127,4 +127,4 @@ fmt: install-tools ## Formats all go
 	./build/docker-go-version.sh Dockerfile-operator
 
 mocks: install-tools ## Generate all mocks
-	$(GO) generate ./...
+	$(GO) generate ./...
@@ -8,16 +8,15 @@ import (
 	"sync/atomic"
 	"time"
 
-	"github.com/rudderlabs/rudder-go-kit/stats"
-	obskit "github.com/rudderlabs/rudder-observability-kit/go/labels"
-
 	"google.golang.org/grpc"
 	"google.golang.org/grpc/credentials/insecure"
 
 	"github.com/rudderlabs/keydb/internal/hash"
 	pb "github.com/rudderlabs/keydb/proto"
 	"github.com/rudderlabs/rudder-go-kit/logger"
+	"github.com/rudderlabs/rudder-go-kit/stats"
 	kitsync "github.com/rudderlabs/rudder-go-kit/sync"
+	obskit "github.com/rudderlabs/rudder-observability-kit/go/labels"
 )
 
 var (
@@ -474,282 +473,6 @@ func (c *Client) put(ctx context.Context, keys []string, ttl time.Duration) erro
 	return nil
 }
 
-// GetNodeInfo returns information about a node
-func (c *Client) GetNodeInfo(ctx context.Context, nodeID uint32) (*pb.GetNodeInfoResponse, error) {
-	c.mu.RLock()
-	defer c.mu.RUnlock()
-
-	// Get the client for this node
-	client, ok := c.clients[int(nodeID)]
-	if !ok {
-		// this should never happen unless clusterSize is updated and the c.clients map isn't
-		// or if there is a bug in the hashing function
-		return nil, fmt.Errorf("no client for node %d", nodeID)
-	}
-
-	// Create the request
-	req := &pb.GetNodeInfoRequest{NodeId: nodeID}
-
-	// Send the request with retries
-	var err error
-	var resp *pb.GetNodeInfoResponse
-	for i := 0; i <= c.config.RetryCount; i++ {
-		resp, err = client.GetNodeInfo(ctx, req)
-		if err == nil {
-			break
-		}
-
-		// If this is the last retry, return the error
-		if i == c.config.RetryCount {
-			return nil, fmt.Errorf("failed to get node info from node %d: %w", nodeID, err)
-		}
-
-		// Wait before retrying
-		select {
-		case <-ctx.Done():
-			return nil, ctx.Err()
-		case <-time.After(c.config.RetryDelay):
-		}
-	}
-
-	if c.clusterSize != resp.ClusterSize {
-		if err = c.updateClusterSize(resp.NodesAddresses); err != nil {
-			return nil, fmt.Errorf("failed to update cluster size: %w", err)
-		}
-	}
-
-	return resp, nil
-}
-
-// CreateSnapshots forces the creation of snapshots on a node
-// This method is meant to be used by an Operator process only!
-func (c *Client) CreateSnapshots(ctx context.Context) error {
-	c.mu.RLock()
-	defer c.mu.RUnlock()
-
-	group, ctx := kitsync.NewEagerGroup(ctx, len(c.clients))
-	for nodeID, client := range c.clients {
-		group.Go(func() error {
-			req := &pb.CreateSnapshotsRequest{}
-
-			var err error
-			var resp *pb.CreateSnapshotsResponse
-			for i := 0; i <= c.config.RetryCount; i++ {
-				resp, err = client.CreateSnapshots(ctx, req)
-				if err == nil {
-					break
-				}
-
-				// If this is the last retry, return the error
-				if i == c.config.RetryCount {
-					return fmt.Errorf("failed to create snapshot on node %d: %w", nodeID, err)
-				}
-
-				// Wait before retrying
-				select {
-				case <-ctx.Done():
-					return ctx.Err()
-				case <-time.After(c.config.RetryDelay):
-				}
-			}
-
-			if !resp.Success {
-				return fmt.Errorf("failed to create snapshot on node %d: %w", nodeID, err)
-			}
-
-			return nil
-		})
-	}
-
-	return group.Wait()
-}
-
-// LoadSnapshots forces all nodes to load snapshots from cloud storage
-// This method is meant to be used by an Operator process only!
-func (c *Client) LoadSnapshots(ctx context.Context) error {
-	c.mu.RLock()
-	defer c.mu.RUnlock()
-
-	group, ctx := kitsync.NewEagerGroup(ctx, len(c.clients))
-	for nodeID, client := range c.clients {
-		group.Go(func() error {
-			req := &pb.LoadSnapshotsRequest{}
-
-			var err error
-			var resp *pb.LoadSnapshotsResponse
-			for i := 0; i <= c.config.RetryCount; i++ {
-				resp, err = client.LoadSnapshots(ctx, req)
-				if err == nil && resp != nil && resp.Success {
-					break
-				}
-
-				// If this is the last retry, return the error
-				if i == c.config.RetryCount {
-					errMsg := "unknown error"
-					if err != nil {
-						errMsg = err.Error()
-					} else if resp != nil {
-						errMsg = resp.ErrorMessage
-					}
-					return fmt.Errorf("failed to load snapshots on node %d: %s", nodeID, errMsg)
-				}
-
-				// Wait before retrying
-				select {
-				case <-ctx.Done():
-					return ctx.Err()
-				case <-time.After(c.config.RetryDelay):
-				}
-			}
-
-			return nil
-		})
-	}
-
-	return group.Wait()
-}
-
-// Scale changes the number of nodes in the cluster
-// This method is meant to be used by an Operator process only!
-func (c *Client) Scale(ctx context.Context, addresses ...string) error {
-	c.mu.Lock()
-	defer c.mu.Unlock()
-
-	newClusterSize := uint32(len(addresses))
-	if newClusterSize == c.clusterSize {
-		return nil // No change needed
-	}
-
-	// Handle case when newClusterSize is bigger
-	if newClusterSize > c.clusterSize {
-		// Establish new connections to the new nodes
-		for i := int(c.clusterSize); i < int(newClusterSize); i++ {
-			addr := addresses[i]
-			conn, err := grpc.NewClient(addr,
-				grpc.WithTransportCredentials(insecure.NewCredentials()),
-				grpc.WithContextDialer(func(ctx context.Context, addr string) (net.Conn, error) {
-					var dialer net.Dialer
-					return dialer.DialContext(ctx, "tcp", addr)
-				}),
-			)
-			if err != nil {
-				// Close any new connections we've made so far
-				for j := int(c.clusterSize); j < i; j++ {
-					if conn, ok := c.connections[j]; ok {
-						_ = conn.Close()
-						delete(c.connections, j)
-						delete(c.clients, j)
-					}
-				}
-				return fmt.Errorf("failed to connect to node %d at %s: %w", i, addr, err)
-			}
-
-			c.connections[i] = conn
-			c.clients[i] = pb.NewNodeServiceClient(conn)
-		}
-	} else if newClusterSize < c.clusterSize {
-		// Handle case when newClusterSize is smaller
-		// Close unnecessary connections
-		for i := int(newClusterSize); i < int(c.clusterSize); i++ {
-			if conn, ok := c.connections[i]; ok {
-				_ = conn.Close() // Ignore errors during close
-				delete(c.connections, i)
-				delete(c.clients, i)
-			}
-		}
-	}
-
-	// Send ScaleRequest to all nodes
-	group, ctx := kitsync.NewEagerGroup(ctx, len(c.clients))
-	for nodeID, client := range c.clients {
-		group.Go(func() error {
-			req := &pb.ScaleRequest{
-				NewClusterSize: newClusterSize,
-				NodesAddresses: addresses,
-			}
-
-			var err error
-			var resp *pb.ScaleResponse
-			for i := 0; i <= c.config.RetryCount; i++ {
-				resp, err = client.Scale(ctx, req)
-				if err == nil && resp != nil && resp.Success {
-					break
-				}
-
-				// If this is the last retry, save the error
-				if i == c.config.RetryCount {
-					errMsg := "unknown error"
-					if err != nil {
-						errMsg = err.Error()
-					} else if resp != nil {
-						errMsg = resp.ErrorMessage
-					}
-					return fmt.Errorf("failed to scale node %d: %s", nodeID, errMsg)
-				}
-
-				// Wait before retrying
-				select {
-				case <-ctx.Done():
-					return ctx.Err()
-				case <-time.After(c.config.RetryDelay):
-				}
-			}
-
-			return nil
-		})
-	}
-
-	err := group.Wait()
-	if err != nil {
-		return err
-	}
-
-	c.config.Addresses = addresses
-	c.clusterSize = newClusterSize
-
-	return nil
-}
-
-// ScaleComplete notifies a node that the scaling operation is complete
-// This method is meant to be used by an Operator process only!
-func (c *Client) ScaleComplete(ctx context.Context) error {
-	c.mu.RLock()
-	defer c.mu.RUnlock()
-
-	group, ctx := kitsync.NewEagerGroup(ctx, len(c.clients))
-	for nodeID, client := range c.clients {
-		group.Go(func() error {
-			req := &pb.ScaleCompleteRequest{}
-
-			// Send the request with retries
-			var err error
-			var resp *pb.ScaleCompleteResponse
-			for i := 0; i <= c.config.RetryCount; i++ {
-				resp, err = client.ScaleComplete(ctx, req)
-				if err == nil && resp != nil && resp.Success {
-					break
-				}
-
-				// If this is the last retry, return the error
-				if i == c.config.RetryCount {
-					return fmt.Errorf("failed to complete scale operation on node %d: %w", nodeID, err)
-				}
-
-				// Wait before retrying
-				select {
-				case <-ctx.Done():
-					return ctx.Err()
-				case <-time.After(c.config.RetryDelay):
-				}
-			}
-
-			return nil
-		})
-	}
-
-	return group.Wait()
-}
-
 // updateClusterSize updates the cluster size in a race-condition safe manner.
 // It takes a new cluster size and the current keys being processed.
 // It returns a slice of keys that need to be fetched again.
 
@@ -158,3 +158,5 @@ func (m *mockedCloudStorage) ListFilesWithPrefix(_ context.Context, _, _ string,
 func (m *mockedCloudStorage) UploadReader(_ context.Context, _ string, _ io.Reader) (filemanager.UploadedFile, error) {
 	return filemanager.UploadedFile{}, nil
 }
+
+func (m *mockedCloudStorage) Delete(_ context.Context, _ []string) error { return nil }
@@ -12,6 +12,7 @@ import (
 	"time"
 
 	"github.com/rudderlabs/keydb/client"
+	"github.com/rudderlabs/keydb/internal/operator"
 	"github.com/rudderlabs/rudder-go-kit/config"
 	"github.com/rudderlabs/rudder-go-kit/logger"
 	obskit "github.com/rudderlabs/rudder-observability-kit/go/labels"
@@ -43,7 +44,7 @@ func run(ctx context.Context, cancel func(), conf *config.Config, log logger.Log
 		Addresses:       strings.Split(nodeAddresses, ","),
 		TotalHashRanges: uint32(conf.GetInt("totalHashRanges", int(client.DefaultTotalHashRanges))),
 		RetryCount:      conf.GetInt("retryCount", client.DefaultRetryCount),
-		RetryDelay:      conf.GetDuration("retryDelay", 0, time.Nanosecond), // client.DefaultRetryDelay will be used
+		RetryDelay:      conf.GetDuration("retryDelay", 0, time.Second), // client.DefaultRetryDelay will be used
 	}
 	c, err := client.NewClient(clientConfig, log.Child("client"))
 	if err != nil {
@@ -54,6 +55,21 @@ func run(ctx context.Context, cancel func(), conf *config.Config, log logger.Log
 			log.Warnn("Failed to close client", obskit.Error(err))
 		}
 	}()
+	opRetryDelay := conf.GetDuration("operatorRetryDelay", int64(client.DefaultRetryDelay), time.Second)
+	op, err := operator.NewClient(operator.Config{
+		Addresses:       strings.Split(nodeAddresses, ","),
+		TotalHashRanges: uint32(conf.GetInt("totalHashRanges", int(client.DefaultTotalHashRanges))),
+		RetryCount:      conf.GetInt("operatorRetryCount", client.DefaultRetryCount),
+		RetryDelay:      opRetryDelay,
+	}, log.Child("operator"))
+	if err != nil {
+		return fmt.Errorf("failed to create operator: %w", err)
+	}
+	defer func() {
+		if err := op.Close(); err != nil {
+			log.Warnn("Failed to close operator", obskit.Error(err))
+		}
+	}()
 
 	log.Infon("Starting operator",
 		logger.NewIntField("totalHashRanges", int64(clientConfig.TotalHashRanges)),
@@ -68,7 +84,7 @@ func run(ctx context.Context, cancel func(), conf *config.Config, log logger.Log
 
 	// Create and start HTTP server
 	serverAddr := conf.GetString("serverAddr", ":8080")
-	server := newHTTPServer(c, serverAddr)
+	server := newHTTPServer(c, op, serverAddr, log)
 
 	// Start server in a goroutine
 	serverErrCh := make(chan error, 1)
Original file line number	Diff line number	Diff line change
`@@ -158,3 +158,5 @@ func (m *mockedCloudStorage) ListFilesWithPrefix(_ context.Context, _, _ string,`
`158`	`158`	`func (m *mockedCloudStorage) UploadReader(_ context.Context, _ string, _ io.Reader) (filemanager.UploadedFile, error) {`
`159`	`159`	`return filemanager.UploadedFile{}, nil`
`160`	`160`	`}`
	`161`	`+`
	`162`	`+func (m *mockedCloudStorage) Delete(_ context.Context, _ []string) error { return nil }`