simon-mo · September 20, 2022 20:56 · sihanwang41 · Sep 20, 2022
diff --git a/README.md b/README.md
diff --git a/app.py b/app.py
 from ray import serve
 from functools import lru_cache
 from fastapi import FastAPI
 from ray.serve.context import get_internal_replica_context

 app = FastAPI()


 class Model:
    def __init__(self, model_id):
        self.model_id = model_id

    def predict(self):
        return self.model_id


 @lru_cache(maxsize=32)
 def load_model(model_id):
    return Model(model_id)


 @serve.deployment
 @serve.ingress(app)
 class MultiplexedModels:
    @app.post("/predict/{model_id}")
    def predict(self, model_id: str):
        model = load_model(model_id)
        return {
            "result": model.predict(),
            "cache_stats": load_model.cache_info()._asdict(),
            "replica_id": get_internal_replica_context().replica_tag,
        }


 entrypoint = MultiplexedModels.options(
    autoscaling_config={"min_replicas": 1, "max_replicas": 4},
    route_prefix="/",
 ).bind()
	from ray import serve
	from functools import lru_cache
	from fastapi import FastAPI
	from ray.serve.context import get_internal_replica_context

	app = FastAPI()


	class Model:
	def __init__(self, model_id):
	self.model_id = model_id

	def predict(self):
	return self.model_id


	@lru_cache(maxsize=32)
	def load_model(model_id):
	return Model(model_id)


	@serve.deployment
	@serve.ingress(app)
	class MultiplexedModels:
	@app.post("/predict/{model_id}")
	def predict(self, model_id: str):
	model = load_model(model_id)
	return {
	"result": model.predict(),
	"cache_stats": load_model.cache_info()._asdict(),
	"replica_id": get_internal_replica_context().replica_tag,
	}


	entrypoint = MultiplexedModels.options(
	autoscaling_config={"min_replicas": 1, "max_replicas": 4},
	route_prefix="/",
	).bind()