CIS490/tools/run_fleet.py

"""``cis490-fleet`` — run as many concurrent labeled episodes as the
host can handle, drawing samples from the manifest.

Modes:

  --capacity     Print the resource calculation and exit. No VMs spawned.
  --waves N      Run N waves of episodes (one wave = max_concurrent
                 episodes, each in its own slot). Default: 1.
  --max-concurrent N
                 Cap concurrency below the auto-detected ceiling.
"""

from __future__ import annotations

import argparse
import json
import logging
import os
import signal
import sys
from pathlib import Path

# Allow running as a script.
sys.path.insert(0, str(Path(__file__).resolve().parent.parent))

from orchestrator.fleet import (  # noqa: E402
    FleetConfig, FleetRunner, capacity_report, detect_capacity,
)
from samples.manifest import SampleManifest  # noqa: E402


def main(argv: list[str] | None = None) -> int:
    p = argparse.ArgumentParser(prog="cis490-fleet")
    p.add_argument("--capacity", action="store_true")
    p.add_argument("--waves", type=int, default=1)
    p.add_argument("--max-concurrent", type=int, default=None)
    p.add_argument("--manifest",
                   default=str(Path(__file__).resolve().parent.parent / "samples" / "manifest.toml"))
    p.add_argument("--data-root", default="data")
    p.add_argument("--host-id", default=os.environ.get("FLEET_HOST_ID") or os.uname().nodename)
    p.add_argument("--ram-per-vm-mib", type=int, default=320)
    p.add_argument("--require-real-samples", action="store_true")
    p.add_argument("--log-level", default="INFO")
    args = p.parse_args(argv)

    logging.basicConfig(
        level=getattr(logging, args.log_level.upper(), logging.INFO),
        format="%(asctime)s %(levelname)s %(name)s %(message)s",
    )

    if args.capacity:
        print(capacity_report())
        return 0

    manifest = SampleManifest.load(args.manifest)
    repo_root = Path(__file__).resolve().parent.parent

    cfg = FleetConfig(
        host_id=args.host_id,
        repo_root=repo_root,
        data_root=Path(args.data_root).resolve(),
        manifest=manifest,
        ram_per_vm_mib=args.ram_per_vm_mib,
        max_concurrent_override=args.max_concurrent,
        require_real_samples=args.require_real_samples,
    )

    runner = FleetRunner(cfg)

    def _stop(signum, frame):  # noqa: ARG001
        runner.stop()
    signal.signal(signal.SIGTERM, _stop)
    signal.signal(signal.SIGINT, _stop)

    result = runner.run(episodes=args.waves)

    print(json.dumps({
        "host_id": args.host_id,
        "capacity": result.capacity.to_dict(),
        "slots": [
            {
                "slot": s.slot,
                "sample": s.sample_name,
                "sample_kind": s.sample_kind,
                "rc": s.rc,
                "duration_s": s.duration_s,
                "error": s.error,
            } for s in result.slots
        ],
        "total_duration_s": result.total_duration_s,
    }, indent=2))

    return 0 if all(s.rc == 0 for s in result.slots) else 1


if __name__ == "__main__":
    sys.exit(main())