SLD - Domain Mixture Scaling Law - gemini-cli + Gemini 3 Pro Preview

All Runs (sorted by R²)

Best Run 1 R² = 0.989423

▼

Python

import numpy as np

def law(input_data: list[dict[str, float]], group: str) -> list[dict[str, float]]:
    """
    Predicts output variables based on input variables according to a discovered scaling law.

    Args:
        input_data: A list of dictionaries, where each dictionary is a single data
                    point containing input variable names as keys and their
                    corresponding values.
        group: The name of the experimental group for which to make predictions.
                The functional form of the law must be the same for all groups,
                but the constant parameters/coefficients can differ per group.

    Returns:
        A list of dictionaries, corresponding to the input_data list, with each
        dictionary containing the predicted output variable(s).
    """
    
    # Fitted parameters for each group
    # Model: L_i = A * (sum_j T_ij * p_j)^(-alpha) + C
    PARAMS = {
  "70M": {
    "loss_domain_1": {
      "A": 1.4238451169174666,
      "alpha": 0.09398513070233284,
      "C": 1.1250493207278296,
      "T": [
        1.0,
        0.0028653843430912034,
        0.0,
        0.006560914041313572,
        0.007218091947616502
      ]
    },
    "loss_domain_2": {
      "A": 1.6028897145876133,
      "alpha": 0.18249317423847652,
      "C": 1.7098198790278034,
      "T": [
        0.13978044088307642,
        1.0,
        0.2888140021128257,
        0.09238120511024654,
        0.2702341876935682
      ]
    },
    "loss_domain_3": {
      "A": 1.3944974988308458,
      "alpha": 0.07536985492525757,
      "C": 1.4540031052227687,
      "T": [
        0.00042972756094378624,
        0.004428392340713848,
        1.0,
        0.0015108566548276629,
        0.004618708293329572
      ]
    },
    "loss_domain_4": {
      "A": 0.7156208007948365,
      "alpha": 0.14819891555573603,
      "C": 0.7188126729944071,
      "T": [
        0.004709723482930698,
        0.0,
        0.007159224662733469,
        1.0,
        0.006354517927118956
      ]
    },
    "loss_domain_5": {
      "A": 1.6903071983073346,
      "alpha": 0.07574314873996338,
      "C": 1.7459964167978976,
      "T": [
        0.0,
        0.1294716976819937,
        0.09092332659047013,
        0.014567119409274644,
        1.0
      ]
    }
  },
  "160M": {
    "loss_domain_1": {
      "A": 1.167794250478621,
      "alpha": 0.09893031045785339,
      "C": 1.0967302669578558,
      "T": [
        1.0,
        0.0,
        0.0,
        0.004702404391421327,
        0.006374420575153449
      ]
    },
    "loss_domain_2": {
      "A": 1.520792165137527,
      "alpha": 0.19100210139002716,
      "C": 1.4717790036178258,
      "T": [
        0.14117673959388272,
        1.0,
        0.30984366873545993,
        0.09323203270576641,
        0.2930905074144338
      ]
    },
    "loss_domain_3": {
      "A": 1.1827621056082325,
      "alpha": 0.08515955574666216,
      "C": 1.3810689151399624,
      "T": [
        0.0004496159377778205,
        0.005469210248664284,
        1.0,
        0.00014486145067144012,
        0.005546525753692289
      ]
    },
    "loss_domain_4": {
      "A": 0.5950466323744031,
      "alpha": 0.15657006642589474,
      "C": 0.6274992666731508,
      "T": [
        0.0038211623746128476,
        0.0,
        0.004047765748103023,
        1.0,
        0.006932201209717277
      ]
    },
    "loss_domain_5": {
      "A": 1.5374892790861532,
      "alpha": 0.08558831045269366,
      "C": 1.546810504279026,
      "T": [
        0.010196510229647623,
        0.04817027475788599,
        0.0331566521815975,
        0.07622206331237742,
        1.0
      ]
    }
  },
  "305M": {
    "loss_domain_1": {
      "A": 1.0636633714879822,
      "alpha": 0.1022580547558815,
      "C": 1.0643051121057456,
      "T": [
        1.0,
        0.0020628543899588276,
        0.0,
        0.005055971810713113,
        0.005517181906203229
      ]
    },
    "loss_domain_2": {
      "A": 1.5091813171571034,
      "alpha": 0.21086460000369067,
      "C": 1.317332273323408,
      "T": [
        0.1761437051777317,
        1.0,
        0.328313250063059,
        0.12228845673566739,
        0.3242993594399039
      ]
    },
    "loss_domain_3": {
      "A": 1.2930356452032414,
      "alpha": 0.06407715343277973,
      "C": 1.1862706116692965,
      "T": [
        0.00010662729851481288,
        0.0016648522472207873,
        1.0,
        0.0,
        0.002186394372089585
      ]
    },
    "loss_domain_4": {
      "A": 0.5311234622127226,
      "alpha": 0.16396855241073996,
      "C": 0.5956951080126597,
      "T": [
        0.0007484858832986562,
        0.0,
        0.0020986448436579866,
        1.0,
        0.0074776280923507365
      ]
    },
    "loss_domain_5": {
      "A": 1.4576330665204935,
      "alpha": 0.08684367375738934,
      "C": 1.4616723046222218,
      "T": [
        0.0,
        0.04878929729092485,
        0.027998535239229693,
        0.07915718776179,
        1.0
      ]
    }
  },
  "410M": {
    "loss_domain_1": {
      "A": 1.0716651256430547,
      "alpha": 0.0979215135041499,
      "C": 1.0023484878829527,
      "T": [
        1.0,
        0.0,
        0.0,
        0.003578328625604031,
        0.00520215592199023
      ]
    },
    "loss_domain_2": {
      "A": 1.4082722528529894,
      "alpha": 0.21260676990383326,
      "C": 1.3641437773794949,
      "T": [
        0.16418103324714028,
        1.0,
        0.37481870992512745,
        0.09587346431048725,
        0.32578174634303375
      ]
    },
    "loss_domain_3": {
      "A": 1.3149711554737487,
      "alpha": 0.062094311988635076,
      "C": 1.1032193950712292,
      "T": [
        0.0,
        0.001564258864235631,
        1.0,
        8.56970983439856e-05,
        0.0018986297882148968
      ]
    },
    "loss_domain_4": {
      "A": 0.49842678668584145,
      "alpha": 0.1778525216820956,
      "C": 0.5822681110448701,
      "T": [
        0.0060231123550343905,
        0.0007592880970631944,
        0.0026719690465761368,
        1.0,
        0.0086213744689824
      ]
    },
    "loss_domain_5": {
      "A": 3.233311673093248,
      "alpha": 0.04148885832669186,
      "C": -0.39223243148328407,
      "T": [
        0.01291802719802647,
        0.0,
        0.3021193873339115,
        0.0,
        1.0
      ]
    }
  }
}

    if group not in PARAMS:
        raise ValueError(f"Unknown group: {group}")
        
    group_params = PARAMS[group]
    predictions = []
    
    for item in input_data:
        pred_item = {}
        
        # Extract proportions vector p
        # Assuming keys are 'proportion_domain_1' to 'proportion_domain_5'
        p = np.array([
            item.get('proportion_domain_1', 0.0),
            item.get('proportion_domain_2', 0.0),
            item.get('proportion_domain_3', 0.0),
            item.get('proportion_domain_4', 0.0),
            item.get('proportion_domain_5', 0.0)
        ])
        
        # Compute loss for each domain
        for i in range(1, 6):
            domain_key = f"loss_domain_{i}"
            if domain_key in group_params:
                params = group_params[domain_key]
                A = params["A"]
                alpha = params["alpha"]
                C = params["C"]
                T = np.array(params["T"])
                
                # Effective proportion
                p_eff = np.dot(p, T)
                # Handle effectively zero
                p_eff = max(p_eff, 1e-9)
                
                loss_pred = A * (p_eff ** -alpha) + C
                pred_item[domain_key] = loss_pred
                
        predictions.append(pred_item)
        
    return predictions

#2 Run 2 R² = 0.970854

▼

Python

import math

def law(input_data: list[dict[str, float]], group: str) -> list[dict[str, float]]:
    """
    Predicts output variables based on input variables according to a discovered scaling law.

    Args:
        input_data: A list of dictionaries, where each dictionary is a single data
                    point containing input variable names as keys and their
                    corresponding values.
        group: The name of the experimental group for which to make predictions.
                The functional form of the law must be the same for all groups,
                but the constant parameters/coefficients can differ per group.

    Returns:
        A list of dictionaries, corresponding to the input_data list, with each
        dictionary containing the predicted output variable(s).
    """
    
    # Parameters fitted: L = c0 + c1 * (p + c2)^(-c3)
    # params structure: group -> domain -> [c0, c1, c2, c3]
    params = {
    '70M': {
        'loss_domain_1': [9.049791064506775e-16, 2.544863255075162, 0.005023335215394096, 0.055546740330062044],
        'loss_domain_2': [2.7486656945851666, 0.8246899154131252, 0.010080775042703558, 0.05659733424323028],
        'loss_domain_3': [5.985319537346353e-07, 2.9005808574645533, 0.001151070479839812, 0.031946298634857095],
        'loss_domain_4': [1.2590153991726705, 0.21220778772640178, 0.011700299738268685, 0.3501422357655192],
        'loss_domain_5': [3.2198538792667297, 0.23277138740838701, 0.10173862328204047, 0.48926338453846824],
    },
    '160M': {
        'loss_domain_1': [7.921177091134831e-11, 2.2603061159513467, 0.0038345630816795984, 0.05446415324935802],
        'loss_domain_2': [2.4461406598589988, 0.8195058967138309, 0.0038249028744246735, 0.04037177211421319],
        'loss_domain_3': [7.510940516965377e-07, 2.631246343363198, 0.00094573078880027, 0.03188902494410328],
        'loss_domain_4': [8.674987985071811e-15, 1.2132115807783543, 0.003771920704982149, 0.0862384287195669],
        'loss_domain_5': [4.666662783752345e-17, 3.0865366503919907, 0.03318950890733831, 0.04470214262740694],
    },
    '305M': {
        'loss_domain_1': [4.63396739841804e-14, 2.123388567522197, 0.0034713501822073336, 0.05491740702600626],
        'loss_domain_2': [2.3349069954135566, 0.7673802246129325, 0.006222133135954493, 0.04638693162532186],
        'loss_domain_3': [6.593427727187525e-13, 2.510346003736797, 0.00052546156955814, 0.030293831005327836],
        'loss_domain_4': [4.9747859075972676e-08, 1.117572915518561, 0.003698166118962751, 0.08835480936682777],
        'loss_domain_5': [1.2908709077742297, 1.6311412445258724, 0.03310495146187288, 0.08014352579523258],
    },
    '410M': {
        'loss_domain_1': [6.45159383764858e-15, 2.0701727493297715, 0.0030243803942285714, 0.05400686896572349],
        'loss_domain_2': [2.2870399938680213, 0.7634132483462176, 0.0017345344382877009, 0.033273045391567696],
        'loss_domain_3': [3.4557544039691014e-07, 2.4440410784149362, 0.0005010731785675117, 0.03121240344669886],
        'loss_domain_4': [0.7411064514872984, 0.35914458865064114, 0.007467419826885272, 0.21677194222721097],
        'loss_domain_5': [4.776331691474593e-12, 2.8437345217824648, 0.0273606303463639, 0.047494879619303806],
    },
}
    
    if group not in params:
        raise ValueError(f"Unknown group: {group}")
        
    group_params = params[group]
    predictions = []
    
    for row in input_data:
        pred_row = {}
        for d in range(1, 6):
            input_key = f"proportion_domain_{d}"
            output_key = f"loss_domain_{d}"
            
            p = row.get(input_key, 0.0)
            
            # Retrieve parameters for this domain
            c0, c1, c2, c3 = group_params[output_key]
            
            # Calculate L = c0 + c1 * (p + c2)^(-c3)
            # Use math.pow for single scalar power
            loss = c0 + c1 * math.pow(p + c2, -c3)
            
            pred_row[output_key] = loss
            
        predictions.append(pred_row)
        
    return predictions